Vous êtes sur la page 1sur 20

Analyse des donnes.

ANALYSE EN COMPOSANTES PRINCIPALES (ACP)

1. INTRODUCTION. Lanalyse en composantes principales (Hotelling, 1933) est une mthode descriptive qui a pour but lanalyse des tableaux de donnes qui ne prsentent pas de structure particulire, cest dire, des observations ne comportant priori aucune distinction, ni entre variables, ni entre individus. lobjectif de lACP est de rsumer linformation contenue dans un tableau, constitu souvent dun nombre lev de lignes et de colonnes, en quelques reprsentations graphiques deux dimensions, plus un certain nombre de caractristiques numriques destines faciliter. LACP est utilise Dans le cas plusieurs individus (n individus) mesurs par rapport un grand nombre de variables mtriques X1, X 2,....,X p . Ces variables sont la plupart du temps corrles entre elles et dtiennent des parts peu prs gales dexplication des variations observes dans les donnes.

De point de vue gomtrique, le nuage de points reprsentant les donnes sinscrit dans un espace p dimensions puisque chaque

Analyse des donnes.

point reprsente un individu mesur par rapport X1, X 2,....,X p , ce qui est pratiquement impossible reprsenter. En plus la dispersion du nuage de points sur les diffrentes dimensions est peu prs gale. Pour rsoudre le problme, lACP effectue une simple rotation des axes pour obtenir de nouveaux axes appels composantes qui sont non corrles et sont variance ordonne. Pour illustrer le principe de lACP, considrons le cas dun nuage de points hypothtiques pour 2 variables normales centres rduites (moyennes nulles et variances unitaires) X1 et X 2 .

Figure 1 : Nuage de donnes hypothtiques dans un espace 2 dimensions Chaque point reprsente un individu mesur par rapport X1 et X 2 , on voit bien une corrlation positive entre les 2 variables . La variance totale, V( X1 )+V( X 2 )=2, est partage peu prs galement entre X1 et X 2 .

Analyse des donnes.

Lanalyse en composantes effectue une rotation rigide des axes pour obtenir deux nouveaux axes Y1 et Y2 appels composantes. La figure 2 indique que cest selon Y1 que la variation dans les donnes est maximale, tandis quelle est minimale selon Y2. Les 2 composantes sont non corrles, la dispersion sur Y1 est beaucoup plus forte que celle sur Y2 les composantes sont donc variance ordonne.

Figure 2 : Rotation orthogonale des axes dans un espace 2 dimensions De faon gnrale, lanalyse en composantes principales permet dobtenir de nouvelles variables, appeles composantes, qui seront non corrles et variance ordonne. Un petit nombre de ces composantes permettra souvent dexpliquer la plus grande partie de la variance observe. Ce petit nombre de ces composantes sont appeles composantes principales.

Analyse des donnes.

2. CALCUL ET INTERPRETATION DES COMPOSANTES. On dispose de n individus caractriss par p variables mtriques. Les donnes se reprsentent sous la forme dun tableau appel matrice des donnes de dimensions n p. Les p variables sont le plus souvent de nature diffrente, cest la raison pour laquelle les variables seront centres et rduites pour homogniser les units. On remplace les variables initiales par les variables centres rduites correspondantes, lanalyse portera donc sur la matrice X des donnes centres rduites. A partir des variables initiales, lACP consiste calculer des nouvelles variables, appeles composantes et qui sont des combinaisons linaires des variables initiales. Ces composantes sont non corrles et de variance ordonne, un nombre rduit de ces composantes rsume les variables initiales en minimisant la perte dinformation due cette rduction.. On dfinit la premire composante C1 comme une combinaison linaire des variables centres rduites X1, X 2,....,X p :
C1 a11X1 a 21X 2 ...a p1X p Telle que la variance de C1 soit maximale. La deuxime composante C2 est aussi une combinaison linaire des mmes variables : C2 a12X1 a 22X 2 ...a p2X p telle que C2 est non corrle avec

C1 corrlation ( C1, C2 ) = 0, et C2 possde la variance maximale parmi toutes les combinaisons linaires qui ne sont pas corrles avec C1 . Il en est ainsi pour les autres

Analyse des donnes.

composantes C3, C4,....,Cp , chacune d'elles ayant variance maximale parmi toutes les combinaisons linaires de X1, X 2,....,X p qui ne sont pas corrles avec les composantes prcdentes. On dmontre que les variances correspondant aux composantes sont les valeurs propres positifs de la matrice de corrlation et les vecteurs propres correspondants fournissent les coefficients tre attribues aux variables X1, X 2,....,X p pour constituer ces combinaisons linaires appeles composantes. Les composantes sont toujours de moyennes nulles et de variances gales aux valeurs propres ordonns : 1 2 ..... p 0 . i la valeur propre exprime en pourcentage indique le p pourcentage de la variance totale explique par la composante Ci . Ces pourcentages cumuls
1 1 2 1 2 3 , , , etc. indiquent le p p p

pourcentage de la variance totale explique par la premire composante, les deux premires composantes, les trois premires composantes, etc. 3. INTERPRETATION DES RESULTATS DE LACP. Le principe dune ACP est donc de remplacer les variables initiales, gnralement corrles, par des variables non corrles de variances progressivement dcroissantes, les premires pouvant faire lobjet dune interprtation particulire et les dernires pouvant tre ngliges. Lanalyse en composantes principales passe par les tapes suivantes :

Analyse des donnes.

3.1. Reprage des observations aberrantes. Les individus pour lesquels des donnes sont manquantes, aussi les donnes aberrantes ou extrmes influencent la moyenne et la variance et risquent de fausser lanalyse, do la ncessit de leur limination. 3.2. Matrice de corrlation des variables initiales. Lanalyse de la matrice de corrlation permet didentifier des groupes de variables corrles entre elles. Plus on identifie de corrlation, plus lACP donnera des axes factoriels reprsentatifs des observations et donc une forte reprsentation de linformation par les axes. 3.3. Choix des composantes principales. Une rgle empirique, celle-ci due Cattell (1966) et appele test du talus (scree test) se fonde sur le graphique des valeurs propres de R en fonction de leur rang; habituellement, la dcroissance est rapide au dbut et lente par la suite. On retiendra les composantes dont les valeurs propres correspondantes sont audessus de la droite joignant les dernires valeurs propres. Par exemple, si le graphique avait lallure suivante:

Analyse des donnes.


Graphique des valeurs propres
4

Valeur propre

0 1 2 3 4 5 6 7 8 9

Numro de composant

on aurait retenu une seule composante selon Cattell, et 4 selon Kaiser. 3.4. Interprtation des axes factoriels. On se base sur les corrlations entre les composantes principales et les variables initiales, ces corrlations peuvent tre reprsentes par un graphique appel cercle de corrlation. On cherche les variables initiales qui sont fortement corrles avec les axes, ce qui permet de donner une interprtation aux axes. Il faut regarder le niveau de corrlation de la variable avec laxe ainsi que le sens de la corrlation (positive ou ngative). 3.5. Reprsentation des individus. Les coordonnes en composantes (factor scores), c'est--dire les cordonnes des individus sur les composantes principales C1, C2,....,Cr , o r p, peuvent tre reprsents graphiquement afin examines afin dtablir dune part des liens entre les variables et les individus et dautre part, effectuer une typologie.

Analyse des donnes.

4. APPLICATION NUMERIQUE. Etude du comportement bancaire des clients dune banque. Une agence bancaire ralise une tude visant mieux connatre la situation et le comportement de sa clientle partir des donnes figurant dans ses fichiers informatiques de gestion. Elle a constitu un chantillon de 50 clients titulaires dun compte courant appartenant des mnages diffrents. Pour dcrire lchantillon, lagence a relev 11 variables quantitatives exprimant leur comportement bancaire :

SOLDE : Solde moyen du compte. CHEQUE : Montant moyen des chques tirs lors du dernier semestre. NB_DEC : Nombre de mois avec dcouvert lors de lanne prcdente. MT_DEC : Montant cumul des dcouverts lors de lanne prcdente. NB_PR : Nombre de produits de la banque utiliss en plus du compte courant. NB_EMP : Nombre demprunts divers effectus lors des cinq dernires annes. MT_EMP : Montant total des emprunts effectus lors des cinq dernires annes. P_VA_D_E : Pourcentage de variation des dpts dpargne pour les douze derniers mois. MT_DEP_E : Montant total des dpts sur les comptes dpargne effectus lors de lanne prcdente. MT_RET_E : Montant total des retraits sur les comptes dpargne effectus lors de lanne prcdente. P_VA_R_E : Pourcentage de variation des retraits sur les comptes dpargne pour les douze derniers mois.

Analyse des donnes.

Les informations collectes sont rassembles dans le tableau suivant :


client SOLDE 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 2305 15259 1236 8241 6210 6871 1580 9630 4230 3620 10258 23698 3698 231 501 3693 963 15802 502 7896 23698 27896 5687 1269 3687 9631 75632 5523 6984 85214 4235 3691 4563 2587 3654 547 5821 12587 6981 25871 15236 12369 4563 12258 7529 6987 CH NB_DEC MT_DEC NB_PR NB_ MT_EMP P_VA MT_ MT_RET_E P_VA EQUE EMP _D_E DEP_E _R_E 253 7 2,3 0 1 8,5 -2 3,1 ,7 3 1024 0 ,0 3 1 25,0 9 500 ,0 0 156 10 5,4 1 0 ,0 3 6,0 2,0 1 455 1 ,1 6 4 210,0 4 32,0 36,0 3 1022 2 ,3 5 3 113,0 3 150 80,5 2 321 1 3,0 6 4 200,0 3 125 98,0 3 150 9 6,1 2 1 8,0 2 6,5 5,5 1 562 1 4,0 5 3 111,0 4 225 110,5 2 63 3 2,7 2 0 ,0 1 5,1 20,0 -3 84 5 9,8 1 1 81,0 -3 7,2 3,1 8 1255 0 ,0 6 4 310,0 5 252 253,7 3 52 1 2,9 2 0 ,0 12 523 2,0 1 854 0 ,0 1 1 5,0 -2 1,5 3,2 1 68 12 8,9 1 0 ,0 -1 ,5 ,1 0 255 0 ,0 1 1 5,0 -3 10,2 10,1 1 24 0 ,0 2 0 ,0 2 1,2 21,5 2 92 1 ,9 1 0 ,0 -1 105 6,1 -1 1122 0 ,0 2 0 ,0 10 611 ,1 -1 751 6 3,0 2 2 8,5 1 61,2 ,8 6 1236 1 6,0 6 3 250,7 3 188 98,1 3 969 0 ,0 3 0 ,0 12 916 8,1 -1 425 1 2,3 3 0 ,0 15 523 ,0 0 303 1 3,6 5 3 155,0 3 261 110,0 2 451 0 ,0 1 2 15,0 -1 51,3 5,1 3 152 3 ,6 2 1 25,0 -2 ,1 52,0 -3 147 0 ,0 2 0 ,0 9 656 ,0 0 954 0 ,0 3 0 ,0 13 889 ,0 0 136 1 1,2 5 4 110,1 5 110 110,5 2 254 2 ,3 4 3 125,1 3 131 85,1 3 2360 0 ,0 3 0 ,0 9 633 1,0 -1 258 1 ,4 4 1 30,0 -2 32,7 13,6 1 1025 2 2,0 3 0 ,0 1 52,0 ,1 3 655 3 ,2 4 0 ,0 -2 12,0 10,8 7 489 0 ,0 3 0 39,1 4 65,7 45,1 -1 257 4 ,4 1 8 25,6 -2 ,5 42,5 -1 98 0 ,0 2 2 25,0 6 72,5 ,1 7 1025 0 ,0 5 3 110,0 4 115 135,2 4 587 0 ,0 3 0 ,0 8 452 5,0 1 163 1 3,0 4 3 98,0 3 92,3 85,2 2 125 0 ,0 3 0 ,0 11 754 ,1 0 254 0 ,0 6 3 221,0 3 123 97,0 2 128 0 ,0 3 0 ,0 9 651 ,0 0 962 8 5,6 3 0 ,0 -1 23,1 9,2 2 2301 0 ,0 3 1 15,0 8 591 10,0 1 587 0 ,0 5 2 200,0 3 117 81,0 5 1027 1 ,4 6 30 158,0 4 165 80,1 -1

Analyse des donnes.


47 48 49 50 9632 3654 25412 3654 238 1456 698 150 1 0 0 1 ,8 ,0 ,0 ,9 4 2 2 0 2 5 0 0 151,0 65,0 ,0 ,0 3 -1 12 -2 127 65,0 658 7,0 77,0 6,0 ,0 42,0 2 2 -1 9

La procdure SPSS pour effectuer lanalyse en composantes principales est la suivante : - Analyse Factorisation Analyse factorielle - Dans Variables, slectionner toutes les variables mtriques factoriser. - Dans Caractristiques, cocher caractristiques uni varies et coefficients de corrlation. - Dans Extraction, cocher Graphique des valeurs propres et dans nombre de facteurs saisissez 2. - Dans Facteurs, cocher Enregistrer dans des variables. - Dans Rotation, cocher Carte factorielle. - Dans Option, cocher Classement des variables par taille et Supprimer les valeurs absolues infrieures 0,10 ; ceci permettra de slectionner les variables les plus importantes et cacher celles qui nexpliquent pas les dimensions. Les rsultats de lanalyse sont :

Analyse des donnes.

a) Statistiques descriptives des variables.


Statistiques descriptives Moyenne 10869,52 568,66 1,80 1,542 3,04 2,04 58,072 3,70 223,176 37,276 1,68 Ecart-type 16017,19 536,72 2,88 2,395 1,71 4,39 81,577 4,81 268,598 51,412 2,57 n analyse 50 50 50 50 50 50 50 50 50 50 50

SOLDE CHEQUE NB_DEC MT_DEC NB_PR NB_EMP MT_EMP P_VA_D_E MT_DEP_E MT_RET_E P_VA_R_E

En rapportant lcart type la moyenne, on peut conclure que toutes les variables sont trs disperses, ce qui indique un comportement trs htrogne des clients. b) Matrice de corrlation des variables initiales.

Analyse des donnes.


Matrice de corrlation

SOLDE CHEQUE NB_DEC MT_DEC NB_PR NB_EMP MT_EMP P_VA_D_E MT_DEP_E MT_RET_E P_VA_R_E Corrlation SOLDE 1,000 ,450 -,293 -,223 ,087 -,130 -,138 ,634 ,704 -,154 -,295 CHEQUE ,450 1,000 -,256 -,239 ,244 ,129 ,095 ,247 ,346 ,067 -,088 NB_DEC -,293 -,256 1,000 ,745 -,346 -,075 -,218 -,409 -,425 -,216 ,066 MT_DEC -,223 -,239 ,745 1,000 -,136 -,090 ,027 -,282 -,310 -,054 ,191 NB_PR,087 ,244 -,346 -,136 1,000 ,393 ,805 ,217 ,067 ,709 ,063 NB_EMP -,130 ,129 -,075 -,090 ,393 1,000 ,411 -,100 -,165 ,343 -,066 MT_EMP -,138 ,095 -,218 ,027 ,805 ,411 1,000 -,083 -,214 ,847 ,253 P_VA_D_E ,634 ,247 -,409 -,282 ,217 -,100 -,083 1,000 ,890 -,089 -,348 MT_DEP_E ,704 ,346 -,425 -,310 ,067 -,165 -,214 ,890 1,000 -,207 -,393 MT_RET_E -,154 ,067 -,216 -,054 ,709 ,343 ,847 -,089 -,207 1,000 ,169 P_VA_R_E -,295 -,088 ,066 ,191 ,063 -,066 ,253 -,348 -,393 ,169 1,000

Dans lensemble, les variables sont faiblement corrles entre elles. On note cependant une corrlation relativement forte entre Pourcentage de variation des dpts dpargne pour les douze derniers mois et montant total des dpts sur les comptes dpargne effectus lors de lanne prcdente. c) Choix des composantes principales.

Analyse des donnes.


Variance explique totale Valeurs propres initiales % de la Composante Total variance == % cumuls 1 3,436 31,237 31,237 2 3,037 27,607 58,844 3 1,170 10,639 69,483 4 ,991 9,007 78,489 5 ,870 7,911 86,400 6 ,544 4,943 91,343 7 ,339 3,082 94,425 8 ,228 2,075 96,500 9 ,205 1,859 98,359 10 ,101 ,917 99,277 11 7,956E-02 ,723 100,000 Sommes des carrs charges % de la Total variance == % cumuls 3,436 31,237 31,237 3,037 27,607 58,844

Mthode d'extraction : Analyse des principaux composants.

SPSS a calcul 11 composantes, la premire a une valeur propre , cest dire variance de 3,436 qui reprsente 31,237 % de la variance totale des variables initiales. Les 2 premires composantes contribuent, ensemble, 58,844 % de la variance initiale.

Analyse des donnes.


Graphique des valeurs propres
4

Valeur propre

0 1 2 3 4 5 6 7 8 9 10 11

Numro de composant

Selon le graphique des valeurs propres, on peut retenir deux composantes principales. En effet, la diffrence de variance entre la deuxime composante et la troisime est trs importante.

Analyse des donnes.


Qualit de reprsentation Initial solde moyen du compte courant montant moyen des chques tirs lors du dernier semestre nombre de mois avec dcouvert sur le compte courant lors de l'anne prcdante montant cumul des dcouverts sur le compte couranr lors de l'anne prcdante (en milliers) nombre de produits de la banque utiliss en plus du compte courant nombre d'emprunts divers effectus lors des 5 dernires annes montant total des emprunts effectus lors des 5 dernires annes (en milliers) pourcentage de variation des dpts d'pargne pour les 12 derniers mois montant total des dpts sur les comptes d'pargne effectus lors de l'anne prcdante (en milliers) montant total des retraits sur les comptes d'pargne effectus lors de l'anne prcdante (en milliers) pourcentage de variation des retraits sur les comptes d'pargne pour les 12 derniers mois 1,000 1,000 Extraction ,632 ,301

1,000

,557

1,000

,365

1,000

,806

1,000

,314

1,000

,877

1,000

,730

1,000

,840

1,000

,792

1,000

,258

Mthode d'extraction : Analyse des principaux composants.

Analyse des donnes.

La qualit de reprsentation exprime la part de la variance des variables initiales qui est restitue par les composantes retenues. Ainsi les deux composantes contribuent 63,2% de la variance du solde moyen du compte courant. Les deux composantes sont suffisantes pour synthtiser les variances de la majorit des variables. Les variables pourcentage de variation des retraits sur les comptes dpargne pour les douze derniers mois, nombre demprunts divers effectus lors des cinq dernires annes, montant cumul des dcouverts lors de lanne prcdente et montant moyen des chques tirs lors du dernier semestre ne sont pas bien prises en compte par les deux composantes retenues, ce qui suggre lexistence dune ou plusieurs autres composantes principales pertinentes. d) Interprtation des axes factoriels.

Analyse des donnes.


Matrice des composantes
a

Composante 1 montant total des dpts sur les comptes d'pargne effectus lors de l'anne prcdante (en milliers) pourcentage de variation des dpts d'pargne pour les 12 derniers mois solde moyen du compte courant nombre de mois avec dcouvert sur le compte courant lors de l'anne prcdante montant cumul des dcouverts sur le compte couranr lors de l'anne prcdante (en milliers) montant moyen des chques tirs lors du dernier semestre pourcentage de variation des retraits sur les comptes d'pargne pour les 12 derniers mois montant total des emprunts effectus lors des 5 dernires annes (en milliers) montant total des retraits sur les comptes d'pargne effectus lors de l'anne prcdante (en milliers) nombre de produits de la banque utiliss en plus du compte courant nombre d'emprunts divers effectus lors des 5 dernires annes 2

,891

-,217

,850 ,779 -,159

-,660

-,349

-,583

-,157

,518

,181

-,445

,244

,934

,888

,250

,862

,560

Mthode d'extraction : Analyse en composantes principales. a. 2 composantes extraites.

Analyse des donnes.

Diagramme de composantes
1,0 mt_emp mt_ret_e nb_pr

nb_emp ,5 p_va_r_e cheque p_va_d_e solde mt_dep_e

0,0 mt_dec nb_dec

Composante 2

-,5

-1,0 -1,0 -,5 0,0 ,5 1,0

Composante 1

La matrice des composantes ou le diagramme des composantes, indiquent les corrlations des variables initiales avec les composantes principales. Ainsi la premire composante est fortement corrle positivement avec Montant total des dpts sur les comptes dpargne effectus lors de lanne prcdente, Pourcentage de variation des dpts dpargne pour les douze derniers mois et Solde moyen du compte. Elle est corrle ngativement avec Nombre de mois avec dcouvert lors de lanne prcdente et Montant cumul des dcouverts lors de lanne prcdente. On peut donc conclure que la premire composante met en opposition deux catgories de clients de comportements totalement oppos, dun ct, une catgorie de

Analyse des donnes.

clients quon peut qualifier dpargnants et dun autre ct, une deuxime catgorie de clients quon peut qualifier de dpensiers. La deuxime composante est fortement corrle avec Nombre demprunts divers effectus lors des cinq dernires annes, Montant total des retraits sur les comptes dpargne effectus lors de lanne prcdente et Nombre de produits de la banque utiliss en plus du compte courant. On peut comprendre de ces trois variables quil sagit dun comportement dinvestissement. Cette deuxime composantes principales permet de distinguer une troisime catgories de clients quon peut qualifier dinvestisseurs. e) Reprsentation des individus. La procdure SPSS pour laborer le graphe des individus est la suivante : - Slectionner dans le menu Graphes, Diagramme de disperssion. - Cliquer sur dfinir. - Faire glisser la variable REGR Factor Score 1 dans laxe X et REGR Factor Score 2 dans laxe Y. - Faire glisser la variable CLIENT vers tiqueter les observations par afin dafficher les numros des clients. - Cliquer sur Options et cocher Afficher le diagramme avec les tiquettes dobservations .

Analyse des donnes.


4

11 3

46 2 20 41 6 45 4 37 23 28 85 29 47 39 33 31 35 36 25 32 16 50 24 19 15 13 43 9 17 48 34 44 38 2 42 18 21 40 26 22 49 12 30 27

REGR factor score 2 for analysis

0 10 -1 7 1 3

14

-2 -3 -2 -1 0 1 2 3

REGR factor score 1 for analysis

Le graphe des individus indique que les clients 30 et 27 reprsentent les plus grands pargnants, les clients 10 et 14 sont des grands dpensiers alors que les clients 11 et 46 sont des grands investisseurs. Les clients proches du barycentre sont des clients dont le comportement nest pas trs bien dfinit.