Chapitre 6

Analyse des données.
CHAPITRE 6. ANALYSE EN COMPOSANTES PRINCIPALES (ACP)
6.1. INTRODUCTION.
L’analyse en composantes principales (Hotelling, 1933) est une méthode descriptive qui a pour but
l’analyse des tableaux de données qui ne présentent pas de structure particulière, c’est à dire, des
observations ne comportant à priori aucune distinction, ni entre variables, ni entre individus.
l’objectif de l’ACP est de résumer l’information contenue dans un tableau, constitué souvent d’un
nombre élevé de lignes et de colonnes, en quelques représentations graphiques à deux dimensions,
plus un certain nombre de caractéristiques numériques destinées à faciliter .
L’ACP est utilisée Dans le cas plusieurs individus (n individus) mesurés par rapport à un grand nombre
de variables métriques X1, X 2,....,X p . Ces variables sont la plupart du temps corrélées entre elles et
détiennent des parts à peu près égales d’explication des variations observées dans les données.
De point de vue géométrique, le nuage de points représentant les données s’inscrit dans un espace à p
dimensions puisque chaque point représente un individu mesuré par rapport à X1, X 2,....,X p , ce qui est
pratiquement impossible à représenter. En plus la dispersion du nuage de points sur les différentes
dimensions est à peu près égale. Pour résoudre le problème, l’ACP effectue une simple rotation des
axes pour obtenir de nouveaux axes appelés composantes qui sont non corrélées et sont à variance
ordonnée.
Pour illustrer le principe de l’ACP, considérons le cas d’un nuage de points hypothétiques pour 2
variables normales centrées réduites (moyennes nulles et variances unitaires) X1 et X 2 .
Figure 1 : Nuage de données hypothétiques dans un espace à 2 dimensions

1 Adil ELMARHOUM
Chaque point représente un individu mesuré par rapport à X1 et X 2 , on voit bien une corrélation
positive entre les 2 variables . La variance totale, V( X1 )+V( X 2 )=2, est partagée à peu près également
entre X1 et X 2 .
l’analyse en composantes effectue une rotation rigide des axes pour obtenir deux nouveaux axes Y1 et
Y2 appelés composantes. La figure 2 indique que c’est selon Y1 que la variation dans les données est
maximale, tandis qu’elle est minimale selon Y2. Les 2 composantes sont non corrélées, la dispersion
sur Y1 est beaucoup plus forte que celle sur Y2 les composantes sont donc à variance ordonnée.
Figure 2 : Rotation orthogonale des axes dans un espace à 2 dimensions
De façon générale, l’analyse en composantes principales permet d’obtenir de nouvelles variables,

appelées composantes, qui seront non corrélées et à variance ordonnée. Un petit nombre de ces
composantes permettra souvent d’expliquer la plus grande partie de la variance observée. Ce petit
nombre de ces composantes sont appelées composantes principales.
6.2. CALCUL ET INTERPRETATION DES COMPOSANTES.
On dispose de n individus caractérisés par p variables métriques. Les données se représentent sous la
forme d’un tableau appelé matrice des données de dimensions n × p.
Les p variables sont le plus souvent de nature différente, c’est la raison pour laquelle les variables
seront centrées et réduites pour homogénéiser les unités. On remplace les variables initiales par les
variables centrées réduites correspondantes, l’analyse portera donc sur la matrice X des données
centrées réduites.
A partir des variables initiales, l’ACP consiste à calculer des nouvelles variables, appelées
composantes et qui sont des combinaisons linéaires des variables initiales. Ces composantes sont non
corrélées et de variance ordonnée, un nombre réduit de ces composantes résume les variables initiales
en minimisant la perte d’information due à cette réduction..
2 Adil ELMARHOUM
On définit la première composante C1 comme une combinaison linéaire des variables centrées réduites
X1, X 2,....,X p :
C1 =a11X1 +a 21X 2 +...+a p1X p telle que la variance de C1 soit maximale.

La deuxième composante C2 est aussi une combinaison linéaire des mêmes variables :
C2 =a12X1 +a 22X 2 +...+a p2X p telle que C2 est non corrélée avec C1 corrélation ( C1, C2 ) = 0, et
C2 possède la variance maximale parmi toutes les combinaisons linéaires qui ne sont pas corrélées
avec C1 . Il en est ainsi pour les autres composantes C3, C4,....,Cp , chacune d'elles ayant variance
maximale parmi toutes les combinaisons linéaires de X1, X 2,....,X p qui ne sont pas corrélées avec les
composantes précédentes.
On démontre que les variances correspondant aux composantes sont les valeurs propres positifs de la
matrice de corrélation et les vecteurs propres correspondants fournissent les coefficients à être
attribuées aux variables X1, X 2,....,X p pour constituer ces combinaisons linéaires appelées
composantes. Les composantes sont toujours de moyennes nulles et de variances égales aux valeurs
propres ordonnés : λ1 >λ 2 >.....λ p >0 .
Les composantes ainsi calculées possèdent un certain nombre de propriétés :
a) Var(Ci )=λι c'est-à-dire la variance de la i-ème composante principale Ci est la i-ème valeur propre
de la matrice de corrélation R. C’est pour cette raison que l’on peut dire des composantes Ci qu’elles
sont à variance ordonnée : λ1 >λ 2 >.....λ p >0 .
b) Corrélation(Ci , C j ) = 0, i≠ j , c'est-à-dire les composantes sont non corrélées, les vecteurs propres
sont orthogonaux.
p
c) ∑λ i = trace (R ) = p , c’est à dire la somme des variances des composantes est égale à la trace de
i =1
la matrice de corrélation initiale, c’est à dire aussi au nombre de variables prises en considération, ce
qui signifie que la somme des variances des composantes Ci est égale à la somme des variances des p
variables originales centrées réduites Xi .
λi
d) la valeur propre exprimée en pourcentage indique le pourcentage de la variance totale expliquée
p
par la composante Ci .
λ λ +λ λ +λ +λ
Ces pourcentages cumulés 1 , 1 2 , 1 2 3 , etc. indiquent le pourcentage de la variance totale
p p p
expliquée par la première composante, les deux premières composantes, les trois premières composantes,
etc.
3 Adil ELMARHOUM
6.3. INTERPRETATION DES RESULTATS DE L’ACP.
Le principe d’une ACP est donc de remplacer les variables initiales, généralement corrélées, par des
variables non corrélées de variances progressivement décroissantes, les premières pouvant faire l’objet
d’une interprétation particulière et les dernières pouvant être négligées.
L’analyse en composantes principales passe par les étapes suivantes :
6.3.1. Repérage des observations aberrantes.
Les individus pour lesquels des données sont manquantes, aussi les données aberrantes ou extrêmes
influencent la moyenne et la variance et risquent de fausser l’analyse, d’où la nécessité de leur
élimination.
6.3.2. Matrice de corrélation des variables initiales.
L’analyse de la matrice de corrélation permet d’identifier des groupes de variables corrélées entre elles.
Plus on identifie de corrélation, plus l’ACP donnera des axes factoriels représentatifs des observations
et donc une forte représentation de l’information par les axes.
6.3.3. Choix des composantes principales.
Le problème consiste à déterminer le nombre de composantes à retenir pour fin d’interprétation, dans
la littérature statistique on trouve plusieurs règles :
a) Une première règle empirique proposée en 1960 par Kaiser stipule qu’on devrait retenir
comme composantes principales seulement celles pour lesquelles la valeur propre correspondante de R
est supérieure à l’unité λi >1 : pour être retenue, une composante doit expliquer plus de variation qu’une
variable originale centrée réduite.
b) Une autre règle empirique, celle-ci due à Cattell (1966) et appelée test du talus (scree test) se
fonde sur le graphique des valeurs propres de R en fonction de leur rang; habituellement, la
décroissance est rapide au début et lente par la suite. On retiendra les composantes dont les valeurs
propres correspondantes sont au-dessus de la droite joignant les dernières valeurs propres. Par
exemple, si le graphique avait l’allure suivante:
Graphique des valeurs propres
4
2
Valeur propre
0
1 2 3 4 5 6 7 8 9
Numéro de composant
4 Adil ELMARHOUM
On aurait retenu une seule composante selon Cattell, et 4 selon Kaiser.
c) Une troisième règle empirique recommande d’extraire des facteurs de façon à expliquer au
moins 80 % de la variance totale.
d) Le test de sphéricité de Bartlett permet de décider du nombre de composantes à retenir.
6.3.4. Interprétation des axes factoriels.
On se base sur les corrélations entre les composantes principales et les variables initiales, ces
corrélations peuvent être représentées par un graphique appelé cercle de corrélation. On cherche les
variables initiales qui sont fortement corrélées avec les axes, ce qui permet de donner une
interprétation aux axes. Il faut regarder le niveau de corrélation de la variable avec l’axe ainsi que le
sens de la corrélation (positive ou négative).
6.3.5. Représentation des individus.
Les coordonnées en composantes (factor scores), c'est-à-dire les scores des individus sur les
composantes principales C1 , C2,....,Cr , où r ≤ p, peuvent être représentés graphiquement afin
examinées afin d’établir d’une part des liens entre les variables et les individus et d’autre part,
effectuer une typologie.
6.4. APPLICATION NUMERIQUE.
Etude du comportement bancaire des clients d’une banque.
Une agence bancaire réalise une étude visant à mieux connaître la situation et le comportement de sa
clientèle à partir des données figurant dans ses fichiers informatiques de gestion. Elle a constitué un
échantillon de 50 clients titulaires d’un compte courant appartenant à des ménages différents. Pour
décrire l’échantillon, l’agence a relevé 11 variables quantitatives exprimant leur comportement
bancaire :
SOLDE : Solde moyen du compte.

CHEQUE : Montant moyen des chèques tirés lors du dernier semestre.
NB_DEC : Nombre de mois avec découvert lors de l’année précédente.
MT_DEC : Montant cumulé des découverts lors de l’année précédente.
NB_PR : Nombre de produits de la banque utilisés en plus du compte courant.
NB_EMP : Nombre d’emprunts divers effectués lors des cinq dernières années.
MT_EMP : Montant total des emprunts effectués lors des cinq dernières années.
P_VA_D_E : Pourcentage de variation des dépôts d’épargne pour les douze derniers mois.
MT_DEP_E : Montant total des dépôts sur les comptes d’épargne effectués lors de l’année
précédente.
MT_RET_E : Montant total des retraits sur les comptes d’épargne effectués lors de l’année
précédente.
P_VA_R_E : Pourcentage de variation des retraits sur les comptes d’épargne pour les douze
derniers mois.
5 Adil ELMARHOUM
Les informations collectées sont rassemblées dans le tableau suivant :
clien SOLDE CH NB_DE MT_DE NB_P NB_ MT_EM P_VA MT_ MT_RET_ P_VA
t EQUE C C R EM P _D_E DEP_ E _R_E
P E
1 2305 253 7 2,3 0 1 8,5 -2 3,1 ,7 3
2 15259 1024 0 ,0 3 1 25,0 9 500 ,0 0
3 1236 156 10 5,4 1 0 ,0 3 6,0 2,0 1
4 8241 455 1 ,1 6 4 210,0 4 32,0 36,0 3
5 6210 1022 2 ,3 5 3 113,0 3 150 80,5 2
6 6871 321 1 3,0 6 4 200,0 3 125 98,0 3
7 1580 150 9 6,1 2 1 8,0 2 6,5 5,5 1
8 9630 562 1 4,0 5 3 111,0 4 225 110,5 2
9 4230 63 3 2,7 2 0 ,0 1 5,1 20,0 -3
10 3620 84 5 9,8 1 1 81,0 -3 7,2 3,1 8
11 10258 1255 0 ,0 6 4 310,0 5 252 253,7 3
12 23698 52 1 2,9 2 0 ,0 12 523 2,0 1
13 3698 854 0 ,0 1 1 5,0 -2 1,5 3,2 1
14 231 68 12 8,9 1 0 ,0 -1 ,5 ,1 0
15 501 255 0 ,0 1 1 5,0 -3 10,2 10,1 1
16 3693 24 0 ,0 2 0 ,0 2 1,2 21,5 2
17 963 92 1 ,9 1 0 ,0 -1 105 6,1 -1
18 15802 1122 0 ,0 2 0 ,0 10 611 ,1 -1
19 502 751 6 3,0 2 2 8,5 1 61,2 ,8 6
20 7896 1236 1 6,0 6 3 250,7 3 188 98,1 3
21 23698 969 0 ,0 3 0 ,0 12 916 8,1 -1
22 27896 425 1 2,3 3 0 ,0 15 523 ,0 0
23 5687 303 1 3,6 5 3 155,0 3 261 110,0 2
24 1269 451 0 ,0 1 2 15,0 -1 51,3 5,1 3
25 3687 152 3 ,6 2 1 25,0 -2 ,1 52,0 -3
26 9631 147 0 ,0 2 0 ,0 9 656 ,0 0
27 75632 954 0 ,0 3 0 ,0 13 889 ,0 0
28 5523 136 1 1,2 5 4 110,1 5 110 110,5 2
29 6984 254 2 ,3 4 3 125,1 3 131 85,1 3
30 85214 2360 0 ,0 3 0 ,0 9 633 1,0 -1
31 4235 258 1 ,4 4 1 30,0 -2 32,7 13,6 1
32 3691 1025 2 2,0 3 0 ,0 1 52,0 ,1 3
33 4563 655 3 ,2 4 0 ,0 -2 12,0 10,8 7
34 2587 489 0 ,0 3 0 39,1 4 65,7 45,1 -1
35 3654 257 4 ,4 1 8 25,6 -2 ,5 42,5 -1
36 547 98 0 ,0 2 2 25,0 6 72,5 ,1 7
37 5821 1025 0 ,0 5 3 110,0 4 115 135,2 4
38 12587 587 0 ,0 3 0 ,0 8 452 5,0 1
39 6981 163 1 3,0 4 3 98,0 3 92,3 85,2 2
40 25871 125 0 ,0 3 0 ,0 11 754 ,1 0
41 15236 254 0 ,0 6 3 221,0 3 123 97,0 2
42 12369 128 0 ,0 3 0 ,0 9 651 ,0 0
43 4563 962 8 5,6 3 0 ,0 -1 23,1 9,2 2
44 12258 2301 0 ,0 3 1 15,0 8 591 10,0 1
45 7529 587 0 ,0 5 2 200,0 3 117 81,0 5
46 6987 1027 1 ,4 6 30 158,0 4 165 80,1 -1
47 9632 238 1 ,8 4 2 151,0 3 127 77,0 2
48 3654 1456 0 ,0 2 5 65,0 -1 65,0 6,0 2
49 25412 698 0 ,0 2 0 ,0 12 658 ,0 -1
50 3654 150 1 ,9 0 0 ,0 -2 7,0 42,0 9
La procédure SPSS pour effectuer l’analyse en composantes principales est la suivante :
- Analyse
Factorisation
Analyse factorielle
- Dans Variables, sélectionner toutes les variables métriques à factoriser.
- Dans Caractéristiques, cocher caractéristiques uni variées et coefficients de corrélation.
6 Adil ELMARHOUM
- Dans Extraction, cocher Graphique des valeurs propres et dans nombre de facteurs saisissez 2.
- Dans Facteurs, cocher Enregistrer dans des variables.
- Dans Rotation, cocher Carte factorielle.
- Dans Option, cocher Classement des variables par taille et Supprimer les valeurs absolues inférieures à
0,10 ; ceci permettra de sélectionner les variables les plus importantes et cacher celles qui n’expliquent pas
les dimensions.
Les résultats de l’analyse sont :
a) Statistiques descriptives des variables.

Statistiques descriptives
Moyenne Ecart-type n analyse

SOLDE 10869,52 16017,19 50
CHEQUE 568,66 536,72 50
NB_DEC 1,80 2,88 50
MT_DEC 1,542 2,395 50
NB_PR 3,04 1,71 50
NB_EMP 2,04 4,39 50
MT_EMP 58,072 81,577 50
P_VA_D_E 3,70 4,81 50
MT_DEP_E 223,176 268,598 50
MT_RET_E 37,276 51,412 50
P_VA_R_E 1,68 2,57 50
En rapportant l’écart type à la moyenne, on peut conclure que toutes les variables sont très dispersées,
ce qui indique un comportement très hétérogène des clients.
b) Matrice de corrélation des variables initiales.
7 Adil ELMARHOUM
Matrice de corrélation
SOLDECHEQUENB_DECMT_DEC NB_PR
NB_EMPMT_EMPP_VA_D_E
MT_DEP_E
MT_RET_E
P_VA_R_E
Corrélation
SOLDE1,000 ,450 -,293 -,223 ,087 -,130 -,138 ,634 ,704 -,154 -,295
CHEQUE ,450 1,000 -,256 -,239 ,244 ,129 ,095 ,247 ,346 ,067 -,088
NB_DEC-,293 -,256 1,000 ,745 -,346 -,075 -,218 -,409 -,425 -,216 ,066
MT_DEC-,223 -,239 ,745 1,000 -,136 -,090 ,027 -,282 -,310 -,054 ,191
NB_PR,087 ,244 -,346 -,136 1,000 ,393 ,805 ,217 ,067 ,709 ,063
NB_EMP-,130 ,129 -,075 -,090 ,393 1,000 ,411 -,100 -,165 ,343 -,066
MT_EMP-,138 ,095 -,218 ,027 ,805 ,411 1,000 -,083 -,214 ,847 ,253
P_VA_D_E
,634 ,247 -,409 -,282 ,217 -,100 -,083 1,000 ,890 -,089 -,348
MT_DEP_E
,704 ,346 -,425 -,310 ,067 -,165 -,214 ,890 1,000 -,207 -,393
MT_RET_E
-,154 ,067 -,216 -,054 ,709 ,343 ,847 -,089 -,207 1,000 ,169
P_VA_R_E
-,295 -,088 ,066 ,191 ,063 -,066 ,253 -,348 -,393 ,169 1,000
Dans l’ensemble, les variables sont faiblement corrélées entre elles. On note cependant une corrélation
relativement forte entre Pourcentage de variation des dépôts d’épargne pour les douze derniers mois et
montant total des dépôts sur les comptes d’épargne effectués lors de l’année
précédente.
c) Choix des composantes principales.
Variance expliquée totale
Valeurs propres initiales Sommes des carrés chargées

% de la % de la
Composante Total variance == % cumulés Total variance == % cumulés
1 3,436 31,237 31,237 3,436 31,237 31,237
2 3,037 27,607 58,844 3,037 27,607 58,844
3 1,170 10,639 69,483
4 ,991 9,007 78,489
5 ,870 7,911 86,400
6 ,544 4,943 91,343
7 ,339 3,082 94,425
8 ,228 2,075 96,500
9 ,205 1,859 98,359
10 ,101 ,917 99,277
11 7,956E-02 ,723 100,000
Méthode d'extraction : Analyse des principaux composants.
SPSS a calculé 11 composantes, la première a une valeur propre , c’est à dire variance de 3,436 qui
représente 31,237 % de la variance totale des variables initiales. Les 2 premières composantes
contribuent, ensemble, à 58,844 % de la variance initiale.
8 Adil ELMARHOUM
Graphique des valeurs propres
4
2
Valeur propre
0
1 2 3 4 5 6 7 8 9 10 11
Numéro de composant
Selon le graphique des valeurs propres, on peut retenir deux composantes principales. En effet, la
différence de variance entre la deuxième composante et la troisième est très importante.
9 Adil ELMARHOUM
Qualité de représentation
Initial Extraction
solde moyen du compte
1,000 ,632
courant
montant moyen des
chèques tirés lors du 1,000 ,301
dernier semestre
nombre de mois avec
découvert sur le compte
1,000 ,557
courant lors de l'année
précédante
montant cumulé des
découverts sur le compte
1,000 ,365
couranr lors de l'année
précédante (en milliers)
nombre de produits de la
banque utilisés en plus 1,000 ,806
du compte courant
nombre d'emprunts
divers effectués lors des 1,000 ,314
5 dernières années
montant total des
emprunts effectués lors
1,000 ,877
des 5 dernières années
(en milliers)
pourcentage de variation
des dépôts d'épargne 1,000 ,730
pour les 12 derniers mois
montant total des dépôts
sur les comptes
d'épargne effectués lors 1,000 ,840
de l'année précédante (en
milliers)
montant total des retraits
sur les comptes
d'épargne effectués lors 1,000 ,792
milliers)
des retraits sur les
1,000 ,258
comptes d'épargne pour
les 12 derniers mois
Méthode d'extraction : Analyse des principaux composants.
La qualité de représentation exprime la part de la variance des variables initiales qui est restituée par
les composantes retenues. Ainsi les deux composantes contribuent à 63,2% de la variance du solde
moyen du compte courant. Les deux composantes sont suffisantes pour synthétiser les variances de la
majorité des variables. Les variables pourcentage de variation des retraits sur les comptes d’épargne
pour les douze derniers mois, nombre d’emprunts divers effectués lors des cinq dernières années,
montant cumulé des découverts lors de l’année précédente et montant moyen des chèques tirés lors du
dernier semestre ne sont pas bien prises en compte par les deux composantes retenues, ce qui suggère
l’existence d’une ou plusieurs autres composantes principales pertinentes.
10 Adil ELMARHOUM
d) Interprétation des axes factoriels.
a
Matrice des composantes
Composante
1 2
montant total des dépôts
sur les comptes
d'épargne effectués lors ,891 -,217
milliers)
des dépôts d'épargne ,850
pour les 12 derniers mois
solde moyen du compte
,779 -,159
courant
nombre de mois avec
découvert sur le compte
-,660 -,349
courant lors de l'année
précédante
montant cumulé des
découverts sur le compte
-,583 -,157
couranr lors de l'année
précédante (en milliers)
montant moyen des
chèques tirés lors du ,518 ,181
dernier semestre
des retraits sur les
-,445 ,244
comptes d'épargne pour
les 12 derniers mois
montant total des
emprunts effectués lors
,934
des 5 dernières années
(en milliers)
montant total des retraits
sur les comptes
d'épargne effectués lors ,888
milliers)
nombre de produits de la
banque utilisés en plus ,250 ,862
du compte courant
nombre d'emprunts
divers effectués lors des ,560
5 dernières années
Méthode d'extraction : Analyse en composantes principales.
a. 2 composantes extraites.
11 Adil ELMARHOUM
Diagramme de composantes
1,0 mt_emp
mt_ret_e nb_pr
nb_emp
,5
p_va_r_e
cheque
0,0 p_va_d_e
mt_dec solde
mt_dep_e
nb_dec
Composante 2
-,5
-1,0
-1,0 -,5 0,0 ,5 1,0
Composante 1
La matrice des composantes ou le diagramme des composantes, indiquent les corrélations des variables
initiales avec les composantes principales. Ainsi la première composante est fortement corrélée
positivement avec Montant total des dépôts sur les comptes d’épargne effectués lors de l’année
précédente, Pourcentage de variation des dépôts d’épargne pour les douze derniers mois et Solde
moyen du compte. Elle est corrélée négativement avec Nombre de mois avec découvert lors de l’année
précédente et Montant cumulé des découverts lors de l’année précédente. On peut donc conclure que
la première composante met en opposition deux catégories de clients de comportements totalement
opposé, d’un côté, une catégorie de clients qu’on peut qualifier d’épargnants et d’un autre côté, une
deuxième catégorie de clients qu’on peut qualifier de dépensiers.
La deuxième composante est fortement corrélée avec Nombre d’emprunts divers effectués lors des
cinq dernières années, Montant total des retraits sur les comptes d’épargne effectués lors de l’année
précédente et Nombre de produits de la banque utilisés en plus du compte courant. On peut
comprendre de ces trois variables qu’il s’agit d’un comportement d’investissement. Cette deuxième
composantes principales permet de distinguer une troisième catégories de clients qu’on peut qualifier
d’investisseurs.
e) Représentation des individus.
La procédure SPSS pour élaborer le graphe des individus est la suivante :
- Sélectionner dans le menu Graphes, Diagramme de disperssion.

- Cliquer sur définir.
- Faire glisser la variable REGR Factor Score 1 dans l’axe X et REGR Factor Score 2 dans l’axe Y.
- Faire glisser la variable CLIENT vers « étiqueter les observations par » afin d’afficher les numéros
des clients.
- Cliquer sur Options et cocher « Afficher le diagramme avec les étiquettes d’observations ».
12 Adil ELMARHOUM
4
11
3
1
46
REGR factor score 2 for analysis
2 20 41
6
4 37
45
23
28
85
1 2947
39
48
33 31 34
0 35 36 44
2532
10 19 152416
50 13 38 2
43 42 18
917 224049 21 30
71 1226 27
-1 3
14
-2
-3 -2 -1 0 1 2 3
REGR factor score 1 for analysis 1
Le graphe des individus indique que les clients 30 et 27 représentent les plus grands épargnants, les
clients 10 et 14 sont des grands dépensiers alors que les clients 11 et 46 sont des grands investisseurs.
Les clients proches du barycentre sont des clients dont le comportement n’est pas très bien définit.
13 Adil ELMARHOUM

Chapitre 6

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Chapitre 6

Transféré par

Droits d'auteur :

Formats disponibles

Analyse des données.

CHAPITRE 6. ANALYSE EN COMPOSANTES PRINCIPALES (ACP)

Figure 1 : Nuage de données hypothétiques dans un espace à 2 dimensions

Figure 2 : Rotation orthogonale des axes dans un espace à 2 dimensions

De façon générale, l’analyse en composantes principales permet d’obtenir de nouvelles variables,

6.2. CALCUL ET INTERPRETATION DES COMPOSANTES.

C1 =a11X1 +a 21X 2 +...+a p1X p telle que la variance de C1 soit maximale.

Les composantes ainsi calculées possèdent un certain nombre de propriétés :

6.3. INTERPRETATION DES RESULTATS DE L’ACP.

L’analyse en composantes principales passe par les étapes suivantes :

6.3.1. Repérage des observations aberrantes.

6.3.2. Matrice de corrélation des variables initiales.

6.3.3. Choix des composantes principales.

On aurait retenu une seule composante selon Cattell, et 4 selon Kaiser.

d) Le test de sphéricité de Bartlett permet de décider du nombre de composantes à retenir.

6.3.4. Interprétation des axes factoriels.

6.3.5. Représentation des individus.

6.4. APPLICATION NUMERIQUE.

Etude du comportement bancaire des clients d’une banque.

SOLDE : Solde moyen du compte.

Les informations collectées sont rassemblées dans le tableau suivant :

La procédure SPSS pour effectuer l’analyse en composantes principales est la suivante :

- Dans Caractéristiques, cocher caractéristiques uni variées et coefficients de corrélation.

- Dans Facteurs, cocher Enregistrer dans des variables.

- Dans Rotation, cocher Carte factorielle.

Les résultats de l’analyse sont :

a) Statistiques descriptives des variables.

Moyenne Ecart-type n analyse

b) Matrice de corrélation des variables initiales.

c) Choix des composantes principales.

Variance expliquée totale

Valeurs propres initiales Sommes des carrés chargées

e) Représentation des individus.

La procédure SPSS pour élaborer le graphe des individus est la suivante :

- Sélectionner dans le menu Graphes, Diagramme de disperssion.

REGR factor score 1 for analysis 1

Vous aimerez peut-être aussi