Académique Documents
Professionnel Documents
Culture Documents
Exercices ACP
Exercices ACP
1) On effectue l’analyse en composantes principales normée d’un tableau de données constitué des
observations de sept variables quantitatives sur 454 unités statistiques. Seules six variables ont été
considérées pour définir la distance entre les unités statistiques. Déduire des cinq premières valeurs propres
données ci-dessous la ou les valeurs propres manquantes. Construire le diagramme des valeurs propres et
préciser le nombre d’axes a priori significatifs.
l1 = 2.38 l2 = 2.12 l3 = 0.55 l4 = 0.41 l5 = 0.33
2) Construire, dans chaque cas ci-dessous, le diagramme des valeurs propres et sélectionner les axes à
interpréter.
l1 l2 l3 l4 l5 l6 l7 l8 l9 l10 l11
cas n°1 2.326 2.054 0.423 0.182 0.015
cas n°2 3.541 2.126 1.510 0.632 0.414 0.305 0.225 0.182 0.065
cas n°3 3.125 3.101 1.984 1.823 0.541 0.220 0.110 0.050 0.025 0.015 0.006
cas n°4 2.154 1.453 1.213 0.646 0.541 0.532 0.461
1) Montrer que la somme des k premières valeurs propres obtenues dans une ACP normée est
supérieure ou égale à k.
2) En déduire que la somme des l dernières valeurs propres est inférieure ou égale à l.
3) Soit S(k) la somme des k premières valeurs propres. On note lk la valeur propre de rang k.
Montrer que :
lk > (p – S(k-1))/ (p – k+1)
Cet exercice donne la théorie de l’analyse en composantes principales dans le cas particulier de deux
variables X1 et X2 centrées réduites. Les résultats établis peuvent être généralisés (cette généralisation est
précisée dans la correction).
On considère deux variables statistiques X1, X2 centrées réduites observées sur n individus et dont le
coefficient de corrélation est noté r. Soient les variables Z et Z’ de la forme :
Z = a1 X1 + a2 X2 : quel que soit i = 1, …, n, Z(i) = a1 X1(i) + a2 X2(i)
Z’ = a1’ X1 + a2’ X2 : quel que soit i = 1, …, n, Z’(i) = a1’ X1(i) + a2’ X2(i)
1) Calculer la moyenne et la variance de Z en fonction de a1 et a2. Calculer la covariance cov(Z, Z’).
2) Calculer le vecteur u = (a1, a2) tel que la variance de Z soit maximale et vérifiant la condition :
a12 + a22 = 1
3) On note C1 la variable Z précédente et l1 sa variance. Déterminer la variable Z’ = a1’ X1 + a2’ X 2
telle que :
a1’2 + a2’2 = 1
cov(C1, Z’) = 0
On note C2 cette variable. Calculer sa variance l2 et la somme l1 + l2.
4) Calculer les coefficients de corrélation r(X1, C1), r(X1, C2), r(X2, C1), r(X2, C2) et les expressions
public.iutenligne.net/mathematiques/statistiques-et-probabilites/foucart/StatPC/general/exercices/exercices_sur_le_chapitre_9.htm 1/10
12/3/2019 Exercices sur le chapitre 9
u3 =
u4 = (-0.4619, -0.5042, 0.2855, -0.6715 )
Compléter le tableau donnant les composantes principales de chaque individu :
c1 c2 c3 c4
1 -2.638 -0.203 -0.104 1.044
2 -1.943 -0.358 0.316 -0.350
3 -1.442 -0.803 0.591 -0.486
4 0.078 1.201 0.192
5 0.987 -0.420 0.296 -0.053
6 1.474 0.061 0.555
7 1.317 -1.454 0.409
8 -0.431 -0.136 -1.249 -0.674
9 -0.571 2.386 0.413 -0.071
10 1.166 -0.082 -0.069 -0.566
Composantes principales
5) Représenter les individus sur le plan principal 1 x 2, et constituer des groupes d’élèves homogènes.
Comparer les distances entre les représentations des individus 4, 5 et 6 sur le plan 1 x 2 et les distances
réelles. Expliquer les résultats.
6) On étudie les coefficients de corrélation des composantes principales avec les variables initiales :
Axe 1 Axe 2 Axe 3 Axe 4
r r² r r² r r² r²
Poids 0.785 0.617 0.266 0.070 -0.504 0.254 -0.242 0.059
Taille 0.779 0.607 -0.403 0.162 0.402 0.161 -0.264 0.070
Age 0.689 0.474 0.611 0.374 0.360 0.130 0.150 0.022
Note -0.832 0.693 0.380 0.144 0.198 0.039 -0.352 0.124
Coefficients de corrélations et carrés entre les variables et les composantes principales
Représenter graphiquement le cercle de corrélation 1 x 2, et expliquer les propriétés communes des
élèves de chaque groupe.
On considère le tableau des notes obtenues par 10 étudiants en gestion, en mathématiques, langue,
expression, économie (ces données figurent sur le fichier ex4chap9.dat, fichier de paramètres ex4chap9.par).
L’économie étant en option, on la considère comme une variable supplémentaire.
1) On effectue l’analyse en composantes principales de X1, X2, X3 et X4. Déduire des résultats
donnés en annexe la moyenne et la variance des trois premières composantes principales. En déduire la
moyenne et la variance de la quatrième.
2) Construire le diagramme des valeurs propres. En déduire le nombre de composantes principales
significatives. Quel est le pourcentage d’information conservée par les deux premières composantes
principales ? Par les trois premières ?
3) Calculer les coefficients de corrélation entre la note d’économie et les deux premières composantes
principales.
4) Représenter graphiquement le cercle de corrélation C1 x C2. Donner une interprétation aux deux
composantes principales C1 et C2.
5) Représenter le plan principal 1 x 2. Que peut-on dire de la représentation de l’individu 8 sur ce
plan ? Que peut-on dire des étudiants 6 et 3 ? De l’étudiant 5 ? Placer approximativement l’étudiant dont
toutes les notes seraient égales à 10.
Annexe
public.iutenligne.net/mathematiques/statistiques-et-probabilites/foucart/StatPC/general/exercices/exercices_sur_le_chapitre_9.htm 3/10
12/3/2019 Exercices sur le chapitre 9
étudiant 1 2 3 4 5 6 7 8 9 10
n°
note 13 8 12 9 10 15 13 11 9 9
Notes d’économie
moyenne écart-type variance
Gestion 10.6 3.04 9.24
Mathématiques 10.1 3.45 11.89
Langue 11.0 2.32 5.40
Expression 11.3 2.90 8.41
Économie 10.9 2.17 4.69
On introduit ici, sur un plan théorique, la régression sur composantes principales, encore appelée
régression orthogonale. On applique les résultats sur les données traitées dans l’exercice précédent (on note
Y la note d’économie, mY et sY sa moyenne et son écart type, X1, X2, X3 et X4 les notes centrées réduites en
gestion, mathématiques, langue et expression).
1) On considère le modèle de régression de Y par la composante principale C1 :
Y = b 0 + b1C1 + E
E étant la série des résidus. Calculer les coefficients de régression b0, b1 et la variance des résidus s2.
2) On sait que la première composante principale C1 est égale à :
public.iutenligne.net/mathematiques/statistiques-et-probabilites/foucart/StatPC/general/exercices/exercices_sur_le_chapitre_9.htm 4/10
12/3/2019 Exercices sur le chapitre 9
public.iutenligne.net/mathematiques/statistiques-et-probabilites/foucart/StatPC/general/exercices/exercices_sur_le_chapitre_9.htm 5/10
12/3/2019 Exercices sur le chapitre 9
Annexe
Variable moyenne écart-type
âge 40.06 9.34
revenu 107639.5 29615.79
achats 316.945 207.13
enfants 1.82 1.03
Plan principal 1 x 2
n° axe 1 axe 2
1 c1(i) cos2 c2(i) cos2
1 -1.286 0.135 2.822 0.653
2 0.023 0.001 0.464 0.211
10 -3.072 0.523 2.923 0.473
public.iutenligne.net/mathematiques/statistiques-et-probabilites/foucart/StatPC/general/exercices/exercices_sur_le_chapitre_9.htm 6/10
12/3/2019 Exercices sur le chapitre 9
Pour mieux connaître ses clients et particulièrement leur solvabilité lorsqu’ils demandent un prêt, une
banque a étudié un échantillon de clients en fonction de quatre variables : l’âge, le revenu annuel, le
patrimoine, et l’emprunt obtenu. Ces 10 clients ont été classés en trois groupes : mauvais payeurs (groupe 1,
n° 3, 4, 5), risque moyen (groupe 2, n° 2, 7, 9, 10), sans problèmes (groupe 3, n° 1, 6, 8).
n° Age Revenu Patrimoine Emprunt Groupe
1 45 250kF 1300kF 600kF 3
2 47 160kF 1150kF 450kF 2
3 38 165kF 850kF 370kF 1
4 36 175kF 770kF 250kF 1
5 29 99kF 450kF 400kF 1
6 39 170kF 1400kF 120kF 3
7 27 120kF 1400kF 160kF 2
8 51 160kF 1300kF 320kF 3
9 32 155kF 1500kF 350kF 2
10 35 170kF 1400kF 180kF 2
Annexe
Variable moyenne écart-type variance
age (années) 37.9 7.422264 55.09
revenu (kF) 162.4 37.2 1383.84
patrimoine (kF) 1152 328.5361 107936
emprunt (kF) 320 139.714 19520
public.iutenligne.net/mathematiques/statistiques-et-probabilites/foucart/StatPC/general/exercices/exercices_sur_le_chapitre_9.htm 7/10
12/3/2019 Exercices sur le chapitre 9
Moyennes et variances
âge revenu patrimoine emprunt
âge 1.0000
revenu 0.5800 1.0000
patrimoine 0.1932 0.3453 1.0000
emprunt 0.4195 0.4304 -0.2547 1.0000
Coefficients de corrélation
C1 C2 C3 C4
r r2 r r2 r r2 r r2
âge -0.843 0.710 0.006 0.000 -0.536 0.288 -0.043 0.002
revenu -0.876 0.768 0.164 0.027 0.269 0.072 0.365 0.133
patrimoine -0.299 0.089 0.900 0.811 0.143 0.020 -0.282 0.079
emprunt -0.656 0.430 -0.638 0.407 0.265 0.070 -0.304 0.093
Coefficients de corrélation r et carré r2
entre les composantes principales et les variables initiales.
axe 1 axe 2 axe 1 axe 2
n° c1 cos2 c2 cos2 n° c1 cos2 c2 cos2
1 -3.056 0.874 -0.431 0.017 6 0.290 0.031 1.459 0.793
2 -1.122 0.530 -0.539 0.123 7 1.954 0.715 1.088 0.222
3 -0.023 0.001 -0.936 0.896 8 -1.108 0.369 0.364 0.040
4 0.421 0.099 -0.604 0.204 9 0.274 0.041 0.698 0.265
5 1.958 0.415 -2.309 0.577 10 0.412 0.096 1.210 0.828
Pour poursuivre l’analyse du risque financier dans sa clientèle , la banque a effectué une enquête plus
importante sur sa clientèle. On étudie maintenant le tableau donnant la répartition de la clientèle suivant les
produits financiers qu’elle détient et le groupe de risque auquel elle appartient, auquel on a ajouté le groupe 4
constitué des nouveaux clients dont le risque n’est pas connu.
risque risque moyen risque faible risque inconnu
élevé Groupe 2 Groupe 3 Groupe 4
Groupe 1
PEA 27 40 25 17
Assurance vie 15 46 70 22
Épargne logement 10 35 66 19
Compte titre 22 33 25 13
CODEVI 29 35 43 18
Autres 11 41 13 9
Aucun 81 39 41 27
1) Quelle est la nature du tableau de données précédent ? Calculer et représenter graphiquement les
répartitions marginales.
2) Calculer le profil des titulaires d’un PEA. Calculer le profil des clients à risque élevé (on donnera
ces profils en pourcentages). Représenter graphiquement ces profils et les comparer ces profils aux profils
marginaux correspondants.
3) On effectue l’analyse factorielle des correspondances de ce tableau. Les trois premières valeurs
propres sont les suivantes :
l1 = 0.10148 l2 = 0.03929 l3 = 0.00035
public.iutenligne.net/mathematiques/statistiques-et-probabilites/foucart/StatPC/general/exercices/exercices_sur_le_chapitre_9.htm 8/10
12/3/2019 Exercices sur le chapitre 9
Quel est le pourcentage d’information conservée par les deux premiers axes ? Quelle est l’inertie
totale ? Effectuer le test d’indépendance du c2 sur ce tableau. Donner un ordre de grandeur en valeur absolue
des coordonnées des profils sur le troisième axe.
4) Représenter simultanément les profils lignes et les profils colonnes sur le plan principal 1 x 2. Quels
sont les profils représentés par l’origine des axes ? Que peut-on dire des comparaisons demandées en
question 2 ?
5) La proximité entre le point représentant le groupe 4 sur le plan 1 x 2 et l’origine des axes est-elle
réelle ? Que peut-on en déduire sur les nouveaux clients ?
6) Calculer l’approximation du carré de la distance du chi2 entre les profils Assurance vie et Épargne
logement donnée par le plan 1 x 2. Cette approximation est-elle précise ? .
7) Proposer une expression caractérisant la propriété mise en évidence par le premier axe.
Annexe
poids c1 cos2 contrib. c2 cos2 contrib.
PEA 0.125 -0.121 0.343 1.8 -0.161 0.608 8.3
Assurance vie 0.175 0.346 0.956 20.7 0.074 0.044 2.5
Ép. logement 0.149 0.424 0.879 26.4 0.157 0.121 9.4
Compte titre 0.107 -0.066 0.250 0.5 -0.114 0.749 3.5
CODEVI 0.143 -0.002 0.001 0.0 0.064 0.998 1.5
Autres 0.085 0.043 0.006 0.2 -0.538 0.991 62.5
Aucun 0.216 -0.487 0.913 50.5 0.150 0.086 12.3
Coordonnées des profils lignes sur les deux premiers axes principaux
poids c1 cos2 contrib. c2 cos2 contrib.
risque élevé G1 0.2236 -0.553 0.968 67.4 0.101 0.032 5.8
risque moyen G2 0.3085 0.075 0.064 1.7 -0.286 0.936 64.3
risque faible G3 0.3245 0.311 0.729 30.9 0.189 0.270 29.6
risque inconnu G4 0.1433 -0.002 0.001 0.0 0.031 0.306 0.3
Coordonnées des profils colonnes sur les deux premiers axes principaux
Une société de ventes par correspondance veut proposer à ses clients d’acheter à des conditions
spéciales un lecteur de DVD ne figurant pas dans son catalogue. La démarche qu’elle envisage de suivre
consiste à envoyer par courrier une proposition à ses clients habituels, mais elle cherche à cibler la clientèle.
Pour cela, on décide d’effectuer un premier envoi auprès d’un échantillon de 500 clients tirés au hasard dans
son fichier, et d’en examiner les résultats avant de procéder au mailing proprement dit.
Les informations dont on dispose sur chaque client sont les suivantes :
· l’âge du chef de famille, codé de 1 à 6 suivant les classes ci-dessous, noté « âge » :
Une fois le délai de l’offre d’achat passé, on sait si le client a acheté ou non.
5) Quel est le pourcentage d’observations bien classées parmi les unités statistiques connues ? Quel
est le pourcentage d’observations du groupe 1 bien classées ? Du groupe 2 ? Pourquoi ce tableau ne donne-t-
il pas nécessairement une bonne évaluation de l’efficacité de la règle ?
6) Proposer une démarche différente pour effectuer l’analyse factorielle discriminante.
public.iutenligne.net/mathematiques/statistiques-et-probabilites/foucart/StatPC/general/exercices/exercices_sur_le_chapitre_9.htm 10/10