Vous êtes sur la page 1sur 4

4) Représenter graphiquement le cercle de corrélation C1 x C2.

Donner une interprétation aux


deux composantes principales C1 et C2.

Le point représentant la note d’expression est presque confondu avec le point


représentant la note de langue. Il n’apparaît pas toujours sur les représentations graphiques
obtenues par logiciel.

L’axe 1 montre l’échec et la réussite des étudiants : les valeurs fortement négatives de
la première composante principale caractérisent des élèves dont les quatre notes considérées
sont plus élevées que leur moyenne observée, et inversement. L’axe 2 sépare les disciplines
scientifiques des disciplines littéraires : un étudiant dont la seconde composante principale est
positive aura en général de meilleures notes dans les matières scientifiques que dans les matières
littéraires.

La note d’économie, qui n’intervient pas dans les calculs, est proche des notes de gestion
et de mathématiques. Cela signifie qu’un étudiant réussissant bien dans les disciplines
scientifiques réussit généralement bien aussi en économie, et inversement.

5) Représenter le plan principal 1 x 2. Que peut-on dire de la représentation de l’individu 8 sur


ce plan ? Que peut-on dire des étudiants 6 et 3 ? De l’étudiant 5 ? Placer approximativement
l’étudiant dont toutes les notes seraient égales à 10.

On distingue les caractéristiques de chaque étudiant sur le plan principal 1 x 2.


L’individu 8 est proche de l’origine des axes, et a vraisemblablement des notes voisines
des moyennes observées. Sa troisième composante principale est élevée, comme celle de
l’étudiant de rang 1. Leurs notes en expression et mathématiques sont nettement supérieures
aux moyennes correspondantes.
Le meilleur élève semble être l’élève n°3, au sens de la première composante principale
(ce n’est pas nécessairement celui qui a la meilleure moyenne). Il réussit mieux en expression
et en langue qu’en dans les matières scientifiques, contrairement à l’élève n°6, qui est aussi l’un
des meilleurs. L’étudiant 5 est le plus faible.
Les moyennes observées sont toutes supérieures à 10 : un étudiant qui aurait 10 partout
serait plutôt moins bon que les autres, surtout en expression et en langue. Il se trouverait
légèrement à gauche de l’origine des axes et au-dessus de l’axe des abscisses.
En admettant que les composantes principales C1 et C2 sont égales à :
C1 = – 0.5456X1 – 0.4727 X2 – 0.4986 – 0.4798
X3 X4
C2 = 0.3787 X1 + 0.5975X2 – 0.5039X3 – 0.4957X4
Le calcul donne comme coordonnées : c1 = 0.551 et c2 = 0.347.

Exercice 5:
On considère l’échantillon de 50 clients de l’hypermarché dont on connaît l’âge, le
revenu, le montant des achats et le nombre d’enfants. On veut déterminer les caractéristiques
principales de la clientèle. On utilisera un logiciel ou les résultats numériques fournis en annexe
pour répondre aux questions.

1) On considère les clients de rangs 1 et 2 (cf. ci-dessous). Calculer le carré de la distance


d (1,2) utilisée en ACP.

Le détail du calcul du carré de la distance est donné dans le tableau suivant :

Distance totale : d (1,2)2 = 7.7835

2) Quel est le nombre d’axes principaux que l’on peut calculer ? Quelle est la somme des
variances des composantes principales ? Calculer la variance de la quatrième
composante principale.

Le nombre d’axes principaux que l’on peut calculer est égal au nombre de variables considérés,
lui-même égal à la somme des valeurs propres : l1 + l2 + l3 + l4 = 4
La variance de la quatrième composante principale est la valeur propre l4. On a évidemment :
l4 = 4 – (l1 + l2 + l3) = 0.280 l4 = 0.280
3) Représenter graphiquement le cercle des corrélations.

On constate la liaison entre le montant des achats et le nombre d’enfants et la non


corrélation avec le revenu et l’âge. La première composante principale reflète la consommation,
tandis que le second la situation sociale.
4) On considère le plan principal 1 x 2. Que peut-on dire des clients de rangs 31, 43, 25,
28 ? Du client n°10 ? Des clients n°9 et 18 ?

Les clients n° 31, 43, 25, 28 ont dépensé une somme relativement faible malgré un
revenu élevé ; on peut l’expliquer par leur âge, nettement plus élevé que la moyenne des
clients observés. Le client n° 10 est particulier : sa composante principale c1 très faible
montre que ses dépenses sont élevées, qu’il a de nombreux enfants, et sa composante
principale c2 qu’il bénéficie d’un revenu élevé qu’il est relativement âgé. Le client n° 18
présente exactement les caractéristiques inverses, tandis que le client n° 9, jeune et à faible
revenu, a effectué des achats relativement importants dus peut-être à un nombre d’enfants
relativement élevés.

5) Calculer les carrés des distances d’(1,2), d’(2,10), d’(1,10) entre les projections des
clients de rang 1, 2 et 3 sur le pan 1 x 2. Que peut-on dire de chacune de ces
approximations ?

Les carrés des distances d’(1,2), d’(2,10), d’(1,10) entre les projections des clients de rang 1, 2
et 3 sur le plan 1 x 2 sont données par la somme des carrés des différences de leurs coordonnées
sur les axes.
On obtient :
d’(1,2)2 = (–1.286–0.023)2 + (2.822 – 0.464)2 = 7.276
Distance sur le plan 1 x 2 : d’(1,2)2 = 7.276

On a calculé dans la question 1 la distance exacte entre ces deux clients :


Distance totale : d (1,2)2 = 7.783

Le rapport d’(1,2)2 / d(1,2)2, égal à 0.93, montre que la distance réelle entre les clients 1 et 2
est presque égale à la distance entre leurs projections sur le plan 1 x 2. On vérifiera que c’est
également le cas des clients 1 et 3 (0.95), mais que la distance entre les clients 2 et 3 est moins
bien reconstruite (0.59).
Cette reconstruction est globalement satisfaisante, comme le montre le pourcentage d’inertie
expliqué par le plan 1 x 2 (78%) : ce pourcentage est le rapport entre la somme des carrés des
distances entre les projections sur le plan 1 x 2 et la somme des carrés des distances réelles.

Vous aimerez peut-être aussi