Vous êtes sur la page 1sur 2

Parcours : ISC

TP : Analyse en composantes principales ACP

En ACP, le but est de réduire la dimensionnalité des données en projetant les observa tions dans un nouvelespace,
appelé espace des composantes principales. Chaque axe principal représente une direction dans cet espacedans
laquelle les données varient le plus. Puisque nous voulons conserver autant d'informations que possiblelors de
cette projection, chaque axe principal est choisi de manière à maximiser la variance des données le long decetaxe.

Supposons que nous ayons p variables dans nos données. Dans un espace de dimension p,nous pouvons avoirau
maximum p directions orthogonales différentes. Ainsi, il y a au maximum p axes principaux dans l'ACP. Chaque
axe principal représente une combinaison linéaire des variables originales, et il y a une relation un -à-un entreles
axes principaux et les variables originales. Par conséquent, le no mbre d'axes principaux dans l'ACP est égal au
nombre de variables.

Exercice 1 : ACP pour dégager des informations de corrélations

Ce TP est articulé autour du jeu de données: les performances des athlètes de décathlon
(JO 2004/ Décastar 2004). Le but est de réaliser une ACP à partir de performances d’athlètes
et d’en dégager des informations (e.g., corrélations).

Réalisation :
1. Charger les données (disponible sur kaggle).
2. Expliquer les données.
3. Standardisation : l’ACP fonctionne sur un tableau de variables quantitatives. Il est d’usage
de centrer-normer chacune de ces variables avant de réaliser une ACP. Pourquoi ?
4. Réaliser l’ACP pour les 10 premières colonnes du jeu de données qui correspondent aux
performances des athlètes pour les dix épreuves du décathlon.
5. Représenter les valeurs propres en utilisant des diagrammes de bâton.
6. Combien d’axe doit-on conserver ? justifier.
7. Représenter graphiquement les individus dans le plan des axes factoriels 1 et 3.

Interprétation :
8. Déterminer quelle est la contribution de chaque variable sur chaque composante ou leur
corrélation. Quelle est la part d’inertie associée aux deux premiers axes factoriels.
9. Étudier le graphique des individus. Dans le plan des deux premières composantes principales
axes=c(1,2), que pouvez-vous dire de
 Bourguignon et Karpov ?
 Barras et Qi ?
 Casarsa ?
 Serble et Clay ?
10. Comment interpréter ces deux premières composantes principales axes=c(1,2).
Parcours : ISC

11. Étudier le graphique des variables. Savez-vous justifier pourquoi le cercle est centré sur
l’origine 0 et de rayon 1 ?
12. Que peut-on dire sur les scores des épreuves du 110m haie et les épreuves du 100m.
13. Qu'en est-il de ces scores par rapport au saut en longueur ?
14. Que peut-on dire sur les scores de l’épreuve du javelot ou du saut à la perche ?
15. Qu’est-ce que le 3ème axe factoriel semble représenter ?

Exercice 2 : ACP pour compresser une image


Dans cet exemple d’utilisation de l’ACP, nous partons d’une image quelconque (avec une taille
assez grande er une image en couleur), pour la compresser en utilisant l’ACP. Pour évaluer
l’intérêt de la méthode, pour différents nombres d’axes, l’image reconstruite ainsi que la taille
des éléments nécessaires à la reconstruction sont affichées.

1. Visualiser l’image initiale.


2. Découper en rouge, vert et bleu : pour compresser cette image, nous allons découper
celle-ci dans les trois composantes classiques d’une image : rouge, vert et bleu. Chaque
pixel est représenté par un triplet de valeurs entre 0 et 1, représentant la quantité de
chaque couleur de base à afficher.
3. Compresser via ACP
La compression va utiliser une ACP sur chaque composante. Pour cela, nous calculons les
valeurs de l’ACP pour chacune, que nous stockons dans une liste pour simplifier le travail par
la suite.
On créée trois fonctions permettant, à partir d’un nombre d’axes passé en paramétré :
- de calculer la taille des objets utilisés pour recréer l’image,
- de reconstruire l’image,
- d’afficher l’image reconstruite.
4. Afficher l’image reconstruite pour différentes valeurs d’axes principaux.
5. Mesurer la qualité de l’image reconstruite
Calculer, pour chaque nombre d’axes, la distance entre l’image originale et l’image
reconstruite, en sommant les écarts au carré par exemple. Visualiser le changement.

Vous aimerez peut-être aussi