Vous êtes sur la page 1sur 61

Analyse en Composantes Principales

Présenté : NADIA ZOUBIR Encadré par: Mme.CHAMLAL


HASNA
ZAHIR YASMINE
FOUAD SAFAE
INTRODUCTION
 Les individus étudiés ne sont pas représentés dans un plan, ou espace de
dimension 2, mais dans un espace de dimension plus importante.

 Obtenir le résumé le plus pertinent possible des données initiales.

 la matrice des variances-covariances (ou celle des corrélations)

 projeter les données sur l’hyperplan le plus proche afin d’avoir une
représentation simple de nos données.

 Il faut pouvoir réduire la dimension de nos données tout en conservant un


maximum d’informations ,en déformant le moins possible la réalité.
Table of contents:

INTRODUCTION

LE TABLEAU DES DONNEES

ACP CANONIQUE

ACP NORMEE

ACP DANS R

6 CONCLUSION
Les Données
Les Données
Les Données

Ces espaces étant de dimension supérieure en général à 2 et même à 3, on ne peut


visualiser ces représentations.
L’idée générale des méthodes factorielles est de trouver un système d’axes et de plans
tels que les
projections de ces nuages de points sur ces axes et ces plans permettent de
reconstituer les positions des points les uns par rapport aux autres
Les Données
Exemple: Mesure de la tension artérielle diastolique, systolique et du
taux de cholestérol de 6 patients.
Les Données

Dans une ACP, dans l’espace des individus on s’intéresse aux proximités
(métriques ou distances), alors que dans l’espace des variables on s’intéresse
aux angles.
ACP CANONIQUE
ACP CANONIQUE
Choix d’une distance:
ACP CANONIQUE
Le point moyen ou centre de gravité:

Le centre de gravité G du nuage des


individus est alors le point dont les
coordonnées sont les valeurs moyennes
des variables :

Prendre G comme origine, conformément à la


figure suivante, revient alors à travailler sur le
tableau des données centrées
ACP CANONIQUE

le vecteur des coordonnées centrées de l’unité


ui est
ACP CANONIQUE
Exemple: Mesure de la tension artérielle diastolique, systolique et
du
taux de cholestérol de 6 patients.
ACP CANONIQUE
Exemple: Mesure de la tension artérielle diastolique, systolique et
du
taux de cholestérol de 6 patients.
Moments d’inertie: ACP CANONIQUE
Inertie totale du nuage des individus

c’est une mesure de la dispersion du nuage des individus par rapport à son centre de gravité.
Moments d’inertie: ACP CANONIQUE
Inertie totale du nuage des individus
ACP CANONIQUE

On retrouve bien la matrice de covariance empirique


ACP CANONIQUE
Exemple: Mesure de la tension artérielle diastolique,
systolique et du
taux de cholestérol de 6 patients.
ACP
Inertie du nuage des individus par rapport à un axe passant par G
CANONIQUE
L’inertie du nuage des individus par rapport à un axe Δ passant par G est égale, par définition, à :

Si on note V ∗ le complémentaire orthogonal de V qui est un sous espace vectoriel dans Rp


En projetant le nuage des individus sur un sous-espace V , on perd l’inertie mesurée par Iv , on ne
conserve que celle mesure par Iv*,De plus, si on décompose l’espace Rp comme la somme de sous-
espaces de dimension 1 et orthogonaux entre eux
ACP
Recherche de l’axe Δ passant par G d’inertie minimal
1
CANONIQUE
Recherche du maximum ACP CANONIQUE
ACP CANONIQUE
Exemple: Mesure de la tension artérielle diastolique, systolique et
du
taux de cholestérol de 6 patients.
ACP CANONIQUE
ACP CANONIQUE
Composantes principales
ACP CANONIQUE
Composantes principales
Contributions des axes à l’inertie totale
ACP CANONIQUE

On emploie souvent l’expression “ pourcentage d’inertie expliquée par Δ k” On peut étendre ces
définitions à tous les sous-espaces engendrés par les nouveaux axes. Ainsi, le pourcentage d’inertie
expliqué par le plan engendré par les deux premiers axes Δ 1 et Δ2 est égal à
Contributions des axes à l’inertie totale
ACP CANONIQUE

Exemple: Mesure de la tension artérielle diastolique, systolique et du


taux de cholestérol de 6 patients.
Représentation des variables
ACP CANONIQUE

Sur le graphique du cercle des corrélations, on peut aussi interpréter les


positions des anciennes variables les unes par rapport aux autres en termes
de corrélations. Deux points très proches du cercle des corrélations, donc
bien représentées dans le plan, seront très corrélées positivement entre
elles. Si elles sont proches du cercle, mais dans des positions symétriques
par rapport `a l’origine, elles seront très corrélées n´négativement. Deux
variables proches du cercle des corrélations et dont les vecteurs qui les
joignent `a l’origine forment un angle droit, ne seront pas corrélées entre
elles. Il faut, pour interpréter correctement ces graphiques des cercles de
corrélation, se souvenir qu’un coefficient de corrélation est une mesure de
liaison linéaire entre deux variables, et qu’il peut arriver que deux variables
très fortement liées aient un coefficient de corrélation nul ou très faible, si
leur liaison n’est pas linéaire.
ACP NORMEE
Dans les paragraphes précédents, nous avons étudié l’ACP simple, pour laquelle, non
seulement tous les individus ont le même poids dans l’analyse, mais aussi, toutes les
variables sont traitées de façon symétrique (on leur fait jouer le même rôle) et les
nouveaux axes sont issus de la matrice de covariance empirique des variables. Cela pose
parfois des problèmes. Le premier reproche fait par des praticiens est que, si les
anciennes variables sont hétérogènes, comme par exemple des poids, des tailles et des
âges, quel sens peut-on donner aux composantes principales qui sont alors des
combinaisons linéaires de variables hétéroclites ? Le deuxième reproche, est que, si on
change d’unités sur ces variables, on peut changer complètement les résultats de l’ACP.
Le dernier reproche vient du fait qu’une variable contribuera d’autant plus à la
confection des premiers axes, que sa variance est forte. Pour échapper à tous ces
problèmes, on cherchera à normaliser les variables et à travailler sur des variables sans
dimension. Il y a plusieurs façons de normaliser les variables, mais la plus couramment
utilisée est celle qui consiste à diviser les valeurs des variables par leur écart-type, c’est-
à-dire que l’on travaille sur des variables centrées et réduites. Cela revient à faire la
même analyse que pour l’ACP simple, mais à choisir une autre distance euclidienne
entre les individus que la distance euclidienne classique.
La distance choisie est alors : ACP NORMEE

Cette nouvelle distance ne traite plus les variables de façon symétrique, mais elle permet de
faire jouer un rôle plus équitable à chacune d’entre elles. Si on reprend tous les calculs de
l’ACP simple, mais en remplaçant les variables de départ par les variables centrées réduites,
on voit que ce n’est plus la matrice de covariance, mais la matrice de corrélation R qui
intervient pour la recherche des nouveaux axes. Les particularités de l’ACP normée par
rapport à l’ACP simple proviennent du fait que la matrice de corrélation R n’a que des 1 sur
sa diagonale principale. Cela entraîne que sa trace est toujours égale à p. On a vu que la trace
de la matrice est égale à l’inertie totale du nuage calculée avec la distance euclidienne que
l’on a choisie. L’inertie totale du nuage des individus dans Rp est donc toujours égale à p
dans toute ACP normée.
ACP NORMEE
Exemple: Mesure de la tension artérielle diastolique, systolique et du
taux de cholestérol de 6 patients.
ACP NORMEE
Exemple: Mesure de la tension artérielle diastolique, systolique et du
taux de cholestérol de 6 patients.
CHAPTER FOUR
ACP DANS R
ACP DANS R

Notons que l’ACP est particulièrement utile lorsque les variables, dans le jeu de données, sont
fortement corrélées. La corrélation indique qu’il existe une redondance dans les données.
ACP DANS R

En résumé, l’analyse en composantes principales permet en premier lieu, d’identifier des “profils cachés”
dans un jeu de données, de réduire les dimensions des données en enlevant la redondance des données,
et d’identifier les variables corrélées.
Packages R
EXEMPLE
EXEMPLE
Standardisation des données
CODE R
CODE R
Visualisation et interpretation
Valeurs propres / Variances
Valeurs propres / Variances
Graphique des variables
Cercle de corrélation
Qualité de représentation
Qualité de représentation
Contributions des variables aux axes principaux
Contributions des variables aux axes principaux
Graphique des individus
Les applications de l’ACP
Neuroscience

Une technique connue sous le nom d’analyse de covariance déclenchée


par des pics utilise une variante de l’analyse des composantes principales
en neurosciences pour identifier les propriétés spécifiques d’un stimulus
qui augmentent la probabilité qu’un neurone génère un potentiel d’action.
L’ACP est également utilisée pour trouver l’identité d’un neurone à partir
de la forme de son potentiel d’action. L’ACP en tant que technique de
réduction de dimension est utilisée pour détecter les activités
coordonnées de grands ensembles neuronaux. Il a été utilisé pour
déterminer des variables collectives, c’est-à-dire des paramètres d’ordre,
lors des transitions de phase dans le cerveau.
Finance quantitative

L’ACP est une méthodologie pour réduire la dimensionnalité d’un problème


complexe. Supposons qu’un gestionnaire de fonds ait 200 actions dans son
portefeuille. Pour analyser quantitativement ces stocks, un gestionnaire de
stocks aura besoin d’une matrice co-relationnelle de la taille 200 * 200, ce
qui rend le problème très complexe. Cependant, s’il devait extraire 10
composantes principales qui représentent le mieux la variance des actions,
cela réduirait la complexité du problème tout en expliquant le mouvement
de l’ensemble des 200 actions. Certaines autres applications de l’ACP
comprennent : Analyse de la forme de la courbe des taux Couverture de
portefeuilles obligataires Mise en place de modèles de taux d’intérêt
Prévision des rendements du portefeuille Développement d’algorithmes
d’allocation d’actifs Développement d’algorithmes de trading d’actions long
short.
La reconnaissance faciale

L’utilisation d’EigenFaces pour la reconnaissance des visages est


une technique essentielle de la vision par ordinateur. Sirovich
et Kirby (1987) ont montre que l’ACP pouvait etre utilisée sur
une collection d’images de visages pour former un ensemble
de caractéristiques de base. L’ACP est au cœur de l’approche
EigenFaces car l’ensemble des EigenFaces est généré à l’aide de
l’ACP. L’approche Eigenface réduit la complexité statistique dans
la représentation de l’image du visage. D’autres chercheurs ont
augmenté la précision de la reconnaissance faciale en utilisant
une combinaison d’ondelettes, de PCA et de réseaux de
neurones.
Compression d’images

Nous allons reconstruire une image en utilisant des quantités


croissantes de composantes principales. Nous verrons que plus le
nombre de composantes principales augmente, plus la reconstruction
devient représentative de l’image originale. Combien de PC suffisent
pour compresser l’image tout en gardant une bonne qualité?
Compression d’images
AUTRES APPLICATIONS

L’ACP a également été utilisé dans divers autres domaines. L’ACP a été utilisé sur
les données médicales pour montrer la corrélation du cholestérol avec les
lipoprotéines de basse densité. De plus, cette méthode a été utilisée sur des
données HVSR (rapport spectral horizontal sur vertical) visant à la
caractérisation sismique des zones sujettes aux tremblements de terre. L’ACP a
été utilisé dans la détection et la visualisation des attaques de réseaux
informatiques ainsi que la détection d’anomalies.
CHAPTER FIVE
Conclusion
Si vous avez déjà travaillé avec des jeux de données contenant beaucoup de variables, vous savez que
cela peut présenter des problèmes. Comprenez-vous toutes vos variables et les relations entre-elles ?
Avez-vous tellement de variables que vous risquez de surcharger ou sur-apprendre votre modèle ?
Pour éviter tout cela, les Data Scientists ont recours généralement à l’ACP ou l’Analyse en
Composantes Principales. C’est une méthode de réduction de la dimensionnalité qui améliore la
performance des algorithmes de Machine Learning car elle élimine les variables corrélées qui ne contribuent
à aucune prise de décision.
L’analyse en composantes principales (ACP) est un outil extrêmement puissant de compression et de
synthèse de l’information, très utile lorsque l’on est en présence d’une somme importante de données
quantitatives à traiter et interpréter.
L’ACP est donc une méthode de réduction de la dimensionnalité qui permet non seulement d’éviter
le sur-apprentissage, mais aussi de simplifier les données et de gagner en matière de temps et de
puissance de calcul.
Finalement on remercie Mme.CHAMLAL de nous avoir donner la chance de traiter ce sujet intéressant
et de nous avoir mettre en évidence devant ce thème exclusif.
Thank you for your attention

Any questions?

Vous aimerez peut-être aussi