Académique Documents
Professionnel Documents
Culture Documents
projeter les données sur l’hyperplan le plus proche afin d’avoir une
représentation simple de nos données.
INTRODUCTION
ACP CANONIQUE
ACP NORMEE
ACP DANS R
6 CONCLUSION
Les Données
Les Données
Les Données
Dans une ACP, dans l’espace des individus on s’intéresse aux proximités
(métriques ou distances), alors que dans l’espace des variables on s’intéresse
aux angles.
ACP CANONIQUE
ACP CANONIQUE
Choix d’une distance:
ACP CANONIQUE
Le point moyen ou centre de gravité:
c’est une mesure de la dispersion du nuage des individus par rapport à son centre de gravité.
Moments d’inertie: ACP CANONIQUE
Inertie totale du nuage des individus
ACP CANONIQUE
On emploie souvent l’expression “ pourcentage d’inertie expliquée par Δ k” On peut étendre ces
définitions à tous les sous-espaces engendrés par les nouveaux axes. Ainsi, le pourcentage d’inertie
expliqué par le plan engendré par les deux premiers axes Δ 1 et Δ2 est égal à
Contributions des axes à l’inertie totale
ACP CANONIQUE
Cette nouvelle distance ne traite plus les variables de façon symétrique, mais elle permet de
faire jouer un rôle plus équitable à chacune d’entre elles. Si on reprend tous les calculs de
l’ACP simple, mais en remplaçant les variables de départ par les variables centrées réduites,
on voit que ce n’est plus la matrice de covariance, mais la matrice de corrélation R qui
intervient pour la recherche des nouveaux axes. Les particularités de l’ACP normée par
rapport à l’ACP simple proviennent du fait que la matrice de corrélation R n’a que des 1 sur
sa diagonale principale. Cela entraîne que sa trace est toujours égale à p. On a vu que la trace
de la matrice est égale à l’inertie totale du nuage calculée avec la distance euclidienne que
l’on a choisie. L’inertie totale du nuage des individus dans Rp est donc toujours égale à p
dans toute ACP normée.
ACP NORMEE
Exemple: Mesure de la tension artérielle diastolique, systolique et du
taux de cholestérol de 6 patients.
ACP NORMEE
Exemple: Mesure de la tension artérielle diastolique, systolique et du
taux de cholestérol de 6 patients.
CHAPTER FOUR
ACP DANS R
ACP DANS R
Notons que l’ACP est particulièrement utile lorsque les variables, dans le jeu de données, sont
fortement corrélées. La corrélation indique qu’il existe une redondance dans les données.
ACP DANS R
En résumé, l’analyse en composantes principales permet en premier lieu, d’identifier des “profils cachés”
dans un jeu de données, de réduire les dimensions des données en enlevant la redondance des données,
et d’identifier les variables corrélées.
Packages R
EXEMPLE
EXEMPLE
Standardisation des données
CODE R
CODE R
Visualisation et interpretation
Valeurs propres / Variances
Valeurs propres / Variances
Graphique des variables
Cercle de corrélation
Qualité de représentation
Qualité de représentation
Contributions des variables aux axes principaux
Contributions des variables aux axes principaux
Graphique des individus
Les applications de l’ACP
Neuroscience
L’ACP a également été utilisé dans divers autres domaines. L’ACP a été utilisé sur
les données médicales pour montrer la corrélation du cholestérol avec les
lipoprotéines de basse densité. De plus, cette méthode a été utilisée sur des
données HVSR (rapport spectral horizontal sur vertical) visant à la
caractérisation sismique des zones sujettes aux tremblements de terre. L’ACP a
été utilisé dans la détection et la visualisation des attaques de réseaux
informatiques ainsi que la détection d’anomalies.
CHAPTER FIVE
Conclusion
Si vous avez déjà travaillé avec des jeux de données contenant beaucoup de variables, vous savez que
cela peut présenter des problèmes. Comprenez-vous toutes vos variables et les relations entre-elles ?
Avez-vous tellement de variables que vous risquez de surcharger ou sur-apprendre votre modèle ?
Pour éviter tout cela, les Data Scientists ont recours généralement à l’ACP ou l’Analyse en
Composantes Principales. C’est une méthode de réduction de la dimensionnalité qui améliore la
performance des algorithmes de Machine Learning car elle élimine les variables corrélées qui ne contribuent
à aucune prise de décision.
L’analyse en composantes principales (ACP) est un outil extrêmement puissant de compression et de
synthèse de l’information, très utile lorsque l’on est en présence d’une somme importante de données
quantitatives à traiter et interpréter.
L’ACP est donc une méthode de réduction de la dimensionnalité qui permet non seulement d’éviter
le sur-apprentissage, mais aussi de simplifier les données et de gagner en matière de temps et de
puissance de calcul.
Finalement on remercie Mme.CHAMLAL de nous avoir donner la chance de traiter ce sujet intéressant
et de nous avoir mettre en évidence devant ce thème exclusif.
Thank you for your attention
Any questions?