Académique Documents
Professionnel Documents
Culture Documents
composantes
principales
méthode de la famille de l'analyse des
données
Analyse en
composantes
principales
Type Méthode
statistique ( ),
d
apprentissage
non
supervisé,
statistique
multivariée
Noms ACP, PCA
(en)
courts
Premier exemple
Second exemple
Données
On applique généralement une ACP sur
un ensemble de N variables aléatoires X1,
…, XN connues à partir d'un échantillon de
réalisations conjointes de ces
variables.
Cet échantillon de ces N variables
aléatoires peut être structuré dans une
matrice M, à K lignes et N colonnes.
Poids
transformée en ou , il suffit de la
multiplier par sa transposée pour obtenir:
.
De plus, si l'on note la matrice
diagonale des inverses des écarts-types:
alors on a:
.
Critère d'inertie
Dans la suite de cet article, nous
considèrerons que le nuage est
transformé (centré et réduit si besoin
est). Chaque Xn est donc remplacé par
ou .
Nous utiliserons donc la matrice pour
noter ou suivant le cas.
Projection
Les valeurs de la
diagonale de sont rangées en ordre
décroissant. Le vecteur unitaire u qui
maximise est un vecteur propre
de C associé à la valeur propre ; on a
alors :
Démonstration
La première condition
nécessaire d'extremum
local sous contrainte est
l'ensemble des relations :
pour tout ,
est simplement la
transposée du i-ème
vecteur de la base
canonique de RN (toutes
les coordonnées nulles
sauf la i-ème égale à 1)
De plus,
(d'après la seconde
condition de Lagrange sur
l'annulation des dérivées
partielles
Diagonalisation
La diagonalisation de la matrice de
corrélation (ou de covariance si on se
place dans un modèle non réduit), nous a
permis d'écrire que le vecteur qui
explique le plus d'inertie du nuage est le
premier vecteur propre. De même le
deuxième vecteur qui explique la plus
grande part de l'inertie restante est le
deuxième vecteur propre, etc.
Méthodes voisines et
extensions : la famille
factorielle
L’analyse en composantes principales est
la plus connue des méthodes
factorielles ; d’autres méthodes
factorielles existent pour analyser
d’autres types de tableau. À chaque fois,
le principe général est le même.
Compression
l'analyse en composantes
indépendantes ;
les cartes auto-adaptatives (SOM, self
organizing maps en anglais) ; appelées
aussi cartes de Kohonen ;
l'analyse en composantes curvilignes ;
la compression par ondelettes.
Évolution de la topographie
Apprentissage Automatique
Logiciels
Python
Exemple sous R
Il y a 7 variables physico-chimiques
d’intérêt, mesurées au niveau des 30
stations : le pH, la dureté de l’eau, le
phosphate, le nitrate, l'ammoniaque,
l'oxygène et la demande biologique en
oxygène. Quelles données sont
corrélées ? Peut-on représenter la
pollution le long de la rivière ?
library(ade4)
library(adegraphics)
data(doubs)
ACP <-
dudi.pca(doubs$env[,5:11],
center = T, scale = T,
scannf=FALSE, nf = 2)
#On récupère les 5
variables physico-
chimiques, on centre les
données, on les réduit, on
définit le nombre d'axes
pour l'ACP à 2)
ACP$eig #On récupère les
valeurs propres
s.corcircle(ACP$co, xax =
1, yax = 2) #On affiche le
cercle des corrélations
sur le premier plan
factoriel de l'ACP
s.label(ACP$li, xax = 1,
yax = 2) #On affiche les
stations dans le premier
plan factoriel de l'ACP
s.value(doubs$xy,ACP$li[,1
], symbol = "circle", col
= c("blue","brown"))#Les
stations sont symbolisées
par des cercles pour la
valeur du 1er axe de l'ACP
(la pollution). Les
stations peu polluées sont
en bleu, les stations plus
polluées sont en marron
Voir aussi
Bibliographie
Articles connexes
Valeurs propres
Compression statistique
Équilibre biais / variance
Analyse de la variance
Partitionnement de données
Exploration de données
Iconographie des corrélations
Michel Loève
Kari Karhunen
Théorème de Karhunen-Loève (en)
Liens externes
Ce document provient de
« https://fr.wikipedia.org/w/index.php?
title=Analyse_en_composantes_principales&oldi
d=202156206 ».
La dernière modification de cette page a été
faite le 10 mars 2023 à 10:44. •
Le contenu est disponible sous licence CC BY-SA
3.0 sauf mention contraire.