Vous êtes sur la page 1sur 4

2/20/2022

Introduction
ACP • Lorsqu’on étudie simultanément un nombre important de
variables quantitatives, comment en faire un graphique
global?
Domaine de l’analyse des données multivariées ou
analyse des données multidimensionnelles ou • La difficulté vient de ce que les individus étudiés ne sont plus
représentés dans un plan, espace de dimension 2, mais dans
statistiques factorielles un espace de dimension plus importante.

L’ACP devrait répondre aux trois questions : • L’objectif de l’Analyse en Composantes Principales (ACP) est
de passer à un espace de dimension réduite (de 2 à 4) en
1. Les données sont-elles factorisables ? déformant le moins possible la réalité. Il s’agit donc d’obtenir
2. Combien de facteurs à retenir ? le résumé le plus pertinent possible des données initiales.
3. Comment interpréter les résultats ? • L’ACP consiste à transformer des variables liées entre elles ou
corrélées en de nouvelles variables indépendantes les unes
Souvent, elle aboutit à la typologie des individus. des autres: c’est le passage des variables initiales vers les axes
factoriels. 2

1 2

Représentation matricielles des données Représentation matricielles des données


• Soient n variables sur un échantillon de k individus: • Leur réduction donne
X1,1 X i ,1 X n,1 
   X1,1  X 1 X i ,1  X i X n,1  X n 
   

M  X 1, j X i , j X n, j    X1 X i
 Xn 
   
  
 X 1,k X i ,k  ~  X 1, j  X 1 X i, j  X i X n, j  X n 
 X n , k  M 
  X1 X  Xn 
• Il est possible deMoyennescentrer des n variables: centre
les observations:
de gravité du nuage des individus

i

 X1,1  X 1 X i ,1  X i  
X n,1  X n   X 1,k  X 1 X i ,k  X i X n,k  X n 
  
    X1 X  X n 
M   X 1, j  X 1 X i , j  X i X n, j  X n 
i

 
 
X  X X  X X n ,k  X n 
 1,k 1 i ,k i 3 4

3 4

1
2/20/2022

Notions d’inertie et de valeur propre


Matrice de corrélations
Inertie: Somme des carrées de la distance euclidienne
1 t~ ~ k
corrélations   M  M I   Ci  d i2
k i 1
En ACP, 1 et
Matrice de variances-covariances Ci  d i2  var iance
k
Le concept de valeur propre correspond à une application linéaire
1 d’un espace vectoriel sur lui-même: endomorphisme multipliant
cov ariances  t M  M le vecteur par une constante: la valeur propre.
k
La trace de cette matrice, carrée et symétrique, En ACP, les valeurs propres des variables initiales sont toutes
unitaires;
traduit dispersion totale des individus considérés
selon les variables prises en compte. Pour les axes factoriels, elles seront estimées selon le
pourcentage de la variance expliquée de chacune des
composantes principales.
L’inertie totale est trace de la matrice des variances-covariances
5 multiplié par le nombre d’observation. 6

5 6

Postulats de l’ACP Postulats de l’ACP (suite)


Corrélations entre les variables, la majorité des
coefficients de corrélation de plus 0,16 dont certains de Test de sphéricité de Bartlett X ²   k  n  1    log ri 2,k
plus 0,5.  2  i k
• Est une distribution χ² (t  p  2)  (t  p  1)
ddl 
Matrice de corrélation non singulière et différente de 2
l’unité: déterminant différent de 0 et de 1.
t: nombre de composantes extraites
r 2
i, j
Test de de Kaiser-Meyer-Olkin KMO  i j p: nombre de composantes non considérées
r  a 2
i, j
2
i, j / k n: nombre de variables brutes
• 0,90 et plus : très grande validité ; i j i j

• 0,89 à 0,80 : grande validité ; k: nombre d’individus


• 0,79 à 0,70 : validité moyenne ; rX i , X j  rX i , X k  rX j , X k
• 0,69 à 0,60 : validité faible ;
aXi ,X j / X k 
1  rX2i , X k  1  rX2 j , X k
• 0,59 à 0,50 : validité au seuil limite ;
• 0,49 et moins : invalide 7 8

7 8

2
2/20/2022

Construction des axes factoriels Construction des axes factoriels (suite)


Critère de Kaiser Interprétation des composantes extraites
• Le critère de Kaiser stipule que seules les composantes
• Quelle est la signification de chacune des composantes
expliquant plus de variance que les variables initiales sont à
extraire. extraites?

• Ainsi, l’extraction des composantes doit donc s’arrêter dès • Quelle est la proportion de la variance extraite?
que la valeur propre d’une axe factoriel devient inférieure à
1,0. Extraction des axes factoriels
Test d’accumulation de variance • Le premier axe factoriel est celui le plus proche de
l’ensemble du nuage des individus: le nuage de points se
C’est le scree test de Cattell: La stabilisation de la pente de la trouve allongé autour de cet axe.
droite des valeurs propres en fonction des axes factoriels
– Il explique le % de la variance le plus élevé.
correspond au nombre de facteurs à retenir 9 10

9 10

Interprétation des résultats


Extraction des axes factoriels (suite)
• Identification des axes factoriels: quelles sont les
• Le deuxième axe factoriel est orthogonal au premier axe variables qui expliquent chacun des axes factoriels.
factoriel.
– L’application de la rotation aux axes factoriels peut
• Il est identifié de la même manière que le précédent sur la contribuer à mieux saisir la signification des axes
factoriels.
base de la variance résiduelle.
• Possibilités d’éliminer les variables ayant des poids
• Le reste des composantes principales est déterminé de la
même manière.
semblables sur tous les axes et celles formant un
axe à elles seules.
• La proportion de la variance expliquée est décroissante
d’un axe à un autre.
• Estimation des scores ou coordonnées sur chaque
axe factoriel de tous les individus: c’est l’inertie des
individus.
11 12

11 12

3
2/20/2022

Application de l’ACP: classification


Appelée aussi typologie ou segmentation: répartition
des individus entre différentes classes:
Eloignement entre les individus
Homogénéité des individus de même groupe
Hétérogénéité entre les classes
Nombre de classes et d’individus par classe

13

13

Vous aimerez peut-être aussi