Vous êtes sur la page 1sur 37

Cours de Statistique Exploratoire Multidimensionnelle

Chapitre 1 : Analyse en Composantes Principales (ACP)

Dr. Nvuh Njoya Youssouf1

1 FSEG - Université de Yaoundé II-Soa

Licence Ingéniérie Économique, Semestre 2, 2019-2020


Plan de la présentation

1 Introduction

2 Données, Notations, Exemples

3 Problèmes et Objectifs

4 Analyse du nuage des individus dans Rp

5 Analyse du nuage des variables dans Rn

6 Interprétation d’une ACP normée


Introduction
Données, Notations, Exemples
Problèmes et Objectifs
Analyse du nuage des individus dans Rp
Analyse du nuage des variables dans Rn
Interprétation d’une ACP normée

Introduction

Conçue par Karl Pearson en 1901, intégrée à la statistique mathéma-


tique par Harold Hotelling en 1933, l’analyse en composantes princi-
pales (ACP) est une méthode de statistique exploratoire permettant
de décrire un grand tableau de données de type individus/variables.
Lorsque les individus sont décrits par un nombre important de va-
riables, aucune représentation graphique simple ne permet de visua-
liser le nuage de points formé par les données. L’ACP propose une
représentation dans un espace de dimension réduite, permettant ainsi
de mettre en évidence d’éventuelles structures au sein des données.
Pour cela, nous recherchons les sous-espaces dans lesquels la projec-
tion du nuage déforme le moins possible le nuage initial.

Dr Nvuh Njoya Y. Analyse en Composantes Principales


Introduction
Données, Notations, Exemples
Problèmes et Objectifs Données et Notations
Analyse du nuage des individus dans Rp Exemple
Analyse du nuage des variables dans Rn
Interprétation d’une ACP normée

Les données sont sous la forme d’un tableau rectangulaire à n lignes


et p colonnes, que l’on stocke sous la forme d’une matrice X de taille
n × p.

Pour la variable j on note :


1 n
xj = ∑ xij
n i=1
s
1 n
σj = ∑ (xij − xj )2
n i=1

Dr Nvuh Njoya Y. Analyse en Composantes Principales


Introduction
Données, Notations, Exemples
Problèmes et Objectifs Données et Notations
Analyse du nuage des individus dans Rp Exemple
Analyse du nuage des variables dans Rn
Interprétation d’une ACP normée

La matrice X est d’ordre (n,p). Son terme générique est xij (ième
observation de la jème variable.). Chaque ligne de X représente les
valeurs prises par l’individu i sur les p variables ; de même chaque
colonne de X représente les valeurs de la variable p pour les n indi-
vidus. Par simplicité de langage, l’individu i est une ligne du tableau
X identifié au vecteur xi de Rp et la variable j est une colonne du
tableau X identifiée au vecteur xj de Rn.

Dr Nvuh Njoya Y. Analyse en Composantes Principales


Introduction
Données, Notations, Exemples
Problèmes et Objectifs Données et Notations
Analyse du nuage des individus dans Rp Exemple
Analyse du nuage des variables dans Rn
Interprétation d’une ACP normée

Individu Variable xij


produit ali- Composition (Nacl, etc) Teneur du produit i
mentaire élèment j
produit ali- Descripteur sensoriel Note donnée par un jury
mentaire (acide, amer etc) au produit i concernant le
descripteur j
Etudiant Matière d’examen Note obtenue par l’étu-
(maths, physique, etc) diant i dans la matière j
pays Indicateur économique Valeur de l’indicateur j
(PNB, taux de chômage pour le pays i
etc)
Enquêté Question quantitative Réponse de l’individu i à
(âge, revenu, etc) la question j

Dr Nvuh Njoya Y. Analyse en Composantes Principales


Introduction
Données, Notations, Exemples
Problèmes et Objectifs Problèmes
Analyse du nuage des individus dans Rp Objectifs
Analyse du nuage des variables dans Rn
Interprétation d’une ACP normée

La visualisation de X peut se faire de deux manières : soit comme une


projection d’un ensemble de lignes (étude des individus) soit comme
une projection d’un ensemble de colonnes (étude des variables).
Étude des individus
Pourquoi la visualisation des n individus dans l’espace à p di-
mension est impossible ?
Est-il possible d’établir un profil de ressemblance entre les indi-
vidus ?
Quand dit-on que deux individus se ressemblent du point de vue
de l’ensemble des variables ?

Dr Nvuh Njoya Y. Analyse en Composantes Principales


Introduction
Données, Notations, Exemples
Problèmes et Objectifs Problèmes
Analyse du nuage des individus dans Rp Objectifs
Analyse du nuage des variables dans Rn
Interprétation d’une ACP normée

Étude des variables


Pourquoi la représentation des p variables dans l’espace à n
dimension est impossible ?
Est-il possible d’établir un profil de liaison entre les variables ?
Quand dit-on que deux variables sont liées du point de vue de
l’ensemble des individus ?

Dr Nvuh Njoya Y. Analyse en Composantes Principales


Introduction
Données, Notations, Exemples
Problèmes et Objectifs Problèmes
Analyse du nuage des individus dans Rp Objectifs
Analyse du nuage des variables dans Rn
Interprétation d’une ACP normée

Étude des individus


1 individu est une ligne du tableau i.e. un 1 point dans un espace à
p dimension.
Si p = 1 c’est une représentation axiale
Si p = 2 c’est un plan (nuage de points)
Si p = 3 Répresentation difficile en 3D
Si p = 4 Représentation impossible
L’objectif est donc de visualiser l’ensemble des individus dans un sous-
espace réduit de dimension au plus égale à 2 sans perte d’information
importante. Cela est possible à travers la notion de ressemblance
entre les individus. on s’intéresse aux individus qui se ressemblent
selon leur profil de réponse. La ressemblance est appréhendée par le
calcul de la distance euclidienne entre individus.

Dr Nvuh Njoya Y. Analyse en Composantes Principales


Introduction
Données, Notations, Exemples
Problèmes et Objectifs Problèmes
Analyse du nuage des individus dans Rp Objectifs
Analyse du nuage des variables dans Rn
Interprétation d’une ACP normée

Étude des variables


1 variable est une colonne du tableau i.e. un 1 point dans un espace
à n dimension.
Si n = 1 c’est une représentation axiale
Si n = 2 c’est un plan (nuage de points)
Si n = 3 Répresentation difficile en 3D
Si n = 4 Représentation impossible
L’objectif est donc de visualiser l’ensemble des variables dans un sous-
espace réduit de dimension au plus égale à 2 sans perte d’information
importante. Cela est possible à travers la notion de liaison entre les
variables pris 2 à 2. On s’intéresse à la corrélation selon leur profil
de réponse. La liaison est appréhendée par le calcul du coefficient de
corrélation linéaire simple.

Dr Nvuh Njoya Y. Analyse en Composantes Principales


Introduction
Données, Notations, Exemples Distance entre points individus
Problèmes et Objectifs Principe d’ajustement
Analyse du nuage des individus dans Rp Matrice à diagonaliser
Analyse du nuage des variables dans Rn Axes factoriels
Interprétation d’une ACP normée

L’analyse repose donc sur les distances entre individus dans Rp , et


le choix de la métrique a une influence sur le résultat de l’ACP. La
distance euclidienne usuelle entre deux individus i et i’ est donnée
par :
p
d 2 (i, i 0 ) = ∑ (xij − xi j )20 (1)
j=1

Lorsque toutes les variables sont exprimées dans la même unité et que
les variances ne sont pas trop différentes (de sorte que chaque variable
ait la même importance dans le calcul des distances entre points), la
distance euclidienne convient. Dans le cas contraire, la métrique la
plus couramment utilisée est la métrique des inverses des variances.
Cette métrique permet à la fois de s’affranchir de l’unité de mesure
et de donner à chaque variable la même importance dans le calcul
de la distance. Cette démarche est appelée centrage-réduction.
Dr Nvuh Njoya Y. Analyse en Composantes Principales
Introduction
Données, Notations, Exemples Distance entre points individus
Problèmes et Objectifs Principe d’ajustement
Analyse du nuage des individus dans Rp Matrice à diagonaliser
Analyse du nuage des variables dans Rn Axes factoriels
Interprétation d’une ACP normée

Lorsque l’ACP usuelle revient à centrer et réduire les variables, on


l’appelle ACP normée. Dans ce cas la distance euclidienne entre
deux individus i et i’ est donnée par :
p
xij − xi 0 j 2
d 2 (i, i 0 ) = ∑( √ ) (2)
j=1 σj n

L’analyse normée dans Rp du tabeau brut de départ est l’analyse


générale de X de terme général rij avec :

xij − xj
rij = √ (3)
σj n

Toutes les variables transformées sont comparables et ont une même


dispersion σ 2 (xj ) = 1. (les variables sont centrées réduites.)

Dr Nvuh Njoya Y. Analyse en Composantes Principales


Introduction
Données, Notations, Exemples Distance entre points individus
Problèmes et Objectifs Principe d’ajustement
Analyse du nuage des individus dans Rp Matrice à diagonaliser
Analyse du nuage des variables dans Rn Axes factoriels
Interprétation d’une ACP normée

On considère un nuage de n points-individus définis dans l’espace Rp


qui sont non pondérés (chaque individus est muni d’une même masse
égale à 1/n).
L’objectif est de fournir des images approchées du nuage des indivi-
dus. Nous considérons le nuage des n individus non pondérés. Nous
voulons, dans l’espace des variables, ajuster le nuage de n points par
un sous espace à une dimensions, de façon à obtenir sur un graphique
une représentation visuelle la plus fidèle possible des proximités exis-
tant entre les n points-individus vis-à-vis des p variables.
Commençons par chercher un sous-espace vectoriel à une dimension,
c’est-à-dire une droite passant par l’origine, qui réalise le meilleur
ajustement possible du nuage de points. Il faut pour cela définir
le vecteur directeur unitaire de cette droite. Soit u ce vecteur. On
désignera également par u la matrice colonne associée, et par u’ sa
transposée.
Dr Nvuh Njoya Y. Analyse en Composantes Principales
Introduction
Données, Notations, Exemples Distance entre points individus
Problèmes et Objectifs Principe d’ajustement
Analyse du nuage des individus dans Rp Matrice à diagonaliser
Analyse du nuage des variables dans Rn Axes factoriels
Interprétation d’une ACP normée

On exprime que u est unitaire par la relation u’u = 1. La longueur


de la projection OHi d’un vecteur OMi sur le sous-espace à une
dimension porté par u n’est autre que le produit scalaire de OMi par
u, somme des produits terme à terme des composantes de OMi et
de u :
p
OHi = xi0 u = ∑ xij uj
j=1
Dr Nvuh Njoya Y. Analyse en Composantes Principales
Introduction
Données, Notations, Exemples Distance entre points individus
Problèmes et Objectifs Principe d’ajustement
Analyse du nuage des individus dans Rp Matrice à diagonaliser
Analyse du nuage des variables dans Rn Axes factoriels
Interprétation d’une ACP normée

Chacune des n lignes du tableau X est un vecteur-individu xi dans


Rp . Or le produit matriciel Xu est la matrice-colonne à n éléments,
dont chaque terme est le produit scalaire d’une ligne de X par u :
   p 
x11 ... x1p   ∑j=1 x1j uj
 .. ..  u1  .. 
 . ... .   ..   . 
  .   p 
Xu =  ... xij ...   .  =  ∑j=1 xij uj 
    
 .. ..   ..  

.. 
 . ... .   . 
up p
xn1 ... xnp ∑j=1 xnj uj

Dr Nvuh Njoya Y. Analyse en Composantes Principales


Introduction
Données, Notations, Exemples Distance entre points individus
Problèmes et Objectifs Principe d’ajustement
Analyse du nuage des individus dans Rp Matrice à diagonaliser
Analyse du nuage des variables dans Rn Axes factoriels
Interprétation d’une ACP normée

Ce sont les n composantes de la matrice colonne Xu qui repèrent


sur u les n projections OHi des points du nuage. Parmi les critères
d’ajustement d’un sous-espace à un nuage de n points, celui que
l’on retient et qui conduit aux calculs analytiques sans doute les plus
simples, est le critère classique des moindres carrés. Il consiste à
rechercher la droite d’allongement maximum du nuage de points et
donc à rendre minimale la somme des carrés des écarts :
n
∑ Mi Hi2
i=1

Le théorème de Pythagore appliqué à chacun des n triangles rec-


tangles du type Hi OMi conduit à la relation :
n n n
∑ Mi Hi2 = ∑ OMi2 − ∑ OHi2
i=1 i=1 i=1

Dr Nvuh Njoya Y. Analyse en Composantes Principales


Introduction
Données, Notations, Exemples Distance entre points individus
Problèmes et Objectifs Principe d’ajustement
Analyse du nuage des individus dans Rp Matrice à diagonaliser
Analyse du nuage des variables dans Rn Axes factoriels
Interprétation d’une ACP normée

On va donc rendre maximale la quantité ∑ni=1 OHi2 qui s’exprime en


fonction de X et de u par :
n
∑ OHi2 =< Xu, Xu >= kXuk2 = (Xu)0 Xu = u0 X 0 Xu
i=1

Pour trouver u, on est conduit à rechercher le maximum de la forme


quadratique
( u’X’Xu :
0
Max u X Xu 0

s/c u 0 u = 1
Soit u1 le vecteur qui réalise ce maximum. Le sous-espace à deux
dimensions s’ajustant au mieux au nuage contient nécessairement le
sous-espace engendré par u1 . On cherche ensuite u2 , le second vec-
teur de base de ce sous-espace, orthogonal à u1 et rendant maximal
u’2 X’Xu2 . On recherche de façon analogue le meilleur sous-espace
au sens des moindres carrés à q dimensions (pour q6p ).
Dr Nvuh Njoya Y. Analyse en Composantes Principales
Introduction
Données, Notations, Exemples Distance entre points individus
Problèmes et Objectifs Principe d’ajustement
Analyse du nuage des individus dans Rp Matrice à diagonaliser
Analyse du nuage des variables dans Rn Axes factoriels
Interprétation d’une ACP normée

La résolution de ce programme conduit à déterminer le Lagrangien :


L = u 0 X 0 Xu − λ (u 0 u − 1)
La détermination des points candidats permet de déterminer les dé-
rivées partielles :

∂L 0 0
 ∂ u = 0 ⇒ 2X Xu − 2∂ u = 0 ⇒ X Xu = λ u
 (i)
∂L 0 0
 ∂λ = 0 ⇒ u u − 1 = 0 ⇒ u u = 1 (ii)
en conidrant (i) et (ii) ⇒ u X Xu = u 0 λ u = λ u 0 u = λ
0 0

En résumé maximiser l’inertie expliquée par u revient à déterminer la


valeur propre la plus grande. Autrement dit, cela revient à déterminer
la direction d’allongement maximal.
Le vecteur unitaire u1 qui caractérise le sous-espace à une dimension
ajustant au mieux le nuage des n points-individus dans Rp, est le
vecteur propre de la matrice X’X correspondant à la plus grande
valeur propre λ1 .
Dr Nvuh Njoya Y. Analyse en Composantes Principales
Introduction
Données, Notations, Exemples Distance entre points individus
Problèmes et Objectifs Principe d’ajustement
Analyse du nuage des individus dans Rp Matrice à diagonaliser
Analyse du nuage des variables dans Rn Axes factoriels
Interprétation d’une ACP normée

Dans le cas d’une analyse normée, l’analyse des points-individus dans


Rp nous a amène à effectuer une translation de l’origine au centre de
gravité de ce nuage et à changer les échelles sur les différents axes.
L’analyse du tableau transformé X nous conduit à diagonaliser la
matrice C = X’X de terme général cjj 0 .
n
1 n (xij − xj )(xij 0 − xj 0 )
cjj 0 = ∑ rij rij 0 = ∑ = corr (j, j 0 ) (4)
i=1 n i=1 σj σj

corr(j,j’) est le coefficient de corrélation empirique entre les variables



j et j’(d’où l’impotance de n au dénominateur de la relation (3)). La
matrice à diagonaliser dans une analyse normée est donc la matrice
des corrélations C.

Dr Nvuh Njoya Y. Analyse en Composantes Principales


Introduction
Données, Notations, Exemples Distance entre points individus
Problèmes et Objectifs Principe d’ajustement
Analyse du nuage des individus dans Rp Matrice à diagonaliser
Analyse du nuage des variables dans Rn Axes factoriels
Interprétation d’une ACP normée

Les coordonnées des n points-individus sur l’axe factoriel uα normé


(α ième axe de direction de vecteur propre normé à 1 de la matrice C
associé à la valeur propre λα ) sont les n composantes du vecteur :

ψα = Xuα

ψα est une combinaison lineaire des variables initiales (α ème com-


posante principale : c’est le vecteur des coordonnées des projections
des individus sur l’axe uα ). Les coordonnées du point individu i sur
cet axe s’écrit :
p
ψαi = ∑ uαj rij
j=1
(
∑ni ψαi = 0
On note également que :
var (ψα ) = λα

Dr Nvuh Njoya Y. Analyse en Composantes Principales


Introduction
Distance entre points variables
Données, Notations, Exemples
Distance à l’origine
Problèmes et Objectifs
Principe d’ajustement
Analyse du nuage des individus dans Rp
Matrice à diagonaliser
Analyse du nuage des variables dans Rn
Axes factoriels
Interprétation d’une ACP normée

La distance entre variable découle de l’analyse dans Rp. De cet fait


la distance usuelle entre deux variables j et j’ est donnée par :
n
d 2 (j, j 0 ) = ∑ (rij − rij )2 0 (5)
i=1
Soit :
n n n
d 2 (j, j 0 ) = ∑ (rij )2 + ∑ (rij 0 )2 − 2 ∑ rij rij 0
i=1 i=1 i=1
En remplaçant rij par sa valeur tirée de la relation (3) et tenant
compte de la valeur de σj2 = n1 ∑ni=1 (xij − xj )2 . On obtient :
n n n
∑ (rij )2 = ∑ (rij 0 )2 = 1 et ∑ rij rij 0 = cjj 0 .
i=1 i=1 i=1

D’où :
d 2 (j, j 0 ) = 2(1 − cjj 0 ) (6)
Dr Nvuh Njoya Y. Analyse en Composantes Principales
Introduction
Distance entre points variables
Données, Notations, Exemples
Distance à l’origine
Problèmes et Objectifs
Principe d’ajustement
Analyse du nuage des individus dans Rp
Matrice à diagonaliser
Analyse du nuage des variables dans Rn
Axes factoriels
Interprétation d’une ACP normée

Ce qui implique que


0 ≤ d 2 (j, j 0 ) ≤ 4
Dans l’espace Rn le cosinus de l’angle de deux vecteurs-variables est
le coefficient de corrélation entre ces deux variables(cjj 0 =cos(j, j 0 )).
Si ces deux variables sont à la distance 1 de l’origine, le cosinus n’est
autre que le produit scalaire.
Le système de proximité entre points-variables induit par la relation
(6) s’interprètent en termes de corrélations :
Deux variables fortement corrélées sont très proches l’une de
l’autre (cjj 0 =1) ou au contraire les plus éloignées possible
(cjj 0 =¬1) selon que la relation linéaire qui les lie est directe ou
inverse ;
Deux variables orthogonales (cjj 0 =0) sont à distance moyenne
et signifie qu’elles sont indépendantes.
Dr Nvuh Njoya Y. Analyse en Composantes Principales
Introduction
Distance entre points variables
Données, Notations, Exemples
Distance à l’origine
Problèmes et Objectifs
Principe d’ajustement
Analyse du nuage des individus dans Rp
Matrice à diagonaliser
Analyse du nuage des variables dans Rn
Axes factoriels
Interprétation d’une ACP normée

L’analyse dans Rn ne se fait pas par rapport au centre de gravité du


nuage de points-variables, contrairement à celui des points-individus,
mais par rapport à l’origine. La distance d’une variable j à l’origine
O s’exprime par :
n
d 2 (O, j) = ∑ rij2 = 1 (7)
i=1

Tous les points-variables sont sur une sphère de rayon 1 centrée à


l’origine des axes : la sphère des corrélations ou le cercle des
corrélations.

Dr Nvuh Njoya Y. Analyse en Composantes Principales


Introduction
Distance entre points variables
Données, Notations, Exemples
Distance à l’origine
Problèmes et Objectifs
Principe d’ajustement
Analyse du nuage des individus dans Rp
Matrice à diagonaliser
Analyse du nuage des variables dans Rn
Axes factoriels
Interprétation d’une ACP normée

On considère à présent un nuage de p points-variables dont les n


coordonées répresentent les colonnes de X. La démarche pour ajuster
le nuage des p points est similaire que pour le nuage des n points-
individus. Il consiste à rechercher le vecteur unitaire v, puis le sous
espace à q dimensions dans Rn qui ajuste au mieux le nuage de
points.
Cela conduit à rendre maximale la somme des carrés des p projections
sur v, qui sont les p composantes du vecteur X’v. On maximise la
quantité
( :
Max (X 0 v )0 X 0 v = v 0 XX 0 v
s/c v 0 v = 1
Comme précédemment, nous sommes amenés à retenir les q vecteurs
propres de XX’ correspondant aux q plus grandes valeurs propres.

Dr Nvuh Njoya Y. Analyse en Composantes Principales


Introduction
Distance entre points variables
Données, Notations, Exemples
Distance à l’origine
Problèmes et Objectifs
Principe d’ajustement
Analyse du nuage des individus dans Rp
Matrice à diagonaliser
Analyse du nuage des variables dans Rn
Axes factoriels
Interprétation d’une ACP normée

Dans Rn l’analyse du tableau transformé conduit à diagonaliser la


matrice XX’ d’ordre (n,n) de terme général ci 0 i .
p p
1 (xij − xj )(xi 0 j − xj 0 )
ci 0 i = ∑ rij ri j = p ∑
0 = corr (i 0 , i) (8)
j=1 j=1 σ j σj

Cependant, il n’est pas nécessaire de réitérer l’ensemble des calculs


faits précédemment. Il existe des relations de transitions/dualité qui
permettent de déduire les axes factoriels dans cette analyse.
Le vecteur vα = √1λ Xuα est en effet le vecteur propre unitaire de
α
XX’avec la même valeur propre λα .
Les coordonnées des p points-variables sur l’axe factoriels ϕα normé
sont les p composantes du vecteur :
1 √
ϕα = X 0 vα = √ X 0 Xuα = uα λ α
λα
Dr Nvuh Njoya Y. Analyse en Composantes Principales
Introduction
Distance entre points variables
Données, Notations, Exemples
Distance à l’origine
Problèmes et Objectifs
Principe d’ajustement
Analyse du nuage des individus dans Rp
Matrice à diagonaliser
Analyse du nuage des variables dans Rn
Axes factoriels
Interprétation d’une ACP normée

Comme on l’a vu ψα = Xuα , d’où :


1
ϕα = √ X 0 ψα
λα
Alors les coordonnées factorielles ϕαj des points-variables sur l’axe α
sont les composantes de X 0 ψα soit :
n
xij − x j ψαi
ϕαj = ∑ ( σj √n )( √λα ) = corr (j, ψα )
i=1

La coordonnée d’un point-variable sur un axe n’est autre que le co-


efficient de corrélation de cette variable avec le facteur ψα .
Les axes factoriels étant orthogonaux 2 à 2, on obtient ainsi une
série de variables artificielles non corrélées entre elles, appelées com-
posantes principales, qui synthétisent les corrélations de l’ensemble
des variables initiales.
Dr Nvuh Njoya Y. Analyse en Composantes Principales
Introduction
Notion d’inertie
Données, Notations, Exemples
Choix du nombre d’axes à retenir
Problèmes et Objectifs
Construction du nuage de points projectés
Analyse du nuage des individus dans Rp
Interprétation des axes
Analyse du nuage des variables dans Rn
Éléments supplémentaires et représentation simultanée
Interprétation d’une ACP normée

l’inertie I des données est l’inertie du nuage des individus. c’est la


dispersion du nuage des n points-individus de Rp définie par :
1 n 2 1 n p
I= ∑
n i=1
d (i, G ) = ∑ ∑ (xij − xj )2
n i=1 j=1

Il renseigne sur la "forme" du nuage des individus. Si cette inertie


est grande, cela signifie que le nuage est très disperse, tandis que s’il
est petit, alors le nuage est très concentré sur son centre de gravité.
L’inertie des données I peut également s’écrire sous la forme :
p
I= ∑ var (xj )
j=1

Sous cette forme l’inertie totale I est égale à la trace de la matrice


X’X ie.
I = trace(X 0 X )
Dr Nvuh Njoya Y. Analyse en Composantes Principales
Introduction
Notion d’inertie
Données, Notations, Exemples
Choix du nombre d’axes à retenir
Problèmes et Objectifs
Construction du nuage de points projectés
Analyse du nuage des individus dans Rp
Interprétation des axes
Analyse du nuage des variables dans Rn
Éléments supplémentaires et représentation simultanée
Interprétation d’une ACP normée

L’inertie total I est encore égale :


p
I = λ1 + · · · + λp = ∑ λα
α=1
En ACP normée cette inertie vaut p.
Pour définir le nombre d’axes étudiés, on étudie les valeurs propres
obtenues. Chaque valeur propre correspond à la part d’inertie projeté
sur un axe donné. On caractérise ainsi chaque axe par le pourcentage
d’inertie qu’il permet d’expliquer. La part d’inertie expliquée par le
α ème axe factoriel est donnée par :
λα
λ1 + · · · + λp
La part d’inertie expliquée par les q premiers axes factoriels :
λ1 + · · · + λq
λ1 + · · · + λp
Dr Nvuh Njoya Y. Analyse en Composantes Principales
Introduction
Notion d’inertie
Données, Notations, Exemples
Choix du nombre d’axes à retenir
Problèmes et Objectifs
Construction du nuage de points projectés
Analyse du nuage des individus dans Rp
Interprétation des axes
Analyse du nuage des variables dans Rn
Éléments supplémentaires et représentation simultanée
Interprétation d’une ACP normée

On peut retenir trois critères empiriques pour sélectionner le nombre


d’axes :
Critère du coude : sur l’éboulis des valeurs propres, on
observe un décrochement (coude) suivi d’une décroissance
régulière. On sélectionne les axes avant le décrochement ;
Critère de Kaiser : on ne retient que les axes dont l’inertie
est supérieure à l’inertie moyenne ;
Règle de l’inertie minimale : On sélectionne les premiers
axes afin d’atteindre un pourcentage donné d’inertie expliquée
(80% par exemple).

Dr Nvuh Njoya Y. Analyse en Composantes Principales


Introduction
Notion d’inertie
Données, Notations, Exemples
Choix du nombre d’axes à retenir
Problèmes et Objectifs
Construction du nuage de points projectés
Analyse du nuage des individus dans Rp
Interprétation des axes
Analyse du nuage des variables dans Rn
Éléments supplémentaires et représentation simultanée
Interprétation d’une ACP normée

Deux types de facteurs peuvent apparaÎtre :


Effet taille : les variables sont toutes du même coté de l’axe.
(i.e. elles contribuent toutes dans le même sens à la formation
de l’axe)
Effet forme : Deux groupes de variables opposées : celles qui
contribuent positivement à l’axe, celles qui contribuent
négativement.

Dr Nvuh Njoya Y. Analyse en Composantes Principales


Introduction
Notion d’inertie
Données, Notations, Exemples
Choix du nombre d’axes à retenir
Problèmes et Objectifs
Construction du nuage de points projectés
Analyse du nuage des individus dans Rp
Interprétation des axes
Analyse du nuage des variables dans Rn
Éléments supplémentaires et représentation simultanée
Interprétation d’une ACP normée

Les axes principaux ou axes factoriels permettent d’obtenir la meilleure


visualisation approchée, au sens des moindres carrés, des distances
entre individus d’une part et entre les variables d’autres part. Pour
interpréter ces directions principales et ces distances on analyse :
Les variables et les individus qui participent le plus à la
formation des axes factoriels.
Les proximités entre points observées sur les axes.

Dr Nvuh Njoya Y. Analyse en Composantes Principales


Introduction
Notion d’inertie
Données, Notations, Exemples
Choix du nombre d’axes à retenir
Problèmes et Objectifs
Construction du nuage de points projectés
Analyse du nuage des individus dans Rp
Interprétation des axes
Analyse du nuage des variables dans Rn
Éléments supplémentaires et représentation simultanée
Interprétation d’une ACP normée

L’analyse des points qui participent à la formation des axes se résume


à un calcul de la contribution des points par rapport à chaque axe :
Étude des individus Étude des variables
La contribution du point-individu La contribution du point-variable
i à l’inertie de l’axe α est donné j à l’inertie de l’axe α est donné
par : par :
2
ϕαj
2
mi ψαi Ctrα (j) =
Ctrα (i) = λα
λα
où λα est l’inertie de l’axe α
où λα est l’inertie de l’axe α et mi p
est le poids de l’individu i. ∑ Ctrα (j) = 1
j=1
n
∑ Ctrα (i) = 1
i=1

Dr Nvuh Njoya Y. Analyse en Composantes Principales


Introduction
Notion d’inertie
Données, Notations, Exemples
Choix du nombre d’axes à retenir
Problèmes et Objectifs
Construction du nuage de points projectés
Analyse du nuage des individus dans Rp
Interprétation des axes
Analyse du nuage des variables dans Rn
Éléments supplémentaires et représentation simultanée
Interprétation d’une ACP normée

Les élements avec une forte coordonnée en valeur absolue contribuent


le plus.

Étude des individus Étude des variables

On s’intéresse aux individus On s’intéresse aux variables


qui ont une forte contribution qui ont une forte contribution
relative aux axes. relative aux axes.
Les individus qui contribuent Les variables qui contribuent
le plus à la détermination de le plus à la détermination de
l’axe sont les plus excentrés. l’axe sont les plus proches du
cercle de corrélation.

Dr Nvuh Njoya Y. Analyse en Composantes Principales


Introduction
Notion d’inertie
Données, Notations, Exemples
Choix du nombre d’axes à retenir
Problèmes et Objectifs
Construction du nuage de points projectés
Analyse du nuage des individus dans Rp
Interprétation des axes
Analyse du nuage des variables dans Rn
Éléments supplémentaires et représentation simultanée
Interprétation d’une ACP normée

L’analyse de la proximité entre points se résume à un examen de la


qualité de représentation ou calcul du cosinus carrés :

Étude des individus Étude des variables


La qualité de représentation de La qualité de représentation de la
l’individu i à l’inertie de l’axe α est variable j à l’inertie de l’axe α est
donnée par : donnée par :
2 2
dα2 (i, G ) ψαi dα2 (j, G ) ϕαj
cos2α (i) = = cos2α (j) = = 2
= ϕαj
d 2 (i, G ) ∑pα=1 ψαi
2
d 2 (j, G ) ∑pα=1 ϕαj
2

avec
p avec ∑pα=1 ϕαj
2 =1 et |ϕ |61
αj
∑ cos2α (i) =1
α=1 p
∑ cos2α (j) = 1
α=1

Dr Nvuh Njoya Y. Analyse en Composantes Principales


Introduction
Notion d’inertie
Données, Notations, Exemples
Choix du nombre d’axes à retenir
Problèmes et Objectifs
Construction du nuage de points projectés
Analyse du nuage des individus dans Rp
Interprétation des axes
Analyse du nuage des variables dans Rn
Éléments supplémentaires et représentation simultanée
Interprétation d’une ACP normée

La qualité de représentation d’un élément sur un axe est le cosinus


de l’angle entre l’axe et le vecteur joignant le centre de gravité du
nuage à l’élement.

Étude des individus Étude des variables

Un individu est autant bien Une variable est d’autant


représenté que le cosinus de bien représentée qu’elle est
l’angle est proche de 1 et 0 proche du cercle de corréla-
sinon. tion et d’autant mal représen-
Les individus qui contribuent tée qu’elle est proche de l’ori-
le plus sont bien représentés. gine.
Les variables qui contribuent
le plus sont bien représentées.
Dr Nvuh Njoya Y. Analyse en Composantes Principales
Introduction
Notion d’inertie
Données, Notations, Exemples
Choix du nombre d’axes à retenir
Problèmes et Objectifs
Construction du nuage de points projectés
Analyse du nuage des individus dans Rp
Interprétation des axes
Analyse du nuage des variables dans Rn
Éléments supplémentaires et représentation simultanée
Interprétation d’une ACP normée

Éléments supplémentaires

Lorsqu’on dispose d’informations complémentaires que l’on veut ap-


porter à l’analyse on distingue :
les individus supplémentaires par exemple le centre de gravité
d’un groupe d’individus.
les variables supplémentaires par exemple les variables résul-
tant des autres (moyennes,etc.), les variables qualitatives aidant
à l’interprétation, etc.
Ces éléments ne participent pas à la construction des axes factoriels.
Ils sont représentés pour l’interprétation.

Dr Nvuh Njoya Y. Analyse en Composantes Principales


Introduction
Notion d’inertie
Données, Notations, Exemples
Choix du nombre d’axes à retenir
Problèmes et Objectifs
Construction du nuage de points projectés
Analyse du nuage des individus dans Rp
Interprétation des axes
Analyse du nuage des variables dans Rn
Éléments supplémentaires et représentation simultanée
Interprétation d’une ACP normée

Représentation simultanée
L’analyse du nuage des variables est déduite de celle du nuage
des individus : la représentation des variables sur les axes facto-
riels dans Rn aide l’interprétation des axes factoriels dans Rp et
réciproquement.
Cependant les deux nuages ne sont pas dans le même repère, ce
qui rend impossible la représentation simultanée des individus et
des variables. La superposition de ces deux plans factoriels n’a
pas de sens.
Toutefois, si l’on considère non plus des points-variables mais
des directions de variables dans Rp , on peut alors envisager de
représenter simultanément, dans cet espace, à la fois les points-
individus et des vecteurs représentant les variables.

Dr Nvuh Njoya Y. Analyse en Composantes Principales

Vous aimerez peut-être aussi