Vous êtes sur la page 1sur 14

ANALYSE EN COMPOSANTES PRINCIPALES

(ACP)

 L'analyse en composantes principales (ACP) est une méthode mathématique


d'analyse graphique de données qui consiste à rechercher les directions de
l'espace qui représentent le mieux les corrélations entre n variables aléatoires
(relation linéaire entre elles).

 Elle consiste à visualiser des données (nuage de points. L'A.C.P., elle est aussi
connue sous le nom de "transformée de Karhunen-Loève" ou de "transformée de
Hotelling".

 Son but est de déterminer les deux axes qui expliquent le mieux la dispersion
des points dans un nuage de points et de décrire graphiquement un tableau de
données d'individus avec leurs variables quantitatives de grande taille :

individus/variables

Représentation type d'un tableau ACP

1/14
 Considérons pour l'exemple une étude d'un botaniste qui a mesuré les dimensions
de 15 fleurs d'iris. Les trois variables (P=3) mesurées sont : x1 (longueur du
sépale), x2 (largeur du sépale) et x3 (longueur du pétale). Les données sont les
suivantes :

Fleur n°
1 5.1 3.5 1.4
2 4.9 3.0 1.4
3 4.7 3.2 1.3
4 4.6 3.1 1.5
5 5.0 3.6 1.4
6 7.0 3.2 4.7
7 6.4 3.2 4.5
8 6.9 3.1 4.9
9 5.5 2.3 4.0
10 6.5 2.8 4.6
11 6.3 3.3 6.0
12 5.8 2.7 5.1
13 7.1 3.0 5.9
14 6.3 2.9 5.6
15 6.5 3.0 5.8

Exemple de données Représentation graphique 3D

 Un tel tableau de données est une matricée réelle à n lignes (les individus) et à p
colonnes (les variables) :

 L'indice i correspondra à l'indice ligne (aux individus),


c’est donc xi un point de dimension p :

 L'indice j correspondra à l'indice colonne (aux variables), c'est donc un vecteur


dans l'espace vectoriel de dimension n dans Rn :

2/14
Afin de simplifier la présentation, nous considérons que chaque individu, comme
chaque variable, a la même importance, le même poids. Nous ne considérerons
aussi, que le cas de la distance euclidienne.

1. Centrage des données : il consiste à mettre l'origine du système d'axes au


centre de gravité du nuage de points. Ceci ne modifie pas l'aspect du nuage,
mais permet d'avoir les coordonnées du point M égales aux coordonnées
du vecteur
Comme nous supposons dans toute la suite que les poids des individus sont
identiques

Soit donc G le centre de gravité du nuage de point, Comme nous considérons ici
chaque variable, comme chaque individu, ayant le même poids, G a alors pour
coordonnées :

1
Avec 𝑥̅.𝑗 = ∑𝑛𝑗=1 𝑥𝑖𝑗
𝑛

Nous appelons "matrice centrée" la matrice :

Dans le nouveau repère nous prendrons O=G avec

3/14
Matrice centrée

 Représentation graphique dans le nouveau repère

4/14
2. Données centrées réduites : Pour donner une importance identique à
chaque variable afin que le type d'unités des mesures n'influence pas
l'analyse, nous travaillerons avec les données centrées réduites.

La matrice des données centrées réduites (sans dimensions) est alors :

Si nous notons par la matrice diagonale suivante :

Nous avons alors :

5/14
3. Matrice des données centrées normées :

Nous définissons la "matrice des données centrées normées" par :

Avec

Ce qui donne :

 Matrice des données centrées normées

6/14
 Représentation graphique

Représenter le nuage de points des données centrées réduites ou centrées


normées ne modifie rien à la forme de celui-ci. En effet, la différence entre les
deux n'est qu'un changement d'échelle.

L'information intéressante pour les individus est la distance entre les points. En
effet plus cette distance sera grande entre deux individus et plus les deux individus
seront différents et mieux on pourra les caractériser. Mais il faut d'abord choisir
une distance. Nous prendrons la distance euclidienne :

Le but de l’ACP et le choix de la meilleure projection qui respecte le mieux la


distance, appelée plan factoriel.

7/14
4. Plan factoriel : Avant de déterminer le plan factoriel, nous allons
maintenant chercher à détecter les liens possibles entre les variables.

Nous rappelons que :

 la covariance entre deux variables et est donnée par :

 le coefficient de corrélation linéaire est donné par :

Nous noterons par la suite :

et

Les matrices des covariances et de corrélations (toutes deux étant pour rappel
des matrices carrées et symétriques) avec j=1…..p, j ’=1…..p

Nous en déduisons la relation suivante :

La matrice des covariances-variances est un outil connu en statistique, par


contre ce qui est nouveau et va nous être très utile pour déterminer le plan
factoriel est la matrice de corrélation linéaire qui peut aussi être écrite sous la
forme suivante :

8/14
Ce qui donne pour notre exemple la matrice carrée suivante :

La matrice de corrélation R étant symétrique donc elle est diagonalisable

Diagonaliser la matrice R, c'est trouver une matrice de passage S et une matrice


diagonale D telles :

D = S-1RS <=> R = SDS-1

La matrice diagonale D ainsi obtenue est composée des valeurs propres de R, et


la matrice S est composée des vecteurs propres de R.

Où nous choisissons pour la matrice diagonale D des valeurs propres mises en


ordre décroissant :

Exemple :

7 −2 1
Diagonalisons la matrice 𝑹 suivante : 𝑹 = (−2 10 −2)
1 −2 7

7− 𝜆 −2 −2
L’équation caractéristique est :| −2 10 − 𝜆 −2 | = 𝜆3 − 24𝜆2 − 180𝜆 −
−1 −2 7−𝜆
432 = 0

Les solutions de cette équation sont 𝜆1 = 6, 𝜆2 = 6, et 𝜆3 =12 :

Pour 𝜆1 = 𝜆2 = 6, nous avons :

7 −6 2 1 𝑥1 1 2 1 𝑥1
( −2 10 − 6 −2 ) ( 𝑥2 ) = (−2 4 −2 𝑥2)
) (
−1 −2 7 − 6 𝑥3 −1 −2 1 𝑥3

9/14
Et en multipliant par -1 on aura :

−1 −2 −1 𝑥1
(2 −4 2 ) (𝑥2)
−1 2 −1 𝑥3

x1 − 2x2 + x3 = 0

Comme vecteurs propres, nous choisirons deux vecteurs orthogonaux (i.e. leur
produit scalaire est nul).

Par exemple :
1 1
𝑉1 = ( 0 ) 𝑒𝑡 𝑉2 = (1)
−1 1

En effet,

⃗⃗⃗⃗⃗
𝑉1 . ⃗⃗⃗⃗⃗ ⃗⃗⃗⃗⃗ ‖ . ‖𝑉2
𝑉2 = ‖𝑉1 ⃗⃗⃗⃗⃗ ‖ . 𝐶𝑂𝑆(𝛼)

⃗⃗⃗⃗⃗ . 𝑉2
𝑉1 ⃗⃗⃗⃗⃗ = 𝑥1. 𝑥2 + 𝑦1. 𝑦2 + 𝑧1. 𝑧2 = 1.1 + 0.1 + (−1). 1 = 0
⃗⃗⃗⃗⃗ ‖ = √12 + 02 + −12 = √ 2
𝑛𝑜𝑟𝑚𝑒 𝑑𝑒 ‖𝑉1 ⃗⃗⃗⃗⃗ ‖ = √12 + 12 + 12 = √ 3
𝑛𝑜𝑟𝑚𝑒 𝑑𝑒 ‖𝑉2
⃗⃗⃗⃗⃗ ⃗⃗⃗⃗⃗
𝑉1 .𝑉2 0
𝐶𝑂𝑆(𝛼) = ‖⃗⃗⃗⃗⃗
= =0
𝑉1 ‖ .‖⃗⃗⃗⃗⃗𝑉2 ‖ √2.√3

𝐶𝑂𝑆(𝛼) = = 0 → 𝛼 = 90°

De même, pour 𝜆 = 12, on choisira par exemple le vecteur :

1
𝑉3 = (−2) 𝑒𝑡 𝑙𝑎 𝑛𝑜𝑟𝑚𝑒 𝑑𝑒 𝑉3 = √12 + −22 + 12 = √ 6
1

En normant ces trois vecteurs, nous obtenons la matrice :

1/√2 1/√3 1/√6


𝑆=( 0 1/√3 6/√6)
−1/√2 1/√3 1/√6

Et on vérifiera que S diagonalise R, c’est à dire D = S-1 R S est diagonale, et que


ses éléments sont bien les valeurs propres de R.

Ainsi, dans notre exemple les trois valeurs propres sont :

10/14
L’inertie expliquée

L’inertie cumulée

𝜆1 𝜆1 +𝜆2 𝜆1 +𝜆2 +𝜆3


= 66,7% = 97,2% = 100%
𝜆1 +𝜆2+𝜆3 𝜆1 +𝜆2 +𝜆3 𝜆1 +𝜆2 +𝜆3

On calcul des vecteurs propres associés aux valeurs propres Vi, i=1,…., p ; Ce
sont les axes factoriels.

-0.6667 0.3803 0.6410


0.1842 0.9174 -0.3528

0.7222 0.1171 0.6817

Plan factoriel est la représentation graphique des individus dans le nouvel espace
de représentation, c’est le produit de la matrice centrée réduite par le vecteur
propre trié dans l’ordre décroissant.

 Représentation des points M i dans le nouveau repère

Par exemple pour le premier individu M1

(z11 z12 z13) V1 = 𝜓11

(z11 z12 z13) V2 = 𝜓12

(z11 z12 z13) V3 = 𝜓13

11/14
Pour les 15 individus les coordonnées sur les axes principaux sont :

Nombre d’axes à retenir

 Critère de Kaiser » : On ne retient que les axes associés à valeurs propres


supérieurs à 1, c'est-à-dire dont la variance est supérieure à celle des
variables d’origine. Dans la majorité des cas, ne sont prise en considération
que les deux, les trois, ou les quatre premiers axes factoriels. Les axes
factoriels sont perpendiculaires et ne sont pas corrélés entre eux.
 On cherche un « coude » dans le graphe des valeurs propres et on ne
conserve que les valeurs jusqu’au ce « coude ».

12/14
Dans l’exemple proposé nous remarquons que ce sont ces deux colonnes (I et
II) qui représentent mieux les données. Le plan factoriel est donc constitué par les
deux axes représentant les deux plus grandes valeurs propres (inerties). L’axe
avec la plus grande inertie (valeur propre) est la première composante principale.
La deuxième composante principale est l’axe avec la deuxième plus grande valeur
propre et elle est perpendiculaire à la première.

5. Coefficients de corrélation

Les coefficients de corrélation linéaire sont calculés entre les anciens variables
et les nouveaux variables (facteurs). Ils peuvent être calculées par :

𝐿(𝑗, 𝑖 ) = √𝜆(𝑖 ) ∗ 𝑉(𝑗, 𝑖)


Exemple :

L(1,1) = √ 𝜆1 . 𝑉(1,1) L(1, 2) = √ 𝜆2 . 𝑉(1,2) L(1, 3) = √ 𝜆3 . 𝑉(1,3)


L(2,1) = √ 𝜆1 . 𝑉(2,1) L(2, 2) = √ 𝜆2 . 𝑉(2,2) L(2, 3) = √ 𝜆3 . 𝑉(3,3)
L(3,1) = √ 𝜆1 . 𝑉(3,1) L (3, 2) = √ 𝜆2 . 𝑉(3,2) L(3, 3) = √ 𝜆3 . 𝑉(3,3)

A l’aide des deux premières colonnes représentants les coefficients de corrélation,


on peut tracer le cercle de corrélation :

13/14
Interprétation

Si un point est très proche du bord du cercle, cela signifie qu’il est bien
représenté par le plan factoriel et l’individu est bien corrélé avec les deux facteurs
constituant ce plan. Les points situés près du centre sont donc généralement mal
représentés par le plan factoriel ; leur interprétation ne peut donc pas être effectuée
avec confiance. Les points proches d'un des axes, et assez loin de l'origine sont
bien corrélés avec cet axe et sont les points explicatifs pour cet axe. Si deux points
sont proches l'un de l'autre, il est probable que les réponses des individus qu'ils
représentent soient très similaires.

Avantages et défauts de l’ACP

La méthode est très efficace et se base essentiellement sur l’étude de la


structure de la matrice des variances covariances ou de la matrice des
corrélations. La représentation graphique permet d’interpréter une grande partie
de ses résultats. Néanmoins, la projection déforme du nuage de points et certains
points sont altérés que d’autres. Parfois l’’interprétation des résultats est évidente
ou bien restreinte.

14/14

Vous aimerez peut-être aussi