Vous êtes sur la page 1sur 19

PLAN DU COURS

I Tableau de données et espaces associés

II L’Analyse en Composantes Principales


II-1 Critère de l’ACP
II-2 Facteurs principaux, composantes principales
II-3 Cas usuel : données centrées réduites

III Interprétation et qualité des résultats


IV Exemples

76

Introduction
Analyse en Composantes Principales

méthode statistique exploratoire pour décrire


graphiquement l’information dans des grands
tableaux de données représentant p variables
numériques mesurées sur un ensemble de n
individus
=
méthode de base de l’analyse factorielle
77

statistique descriptive

étude une à une ou deux à deux des variables


par résumés graphiques :

représentation sur un plan et déduction à partir de la


forme du nuage de points obtenu de la nature
approximative de la liaison entre les 2 variables

pour p = 3 , 4 étude visuelle impossible ACP

78

26
objectif = déterminer des espaces de dimension
faible sur lesquels il soit possible de voir
au « mieux » les individus :

PROJECTION

Notions de points, de distances espaces


vectoriels euclidiens

Outils mathématiques = algèbre linéaire

79

80

81

27
82

I-Tableau de données et espaces associés


I-1 Les données et leurs caractéristiques
A - Tableau individus x caractères

Tableau n individus lignes et


rectangulaire p variables colonnes

X= matrice nxp contenant les observations :

83

Notations
.
x1j
. x2j
j J
X = ........x ........ X . Rn
i
.
.
xnj
.

xij est la valeur de l’individu i pour la variable j que


j
l’on notera X et qui sera identifiée au vecteur de n
composantes

84

28
REMARQUE :

Le choix des individus et des variables est une phase essentielle


qui influence dans une large mesure les résultats d’une ACP.

Ce choix doit être fait en fonction des buts de l’étude ; les variables
doivent notamment décrire le plus possible les phénomènes que
l’on cherche à mettre en évidence.

Le plus souvent l’ACP traite des variables numériques obtenues à


l’issue de mesures. Mais elle permet aussi le traitement de
variables ordinales.

Nous verrons dans la suite la notion de variables supplémentaires


qui permet d’intégrer, a posteriori, à l’étude des variables
qualitatives nominales.

85

B- Résumés numériques associés


Point moyen ou centre de gravité
' 1 2 p j
n
g Rp g x ; x ;...; x avec: x = p i x ij
i= 1

si tirage aléatoire à probabilités égales


même importance des n individus
poids égaux: 1 pi
n
Il peut cependant être utile pour certaines applications de travailler avec des
différents d’un individu à l’autre (échantillons redressés, données groupées…).

86

Ces poids qui sont des nombres positifs de


somme 1 comparables à des fréquences sont
regroupés dans une matrice diagonale de
taille n:
p1 0
p2
D .
.
0 pn

87

29
matriciellement:

g X ' D1

Y X 1g ' ( I 11' D) X

Y = tableau centré associé à X tel que


j
yij xij x

88

Matrice de covariance et matrice de corrélation


n
j
variance de la variable j s 2j p i ( x ij - x ) 2
i=1
n
k l
covariance des variables k et l v kl p i ( x ik - x ) ( x il x )
i=1

regroupées dans la matrice de covariance V X 'D X gg '


Y 'D Y
coefficient de corrélation linéaire entre les variables k et l v kl
rkl
j
s k sl
Z le tableau centré réduit tel que x ij x
z ij
s j

89

On a Z YD 1
s
avec D 1 matrice diagonale des inverses des écart-types:
s
1 0
s1
1
s2
D1 .
s
.
0 1
s p

R matrice des coefficients de corrélation linéaire entre les p


variables prises deux à deux R D1 VD1 Z 'D Z
s s

R est la matrice de covariance des données centrées réduites. Elle


résume la structure des dépendances linéaires entre les p variables.

90

30
I-2 Espace des individus

approche géométrique de Pearson :


chaque individu défini par p coordonnées
=
un élément d’un espace vectoriel de
dimension p, appelé espace des individus

p
n points de R = nuage de points
g = centre de gravité du nuage
91

Principe de l’ACP = visualiser le plus


fidèlement possible, dans un espace de
faible dimension, ce nuage de points

L’analyse repose sur des distances entre


les points représentant les individus.

Forte influence de la méthode de calcul de ces


distances sur les résultats de l’analyse.

essentiel de la déterminer avant toute étude.

92

A. La métrique
En physique : formule de Pythagore
d 2 (ei ; e j ) ( xil x lj ) 2 ( xik x kj )2 ...

Par contre en statistique: individus décrits par des variables


exprimées
dans des unités particulières : francs, kg, km…

Pythagore est aussi arbitraire qu’une autre.

la formulation générale suivante avec :

forme quadratique: d 2 (ei ; e j ) (ei e j ) ' M (ei e j )

où M est une matrice symétrique de taille p définie positive.

En théorie le choix de M dépend de l’utilisateur qui seul peut préciser la métrique 93


adéquate

31
métriques usuelles en ACP:
M=I
(Phytagore à utiliser s’il n’y a pas de problème de
variances trop différentes ou d’unité de mesures
différentes)

M D1
s2
(plus utilisée c’est l’option par défaut de beaucoup de
logiciels d’ACP car en plus de permettre de s’affranchir
des unités de mesure, elle donne à chaque caractère la
même importance quelle que soit sa dispersion dans le
calcul des distances. En effet elle revient à réduire les
variables ce qui les rend sans dimension et toutes de
même variance 1)
94

REMARQUE :
M symétrique positive T tq M T 'T

On a alors: ei' Me j ei'T 'Te j (Tei ) ' (Te j )

ACP (X ;M ) ACP ( XT' ; I )

ACP usuelle = réduire les variables et


utiliser la métrique I.

C’est ce qu’on appelle une ACP normée.


95

B - L’inertie
notion fondamentale de l’ACP.
On appelle inertie totale du nuage de points la
moyenne pondérée des carrés des distances
des points au centre de gravité.
Elle mesure la dispersion du nuage autour de
son centre de gravité.
n n
2
Ig pi ( ei g )' M ( ei g) pi ( ei g)
i 1 i 1

96

32
décomposition de Huyghens:
n
Ia pi (ei a )' M (ei a)
i 1

2
Ig ( g a )' M ( g a) Ig ( g a)

avec a point quelconque

Par ailleurs, on peut montrer que l’inertie totale est égale à la moitié de la
moyenne des carrés de toutes les distances entre les n individus.

97

égalité la plus utilisée : I g TraceMV TraceVM

si M =I Ig s 2j
j 1

(somme des variances des p variables)

Si M D1 Ig trace R p
s2

(p = nombre de variables ; l’inertie ne dépend alors pas des valeurs des variables
mais uniquement de leur nombre)

98

1-1-3 Espace des variables

x1j
x2j
J
X . Rn
.
xnj

Chaque variable est définie par n coordonnées =


un vecteur d’un espace à n dimension appelé
espace des variables.

99

33
distance entre variables : métrique M D
Pour des variables centrées :
n
k ' l
X D X p i x ik x il v kl
i=1
(le produit scalaire est égale à la covariance)

j 2
X s 2j
D
(l’écart type représente la « longueur » de la variable)

X k,X l
v kl
co s kl k l
rkl
X X sk sl
(le cosinus de l’angle entre variables est égal au coefficient de corrélation linéaire)

100

Donc dans l’espace des variables on


s’intéressera aux angles plutôt qu’aux
distances et on représentera les
variables comme des vecteurs plutôt
que comme des points.

101

II - L’analyse en composantes principales

II-1 Principe général de la méthode


Projection des individus
Rappel : en introduction on a vu que le but
de l’ACP est de fournir des représentations
synthétiques de vastes ensembles de
données numériques essentiellement sous
forme de visualisations graphiques planes.

102

34
espaces initiaux de dimension trop
grande

impossible d’y visualiser le nuage de


points

recherche d’espaces de dimension


réduite qui ajustent au mieux le nuage de
points, c’est à dire qui respectent le plus
possible la configuration initiale
103

La méthode = projeter le nuage de points


en minimisant les déformations des
distances inhérentes à la projection

critère de choix de l’espace de projection F


Max pk pl d 2 (k , l )
F
k l
(le sous espace recherché est tel que la moyenne des carrés des
distances entre points projetés soit maximale (la projection raccourcit
les distances), c’est à dire qu’il faut que l’inertie du nuage projetée
soit maximale.)

104

105

35
la recherche du sous espace F peut
s’effectuer de façon séquentielle

Méthode : chercher le sous-espace de


dimension 1 d’inertie maximale, puis le
sous-espace de dimension 1 orthogonal
au précédent d’inertie maximale et ainsi
de suite.

106

II-2 Facteurs principaux et composantes


principales
sous espace de dim1 représenté par une droite définie
par un vecteur unitaire u .
le vecteur u doit être tel que les projections des points sur
cette direction aient une inertie maximale.

107

La projection ou coordonnée ci d’un individu sur est


définie par : p
ci xij u j
j 1
La liste des coordonnées ci des individus sur
forme une nouvelle variable artificielle
c1
p
.
c x ju j Xu
. j 1
cn
c’est une combinaison linéaire des variables initiales.

108

36
L’inertie des points projetés sur s’écrit :
n
v a r( c ) p i c i2 c'D c u'X 'DXu u 'V u
i 1
Rappelons qu’on se limite au cas usuel de l’ACP normée ; la matrice des
données centrées réduites correspond donc à la matrice des corrélations

Le critère de maximisation s’écrit alors :


'
M axu u 'V u M axu u ' Ru avec uu 1

problème de max d’une forme quadratique


solution : u1 vecteur propre de R associé à la plus grande
valeur propre 1

109

ensuite u2 orthogonal à u1 tel que l’inertie des points


projetés soit maximale
Solution :u2 vecteur propre de R associé à la
deuxième plus grande valeur propre 2
le sous-espace à q dimension recherché est
engendré par les q premiers vecteurs propres de
la matrice R associés aux plus grandes valeurs
propres

110

Définitions :
facteurs principaux u : Ru u
Ils contiennent les coefficients des variables initiales dans la combinaison c Xu

j
composantes principales c : c Xuj
(ce sont les variables artificielles définies par les facteurs principaux ,
elles contiennent les coordonnées des projections des individus sur
les axes définis par les u j )

En pratique, l’ACP va donc consister à


diagonaliser la matrice R pour obtenir les u et à
calculer les composantes principales c .

111

37
II-3 Propriétés des facteurs principaux et
composantes principales
II-3-1 variance d’une composante principale
var( ci ) i
les composantes principales sont les combinaisons linéaires des variables initiales de
variance maximale

On a: Vu Ru u et u 'u 1
var(c) c ' Dc u ' X ' DXu
'
uVu u ' Ru u ' ( u) u 'u

112

II-3-2 Propriété supplémentaire


p
r (c; x j ) est maximal
j 1

c est la variable la plus liée aux au sens de la somme des carrés des
corrélations

En effet, avec Z tableau centré réduit

p
c 'D Z Z 'D c
m ax r (c; x j ) m ax
j 1 c 'D c

solution : c tq ZZ ' Dc c
vecteur propre de '
ZZ D associé à sa plus grande valeur propre

113

II-3-3 Formules de reconstitution


On reconstitue le tableau de données centré avec les
facteurs et composantes :
j
Xu j c
p p
X ( u j u 'j ) c ju '
j
j 1 j 1
p
X c j u 'j
j 1 p
'
en rappelant que les uj sont orthonormés il est immédiat de voir que ( u ju j )ui ui
j 1

114

38
En résumé, l’ACP consiste à effectuer un changement
d’axes dans l’espace des individus qui remplace les
variables initiales (corrélées en général) par de nouvelles
variables (combinaisons linéaires des variables initiales)
non corrélées et de variance maximale : ce sont les

COMPOSANTES PRINCIPALES.

Les coefficients des combinaisons forment les

FACTEURS PRINCIPAUX

L’ACP EST UNE MÉTHODE FACTORIELLE LINÉAIRE.

115

III - Interprétation des résultats

nouvelles variables artificielles


ACP +
représentations graphiques

visualiser des visualiser d’éventuels


relations entre et groupes de variables
variables et d’individus
interne

phase d’interprétation des résultats:


externe
(plans factoriels – cercle de corrélation)

Phase délicate nécessitant une certaine méthode pour éviter de


tirer des conclusions erronées

116

III –1 Qualité des représentations sur les plans


principaux

L’ACP fournit une représentation graphique des


individus dans un espace de dimension plus
faible que p mais celle ci n’est qu’une vision
déformée de la réalité.
points délicats de l’interprétation
1) apprécier cette déformation , cette perte d’information
due à la réduction de dimension
2) déterminer le nombre d'axes, ie la dimension de l’espace

117

39
critère usuel = % d’inertie totale expliquée
k k

i i
i 1 i 1
p
I g
i
i 1

mesure globale insuffisante :


10% n’a pas le même intérêt sur un tableau de 20 variables
et un de 100 variables.
qualité de sa représentation des individus indépendamment
du % d’inertie global
(En effet il est possible d’avoir un premier plan principal F2 avec une inertie
totale importante et qu’en projection deux individus soient très proches,
cette proximité peut être illusoire si les deux individus sont éloignés dans F2 )

118

mesure locale de qualité de représentation d’un


individu

cosinus de l’angle entre le plan principal et le


vecteur ei

(Si ce cosinus est grand, sera voisin du plan, on pourra alors


examiner la position de sa projection sur le plan par rapport à
d’autres points ; si ce cosinus est faible, on se gardera de toute
conclusion)

119

III –2 Nombre d’axes à retenir

Intérêt de l’ACP = réduction de dimension

choix du nombre d’axes = point essentiel

critères théoriques: * tests statistiques


(multinormalité et * des intervalles de
matrice de covariance) confiance sur les
valeurs propres

120

40
critères empiriques : *règle de Kaiser
(cas le plus fréquent des matrices de corrélation) * règle du coude

règle Kaiser: en données centrées réduites on retient les


composantes dont les valeurs propres supérieures à 1 ou
% > 1/p
(on ne s’intéresse qu’aux composantes qui apportent plus que les variables initiales)

règle du coude: détecter sur le diagramme de valeurs


propres l’existence d’un coude.
(Mais ceci n’est pas toujours aisé en pratique , voir exemple)

121

III –3 Interprétation interne

variables et individus actifs = utilisés dans les calculs de


l’ACP par opposition aux

variables et individus supplémentaires = qui ne


participent pas directement à l’analyse

L’interprétation interne consiste à étudier les résultats en


se basant sur les variables et les individus actifs.

L’étude des éléments supplémentaires se fait à travers la


phase d’interprétation externe.

122

III-3-1 Les variables

Interpréter une ACP = donner une signification à ces


composantes principales (en fonction des variables
initiales)
Calcul des coefficients de corrélation entre composantes
principales et variables initiales :

r ( c, X j )
et on s’intéresse aux coefficients les plus forts en valeur
absolue et proches de 1.

123

41
ACP normée :
' j
r (c, X j ) r (c , z j ) c Dz
s j sc
r (c, X ) j c ' Dz j

' '
r (c, X j ) u Z Dz
j ( z j ) ' DZu

( z j )' DZ est la jème ligne de Z' DZ R donc ( z j )' DZ est le jème composante de Ru u

r ( c, X j ) uj

124

On synthétise usuellement les corrélations des


variables pour un couple de composantes sur un
graphique appelé cercle de corrélation sur lequel,
chaque variable

Xj est repérée par une abscisse r (c1 , X j )


et une ordonnée r (c 2 , X j )
L’examen du cercle de corrélation permet de détecter
les éventuels groupes de variables qui se ressemblent
ou au contraire qui s’opposent donnant ainsi un sens
aux axes principaux

125

Remarque : Effet « Taille »


Lorsque toutes les variables initiales sont positivement
corrélées entre elles, la première composante principale
définit « un facteur de taille ».

En effet, on sait qu’une matrice symétrique ayant tous ses


termes positifs admet un premier vecteur propre dont
toutes les composantes sont de même signe.

(On peut les choisir positifs et alors la première composante sera positivement corrélée
avec toutes les variables )

126

42
Les individus sont rangés sur l’axe 1 par
valeurs croissantes de l’ensemble des
variables (en moyenne).

La deuxième composante principale différencie


alors des individus de « taille » semblable :
on l’appelle facteur de forme.

127

III-3-2 Les individus

étude des examen des coordonnées


= et surtout des représenta-
individus tions graphiques =plans
principaux

but = voir la répartition des


individus, groupes
ressemblant , distincts

individus non = aide à l’interprétation des


anonymes composantes et vice versa
128

p i c k2i
contributions des individus : CTR i
k
n
(où cki représente la valeur pour l’individu i de la kième composante ck et k pc 2
i ki )
i 1

CTR (i) >pi


Mais CTR (i) >> pi = facteur d’instabilité

effectuer l’analyse en l’éliminant puis le rajouter ensuite en


élément supplémentaire
(Il est à noter que lorsque les poids sont tous égaux, les contributions n’apportent pas
plus d’information que les coordonnées)

129

43
III – 3 Interprétation externe

les éléments supplémentaires n’interviennent pas dans


les calculs de l’ACP
ils sont très utiles a posteriori pour conforter et
enrichir l’interprétation des axes.

cas de variables numériques :


a) simple calcul du coefficient de corrélation entre chaque
variable supplémentaire et les composantes principales
b) placement sur les cercles de corrélation
c) interprétation : détection des corrélations significatives ie
les plus fortes

130

cas de variables qualitatives : en général, représentation


de chaque modalité par son centre de gravité.

Certains logiciels fournissent des aides à ’interprétation :


les valeurs-test
mesures de l’éloignement du point représentatif d’une
modalité par rapport à l’origine.
but = mise en évidence d’une position excentrée d’un
sous groupe d’individus.

Une modalité sera considérée comme significative d’un


axe si la valeur-test qui lui est associée est supérieure
en valeur absolue à 2.

131

Cas des individus supplémentaires :simple


positionnement sur les axes principaux
par calcul des combinaisons linéaires des
caractéristiques de ces points

132

44