Acp 2

PLAN DU COURS
I Tableau de données et espaces associés
II L’Analyse en Composantes Principales

II-1 Critère de l’ACP
II-2 Facteurs principaux, composantes principales
II-3 Cas usuel : données centrées réduites
III Interprétation et qualité des résultats

IV Exemples
76
Introduction
Analyse en Composantes Principales
méthode statistique exploratoire pour décrire

graphiquement l’information dans des grands
tableaux de données représentant p variables
numériques mesurées sur un ensemble de n
individus
=
méthode de base de l’analyse factorielle
77
statistique descriptive
étude une à une ou deux à deux des variables

par résumés graphiques :
représentation sur un plan et déduction à partir de la

forme du nuage de points obtenu de la nature
approximative de la liaison entre les 2 variables
pour p = 3 , 4 étude visuelle impossible ACP
78
26
objectif = déterminer des espaces de dimension
faible sur lesquels il soit possible de voir
au « mieux » les individus :
PROJECTION
Notions de points, de distances espaces

vectoriels euclidiens
Outils mathématiques = algèbre linéaire
79
80
81
27
82
I-Tableau de données et espaces associés

I-1 Les données et leurs caractéristiques
A - Tableau individus x caractères
Tableau n individus lignes et

rectangulaire p variables colonnes
X= matrice nxp contenant les observations :
83
Notations
.
x1j
. x2j
j J
X = ........x ........ X . Rn
i
.
.
xnj
.
xij est la valeur de l’individu i pour la variable j que

j
l’on notera X et qui sera identifiée au vecteur de n
composantes
84
28
REMARQUE :
Le choix des individus et des variables est une phase essentielle

qui influence dans une large mesure les résultats d’une ACP.
Ce choix doit être fait en fonction des buts de l’étude ; les variables
doivent notamment décrire le plus possible les phénomènes que
l’on cherche à mettre en évidence.
Le plus souvent l’ACP traite des variables numériques obtenues à

l’issue de mesures. Mais elle permet aussi le traitement de
variables ordinales.
Nous verrons dans la suite la notion de variables supplémentaires

qui permet d’intégrer, a posteriori, à l’étude des variables
qualitatives nominales.
85
B- Résumés numériques associés

Point moyen ou centre de gravité
' 1 2 p j
n
g Rp g x ; x ;...; x avec: x = p i x ij
i= 1
si tirage aléatoire à probabilités égales

même importance des n individus
poids égaux: 1 pi
n
Il peut cependant être utile pour certaines applications de travailler avec des
différents dun individu à lautre (échantillons redressés, données groupées).
86
Ces poids qui sont des nombres positifs de

somme 1 comparables à des fréquences sont
regroupés dans une matrice diagonale de
taille n:
p1 0
p2
D .
.
0 pn
87
29
matriciellement:
g X ' D1
Y X 1g ' ( I 11' D) X
Y = tableau centré associé à X tel que

j
yij xij x
88
Matrice de covariance et matrice de corrélation

n
j
variance de la variable j s 2j p i ( x ij - x ) 2
i=1
n
k l
covariance des variables k et l v kl p i ( x ik - x ) ( x il x )
i=1
regroupées dans la matrice de covariance V X 'D X gg '

Y 'D Y
coefficient de corrélation linéaire entre les variables k et l v kl
rkl
j
s k sl
Z le tableau centré réduit tel que x ij x
z ij
s j
89
On a Z YD 1
s
avec D 1 matrice diagonale des inverses des écart-types:
s
1 0
s1
1
s2
D1 .
s
.
0 1
s p
R matrice des coefficients de corrélation linéaire entre les p

variables prises deux à deux R D1 VD1 Z 'D Z
s s
R est la matrice de covariance des données centrées réduites. Elle

résume la structure des dépendances linéaires entre les p variables.
90
30
I-2 Espace des individus
approche géométrique de Pearson :

chaque individu défini par p coordonnées
=
un élément d’un espace vectoriel de
dimension p, appelé espace des individus
p
n points de R = nuage de points
g = centre de gravité du nuage
91
Principe de l’ACP = visualiser le plus

fidèlement possible, dans un espace de
faible dimension, ce nuage de points
L’analyse repose sur des distances entre

les points représentant les individus.
Forte influence de la méthode de calcul de ces

distances sur les résultats de l’analyse.
essentiel de la déterminer avant toute étude.
92
A. La métrique
En physique : formule de Pythagore
d 2 (ei ; e j ) ( xil x lj ) 2 ( xik x kj )2 ...
Par contre en statistique: individus décrits par des variables

exprimées
dans des unités particulières : francs, kg, km…
Pythagore est aussi arbitraire qu’une autre.
la formulation générale suivante avec :
forme quadratique: d 2 (ei ; e j ) (ei e j ) ' M (ei e j )
où M est une matrice symétrique de taille p définie positive.
En théorie le choix de M dépend de l’utilisateur qui seul peut préciser la métrique 93

adéquate
31
métriques usuelles en ACP:
M=I
(Phytagore à utiliser s’il n’y a pas de problème de
variances trop différentes ou d’unité de mesures
différentes)
M D1
s2
(plus utilisée c’est l’option par défaut de beaucoup de
logiciels d’ACP car en plus de permettre de s’affranchir
des unités de mesure, elle donne à chaque caractère la
même importance quelle que soit sa dispersion dans le
calcul des distances. En effet elle revient à réduire les
variables ce qui les rend sans dimension et toutes de
même variance 1)
94
REMARQUE :
M symétrique positive T tq M T 'T
On a alors: ei' Me j ei'T 'Te j (Tei ) ' (Te j )
ACP (X ;M ) ACP ( XT' ; I )
ACP usuelle = réduire les variables et

utiliser la métrique I.
C’est ce qu’on appelle une ACP normée.

95
B - L’inertie
notion fondamentale de l’ACP.
On appelle inertie totale du nuage de points la
moyenne pondérée des carrés des distances
des points au centre de gravité.
Elle mesure la dispersion du nuage autour de
son centre de gravité.
n n
2
Ig pi ( ei g )' M ( ei g) pi ( ei g)
i 1 i 1
96
32
décomposition de Huyghens:
n
Ia pi (ei a )' M (ei a)
i 1
2
Ig ( g a )' M ( g a) Ig ( g a)
avec a point quelconque
Par ailleurs, on peut montrer que l’inertie totale est égale à la moitié de la
moyenne des carrés de toutes les distances entre les n individus.
97
égalité la plus utilisée : I g TraceMV TraceVM
si M =I Ig s 2j
j 1
(somme des variances des p variables)
Si M D1 Ig trace R p
s2
(p = nombre de variables ; l’inertie ne dépend alors pas des valeurs des variables
mais uniquement de leur nombre)
98
1-1-3 Espace des variables
x1j
x2j
J
X . Rn
.
xnj
Chaque variable est définie par n coordonnées =

un vecteur d’un espace à n dimension appelé
espace des variables.
99
33
distance entre variables : métrique M D
Pour des variables centrées :
n
k ' l
X D X p i x ik x il v kl
i=1
(le produit scalaire est égale à la covariance)
j 2
X s 2j
D
(l’écart type représente la « longueur » de la variable)
X k,X l
v kl
co s kl k l
rkl
X X sk sl
(le cosinus de l’angle entre variables est égal au coefficient de corrélation linéaire)
100
Donc dans l’espace des variables on

s’intéressera aux angles plutôt qu’aux
distances et on représentera les
variables comme des vecteurs plutôt
que comme des points.
101
II - Lanalyse en composantes principales
II-1 Principe général de la méthode

Projection des individus
Rappel : en introduction on a vu que le but
de l’ACP est de fournir des représentations
synthétiques de vastes ensembles de
données numériques essentiellement sous
forme de visualisations graphiques planes.
102
34
espaces initiaux de dimension trop
grande
impossible d’y visualiser le nuage de

points
recherche d’espaces de dimension

réduite qui ajustent au mieux le nuage de
points, c’est à dire qui respectent le plus
possible la configuration initiale
103
La méthode = projeter le nuage de points

en minimisant les déformations des
distances inhérentes à la projection
critère de choix de lespace de projection F

Max pk pl d 2 (k , l )
F
k l
(le sous espace recherché est tel que la moyenne des carrés des
distances entre points projetés soit maximale (la projection raccourcit
les distances), c’est à dire qu’il faut que l’inertie du nuage projetée
soit maximale.)
104
105
35
la recherche du sous espace F peut
s’effectuer de façon séquentielle
Méthode : chercher le sous-espace de

dimension 1 d’inertie maximale, puis le
sous-espace de dimension 1 orthogonal
au précédent d’inertie maximale et ainsi
de suite.
106
II-2 Facteurs principaux et composantes

principales
sous espace de dim1 représenté par une droite définie
par un vecteur unitaire u .
le vecteur u doit être tel que les projections des points sur
cette direction aient une inertie maximale.
107
La projection ou coordonnée ci dun individu sur est

définie par : p
ci xij u j
j 1
La liste des coordonnées ci des individus sur
forme une nouvelle variable artificielle
c1
p
.
c x ju j Xu
. j 1
cn
cest une combinaison linéaire des variables initiales.
108
36
Linertie des points projetés sur sécrit :
n
v a r( c ) p i c i2 c'D c u'X 'DXu u 'V u
i 1
Rappelons quon se limite au cas usuel de lACP normée ; la matrice des
données centrées réduites correspond donc à la matrice des corrélations
Le critère de maximisation sécrit alors :

'
M axu u 'V u M axu u ' Ru avec uu 1
problème de max d’une forme quadratique

solution : u1 vecteur propre de R associé à la plus grande
valeur propre 1
109
ensuite u2 orthogonal à u1 tel que linertie des points

projetés soit maximale
Solution :u2 vecteur propre de R associé à la
deuxième plus grande valeur propre 2
le sous-espace à q dimension recherché est
engendré par les q premiers vecteurs propres de
la matrice R associés aux plus grandes valeurs
propres
110
Définitions :
facteurs principaux u : Ru u
Ils contiennent les coefficients des variables initiales dans la combinaison c Xu
j
composantes principales c : c Xuj
(ce sont les variables artificielles définies par les facteurs principaux ,
elles contiennent les coordonnées des projections des individus sur
les axes définis par les u j )
En pratique, lACP va donc consister à

diagonaliser la matrice R pour obtenir les u et à
calculer les composantes principales c .
111
37
II-3 Propriétés des facteurs principaux et
composantes principales
II-3-1 variance dune composante principale
var( ci ) i
les composantes principales sont les combinaisons linéaires des variables initiales de
variance maximale
On a: Vu Ru u et u 'u 1
var(c) c ' Dc u ' X ' DXu
'
uVu u ' Ru u ' ( u) u 'u
112
II-3-2 Propriété supplémentaire

p
r (c; x j ) est maximal
j 1
c est la variable la plus liée aux au sens de la somme des carrés des
corrélations
En effet, avec Z tableau centré réduit
p
c 'D Z Z 'D c
m ax r (c; x j ) m ax
j 1 c 'D c
solution : c tq ZZ ' Dc c
vecteur propre de '
ZZ D associé à sa plus grande valeur propre
113
II-3-3 Formules de reconstitution

On reconstitue le tableau de données centré avec les
facteurs et composantes :
j
Xu j c
p p
X ( u j u 'j ) c ju '
j
j 1 j 1
p
X c j u 'j
j 1 p
'
en rappelant que les uj sont orthonormés il est immédiat de voir que ( u ju j )ui ui
j 1
114
38
En résumé, l’ACP consiste à effectuer un changement
d’axes dans l’espace des individus qui remplace les
variables initiales (corrélées en général) par de nouvelles
variables (combinaisons linéaires des variables initiales)
non corrélées et de variance maximale : ce sont les
COMPOSANTES PRINCIPALES.
Les coefficients des combinaisons forment les
FACTEURS PRINCIPAUX
L’ACP EST UNE MÉTHODE FACTORIELLE LINÉAIRE.
115
III - Interprétation des résultats
nouvelles variables artificielles

ACP +
représentations graphiques
visualiser des visualiser d’éventuels

relations entre et groupes de variables
variables et d’individus
interne
phase d’interprétation des résultats:

externe
(plans factoriels – cercle de corrélation)
Phase délicate nécessitant une certaine méthode pour éviter de

tirer des conclusions erronées
116
III 1 Qualité des représentations sur les plans

principaux
L’ACP fournit une représentation graphique des

individus dans un espace de dimension plus
faible que p mais celle ci n’est qu’une vision
déformée de la réalité.
points délicats de l’interprétation
1) apprécier cette déformation , cette perte d’information
due à la réduction de dimension
2) déterminer le nombre d'axes, ie la dimension de l’espace
117
39
critère usuel = % dinertie totale expliquée
k k
i i
i 1 i 1
p
I g
i
i 1
mesure globale insuffisante :

10% na pas le même intérêt sur un tableau de 20 variables
et un de 100 variables.
qualité de sa représentation des individus indépendamment
du % dinertie global
(En effet il est possible davoir un premier plan principal F2 avec une inertie
totale importante et quen projection deux individus soient très proches,
cette proximité peut être illusoire si les deux individus sont éloignés dans F2 )
118
mesure locale de qualité de représentation dun

individu
cosinus de langle entre le plan principal et le

vecteur ei
(Si ce cosinus est grand, sera voisin du plan, on pourra alors

examiner la position de sa projection sur le plan par rapport à
d’autres points ; si ce cosinus est faible, on se gardera de toute
conclusion)
119
III 2 Nombre daxes à retenir
Intérêt de l’ACP = réduction de dimension
choix du nombre d’axes = point essentiel
critères théoriques: * tests statistiques

(multinormalité et * des intervalles de
matrice de covariance) confiance sur les
valeurs propres
120
40
critères empiriques : *règle de Kaiser
(cas le plus fréquent des matrices de corrélation) * règle du coude
règle Kaiser: en données centrées réduites on retient les

composantes dont les valeurs propres supérieures à 1 ou
% > 1/p
(on ne sintéresse quaux composantes qui apportent plus que les variables initiales)
règle du coude: détecter sur le diagramme de valeurs

propres lexistence dun coude.
(Mais ceci nest pas toujours aisé en pratique , voir exemple)
121
III 3 Interprétation interne
variables et individus actifs = utilisés dans les calculs de

l’ACP par opposition aux
variables et individus supplémentaires = qui ne

participent pas directement à l’analyse
L’interprétation interne consiste à étudier les résultats en

se basant sur les variables et les individus actifs.
L’étude des éléments supplémentaires se fait à travers la

phase d’interprétation externe.
122
III-3-1 Les variables
Interpréter une ACP = donner une signification à ces

composantes principales (en fonction des variables
initiales)
Calcul des coefficients de corrélation entre composantes
principales et variables initiales :
r ( c, X j )
et on s’intéresse aux coefficients les plus forts en valeur
absolue et proches de 1.
123
41
ACP normée :
' j
r (c, X j ) r (c , z j ) c Dz
s j sc
r (c, X ) j c ' Dz j
' '
r (c, X j ) u Z Dz
j ( z j ) ' DZu
( z j )' DZ est la jème ligne de Z' DZ R donc ( z j )' DZ est le jème composante de Ru u
r ( c, X j ) uj
124
On synthétise usuellement les corrélations des

variables pour un couple de composantes sur un
graphique appelé cercle de corrélation sur lequel,
chaque variable
Xj est repérée par une abscisse r (c1 , X j )

et une ordonnée r (c 2 , X j )
L’examen du cercle de corrélation permet de détecter
les éventuels groupes de variables qui se ressemblent
ou au contraire qui s’opposent donnant ainsi un sens
aux axes principaux
125
Remarque : Effet « Taille »

Lorsque toutes les variables initiales sont positivement
corrélées entre elles, la première composante principale
définit « un facteur de taille ».
En effet, on sait qu’une matrice symétrique ayant tous ses

termes positifs admet un premier vecteur propre dont
toutes les composantes sont de même signe.
(On peut les choisir positifs et alors la première composante sera positivement corrélée
avec toutes les variables )
126
42
Les individus sont rangés sur l’axe 1 par
valeurs croissantes de l’ensemble des
variables (en moyenne).
La deuxième composante principale différencie

alors des individus de « taille » semblable :
on l’appelle facteur de forme.
127
III-3-2 Les individus
étude des examen des coordonnées

= et surtout des représenta-
individus tions graphiques =plans
principaux
but = voir la répartition des

individus, groupes
ressemblant , distincts
individus non = aide à l’interprétation des

anonymes composantes et vice versa
128
p i c k2i
contributions des individus : CTR i
k
n
(où cki représente la valeur pour lindividu i de la kième composante ck et k pc 2
i ki )
i 1
CTR (i) >pi

Mais CTR (i) >> pi = facteur dinstabilité
effectuer lanalyse en léliminant puis le rajouter ensuite en

élément supplémentaire
(Il est à noter que lorsque les poids sont tous égaux, les contributions napportent pas
plus dinformation que les coordonnées)
129
43
III 3 Interprétation externe
les éléments supplémentaires n’interviennent pas dans

les calculs de l’ACP
ils sont très utiles a posteriori pour conforter et
enrichir l’interprétation des axes.
cas de variables numériques :

a) simple calcul du coefficient de corrélation entre chaque
variable supplémentaire et les composantes principales
b) placement sur les cercles de corrélation
c) interprétation : détection des corrélations significatives ie
les plus fortes
130
cas de variables qualitatives : en général, représentation

de chaque modalité par son centre de gravité.
Certains logiciels fournissent des aides à ’interprétation :

les valeurs-test
mesures de l’éloignement du point représentatif d’une
modalité par rapport à l’origine.
but = mise en évidence d’une position excentrée d’un
sous groupe d’individus.
Une modalité sera considérée comme significative d’un

axe si la valeur-test qui lui est associée est supérieure
en valeur absolue à 2.
131
Cas des individus supplémentaires :simple

positionnement sur les axes principaux
par calcul des combinaisons linéaires des
caractéristiques de ces points
132
44

Acp 2

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Acp 2

Transféré par

Droits d'auteur :

Formats disponibles

PLAN DU COURS

I Tableau de données et espaces associés

II L’Analyse en Composantes Principales

III Interprétation et qualité des résultats

méthode statistique exploratoire pour décrire

étude une à une ou deux à deux des variables

représentation sur un plan et déduction à partir de la

pour p = 3 , 4 étude visuelle impossible ACP

Notions de points, de distances espaces

Outils mathématiques = algèbre linéaire

I-Tableau de données et espaces associés

Tableau n individus lignes et

X= matrice nxp contenant les observations :

xij est la valeur de l’individu i pour la variable j que

Le choix des individus et des variables est une phase essentielle

Le plus souvent l’ACP traite des variables numériques obtenues à

Nous verrons dans la suite la notion de variables supplémentaires

B- Résumés numériques associés

si tirage aléatoire à probabilités égales

Ces poids qui sont des nombres positifs de

Y = tableau centré associé à X tel que

Matrice de covariance et matrice de corrélation

regroupées dans la matrice de covariance V X 'D X gg '

R matrice des coefficients de corrélation linéaire entre les p

R est la matrice de covariance des données centrées réduites. Elle

approche géométrique de Pearson :

Principe de l’ACP = visualiser le plus

L’analyse repose sur des distances entre

Forte influence de la méthode de calcul de ces

essentiel de la déterminer avant toute étude.

Par contre en statistique: individus décrits par des variables

Pythagore est aussi arbitraire qu’une autre.

la formulation générale suivante avec :

forme quadratique: d 2 (ei ; e j ) (ei e j ) ' M (ei e j )

où M est une matrice symétrique de taille p définie positive.

En théorie le choix de M dépend de l’utilisateur qui seul peut préciser la métrique 93

On a alors: ei' Me j ei'T 'Te j (Tei ) ' (Te j )

ACP (X ;M ) ACP ( XT' ; I )

ACP usuelle = réduire les variables et

C’est ce qu’on appelle une ACP normée.

avec a point quelconque

égalité la plus utilisée : I g TraceMV TraceVM

(somme des variances des p variables)

1-1-3 Espace des variables

Chaque variable est définie par n coordonnées =

Donc dans l’espace des variables on

II - Lanalyse en composantes principales

II-1 Principe général de la méthode

impossible d’y visualiser le nuage de

recherche d’espaces de dimension

La méthode = projeter le nuage de points

critère de choix de lespace de projection F

Méthode : chercher le sous-espace de

II-2 Facteurs principaux et composantes

La projection ou coordonnée ci dun individu sur est

Le critère de maximisation sécrit alors :

problème de max d’une forme quadratique

ensuite u2 orthogonal à u1 tel que linertie des points

En pratique, lACP va donc consister à

II-3-2 Propriété supplémentaire

En effet, avec Z tableau centré réduit

II-3-3 Formules de reconstitution

Les coefficients des combinaisons forment les

II - Lanalyse en composantes principales

critère de choix de lespace de projection F

La projection ou coordonnée ci dun individu sur est

Le critère de maximisation sécrit alors :

ensuite u2 orthogonal à u1 tel que linertie des points

En pratique, lACP va donc consister à

III 1 Qualité des représentations sur les plans

mesure locale de qualité de représentation dun

cosinus de langle entre le plan principal et le

III 2 Nombre daxes à retenir

III 3 Interprétation interne

effectuer lanalyse en léliminant puis le rajouter ensuite en