CoursACPacmAFC Beamer 2023

Analyse des données
M atthieu Somé1
March 16, 2023
1 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 1 / 117

Objectif général & Pré-requis
1 Prérequis : Statistique descriptive ; Algèbre linéaire
2 Objectif général : Favoriser l’apprentissage de l’analyse des données

quantitatives/qualitatives, tout en amenant les étudiants à une utilisation
judicieuse des instruments et méthodes d’analyse statistique.
Volume horaire : 48 h
CM : 22 h
TD :14 h
TP :12 h

Objectifs spécifiques
1 Comprendre et démontrer les principaux résultats de méthodes

d’analyse de données
2 Analyser de manière théorique un problème d’ACP, d’AFC et ACM
3 Mettre en pratique les différentes techniques ACP, AFC, et ACM sur le

logiciel R
4 Faciliter l’interpreter les résultats de méthodes théoriques/pratiques

d’analyses de données (ACP, AFC, ACM)
5 Faciliter la classification des données

Demarche
1 Traiter les données initiales afin d’éliminer les biais statistiques
2 Quantifier la notion d’information

▶ Utilisation de la variance, la covariance, correlation
▶ Introduction de la notion de "distances" entre les points et le point "central"
3 Realisation des changements d’axes permettant de hierarchiser

l’information
4 Choix des axes de projection en contrôlant la perte d’information
5 Projection et analyse du nuage de points en validant l’anlyse par des

paramètres numériques

Plan
1 Rappels de probabilités et d’algèbre
2 ACP
3 AFC
4 ACM
5 Méthodes de classification

Rappels de probabilités et
d’algèbre

Rappels
Variables quantitatives
ACP
Covariance et corrélation
AFC
T héorèmes fondamentaux des Probabilités
ACM
Rappels d’algèbre
Méthodes de classification
Définition (Échantillon)
On considère une variable aléatoire réelle X et n réalisations i.i.d. X1 ; . . . ; Xn .
On appelle Xi la réalisation du i-ième individu pour la variable X .
Définition (poids)
Chaque individu i est affecté par un poids pi . Les pi vérifient
n
X
pi > 0, pi = 1
i=1
Si tous les individus ont le même poids, pi = 1/n.

Rappels
ACP
AFC
ACM
Définition (Moyenne empirique)

On note
n
1X
X= Xi
n
i=1
la moyenne empirique du n−échantillon de loi celle de X si tous les individus

ont la même poids. Dans le cas général
n
X
X= pi Xi
i=1

Rappels
ACP
AFC
ACM
Définition (Moyenne empirique)

La variance empirique du n-échantillon est donnée par
n
1 X 2
σ2X = Xi − X
n
i=1
2
Dans le cas général σ2X = nj=1 pi Xi − X . L’écart-type empirique est la
P
racine carrée de la variance empirique.
La loi des grands nombres nous donne immédiatement que la variance

empirique est un estimateur de la variance de X . De plus,
2
1 Pn
sX2 = n−1 i=1 Xi − X est un estimateur sans biais.

Rappels
ACP
AFC
ACM
On considère deux n-échantillons X = (X1 , · · · , Xn ) et Y = (Y1 , · · · , Yn ) issus

de deux v.a. X et Y .
Définition
On appelle covariance empirique des deux échantillons X et Y la quantité
n
1 X
sXY = Cov(X, Y) = Xi − X Yi − Y
n
i=1
n
X
ou sXY = Cov(X, Y) = pi Xi − X Yi − Y
i=1
Définition
On appelle corrélation théorique (resp. empirique) entre X et Y la quantité
!
Cov(X, Y) sXY
ρX,Y = Cor(X, Y) = p p resp. rXY = √
Var(X) Var(Y) SXX SYY
Rappels
ACP
AFC
ACM
Théorème (Loi des grands nombres)

Soit X une variable aléatoire admettant un moment d’ordre 1 et X1 ; . . . ; Xn un
n-échantillon de loi celle de X . Alors
n
1X
X := Xi →n→∞ E[X ]
n
i=1
Théorème (Théorème de la limite centrale)

Soit X une variable aléatoire admettant un moment d’ordre 2 et X1 ; . . . ; Xn un
n-échantillon de loi celle de X . Alors
√ X − E[X ]
np →n→∞ N(0, 1).
Var(X )

Rappels
ACP
AFC
ACM
On considère les espaces Rp et Rn de dimensions p et n. On note les

vecteurs en colonne : Si x ∈ Rp ,
 x1 
 
x = (x1 , · · · , xn ) =  ... 

⊤ 
 
 
xn
où les xi sont les coordonnées de x et ”⊤” est l’opérateur transposée.
Définition (Matrices)
Une matrice A = An;p de n lignes et p colonnes est un tableau
 a1,1 ··· a1,p

 
A =  ... ..

 .. 
 . .


···

an,1 an,p

Proposition (Opérations simples sur les matrices)
On considère trois matrices A = An;p , B = Bn;p et C = Cp;k . On a
 a1,1 + b1,1 ··· a1,p + b1,p

 
.. ..

 .. 
A + B = 
 . . .


···

an,1 + bn,1 an,p + bn,p n,p
De plus, AB ⊤ et AC existent mais pas AB. Le produit matriciel n’est pas

forcément commutatif (AC , CA en général). On note In la matrice identité de
taille n
 1 0 
 
 .. 
In = 
 . 

0 1 n,n
qui est telle que pour toute matrice A telle que le produit In A ou In A est
possible,
A = In A = AIn

Proposition (Produit de deux matrices)
Soient A = An;p , B = Bp;k deux matrices quelconques. Alors
 Pp Pp 
 j=1 a1,j bj,1 ··· a1,j bj,k
j=1   p 
.. .. ..
  X 
AB = 
 Pp . .  =  ai,l bl,j 
Pp .
  

 a b ··· a b  l=1 1≤i≤n,1≤j≤k
j=1 n,j j,1 j=1 n,j j,k

Proposition (Trace, transposée et inverse)
On a
⊤
(A ⊤ ) = A , (A + B)⊤ = A ⊤ + B ⊤ , (AB)⊤ = B ⊤ A ⊤
La trace d’une matrice est la somme de ses éléments diagonaux :
Tr (AB) = Tr (BA ), Tr (ABC) = Tr (BCA ) , Tr (CBA )
Si A et B sont deux matrices carrées de taille n telle que
AB = ln
alors
BA = ln , et on note B = A −1

Rappels
ACP
AFC
ACM
ACP

Rappels
ACP
AFC ACP
ACM
On considère un tableau de données
x1p
 1 
 x1 · · · 
X =  ... . . . ..
 
.


xnp
 1 
xn · · · n,p
où xij , 1 ≤ i ≤ n et 1 ≤ j ≤ p sont les réalisations de variables aléatoires. On

dispose de n individus et p variables.

xi = xi1 , · · · , xip ,
l’individu i (en indices)
x j = x1j , · · · , xnj ,
les réalisations de la variable j (en exposants)

Rappels
ACP
AFC ACP
ACM
Le But : Analyser et représenter le tableau X notamment lorsque le nombre p

de variables est strictement plus grand que 4 (voire bien plus !)
Dégager les tendances principales en créant de nouvelles variables (C.L. des

premières) permettant une compréhension du tableau X.

étapes préliminaires = centrer X
On considère le nuage de points NX = {x1 , · · · , xn } composée de n points

Pn R (les individus) et muni des poids (p1 , . . . , pn ) avec pi > 0 et
p
dans
i=1 pi = 1. Le barycentre des points du nuage NX est noté
 n n
⊤
X X
p

g =  pi xi , · · · ,
1
pi xi  ∈ Rp
i=1 i=1
C’est le vecteur des moyennes empiriques des colonnes de X .

étapes préliminaires = centrer X
En écriture matricielle cela donne
g = X ⊤ DIn
avec
In = (1, · · · , 1)⊤ ∈ Rn
Le nuage NY = {x1 − g, · · · , xn − g} est un nuage centré. Son barycentre est 0
dans Rp .
Matriciellement, la matrice centré Y est
Y = X − In g ⊤
= (ldn − In I⊤
n D) X

étapes préliminaires = réduire Y
Les variables ne sont pas toutes comparables directement entre elles.

P. ex. températures et latitudes sont incomparables.
Cela dépend aussi des unités de mesures choisies même quand les variables
mesurent les mêmes choses (différence entre des variations en mètres et en
kilomètres).
Solution: Réduire chaque variable pour qu’elles soient toutes de variance 1.
La matrice de covariance empirique des variables x 1 , · · · , x p peut s’écrire
sous la forme
V = X ⊤ DX − gg ⊤ = Y ⊤ DY
Preuve : A faire

V est une matrice carrée p × p symétrique semi-définie positive : ∀u ∈ Rp ,

n
X n
X
u⊤ Vu = u⊤ Y ⊤ DYu = (Yu)⊤ D(Yu) = Dkk (Yu)2k = pk (Yu)2k ≥ 0
k =1 k =1
Elle admet donc p valeurs propres réelles positives ou nulles.
Théorème
Si R est une matrice symétrique réelle, alors elle est diagonalisable dans une
base orthonormée (base composée de vecteurs unitaires orthogonaux).
Théorème
Toute matrice de variance/covariance est symétrique définie positive (à
condition que chaque variable soit de variance strictement positive).

Diagonaliser la matrice
 
 2 1 0 
A =  1 2 0
 

0 0 2
 

Remarquons que dans le cas de la diagonalisation d’une matrice symétrique
PP ⊤ = P ⊤ P = Id
et
A = PDP ⊤
où la matrice diagonale D une matrice diagonale composée des values
propres de A dans l’ordre des vecteurs propres dans P
 
 1 0 0 
 0 2 0 
D =  
0 0 3
 

Soit x j = (x1j , · · · , xnj ) les résultats obtenus pour la variable j. La variance

(empirique) de x j est
n
j 2
X
σ2j = pi xij − x
i=1
j
où x = gj est la jième coordonnée de g (moyenne empirique de la variable x j )
n
X
j
x = gj = pi xij
i=1
On définit la matrice D1/σ comme étant notre métrique
 σ1
 −1 
0 
..
 
D1/σ =  .


σp p,p
 −1 

0

Rappelons que
1 p
x1p − x
 1 
 x1 − x ··· 
.. .. ..
 
Y =  . . .
 

 
1 p
xnp − x
 1
xn − x ···

n,p
On pose alors
 xi − x j 
 j 
Z = YD1/σ =  
σj 

n,p
Z est une matrice dont toutes les colonnes sont de moyennes empiriques 0 et
de variances empiriques égales à 1 (Montrer ce résultat!!!)
La plupart des logiciels considèrent la matrice centrée

réduite (les colonnes
avec la matrice de poids donnée) Z = YD1/σ = zij
i,j

cov(x i ,x j )
Notons rij la corrélation empirique des variables X i et X j : rij = si sj
La matrice R de corrélation empirique
1 r12 ··· r1p

 
 

 r21 1 ··· r2p 

R =  .. .. .. .. 
. . . .
 
 

rp1 rp2 ··· 1
peut se récrire
R = D1/σ VD1/σ = D1/σ Y ⊤ DYD1/σ = Z ⊤ DZ
La matrice R est la matrice de variance-covariance des données centrées

réduites et résume la structure des dépendances linéaires entre les p
variables.

Espace métrique des individus
Distance entre deux individus x1 et x2 peut être définie de manière générale

par :
q
dM (x1 , x2 ) = (x1 − x2 )⊤ M (x1 − x2 ) = ∥x1 − x2 ∥M
où M est une matrice symétrique définie positive :

∀u ∈ Rp , u⊤ Mu ≥ 0 et si u⊤ Mu = 0 alors u = 0Rp .
La matrice M admet p valeurs propres réelles > 0.
En pratique :
ACP canonique pour variables homogènes (M = Id )
ACP normée M = D1/σ2 , où D1/σ2 = D1/σ D1/σ Le choix de cette métrique
revient à diviser chaque variable (colonne) par son écart-type.
Elle est utilisée pour les variables non homogènes, ou qui ne sont pas de
même ordre de grandeur.

Soit NX = (xi , pi ) le nuage de points et NZ = (zi , pi ) le nuage centré réduit.

Définition
On appelle inertie totale du nuage des individus , I, la moyenne pondérée des
carrés des distances des points au centre de gravité :
n
X n
X n
X
I= 2
pi dM (xi , g) = pi ||xi − g||2M = pi ||yi ∥2M
i=1 i=1 i=1

Inertie
L’inertie mesure la dispersion des points individus autour du centre de gravité

g. Points éloignés =⇒ inertie encore plus grande.
Si tous les points xi sont les mêmes (ce qui donne que tous les zi sont égaux
à 0), alors l’inertie vaut 0.
Théorème
Soit X un tableau de données et Z sa version centrée réduite. Si X possède p
variables (colonnes) alors
n n
1 XX 2
IX = pi pj xi − xj M
2
i=1 j=1
c’est à dire l’inertie correspond à la moyenne des carrés de toutes les

distances entre les individus.
Preuve : Poser ⟨x, y⟩M le produit scalaire associée à M : ⟨x, y⟩M = x ⊤ My

Inertie explique par un sous espace F
Définition
On appelle inertie du nuage des individus NX expliquée (portée) par le
sous-espace vectoriel F de Rp , l’inertie du nuage projetée sur F, i.e. :
n
X n
X 2
IF (NX ) = 2
pi dM ŷiF , O = pi ŷiF M
i=1 i=1
où ŷiF
désigne la projection orthogonale de yi sur F. Autrement dit,

IF (N) = I N̂ F
n o
où N̂ F = ŷiF , pi est le projeté du nuage centré.
X n 2 n
X n
2 X
I∆u = I N̂ u = pi ŷiu M = pi yi⊤ Mu = pi u⊤ Myi yi⊤ Mu
i=1 i=1 i=1
 n  ,
X 
= u⊤ M  pi yi yi⊤  Mu = u⊤ MVMu, avec ŷiu = ⟨yi ; u⟩M u = yi⊤ Mu u
i=1
Proposition (Décomposition de l’inertie)
1 Si F est un s.e.v. de Rp et si F ⊥ désigne son supplémentaire orthogonal
(au sens du produit scalaire défini par M) on a la décomposition suivante :
I = IF + IF⊥
2 De façon plus générale, si F = F1 ⊕ F2 et F1 ⊥ F2 (au sens du produit
scalaire défini par M), alors
I F = I F1 + I F2
L’inertie totale se décompose pour tout F s.e.v. de Rp comme la somme de

l’inertie totale du nuage projeté sur F I N̂ F
la déformation du nuage N par projection orthogonale sur F :
n
X 2
I F⊥ = pi yi − ŷiF M
i=1

Théorème
Soit X un tableau de données et Z sa version centrée réduite. Si X possède p
variables (colonnes) alors
IZ = p
Preuve : A faire !!!

Principe de l’ACP
On cherche à projeter les points zi , i = 1; . . . ; n (individus) sur certains axes

(sous espace de faible dimension k ) tout en gardant un maximum d’inertie.
Cela revient à :
(Pk ) : Trouver un (le) s.e.v Ek de dimension k (k < p), tel que

IEk = max IE ; dim(E) = k .
Définition
On appelle sous-espace principal de dimension k, tout sev de dimension k
solution de (Pk ).

Principe de l’ACP
Théorème
Soit Ek un sous espace vectoriel de dimension k < p portant l’inertie
maximale du nuage, alors un sous-espace de dimension k + 1 portant l’inertie
maximale est
Ek ⊕ ∆uk +1
où uk +1 est un vecteur M-orthogonal à Ek et ∆uk +1 est une droite vectorielle
M-orthogonale à Ek portant l’inertie maximale parmi toutes les droites
vectorielles M-orthogonales à Ek .
Définition
Les axes ∆u1 ; . . . ; ∆up sont appelés axes principaux d’inertie de l’ACP.

Principe de l’ACP
Le théorème précédent dit que les sous-espaces principaux Ek (les solutions

de (Pk )) sont emboités et peuvent se calculer de façon itérative selon la
procédure :
Rechercher un axe ∆u1 maximisant l’inertie expliquée I∆u1 . On note
E1 = ∆u1 .
Rechercher un axe ∆u2 orthogonal à E1 , maximisant l’inertie expliquée
I∆u2 . On note E2 = E1 ⊕ ∆u2
...
Rechercher un axe orthogonal à Ek −1 maximisant l’inertie expliquée I∆uk .
On note Ek = Ek −1 ⊕ ∆uk

Calcul des axes principaux
Commençons par trouver l’axe principal ∆u1 . Si u1 est M−borné, on a vu

I∆u1 = u1⊤ MVMu1 . Si ∥u1 ∥M , 1, en notant v1 = u1 / ∥u1 ∥M , on a ∆u1 = ∆v1 et
donc
u1⊤ MVMu1 u1⊤ MVMu1

I∆u1 = I∆v1 = v1⊤ MVMv1 = =
∥u1 ∥2M u1⊤ Mu1
On veut maximiser cette quantité en u1 ∈ Rp . Pour cela, on commence par
chercher les points critiques de la fonction considérée, i.e. les points où le
gradient est nul :


u1⊤ MVMu1 u1⊤ MVMu1 (2Mu1 )
!
2MVMu1
∇u1 = ⊤ −
u1⊤ Mu1 u1 Mu1 2
u1⊤ Mu1
u1 est donc solution de
u1⊤ MVMu1
MVMu1 = Mu1 = I∆u1 Mu1 ⇔ VMu1 = I∆u1 u1
u1⊤ Mu1
puisque M est inversible. Autrement dit, u1 est vecteur propre de la matrice

VM associé à la valeur propre I∆u1 .
Pour maximiser I∆u1 , il faut donc choisir pour u1 le vecteur propre de VM

associé à la plus grande valeur propre λ1 de la matrice VM.
On a alors I∆u1 = λ1 .
Ce résultat se généralise aux autres axes principaux, et on a le théorème :

Théorème
1 Il existe une base M-orthonormée (u1 , u2 , . . . , up ) de vecteurs propres de
la matrice VM associés aux valeurs propres (∈ R+ ) rangées par ordre
décroissant λ1 ≥ λ2 ≥ . . . ≥ λp ≥ 0
2 Les vecteurs u1 , u2 , . . . , up engendrent respectivement les axes
principaux d’inertie de l’ACP et on a pour tout j ∈ {1, . . . , p},
I∆uj = λj
3 Pour tout k < p, le s.e.v Ek engendré par les k premiers vecteurs

u1 , u2 , . . . , uk est un s.e.v. principal de dimension k , et l’inertie expliquée
par Ek est donnée par
IEk = λ1 + · · · + λk
Preuve : A faire !!!
Définition
Les vecteurs uj sont appelés vecteurs principaux de l’ACP.
Preuve
Notez que la matrice VM est M-symétrique puisque
⟨x; VMy⟩M = x ⊤ M(VMy) = x ⊤ MVMy = y ⊤ M ⊤ V ⊤ M ⊤ x = yMVMx
puisque M et V sont symétriques. Ainsi ⟨x; VMy⟩M = ⟨VMx; y⟩M . Par

conséquent, les valeurs propres de VM sont réelles et positives, et VM
admet une base M-orthonormée de vecteurs propres.
On a déjà vu que le premier axe principal d’inertie est engendré par le
vecteur propre u1 associé à la plus grande valeur propre λ1 de VM. Pour
les autres axes principaux, on utilise le fait que la k −ième valeur propre
λk vérifie :
n D E o
λk = max ⟨u, VMu⟩M ; ∥u∥M = 1; u; uj = 0, j = 1, · · · k − 1
M
Comme ∥uk ∥M = 1 ,on a

I∆uk = uk⊤ MVMuk = uk⊤ M (λk uk ) = λk uk⊤ Muk = λk
Par le theorème, Ek = ∆u1 ⊕ · · · ⊕ ∆uk , et IEk = kj=1 I∆uj = kj=1 λj
P P

Remarque
Pp
En prenant, k = p, on retrouve I = Trace(VM) = j=1
λj
Notez que VM = Y ⊤ DYM. Si r = Rang(Y )(≤ min(p, n)), on a
λ1 > 0, λ2 > 0, · · · , λr > 0 et λr+1 = · · · = λp = 0
et par suite IEr = I. Le nuage est ici entièrement contenu dans le sev Er .
Une ACP avec M = Id dite canonique ou simple revient à diagonaliser la

matrice de covariance empirique des p variables de départ.
Une ACP avec M = D1/σ2 dite normée, revient à diagonaliser la matrice

de corrélation empirique

Calcul des composantes principales
Pour pouvoir obtenir les différentes représentations, il suffit de déterminer les
coordonnées des points du nuage projeté sur chaque axe principal.
Soit c1j , c2j , . . . , cnj , ces coordonnées sur l’axe ∆uj où cij est la coordonnée de yi
sur l’axe ∆uj .
cij =< yi , uj >M = yi⊤ Muj
Définition
Le vecteur Rn
c1j
 
 
c2j
 
 
j
c =  ..  = YMuj
 

 . 

cnj

est appelé j-ième composante principale (CP).

h i
Avec C = c 1 , c 2 , · · · , c p , on a C = YMU où U est une matrice (p; p) définie
h i
par U = u1 , u2 , · · · , up

Calcul des composantes principales
La décomposition du vecteur yi sur la base des vecteurs principaux

(u1 ; u2 ; . . . ; up ) s’écrit
p
X r
X
yi = cij uj = cij uj
j=1 j=1
Remarque
Pour j > r, les CP c j sont égales au vecteur nul de Rn car l’inertie expliquée
par ces axes est nulle.

Composantes principales
Comme les yi , ce sont des nouvelles variables de Rn .
Proposition (Propriétés des composantes principales)

1 Les CP sont des combinaisons linéaires des variables de départ y j .
2 Les CP c j sont centrées, de variance λj et non corrélées deux à deux.
3 Les CP c 1 ; . . . ; c p sont vecteurs propres de la matrice YMY ⊤ D, de

valeurs propres λ1 ; . . . ; λp .
Le j-ième facteur principal est pour j ≤ r, λj > 0 définit par
cj
dj = p
λj
Pour j > r, cj = 0.

Preuve
1
 
 Muj  p
1
i  ..
h i h  X
j 1 p 1 p 
c = YMuj = y · · · y Muj = y · · · y  yk

.
 = Muj
  k
 k =1
 Muj
p
2 On a vu que (cf (diapo 16)) le barycentre des données (cij ) est donné par
l’expression matricielle
c = C ⊤ DI = U ⊤ MY ⊤ DI = U ⊤ My = 0
: puisque les données (yij ) sont centrées. Par ailleurs, en utilisant

l’expression matricielle de la covariance empirique donnée dans (diapo
17), on obtient

cov c i , c j = C ⊤ DC = U ⊤ MY ⊤ DYMU = U ⊤ MVMU
ij
Notez que
h i h i h i
VMU = VM u1 · · · up = VMu1 · · · VMup = λ1 u1 · · · λp up

i  λ1
 
h i h i h 
VMU = VM u · · · u = λ1 u · · · λp u = u · · · u  0
1 p 1 p 1 p 
0 

λp
 

On en déduit cov x i , x j = U ⊤ MU diag λ1 , · · · , λp . Pour terminer, il suffit de
ij
remarquer que
 ⊤   ⊤ ⊤ 
 u1   u1 Mu1 ··· u1 Mup 
.. .. ..
  h i 
U ⊤ MU  M u1 · · · up = 

= 
  
. . .

   
 p ⊤ p⊤ p⊤

u Mu1 ··· p
 
(u ) u Mu
 D 1 1E D E 
 u ; u · · · u1 ; up 
M M
.. ..
 
 
=   = Idp
 D . E . 
 up ; u1 · · · ⟨u , up ⟩
p

M M
puisque (u1 ; . . . ; up ) est une base M-orthonormée.

Preuve
1 OK
2 OK

3 Par definition de uj , λj , VMuj = Y ⊤ DYMuj = λj uj . en multipliant cette
identité par YM et en utilisant l’identité c j = YMuj , on obtient
YMY ⊤ Dc j = λj c j .

En résumé, une ACP prend pour entrées :
un nuage centré N de n individus y1 ; . . . ; yn dans un espace de
dimension p, Rp . Ces individus sont rangés dans un tableau de données
(n; p) noté Y ;
D, une matrice (n; n) de poids qui définit une métrique sur Rn ;
et M, une matrice (p; p) qui définit une métrique sur l’espace des
individus Rp .
On note ACP(Y ; D; M) pour faire référence au tableau de données, à la
matrice des poids et à la métrique.

Les sorties de l’ACP sont :
les valeurs λ1 , λ2 , . . . , λp propres de la matrice
VM = Y ⊤ DYM(λ1 ≥ · · · λr > 0 = λr+1 = . . . = λp où r est le rang de la
matrice Y ) ;
les axes principaux u1 ; . . . ; un vecteurs de Rp qui sont les vecteurs
propres associés, et qui forment une base M-orthonormée de l’espace
des individus Rp ;
D E
Y ⊤ DYMuj = λj uj , ui ; uj = δij
M
les composantes principales c1 ; . . . ; cn éléments de Rn définis par

c j = Y ⊤ Muj (c j = 0 pour j > r), ou de façon équivalente les facteurs
principaux d1 ; . . . ; dn définis par d j = c j / λj
p

ACP dans l’espace des variables
Soit le nuage V des variables centrées y1 ; . . . ; yn ∈ Rn
Objectif : Trouver les sous-espaces principaux F1 , F2 , . . . de Rn qui conservent

au mieux l’information liée à l’inertie contenue dans le nuage des variables V.
Pour cela, il faut :

Le tableau de données : Il s’agit du tableau (p; n) obtenu en mettant les
vecteurs y1 ; . . . ; yp sous forme de vecteurs lignes, et en mettant ces
lignes l’une en dessous de l’autre. Il est clair que le tableau obtenu est
Y ⊤.
Une métrique sur l’espace des variables Rn : on a déjà vu qu’un choix
naturel est de prendre D = diag (p1 , · · · , pn )
Un matrice (p; p) de poids : on va ici choisir la matrice M.

Proposition
1 Les valeurs propres non nulles de l’ACP(Y ⊤ ; M; D) du nuage des
variables V sont les valeurs propres non nulles (λ1 , · · · , λr ) de
l’ACP(Y ; D; M) du nuage N des individus .
2 Les axes principaux de l’ACP(Y ⊤ ; M; D) correspondant aux valeurs
propres non nulles (λ1 , · · · , λr ), sont les facteurs principaux (d1 ; . . . ; dr )
de l’ACP(Y ; D; M) du nuage des individus.
⊤
Les composantes principales de l’ACP(Y ; M; D) du nuage V
non nulles
3
√ √
des variables sont λ1 u1 , · · · , λr ur . Autrement dit, les facteurs
principaux de l’ACP(Y ⊤ ; M; D) du nuage V des variables, sont les axes
principaux (u1 ; . . . ; ur ) de l’ACP(Y ; D; M) du nuage des individus,
correspondant aux valeurs propres non nulles.

Preuve

Représentations graphiques
Définition
Pour tout k ; l ≤ p(k , l), la projection du nuage NX sur le plan principal
(∆uk , ∆ul ) est appelé carte des individus.
Qualité de la représentation du nuage des individus. Pour NX on a

n
X p
X
I= pi ∥yi ∥2M = λj = Trace(VM)
i=1 j=1
(à établir)
Définition
La qualité globale de la représentation du nuage NX sur le s.e. principal Ek
engendré par (u1 ; . . . , uk ) est mesurée par le % d’inertie expliquée par Ek
IEk λ1 + λ2 + · · · + λk
= Pp
I λj j=1
Si qualité proche de 1, le nuage de points initial est "concentré" autour de Ek ,

et est plus fidèle à son image projetée sur Ek .
Représentations graphiques
Qualité de la représentation d’un individu.
Définition
La qualité de représentation de l’individu i sur l’espace principal Ek est
mesurée par le cos 2 de l’angle que fait yi avec sa projection ŷiEk sur Ek :
Pk j 2
∥ŷiEk ||2M ci
j=1
cos 2
yi , ŷiEk = = P 2
∥yi ∥2M p
cij
j=1

Si cos2 yi , ŷiEk est proche de 1, l’individu i appartient "presque" à Ek , et il
est donc bien représenté sur Ek .

Si cos2 yi , ŷiEk est proche de 0, l’individu i est mal représenté sur Ek .
Ainsi, la qualité de représentation de l’individu i sur le premier plan principal
E2 est mesurée par
E 2 2 2
ŷi 2
M
ci1 + ci2
cos2 yi , ŷiE2 = = P 2
∥yi ∥2M p
cij
j=1
Contribution d’un individu à un axe (détection d’individus aberrants/influents)
Contribution de l’individu i à l’inertie du nuage

Pp 2
pi ∥yi ∥2M pi k =1
cik
=
I I
L’inertie s’écrit aussi
n
X 2
λk = var c k
= pi cik
i=1
Contribution de l’individu i au k -ième axe principal

2
pi cik 2
= pi dik
λk
Interpretation : Si tous les individus ont la même poids (1/n) alors les contributions
n’apportent pas plus d’information que les coordonnées et les individus ayant de fortes
contributions peuvent être détectés sur les boites à moustaches des composantes
principales c 1 ; . . . ; c r , ou des facteurs principaux d 1 ; . . . ; d r .
Représentation des variables.
Dans l’espace des

variables, une variable y i à pour coordonnées
D E √
i
y ;d k
= cov y , d = λk ukj (cf point 3. de la proposition diapo 47).
j k
D
Définition
Pour tout k et l ≤ r, la projection du nuage V sur le plan principal engendré
par (d k ; d l ) est appelée carte des variables.
Montrer que I(V) = I (Utiliser la trace)

La qualité globale de la représentation du nuage V sur le s.e principal Fk est
mesurée par λ1P+···+λ
p
λ
k
j=1 j

Qualité de la représentation d’une variable
Qualité de la représentation de la variable y j sur l’axe principal engendré par
dk :
k 2
k
ŷ j,d < y j ; d k >2D
cos2 y j , ŷ j,d = 2 D = = r 2
y j
, d k
j
y D sj2

où r y j , d k est le coefficient de corrélation linéaire entre y j et d k .
Qualité de la représentation de y j sur le premier plan principal F2 engendré
par d 1 et d 2
∥ŷ j,F2 ||2

cos2 y j , ŷ j,F2 = 2 D = r 2 y j , c 1 + r 2 y j , c 2
j
y D

Si cos2 y j , ŷ j,F2 est proche de 1, alors la variable y j est bien représentée
dans F2.
Si cos2 y j , ŷ j,F2 est proche de 0, alors la variable y j est bien représentée
dans F2 .
ACP normée
h i j
x j −x
Z = z1, z2, . . . , zp , zj = , j = 1, . . . , p, Z = YD1/σ et l ′ ACP Y , D, D1/σ2
σj
2
n’est autre que l’ACP(Z; D; Id ). On a z j D = var z j = 1
Remarque
1 L’étude des corrélations des var. z j avec la CP c k permet d’interpréter c k
en fonction des z j . Cette étude des corrélations peut se faire par l’étude
des proximités des projections ẑ j avec le point (1; 0) du plan (v k ; v l ).
2 Les cartes des variables facilitent l’interprétation de′ la matrice des
corrélations des variables. Si deux variables ẑ j et ẑ j sont bien
j′
représentées par leurs projections ẑ et ẑ sur le plan (v k ; v l ) alors :
j
′ ′
▶ ẑ j et ẑ j proches indique une forte corrélation linaire entre ẑ j et ẑ j ,
j′
▶ ẑ j et ẑ diamétralement opposés indiquent une corr. nég. proche de -1,
′
▶ des directions de ẑ j et ẑ j presque orthogonales indiquent une faible
′
corrélation entre z j et z j .

Règle de Kaiser et règle du coude
Combien de composantes principales doit-on garder dans l’analyse ?
Définition (règle de kaiser)

Les variables de départ dans une ACP normée sont toutes réduites (variance
égale à 1). La règle de Kaiser suggère de ne garder que les composantes
principales dont les variances sont strictement supérieures à 1. Une autre
interprétation est que la moyenne des valeurs propres est 1 (la somme des p
valeurs propres vaut p) et on ne conserve que celles dont la variance est
supérieure à cette moyenne.
Définition (règle du coude)

Si on constate (visuellement) une cassure (un coude) dans le graphique des
valeurs propres.
Définition (Interprétabilité)
On ne garde que les axes interprétables grâce aux variables de départ.
Lorsque cela est possible on gardera environ 80% de l’inertie totale.

Interprétation de l’ACP (1/2)
1 Donner le % d’inertie expliquée par le plan considéré et chacun des axes
2 Indiquer les variables (resp. les individus) mal représenté(e)s dans ce

plan
3 Utiliser les contributions
▶ des variables pour interpréter les axes en termes de variables de départ
▶ des individus pour identifier ceux qui sont influents pour l’orientation d’un
axe et ceux qui ont une contribution excessive. Il est important de vérifier
qu’il ne s’agit pas de données erronées et de faire une nouvelle analyse en
les considérant en supplémentaires.

Interprétation de l’ACP (2/2)
1 Pour une carte des variables : étudier les angles entre les projections des
variables en termes de covariance ou de corrélation dans le cas d’une
ACP normée pour dégager éventuellement des groupes de variables.
Vérifier les tendances visualisées sur la carte par un examen de la
matrice de corrélation.
2 Pour une carte d’individus : étudier les proximités ou les oppositions entre
les points en termes de "comportement" et dégager éventuellement des
groupes d’individus et des comportements singuliers de certains. Vérifier
les caractéristiques dégagées par un examen des données de départ.
3 Faire une synthèse des informations et hypothèses principales dégagées

de la carte décrite.

Tableau récapitulatif
Individus Variables
Espace vectoriel Rp Rn
⊤
Tableau des données Y (n, p) Y (p, n)
Matrice des poids D = diag (p1 , · · · , pn ) M
Métrique M M
Matrice à diagonaliser VM = Y ⊤ DYM Y ⊤ DY ⊤ M
Valeurs non propres et nulles λ ≥ · · · λr ≥ 0 λ1 ≥ · · · λr ≥ 0
 1
u1 , · · · , up d 1 , · · · , d r , ?, . . . , ?


 

 Y ⊤ DYMu = λ u
E = λj d
  ⊤ j j
Axes principaux  D Ej j j

 YDY
D Dd
uj , uk = δjk uj , uk = δjk

 

 
M M
c j = YMuj
Composantes principales 2 c̃k = Y ⊤ Dd k
c j = var cj = λj
D
j
Facteurs principaux d1 , · · · , dr , d j = √c u1 , · · · , ur
λj
2
cik
( )
Repr. sur le k -ième axe factoriel Pp j 2 cor 2 (y i , c k )
j=1 i
c
2
2 (c k )
Contribution sur le k -ième axe pi dik = pi λi
k
Table:
Rappels
ACP
AFC ACP
ACM
AFC

Rappels
ACP
AFC AFC
ACM
L’Analyse Factorielle des Correspondances (AFC) permet d’analyser les

tables de contingence obtenues en observant deux var. qualitatives X et Y
sur un ensemble de n individus.
L’AFC peut être présentée comme une ACP avec la métrique du khi-deux.
X /Y d1 ··· dj ··· dc total

l1 n11 ··· n1j ··· n1c n1.
.. .. .. .. .. .. ..
. . . . . . .
li ni1 ··· nij ··· nic ni.
.. .. .. .. .. .. ..
. . . . . . .
lr nr1 ··· nrj ··· nrc nr.
total n.1 ··· n.j ··· n.c n
Table: tableau croisé des effectifs X et Y
Les entrées de ce tableau constituent la matrice N des effectifs nij de X et Y

Rappels
Soit X a r modalités (i.e l1 ; . . . ; lr ), et Y a c modalités (i.e. d1 ; . . . ; dc ). La table

de contingence N, dont les entrées sont les effectifs de chaque couple (li ; dj ) :
nij = nbre d’ individus avec les modalites li de X et dj de Y

n
X
= Ixk =li Iyk =dj
k =1
Les effectifs marginaux sont :
= cj=1 nij = ième marge en ligne

P
ni·
= ri=1 nij = jème marge en colonne.
P
n·j

Profils-lignes et profils-colonnes
Profils lignes
ni1 nic

Li = ième profil-ligne = ,··· , ∈ Rc
ni· ni·
Tableau des valeurs empiriques des modalités yi sachant que l’on a observé
les modalités xi .
Profils colonnes
!
n1j nrj
Cj = jème profil-colonne = ,··· , ∈ Rr
n·j n·j
Tableau des valeurs empiriques des modalités xi sachant que l’on a observé
les modalités yi .

Ecart à l’indépendance
Si X et Y indépend. alors = des profils-lignes et = des profils-colonnes
à montrer!!!
nij ni. n.j nij n.j nij ni.

∀i, j, ≃ ⇔ ∀i, j, = ⇔ ∀i, j, =
n n n ni. n n.j n
nij n

n ≃ P X = ci , Y = dj = P (X = ci ) P Y = dj ≃ nni· n·j
Ecart à l’indépendance
ni· n·j 2

r X
X c nij − n
tn = ni· n·j
i=1 j=1 n
L
tn est une réalisation d’une variable Tn −→ χ2(r−1)(c−1) qd n → +∞.

Principe de l’AFC
Tableau de données est ICI un tableau de contingence N à r × c.
Matrices diag. des effectifs marginaux de X et Y
Dr = diag(n1· , · · · , nr· ), Dc = diag(n·1 , · · · , n·c )
Tableaux des profils lignes et des profils colonnes
Tr = Dr−1 N et Tc = NDc−1

Nuage des profils-lignes
Définition
On appelle nuage des profils-lignes Mr l’ensemble des r points Li de Rc muni
de leur poids fi : Mr = (Li , fi· ) ; i = 1, . . . , r , fi· = ni· /n

Proposition( à montrer !!!)

1 Le centre de gravité gr du nuage Mr (profil-moyen des lignes) a pour
coordonnées :  n·1  
 n   f·1 

 .   . 
gr =  ..  =  ..  ∈ Rc
 n   
·c
n f ·c
2 Les points Li de Mr , ainsi que leur centre de gravité gr , appartiennent à

un sous-espace affine de Rc , à savoir l’hyperplan de dimension c − 1
défini par :  
 c
X 
, , c
.
 
Hc−1 =  (x · · · x ) ∈ ; x = 1
 
 1 c R i 

 
i=1

Nuage des profils-lignes
Par analogie avec les notations sur l’ACP, on a

Tableau des données : X = Tr = Dr−1 N de taille (r, c);
Tableau des données centrées : Y = X − Ic gr⊤ ;

Matrice des poids D = diag nn1 , · · · , nnr = n1 Dr de taille (r, r)
Espace des profils-lignes ("individus") : Rc , plus précisément Hc−1

Nuage des profils-colonnes
Définition
r
On appelle nuage des profils-colonnesnMc , l’ensemble
deso c points Cj de R
munis de leur poids f.j = n·j /n : Mc = Cj , f.j ; j = 1, . . . , c .
Proposition(Preuve !!)
1 Le centre de gravité gc du nuage Mc (profil-moyen des colonnes) a pour
coordonnées :  n1·  
 n   f1· 

 .   . 
gc =  ..  =  ..  ∈ Rr
 nr·   
n fr·
2 Les points Cj de Mc , ainsi que leur centre de gravité gc , appartiennent à
un sous-espace affine de Rr , à savoir l’hyperplan Hr−1 de dimension
r − 1 défini par :
 
 r
X 
(x1 , · · · , xr ) ∈ Rr ;
 
Hr−1 =  xi = 1
 

 

i=1
Nuage des profils-colonnes
Par analogie avec les notations sur l’ACP, on a
Tableau des données : X = Tc = Dc−1 N ⊤ de taille (c, r);
Tableau des données centrées : Y = X − Ir gc⊤ ;

n.1
Matrice des poids D = diag n ,··· , nn.c = n1 Dc de taille (r, r)
Espace des profils-colonnes ("variables") : Rc , plus précisément Hr−1

n n
Si indépendance "empirique" : nij = i.n .j , alors les nuages Mr et Mc sont
réduits à un seul point, leur centre de gravité.

Métrique du khi2 (1/2)
Distance entre deux profils-lignes Li et Li ′
c
n nij ni ′ j 2
X
dχ22 (Li , Li ′ ) = −
n·j ni· ni ′ ·
j=1
′
= (Li − Li ′ ) M (Li − Li ′ ) = ⟨Li − Li ′ , Li − Li ′ ⟩M
où M = nDc−1 .
Distance entre deux-profils-colonnes Ci et Cj ′
r !2
X n nij nij
dχ22 Cj , Cj ′ = −
ni· n·j n·j ′
i=1
′
= Cj − Cj ′ M Cj − Cj ′ =< Cj − Cj ′ , Cj − Cj ′ >M
où M = nDr−1 (mat. diag.)

Métrique du khi2 (2/2)
Théorème
Supposons que deux colonnes de N, Cj et Cj ′ ont même profil, i.e.
nij nij ′
= pour tout i = 1, · · · , r
n.j n.j ′
Regroupons-les en une seule colonne, notée j ⊕ j ′ d’effectifs nij + nij ′ et

d’effectif marginal n.j + n.j ′ . On obtient une nouvelle table de contingence
notée Ñ, de taille (r, c − 1), à laquelle est associée une nouvelle métrique du
chi2, notée d̃χ2 , sur les profils-lignes, i.e., pour tout i, i ′ ∈ {1, 2, . . . , r}

dχ2 (Li , Li ′ ) = d̃χ2 L̃i , L̃i ′
.

Indication : calculer dχ2 (Li , Li ′ ) − d̃χ2 L̃i , L̃i ′

Inertie associé au nuage des profils-(lignes/colonnes)
Profil-lignes
r
X
I (Mr ) = fi· dχ22 (Li , gr )
i=1
r c
ni· X n nij n·j 2
X
= −
n n·j ni· n
i=1 j=1
r X
c
ni· n nij n·j 2 1
X
= − = tn
n n·j ni· n n
i=1 j=1
Profil-colonnes
1
I (Mc ) = tn
n

ACP des 2 nuages profils
Deux cas sont possibles :
1 ACP du nuage des profils-lignes avec

▶ Tableau des données (r, c) : X = Dr−1 N = Tr
▶ Espace des individus : Rc
▶ Métrique : M = nDc−1
▶ Poids : D = n1 Dr
2 ACP du nuage des profils-colonnes avec

▶ Tableau des données (c, r) : X = Dc−1 N ⊤ = Tc⊤
▶ Espace des individus : Rr
▶ Métrique : M = nDr−1
▶ Poids : D = n1 Dc

ACP des profils-lignes
Matrice à diagonaliser : la matrice de variance-covariance est
1 ⊤ −1
V = X ⊤ DX − gg ⊤ = Y ⊤ DY = N Dr N − gr gr⊤
n
et la matrice à diagonaliser est :
VM = N ⊤ Dr−1 NDc−1 − ngr gr⊤ Dc−1
Ogr est la droite orthogonale à l’espace Hr−1 , Pour x ∈ Hr−1 , on a
c
X n
< Ogr , gr x >χ2 = (x − gr )⊤ Mgr = n (x − gr )⊤ Dc−1 gr = gr (j) (x(j) − gr (j))
n.j
j=1
c c c
n n·j n·j X nj
X X
= xj − = xj − = 1 − 1 = 0.
n·j n n n
j=1 j=1 j=1

Donc, gr est vecteur propre de VM associée à la valeur propre 0 où gr est

vecteur propre de la matrice ngr gr⊤ Dc−1 associée à la valeur propre 1.
En effet,
ngr gr⊤ Dc−1 gr = n ⟨gr , gr ⟩Dc−1 gr = gr
n 2 P n
puisque n ⟨gr , gr ⟩Dc−1 = cj=1 nnj gr (j)2 = cj=1 nnj nj = cj=1 nj = 1. La matrice
P P
ngr gr⊤ Dc−1 est en fait la matrice de projection orthogonale sur (Ogr ). En effet,
si un vecteur x est orthogonal (au sens du chi2) à gr ,
ngr gr⊤ Dc−1 x = ⟨gr , x⟩χ2 gr = 0. On a :

Proposition
Soit L la matrice
L = N ⊤ Dr−1 NDc−1 = Tr⊤ Tc .
1 L et VM se diagonalise dans la même base orthonormée (pour la

métrique du chi2).
2 gr est vecteur de VM associée à la valeur propre 0, et vecteur propre de
L associé à la valeur propre.
3 Les autres vecteurs propres sont orthogonaux à gr , et sont associés aux
mêmes valeurs propres pour L et VM.

CP
Soit (uk , k ∈ {1, · · · , r − 1}) les vecteurs principaux autres que gr (définis par
Luk = λk uk , λk , 1 ). Les composantes principales donnent les coordonnées
des profils-lignes sur chaque axe : pour tout i ∈ {1, . . . , r},
c k (i) = ⟨Li , uk ⟩χ2 = nLi⊤ Dc−1 uk

c
X nij
= =n uk (j)
n·j ni·
j=1
Ceci se récrit

c k = Tr nDc−1 uk = nDr−1 NDc−1 uk
Les composantes principales sont centrées, et de variance λk .

ACP des profils-colonnes
Matrice à diagonaliser : VM = NDc−1 N ⊤ Dr−1 − ngc gc⊤ Dr−1 .
gc est vecteur propre de VM associée à la valeur propre 0
Diagonaliser VM revient à diagonaliser la matrice C = NDc−1 N ⊤ Dr−1 = Tc Tr⊤ .
Si c k est une CP de l’ACP des profils-lignes, on a Dr c k = nNDc−1 uk , et donc

C Dr c k = nNDc−1 N ⊤ Dr−1 NDc−1 uk = nNDc−1 Luk = nλk NDc−1 uk = λk Dr c k
Ainsi, Dr c k est vecteur propre de C associé à la valeur propre λk . Si on note

vk les vecteurs principaux de l’ACP des profils-colonnes correspondant aux
Dk
valeurs propres non nulles, on a donc vk = D crck , avec
∥ r ∥χ2
2 ⊤ ⊤ r
X
Dr c k 2 = Dr c k −1 k k k k 2 2
χ
nDr D r c = n c D r c = n n i. c (i) = n var ck =
i=1
D’où pour tout i ∈ {1, . . . , r},

1 ni. k
vk (i) = √ c (i).
λk n

ACP des profils-colonnes
Composantes
principales
Soit c̃ k les CP de l’ACP des profils-colonnes.
Elle donne les coordonnées des profils-colonnes sur l’axe de vecteur
directeur vk :
r
D E X nij
c̃ k (j) = vk , Cj = nCj⊤ Dr−1 vk = n vk (i)
χ2 ni n.j
i=1
OU
c̃ k = nTc⊤ Dr−1 vk = nDc−1 N ⊤ Dr−1 vk .
Les CP c̃ k sont centrées, et de variance λk .

Relations de transition (1/2)
Théorème (relations quasi-barycentriques)

Soit p = rang(L ) = rang(C). Pour tout k ≤ p, il existe une relation dite de
transition, entre les vecteurs propres uk et vk :
1
vk = √ Tc uk
λk
1
uk = √ Tr⊤ vk
λk
√
Preuve : Rappelons que Dr c k = n λk vk . Par ailleurs, on a
c k = nDr−1 NDc−1 uk et donc Dr c k = nNDc−1 uk . On en déduit que
1 1
vk = √ NDc−1 uk = √ Tc uk
λk λk
√
En multipliant cette identité par Tr⊤ , on obtient Tr⊤ vk = √1
λk
Luk = λk uk

Relations de transition (2/2)
Théorème
Soit p = rang(L ) = rang(C). Pour tout k ≤ p,
c
1 X nij
ck (i) = √ c̃k (j)
λk j=1 ni.
r
1 X nij
c̃k (j) = √ ck (i)
λk i=1 n.j
Preuve :
c k = nDr−1 NDc−1 uk = √1 nDr−1 NDc−1 Tr⊤ vk = √1 nDr−1 NDc−1 N ⊤ Dr−1 vk =
λk λk
√1 Dr−1 N c̃ k
λk
En écrivant cette relation coordonnées par coordonnées, on obtient pour tout
i ∈ {1, . . . , r},
c
1 X nij k
c k (i) = √ c̃ (j).
λk ni
j=1

Formules de reconstitution
On recupère le tableau N à partir des CP c et c̃. ∀ i ≤ r j ≤ c, on a :
p
 
ni· n·j  X 1 k k

nij = 1 + √ c (i)c̃ (j)
n  λk k =1
n n
Les CP et les valeurs propres expliquent l’écart entre les nij et i.n ·j .
Preuve : On décompose le vecteur gr L ⃗i dans la base orthonormée donne par
k
les uk . On a par définition des CP c (i) :
p p p p
X X 1 X 1 X 1
Li −gr = c k (i)uk = √ c k (i)Tr⊤ vk = √ c k (i)N ⊤ Dr−1 vk = √ ck
k =1 k =1 λk k =1 λk k =1 λk
Coordonnées par coordonnées, on a ∀ j ∈ {1, . . . , c},
p p
nij n·j X 1 k n.j k ni n·j ni· n·j X 1 k
− = √ c (i) c̃ (j) ⇔ nij − = √ c (i)c̃ k (j)
ni· n
k =1 λk n n n
k =1 λk

Récapitulatif
Nuage Mr Nuage Mc
Eléments de base
des r profils-lignes dans Rc des c profils-colonnes dans Rr
Tr = Dr−1 N Tc⊤ =Dc−1 N ⊤
Tableau des données
(r, c) (c, r)
nDc−1 Métrique du chi2 nDr−1
L = Tr⊤ Tc = N Dr−1 NDc−1
⊤ C= Tc Tr⊤ = NDc−1 N ⊤ Dr−1
Matrice à diagonaliser
(c, c) (r, r)
uk : Luk = λk uk vk : Cvk = λk vk
avec λk , 1 Vecteurs principaux avec λk , 1
uk = √1 Tr⊤ vk vk = √1 Tc uk
λk λk
c k = nDr−1 NDc−1 uk c k = nDc−1 N ⊤ Dr−1 vk
nij nij
c k (i) = n cj=1 n ,n uk (j) c̃ k (j) = n ri=1 n ,n vk (i)
P P
√ i j Composantes principales √ i j
Dr c = n λk vk
k
Dc c̃ = n λk uk
k
Pc nij k Pr nij k
c k (i) = √1 j=1 ni c̃ (j) c̃ k (j) = √1 i=1 n c (i)
λk λk j.
Table:

Aide à l’interprétation (1/2)
Contribution relative : elle exprime la part prise par une modalité de la

variable dans l’inertie "expliquée " par un facteur.
Cos2 : il mesure la qualité de représentation de la modalité sur le facteur.
Contribution relative d’une modalité à l’inertie de l’axe k :
Contribution relative du profil-ligne Li au k -ième axe (de vecteur uk ) :
2
fi. (c k (i))
λk ;
Contribution relative du profil-colonne Cj au k -ième axe (de vecteur vk ) :
2
f.j (c̃ k (j))
λk .

Aide à l’interprétation (2/2)
Qualité de représentation sur l’axe k :

Qualité de la représentation du profil-ligne Li au k -ième axe (de vecteur
c k (i)2
uk ) : Pr c k (l)2 ;
l=1
Qualité de la représentation du profil-colonne Cj au k -ième axe (de

c̃ k (j)2
vecteur vk ) : Pc k 2.
l=1 c̃ (l)
Éléments supplémentaires
Les points supplémentaires sont des profils qui n’entrent pas dans la
construction des axes mais qui sont représentés dans les plans factoriels.

Rappels
ACP
AFC AFC
ACM
ACM

Rappels
ACP
AFC ACM
ACM
Le but de l’ACM est d’étendre une étude AFC au cas de plus de deux
variables : χ1 ; . . . ; χp lorsque p ≥ 2.
On a plus de tableau de contingence lorsque p > 2. On va chercher une autre

façon de représenter les tableaux de contingence.
On va retrouver le concept d’individus. Chaque individu est représenté par les

numéros des modalités qu’il possède pour chacune des p variables.
Définition
On va remplacer la j-ième colonne par mj colonnes d’indicatrices : 0 partout
et 1 à la valeur correspondant à xij .

Rappels
ACP
AFC ACM
ACM
Exemple
On considère trois variables avec respectivement 3, 2 et 2 modalités,
mesurées sur 4 individus. On va avoir l’équivalence entre les deux série de
tableaux :
 1   2   1   1 0 0   0 1   1 0 
       
 3   1   2   0 0 1   1 0   0 1 
       
 2   1   1   0 1 0   1 0   1 0 
           
3 1 2 0 0 1 1 0 0 1

Tableau disjonctif et tableaux de contingence
Définition
A toute variable χj , on associe le tableau Xj à n lignes et mj colonnes.
Définition
Le tableau de contingence des variables χj et χk est donnée par
Nj,k = Xj⊤ Xk
Définition
La matrice des effectifs marginaux de la variable est χj est
Dj = Xj⊤ Xj
Exemple
! !
0 1 2 3 0
N2,1 = D2 =
1 0 0 0 1
Définition

On considère la matrice X = X1 |X2 | · · · |Xp , qui possède n lignes et
m1 + · · · + mp colonnes.
Définition
La somme des éléments de chaque ligne de X est égale à p.La tableau des
profils lignes est donc p1 X .
Définition
La somme de chaque colonne est égale à l’effectif de la modalité
correspondante. Le tableau des profils colonnes est donc XD −1 ou
 D1 0 
 
 .. 
D =  . 

 
0 Dp

Exemple
Retour à l’exemple
 1 0 0 0 1 1 0
 

 0 0 1 1 0 0 1 
 
 0 1 0 1 0 1 0
 

0 0 1 1 0 0 1
 
Chaque somme de lignes vaut 3. Les sommes des colonnes valent

1 1 2 3 1 2 2

Cas p = 2
Comment marche l’AFC à deux variables avec les tableaux disjonctifs ?
On cherche les composantes principales de l’ACP en colonnes. Elles sont

vecteurs propres de
⊤ 1 1
XD −1 X = D −1 X ⊤ X
2 2
avec
! ! !
⊤ X1⊤ X1⊤ X1 X1⊤ X2 D1 N
X X= (X1 X2 ) = =
X2⊤ X2⊤ X1 X2⊤ X2 N⊤ D2
.
Les composantes sont donc valeurs propres de
! ! !
1 D1−1 0 D1 N 1 Im1 D1−1 N
=
2 0 D2−1 N⊤ D2 2 D2−1 N ⊤ Im2

Solutions
On note ak (respectivement bk ) les m1 premières (respectivement m2

dernières) coordonnées de la composante principale k et µk la valeur propre
correspondante
! ! !
lm1 D1−1 N ak ak
= 2µk
D2−1 N ⊤ Im2 bk bk
soit les équations
D1−1 Nbk = (2µk − 1) ak

D2−1 N ⊤ ak = (2µk − 1) bk
soit les coordonnées des lignes et des colonnes de N dans l’AFC classique
2
avec λk = (2µk − 1)
2
D2−1 N ⊤ D1−1 Nbk = (2µk − 1) bk
2
D1−1 ND2−1 N ⊤ ak = (2µk − 1) ak

Valeurs propres
On a m1 + m2 − 1 valeurs propres non nulles, ce qui est pus grand que dans
le cas classique (min (m1 − 1, m2 − 1))
Pour chaque λk on va avoir deux µk .
√
λk
!
1+ ak
µk = associee à
2 bk
√
1 − λk
!
ak
µ′k = associee à
2 −bk
On garde uniquement les µk > 1/2 et on peut montrer qu’il y en a

min (m1 − 1, m2 − 1).

Cas p > 2
On va étendre cette analyse lorsque p > 2 avec m1 + m2 + · · · + mp modalités.
On va faire une AFC sur le tableau disjonctif

X = X1 |X2 | · · · |Xp
qui possède n lignes m1 + m2 + · · · + mp colonnes
Définition
Le tableau de Burt est B = X ⊤ X qui est le tableau de contingence des
variables χ1 . . . , χp
 ⊤
 X1 X1 X1⊤ X2 ··· X1⊤ Xp   D1
 
N1,2 ··· N1,p 

 X ⊤ X X2⊤ X2   N2,1 D2
  
 2 1 
B =  .. .. ..  =  .
.. .. 

  .
 ⊤.
 . .   .
  . . 
⊤
Xp X1 ··· Xp Xp Np,1 ··· Dp

Exemple (tableau de Burt)
1 0 0 0 1 1 0
 
 

 0 1 0 1 0 1 0 

0 0 2 2 0 0 2
 
 
0 1 2 3 0 1 2
 
 
 

 1 0 0 0 1 1 0 


 1 1 0 1 1 2 0 

0 0 2 2 0 0 2

Coordonnées des catégories
⊤
On note ak = ak ,1 , · · · , ak ,p le vecteur m1 + m2 + · · · + mp comosantes des
coordonnées des catégories sur l’axe k .
La matrice des profils-lignes est p1 X et celle des profils colonnes est XD −1 , le
vecteur ak est vecteur propre de
⊤ 1 1 1
XD −1 X = D −1 X ⊤ X = D −1 B
p p p
et l’équation des coordonnées des catégories est
1 −1
D Bak = µk ak
p
avec
1 ⊤
a Dak = µk
np k
.
Coordonnées des individus
Soit ck le vecteur à n composantes des coordonnées des n individus sur l’axe
factoriel associé à la valeur propre µk . On a
1 1
ck = √ Xa
µk p k
La variance de ck est donc
1 ⊤ 1 1 1 ⊤
Var (ck ) = ck ck = ak⊤ X ⊤ Xak = ak⊤ (pµk Dak ) = a Dak = µk
n µk np 2 µk np 2 np k
. Les seuls termes non nuls dans le calcul de Xak sont les coordonnées de la
catégorie de chaque
√ variable possédée par l’individu.
A un facteur 1/ λk , la coordonnée d’un individu est égale à la moyenne
simple des coordonnées des catégories auquel il appartient. On a aussi
1
ak = √ D −1 X ⊤ ck
λk
.
Les seuls termes non nuls de X ⊤ ck sont les coordonnées des individus ayant
une modalité donnée.
√
A un facteur 1/ λk près, la coordonnée d’une catégorie est égale à la
moyenne simple des coordonnées des nj individus de cette catégorie.
On a aussi
1
ak = √ D −1 X ⊤ ck
λk
.
Les seuls termes non nuls de X ⊤ ck sont les coordonnées des individus ayant
une modalité donnée.
√
A un facteur 1/ λk près, la coordonnée d’une catégorie est égale à la
moyenne simple des coordonnées des nj individus de cette catégorie.
Représentation
Définition (Représentation commune)

Les points représentatifs des catégories sont les barycentres des groupes
d’individus. On peut donc représenter les individus et catégories dans un
même plan factoriel.
Pour que les catégories se trouvent visuellement au barycentre des individus

√
qui les représentent on peut remplacer ak par αk = D −1 X ⊤ ck = µk ak .
Variables et axes factoriels
Si nj est l’effectif de la catégorie j et ak ,j sa coordonnée sur l’axe factoriel k ,

alors
1 X 2
nj ak ,j = µk
np
j∈ catégories
La contribution de la catégorie j à l’axe factoriel k est

nj 2
ak ,j
µk np
La contribution totale de la variable χi à l’axe factoriel k est
1 X
2
nj (ak , j)
µk np
j modalites de
Individus et axes factoriels
2
La normalisation de ck est ni+1 (ck ,i ) = nµk , où ck ,i la coordonnée de
P
l’individu i sur l’axe factoriel k associé à la valeur propre µk .
La contribution d’un individu est
(αk ,i )2
nµk
.
Cette contribution est comparée à 1/n comme en ACP/AFC.
La qualité de représentation de l’individu i par les l premiers axes :
(ck ,i )2
P1
k =1
(ck ,i )2
Pq
k =1
.
Valeurs propres
La valeur 1 est associée à la composante (1; . . . ; 1) dans l’espace des

individus. Les autres vecteurs propres sont lui sont orthogonaux et de
moyenneP nulle.
Si n > pi=1 mi , le rang de X est pi=1 mi − p + 1 et le nombre de valeurs
P
propres non égales à 0 ou 1 est q = pi=1 mi − p.

P
La somme des valeurs propres non égales à 0 ou 1 est donc
q ! p
X 1 −1 1X q
µk = Trace D B −1= mi − 1 =
p p p
k =1 i=1
La moyenne des q valeurs propres vaut 1/p.
La contribution d’une catégorie à l’inertie est
nj 2 1
nj
d (j, g) = 1−
np p n
C’est une fonction décroissante de l’effectif. il faut donc éviter les catégories
d’effectifs trop faible qui se retrouvent sur le premier axe.
La contribution de la variable χi est
X 1
n j mi − 1
1− =
pi n p
j modaliés de
.
C’est un fonction croissante du nombre de modalités. Il faut éviter si possible
un trop grand nombre de modalités pour les variables.
Choix des axes
On va garder les axes tels que µk > 1/p car la moyenne des valeurs
propres est 1/p.
Les axes que l’on peut interpréter en regardant les contributions des
variables.
Souvent on se contente du premier plan.
points communs entre AFC et ACM
Description des liaisons entre des variables qualitatives.
Lorsque p = 2 les coordonnées des modalités sont les mêmes pour les deux
analyses.
Toutes les modalités peuvent perte représentés sur un même plan.
Contribution d’une modalité à un axe
( coordonnée )2
×
valeur propre
Qualité de representation dune modalité par un sous-espace

2
P
2 axes du sous-espace (coordonnées sur l’axe)
cos = P 2
tous les axes (coordonnées sur l’axe)
Différences en AFC et ACM
Pas d’individus en AFC et des individus en ACM.
Tableau de contingence et profils en AFC. Tableau disjonctif et tableau de

Burt en ACM.
Poids d’une modalité

ni. ni.
n (profil-ligne) et n (profil-colonne) pour l’AFC
n.j
np en ACM
Pp
Le nombre de valeur propres est min (m1 − 1, m2 − 1) en AFC i=1
mi − p
Axes à conserver : Inertie pour l’AFC et µ > 1/p pour l’ACM
Rappels
ACP
AFC ACM
ACM
Rappels
ACP
Méthode de k-means
AFC
Classification hiérarchique
ACM
On considère les individus x1 , . . . , xn .

1 choix de k centres de classes c1 ; . . . ; ck au hasard parmi x1 ; . . . ; xn .
2 on affecte chaque point xi à la classe cj la plus proche
3 on affecte le centre cj de chaque classe comme cj = gj centre de gravité
de la classe

4 on retourne à l’étape 1 si Itinter − It−1
inter
> ϵ ou nombre d’itérations
suffisamment grand.
Attention, cette méthode ne converge pas nécessairement vers l’optimum
global mais on a malgré tout la propriété suivante :
Proposition
L’inertie intra-classe n’augmente jamais.
Rappels
ACP
Méthode de k-means
AFC
ACM
On a donc convergence vers un minimum local. En pratique, k-means est

utilisé n fois et on conserve la solution de plus petite inertie intra-classe. Cette
méthode peut s’étendre à des individus décrits par des distances. Cela ne
change pas l’étape 1. L’étape 2 : cj = {xk | ni=1 zij d (xi , xk ). Un problème
P
connu de k-means est qu’il modélise uniquement des classes sphériques ou
assimilés. Par ailleurs, k-means est décrit dans le cadre Rp mais dans les
autres cas, des variantes existent comme skmeans dans le cas de données
sphériques et kernel k-means pour des données décrites par des noyaux.
Rappels
ACP
Méthode de k-means
AFC
ACM
Méthode du saut minimum (Single-linkage) δ(A , B) = min(a,b)∈A ×B d(a, b)

Cette dissimilarité ne rend pas bien compte du comportement global des
classes.
Méthode du diamètre (Complete-Linkage) δ(A , B) = min(a,b)∈A ×B d(a, b)
On observe ici le même problème que pour la méthode du saut minimum.
Méthode de la moyenne δ(A , B) = ∥gA − gB ∥ où gA et gB sont les centres de
gravités de A et de B. Utilise tous les points, mais le poids de chaque classe
est perdu.
Méthode de Ward Ici la dissimilarité est donnée par la perte d’inertie
inter-classe : Dissimilarité raisonnable et très utilisée, elle est à rapprochée
de la méthode kmeans.
Rappels
ACP
Méthode de k-means
AFC
ACM
Méthode du saut minimum (Single-linkage) δ(A , B) = min(a,b)∈A ×B d(a, b)

Cette dissimilarité ne rend pas bien compte du comportement global des
classes.
Méthode du diamètre (Complete-Linkage) δ(A , B) = min(a,b)∈A ×B d(a, b)
On observe ici le même problème que pour la méthode du saut minimum.
Méthode de la moyenne δ(A , B) = ∥gA − gB ∥ où gA et gB sont les centres de
gravités de A et de B. Utilise tous les points, mais le poids de chaque classe
est perdu.
Méthode de Ward Ici la dissimilarité est donnée par la perte d’inertie
inter-classe : Dissimilarité raisonnable et très utilisée, elle est à rapprochée
de la méthode kmeans.
References
1. Bry X. (1996), Analyse factorielle multiple, Economica.
2. Diday E., Lemaire J., J. Pouget et al. (1982), Eléments d’analyse des données, Dunod.
3. Lebart L., Morineau A., Fenelon J-P. (1981), Traitement des données statistiques, Dunod.
MERCI

CoursACPacmAFC Beamer 2023

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

CoursACPacmAFC Beamer 2023

Transféré par

Droits d'auteur :

Formats disponibles

Analyse des données

March 16, 2023

1 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 1 / 117

1 Prérequis : Statistique descriptive ; Algèbre linéaire

2 Objectif général : Favoriser l’apprentissage de l’analyse des données

2 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 2 / 117

1 Comprendre et démontrer les principaux résultats de méthodes

2 Analyser de manière théorique un problème d’ACP, d’AFC et ACM

3 Mettre en pratique les différentes techniques ACP, AFC, et ACM sur le

4 Faciliter l’interpreter les résultats de méthodes théoriques/pratiques

5 Faciliter la classification des données

3 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 3 / 117

1 Traiter les données initiales afin d’éliminer les biais statistiques

2 Quantifier la notion d’information

3 Realisation des changements d’axes permettant de hierarchiser

4 Choix des axes de projection en contrôlant la perte d’information

5 Projection et analyse du nuage de points en validant l’anlyse par des

4 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 4 / 117

1 Rappels de probabilités et d’algèbre

5 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 5 / 117

6 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 6 / 117

Si tous les individus ont le même poids, pi = 1/n.

7 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 7 / 117

Définition (Moyenne empirique)

la moyenne empirique du n−échantillon de loi celle de X si tous les individus

8 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 8 / 117

Définition (Moyenne empirique)

racine carrée de la variance empirique.

La loi des grands nombres nous donne immédiatement que la variance

9 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 9 / 117

On considère deux n-échantillons X = (X1 , · · · , Xn ) et Y = (Y1 , · · · , Yn ) issus

Théorème (Loi des grands nombres)

Théorème (Théorème de la limite centrale)

11 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 11 / 117

On considère les espaces Rp et Rn de dimensions p et n. On note les

x = (x1 , · · · , xn ) =  ... 

où les xi sont les coordonnées de x et ”⊤” est l’opérateur transposée.

 a1,1 ··· a1,p

12 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 12 / 117

 a1,1 + b1,1 ··· a1,p + b1,p

De plus, AB ⊤ et AC existent mais pas AB. Le produit matriciel n’est pas

13 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 13 / 117

14 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 14 / 117

Tr (AB) = Tr (BA ), Tr (ABC) = Tr (BCA ) , Tr (CBA )

Si A et B sont deux matrices carrées de taille n telle que

15 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 15 / 117

16 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 16 / 117

On considère un tableau de données

où xij , 1 ≤ i ≤ n et 1 ≤ j ≤ p sont les réalisations de variables aléatoires. On

17 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 17 / 117

Le But : Analyser et représenter le tableau X notamment lorsque le nombre p

Dégager les tendances principales en créant de nouvelles variables (C.L. des

18 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 18 / 117

On considère le nuage de points NX = {x1 , · · · , xn } composée de n points

C’est le vecteur des moyennes empiriques des colonnes de X .

19 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 19 / 117

En écriture matricielle cela donne

20 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 20 / 117

Les variables ne sont pas toutes comparables directement entre elles.

21 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 21 / 117

V est une matrice carrée p × p symétrique semi-définie positive : ∀u ∈ Rp ,

Elle admet donc p valeurs propres réelles positives ou nulles.

22 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 22 / 117

23 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 23 / 117