Vous êtes sur la page 1sur 117

Analyse des données

M atthieu Somé1

March 16, 2023

1 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 1 / 117


Objectif général & Pré-requis

1 Prérequis : Statistique descriptive ; Algèbre linéaire

2 Objectif général : Favoriser l’apprentissage de l’analyse des données


quantitatives/qualitatives, tout en amenant les étudiants à une utilisation
judicieuse des instruments et méthodes d’analyse statistique.

Volume horaire : 48 h
CM : 22 h
TD :14 h
TP :12 h

2 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 2 / 117


Objectifs spécifiques

1 Comprendre et démontrer les principaux résultats de méthodes


d’analyse de données

2 Analyser de manière théorique un problème d’ACP, d’AFC et ACM

3 Mettre en pratique les différentes techniques ACP, AFC, et ACM sur le


logiciel R

4 Faciliter l’interpreter les résultats de méthodes théoriques/pratiques


d’analyses de données (ACP, AFC, ACM)

5 Faciliter la classification des données

3 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 3 / 117


Demarche

1 Traiter les données initiales afin d’éliminer les biais statistiques

2 Quantifier la notion d’information


▶ Utilisation de la variance, la covariance, correlation
▶ Introduction de la notion de "distances" entre les points et le point "central"

3 Realisation des changements d’axes permettant de hierarchiser


l’information

4 Choix des axes de projection en contrôlant la perte d’information

5 Projection et analyse du nuage de points en validant l’anlyse par des


paramètres numériques

4 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 4 / 117


Plan

1 Rappels de probabilités et d’algèbre

2 ACP

3 AFC

4 ACM

5 Méthodes de classification

5 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 5 / 117


Rappels de probabilités et
d’algèbre

6 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 6 / 117


Rappels
Variables quantitatives
ACP
Covariance et corrélation
AFC
T héorèmes fondamentaux des Probabilités
ACM
Rappels d’algèbre
Méthodes de classification

Définition (Échantillon)
On considère une variable aléatoire réelle X et n réalisations i.i.d. X1 ; . . . ; Xn .
On appelle Xi la réalisation du i-ième individu pour la variable X .

Définition (poids)
Chaque individu i est affecté par un poids pi . Les pi vérifient
n
X
pi > 0, pi = 1
i=1

Si tous les individus ont le même poids, pi = 1/n.

7 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 7 / 117


Rappels
Variables quantitatives
ACP
Covariance et corrélation
AFC
T héorèmes fondamentaux des Probabilités
ACM
Rappels d’algèbre
Méthodes de classification

Définition (Moyenne empirique)


On note
n
1X
X= Xi
n
i=1

la moyenne empirique du n−échantillon de loi celle de X si tous les individus


ont la même poids. Dans le cas général
n
X
X= pi Xi
i=1

8 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 8 / 117


Rappels
Variables quantitatives
ACP
Covariance et corrélation
AFC
T héorèmes fondamentaux des Probabilités
ACM
Rappels d’algèbre
Méthodes de classification

Définition (Moyenne empirique)


La variance empirique du n-échantillon est donnée par
n
1 X 2
σ2X = Xi − X
n
i=1

 2
Dans le cas général σ2X = nj=1 pi Xi − X . L’écart-type empirique est la
P

racine carrée de la variance empirique.

La loi des grands nombres nous donne immédiatement que la variance


empirique est un estimateur de la variance de X . De plus,
 2
1 Pn
sX2 = n−1 i=1 Xi − X est un estimateur sans biais.

9 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 9 / 117


Rappels
Variables quantitatives
ACP
Covariance et corrélation
AFC
T héorèmes fondamentaux des Probabilités
ACM
Rappels d’algèbre
Méthodes de classification

On considère deux n-échantillons X = (X1 , · · · , Xn ) et Y = (Y1 , · · · , Yn ) issus


de deux v.a. X et Y .
Définition
On appelle covariance empirique des deux échantillons X et Y la quantité
n
1 X  
sXY = Cov(X, Y) = Xi − X Yi − Y
n
i=1

n
X   
ou sXY = Cov(X, Y) = pi Xi − X Yi − Y
i=1

Définition
On appelle corrélation théorique (resp. empirique) entre X et Y la quantité
!
Cov(X, Y) sXY
ρX,Y = Cor(X, Y) = p p resp. rXY = √
Var(X) Var(Y) SXX SYY
10 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 10 / 117
Rappels
Variables quantitatives
ACP
Covariance et corrélation
AFC
T héorèmes fondamentaux des Probabilités
ACM
Rappels d’algèbre
Méthodes de classification

Théorème (Loi des grands nombres)


Soit X une variable aléatoire admettant un moment d’ordre 1 et X1 ; . . . ; Xn un
n-échantillon de loi celle de X . Alors
n
1X
X := Xi →n→∞ E[X ]
n
i=1

Théorème (Théorème de la limite centrale)


Soit X une variable aléatoire admettant un moment d’ordre 2 et X1 ; . . . ; Xn un
n-échantillon de loi celle de X . Alors

√ X − E[X ]
np →n→∞ N(0, 1).
Var(X )

11 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 11 / 117


Rappels
Variables quantitatives
ACP
Covariance et corrélation
AFC
T héorèmes fondamentaux des Probabilités
ACM
Rappels d’algèbre
Méthodes de classification

On considère les espaces Rp et Rn de dimensions p et n. On note les


vecteurs en colonne : Si x ∈ Rp ,

 x1 
 

x = (x1 , · · · , xn ) =  ... 


⊤ 
 
 
xn

où les xi sont les coordonnées de x et ”⊤” est l’opérateur transposée.

Définition (Matrices)
Une matrice A = An;p de n lignes et p colonnes est un tableau

 a1,1 ··· a1,p


 

A =  ... ..

 .. 
 . .


···

an,1 an,p

12 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 12 / 117


Proposition (Opérations simples sur les matrices)
On considère trois matrices A = An;p , B = Bn;p et C = Cp;k . On a

 a1,1 + b1,1 ··· a1,p + b1,p


 
.. ..

 .. 
A + B = 
 . . .


···

an,1 + bn,1 an,p + bn,p n,p

De plus, AB ⊤ et AC existent mais pas AB. Le produit matriciel n’est pas


forcément commutatif (AC , CA en général). On note In la matrice identité de
taille n
 1 0 
 
 .. 
In = 
 . 

0 1 n,n
qui est telle que pour toute matrice A telle que le produit In A ou In A est
possible,
A = In A = AIn

13 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 13 / 117


Proposition (Produit de deux matrices)
Soient A = An;p , B = Bp;k deux matrices quelconques. Alors
 Pp Pp 
 j=1 a1,j bj,1 ··· a1,j bj,k
j=1   p 
.. .. ..
  X 
AB = 
 Pp . .  =  ai,l bl,j 
Pp .
  

 a b ··· a b  l=1 1≤i≤n,1≤j≤k
j=1 n,j j,1 j=1 n,j j,k

14 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 14 / 117


Proposition (Trace, transposée et inverse)
On a

(A ⊤ ) = A , (A + B)⊤ = A ⊤ + B ⊤ , (AB)⊤ = B ⊤ A ⊤
La trace d’une matrice est la somme de ses éléments diagonaux :

Tr (AB) = Tr (BA ), Tr (ABC) = Tr (BCA ) , Tr (CBA )

Si A et B sont deux matrices carrées de taille n telle que

AB = ln

alors
BA = ln , et on note B = A −1

15 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 15 / 117


Rappels
Variables quantitatives
ACP
Covariance et corrélation
AFC
T héorèmes fondamentaux des Probabilités
ACM
Rappels d’algèbre
Méthodes de classification

ACP

16 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 16 / 117


Rappels
ACP
AFC ACP
ACM
Méthodes de classification

On considère un tableau de données

x1p
 1 
 x1 · · · 
X =  ... . . . ..
 
.


xnp
 1 
xn · · · n,p

où xij , 1 ≤ i ≤ n et 1 ≤ j ≤ p sont les réalisations de variables aléatoires. On


dispose de n individus et p variables.
 
xi = xi1 , · · · , xip ,
l’individu i (en indices)  
x j = x1j , · · · , xnj ,
les réalisations de la variable j (en exposants)

17 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 17 / 117


Rappels
ACP
AFC ACP
ACM
Méthodes de classification

Le But : Analyser et représenter le tableau X notamment lorsque le nombre p


de variables est strictement plus grand que 4 (voire bien plus !)

Dégager les tendances principales en créant de nouvelles variables (C.L. des


premières) permettant une compréhension du tableau X.

18 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 18 / 117


étapes préliminaires = centrer X

On considère le nuage de points NX = {x1 , · · · , xn } composée de n points


Pn R (les individus) et muni des poids (p1 , . . . , pn ) avec pi > 0 et
p
dans
i=1 pi = 1. Le barycentre des points du nuage NX est noté

 n n
⊤
X X
p

g =  pi xi , · · · ,
1
pi xi  ∈ Rp
i=1 i=1

C’est le vecteur des moyennes empiriques des colonnes de X .

19 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 19 / 117


étapes préliminaires = centrer X

En écriture matricielle cela donne

g = X ⊤ DIn

avec
In = (1, · · · , 1)⊤ ∈ Rn
Le nuage NY = {x1 − g, · · · , xn − g} est un nuage centré. Son barycentre est 0
dans Rp .
Matriciellement, la matrice centré Y est

Y = X − In g ⊤
= (ldn − In I⊤
n D) X

20 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 20 / 117


étapes préliminaires = réduire Y

Les variables ne sont pas toutes comparables directement entre elles.


P. ex. températures et latitudes sont incomparables.
Cela dépend aussi des unités de mesures choisies même quand les variables
mesurent les mêmes choses (différence entre des variations en mètres et en
kilomètres).
Solution: Réduire chaque variable pour qu’elles soient toutes de variance 1.
La matrice de covariance empirique des variables x 1 , · · · , x p peut s’écrire
sous la forme

V = X ⊤ DX − gg ⊤ = Y ⊤ DY

Preuve : A faire

21 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 21 / 117


étapes préliminaires = réduire Y

V est une matrice carrée p × p symétrique semi-définie positive : ∀u ∈ Rp ,


n
X n
X
u⊤ Vu = u⊤ Y ⊤ DYu = (Yu)⊤ D(Yu) = Dkk (Yu)2k = pk (Yu)2k ≥ 0
k =1 k =1

Elle admet donc p valeurs propres réelles positives ou nulles.

Théorème
Si R est une matrice symétrique réelle, alors elle est diagonalisable dans une
base orthonormée (base composée de vecteurs unitaires orthogonaux).

Théorème
Toute matrice de variance/covariance est symétrique définie positive (à
condition que chaque variable soit de variance strictement positive).

22 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 22 / 117


Diagonaliser la matrice
 
 2 1 0 
A =  1 2 0
 

0 0 2
 

23 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 23 / 117


Remarquons que dans le cas de la diagonalisation d’une matrice symétrique

PP ⊤ = P ⊤ P = Id

et
A = PDP ⊤
où la matrice diagonale D une matrice diagonale composée des values
propres de A dans l’ordre des vecteurs propres dans P
 
 1 0 0 
 0 2 0 
D =  
0 0 3
 

24 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 24 / 117


étapes préliminaires = réduire Y

Soit x j = (x1j , · · · , xnj ) les résultats obtenus pour la variable j. La variance


(empirique) de x j est
n
j 2
X  
σ2j = pi xij − x
i=1
j
où x = gj est la jième coordonnée de g (moyenne empirique de la variable x j )
n
X
j
x = gj = pi xij
i=1

On définit la matrice D1/σ comme étant notre métrique

 σ1
 −1 
0 
..
 
D1/σ =  .


σp p,p
 −1 

0

25 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 25 / 117


étapes préliminaires = réduire Y

Rappelons que
1 p
x1p − x
 1 
 x1 − x ··· 
.. .. ..
 
Y =  . . .
 

 
1 p
xnp − x
 1
xn − x ···

n,p

On pose alors
 xi − x j 
 j 
Z = YD1/σ =  
σj 

n,p

Z est une matrice dont toutes les colonnes sont de moyennes empiriques 0 et
de variances empiriques égales à 1 (Montrer ce résultat!!!)

La plupart des logiciels considèrent la matrice centrée


  réduite (les colonnes
avec la matrice de poids donnée) Z = YD1/σ = zij
i,j

26 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 26 / 117


étapes préliminaires = réduire Y

cov(x i ,x j )
Notons rij la corrélation empirique des variables X i et X j : rij = si sj
La matrice R de corrélation empirique

1 r12 ··· r1p


 
 

 r21 1 ··· r2p 

R =  .. .. .. .. 
. . . .
 
 

rp1 rp2 ··· 1

peut se récrire

R = D1/σ VD1/σ = D1/σ Y ⊤ DYD1/σ = Z ⊤ DZ

La matrice R est la matrice de variance-covariance des données centrées


réduites et résume la structure des dépendances linéaires entre les p
variables.

27 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 27 / 117


Espace métrique des individus

Distance entre deux individus x1 et x2 peut être définie de manière générale


par :
q
dM (x1 , x2 ) = (x1 − x2 )⊤ M (x1 − x2 ) = ∥x1 − x2 ∥M

où M est une matrice symétrique définie positive :


∀u ∈ Rp , u⊤ Mu ≥ 0 et si u⊤ Mu = 0 alors u = 0Rp .
La matrice M admet p valeurs propres réelles > 0.
En pratique :
ACP canonique pour variables homogènes (M = Id )
ACP normée M = D1/σ2 , où D1/σ2 = D1/σ D1/σ Le choix de cette métrique
revient à diviser chaque variable (colonne) par son écart-type.
Elle est utilisée pour les variables non homogènes, ou qui ne sont pas de
même ordre de grandeur.

28 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 28 / 117


Soit NX = (xi , pi ) le nuage de points et NZ = (zi , pi ) le nuage centré réduit.
 

Définition
On appelle inertie totale du nuage des individus , I, la moyenne pondérée des
carrés des distances des points au centre de gravité :
n
X n
X n
X
I= 2
pi dM (xi , g) = pi ||xi − g||2M = pi ||yi ∥2M
i=1 i=1 i=1

29 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 29 / 117


Inertie

L’inertie mesure la dispersion des points individus autour du centre de gravité


g. Points éloignés =⇒ inertie encore plus grande.
Si tous les points xi sont les mêmes (ce qui donne que tous les zi sont égaux
à 0), alors l’inertie vaut 0.

Théorème
Soit X un tableau de données et Z sa version centrée réduite. Si X possède p
variables (colonnes) alors
n n
1 XX 2
IX = pi pj xi − xj M
2
i=1 j=1

c’est à dire l’inertie correspond à la moyenne des carrés de toutes les


distances entre les individus.
Preuve : Poser ⟨x, y⟩M le produit scalaire associée à M : ⟨x, y⟩M = x ⊤ My

30 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 30 / 117


Inertie explique par un sous espace F
Définition
On appelle inertie du nuage des individus NX expliquée (portée) par le
sous-espace vectoriel F de Rp , l’inertie du nuage projetée sur F, i.e. :
n
X   n
X 2
IF (NX ) = 2
pi dM ŷiF , O = pi ŷiF M
i=1 i=1

où ŷiF
désigne la projection orthogonale de yi sur F. Autrement dit,
 
IF (N) = I N̂ F
n o
où N̂ F = ŷiF , pi est le projeté du nuage centré.

  X n 2 n
X  n
2 X
I∆u = I N̂ u = pi ŷiu M = pi yi⊤ Mu = pi u⊤ Myi yi⊤ Mu
i=1 i=1 i=1
 n  ,
X   
= u⊤ M  pi yi yi⊤  Mu = u⊤ MVMu, avec ŷiu = ⟨yi ; u⟩M u = yi⊤ Mu u
i=1
31 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 31 / 117
Inertie explique par un sous espace F
Proposition (Décomposition de l’inertie)
1 Si F est un s.e.v. de Rp et si F ⊥ désigne son supplémentaire orthogonal
(au sens du produit scalaire défini par M) on a la décomposition suivante :

I = IF + IF⊥
2 De façon plus générale, si F = F1 ⊕ F2 et F1 ⊥ F2 (au sens du produit
scalaire défini par M), alors

I F = I F1 + I F2

L’inertie totale se décompose pour tout F s.e.v. de Rp comme la somme de


 
l’inertie totale du nuage projeté sur F I N̂ F
la déformation du nuage N par projection orthogonale sur F :
n
X 2
I F⊥ = pi yi − ŷiF M
i=1

32 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 32 / 117


Inertie explique par un sous espace F

Théorème
Soit X un tableau de données et Z sa version centrée réduite. Si X possède p
variables (colonnes) alors
IZ = p

Preuve : A faire !!!

33 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 33 / 117


Principe de l’ACP

On cherche à projeter les points zi , i = 1; . . . ; n (individus) sur certains axes


(sous espace de faible dimension k ) tout en gardant un maximum d’inertie.
Cela revient à :

(Pk ) : Trouver un (le) s.e.v Ek de dimension k (k < p), tel que



IEk = max IE ; dim(E) = k .

Définition
On appelle sous-espace principal de dimension k, tout sev de dimension k
solution de (Pk ).

34 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 34 / 117


Principe de l’ACP

Théorème
Soit Ek un sous espace vectoriel de dimension k < p portant l’inertie
maximale du nuage, alors un sous-espace de dimension k + 1 portant l’inertie
maximale est
Ek ⊕ ∆uk +1
où uk +1 est un vecteur M-orthogonal à Ek et ∆uk +1 est une droite vectorielle
M-orthogonale à Ek portant l’inertie maximale parmi toutes les droites
vectorielles M-orthogonales à Ek .

Définition
Les axes ∆u1 ; . . . ; ∆up sont appelés axes principaux d’inertie de l’ACP.

35 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 35 / 117


Principe de l’ACP

Le théorème précédent dit que les sous-espaces principaux Ek (les solutions


de (Pk )) sont emboités et peuvent se calculer de façon itérative selon la
procédure :
Rechercher un axe ∆u1 maximisant l’inertie expliquée I∆u1 . On note
E1 = ∆u1 .
Rechercher un axe ∆u2 orthogonal à E1 , maximisant l’inertie expliquée
I∆u2 . On note E2 = E1 ⊕ ∆u2
...
Rechercher un axe orthogonal à Ek −1 maximisant l’inertie expliquée I∆uk .
On note Ek = Ek −1 ⊕ ∆uk

36 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 36 / 117


Calcul des axes principaux

Commençons par trouver l’axe principal ∆u1 . Si u1 est M−borné, on a vu


I∆u1 = u1⊤ MVMu1 . Si ∥u1 ∥M , 1, en notant v1 = u1 / ∥u1 ∥M , on a ∆u1 = ∆v1 et
donc

u1⊤ MVMu1 u1⊤ MVMu1


I∆u1 = I∆v1 = v1⊤ MVMv1 = =
∥u1 ∥2M u1⊤ Mu1
On veut maximiser cette quantité en u1 ∈ Rp . Pour cela, on commence par
chercher les points critiques de la fonction considérée, i.e. les points où le
gradient est nul :

37 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 37 / 117


Calcul des axes principaux
 
u1⊤ MVMu1 u1⊤ MVMu1 (2Mu1 )
!
2MVMu1
∇u1 = ⊤ −
u1⊤ Mu1 u1 Mu1  2
u1⊤ Mu1
u1 est donc solution de

u1⊤ MVMu1
MVMu1 = Mu1 = I∆u1 Mu1 ⇔ VMu1 = I∆u1 u1
u1⊤ Mu1

puisque M est inversible. Autrement dit, u1 est vecteur propre de la matrice


VM associé à la valeur propre I∆u1 .

Pour maximiser I∆u1 , il faut donc choisir pour u1 le vecteur propre de VM


associé à la plus grande valeur propre λ1 de la matrice VM.

On a alors I∆u1 = λ1 .

Ce résultat se généralise aux autres axes principaux, et on a le théorème :

38 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 38 / 117


Calcul des axes principaux
Théorème
1 Il existe une base M-orthonormée (u1 , u2 , . . . , up ) de vecteurs propres de
la matrice VM associés aux valeurs propres (∈ R+ ) rangées par ordre
décroissant λ1 ≥ λ2 ≥ . . . ≥ λp ≥ 0
2 Les vecteurs u1 , u2 , . . . , up engendrent respectivement les axes
principaux d’inertie de l’ACP et on a pour tout j ∈ {1, . . . , p},

I∆uj = λj

3 Pour tout k < p, le s.e.v Ek engendré par les k premiers vecteurs


u1 , u2 , . . . , uk est un s.e.v. principal de dimension k , et l’inertie expliquée
par Ek est donnée par
IEk = λ1 + · · · + λk

Preuve : A faire !!!

Définition
Les vecteurs uj sont appelés vecteurs principaux de l’ACP.
39 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 39 / 117
Calcul des axes principaux
Preuve
Notez que la matrice VM est M-symétrique puisque

⟨x; VMy⟩M = x ⊤ M(VMy) = x ⊤ MVMy = y ⊤ M ⊤ V ⊤ M ⊤ x = yMVMx

puisque M et V sont symétriques. Ainsi ⟨x; VMy⟩M = ⟨VMx; y⟩M . Par


conséquent, les valeurs propres de VM sont réelles et positives, et VM
admet une base M-orthonormée de vecteurs propres.
On a déjà vu que le premier axe principal d’inertie est engendré par le
vecteur propre u1 associé à la plus grande valeur propre λ1 de VM. Pour
les autres axes principaux, on utilise le fait que la k −ième valeur propre
λk vérifie :
n D E o
λk = max ⟨u, VMu⟩M ; ∥u∥M = 1; u; uj = 0, j = 1, · · · k − 1
M

Comme ∥uk ∥M = 1 ,on a


I∆uk = uk⊤ MVMuk = uk⊤ M (λk uk ) = λk uk⊤ Muk = λk
Par le theorème, Ek = ∆u1 ⊕ · · · ⊕ ∆uk , et IEk = kj=1 I∆uj = kj=1 λj
P P

40 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 40 / 117


Calcul des axes principaux

Remarque
Pp
En prenant, k = p, on retrouve I = Trace(VM) = j=1
λj

Notez que VM = Y ⊤ DYM. Si r = Rang(Y )(≤ min(p, n)), on a

λ1 > 0, λ2 > 0, · · · , λr > 0 et λr+1 = · · · = λp = 0

et par suite IEr = I. Le nuage est ici entièrement contenu dans le sev Er .

Une ACP avec M = Id dite canonique ou simple revient à diagonaliser la


matrice de covariance empirique des p variables de départ.

Une ACP avec M = D1/σ2 dite normée, revient à diagonaliser la matrice


de corrélation empirique

41 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 41 / 117


Calcul des composantes principales
Pour pouvoir obtenir les différentes représentations, il suffit de déterminer les
coordonnées des points du nuage projeté sur chaque axe principal.
Soit c1j , c2j , . . . , cnj , ces coordonnées sur l’axe ∆uj où cij est la coordonnée de yi
sur l’axe ∆uj .
cij =< yi , uj >M = yi⊤ Muj

Définition
Le vecteur Rn
c1j
 
 
c2j
 
 
j
c =  ..  = YMuj
 

 . 

cnj

est appelé j-ième composante principale (CP).


h i
Avec C = c 1 , c 2 , · · · , c p , on a C = YMU où U est une matrice (p; p) définie
h i
par U = u1 , u2 , · · · , up

42 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 42 / 117


Calcul des composantes principales

La décomposition du vecteur yi sur la base des vecteurs principaux


(u1 ; u2 ; . . . ; up ) s’écrit
p
X r
X
yi = cij uj = cij uj
j=1 j=1

Remarque
Pour j > r, les CP c j sont égales au vecteur nul de Rn car l’inertie expliquée
par ces axes est nulle.

43 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 43 / 117


Composantes principales
Comme les yi , ce sont des nouvelles variables de Rn .

Proposition (Propriétés des composantes principales)


1 Les CP sont des combinaisons linéaires des variables de départ y j .

2 Les CP c j sont centrées, de variance λj et non corrélées deux à deux.

3 Les CP c 1 ; . . . ; c p sont vecteurs propres de la matrice YMY ⊤ D, de


valeurs propres λ1 ; . . . ; λp .

Le j-ième facteur principal est pour j ≤ r, λj > 0 définit par

cj
dj = p
λj

Pour j > r, cj = 0.

44 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 44 / 117


Preuve
1

   
 Muj  p
1
i  ..
h i h  X  
j 1 p 1 p 
c = YMuj = y · · · y Muj = y · · · y  yk

 . 
 = Muj
  k
 k =1
 Muj
p

2 On a vu que (cf (diapo 16)) le barycentre des données (cij ) est donné par
l’expression matricielle
c = C ⊤ DI = U ⊤ MY ⊤ DI = U ⊤ My = 0

: puisque les données (yij ) sont centrées. Par ailleurs, en utilisant


l’expression matricielle de la covariance empirique donnée dans (diapo
17), on obtient
  
cov c i , c j = C ⊤ DC = U ⊤ MY ⊤ DYMU = U ⊤ MVMU
ij

Notez que
h i h i h i
VMU = VM u1 · · · up = VMu1 · · · VMup = λ1 u1 · · · λp up

45 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 45 / 117


i  λ1
 
h i h i h 
VMU = VM u · · · u = λ1 u · · · λp u = u · · · u  0
1 p 1 p 1 p 
0 

λp
 
    
On en déduit cov x i , x j = U ⊤ MU diag λ1 , · · · , λp . Pour terminer, il suffit de
ij
remarquer que

  ⊤    ⊤  ⊤ 
 u1   u1 Mu1 ··· u1 Mup 
.. .. ..
  h i 
U ⊤ MU  M u1 · · · up = 

= 
  
. . .

   
 p ⊤ p⊤ p⊤

u Mu1 ··· p
 
(u ) u Mu
 D 1 1E D E 
 u ; u · · · u1 ; up 
M M
.. ..
 
 
=   = Idp
 D . E . 
 up ; u1 · · · ⟨u , up ⟩
p

M M

puisque (u1 ; . . . ; up ) est une base M-orthonormée.

46 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 46 / 117


Preuve
1 OK
2 OK
 
3 Par definition de uj , λj , VMuj = Y ⊤ DYMuj = λj uj . en multipliant cette
identité par YM et en utilisant l’identité c j = YMuj , on obtient
YMY ⊤ Dc j = λj c j .

47 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 47 / 117


En résumé, une ACP prend pour entrées :
un nuage centré N de n individus y1 ; . . . ; yn dans un espace de
dimension p, Rp . Ces individus sont rangés dans un tableau de données
(n; p) noté Y ;
D, une matrice (n; n) de poids qui définit une métrique sur Rn ;
et M, une matrice (p; p) qui définit une métrique sur l’espace des
individus Rp .
On note ACP(Y ; D; M) pour faire référence au tableau de données, à la
matrice des poids et à la métrique.

48 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 48 / 117


Les sorties de l’ACP sont :
les valeurs λ1 , λ2 , . . . , λp propres de la matrice
VM = Y ⊤ DYM(λ1 ≥ · · · λr > 0 = λr+1 = . . . = λp où r est le rang de la
matrice Y ) ;
les axes principaux u1 ; . . . ; un vecteurs de Rp qui sont les vecteurs
propres associés, et qui forment une base M-orthonormée de l’espace
des individus Rp ;
D E
Y ⊤ DYMuj = λj uj , ui ; uj = δij
M

les composantes principales c1 ; . . . ; cn éléments de Rn définis par


c j = Y ⊤ Muj (c j = 0 pour j > r), ou de façon équivalente les facteurs
principaux d1 ; . . . ; dn définis par d j = c j / λj
p

49 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 49 / 117


ACP dans l’espace des variables

Soit le nuage V des variables centrées y1 ; . . . ; yn ∈ Rn

Objectif : Trouver les sous-espaces principaux F1 , F2 , . . . de Rn qui conservent


au mieux l’information liée à l’inertie contenue dans le nuage des variables V.

Pour cela, il faut :


Le tableau de données : Il s’agit du tableau (p; n) obtenu en mettant les
vecteurs y1 ; . . . ; yp sous forme de vecteurs lignes, et en mettant ces
lignes l’une en dessous de l’autre. Il est clair que le tableau obtenu est
Y ⊤.
Une métrique sur l’espace des variables Rn : on a déjà vu qu’un choix
naturel est de prendre D = diag (p1 , · · · , pn )
Un matrice (p; p) de poids : on va ici choisir la matrice M.

50 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 50 / 117


ACP dans l’espace des variables

Proposition
1 Les valeurs propres non nulles de l’ACP(Y ⊤ ; M; D) du nuage des
variables V sont les valeurs propres non nulles (λ1 , · · · , λr ) de
l’ACP(Y ; D; M) du nuage N des individus .
2 Les axes principaux de l’ACP(Y ⊤ ; M; D) correspondant aux valeurs
propres non nulles (λ1 , · · · , λr ), sont les facteurs principaux (d1 ; . . . ; dr )
de l’ACP(Y ; D; M) du nuage des individus.

Les composantes principales  de l’ACP(Y ; M; D) du nuage V
non nulles
3
√ √
des variables sont λ1 u1 , · · · , λr ur . Autrement dit, les facteurs
principaux de l’ACP(Y ⊤ ; M; D) du nuage V des variables, sont les axes
principaux (u1 ; . . . ; ur ) de l’ACP(Y ; D; M) du nuage des individus,
correspondant aux valeurs propres non nulles.

51 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 51 / 117


ACP dans l’espace des variables

Preuve

52 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 52 / 117


Représentations graphiques
Définition
Pour tout k ; l ≤ p(k , l), la projection du nuage NX sur le plan principal
(∆uk , ∆ul ) est appelé carte des individus.

Qualité de la représentation du nuage des individus. Pour NX on a


n
X p
X
I= pi ∥yi ∥2M = λj = Trace(VM)
i=1 j=1

(à établir)
Définition
La qualité globale de la représentation du nuage NX sur le s.e. principal Ek
engendré par (u1 ; . . . , uk ) est mesurée par le % d’inertie expliquée par Ek

IEk λ1 + λ2 + · · · + λk
= Pp
I λj j=1

Si qualité proche de 1, le nuage de points initial est "concentré" autour de Ek ,


et est plus fidèle à son image projetée sur Ek .
53 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 53 / 117
Représentations graphiques
Qualité de la représentation d’un individu.
Définition
La qualité de représentation de l’individu i sur l’espace principal Ek est
mesurée par le cos 2 de l’angle que fait yi avec sa projection ŷiEk sur Ek :

Pk j 2
  ∥ŷiEk ||2M ci
j=1
cos 2
yi , ŷiEk = = P  2
∥yi ∥2M p
cij
j=1
 
Si cos2 yi , ŷiEk est proche de 1, l’individu i appartient "presque" à Ek , et il
est donc bien représenté sur Ek .
 
Si cos2 yi , ŷiEk est proche de 0, l’individu i est mal représenté sur Ek .
Ainsi, la qualité de représentation de l’individu i sur le premier plan principal
E2 est mesurée par
E 2 2  2
  ŷi 2
M
ci1 + ci2
cos2 yi , ŷiE2 = = P  2
∥yi ∥2M p
cij
j=1
54 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 54 / 117
Contribution d’un individu à un axe (détection d’individus aberrants/influents)

Contribution de l’individu i à l’inertie du nuage


Pp  2
pi ∥yi ∥2M pi k =1
cik
=
I I
L’inertie s’écrit aussi

  n
X  2
λk = var c k
= pi cik
i=1

Contribution de l’individu i au k -ième axe principal


 2
pi cik  2
= pi dik
λk

Interpretation : Si tous les individus ont la même poids (1/n) alors les contributions
n’apportent pas plus d’information que les coordonnées et les individus ayant de fortes
contributions peuvent être détectés sur les boites à moustaches des composantes
principales c 1 ; . . . ; c r , ou des facteurs principaux d 1 ; . . . ; d r .
55 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 55 / 117
Représentation des variables.

Dans l’espace des


 variables, une variable y i à pour coordonnées
D E  √
i
y ;d k
= cov y , d = λk ukj (cf point 3. de la proposition diapo 47).
j k
D

Définition
Pour tout k et l ≤ r, la projection du nuage V sur le plan principal engendré
par (d k ; d l ) est appelée carte des variables.

Montrer que I(V) = I (Utiliser la trace)


La qualité globale de la représentation du nuage V sur le s.e principal Fk est
mesurée par λ1P+···+λ
p
λ
k

j=1 j

56 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 56 / 117


Qualité de la représentation d’une variable
Qualité de la représentation de la variable y j sur l’axe principal engendré par
dk :
k 2
 k
 ŷ j,d < y j ; d k >2D  
cos2 y j , ŷ j,d = 2 D = = r 2
y j
, d k
j
y D sj2
 
où r y j , d k est le coefficient de corrélation linéaire entre y j et d k .
Qualité de la représentation de y j sur le premier plan principal F2 engendré
par d 1 et d 2

  ∥ŷ j,F2 ||2    


cos2 y j , ŷ j,F2 = 2 D = r 2 y j , c 1 + r 2 y j , c 2
j
y D
 
Si cos2 y j , ŷ j,F2 est proche de 1, alors la variable y j est bien représentée
dans F2. 
Si cos2 y j , ŷ j,F2 est proche de 0, alors la variable y j est bien représentée
dans F2 .
57 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 57 / 117
ACP normée
h i j  
x j −x
Z = z1, z2, . . . , zp , zj = , j = 1, . . . , p, Z = YD1/σ et l ′ ACP Y , D, D1/σ2
σj
2  
n’est autre que l’ACP(Z; D; Id ). On a z j D = var z j = 1

Remarque
1 L’étude des corrélations des var. z j avec la CP c k permet d’interpréter c k
en fonction des z j . Cette étude des corrélations peut se faire par l’étude
des proximités des projections ẑ j avec le point (1; 0) du plan (v k ; v l ).
2 Les cartes des variables facilitent l’interprétation de′ la matrice des
corrélations des variables. Si deux variables ẑ j et ẑ j sont bien
j′
représentées par leurs projections ẑ et ẑ sur le plan (v k ; v l ) alors :
j
′ ′
▶ ẑ j et ẑ j proches indique une forte corrélation linaire entre ẑ j et ẑ j ,
j′
▶ ẑ j et ẑ diamétralement opposés indiquent une corr. nég. proche de -1,

▶ des directions de ẑ j et ẑ j presque orthogonales indiquent une faible

corrélation entre z j et z j .

58 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 58 / 117


Règle de Kaiser et règle du coude
Combien de composantes principales doit-on garder dans l’analyse ?

Définition (règle de kaiser)


Les variables de départ dans une ACP normée sont toutes réduites (variance
égale à 1). La règle de Kaiser suggère de ne garder que les composantes
principales dont les variances sont strictement supérieures à 1. Une autre
interprétation est que la moyenne des valeurs propres est 1 (la somme des p
valeurs propres vaut p) et on ne conserve que celles dont la variance est
supérieure à cette moyenne.

Définition (règle du coude)


Si on constate (visuellement) une cassure (un coude) dans le graphique des
valeurs propres.

Définition (Interprétabilité)
On ne garde que les axes interprétables grâce aux variables de départ.

Lorsque cela est possible on gardera environ 80% de l’inertie totale.


59 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 59 / 117
Interprétation de l’ACP (1/2)

1 Donner le % d’inertie expliquée par le plan considéré et chacun des axes

2 Indiquer les variables (resp. les individus) mal représenté(e)s dans ce


plan

3 Utiliser les contributions

▶ des variables pour interpréter les axes en termes de variables de départ

▶ des individus pour identifier ceux qui sont influents pour l’orientation d’un
axe et ceux qui ont une contribution excessive. Il est important de vérifier
qu’il ne s’agit pas de données erronées et de faire une nouvelle analyse en
les considérant en supplémentaires.

60 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 60 / 117


Interprétation de l’ACP (2/2)

1 Pour une carte des variables : étudier les angles entre les projections des
variables en termes de covariance ou de corrélation dans le cas d’une
ACP normée pour dégager éventuellement des groupes de variables.
Vérifier les tendances visualisées sur la carte par un examen de la
matrice de corrélation.

2 Pour une carte d’individus : étudier les proximités ou les oppositions entre
les points en termes de "comportement" et dégager éventuellement des
groupes d’individus et des comportements singuliers de certains. Vérifier
les caractéristiques dégagées par un examen des données de départ.

3 Faire une synthèse des informations et hypothèses principales dégagées


de la carte décrite.

61 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 61 / 117


Tableau récapitulatif
Individus Variables
Espace vectoriel Rp Rn

Tableau des données Y (n, p) Y (p, n)
Matrice des poids D = diag (p1 , · · · , pn ) M
Métrique M M
Matrice à diagonaliser VM = Y ⊤ DYM Y ⊤ DY ⊤ M
Valeurs non propres et nulles λ ≥ · · · λr ≥ 0 λ1 ≥ · · · λr ≥ 0
 1
u1 , · · · , up d 1 , · · · , d r , ?, . . . , ?


 

 Y ⊤ DYMu = λ u
E = λj d
  ⊤ j j
Axes principaux  D Ej j j

 YDY
D Dd
uj , uk = δjk uj , uk = δjk

 

 
M M
c j = YMuj
Composantes principales 2   c̃k = Y ⊤ Dd k
c j = var cj = λj
D
j
Facteurs principaux d1 , · · · , dr , d j = √c u1 , · · · , ur
λj
2
cik
( )
Repr. sur le k -ième axe factoriel Pp  j  2 cor 2 (y i , c k )
j=1 i
c
2
 2 (c k )
Contribution sur le k -ième axe pi dik = pi λi
k

Table:
62 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 62 / 117
Rappels
ACP
AFC ACP
ACM
Méthodes de classification

AFC

63 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 63 / 117


Rappels
ACP
AFC AFC
ACM
Méthodes de classification

L’Analyse Factorielle des Correspondances (AFC) permet d’analyser les


tables de contingence obtenues en observant deux var. qualitatives X et Y
sur un ensemble de n individus.
L’AFC peut être présentée comme une ACP avec la métrique du khi-deux.

X /Y d1 ··· dj ··· dc total


l1 n11 ··· n1j ··· n1c n1.
.. .. .. .. .. .. ..
. . . . . . .
li ni1 ··· nij ··· nic ni.
.. .. .. .. .. .. ..
. . . . . . .
lr nr1 ··· nrj ··· nrc nr.
total n.1 ··· n.j ··· n.c n

Table: tableau croisé des effectifs X et Y

Les entrées de ce tableau constituent la matrice N des effectifs nij de X et Y

64 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 64 / 117


Rappels

Soit X a r modalités (i.e l1 ; . . . ; lr ), et Y a c modalités (i.e. d1 ; . . . ; dc ). La table


de contingence N, dont les entrées sont les effectifs de chaque couple (li ; dj ) :

nij = nbre d’ individus avec les modalites li de X et dj de Y


n
X
= Ixk =li Iyk =dj
k =1

Les effectifs marginaux sont :

= cj=1 nij = ième marge en ligne


P
ni·
= ri=1 nij = jème marge en colonne.
P
n·j

65 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 65 / 117


Profils-lignes et profils-colonnes

Profils lignes

ni1 nic


Li = ième profil-ligne = ,··· , ∈ Rc
ni· ni·

Tableau des valeurs empiriques des modalités yi sachant que l’on a observé
les modalités xi .

Profils colonnes
!
n1j nrj
Cj = jème profil-colonne = ,··· , ∈ Rr
n·j n·j

Tableau des valeurs empiriques des modalités xi sachant que l’on a observé
les modalités yi .

66 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 66 / 117


Ecart à l’indépendance

Si X et Y indépend. alors = des profils-lignes et = des profils-colonnes

à montrer!!!

nij ni. n.j nij n.j nij ni.


∀i, j, ≃ ⇔ ∀i, j, = ⇔ ∀i, j, =
n n n ni. n n.j n
nij n
   
n ≃ P X = ci , Y = dj = P (X = ci ) P Y = dj ≃ nni· n·j

Ecart à l’indépendance

ni· n·j 2
 
r X
X c nij − n
tn = ni· n·j
i=1 j=1 n

L
tn est une réalisation d’une variable Tn −→ χ2(r−1)(c−1) qd n → +∞.

67 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 67 / 117


Principe de l’AFC

Tableau de données est ICI un tableau de contingence N à r × c.

Matrices diag. des effectifs marginaux de X et Y

Dr = diag(n1· , · · · , nr· ), Dc = diag(n·1 , · · · , n·c )

Tableaux des profils lignes et des profils colonnes

Tr = Dr−1 N et Tc = NDc−1

68 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 68 / 117


Nuage des profils-lignes
Définition
On appelle nuage des profils-lignes Mr l’ensemble des r points Li de Rc muni
de leur poids fi : Mr = (Li , fi· ) ; i = 1, . . . , r , fi· = ni· /n


Proposition( à montrer !!!)


1 Le centre de gravité gr du nuage Mr (profil-moyen des lignes) a pour
coordonnées :  n·1  
 n   f·1 

 .   . 
gr =  ..  =  ..  ∈ Rc
 n   
·c
n f ·c

2 Les points Li de Mr , ainsi que leur centre de gravité gr , appartiennent à


un sous-espace affine de Rc , à savoir l’hyperplan de dimension c − 1
défini par :  
 c
X 
, , c
.
 
Hc−1 =  (x · · · x ) ∈ ; x = 1
 
 1 c R i 

 
i=1

69 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 69 / 117


Nuage des profils-lignes

Par analogie avec les notations sur l’ACP, on a


Tableau des données : X = Tr = Dr−1 N de taille (r, c);
Tableau des données centrées : Y = X − Ic gr⊤ ;
 
Matrice des poids D = diag nn1 , · · · , nnr = n1 Dr de taille (r, r)
Espace des profils-lignes ("individus") : Rc , plus précisément Hc−1

70 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 70 / 117


Nuage des profils-colonnes
Définition
r
On appelle nuage des profils-colonnesnMc , l’ensemble
 deso c points Cj de R
munis de leur poids f.j = n·j /n : Mc = Cj , f.j ; j = 1, . . . , c .

Proposition(Preuve !!)
1 Le centre de gravité gc du nuage Mc (profil-moyen des colonnes) a pour
coordonnées :  n1·  
 n   f1· 

 .   . 
gc =  ..  =  ..  ∈ Rr
 nr·   
n fr·
2 Les points Cj de Mc , ainsi que leur centre de gravité gc , appartiennent à
un sous-espace affine de Rr , à savoir l’hyperplan Hr−1 de dimension
r − 1 défini par :
 
 r
X 
(x1 , · · · , xr ) ∈ Rr ;
 
Hr−1 =  xi = 1
 

 

i=1
71 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 71 / 117
Nuage des profils-colonnes

Par analogie avec les notations sur l’ACP, on a

Tableau des données : X = Tc = Dc−1 N ⊤ de taille (c, r);

Tableau des données centrées : Y = X − Ir gc⊤ ;


 
n.1
Matrice des poids D = diag n ,··· , nn.c = n1 Dc de taille (r, r)

Espace des profils-colonnes ("variables") : Rc , plus précisément Hr−1


n n
Si indépendance "empirique" : nij = i.n .j , alors les nuages Mr et Mc sont
réduits à un seul point, leur centre de gravité.

72 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 72 / 117


Métrique du khi2 (1/2)
Distance entre deux profils-lignes Li et Li ′

c
n nij ni ′ j 2
X  
dχ22 (Li , Li ′ ) = −
n·j ni· ni ′ ·
j=1

= (Li − Li ′ ) M (Li − Li ′ ) = ⟨Li − Li ′ , Li − Li ′ ⟩M

où M = nDc−1 .
Distance entre deux-profils-colonnes Ci et Cj ′

r !2
  X n nij nij
dχ22 Cj , Cj ′ = −
ni· n·j n·j ′
i=1
 ′  
= Cj − Cj ′ M Cj − Cj ′ =< Cj − Cj ′ , Cj − Cj ′ >M

où M = nDr−1 (mat. diag.)

73 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 73 / 117


Métrique du khi2 (2/2)

Théorème
Supposons que deux colonnes de N, Cj et Cj ′ ont même profil, i.e.
nij nij ′
= pour tout i = 1, · · · , r
n.j n.j ′

Regroupons-les en une seule colonne, notée j ⊕ j ′ d’effectifs nij + nij ′ et


d’effectif marginal n.j + n.j ′ . On obtient une nouvelle table de contingence
notée Ñ, de taille (r, c − 1), à laquelle est associée une nouvelle métrique du
chi2, notée d̃χ2 , sur les profils-lignes, i.e., pour tout i, i ′ ∈ {1, 2, . . . , r}
 
dχ2 (Li , Li ′ ) = d̃χ2 L̃i , L̃i ′

.
 
Indication : calculer dχ2 (Li , Li ′ ) − d̃χ2 L̃i , L̃i ′

74 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 74 / 117


Inertie associé au nuage des profils-(lignes/colonnes)

Profil-lignes

r
X
I (Mr ) = fi· dχ22 (Li , gr )
i=1
r c
ni· X n nij n·j 2
X  
= −
n n·j ni· n
i=1 j=1
r X
c
ni· n nij n·j 2 1
X  
= − = tn
n n·j ni· n n
i=1 j=1

Profil-colonnes

1
I (Mc ) = tn
n

75 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 75 / 117


ACP des 2 nuages profils

Deux cas sont possibles :

1 ACP du nuage des profils-lignes avec


▶ Tableau des données (r, c) : X = Dr−1 N = Tr
▶ Espace des individus : Rc
▶ Métrique : M = nDc−1
▶ Poids : D = n1 Dr

2 ACP du nuage des profils-colonnes avec


▶ Tableau des données (c, r) : X = Dc−1 N ⊤ = Tc⊤
▶ Espace des individus : Rr
▶ Métrique : M = nDr−1
▶ Poids : D = n1 Dc

76 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 76 / 117


ACP des profils-lignes
Matrice à diagonaliser : la matrice de variance-covariance est

1 ⊤ −1
V = X ⊤ DX − gg ⊤ = Y ⊤ DY = N Dr N − gr gr⊤
n
et la matrice à diagonaliser est :

VM = N ⊤ Dr−1 NDc−1 − ngr gr⊤ Dc−1

Ogr est la droite orthogonale à l’espace Hr−1 , Pour x ∈ Hr−1 , on a

c
X n
< Ogr , gr x >χ2 = (x − gr )⊤ Mgr = n (x − gr )⊤ Dc−1 gr = gr (j) (x(j) − gr (j))
n.j
j=1
c c c
n n·j n·j  X nj
X  X
= xj − = xj − = 1 − 1 = 0.
n·j n n n
j=1 j=1 j=1

77 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 77 / 117


ACP des profils-lignes

Donc, gr est vecteur propre de VM associée à la valeur propre 0 où gr est


vecteur propre de la matrice ngr gr⊤ Dc−1 associée à la valeur propre 1.
En effet,
ngr gr⊤ Dc−1 gr = n ⟨gr , gr ⟩Dc−1 gr = gr
 n 2 P n
puisque n ⟨gr , gr ⟩Dc−1 = cj=1 nnj gr (j)2 = cj=1 nnj nj = cj=1 nj = 1. La matrice
P P

ngr gr⊤ Dc−1 est en fait la matrice de projection orthogonale sur (Ogr ). En effet,
si un vecteur x est orthogonal (au sens du chi2) à gr ,
ngr gr⊤ Dc−1 x = ⟨gr , x⟩χ2 gr = 0. On a :

78 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 78 / 117


ACP des profils-lignes

Proposition
Soit L la matrice
L = N ⊤ Dr−1 NDc−1 = Tr⊤ Tc .

1 L et VM se diagonalise dans la même base orthonormée (pour la


métrique du chi2).
2 gr est vecteur de VM associée à la valeur propre 0, et vecteur propre de
L associé à la valeur propre.
3 Les autres vecteurs propres sont orthogonaux à gr , et sont associés aux
mêmes valeurs propres pour L et VM.

79 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 79 / 117


CP

Soit (uk , k ∈ {1, · · · , r − 1}) les vecteurs principaux autres que gr (définis par
Luk = λk uk , λk , 1 ). Les composantes principales donnent les coordonnées
des profils-lignes sur chaque axe : pour tout i ∈ {1, . . . , r},

c k (i) = ⟨Li , uk ⟩χ2 = nLi⊤ Dc−1 uk


c
X nij
= =n uk (j)
n·j ni·
j=1

Ceci se récrit
 
c k = Tr nDc−1 uk = nDr−1 NDc−1 uk

Les composantes principales sont centrées, et de variance λk .

80 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 80 / 117


ACP des profils-colonnes
Matrice à diagonaliser : VM = NDc−1 N ⊤ Dr−1 − ngc gc⊤ Dr−1 .
gc est vecteur propre de VM associée à la valeur propre 0
Diagonaliser VM revient à diagonaliser la matrice C = NDc−1 N ⊤ Dr−1 = Tc Tr⊤ .
Si c k est une CP de l’ACP des profils-lignes, on a Dr c k = nNDc−1 uk , et donc
 
C Dr c k = nNDc−1 N ⊤ Dr−1 NDc−1 uk = nNDc−1 Luk = nλk NDc−1 uk = λk Dr c k

Ainsi, Dr c k est vecteur propre de C associé à la valeur propre λk . Si on note


vk les vecteurs principaux de l’ACP des profils-colonnes correspondant aux
Dk
valeurs propres non nulles, on a donc vk = D crck , avec
∥ r ∥χ2

2  ⊤     ⊤ r
X  
Dr c k 2 = Dr c k −1 k k k k 2 2
χ
nDr D r c = n c D r c = n n i. c (i) = n var ck =
i=1

D’où pour tout i ∈ {1, . . . , r},


1 ni. k
vk (i) = √ c (i).
λk n

81 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 81 / 117


ACP des profils-colonnes

Composantes
  principales
Soit c̃ k les CP de l’ACP des profils-colonnes.
Elle donne les coordonnées des profils-colonnes sur l’axe de vecteur
directeur vk :

r
D E X nij
c̃ k (j) = vk , Cj = nCj⊤ Dr−1 vk = n vk (i)
χ2 ni n.j
i=1

OU

c̃ k = nTc⊤ Dr−1 vk = nDc−1 N ⊤ Dr−1 vk .

Les CP c̃ k sont centrées, et de variance λk .

82 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 82 / 117


Relations de transition (1/2)

Théorème (relations quasi-barycentriques)


Soit p = rang(L ) = rang(C). Pour tout k ≤ p, il existe une relation dite de
transition, entre les vecteurs propres uk et vk :

1
vk = √ Tc uk
λk

1
uk = √ Tr⊤ vk
λk

Preuve : Rappelons que Dr c k = n λk vk . Par ailleurs, on a
c k = nDr−1 NDc−1 uk et donc Dr c k = nNDc−1 uk . On en déduit que

1 1
vk = √ NDc−1 uk = √ Tc uk
λk λk

En multipliant cette identité par Tr⊤ , on obtient Tr⊤ vk = √1
λk
Luk = λk uk

83 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 83 / 117


Relations de transition (2/2)
Théorème
Soit p = rang(L ) = rang(C). Pour tout k ≤ p,
c
1 X nij
ck (i) = √ c̃k (j)
λk j=1 ni.

r
1 X nij
c̃k (j) = √ ck (i)
λk i=1 n.j

Preuve :
c k = nDr−1 NDc−1 uk = √1 nDr−1 NDc−1 Tr⊤ vk = √1 nDr−1 NDc−1 N ⊤ Dr−1 vk =
λk λk
√1 Dr−1 N c̃ k
λk
En écrivant cette relation coordonnées par coordonnées, on obtient pour tout
i ∈ {1, . . . , r},
c
1 X nij k
c k (i) = √ c̃ (j).
λk ni
j=1

84 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 84 / 117


Formules de reconstitution
On recupère le tableau N à partir des CP c et c̃. ∀ i ≤ r j ≤ c, on a :
p
 
ni· n·j  X 1 k k

nij = 1 + √ c (i)c̃ (j)
n  λk k =1
n n
Les CP et les valeurs propres expliquent l’écart entre les nij et i.n ·j .
Preuve : On décompose le vecteur gr L ⃗i dans la base orthonormée donne par
k
les uk . On a par définition des CP c (i) :

p p p p
X X 1 X 1 X 1
Li −gr = c k (i)uk = √ c k (i)Tr⊤ vk = √ c k (i)N ⊤ Dr−1 vk = √ ck
k =1 k =1 λk k =1 λk k =1 λk

Coordonnées par coordonnées, on a ∀ j ∈ {1, . . . , c},

p p
nij n·j X 1 k n.j k ni n·j ni· n·j X 1 k
− = √ c (i) c̃ (j) ⇔ nij − = √ c (i)c̃ k (j)
ni· n
k =1 λk n n n
k =1 λk

85 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 85 / 117


Récapitulatif

Nuage Mr Nuage Mc
Eléments de base
des r profils-lignes dans Rc des c profils-colonnes dans Rr
Tr = Dr−1 N Tc⊤ =Dc−1 N ⊤
Tableau des données
(r, c) (c, r)
nDc−1 Métrique du chi2 nDr−1
L = Tr⊤ Tc = N Dr−1 NDc−1
⊤ C= Tc Tr⊤ = NDc−1 N ⊤ Dr−1
Matrice à diagonaliser
(c, c) (r, r)
uk : Luk = λk uk vk : Cvk = λk vk
avec λk , 1 Vecteurs principaux avec λk , 1
uk = √1 Tr⊤ vk vk = √1 Tc uk
λk λk
c k = nDr−1 NDc−1 uk c k = nDc−1 N ⊤ Dr−1 vk
nij nij
c k (i) = n cj=1 n ,n uk (j) c̃ k (j) = n ri=1 n ,n vk (i)
P P
√ i j Composantes principales √ i j
Dr c = n λk vk
k
Dc c̃ = n λk uk
k
Pc nij k Pr nij k
c k (i) = √1 j=1 ni c̃ (j) c̃ k (j) = √1 i=1 n c (i)
λk λk j.

Table:

86 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 86 / 117


Aide à l’interprétation (1/2)

Contribution relative : elle exprime la part prise par une modalité de la


variable dans l’inertie "expliquée " par un facteur.
Cos2 : il mesure la qualité de représentation de la modalité sur le facteur.
Contribution relative d’une modalité à l’inertie de l’axe k :
Contribution relative du profil-ligne Li au k -ième axe (de vecteur uk ) :
2
fi. (c k (i))
λk ;
Contribution relative du profil-colonne Cj au k -ième axe (de vecteur vk ) :
2
f.j (c̃ k (j))
λk .

87 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 87 / 117


Aide à l’interprétation (2/2)

Qualité de représentation sur l’axe k :


Qualité de la représentation du profil-ligne Li au k -ième axe (de vecteur
c k (i)2
uk ) : Pr c k (l)2 ;
l=1

Qualité de la représentation du profil-colonne Cj au k -ième axe (de


c̃ k (j)2
vecteur vk ) : Pc k 2.
l=1 c̃ (l)

Éléments supplémentaires
Les points supplémentaires sont des profils qui n’entrent pas dans la
construction des axes mais qui sont représentés dans les plans factoriels.

88 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 88 / 117


Rappels
ACP
AFC AFC
ACM
Méthodes de classification

ACM

89 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 89 / 117


Rappels
ACP
AFC ACM
ACM
Méthodes de classification

Le but de l’ACM est d’étendre une étude AFC au cas de plus de deux
variables : χ1 ; . . . ; χp lorsque p ≥ 2.

On a plus de tableau de contingence lorsque p > 2. On va chercher une autre


façon de représenter les tableaux de contingence.

On va retrouver le concept d’individus. Chaque individu est représenté par les


numéros des modalités qu’il possède pour chacune des p variables.

Définition
On va remplacer la j-ième colonne par mj colonnes d’indicatrices : 0 partout
et 1 à la valeur correspondant à xij .

90 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 90 / 117


Rappels
ACP
AFC ACM
ACM
Méthodes de classification

Exemple
On considère trois variables avec respectivement 3, 2 et 2 modalités,
mesurées sur 4 individus. On va avoir l’équivalence entre les deux série de
tableaux :

 1   2   1   1 0 0   0 1   1 0 
       
 3   1   2   0 0 1   1 0   0 1 
       
 2   1   1   0 1 0   1 0   1 0 
           
3 1 2 0 0 1 1 0 0 1

91 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 91 / 117


Tableau disjonctif et tableaux de contingence
Définition
A toute variable χj , on associe le tableau Xj à n lignes et mj colonnes.

Définition
Le tableau de contingence des variables χj et χk est donnée par

Nj,k = Xj⊤ Xk

Définition
La matrice des effectifs marginaux de la variable est χj est

Dj = Xj⊤ Xj

Exemple
! !
0 1 2 3 0
N2,1 = D2 =
1 0 0 0 1
92 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 92 / 117
Définition
 
On considère la matrice X = X1 |X2 | · · · |Xp , qui possède n lignes et
m1 + · · · + mp colonnes.

Définition
La somme des éléments de chaque ligne de X est égale à p.La tableau des
profils lignes est donc p1 X .

Définition
La somme de chaque colonne est égale à l’effectif de la modalité
correspondante. Le tableau des profils colonnes est donc XD −1 ou

 D1 0 
 
 .. 
D =  . 

 
0 Dp

93 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 93 / 117


Exemple
Retour à l’exemple
 1 0 0 0 1 1 0
 

 0 0 1 1 0 0 1 
 
 0 1 0 1 0 1 0
 

0 0 1 1 0 0 1
 

Chaque somme de lignes vaut 3. Les sommes des colonnes valent


 
1 1 2 3 1 2 2

94 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 94 / 117


Cas p = 2
Comment marche l’AFC à deux variables avec les tableaux disjonctifs ?

On cherche les composantes principales de l’ACP en colonnes. Elles sont


vecteurs propres de
 ⊤ 1 1
XD −1 X = D −1 X ⊤ X
2 2

avec
! ! !
⊤ X1⊤ X1⊤ X1 X1⊤ X2 D1 N
X X= (X1 X2 ) = =
X2⊤ X2⊤ X1 X2⊤ X2 N⊤ D2
.
Les composantes sont donc valeurs propres de

! ! !
1 D1−1 0 D1 N 1 Im1 D1−1 N
=
2 0 D2−1 N⊤ D2 2 D2−1 N ⊤ Im2

95 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 95 / 117


Solutions

On note ak (respectivement bk ) les m1 premières (respectivement m2


dernières) coordonnées de la composante principale k et µk la valeur propre
correspondante
! ! !
lm1 D1−1 N ak ak
= 2µk
D2−1 N ⊤ Im2 bk bk
soit les équations

D1−1 Nbk = (2µk − 1) ak


D2−1 N ⊤ ak = (2µk − 1) bk
soit les coordonnées des lignes et des colonnes de N dans l’AFC classique
2
avec λk = (2µk − 1)
2
D2−1 N ⊤ D1−1 Nbk = (2µk − 1) bk
2
D1−1 ND2−1 N ⊤ ak = (2µk − 1) ak

96 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 96 / 117


Valeurs propres

On a m1 + m2 − 1 valeurs propres non nulles, ce qui est pus grand que dans
le cas classique (min (m1 − 1, m2 − 1))

Pour chaque λk on va avoir deux µk .


λk
!
1+ ak
µk = associee à
2 bk

1 − λk
!
ak
µ′k = associee à
2 −bk

On garde uniquement les µk > 1/2 et on peut montrer qu’il y en a


min (m1 − 1, m2 − 1).

97 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 97 / 117


Cas p > 2
On va étendre cette analyse lorsque p > 2 avec m1 + m2 + · · · + mp modalités.
On va faire une AFC sur le tableau disjonctif

 
X = X1 |X2 | · · · |Xp

qui possède n lignes m1 + m2 + · · · + mp colonnes

Définition
Le tableau de Burt est B = X ⊤ X qui est le tableau de contingence des
variables χ1 . . . , χp
 ⊤
 X1 X1 X1⊤ X2 ··· X1⊤ Xp   D1
 
N1,2 ··· N1,p 

 X ⊤ X X2⊤ X2   N2,1 D2
  
 2 1 
B =  .. .. ..  =  .
.. .. 

  .
 ⊤.
 . .   .
  . . 

Xp X1 ··· Xp Xp Np,1 ··· Dp

98 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 98 / 117


Exemple (tableau de Burt)
1 0 0 0 1 1 0
 
 

 0 1 0 1 0 1 0 

0 0 2 2 0 0 2
 
 
0 1 2 3 0 1 2
 
 
 

 1 0 0 0 1 1 0 


 1 1 0 1 1 2 0 

0 0 2 2 0 0 2

99 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 99 / 117


Coordonnées des catégories
 ⊤
On note ak = ak ,1 , · · · , ak ,p le vecteur m1 + m2 + · · · + mp comosantes des
coordonnées des catégories sur l’axe k .
La matrice des profils-lignes est p1 X et celle des profils colonnes est XD −1 , le
vecteur ak est vecteur propre de
 ⊤ 1 1 1
XD −1 X = D −1 X ⊤ X = D −1 B
p p p

et l’équation des coordonnées des catégories est

1 −1
D Bak = µk ak
p
avec
1 ⊤
a Dak = µk
np k
.

100 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 100 / 117
Coordonnées des individus
Soit ck le vecteur à n composantes des coordonnées des n individus sur l’axe
factoriel associé à la valeur propre µk . On a
1 1
ck = √ Xa
µk p k
La variance de ck est donc
1 ⊤ 1 1 1 ⊤
Var (ck ) = ck ck = ak⊤ X ⊤ Xak = ak⊤ (pµk Dak ) = a Dak = µk
n µk np 2 µk np 2 np k
. Les seuls termes non nuls dans le calcul de Xak sont les coordonnées de la
catégorie de chaque
√ variable possédée par l’individu.
A un facteur 1/ λk , la coordonnée d’un individu est égale à la moyenne
simple des coordonnées des catégories auquel il appartient. On a aussi
1
ak = √ D −1 X ⊤ ck
λk
.
Les seuls termes non nuls de X ⊤ ck sont les coordonnées des individus ayant
une modalité donnée.

101 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 101 / 117

A un facteur 1/ λk près, la coordonnée d’une catégorie est égale à la
moyenne simple des coordonnées des nj individus de cette catégorie.
On a aussi
1
ak = √ D −1 X ⊤ ck
λk
.
Les seuls termes non nuls de X ⊤ ck sont les coordonnées des individus ayant
une modalité donnée.

A un facteur 1/ λk près, la coordonnée d’une catégorie est égale à la
moyenne simple des coordonnées des nj individus de cette catégorie.

102 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 102 / 117
Représentation

Définition (Représentation commune)


Les points représentatifs des catégories sont les barycentres des groupes
d’individus. On peut donc représenter les individus et catégories dans un
même plan factoriel.

Pour que les catégories se trouvent visuellement au barycentre des individus



qui les représentent on peut remplacer ak par αk = D −1 X ⊤ ck = µk ak .

103 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 103 / 117
Variables et axes factoriels

Si nj est l’effectif de la catégorie j et ak ,j sa coordonnée sur l’axe factoriel k ,


alors
1 X  2
nj ak ,j = µk
np
j∈ catégories

La contribution de la catégorie j à l’axe factoriel k est


nj  2
ak ,j
µk np

La contribution totale de la variable χi à l’axe factoriel k est

1 X
2
nj (ak , j)
µk np
j modalites de

104 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 104 / 117
Individus et axes factoriels

2
La normalisation de ck est ni+1 (ck ,i ) = nµk , où ck ,i la coordonnée de
P
l’individu i sur l’axe factoriel k associé à la valeur propre µk .
La contribution d’un individu est

(αk ,i )2
nµk
.
Cette contribution est comparée à 1/n comme en ACP/AFC.
La qualité de représentation de l’individu i par les l premiers axes :

(ck ,i )2
P1
k =1
(ck ,i )2
Pq
k =1
.

105 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 105 / 117
Valeurs propres

La valeur 1 est associée à la composante (1; . . . ; 1) dans l’espace des


individus. Les autres vecteurs propres sont lui sont orthogonaux et de
moyenneP nulle.
Si n > pi=1 mi , le rang de X est pi=1 mi − p + 1 et le nombre de valeurs
P

propres non égales à 0 ou 1 est q = pi=1 mi − p.


P
La somme des valeurs propres non égales à 0 ou 1 est donc
q ! p
X 1 −1 1X q
µk = Trace D B −1= mi − 1 =
p p p
k =1 i=1

La moyenne des q valeurs propres vaut 1/p.

106 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 106 / 117
La contribution d’une catégorie à l’inertie est
nj 2 1
 nj 
d (j, g) = 1−
np p n

C’est une fonction décroissante de l’effectif. il faut donc éviter les catégories
d’effectifs trop faible qui se retrouvent sur le premier axe.
La contribution de la variable χi est
X 1
 n j  mi − 1
1− =
pi n p
j modaliés de

.
C’est un fonction croissante du nombre de modalités. Il faut éviter si possible
un trop grand nombre de modalités pour les variables.

107 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 107 / 117
Choix des axes

On va garder les axes tels que µk > 1/p car la moyenne des valeurs
propres est 1/p.

Les axes que l’on peut interpréter en regardant les contributions des
variables.

Souvent on se contente du premier plan.

108 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 108 / 117
points communs entre AFC et ACM

Description des liaisons entre des variables qualitatives.

Lorsque p = 2 les coordonnées des modalités sont les mêmes pour les deux
analyses.

Toutes les modalités peuvent perte représentés sur un même plan.

Contribution d’une modalité à un axe

( coordonnée )2
×
valeur propre

Qualité de representation dune modalité par un sous-espace


2
P
2 axes du sous-espace (coordonnées sur l’axe)
cos = P 2
tous les axes (coordonnées sur l’axe)

109 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 109 / 117
Différences en AFC et ACM

Pas d’individus en AFC et des individus en ACM.

Tableau de contingence et profils en AFC. Tableau disjonctif et tableau de


Burt en ACM.

Poids d’une modalité


ni. ni.
n (profil-ligne) et n (profil-colonne) pour l’AFC

n.j
np en ACM

Pp
Le nombre de valeur propres est min (m1 − 1, m2 − 1) en AFC i=1
mi − p

Axes à conserver : Inertie pour l’AFC et µ > 1/p pour l’ACM

110 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 110 / 117
Rappels
ACP
AFC ACM
ACM
Méthodes de classification

Méthodes de classification

111 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 111 / 117
Rappels
ACP
Méthode de k-means
AFC
Classification hiérarchique
ACM
Méthodes de classification

On considère les individus x1 , . . . , xn .


1 choix de k centres de classes c1 ; . . . ; ck au hasard parmi x1 ; . . . ; xn .
2 on affecte chaque point xi à la classe cj la plus proche
3 on affecte le centre cj de chaque classe comme cj = gj centre de gravité
de la classe

4 on retourne à l’étape 1 si Itinter − It−1
inter
> ϵ ou nombre d’itérations
suffisamment grand.
Attention, cette méthode ne converge pas nécessairement vers l’optimum
global mais on a malgré tout la propriété suivante :

Proposition
L’inertie intra-classe n’augmente jamais.

112 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 112 / 117
Rappels
ACP
Méthode de k-means
AFC
Classification hiérarchique
ACM
Méthodes de classification

On a donc convergence vers un minimum local. En pratique, k-means est


utilisé n fois et on conserve la solution de plus petite inertie intra-classe. Cette
méthode peut s’étendre à des individus décrits par des distances. Cela ne
change pas l’étape 1. L’étape 2 : cj = {xk | ni=1 zij d (xi , xk ). Un problème
P
connu de k-means est qu’il modélise uniquement des classes sphériques ou
assimilés. Par ailleurs, k-means est décrit dans le cadre Rp mais dans les
autres cas, des variantes existent comme skmeans dans le cas de données
sphériques et kernel k-means pour des données décrites par des noyaux.

113 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 113 / 117
Rappels
ACP
Méthode de k-means
AFC
Classification hiérarchique
ACM
Méthodes de classification

Méthode du saut minimum (Single-linkage) δ(A , B) = min(a,b)∈A ×B d(a, b)


Cette dissimilarité ne rend pas bien compte du comportement global des
classes.
Méthode du diamètre (Complete-Linkage) δ(A , B) = min(a,b)∈A ×B d(a, b)
On observe ici le même problème que pour la méthode du saut minimum.
Méthode de la moyenne δ(A , B) = ∥gA − gB ∥ où gA et gB sont les centres de
gravités de A et de B. Utilise tous les points, mais le poids de chaque classe
est perdu.
Méthode de Ward Ici la dissimilarité est donnée par la perte d’inertie
inter-classe : Dissimilarité raisonnable et très utilisée, elle est à rapprochée
de la méthode kmeans.

114 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 114 / 117
Rappels
ACP
Méthode de k-means
AFC
Classification hiérarchique
ACM
Méthodes de classification

Méthode du saut minimum (Single-linkage) δ(A , B) = min(a,b)∈A ×B d(a, b)


Cette dissimilarité ne rend pas bien compte du comportement global des
classes.
Méthode du diamètre (Complete-Linkage) δ(A , B) = min(a,b)∈A ×B d(a, b)
On observe ici le même problème que pour la méthode du saut minimum.
Méthode de la moyenne δ(A , B) = ∥gA − gB ∥ où gA et gB sont les centres de
gravités de A et de B. Utilise tous les points, mais le poids de chaque classe
est perdu.
Méthode de Ward Ici la dissimilarité est donnée par la perte d’inertie
inter-classe : Dissimilarité raisonnable et très utilisée, elle est à rapprochée
de la méthode kmeans.

115 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 115 / 117
References

1. Bry X. (1996), Analyse factorielle multiple, Economica.

2. Diday E., Lemaire J., J. Pouget et al. (1982), Eléments d’analyse des données, Dunod.

3. Lebart L., Morineau A., Fenelon J-P. (1981), Traitement des données statistiques, Dunod.

116 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 116 / 117
MERCI

117 M atthieu SOMÉ, UTS - LIME LISE 3 Analyse des données 117 / 117

Vous aimerez peut-être aussi