Vous êtes sur la page 1sur 115

Notes de cours d'analyse de données

Réalisé par : Pr. EN-NAIMANI Zakariae

École Natinale des Sciences Appliquées


Université Mohammed Premier Oujda

1er avril 2020

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Pourquoi vouloir analyser
les données ?

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Pourquoi analyser les données ?

Exemple introductif

Figure  Réalisations manuscrites de chires

La gure montre des réalisations manuscrites aléatoires des chires.


Chaque image numérique est de taille 64 × 64 pixels.
Il est connu que les pixels voisins d'une image naturelle sont
fortement corrélés.
Cette dépendance statistique implique une forte redondance de
l'information apportée par des pixels voisins.
L'obligation de Réduire la dimension.
Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données
Pourquoi analyser les données ?

IRIS Dataset
Comprend 50 échantillons de chacune des trois espèces (Iris setosa,
Iris virginica et Iris versicolor).
Quatre caractéristiques ont été mesurées à partir de chaque
échantillon : la longueur et la largeur des sépales et des pétales, en
centimètres.

Figure  (1)Setosa, (2)virginica et (3)versicolor

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Pourquoi analyser les données ?

L'analyse des données est une des branches les plus vivantes de la statis-
tique. Elle a comme but est de synthétiser, structurer l'information conte-
nue dans des données multidimensionnelles.
Méthodes
Méthodes factorielles : réduire le nombre de variables en les
résumant par un petit nombre de composantes synthétiques. Dans
ce cours, nous verrrons essentiellement :
Analyse en Composantes Principales, dans le cas ou les variables sont
quantitatives.
Analyse des Correspondances binaire et multiple si les variables sont
qualitatives, où on cherchera les liens entre les modalités.

Méthodes de classication :
Elles visent à réduire la taille de l'ensemble des individus en formant
des groupes homogènes d'individus ou de variables.
Ces groupes on les appelle aussi des classes, ou familles, ou
segments, ou clusters.
La classication est appelée aussi Segmentation ou Clustering.
Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données
Plan

Chapitre 0 : Rappels Mathématiques

Chapitre 1 : Analyse Factorielle

Chapitre 2 : Analyse en Composantes Principales (ACP)

Chapitre 3 : Analyse des Correspondances binaire (ACF) et


multiple (ACM)

Chapitre 4 : Classication Ascendante Hiérarchique

Chapitre 5 : Méthode de K-Moyennes


Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données
Plan

Chapitre 0 : Rappels Mathématiques

Chapitre 1 : Analyse Factorielle

Chapitre 2 : Analyse en Composantes Principales (ACP)

Chapitre 3 : Analyse des Correspondances binaire (ACF) et


multiple (ACM)

Chapitre 4 : Classication Ascendante Hiérarchique

Chapitre 5 : Méthode de K-Moyennes


Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données
Plan

Chapitre 0 : Rappels Mathématiques

Chapitre 1 : Analyse Factorielle

Chapitre 2 : Analyse en Composantes Principales (ACP)

Chapitre 3 : Analyse des Correspondances binaire (ACF) et


multiple (ACM)

Chapitre 4 : Classication Ascendante Hiérarchique

Chapitre 5 : Méthode de K-Moyennes


Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données
Plan

Chapitre 0 : Rappels Mathématiques

Chapitre 1 : Analyse Factorielle

Chapitre 2 : Analyse en Composantes Principales (ACP)

Chapitre 3 : Analyse des Correspondances binaire (ACF) et


multiple (ACM)

Chapitre 4 : Classication Ascendante Hiérarchique

Chapitre 5 : Méthode de K-Moyennes


Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données
Plan

Chapitre 0 : Rappels Mathématiques

Chapitre 1 : Analyse Factorielle

Chapitre 2 : Analyse en Composantes Principales (ACP)

Chapitre 3 : Analyse des Correspondances binaire (ACF) et


multiple (ACM)

Chapitre 4 : Classication Ascendante Hiérarchique

Chapitre 5 : Méthode de K-Moyennes


Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données
Plan

Chapitre 0 : Rappels Mathématiques

Chapitre 1 : Analyse Factorielle

Chapitre 2 : Analyse en Composantes Principales (ACP)

Chapitre 3 : Analyse des Correspondances binaire (ACF) et


multiple (ACM)

Chapitre 4 : Classication Ascendante Hiérarchique

Chapitre 5 : Méthode de K-Moyennes


Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données
Plan

Chapitre 0 : Rappels Mathématiques

Chapitre 1 : Analyse Factorielle

Chapitre 2 : Analyse en Composantes Principales (ACP)

Chapitre 3 : Analyse des Correspondances binaire (ACF) et


multiple (ACM)

Chapitre 4 : Classication Ascendante Hiérarchique

Chapitre 5 : Méthode de K-Moyennes


Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données
Chapitre 0 : Rappels mathéma-
tiques

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Rappels mathématiques

Algèbre linéaire :
les données sont vues de manière abstraites comme un nuage de
points dans un espace vectoriel. On utilise
Des matrices qui permettent de manipuler un ensemble de variables
comme un objet mathématique unique ;
Des valeurs et vecteurs propres qui permettent de décrire la structure
d'une matrice.
Des métriques : permettent de dénir la distance entre deux points
de l'espace vectoriel ; on utilise aussi des produits scalaires.
Théorie des probabilités et Statistique descriptive :
nécessaire en statistique inférentielle (estimation, tests, modélisation
et prévision,...).
Optimisation.

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Statistique descriptive

Dénition
est une science dont l'objectif est de recueillir les informations des
données d'une propriété ou d'un caractère d'une population an de les
analyser.
Population groupe ou ensemble d'individus que l'on analyse.
Recensement étude de tous les individus d'une population donnée.
Sondage étude d'une partie seulement d'une population appelée
échantillon.
Variables ensemble de caractéristiques d'une population.
quantitatives : nombres sur lesquels les opérations usuelles (somme,
moyenne,...) ont un sens ; elles peuvent être discrètes (ex : nombre
d'éléments dans un ensemble) ou continues (ex : prix, taille) ;
qualitatives : appartenance a une catégorie donnée ; elles peuvent
être nominales (ex : sexe, situation familiale) ou ordinales quand les
catégories sont ordonnées (ex : très résistant, assez résistant, peu
résistant).

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Les données

Dénition
Variable : toute caractéristique d'une entité.
Mesure : expression par une valeur numérique d'une variable.
Attribut : expression par un code d'une variable.
Modalité : ensemble des valeurs que peut prendre une variable.
Individu : entité étudiée (observation).

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Exemple Simple

Genre Age Taille Fumeur


Patient 1 F 59 140 oui
Patient 2 M 73 178 non
Patient 3 M 62 165 oui
.. .. .. .. ..
. . . . .
Patient n F 40 100 oui

Combien d'individus et des variables ?


Trouver les diérent types de variables ?

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Base données académiques

La base des données IRIS est caractérisée par :


IRIS Dataset
Comprend 50 échantillons de chacune des trois espèces (Iris setosa,
Iris virginica et Iris versicolor).
Quatre caractéristiques ont été mesurées à partir de chaque
échantillon : la longueur et la largeur des sépales et des pétales, en
centimètres.

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


IRIS Dataset

Figure  (1)Setosa, (2)virginica et (3)versicolor

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


IRIS Dataset

Figure  Caractéristique mesurées de Iris virginica

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Setosa

Les tableaux suivants illustrent les dix premiers individus dans chaque espèce.

Longueur sépale Largeur sépale Longueur pétale Largeur pétale

5.1 3.5 1.4 0.2

4.9 3.0 1.4 0.2

4.7 3.2 1.3 0.2

4.6 3.1 1.5 0.2

5.0 3.6 1.4 0.2

5.4 3.9 1.7 0.4

4.6 3.4 1.4 0.3

5.0 3.4 1.5 0.2

4.4 2.9 1.4 0.2

4.9 3.1 1.5 0.1

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Versicolor

Longueur sépale Largeur sépale Longueur pétale Largeur pétale

7.0 3.2 4.7 1.4

6.4 3.2 4.5 1.5

6.9 3.1 4.9 1.5

5.5 2.3 4.0 1.3

6.5 2.8 4.6 1.5

5.7 2.8 4.5 1.3

6.3 3.3 4.7 1.6

4.9 2.4 3.3 1.0

6.6 2.9 4.6 1.3

5.2 2.7 3.9 1.4

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Virginica

Longueur sépale Largeur sépale Longueur pétale Largeur pétale

6.3 3.3 6.0 2.5

5.8 2.7 5.1 1.9

7.1 3.0 5.9 2.1

6.3 2.9 5.6 1.8

6.5 3.0 5.8 2.2

7.6 3.0 6.6 2.1

4.9 2.5 4.5 1.7

7.3 2.9 6.3 1.8

6.7 2.5 5.8 1.8

7.2 3.6 6.1 2.5

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Description de données quantitatives

Dénition
On appelle variable un vecteur X de taille n.
Chaque coordonnée xi correspond a un individu.
On s'intéresse ici a des valeurs numériques.
Poids Chaque individu a éventuellement un poids pi , tel que
p1 + ... + pn = 1. On a souvent pi = n1 .
Représentation histogramme en découpant les valeurs de la variable
en classes.
Résumes on dispose d'une série d'indicateurs qui ne donne qu'une
vue partielle des données : eectif, moyenne, médiane, variance, écart
type, minimum, maximum, étendue, 1er quartile, 3eme quartile, ...
Ces indicateurs mesurent principalement la tendance centrale et la
dispersion. On utilisera principalement la moyenne, la variance et
l'écart type.

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Moyenne arithmétique

Dénition
On note
1X
n
x̄ = xi
n
i=1

ou pour des données pondérées


n
X
x̄ = pi xi
i=1

Propriétés
la moyenne arithmétique est une mesure de tendance centrale qui dépend
de toutes les observations et est sensible aux valeurs extrêmes. Elle est
très utilisée a cause de ses bonnes propriétés mathématiques.

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Variance et écart-type

Dénition
La variance de
PnX est dénie par
Var (X ) = n1 i=1 (xi − x̄)2 ou Var (X ) = i=1 pi (xi − x̄)2
Pn

L'écart type σx est la racine carrée de la variance.


Propriétés
La variance satisfait la formule suivante
1X
n
Var (X ) = pi xi2 − x̄ 2
n
i=1

La variance est  la moyenne des carres moins le carré de la moyenne .


L'écart-type, qui a la même unité que x , est une mesure de dispersion.

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Notation matricielle

Matrice
tableau de données carre ou rectangulaire.
Vecteur
matrice a une seule colonne.
Cas particuliers 
1 ... 0 1
  

I =  ... . . . ...  et 1= .


 .. 
 

0 ... 1 1
Transposition de matrice
échange des lignes et des colonnes d'une matrice ; on note M t la
transposée de M.

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


La matrice des poids

Pourquoi ?
utile quand les individus n'ont pas la même importance
Comment ?
on associe aux individus un poids pi tel que
n
pi = 1
X

i=1

et on représente ces poids dans la matrice diagonale de taille n


0 0
 
p1 ...
0 p2 ... 0
D=. .. . . . .. 
 ..
 
. .
0 0 ... pn

Cas uniforme
tous les individus ont le même poids pi = n1 et D = n1 I
Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données
Forme générale de données

Tableau sous forme d'une matrice formée par p variables statistiques


notée par C1 , C2 , ..., Cp et un échantillon L1 , ..., Ln de taille n.
Pour n individus et p variables, on a le tableau X est une matrice
rectangulaire a n lignes et p colonnes
 1
x12 x1p

x1 ...
x21 x22 ... p
x2 
X =. .. ... .. 
 ..

. .
xn1 xn2 ... xnp

ou xij représente la valeur de Cj prise par l'individu Li .

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Vecteurs variable et individu

La Variable Cj : Une colonne du tableau


 j
x1
x j 
 2
Cj =  .  ∈ Rn
 .. 
xnj

L'individu Li : Une ligne du tableau


xi1
 
xi2 
Li =  .  ∈ Rp
 .. 
 

xip

Les n individus sont décrits par un nuage de p variables.


L'information représentée par un nuage correspond à la dispersion
des n points.
Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données
Centre d'inertie et tableau centré

Point moyen : c'est le vecteur g des moyennes arithmétiques de


chaque variable :  
c¯1
c¯2 
g =  .  ∈ Rp
 .. 
 

c¯p
où :
1X
n
c¯j = xij
n
i=1

Vérier qu'on peut aussi écrire :


g = X t D1
Tableau centré : il est obtenu en centrant les variables autour de
leur moyenne :
¯
xij = xij − c¯j
Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données
Représenter le nuage des individus

A chaque individu Li , on peut associer un point dans Rp = espace


des individus.
Les axes de ce sous-espace de dimension réduite sont dits " axes
factoriels ".

La gure suivante présente le


nuage de points correspondant
aux n individus.
A chaque variable Cj du
tableau est associé un axe de
Rn .

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Exemple : p=3 et n=10

Individu Age (ans) Taille (cm) poids (kg)


1 25 169 64
2 24 180 82
3 19 172 69
4 22 175 68
5 26 182 78
6 25 178 80
7 24 179 75
8 23 174 76
9 21 178 72
10 24 176 75

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Exemple : p=3 et n=10

25 169 64
 
24 180 82
19 172 69
 
22 175 68
 
26 182 78
 
X =25 178 80

24 179 75
 
23 174 76
 
21 178 72
 

24 176 75
La dispersion du nuage de points présente l'information de
l'échantillon  
c¯1
Le centre de gravité a comme coordonnées g = c¯2  ∈ R3
c¯3

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Matrice de variance covariance

On appelle matrice de covariance empirique de p variables quantitatives


C1 , C2 , ..., Cj , ..., Cp

mesurées sur un ensemble de n individus, la matrice à p lignes et p co-


lonnes contenant sur sa diagonale principale les variances empiriques des
p variables, et ailleurs, les covariances empiriques de ces variables deux à
deux :
 
Var (C1 ) Cov (C1 , C2 ) ... Cov (C1 , Cj ) ... Cov (C1 , Cp )
Cov (C2 , C1 ) Var (C2 ) ... Cov (C2 , Cj ) ... Cov (C2 , Cp )

.
.. .. ... .. .. .. 
. . . .
 
 
Σ=
 Cov (Cj , C1 ) Cov (Cj , C2 )

... Var (Cj ) ... Cov (Cj , Cp ) 
.. .. .. .. ... ..
 
. . . . .
 
 
Cov (Cp , C1 ) Cov (Cp , C2 ) ... Cov (Cp , Cj ) ... Var (Cj )
avec
1
− c¯j )2 et Cov (Cj , Ck ) = n1
Pn j Pn j
Var (Cj ) = n i=1 (xi i=1 (xi − c¯j )(xik − c¯k )

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Matrice de variance covariance

Si on considère
xi1 − c¯1
   1
ui
xi2 − c¯2  ui2 
 ..   .. 
   
.  .
Uic = 

 x j − c¯j  =  u j 
  
 .  .
 i   i
 ..   .. 
xip − c¯p uip
est le vecteur des valeurs centrées des p variables mesurées sur la i-ème
individus, on peut voir que :
 1 Pn 1 )2 1 1
ui1 uij ui1 uip
Pn Pn 
i=1 (ui ... i=1 ... i=1
.. .. .. ..
n n n
...
. . . .
 
1X
n  
Uic (Uic )t =  1 j 1 1 Pn j 2 1 Pn
 P n j p

 n i=1 ui ui ... i=1 (ui ) ... i=1 ui ui 
.. .. .. ..
n n
n
i=1 ...
. . . .
 
 
1 p 1 1 1
uip ui1 p 2
P n Pn Pn
n i=1 ui ui ... n i=1 ... n i=1 (ui )

On retrouve bien la matrice de covariance empirique Σ.


Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données
Matrice de variance covariance

Si on considère
(U1c )t
 
 .. 
 . 
 c t
(Uj ) 
Xc =  
 . 
 .. 
(Unc )t
on peut aussi écrire :
1
Σ= Xct Xc
n

Cette matrice de covariance est une matrice symétrique.


Elle est dénie positive si les p variables ne sont pas liées
linéairement.
On peut remarquer que sa trace est égale à la somme des variances
empiriques des p variables.

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Matrice des corrélations

Si on veut mesurer la liaison entre les variables, on utilise les coecients


de corrélation.
Dénition (Coecient de corrélation)
le coecient de corrélation entre deux variables X et Y est donnée par
Cov (X , Y )
ρX ,Y =
σX σY

Propriétés ((inégalité de Cauchy))


On a toujours l'inégalité de Cauchy −1  ρX ,Y  1.
Si |ρX ,Y |  0.7, les variables X et Y sont fortement corrélées.
Si |ρX ,Y |  0.5, les variables X et Y sont corrélées.
Si |ρX ,Y | ≺ 0.5, les variables X et Y sont faiblement corrélées.
Si |ρX ,Y | = 0, les variables X et Y sont non corrélées.

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Matrice des corrélations

Si on veut travailler avec des variables centrées et réduites, on passe du


tableau des valeurs centrées au tableau des valeurs centrées et réduites de
la façon suivante : 1 −
Xcr = (DΣ ) 2 Xc
Avec
0 ... ... 01
 
σ1
 0 ... ... .. 
.

.. . . 1 . . .. 
 
1
. σ . .

.

(DΣ ) 2 = 
.
... ...
j

.

. 0
0 ... ... 0 σ1

p

est la matrice diagonale qui a sur sa diagonale principale les inverses des
écarts-type empirique des variables.
Si on calcule la matrice de covariance à partir d'un tableau de données
centrées et réduites, on obtient la matrice des corrélations empiriques :
1 t 2
1
2
1 − −
R= Xcr Xcr = (DΣ ) Σ(DΣ )
n
Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données
Décomposition de l'inertie totale

Dénition (Inertie totale)


Soit un nuage de points Li i = 1, ..., n dans l'espace Rp .
On dénie l'inertie totale par la mesure :
1X
n
Ig = d 2 (g , Li )
n
i=1

Si on pondère chaque point i par un poids pi , on a Ig pi d 2 (g , Li )


Pn
= i=1

Théorème (Décomposition de l'inertie)


Si on décompose l'espace Rp comme la somme de sous-espaces de
dimension 1 et orthogonaux entre eux : ∆1 ⊕ ∆2 ⊕ ... ⊕ ∆p Alors,
Ig = I∆∗1 + I∆∗2 + ... + I∆∗p

avec ∆∗j le complémentaire de ∆j dans Rp .

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Méthode des multiplicateurs de Lagrange

Pour chercher les optimums d'une fonction


f (x1 , x2 , ..., xn )

de p variables liées par une relation


h(x1 , x2 , ..., xn ) = cte

on calcule les dérivées partielles de la fonction


L(x1 , x2 , ..., xn ) = f (x1 , x2 , ..., xn ) − λ(h(x1 , x2 , ..., xn ) − cte)

par rapport à chacune des variables.


En annulant ces n dérivées partielles et en ajoutant la contrainte, on obtient
un système de n + 1 équations à n + 1 inconnues.
Les n + 1 inconnues sont les valeurs des variables xi (i = 1, ..., n) et de λ
appelé le "multiplicateur de Lagrange".
L'existence de solutions à ce système est une condition nécessaire mais pas
susante à l'existence d'un optimum pour la fonction f .
Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données
Méthode des multiplicateurs de Lagrange

On peut généraliser ce problème au cas ou les n variables sont


soumises à c contraintes.
On construit la fonction L(x1 , x2 , ..., xn ) en rajoutant une
combinaison linéaire des c contraintes, dont les coecients
λ1 , λ2 , ..., λc sont les multiplicateurs de Lagrange.
On doit alors résoudre un système de n + c équations à n + c
inconnues.

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Formulaire de dérivation matricielle

Proposition 1
Soit u ∈ Rn et a ∈ Rn , alors
∂u t a ∂at u
= =a
∂u ∂u

Proposition 2
Soit u ∈ Rn et une matrice A ∈ Mn (R), alors
∂u t Au
= (A + At )u
∂u
Si A est symétrique, alors
∂u t Au
= 2Au
∂u

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Chapitre 1 : Analyse Factorielle

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Principe général

Le principe général de l'analyse factorielle est fondé sur une double


hypothèse :
Il existe un vecteur colonne u à p composantes et un vecteur colonne
v à n composantes tel que le tableau X = {xij } s'écrive X = vu t , où
u t est le vecteur transposé de u .
Ainsi des n + p valeurs des vecteurs u et v , les np valeurs de X sont
retrouvées.
Cette réduction devient vite intéressante dès lors que n et p sont
assez grands.
De plus elle n'entraîne aucune perte d'information.
Cette hypothèse est malheureusement improbable en pratique.

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Principe général

Exemple :
Considérons l'ensemble des notes des élèves ingénieurs de l'ENSAO
lière DSCC_3 durant une année.
Le nombre d'élèves est environ de 40, et nous pouvons considérer
qu'ils obtiennent environ 16 notes chacun.
Ainsi le tableau représentant l'ensemble des notes est constitué de
640 valeurs.
La réduction présentée ci-dessus permet de réduire ce nombre à 56
valeurs sans perte d'information si l'hypothèse est valide.
Pour que l'hypothèse soit vériée, il faudrait pouvoir déduire les
notes de l'ensemble des élèves à partir de celles d'un seul élève et
d'un vecteur de pondération.
Ceci signie que les notes sont dépendantes les unes des autres ou
encore très fortement corrélées.

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Principe général

En pratique, il faut donc chercher une approximation de rang k pour


X. C'est-à-dire ces analyses cherchent à écrire le tableau X tel que :
X = v1 u1t + v2 u2t + ... + vk ukt + E

Où E est une matrice de n lignes et p colonnes de termes


négligeables dite matrice résiduelle.
Ainsi les nk valeurs initiales de X sont reconstituées de façon
satisfaisante par les k(n + p) valeurs des k vecteurs vl et ul .
Les données sont donc soit considérées en tant qu'individus décrits
par leurs k variables à l'aide des vecteurs ul à p composantes, soit
en tant que variables décrites par les n individus à l'aide des vecteurs
vl à n composantes.

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Principe général

La résolution de ce problème passe donc par la considération des


deux nuages de points ou encore des deux représentations
géométriques associées.

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Principe général

On remarque, après la représentation géométrique, qu'on peut


obtenir plusieurs formes de nuages.

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Principe général

On distingue des formes sphériques ne traduisant aucune direction


privilégiée.
Des formes allongées donnant une direction privilégiée des
dépendances.
Ou encore plusieurs sous-nuages faisant ainsi apparaître plusieurs
sous-groupes de la population.
D'autres formes sont remarquables telles que les formes triangulaires
ou paraboliques.
Le problème est de pouvoir rendre compte visuellement de la forme
des nuages.
Solution du problème
L'idée de l'analyse factorielle est d'étudier des projections du nuage
sur un axe, un plan, ou un hyperplan judicieusement déterminé.
pour ce faire Mathématiquement l'analyse factorielle serait le
meilleur ajustement du nuage des individus par un sous espace
vectoriel de l'espace des variables (Rp ) puis le nuage des variables
par un sous espace vectoriel de l'espace des individus (Rn ).
Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données
Ajustement du nuage des individus

Le but est de fournir des images approchées du nuage des individus -


que nous noterons Nind - dans Rp .
La visualisation des images planes de Nind .
L'hypothèse que le nuage Nind est contenu dans un sous-espace
vectoriel de dimension k inférieure à p, i.e. que nous supposons que
la matrice E de est nulle.
Le nuage Nind est reconstitué de manière satisfaisante dans un
sous-espace de dimension k .
On reconstruit les n individus, et donc l'ensemble de la population et
du tableau X associé à partir des coordonnées des individus sur k
nouveaux axes.
Les np valeurs du tableau X sont donc remplacées par nk
(coordonnées)+pk (composantes).
Exemple
Si nous considérons 1000 élèves qui obtiennent chacun 100 notes, et si S

= 10, i.e. si les 1000 points-individus sont contenus dans un sous-espace

de dimension 10, nous réduisons l'étude des 1000 × 100 = 105 valeurs de
X à 1000 × 10 + 100 × 10 = 11000 valeurs.
Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données
Droite d'ajustement

Soit le nuage des n points L1 , L2 ,...,Ln en Rp .


Soit la droite (D1 ) engendré par un vecteur colonne quelconque u1
de norme 1, passant par l'origine O, i.e.
u t .u = 1

On cherche un sous-espace vectoriel à une dimension k = 1, i.e. une


droite (D1 ) passant par l'origine, qui ajuste au mieux le nuage Nind .
La projection sur la droite (D1 ) qui ajuste au mieux le nuage Nind
donne la dispersion ou inertie maximale le long de la droite (D1 ).
Proposition
Maximiser la dispersion le long de la droite (D1 ) revient à minimiser les

distances des points du nuage Nind à la droite (D1 ), c'est-à-dire que la

droite (D1 ) passe au plus près de tous les points du nuage Nind .

Démonstration.

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Droite d'ajustement

Proposition
Maximiser la dispersion le long de la droite (D1 ) revient à maximiser
u1t X t Xu1 , avec u1 le vecteur unitaire de (D1 ). En fait, nous avons
l'égalité :

n
OHi2 ) = Max((Xu1 )t (Xu1 )) = Max(u1t X t Xu1 ) (1)
X
Max(
i=1

qui représente l'inertie le long de l'axe (D1 ).

Démonstration.

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Droite d'ajustement : Résoudre le problème d'optimisation

Le problème revient donc à trouver u1 qui maximise la forme


quadratique u1t X t Xu1 avec la contrainte u1t u1 = 1.
Problème d'optimisation

 max u1t X t Xu1
P= s.c. (2)
u1 u1 = 1
 t

Le sous-espace à une dimension optimal au sens de l'inertie maximale


est donc l'axe (D1 ) déni par le vecteur u1 solution de ce problème.
Démonstration.

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Plan d'ajustement

Cherchons maintenant à déterminer le sous-espace à deux


dimensions k = 2 s'ajustant au mieux au nuage Nind .
Proposition
Le sous-espace à deux dimensions qui ajuste au mieux le nuage Nind
contient u1 .

Démonstration.

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Plan d'ajustement

le sous-espace à deux dimensions est donc caractérisé par l'axe (D1 ) et


l'axe (D2 ) déni par le vecteur u2 orthogonal à u1 vériant donc :
u2t X t Xu2 est maximal,
u2t u2 = 1 (contrainte de normalité),
u2t u1 = 0 (contrainte d'orthogonalité).

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Plan d'ajustement : Résoudre le problème d'optimisation

Le problème revient donc à trouver u2 qui maximise la forme


quadratique u2t X t Xu2 avec les deux contraintes u2t u2 = 1 et
u2t u1 = 0.

Problème d'optimisation


 max u2t X t Xu2
s.c.
(3)

P=
u t u2 = 1
 2t
u2 u1 = 0

Démonstration.

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Sous-espace d'ajustement

Dans le cas où k  2, par récurrence, le sous-espace à k dimensions


s'ajustant au mieux au nuage Nind contient les vecteurs
u1 , u2 , ..., ul , ..., uk−1 .
Ce sous-espace est engendré par le sous-espace
(u1 , u2 , ..., ul , ..., uk−1 ) de dimension k − 1 et le vecteur uk
orthogonal à ce sous-espace (i.e. à tous les ul ) et vériant :
ukt X t Xuk est maximal,
ukt uk = 1 (contrainte de normalité),
ukt ul = 0 l = 1, ..., k − 1(contraintes d'orthogonalité).

Proposition
Une base orthonormée du sous-espace vectoriel de dimension k,
s'ajustant au mieux au sens des moindres carrés, au nuage Nind dans Rp
est constituée par les k vecteurs propres (u1 , u2 , ..., uk ) correspondant aux

k plus grandes valeurs propres (λ1 , λ2 , ..., λk ) de la matrice X t X .

Remarques
k est au plus égal au rang de la matrice X tX , et dans le cas de l'égalité

la matrice E est nulle.

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Ajustement du nuage des variables dans l'espace des

individus

De la même façon que pour le nuage des individus Nind , nous


cherchons une image du nuage des variables, que nous noterons
Nvar , dans Rn .
L'approche est identique à celle du nuage des individus, il sut
simplement de considérer X t au lieu de X.
L'inertie le long de la droite (Dk0 ) s'écrit (X t vk )(X t vk ) = vkt XX t vk .
L'axe factoriel (ou axe d'inertie) est déterminé par vk vériant :
vkt XX t vk est maximal,
vkt vk = 1 (contrainte de normalité),
vkt vl = 0 pour tout l = 1, ..., k − 1 (contrainte d'orthogonalité).

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Sous-espace d'ajustement

Le sous-espace d'ajustement est obtenu de la même manière que dans le


cas des individus, par la proposition suivante.
Proposition
Une base orthonormée du sous-espace vectoriel de dimension k,
s'ajustant au mieux au sens des moindres carrés, au nuage Nvar dans Rn
est constituée par les k vecteurs propres (v1 , v2 , ..., vk ) correspondant aux

k plus grandes valeurs propres (ϕ1 , ϕ2 , ..., ϕK ) de la matrice XX t .

Démonstration.

Remarques
k est au plus égal au rang de la matrice XX t , qui est égal au rang de la
t
matrice X X.

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Relation entre les axes d'inertie et les facteurs des deux

nuages

On montre ici quelles sont les relations, dites relations de transition,


entre les ajustements dans les deux espaces.
Soit λD = ukt X t Xuk , respectivement λD = vkt XX t vk l'inertie le
k
0

long de l'axe (Dk ), respectivement (Dk0 ).


k

Fk = Xuk , respectivement Gk = X t vk le facteur d'ordre k de Nind ,


respectivement de Nvar .
Fk est donc le vecteur issu de la projection du nuage Nind sur le k ème
axe dans Rp , de même Gk est le vecteur issu de la projection du
nuage Nvar sur le k ème axe dans Rn .

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Relation entre les axes d'inertie et les facteurs des deux

nuages

Proposition
L'inertie le long de l'axe (Dk ), λDk , est égale à l'inertie le long de l'axe

(Dk0 ), λDk0 , nous la notons λk .

Démonstration.

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Relation entre les axes d'inertie et les facteurs des deux

nuages

Proposition
Les formules de transition entre les deux espaces Rp et Rn sont données

par les relations de fondamentales :

(
vk = √Fk
λk
uk = √Gk
λk

Démonstration.

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Relation entre les axes d'inertie et les facteurs des deux

nuages

Les relations de transition entre les deux espaces peuvent se représenter


par un schéma de dualité qui représente les relations entre les axes d'inertie
d'un nuage et les facteurs de l'autre nuage.
Proposition
Les relations de transitions entre les facteurs s'écrivent :

 Pp j
f (i) = Pp x j u (j) = j=√1 xi gk (j)
k j=1 i k λ k
j
g (j) = Pn x j v (i) = ni=√
P
1 xi gk (i)
k i=1 i k λk

Cette proposition montre que les facteurs des deux nuages doivent s'inter-
préter conjointement. L'analyse factorielle consiste donc à analyser simul-
tanément le nuage Nind et le nuage Nvar .

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Reconstruction des données

Possible de reconstruire de manière exacte le tableau de données X


par une décomposition en valeurs singulières de la matrice X .
Puisque ul est le l ème vecteur propre de norme 1 de la matrice X t X ,
correspondant à la valeur propre λl et vl est le l ème vecteur propre de
norme 1 de la matrice XX t , correspondant à la même valeur propre,
nous avons : p
Xul = λ l vl
d'où p p
X X p
X ul ult = λl vl ult
l=1 l=1

Les vecteurs propres étant orthogonaux et de norme 1, nous


obtenons : p Xp
X = λl vl ult
l=1

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Reconstruction des données

Cette formule de reconstruction du tableau X est par décompositions


en valeurs singulières à partir des valeurs propres λl (qui sont aussi
les inerties), et des vecteurs propres associés ul et vl l = 1, ..., p.
Cette reconstruction exacte suppose donc avoir np valeurs contenues
dans les p vecteurs propres ul et vl .
Nous avons vu précédemment que nous cherchons le sous-espace qui
s'ajuste au mieux aux nuages de points.
S'ajuster au mieux signie donc reconstituer au mieux les positions
des points des nuages par un nouvel ensemble de coordonnées.
Premier droite d'ajustement
Si λ1 associée à u1 est grande par rapport aux autres valeurs
propres, alors nous disons que la "reconstruction est bonne ".
D'un point de vue géométrique ceci signie que le nuage de points
s'allonge le long d'une droite.
Lorsque le nuage est ainsi très étiré le long du premier axe, l'inertie
du nuage de départ et la position des points sont bien reconstituée
avec la seule information des coordonnées des projections des points
du nuage.
Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données
Reconstruction des données

k premiers axes d'ajustement


Un repère formé par les k premiers axes factoriels permet de
reconstituer les positions de départ avec une bonne précision, si
λ1 + ... + λk représente une "bonne proportion" de la trace de la
matrice X t X .
Rappelons que
p p X
n
(xil )2
X X
t
tr (X X ) = λl =
l=1 l=1 i=1
.
Nous obtenons ainsi une reconstruction approchée X ∗ du tableau X
en se limitant aux k premiers axes factoriels, nous avons :
k p
(4)
X
X u X∗ = λl vl ult
l=1

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Reconstruction des données

Nous passons donc des np valeurs du tableau X à k(n + p) nombres


pour reconstituer X .

Ces nombres sont constitués par les k vecteurs λl vl ayant n
composantes et les k vecteurs ul ayant p composantes.
Toute la diculté réside dans le choix de K , c'est-à-dire à partir de
quelle valeur a-ton une bonne reconstruction, ou encore une bonne
proportion de la trace de X t X ?
Nous voyons donc l'importance de dénir un indice de qualité de la
reconstruction.
La qualité globale de la reconstruction peut être mesurée par :
Pk
tr (X ∗t X ∗ ) l=1 λl
τl = = p (5)
tr (X t X )
P
j=1 λj

Le coecient τl est encore appelé taux d'inertie ou pourcentage de la


variance relatif aux k premiers facteurs.
Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données
Chapitre 2 : Analyse en Compo-
santes principales

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Notions de base

On dispose d'un tableau de données numériques X = (xij )n×p


où n individus sont décrits sur p variables.
Nuage de n points-individus pondérés :
Les n lignes de X dénissent un nuage de n points de Rp .
On pondère chaque individu i par un poids wi . En pratique :
1
wi = n
pour des tirage aléatoire par exemple.
1
wi 6= n
pour des échantillons redressés, des données regroupées,etc.
En ACP, on va s'intéresser
au nuage centré des n points individus,
au nuage centré-réduit des n points individus.

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Notions de base

Le nuage centré des points-individus a pour centre de gravité


l'origine du repère.
Montrez que ȳj = 0 pour tout j = 1, ..., p .
Les distances entre les points-individus sont conservées.
Montrez que d 2 (Li , Li 0 ) = d 2 (yi , yi 0 ).
La variance des variables centrées-réduites est égale à 1.
Montrez que var (z j ) = 1 pour tout j = 1, ..., p .
Les distances entre les points-individus sont modiées.
Montrez que d 2 (zi , zi 0 ) = p 1 j
− xij0 )2 .
P
j=1 σ 2 (xi
j

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Notions de base

Distance entre deux individus. On munit l'espace Rp d'une métrique


M (matrice p × p symétrique dénie positive).
un produit scalaire : < x, y >M = x t My

une norme : ||x||M = < x, x >M
une distance : dM (x, y ) = ||x − y ||M
On utilise souvent une métrique diagonale M = diag (m1 , ..., mp )
an de pondérer les variables dans le calcul de la distance :
p
2
mj (xij )2
X
||Li ||M =
j=1

p
2
mj (xij − xij0 )2
X
dM (Li , Li 0 ) =
j=1

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Notions de base

Si on donne le même poids à toutes les variables, M = Ip et


p
dI2p (Li , Li 0 ) = (xij − xij0 )2 = dI2p (yi , yi 0 )
X

j=1

Si on donne moins de poids aux variables de forte variance,


M = diag ( σ12 , ..., σ12 ) et
1 p

2
p
1
(xij − xij0 )2 = dI2p (zi , zi 0 )
X
dM (Li , L ) =i0
j=1
σj2

Centrer-réduire les données permet de donner le même poids à toutes les


variables dans le calcul de la distance entre deux individus.

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Notions de base

Inertie du nuage des individus. C'est une mesure de dispersion du


nuage des n points-individus de Rp dénie par :
n
2
X
I (X ) = w i dM (Li , ḡ )
i=1

Pour une métrique diagonale M = diag (m1 , ..., mp ) on a :


p
X
I (X ) = mi var (Cj )
j=1

Et si M = Ip
L'inertie I (Y ) du nuage centré des individus est égale à la somme
des variances des p variables.
L'inertie I (Z ) du nuage centré-réduit des individus est égal à p.

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Notions de base

Nuage de p points-variables pondérés :


Les p colonnes de X dénissent un nuage de p points de Rn .
On pondère chaque variable j par un poids mj . En pratique :
mj = 1 en ACP.
mj 6= 1 en ACM (Analyse des Correspondances Multiples).
En ACP, on va s'intéresser
au nuage des p variables centrées si on analyse Y.
au nuage des p variables centrées-réduites si on analyse Z.

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Variance et norme

Si on munit Rn de la métrique diagonale N = diag ( n1 , ..., n1 ) des


poids des individus, on peut écrire
1X
n
var (Cj ) = (xij − c̄j )2 = ||y j ||2N
n
i=1

On en déduit que :
La variance empirique d'une variable j est égale au carré de la norme
de la variable centrée.
La norme d'une variable centrée-réduite z j est égale à 1 :
var (z j ) = ||z j ||2N = 1

Les variables centrées-réduites se trouvent sur l'hypersphère unité de Rn .

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Covariance et produit-scalaire

La covariance empirique Σjj mesure la liaison entre deux variables j


0

et j 0 :
1X n
j j 0
Σjj 0 = (xi − c̄j )(xi − c̄j 0 )
n
i=1

On en déduit que :
La covariance Σjj est le produit scalaire entre les variables centrées :
0

0
Σjj 0 =< y j , y j >N

La matrice p × p de covariance notée Σ se calcule matriciellement à


partir de la matrice Y des données centrées :
Σ = Y t NY

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Corrélation et cosinus

La corrélation rjj est une autre mesure de liaison entre deux


0

variables j et j' qui prend ses valeurs dans [−1, 1] :


1X
n 0
xij − c̄j xij − c̄j 0
rjj 0 = ( )( )
n σj σj 0
i=1

On en déduit que :
La corrélation est le cosinus de l'angle entre les variables centrées :
0
< y j , y j >N 0
rjj 0 = j j 0 = cos(θN (y j , y j ))
||y ||N ||y ||N
et le produit scalaire et le cosinus de l'angle entre les variables
centrées-réduites :
0 0
rjj 0 =< z j , z j >N = cos(θN (z j , z j ))
La matrice p × p de corrélations notée R se calcule matriciellement à
partir de la matrice Z des données centrées-réduites :
R = Z t NZ
Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données
ACP normée ou non normée ?

En ACP on peut analyser :


la matrice des données centrées Y.
la matrice des données centrées-réduites Z.
L'ACP consiste alors à analyser deux nuages de points :
les n points-individus de Rp (les lignes) avec la métrique M = Ip .
les p points-variables de Rn (les colonnes) avec la métrique N = n1 In .
On distingue alors deux type d'ACP :
l'ACP non normée (sur matrice des covariances) qui analyse Y,
l'ACP normée (sur matrice des corrélations) qui analyse Z.
Dans la suite du cours, on se place dans le cadre de l'ACP normée qui va
analyser les lignes et le colonnes de la matrice des données
centrées-réduites Z.

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Analyse du nuage des individus en ACP normée

Exemple des 6 individus décrits sur 3 variables.

Objectif
Trouver le plan de projection tel que les distances entre les individus
soient les mieux conservées possible.

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Projection d'un individu

La projection M-orthogonale d'un point zi ∈ Rp sur un axe ∆α de


vecteur directeur uα de norme 1 (i.e. uαt Muα = 1) a pour
coordonnée :
fiα =< zi , uα >M = zit Muα
On notera f α ∈ Rn le vecteur des coordonnées des projections des n
points du nuage des individus sur cet axe :
 
f1α
 .. 
 . 

 
 fiα  = ZMuα
= 
 .. 
 . 
fnα

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Projection d'un individu

fα est une combinaison linéaire des colonnes de Z. Par exemple,


avec M = Ip on a :
p
X
α
f = Zuα = ujα z j
j=1

fα est donc une variable synthétique centrée et donc


1X
n
2
var (f α ) = fiα = ||f α ||2N
n
i=1

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Recherche des axes de projection des individus

On cherche d'abord l'axe ∆1 de vecteur directeur u1 ∈ Rp pour que


la variance de la variable synthétique f 1 = Zu1 ∈ Rn (ici M = Ip )
soit maximale :
u1 = arg max var (Zu)
u∈Rp ,||u||=1

On peut montrer que :


le problème d'optimisation s'écrit :

max u t Ru
||u||=1

Avec R = 1n Z t Z la matrice des corrélations en les variables,


la solution u1 est le vecteur propre associé à la plus grand valeur
propre λ1 de la matrice matrice des corrélations avec

λ1 = var (f 1 )

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Recherche des axes de projection des individus

On cherche ensuite l'axe ∆2 de vecteur directeur u2 ⊥ u1 qui


maximise la variance de la variable synthétique f 2 = Zv2 :
u2 = arg max var (Zu)
u⊥u1 ,||u||=1

On peut montrer que :


u2 est le vecteur propre associé à la seconde plus grand valeur propre
λ2 de R avec
λ2 = var (f 2 )
les nouvelles variables synthétiques f 1 et f 2 sont non corrélées.

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Recherche des axes de projection des individus

Finalement, on construit q  r (où r est le rang de Z) axes de


vecteurs directeurs v1 , ..., vq et on obtient la matrice F de dimension
n × q des coordonnées des individus sur ces axes :

F = ZU

où U est la matrice des q premiers vecteurs propres de la matrice des


corrélations R.
Les éléments fiα sont appelés :
coordonnées factorielles des individus,
scores des individus sur les composantes principales,
Les colonnes f α = Zuα sont les nouvelles variables appelées les
composantes principales.

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Inertie des q premières composantes principales

Les composantes principales (colonnes de F) sont q nouvelles


variables synthétiques non corrélées et de variance maximale avec
var (f α ) = λα

On en déduit que l'inertie de la matrice F des q premières


composantes principales vaut :
q
X
I (F ) = λl
l=1

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Analyse du nuage des variables en ACP normée

Exemple des 3 variables centées-réduites décrivant les 6 patients.


Nuage de 3 points de R6 sur l'hypersphère de rayon 1 .

Objectif
Trouver le plan de projection tel que les angles entre les variables (et
donc les corrélations) soient les moins déformés possible.

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Projection d'une variable

La projection N-orthogonale d'un point z j ∈ Rn sur un axe Gα de


vecteur directeur vα de norme 1 (i.e. vαt Nvα = 1) a pour
coordonnée :
ajα =< z j , vα >N = (z j )t Nvα
On notera aα ∈ Rp le vecteur des coordonnées des projections des p
points-variable sur cet axe :
 
a1α
 .. 
 . 
α t
 
 ajα  = Z Nvα
a = 
 .. 
 . 
apα

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Recherche des axes de projection des variables

On cherche d'abord l'axe G1 de vecteur directeur v1 ∈ Rn qui


maximise le carré de la norme du vecteur a1 = Z t Nv1 ∈ Rp :
v1 = arg max ||Z t Nv ||2
||v ||N =1

Avec N = n1 In et la solution v1 st le vecteur propre associé à la plus


grand valeur propre λ1 de la matrice n1 ZZ t (qui est aussi la valeur
propre de la matrice R = n1 Z t Z ).
On cherche ensuite l'axe G2 de vecteur directeur v2 ⊥ v1 qui
maximise le carré de la norme du vecteur a2 = Z t Nv2 :
v2 = arg max ||Z t Nv ||2
||v ||N =1,v ⊥v1

la solution v2 est le vecteur propre associé à la seconde plus grand


valeur propre λ2 de la matrice n1 ZZ t .

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Recherche des axes de projection des variables

Finalement, on construit q axes de vecteurs directeurs v1 , ..., vq et


on obtient la matrice A de dimension p × q des coordonnées des
variables sur ces axes :
A = Z t NV
où V est la matrice des q premiers vecteurs propres de la matrice des
corrélations R.
Les éléments ajα sont appelés :
coordonnées factorielles des variables,
loading des variables,
On démontrera la relation suivante qui est fondamentale pour
interpréter les résultats :
ajα = cor (x j , f α )

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Recherche des axes de projection des variables

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Interprétation des résultats
Qualité de la réduction de dimension

On mesure la qualité des q premières composantes principales par le


pourcentage de l'inertie des données qu'elles expliquent.
Inertie des données :
I (Z ) = λ1 + λ2 + ... + λr
Cette inertie vaut p en A.C.P. normée et σ12 + ... + σp2 en ACP non
normée.
Inertie des q  r premières composantes principales :
I (F ) = λ1 + λ2 + ... + λq  I (Z )
Part d'inertie expliquée par la αème composante principale.
λα
λ1 + λ2 + ... + λr
Part d'inertie expliquée par les q premières composantes principales.
λ1 + λ2 + ... + λq
λ1 + λ2 + ... + λr
Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données
Combien de composantes retenir ?

On peut choisir le nombre q de composantes à retenir en fonction


d'un pourcentage d'inertie xé a priori.
On peut choisir de retenir les composantes apportant une inertie λα
supérieure à l'inertie moyenne par variable. En ACP normée, l'inertie
moyenne par variable vaut 1, et on choisit q tel que λq  1 et
λq+1 ≺ 1. C'est la règle de Kaiser.
Visualiser l'histogramme des valeurs prores (qui n'est pas un
histogramme) et chercher une "cassure". Pour quantier cette
cassure, on peut utiliser la règle du coude :
calculer les diérence premières : 1 = λ1 − λ2 , 2 = λ2 − λ3 , ....
calculer les diérence secondes : δ1 = 1 − 2 , δ2 = 2 − 3 , ....
retenir le nombre q tel que δ1 , ..., δq−1 soient toutes positives et que
δq soit négative.
Choisir le nombre de composantes en fonction d'un critère de
stabilité estimé par des approches bootstrap ou de validation croisée.

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Interprétation des plans factorielles des individus
Qualité de la projection des individus

Si deux individus sont bien projetés, alors leur distance en projection est
proche de leur distance dans Rp .
On mesure la qualité de la projection d'un individu i sur l'axe ∆α par
le carré du cosinus de l'angle θiα entre le vecteur zi et l'axe ∆α :
2
fiα
cos 2 (θiα ) =
||zi ||2

On mesure la qualité de la projection d'un individu i sur le plan


(∆α , ∆α ) par le carré du cosinus de l'angle θi(α,α ) entre le vecteur
0 0

zi et sa projection orthogonale sur (∆α , ∆α ) : 0

2 +f2
fiα
cos 2 (θi(α,α0 ) ) = iα0
||zi ||2

Plus la valeur du cos 2 est proche de 1, meilleure est la qualité de la repré-


sentation de l'individu.
Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données
Interprétation des plans factorielles des individus

Exemple des 6 patients

Retrouver que le cos 2 entre "Marie" et le premier axe vaut 0.98.


Calculer ensuite le cos 2 entre "Marie" le premier plan factoriel.

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Interpréter les distances entre les patients sur le plan

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Contribution des individus

Les individus qui contribuent de manière excessive à la construction des


axes sont source d'instabilité. Pour savoir si un individu contribue à un
axe, on évalue la part de l'inertie de l'axe expliquée par cet individu.
L'inertie sur l'axe ∆α est λα = ni=1 wi fiα2 avec souvent wi = n1 .
P

La contribution relative d'un individu i à l'axe ∆α est


2
wi fiα
Ctr (i, α) =
λα
La contribution relative d'un individu i au plan (∆α ,∆α ) est 0

2 +w f2
wi fiα i iα0
Ctr (i, (α, α0 )) =
λα + λα0

Si les poids wi des individus sont tous identiques (wi = 1


n par exemple),
les individus excentrés sont ceux qui contribuent le plus.

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Interpréter les distances entre les patients sur le plan

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données
Interprétation du cercle de corrélation

Si deux variables sont bien projetées, alors leur angle en projection


est proche de leur angle dans Rn .
Sachant que la corrélation entre deux variables est le cosinus de
l'angle entre les variables centrées-réduites :
un angle de 90◦ correspond à une corrélation nulle,
un angle nul (res. de 180◦ ) correspond à une corrélation de 1 (res.
de -1).

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Qualité de la projection des variables

On mesure la qualité de la projection d'une variable j sur l'axe Gα


par le carré du cosinus de l'angle θjα entre le vecteur z j et l'axe Gα :
2
ajα
cos 2 (θjα ) = 2
= ajα
||z j ||2

On mesure la qualité de la projection d'une variable j sur le plan


(Gα ,Gα ) par le carré du cosinus de l'angle θj(α,α ) entre le vecteur
0 0

z j et sa projection orthogonale sur (Gα ,Gα ) : 0

cos 2 (θj(α,α0 ) ) = ajα


2 2
+ ajα 0

est donc la "longueur de la èche".


cos 2 (θj(α,α0 ) )
p

Plus la èche est proche du cercle, meilleur est la qualité de la


représentation de la variable.

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données
Contribution des variables

Les contributions des variables aux axes permettent de donner une inter-
prétation aux axes. Pour savoir si une variable contribue à un axe, on évalue
la part de l'inertie de l'axe expliquée par la variable.
L'inertie sur l'axe Gα est λα = pi=1 ajα 2 .
P

La contribution relative d'une variable j à l'axe Gα est


2
ajα
Ctr (j, α) =
λα
La contribution relative d'une variable j au plan (Gα ,Gα ) est 0

2 + a2
ajα jα0
Ctr (j, (α, α0 )) =
λα + λα0

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données
Interprétation du plan factoriel des individus à partir du

cercle des corrélations

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Analyse en composantes princi-
pales sur R

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Objet

On va utiliser la fonction PCA du package FactoMineR plutôt que


la fonction princomp qui est très simpliste.
La fonction PCA permet l'ajout d'éléments supplémentaires et la
construction simple et automatisée de graphiques.
Elle est aussi accessible via une interface graphique disponible dans
le package Factoshiny via la fonction PCAshiny.
Cette interface permet de paramétrer la méthode et de construire
des graphes interactifs.
Exemple
Le jeu de données concerne les résultats aux épreuves du décathlon
lors de deux compétitions d'athlétisme.
Ces dernières ont lieu un mois d'intervalle : les Jeux Olympiques
d'Athènes (23 et 24 août 2004) et le Décastar (25 et 26 septembre
2004).
Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données
Étapes

1 Importer le jeu de données


2 Choisir les variables et les individus actifs
3 Standardiser ou non les variables
4 Choisir le nombre d'axes
5 Analyser les résultats
6 Décrire de façon automatique les principales dimensions de variabilité
7 Retour aux données brutes.

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Importer le jeu de données

La première colonne correspond aux noms des individus


(row.names=1)
On veut conserver le nom des variables tel que le tableau initial
(check.names=FALSE)
Exemple
decath < − read.table("decathlon.csv",sep=" ;",dec=".",header=TRUE,
row.names=1,check.names=FALSE)
summary(decath)
library(prettyR)
describe(decth)

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Choisir les variables et les individus actifs

On met en actif les variables correspondants aux performances des


athlètes (les 10 premières variables).
Le choix des variables actives est très important.
Ce sont ces variables, et uniquement ces variables, qui participent à
la construction des axes de,l'A.C.P.
Seules ces variables sont utilisées pour calculer les distances entre
individus.
On peut ajouter en variables supplémentaires les variables
quantitatives nombres de points et classement, ainsi que la variable
qualitative compétition.
Les variables supplémentaires sont très utiles pour aider à interpréter
les axes.
On choisit aussi les individus actifs, i.e. ceux qui participent à la
construction des axes.
Ici, comme fréquemment, tous les individus sont considérés comme
actifs.
Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données
Standardiser ou non les variables

Lors d'une A.C.P. on peut centrer-réduire les variables ou seulement


les centrer.
Pour ce jeu de données, on n'a pas le choix, la réduction est
indispensable car les variables ont des unités diérentes.
Quand les variables ont les mêmes unités, les deux solutions sont
envisageables et impliquent deux analyses diérentes.
La réduction permet d'accorder la même importance à chacune des
variables.
Ne pas réduire donne à chaque variable un poids correspondant à
son écart-type.
Réaliser l'A.C.P. par la fonction PCA package FactoMineR.
Exemple
library(FactoMineR)
res.acp < − PCA(decath,quanti.sup=11 :12,qual.sup=13)

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Standardiser ou non les variables

Exemple
library(FactoMineR)
res.acp < − PCA(decath,quanti.sup=11 :12,qual.sup=13)
Les variables 11 et 12 sont quantitatives supplémentaires et la
variables 12 est qualitative supplémentaire.
Ces variables ne sont pas prises en compte dans la construction des
axes.
Par défaut, les variables sont centrées-réduites (A.C.P normée).
Pour l'A.C.P. on utilise l'argument scale.unit=FALSE.

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Choisir le nombre d'axes

Plusieurs solutions existent pour déterminer le nombre d'axes à


analyser en A.C.P.
La plus courante consiste à représenter le diagramme en barres des
valeurs propres ou des inerties associées à chaque axe.
Exemple
barplot(res.acp$eig[,2],names=paste("Dim",1 :nrow(res.acp$eig)))
barplot(res.acp$eig$per,names=paste("Dim",1 :nrow(res.acp$eig)))
barplot(res.acp$eig$cum, ylab = "Inertie cumulée expliquée (%)", xlab =
"Composante")
abline(h = 80, lty = 1, lwd = 2)
On cherche une décroissance ou une cassure apparente sur le
diagramme.
Le tableau des pourcentages d'inertie expliquée par chaque axe est
donné par la fonction summary.PCA.
Exemple
summary.PCA(res.acp)
Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données
Analyser les résultats

Pour interpréter les résultats d'une A.C.P. l'usage est d'étudier


simultanément les résultats sur les individus et sur les variables.
La fonction PCA fournit par défaut le graphique des variables et
celui des individus pour les deux premières dimensions.
Exemple
plot(res.acp, choix = "ind", habillage = 1)
plot(res.acp, choix = "ind", habillage = 1, axes = c(3,4))
res.acp$var$coord
res.acp$var$cor
res.acp$var$cos2
res.acp$var$contrib

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données


Analyser les résultats

Exemple
res.acp$ind$coord
res.acp$ind$cos2
res.acp$ind$contrib
plot(res.acp, choix = "var")
plot(res.acp, choix = "var", axes = c(3, 4))

Réalisé par : Pr. EN-NAIMANI Zakariae Notes de cours d'analyse de données

Vous aimerez peut-être aussi