Cours ADD - ACP - SUP MTI - P2 - Ouazza

Analyse Des Données
Ouazza Ahmed
École Supérieure de Management, d’Informatique et de

télécommunications
SUP MTI
2022-2023
1 / 53
Plan
1 Introduction
2 Analyse en Composante Principales ACP
3 Analyse Factorielle des Correspondances AFC
4 Méthodes de classification
5 Analyse des Correspondances Multiples ACM
2 / 53
Introduction
• Dans toute étude statistique, la première démarche consiste à décrire et

explorer l’ensemble des données qu’on dispose.
• Dans le cas où des données sont de grande dimension (c-à-d le nombre de
variables ou de caractères est trop élevé), il est difficile de les visualiser. Alors
il est nécessaire d’extraire l’information pertinente contenue dans l’ensemble
des données, les techniques d’analyse des données répondent à ce besoin.
• Par conséquent, on peut définir l’analyse des données comme ensemble de
méthodes descriptives ayant pour objectif de visualiser et résumer
l’information contenue dans un grand tableau de données.
3 / 53
Introduction
Tableau de données: (Individu × Variable)
On suppose qu’on dispose p variables X1 , X2 , ..., Xp observées sur n

individus I1 , I2 , ..., In .
X1 ... Xj ... Xp
I1 x11 ... x1j ... x1p
. . ... . ... .
. . ... . ... .
. . ... . ... .
Ii xi1 ... xij ... xip
. . ... . ... .
. . ... . ... .
. . ... . ... .
In xn1 ... xnj ... xnp
4 / 53
Introduction
La forme matricielle du tableau précédent est donnée comme suit:

 
x11 · · · x1j · · · x1p
 .. .. 
 . . 
 
X = (X1 , ..., Xp ) =  xi1 · · · xij · · · xip 


 .. .. 
 . . 
xn1 · · · xnj · · · xnp
5 / 53
Introduction
Tableau de données: (Variable × Variable)
Dons ce cas, on cherche à croiser deux variables X et Y d’une population en

dénombrant l’effectif correspondant à la conjonction «variable 1» et «variable
2», on parle de tableau de contingence:
X\Y y1 ... yj ... yK
x1 n11 ... n1j ... n1K
. . ... . ... .
. . ... . ... .
. . ... . ... .
xi ni1 ... nij ... niK
. . ... . ... .
. . ... . ... .
. . ... . ... .
xL nL1 ... nLj ... nLK
6 / 53
Analyse en Composante Principales ACP
7 / 53
ACP
• Analyse en composante principale ACP est une technique des statistiques

descriptives destinée à l’analyse des données multidimensionnelles.
• Analyse en composante principale permet d’explorer les liaisons entre
variables et les ressemblances entre individus.
8 / 53
ACP
Objectifs:
• L’ACP permet de réduire la dimension de l’espace des variables avec le
minimum de perte d’information.(c-à-d on passe de X1 , · · · , Xp à F1 , · · · , Fk
avec k << p, généralement k = 2 ou 3)
• Visualiser le positionnement des individus les uns par rapport aux autres
(ressemblance) ⇒ Notion de distance entre individus.
• Visualiser les corrélations entre les variables.
• Donner une interprétation aux facteurs (axes).
9 / 53
ACP
Les données:
Les données pour l’ACP sont généralement présentées sous la forme du
tableau décrit dans les pages 4 et 5:
 
x11 · · · x1j · · · x1p
 .. .. 
 . . 
 
X=  xi1 · · · xij · · · xip 

 .. .. 
 . . 
xn1 · · · xnj · · · xnp
• Les variables X1 , ..., Xp sont supposées quantitatives.

• xij est la valeur de la variable Xj pour l’individu Ii .
• n désigne le nombre d’individus (observations) et p le nombre de variables.
10 / 53
ACP
Exemple du tableau des données pour ACP:
On considère les notes (de 0 à 20) obtenues par n = 9 étudiants dans p = 5

matières,
Etudiant Math Stat Fran Angl Musique
I1 6 6 5 5,5 8
I2 4,5 5 7 7 14
I3 6 7 11 9,5 11
I4 14,5 14,5 15,5 15 5
I5 14 14 12 12,5 6
I6 16 15 5,5 5 7
I7 5,5 7 14 11,5 10
I8 13 12,5 8,5 9,5 12
I9 6 8,5 13,5 13 18
11 / 53
ACP
Poids des individus:
On affecte à chaque individu Ii un poids pi reflétant

Pn son importance par
rapport aux autres individus, avec 0 < pi < 1 et i=1 pi = 1.
Le cas le plus fréquent est de considérer que tous les individus ont la même
importance c-à-d : pi = n1
12 / 53
ACP
Poids des variables:
De la même manière, on peut définir des poids pour les variables, en affectant
à chaque variable Xj un poids mj reflétant son importance par rapport aux
autres.
Le cas le plus fréquent est de considérer que tous les variables ont la même
importance c-à-d : mj = p1
Le vecteur G des moyennes arithmétiques de chaque variable

0
G = (x1 , x2 , ..., xp ) définit le point moyen, ou centre de gravité du nuage.
13 / 53
Notion de ressemblance: Critère de la distance Euclidienne
Définition 0.1
Deux individus se ressemblent s’ils possèdent des valeurs proches pour
l’ensemble des variables.
Donc on parle d’une notion de proximité qui se traduit par une distance.
Ainsi, nous définissons la distance euclidienne entre deux individus Ii et Ij
par :
p
X
d2 (Ii , Ij ) = (xik − xjk )2
k=1
14 / 53
Notion de ressemblance: Critère de la distance Euclidienne
Exemple:

I1 6 6 5 5,5 8
I2 4,5 5 7 7 14
I3 6 7 11 9,5 11
I4 14,5 14,5 15,5 15 5
I5 14 14 12 12,5 6
I6 16 15 5,5 5 7
I7 5,5 7 14 11,5 10
I8 13 12,5 8,5 9,5 12
I9 6 8,5 13,5 13 18
•d2 (I1 , I2 ) = (6 − 4.5)2 + (6 − 5)2 + (5 − 7)2 + (5.5 − 7)2 + (8 − 14)2 = 45.5
•d2 (I6 , I9 ) = (16−6)2 +(15−8.5)2 +(5.5−13.5)2 +(5−13)2 +(7−18)2 = 391.25

15 / 53
Liaison entre les variables:
Définition 0.2
Deux variables sont liées si elles ont un fort coefficient de corrélation linéaire.
Le coefficient de corrélation linéaire entre deux variables Xk et Xj est donné

par :
n
Cov(Xj , Xk ) 1X xij − xj xik − xk
Corr(Xj , Xk ) = =
Sj Sk n Sj Sk
i=1
Exemple:
Corr(M ath, Stat) = 0.982
Corr(M ath, F ran) = 0.019
16 / 53
ACP
Transformation des données (Problèmes des unités de mesure) :
Parfois, les variables contenues dans le tableau X peuvent être exprimées en

différentes unités (cm, kg...)
⇒ Pour neutraliser ce problème des unités on remplace les données d’origine
X1 , ..., Xp par les données centrées-réduites. Ainsi chaque variables
Xj , j = 1, ..., p est remplacée par:
Xj − xj
Xj? =
Sj
avec xj et Sj sont respectivement la moyenne empirique et l’écart-type de la
variable Xj .
17 / 53
ACP
Tableau centré-réduit:
X1? ... Xj? ... Xp?

I1 .
. .
. .
. .
xij −xj
Ii . ... Sj ... .
. .
. .
. .
In .
18 / 53
ACP
Tableau centré-réduit:
. ··· . ··· .
 
.. .. .. 
. . . 
? ?
 xij −xj 
. · · ·
X = (X1 , ..., Xp ) =  Sj ··· .  
. .. .. 
.. . . 
. ··· . ··· .
19 / 53
ACP
Matrice de Covariance:
La matrice de covariance associée au tableau X est donnée par:

 
V ar(X1 ) Cov(X1 , X2 ) · · · Cov(X1 , Xp )
Cov(X1 , X2 ) V ar(X2 ) ··· . 
V =
 
.. .. .. .. 
 . . . . 
Cov(X1 , Xp ) ··· ··· V ar(Xp )
20 / 53
ACP
Matrice de Corrélation:
La matrice de corrélation associée au tableau X est donnée par:

 
1 Cor(X1 , X2 ) · · · Cor(X1 , Xp )
Cor(X1 , X2 ) 1 ··· . 
R=
 
.. .. .. .
.. 
 . . . 
Cor(X1 , Xp ) ··· ··· 1
Remarque:
Si le tableau des données est centré-réduit, alors la matrice de covariance est
égale à matrice de corrélation: V = R
21 / 53
ACP
Inertie totale:
• On appelle inertie la quantité d’information contenue dans un tableau de

données.
• Une inertie nulle signifie que tous les individus sont presque identiques.
• L’inertie mesure la dispersion totale du nuage du points.
• L’inertie est la somme pondérée des carrés des distances des individus au
centre de gravité G.
n
1X 2
IG = d (Ii , G)
n
i=1
22 / 53
ACP
Inertie totale:
L’inertie est aussi égale à la somme des variances des variables étudiées:
p
X p
X
IG = V ar(Xj ) = Sj2 = T race(V )
j=1 j=1
Dans le cas où X est centré-réduit on a:
IG = T race(V ) = p
23 / 53
ACP
Nuages de points:
Dans l’ACP, on peut définir deux types de nuages de points:
1) Nuage des individus NI
2) Nuage des variables Nv
Dans la suite, on suppose que le tableau des données X est centré-réduit.

C-à-d xj = 0 et V ar(Xj ) = 1 pour j = 1, ..., p
24 / 53
ACP
Avant de réaliser une ACP, on doit:

• Tester l’intérêt de l’ACP en vérifiant s’il est possible de compresser
efficacement l’information disponible
• Mesurer le degré de redondance des données
On utilise deux critères:

⇒ Test de sphéricité de Bartlett
⇒ Indice KMO (Kaiser – Mayer – Olkin)
25 / 53
ACP
Test de sphéricité de Bartlett
Le test de sphéricité de Bartlett vérifie l’hypothèse nulle selon laquelle toutes

les corrélations entre Xj et Xk (avec j 6= k) seraient égales à zéro. C-à-d on
cherche a tester l’hypothèse suivante:
H0 : R = matrice identité
⇒ c-à-d les variables sont deux à deux indépendantes
Où R est la matrice de corrélation
Remarque:
◦ Si |R| = 1, les variables sont deux à deux orthogonales ⇒ ACP inutile
◦ Si |R| = 0, il y a une colinéarité parfaite ⇒ Le premier facteur explique
100% de l’inertie totale
26 / 53
ACP
• Statistique de test:

2p + 5
T =− n−1− ln(|R|)
6
p(p−1)
La statistique de test suit une loi du khi-deux χ2 à 2 degrés de liberté.
27 / 53
ACP
• Règle de décision:
Si T ≥ Tc alors on rejette l’hypothèse nulle H0 au seuil α. Sinon on accepte
H0 au seuil α.
avec Tc = χ21−α ( p(p−1)
2 ) est le quantile d’ordre (1 − α) d’une loi de χ2 à
p(p−1)
2 degrés de liberté.
Remarque:
Une deuxième manière de prendre la décision est de comparer
p − value = ”sgnif ication” avec le seuil α:
Si p − value < α alors on rejette H0 , sinon on accepte H0 .
Exemple: (voir SPSS)
28 / 53
ACP
Indice KMO (Kaiser – Mayer – Olkin)
KMO (ou MSA: Measure of sampling adequacy) est un indice d’adéquation

de la solution factorielle, il indique jusqu’à quel point l’ensemble de variables
retenu est un ensemble cohérent.
L’idée de KMO est de confronter la matrice des corrélations brutes avec la
matrice des corrélations partielles.
On considère p variables quantitatives X1 , · · · , Xp : la corrélation entre deux
variables Xj et Xk est influencée par les (p − 2) autres. La corrélation
partielle est utilisée pour mesurer la relation entre deux variables en
retranchant l’influence de (p − 2) autres.
29 / 53
ACP
• Si la corrélation partielle est très faible en valeur absolue (' 0),

c-à-d KMO ' 1, cela veut dire que la liaison est déterminée par les (p − 2)
autres variables: dans ce cas l’ACP peut agir efficacement (réduction efficace
de l’information).
• Si la corrélation partielle est plus élevée en valeur absolue,
c-à-d KMO < < 1, alors on conclut qu’il y a une relation directe entre les deux
variables: dans ce cas, une compression efficace de l’information n’est pas
possible.
30 / 53
ACP
• Corrélation partielle
On peut définir la corrélation partielle à partir de la matrice corrélation
comme suit:
Soit R−1 = (vij ) (i, j ∈ {1, · · · , p}) la matrice inverse de la matrice de
corrélation R = (rij ), alors la matrice de corrélation partielle est Rp = (aij )
(i, j ∈ {1, · · · , p}) tel que:
vij
aij = − √
vii × vjj
31 / 53
ACP
• Indice KMO global

L’indice KMO est définit par la formule suivante:
Pp Pp 2
i=1 j6=i rij
KM O = Pp Pp 2
P p Pp 2
i=1 j6=i rij + i=1 j6=i aij
KM O ∈ [0, 1], généralement une valeur de KMO de:

• moins de 0.5 est inacceptable • 0.7 est moyenne
• 0.5 est misérable • 0.8 est méritoire
• 0.6 est médiocre • 0.9 est merveilleuse
Exemple: (voir SPSS)

32 / 53
Nuage des individus NI
33 / 53
Chaque individu Ii , i ∈ {1, 2, ..., n} est un élément de Rp
Figure 1: Nuage des individus NI dans Rp

34 / 53
Ajustement du nuage des individus sur une droite U1 :
Figure 2: Ajustement du Nuage des individus NI
35 / 53
Ajustement du nuage des individus sur une droite U1 :

Objectif :
On cherche l’axe u1 passant le mieux possible au milieu du nuage NI :
c-à-d on cherche à trouver u1 tel que l’inertie du nuage NI projeté sur u1 soit
maximum ,
n
1X
OHi2
n
i=1
Ce qui revient à minimiser:

n
1X 2
I(NI , u1 ) = d (Ii , Hi )
n
i=1
u1 ⇒ Axe d’inertie maximum.
36 / 53
On a :
d2 (O, Ii ) = d2 (O, Hi ) + d2 (Hi , Ii )
On déduit:
n n n
1X 2 1X 2 1X 2
d (O, Ii ) = d (O, Hi ) + d (Hi , Ii )
n n n
i=1 i=1 i=1
Inertie totale = Inertie expliquée par U1 + Inertie résiduelle

(Maximiser) (Minimiser)
37 / 53
Ajustement du nuage des individus sur un plan P :
Objectif:
Pn 2
Trouver un plan P tel que i=1 OHi soit maximum.
Avec u1 ⊥ u2
P ⇒ Plan d’inertie maximum.
38 / 53
Cas général: Ajustement du nuage des individus sur un éspace FK de
dimension K:
Objectif:
Trouver une suite d’axes {us , s = 1, ..., K} orthogonaux d’inertie maximum.
Avec us est un vecteur unitaire de l’axe de rang s.
Soit His la projection de Ii sur us
Donc on cherche us tel que ni=1 (OHis )2 soit maximum.
P
Avec la contrainte ut ⊥ us pour t < s

Solution:
us est vecteur propre unitaire de la matrice de corrélation R associé à la
valeur propre λs de rang s .
39 / 53
Définition 0.3
Les K axes factoriels {us , s = 1, ..., K} sont appelées les facteurs
principaux.
40 / 53
Exemple:
Pour K = 1 ⇒ Ajustement du nuage sur une droite F1 = U1
Dans ce cas, on a:
• L’axe U1 passe par le centre de gravité G = O du nuage de points NI .
• L’axe U1 est engendré par le vecteur normé u1 , vecteur propre de la matrice
des corrélations R associé à la plus grande valeur propre λ1 .
• L’inertie expliquée par l’axe U1 est égal à λ1 .
λ1
• La part d’inertie expliquée par le premier axe principal U1 est égal à p .
Remarquons que p est aussi égal à la somme des valeurs propes de la matrice
de corrélation R.
41 / 53
Pour K = 2 ⇒ Ajustement du nuage sur un plan F2 = P = (U1 × U2 )
• U1 et U2 forment le même plan P

• U2 perpendiculaire à U1
• Le deuxième axe principal U2 passe par le centre de gravité G = O du
nuage de points et engendré par le vecteur normé u2 , vecteur propre de la
matrice des corrélations R associé à la deuxième plus grande valeur propre
λ2 .
• U2 est centrée, de variance λ2 , et non corrélée avec U1 .
• L’inertie expliquée par l’axe U2 est égal à λ2 .
• L’inertie expliquée par le plan P = (U1 × U2 ) est égal à λ1 + λ2
λ1 +λ2
• La part d’inertie expliquée par le plan P = (U1 × U2 ) est égal à p .
42 / 53
Nuage des variables Nv
43 / 53
Nuage des variables Nv
On peut envisager le problème de la représentation des variables de façon
complètement symétrique de celui des individus.
Ainsi, chaque variable Xj , j ∈ {1, 2, ..., p} est un élément de Rn .
La représentation du nuage Nv des variables se situe dans un espace à n
dimensions, chaque dimension représentant un individu de la population
totale.
Figure 3: Nuage des variables N dans Rn 44 / 53

Représentation simultanée
45 / 53
Choix de nombre d’axe
Le but de l’ACP étant d’obtenir une représentation des individus dans un

espace de dimension plus faible que p, la question se pose d’apprécier la perte
d’information subie et de savoir combien de facteurs à retenir.
Pour choisir le nombre d’axe à retenir, on utilise les critères suivant:
• Critère de Kaisser:
On ne retient que les axes dont l’inertie est supérieur à 1 ( inertie moyenne)
• Critère du coude:
Sur l’éboulis des valeurs propres, on observe un décrochement (coude) suivi
d’une décroissance régulière. On sélectionne les axes avant le décrochement.
• Pourcentage d’inertie:
Le pourcentage d’information expliqué par les axes doit être suffisamment
grand (par exemple supérieur à 60-70%)
46 / 53
Choix de nombre d’axe
Éboulis des valeurs propres:
47 / 53
Qualité de représentation
Qualité de représentation d’un individu Ii par un axe s:
(OHis )2
QLTs (Ii ) = (1)
(OIi )2
Si QLTs (Ii ) est proche de 1, alors l’individu Ii est bien représentée
sur l’axe s.
Si QLTs (Ii ) est proche de 0, alors l’individu Ii est mal représentée
sur l’axe s.
48 / 53
Qualité de représentation
Qualité de représentation d’une variable Xj par un axe s:
(OHjs )2
QLTs (Xj ) = = cor(Xj , vs )2
(OXj )2
Si QLTs (Xj ) est proche de 1, alors la variable Xj est bien représentée sur
l’axe s.
Si QLTs (Xj ) est proche de 0, alors la variable Xj est mal représentée sur
l’axe s.
49 / 53
Interprétation
Dans la suite, on va définir quelques règles pour interpréter les résultats d’une
ACP:
• Pour tout k et l tel que k 6= l, la projection du nuage NI sur le plan principal
engendré (uk , ul ) est appelée carte des individus.
• Pour tout k et l tel que k 6= l, la projection du nuage Nv sur le plan principal
engendré par (vk , vl ) est appelée carte des variables.
• Un individu sera du côté des variables pour lesquelles il a de fortes valeurs,
inversement il sera du côté opposé des variables pour lesquelles il a de faibles
valeurs.
• Plus les valeurs d’un individu sont fortes pour une variable plus il sera
éloigné de l’origine suivant l’axe factoriel décrivant le mieux cette variable.
• Deux individus à une même extrémité d’un axe (c-à-d éloignés de l’origine)
sont proches (se ressemblent).
• Deux variables très corrélées positivement sont du même côté sur un axe.
50 / 53
Exemple

I1 6 6 5 5,5 8
I2 4,5 5 7 7 14
I3 6 7 11 9,5 11
I4 14,5 14,5 15,5 15 5
I5 14 14 12 12,5 6
I6 16 15 5,5 5 7
I7 5,5 7 14 11,5 10
I8 13 12,5 8,5 9,5 12
I9 6 8,5 13,5 13 18
51 / 53
Exemple
Carte des variables:
52 / 53
Exemple
Carte des individus:
53 / 53

Cours ADD - ACP - SUP MTI - P2 - Ouazza

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours ADD - ACP - SUP MTI - P2 - Ouazza

Transféré par

Droits d'auteur :

Formats disponibles

Analyse Des Données

École Supérieure de Management, d’Informatique et de

2 Analyse en Composante Principales ACP

3 Analyse Factorielle des Correspondances AFC

5 Analyse des Correspondances Multiples ACM

• Dans toute étude statistique, la première démarche consiste à décrire et

On suppose qu’on dispose p variables X1 , X2 , ..., Xp observées sur n

La forme matricielle du tableau précédent est donnée comme suit:

Dons ce cas, on cherche à croiser deux variables X et Y d’une population en

• Analyse en composante principale ACP est une technique des statistiques

• Les variables X1 , ..., Xp sont supposées quantitatives.

On considère les notes (de 0 à 20) obtenues par n = 9 étudiants dans p = 5

Poids des individus:

On affecte à chaque individu Ii un poids pi reflétant

Poids des variables:

Le vecteur G des moyennes arithmétiques de chaque variable

Etudiant Math Stat Fran Angl Musique

•d2 (I1 , I2 ) = (6 − 4.5)2 + (6 − 5)2 + (5 − 7)2 + (5.5 − 7)2 + (8 − 14)2 = 45.5

•d2 (I6 , I9 ) = (16−6)2 +(15−8.5)2 +(5.5−13.5)2 +(5−13)2 +(7−18)2 = 391.25

Le coefficient de corrélation linéaire entre deux variables Xk et Xj est donné

Transformation des données (Problèmes des unités de mesure) :

Parfois, les variables contenues dans le tableau X peuvent être exprimées en

X1? ... Xj? ... Xp?

La matrice de covariance associée au tableau X est donnée par:

La matrice de corrélation associée au tableau X est donnée par:

• On appelle inertie la quantité d’information contenue dans un tableau de

Dans le cas où X est centré-réduit on a:

Dans l’ACP, on peut définir deux types de nuages de points:

1) Nuage des individus NI

2) Nuage des variables Nv

Dans la suite, on suppose que le tableau des données X est centré-réduit.

Avant de réaliser une ACP, on doit:

On utilise deux critères:

Test de sphéricité de Bartlett

Le test de sphéricité de Bartlett vérifie l’hypothèse nulle selon laquelle toutes

Test de sphéricité de Bartlett

Test de sphéricité de Bartlett

Indice KMO (Kaiser – Mayer – Olkin)

KMO (ou MSA: Measure of sampling adequacy) est un indice d’adéquation

Indice KMO (Kaiser – Mayer – Olkin)

• Si la corrélation partielle est très faible en valeur absolue (' 0),

Indice KMO (Kaiser – Mayer – Olkin)

Indice KMO (Kaiser – Mayer – Olkin)

• Indice KMO global

KM O ∈ [0, 1], généralement une valeur de KMO de:

Exemple: (voir SPSS)

Figure 1: Nuage des individus NI dans Rp

Ajustement du nuage des individus sur une droite U1 :

Figure 2: Ajustement du Nuage des individus NI

Ajustement du nuage des individus sur une droite U1 :

Ce qui revient à minimiser:

u1 ⇒ Axe d’inertie maximum.

Inertie totale = Inertie expliquée par U1 + Inertie résiduelle

Avec la contrainte ut ⊥ us pour t < s

• U1 et U2 forment le même plan P

Figure 3: Nuage des variables N dans Rn 44 / 53

Le but de l’ACP étant d’obtenir une représentation des individus dans un

Qualité de représentation d’un individu Ii par un axe s:

Qualité de représentation d’une variable Xj par un axe s:

Etudiant Math Stat Fran Angl Musique

Carte des variables:

Vous aimerez peut-être aussi