Cours Analyse de Données - Chapitre 2-3

Analyse de données
Prof. Sokaina EL KHAMLICHI
Ecole des Sciences de l’Information
sel-khamlichi@esi.ac.ma
Chapitre 2
Analyse en Composantes Principales (ACP)
Principe
Dans la littérature, on trouve deux approches différentes de l'ACP :
• Elle peut être présentée comme la représentation des données initiales à

l'aide de nuage de points dans un espace géométrique. L'objectif est alors
de trouver des sous-espaces (droite, plan,...) qui représentent au mieux le
nuage initial.
• Une autre interprétation repose sur la recherche d'un ensemble réduit de

variables non-corrélées, combinaisons linéaires des variables initiales
résumant avec précision les données (approche anglo-saxonne).
Construction des facteurs : principe
• On cherche des combinaisons linéaires des p variables X1, X2,…,Xp telles que :
• la première aura la plus grande variance possible ;
• la seconde ne sera pas corrélée avec la première et aura la plus grande variance
possible parmi celles qui restent ;
• la troisième ne sera corrélée ni avec la première, ni avec la seconde et aura la

plus grande variance possible parmi celles qui restent.
• Etc. Jusqu'à un maximum de p combinaisons linéaires

Construction des facteurs : formulation
mathématique
• Supposons que l'ACP sera appliquée sur p variables quantitatives
X1,X2,…,Xp dont les données quantitatives disponibles peuvent être
représentée par la matrice (n×p)
• Le barycentre du nuage des n points représentant les n individus en

fonction des p variables X1,X2,…,Xp est donné par :
1 𝑛
avec = σ𝑖=1 𝑥𝑖𝑗
𝑛
mathématique
La matrice des covariances, des variables (X1,X2,…,Xp), est donnée par :
Construction des facteurs : formulation mathématique
• L'objectif est d'ajuster le nuage des n individus par un sous-espace dont le choix
s'effectue de façon à obtenir sur un graphique une représentation visuelle la plus
fidèle possible des proximités qui existent entre les n individus vis-à-vis des p
variables (X1,X2,…,Xp).
1
• Lorsque les n individus sont affectés de poids identiques , l'inertie relative au
𝑛
nuage des n individus est définie par la trace de la matrice des covariances Ω .
• Chercher le sous-espace permettant de déformer le moins possible les distances
en projection entre les individus, revient à trouver le sous-espace où la projection
de la trace de la matrice des covariances Ω est maximale.
• La projection de l'inertie relative au nuage des n individus dans un sous espace
est donnée par : u’Ωu
où u est un vecteur de ce sous-espace.
mathématique
• Le problème se réduit donc à maximiser la forme quadratique u’Ωu sous la
contrainte u’u = 1
• La recherche du maximum implique l'annulation des dérivées du Lagrangien :
L= u’Ωu + λ (u’u - 1)
D’où en déduit la relation
Ωu =λu
• Par conséquent, le sous-espace recherché correspond à celui engendré par les
vecteurs propres de la matrice Ω, appelés les axes principaux de ce sous-espace.
mathématique
• On arrive donc à la définition complète de la méthode de l'analyse en composantes
principales. La combinaison linéaire des p variables (X1,X2,…,Xp) qui maximise la
variabilité du nuage des n individus est donnée par Xv1 où v1 est le vecteur propre
associé à la plus grande valeur propre λ1 de la matrice Ω.
• La variabilité associée représente ainsi la proportion λ1 de la variabilité totale.
• Cette valeur est une mesure de la capacité de l'axe Xv1 à expliquer l'inertie totale.
• Le vecteur v1 est le premier axe principal des données.

Autre méthode pour déterminer les axes factoriels
• L'information projetée sur un sous espace orthonormé contenue dans les p variables
(X1,X2,…,Xp) peut être représentée par l'Inertie définie :
I = var(X1) + … + var(Xp)
• Ainsi, pour construire les axes factoriels, on peut utiliser la matrice variances-covariances
définie par :
vu que l'inertie correspond à la trace de Ω, on a I = trace(Ω).

Rappel
Soit A une matrice p × p. La trace de A vérifie :
trace(A) = λ1 + … + λj+ … + λp
où λ1 ,… , λp
sont les valeurs propres de la matrice A.
• Ainsi
I = trace(Ω) = λ1 + … + λj + … + λp
• et les axes factoriels sont les vecteurs propres de la matrice Ω associés
aux valeurs propres λ1 ,… , λp
Construction des facteurs
Les questions auxquelles l'analyse factorielle permet de répondre sont:
• Combien de facteurs sont nécessaires pour donner une représentation juste et

parcimonieuse des données
• Quelle est la nature de ces facteurs, comment peut-on les interpréter
• Quelle proportion de la variance des données peut être expliquée par un certain
nombre de dimensions majeures
• La structure factorielle est-elle la même pour divers groupes ?

Remarques
➢ Les coefficients des vecteurs propres s’appliquent aux variables centrées dans le cas
d’une ACP sur la matrice des variances-covariances et aux variables centrées et
réduites dans le cas d’une ACP sur la matrice des corrélations.
➢ Pour un axe donné, les variables qui ont les plus forts coefficients (en valeur absolue)
sont celles qui contribuent le plus à la formation de cet axe.
➢ En pratique, on s’intéresse rarement aux vecteurs propres. Pour interpréter les axes, on
regarde surtout les corrélations entre les variables et les axes.
Rappel
Le coefficient de correlation est une mesure entre 2 variables Xi et Xj, il est calculé comme suit:
Il est à noter que:
La matrice de corrélation d'un ensemble de variables

est définie comme suit:
Rappel
Le coefficient de corrélation est compris entre −1 et 1, c'est-à-dire
Si , alors il y a une corrélation négative parfaite entre les variables Xi et Xj
Si , alors il y a une corrélation positive parfaite entre les variables Xi et Xj
Si , alors il n’y a pas de corrélation entre les variables Xi et Xj

Construction des facteurs
• L’ACP est donc basée sur la décomposition en éléments propres de la matrice de
variances-covariances Ω ou de la matrice de corrélation R.
• Les valeurs propres (λ1 ,… , λp) sont calculé comme suit:
det(Ω- λIp)=0
où la matrice identité Ip est définie comme suit :
Pour chaque valeur propre λi, le vecteur propre vi est calculé comme suit :
Ωvi = λivi
Les étapes de la mise en œuvre de l'ACP
• Nous pouvons appliquer l’ACP comme suit :
• Étape 1: prendre p variables (X1, X2, … , Xp)
• Étape 2: retrancher la moyenne des données d’origine (la moyenne des données centrées
est égale à 0)
• Étape 3: calculer la matrice de variances-covariances (ou matrice de corrélation).
• Étape 4: Calculer les valeurs propres et les vecteurs propres unitaires de la matrice de
variances-covariances (ou matrice de corrélation).
• Étape 5: Construire la matrice de vecteurs propres, en triant les vecteurs propres par valeur
propre, de la plus grande valeur propre à la plus petite, plaçant ainsi les composantes par
ordre d'importance
• Étape 6: Déterminer le nouvel ensemble de données. Le nouvel ensemble de données est
calculé en multipliant l'ensemble de données centrées (étape 2) par matrice de vecteurs
propres(étape 5).
Les étapes de la mise en œuvre de l'ACP
Les composantes principals sont:
• Non corrélées
• Ordonnées de manière de sorte que le premier axe principal ait la

variance (valeur propre) la plus élevée, suivi du deuxième axe
principal qui a la deuxième variance (valeur propre) la plus élevée, et
ainsi de suite jusqu'au dernier (𝑝ème) axe principal qui a la variance
(valeur propre) la plus faible .
Evaluation de l'ACP : étude des corrélations entre
variables
• L'ACP permet de bien réduire la dimension de travail lorsqu'il existe des corrélations
entre les variables utilisées dans l'analyse.
• L'étude de l'existence des corrélations entre les variables se fait en se basant sur des
critères appliqués à:
1- La matrice des corrélations entre les variables de l'analyse.

➔Quand les variables sont fortement corrélées alors il est pertinent de chercher à
synthétiser l'information en réduisant le nombre de variables en quelque facteurs deux à
deux non corrélés.
2- La matrice des corrélations partielles (la matrice anti-image).

➔ Les corrélations partielles donnent une idée de la force intrinsèque qui relie deux
variables en supprimant les effets linéaires induits par les autres variables. Des coefficients
de corrélations partielles proches de zéro implique la présence d'inter-relations transitant
par toutes les variables de l'analyse.
Evaluation de l'ACP : étude des corrélations entre
variables
Les principales critères adoptés pour évaluer la corrélation entre les variables utilisées dans
l'ACP sont les suivant :
1. Le coefficient KMO (Kaiser Meyer Olkin) :
avec rij sont les corrélations totales et aij sont les corrélations partielles.
➔Ce critère nous permet de poursuivre l'ACP si le coefficient KMO est proche de 1, i.e.
lorsque les corrélations partielles sont faibles.
➔En effet, en ACP, on souhaite que les corrélations soient expliquées par d'autres variables
que celles concernées. Il ne serait pas intéressant d'étudier des variables uniquement
corrélées deux à deux.
Evaluation de l'ACP : étude des corrélations entre variables
2. Le test de sphéricité de Bartlett :
• Ce test permet de tester l'hypothèse nulle selon laquelle la matrice des
corrélations R est égale à la matrice identité.
H0: R= matrice identité vs H1 : R = matrice identité
En d'autres termes, on cherche à savoir si les variables sont corrélées entre elles. La
sphéricité implique un nuage de points qui se dilate dans tous les sens. Les points
sont alors représentés par une sphère.
• La statistique de décision relative est donnée par :

Evaluation de l'ACP : étude des corrélations entre variables
3. Mesure de précision d'échantillonnage : MPE
Pour chaque variable on peut calculer
• Ce coefficient est appelé "la mesure de précision d'échantillonnage (MPE)"

• L'interprétation de ce coefficient est la suivante :
la valeur de ce coefficient est proche de 1, plus la variable correspondante
contribue fortement à la construction des facteurs.
Extraction des facteurs : nombre de facteurs requis ?
• Il existe plusieurs techniques d'extractions de facteurs, la plus utilisée étant l'analyse en
composantes principales. Cette méthode détermine les facteurs principaux en
constituant des combinaisons linéaires non corrélées deux à deux des variables
initiales.
• La matrice Ω ne peut avoir au maximum que p valeurs propres non nulles. On peut
donc conclure que les sous espace, qui préservent au mieux la variabilité du nuage des
n points est ceux engendré par les vecteurs propres de la matrice .
• les axes factoriels sont donc donnés par :
F1 = vj1X1 + vj2X2 + + vjpXp j = 1,…,p
où vj = (vj1, vj2,…, vjp)’ est le vecteur propre normalisé associé à la valeur propre λj de la
matrice de covariance .
• La variabilité expliquée par l'axe factoriel Fj est égale à λj .
• Ainsi, l'ACP se base sur une transformation linéaire des données afin d'obtenir si
possible un ensemble plus petit de nouvelles variables (nouvelles données) sans trop
perdre d'information (80% ou 90%).
• Pour des raisons statistiques on choisit de travailler avec la matrice des covariances des
variables X1,X2,…,Xp. Mais comme il s'agit de donner une définition aux composantes
principales il faut que les échelles de mesures des variables X1,X2,…,Xp soient
compatibles.
• En effet, si X1 est mesurée en année, X2 en kg et X3 en Km, il est difficile de donner une
définition à α1X1 + α2X2 +α3X3. Il faut donc travailler avec des données standardisées,
i.e. travailler avec la matrice R des corrélations.
• Il est possible d'extraire autant d'axes factoriels que de variables de départ.
Cependant, pour déterminer les axes factoriels à extraire permettant de réduire la
dimension de travail avec le moins possible de perte d'informations contenues dans
les données, on se base généralement sur les deux règles suivantes :
1- Dans le cas des données standardisées, les axes factoriels à extraire sont ceux qui
correspondent aux valeurs propres dont la valeur est supérieure ou égale à 1.
2- Le pouvoir explicatif des axes factoriels extraits doit être proche de l'Inertie initial du
nuage (80% ou 90%).
• On admet généralement que s'il n'est pas possible de réduire la dimension de travail
à moins de 3 ou 4 composantes principales, alors l'ACP est inutile.
Exemple
Extraction des facteurs : Qualité de représentation des variables
• Lors de la réalisation d'une ACP, il est important de savoir comment les variables sont
expliquées par les axes factoriels retenus. La qualité de représentation des variables peut
être mesurée en utilisant les coordonnées de ces variables dans l'espace engendré par
les axes factoriels.
• Soient cj1, . . . , cjl les coordonnées d'une variable Xj sur les axes factoriels retenus
v1 ,… , vl. La qualité de représentation de la variable Xj est donnée par :
• On note que, dans le cas des données standardisées, la corrélation entre une variable Xj
et un axe factoriel vl est donnée par :
r (Xj , vl ) = c jl
Extraction des facteurs : Qualité de représentation des
variables
• L'inertie du nuage de points est décomposée en la projetant sur des directions
orthogonales. Nous rappelons que nous cherchons toujours à expliquer une
variance totale et que chaque valeur propre contribue à expliquer un certain
pourcentage.
• La qualité de représentation peut être aussi représenté par le pourcentage de

variance expliquée par les axes des facteurs :
Extraction des facteurs : Qualité de représentation des
variables
Interprétation des axes factoriels
• L'interprétation des axes factoriels se fait en se basant sur les corrélations existants
entre ces axes et les variables utilisées dans l'analyse.
• Ainsi, un axe factoriel est défini par les variables d'analyse qui lui sont les plus
corrélées.
• Pour retrouver les variables les plus corrélées à un axe factoriel, on peut utiliser les
coordonnées de ces variables sur l'axe en question puisque ces coordonnées
s'interprètent comme des corrélations.
Exemple
• A partir des coordonnées des variables sur les axes factoriels, on peut
retrouver également la décomposition des valeurs propres.
• Dans l'exemple suivant, la première valeur propre est égale à
λ1 = 4, 470 et on a aussi
λ1= 0,8502 + 0,6302 + 0,7422 + 0,2002 + 0,9542 + 0,8682 +0,9262 + 0,4902
• Il est possible de calculer les contributions de chaque variable à
l'inertie de chaque axe factoriel en divisant par le carré de ces
coordonnées par chaque valeur propre.
• Par exemple, pour λ1 = 4, 470 nous avons :
Interprétation des axes factoriels: Rotation des facteurs
• Une des difficultés des méthodes factorielles est l'interprétation des axes.
• En effet, il arrive souvent qu'il y a de nombreuses variables avec des

corrélations moyennes sur plusieurs axes factoriels ce qui rend
l'interprétation de ces axes laborieuse.
• Le rôle des méthodes de rotation est justement de rendre les valeurs de

ces corrélations plus tranchées en faisant pivoter les axes. De fait, leur
lecture en sera facilitée.
Interprétation des axes factoriels: Rotation des facteurs
Il existe plusieurs techniques de Rotation :
1- La méthode VARIMAX s'applique lorsque la plupart des variables sont
représentées sur un seul axe. Elle minimise le nombre de variables qui ont des
corrélations importantes avec un facteur.
2- La méthode QUARTIMAX s'utilise lorsqu'une variable est fortement corrélée à
plusieurs axes à la fois. C'est une méthode de rotation qui minimise le nombre de
facteurs requis pour expliquer une variable.
3- La méthode EQUAMAX est une combinaison des deux méthodes précédentes. Il
s'agit d'une méthode de rotation, qui minimise à la fois le nombre de variables qui
pèsent fortement sur un facteur et le nombre de facteurs requis pour expliquer une
variable.
4- La méthode OBLIMIN permet d'effectuer des rotations obliques sur les axes
factoriels. Elle permet de mettre en évidence des phénomènes qui déterminent
des directions d'allongement non orthogonales des nuages de points
Les étapes de la mise en œuvre de l'ACP sous SPSS
Les étapes de la mise en oeuvre de l'ACP sous SPSS
Etape 1 : Examen de la matrice des corrélation
∗mettre en évidence les relations entre les variables ;
∗évaluation des propriétés du modèle factoriel ;
∗décider du traitement des valeurs manquantes.
Etape 2 : Extraction des facteurs

∗déterminer le nombre de facteurs requis ;
∗choix de la méthode d'extraction des facteurs.
Etape 3 : Transformation par rotation des facteurs

∗rendre les facteurs plus interprétables.
Etape 4 : Calcul des scores
∗calcul des coefficients associés à chaque facteur pour servir à d'autres analyses.
Mise en œuvre de l’ACP sous SPSS
Mise en œuvre de l’ACP sous SPSS
Représentation graphique des individus
Représentation graphique des individus

Cours Analyse de Données - Chapitre 2-3

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours Analyse de Données - Chapitre 2-3

Transféré par

Droits d'auteur :

Formats disponibles

Analyse de données

Prof. Sokaina EL KHAMLICHI

Ecole des Sciences de l’Information

• Elle peut être présentée comme la représentation des données initiales à

• Une autre interprétation repose sur la recherche d'un ensemble réduit de

• la première aura la plus grande variance possible ;

• la troisième ne sera corrélée ni avec la première, ni avec la seconde et aura la

• Etc. Jusqu'à un maximum de p combinaisons linéaires

• Le barycentre du nuage des n points représentant les n individus en

• La variabilité associée représente ainsi la proportion λ1 de la variabilité totale.

• Le vecteur v1 est le premier axe principal des données.

vu que l'inertie correspond à la trace de Ω, on a I = trace(Ω).

• Combien de facteurs sont nécessaires pour donner une représentation juste et

• Quelle est la nature de ces facteurs, comment peut-on les interpréter

• La structure factorielle est-elle la même pour divers groupes ?

Il est à noter que:

La matrice de corrélation d'un ensemble de variables

Le coefficient de corrélation est compris entre −1 et 1, c'est-à-dire

Si , alors il y a une corrélation négative parfaite entre les variables Xi et Xj

Si , alors il y a une corrélation positive parfaite entre les variables Xi et Xj

Si , alors il n’y a pas de corrélation entre les variables Xi et Xj

où la matrice identité Ip est définie comme suit :

Les composantes principals sont:

• Ordonnées de manière de sorte que le premier axe principal ait la

1- La matrice des corrélations entre les variables de l'analyse.

2- La matrice des corrélations partielles (la matrice anti-image).

H0: R= matrice identité vs H1 : R = matrice identité

• La statistique de décision relative est donnée par :

• Ce coefficient est appelé "la mesure de précision d'échantillonnage (MPE)"

• La qualité de représentation peut être aussi représenté par le pourcentage de

• En effet, il arrive souvent qu'il y a de nombreuses variables avec des

• Le rôle des méthodes de rotation est justement de rendre les valeurs de

Etape 2 : Extraction des facteurs

Etape 3 : Transformation par rotation des facteurs

Vous aimerez peut-être aussi