Vous êtes sur la page 1sur 39

L’Analyse en Composantes Principales

Cours réalisé par: Pr M. OUDMANE


Email: m.oudmane@encgcasa.ma

Année universitaire: 2022/2023

-Analyse des données- PR M.OUDMANE


Introduction

• L’analyse en composantes principales (ACP) est une méthode classique de l’un des grands champs de la
statistique appelé statistique exploratoire multidimensionnelle

➔Multidimensionnelle s’oppose à unidimensionnelle : on suppose donc que l’on disposera de plusieurs


variables sur les individus concernés.
➔Exploratoire s’oppose à inférentielle. Le but est de faire émerger des liaisons entre les variables et de former
des groupes d’individus se ressemblent

-Analyse des données- PR M.OUDMANE


Type de données
• L’Analyse en Composantes Principales (ACP) s’applique à des tableaux croisant des individus et des variables
quantitatives, appelés de façon concise tableaux Individus × Variables quantitatives.
• Selon un usage bien établi, les lignes du tableau représentent les individus et les colonnes représentent les
variables.
• A l’intersection de la ligne i et de la colonne k se trouve la valeur de la variable k pour l’individu i
Figurer : Tableau de données en ACP

La moyenne de la J
ème variable :

L’écart type de la J
ème variable :

xik : valeur de la variable k pour l’individu i.


I : nombre d’individus et ensemble des individus.
K : nombre de variables et ensemble des variables.
Type de données: Exemple
Exemple: on a recueilli le poids, la taille,
l’âge et la note de 10 élèves de l’école
• Analyse sensorielle: note du descripteur K pour le produit i
• Economie: valeur de l’indicateur k pour le pays i
• Marketing : valeur d’indice satisfaction k pour la marque i
• Evaluation éducatif: note de matière d’ examen ( maths, physique, etc)
pour l’étudiant i
• Enquête: caractéristiques sociodémographiques ( âge, revenu, etc) pour
l’individu i

X27: La taille du 7 -ème élevé soit 1.60

-Analyse des données- PR M.OUDMANE


Objectifs de l’ACP

• Le tableau des données ou encore la matrice X peut être analysée à travers ses lignes (les individus) ou à travers ses
colonnes (les variables).
→Etude des individus:
On cherche alors à répondre à des questions du type suivant :
• quels sont les individus qui se ressemblent ? Quels sont ceux qui diffèrent ?
• Plus généralement, on souhaite décrire la variabilité des individus. Pour cela, on cherche à mettre en évidence des
groupes homogènes d’individus dans le cadre d’une typologie des individus => Analyse de la ressemblance
→Etude des variables:
On cherche a analyser la ressemblance entre les variables => Analyse de liaisons entre variables
• Analyse de liaisons => Coefficient de corrélation
• Résumer l’ensemble des variables par un petit nombre de variables synthétiques appelées composantes
principales=> Indicateur synthétique

-Analyse des données- PR M.OUDMANE


Objectifs de l’ACP

• Ces deux études ne sont pas indépendantes du fait de la dualité inhérente à l’étude d’un tableau rectangulaire : la
structure du tableau peut être analysée à la fois par l’intermédiaire de la typologie des individus et de la
typologie des variables.
• On cherche en général à relier ces deux typologies:
→ On caractérise les classes d’individus par les variables
→On caractérise un groupe de variables liées entre elles par des individus types

En résumé:
• L’ ACP est une méthode de statistiques exploratoires multidimensionnelles qui a pour objet de synthétiser et
hiérarchiser l’information contenue dans un tableau de données multidimensionnelles
→ Elle a donc pour objectifs de trouver des représentations appropriées aux données et de fournir des mesures
permettant de quantifier la proximité entre les individus et la liaison entre les variables

-Analyse des données- PR M.OUDMANE


I. Étude des individus

-Analyse des données- PR M.OUDMANE


Exemple
Etude des individus: Mesure de la ressemblance

• Mesure de ressemblance entre les individus: deux


individus se ressemblent d’autant plus qu’ils possèdent des
valeurs proches pour l’ensemble des variables.

• En ACP, la distance calculée est la distance euclidienne


d(i,l), définie par :

La distance euclidienne entre les individus 4; 5; 6


peut être obtenue comme suit :

-Analyse des données- PR M.OUDMANE


Tableau: Calcul des moyennes, écarts types et
Etude des individus: Le centrage et la réduction variances des variables

Exprimons maintenant la taille en centimètre:

Lorsque la taille est exprimée en mètre l’élève 5 et plus Tableau: Données centrées réduites
proche de l’élève 4 que l’élève 6. Lorsqu’elle est
exprimée en centimètre c’est l’inverse

Pour stabiliser les données ils font recourir au


centrage et la réduction des données • Une ACP faite sur les données centrées réduites
est dite normée.
Etude des individus:
• L’objectif dans ce cas est de visualiser les ressemblances, les différences et/ou de former des groupes d’individus
homogènes

Si K=2 Nuage du points Si K>3

• Si K>3 Les individus ne sont plus représentables dans


l’espace usuel, l’espace n’est pas visualisable => Mais !
on peut le faire à travers une ACP

-Analyse des données- PR M.OUDMANE


Représentation simplifiée du Nuage des individus Ni

• Les propriétés géométriques du nuage induisent que leur visualisation permettrait de répondre aux questions posées :
variabilité des individus (via les distances inter-individus dans NK).
• Le problème est que ces nuages évoluent dans des espaces de dimension supérieure à 3 rendant leur visualisation directe
impossible.
➔ L’idée de l’ACP est de fournir une représentation simplifiée des individus. Autrement dit une image simplifiée de ces
individus dans un espace réduit ( 2 ou 3 dimensions)
➔ Il faut chercher la Meilleure Représentation

Il faut donc séparer les points au maximum


-Analyse des données- PR M.OUDMANE
La qualité de la représentation du nuage Ni

• La Qualité de la représentation du nuage peut être quantifiée à travers la notion de l’Inertie:


➔L’inertie est une mesure de dispersion du nuage des individus par rapport au centre de gravité :

-Si l’inertie est grande, cela signifie que le nuage est très dispersé = La visualisation du nuage est bonne,
plus particulièrement l’information portée par le nuage est bonne

- Si l’inertie est petite, alors le nuage est très concentré sur son centre de gravité.= La visualisation du
nuage n’est pas claire et donc l’information portée par la nuage n’est pas bonne

➔Un objectif de l’ACP sera de décomposer une quantité dérivant de cette somme (l’inertie) en faisant apparaître
des individus ou des groupes d’individus y contribuant de manière particulière.
-On cherchera en particulier à déterminer quelles directions de l’espace y contribuent le plus, autrement-dit, on
cherchera `a savoir dans quelles directions de l’espace les allongements du nuage sont les plus importants.

-Analyse des données- PR M.OUDMANE


Ajustement du nuage des individus Ni : Choix des composantes principales

• L’objectif est de fournir une image approchée du nuage Ni situé dans


l’espace IRk. Il faut donc trouver un sous espace qui résume au mieux les
données
• Pour cela on passe par trois étapes essentielles :
➔1-Trouver une meilleure représentation axiale: Trouver l’axe ou le facteur
( ou la composante principale) qui déforme le moins possible le nuage.
Plus précisément, on cherche la direction de IR de sorte à ce que les distances
entre les points initiaux soient les plus proches possibles de leurs projetés
orthogonaux;

➔2- Trouver le meilleur plan: On cherche P tel que:


le “meilleur” plan contient donc le “meilleur” axe on caractérise P par u1 et par
un second u2 qui est à la fois orthogonal à U1 et dans P U2 U1 et
Maximisant aussi la

➔3- On peut chercher un 3ème axe etc , d’inertie maximum

-Analyse des données- PR M.OUDMANE


Ajustement du nuage des individus Ni : Choix des composantes principales

• Le premier axe principal est l'axe suivant lequel on a la plus grande dispersion du nuage de points (le plus
grand allongement du nuage de points), permettant de distinguer au mieux les points. ➔c'est l'axe qui a la plus
grande variance ou pourcentage d'inertie
➔La variance ou l'inertie d'un axe principal est encore appelée valeur propre➔ La quantité d'information recueillie
par un axe principal

• Le 2ème axe principal, est la 2e direction d'allongement du nuage. C'est celui qui a la plus grande inertie
résiduelle après la première composante. Ainsi de suite jusqu'à remplacer les n axes anciens par m axes
nouveaux.

-Analyse des données- PR M.OUDMANE


Exemple

• Les données ci-après récapitulent les températures moyennes mensuelles relevées dans 15 villes de
France sur ( 30 ans)

-Analyse des données- PR M.OUDMANE


Exemple : Représentations du nuage Ni

-Analyse des données- PR M.OUDMANE


II. Étude des variables

-Analyse des données- PR M.OUDMANE


Etude des variables
• Etudier les variables revient à envisager le tableau en tant que
juxtaposition de colonnes.
• En ACP, la liaison entre deux variables est mesurée par le
coefficient de corrélation linéaire

• Une variable peut être représentée comme un point dans un


espace à I dimensions, noté IRI
• Géométriquement, lorsque les données sont centrées, le cosinus
de l’angle formé par les vecteurs représentant les deux variables h
et k, obtenu en calculant le produit scalaire noté h, k entre ces
deux vecteurs normés, est égal au coefficient de corrélation
entre ces deux variables.

-Analyse des données- PR M.OUDMANE


Etude des variables

-Analyse des données- PR M.OUDMANE


Ajustement du nuage des variables Nk

• La démarche précédente de l’ajustement du nuage Ni s’applique au


nuage Nk représentant les variables
Pour cela on passe par trois étapes essentielles :
➔Trouver une meilleure représentation axiale: il faut trouver l’axe ou
le facteur qui maximise la somme des corrélations entre un facteur et
l’ensemble des variables

V1 est donc la variable synthétique qui résume au mieux les variables

➔Trouver le meilleur plan: On cherche P tel que:


Avec la contrainte V2 V1
➔On peut chercher 3ème axe etc , d’inertie maximum

-Analyse des données- PR M.OUDMANE


Représentations du Nuages des Variables Nk: Cercle des variables

➔En travaillant sur des données centrées et réduites, les points


représentatifs des variables se trouvent tous sur une sphère de
centre 0 et de rayon 1 (dispersion autour de la moyenne).

➔ Si deux variables sont très corrélées positivement ( proche


de 1) , elles sont situées du même côté sur un axe.

➔ Deux variables dont la corrélation est fortement négative


(proche de -1) sont représentées par des points opposés sur la
sphère.
➔ Deux variables non corrélées sont représentées dans des
direction perpendiculaires

-Analyse des données- PR M.OUDMANE


Représentations du Nuages des Variables Nk: Cercle des variables

-Analyse des données- PR M.OUDMANE


Interprétation : variable➔ Individus

➔ Si une variable est corrélée positivement à un axe, les valeurs de cette variable évoluent comme les cordonnées dans cet axe
➔ Si une variable est corrélée négativement à un axe, les valeurs de cette variable évoluent à l’inverse des cordonnées dans cet axe

-Analyse des données- PR M.OUDMANE


Exemple : Interprétation du Nuage des individus Ni grâce aux variables

-Analyse des données- PR M.OUDMANE


Application SPSS

• Une entreprise souhaite se positionner sur le marché avec 10 marques de produits.


Vous disposez d’une base de données qui rassemble l’ensemble des caractéristiques
de chaque produits (le prix, le gout, la légèreté, la disponibilité, l’emballage et l’image).
On vous demande de faire un ACP afin d’accompagner l’entreprise pour se
positionner sur le marché.

-Analyse des données- PR M.OUDMANE


• Menu Analyse ➔Réduction des dimensions ➔Analyse factorielle ➔On choisit par la suite les variables
(numériques) à étudier (variables actives).

-Analyse des données- PR M.OUDMANE


• Dans la boite de dialogue « Descriptives », on sélectionne :

• - Caractéristiques univariées : Donne la moyenne, l’écart type et le nombre d’observations valides pour chaque variable.

• - Structure initiale : Donne les valeurs propres et la part de la variance expliquée par chaque axe (composante) principal.

• - Coefficients de la matrice de corrélation : affiche les corrélations entre les variables étudiées deux à deux.

• - Indice KMO et test de sphéricité de Bartlett : L’indice KMO indique s’il est intéressant d’appliquer une ACP sur les
données, autrement, est ce qu’une ACP permettra de trouver des facteurs (composantes) qui résument efficacement
l’information de départ. Pour répondre à cette question, l’indice KMO calcule les corrélations partielles entre les variables
(qui représentent les corrélations nettes entre les variables deux à deux en éliminant l’influence des autres) . Il est
préférable que le KMO dépasse le seuil de 0,7.

• Le test de Bartlett répond aussi à la même question en adoptant une stratégie différente. Il examine la matrice des
corrélations dans son intégralité et fournit la probabilité de l’hypothèse nulle selon laquelle toutes les corrélations sont de
zéro

-Analyse des données- PR M.OUDMANE


• Ensuite, dans la boite de dialogue « Extraction », on s’intéresse notamment au nombre de facteurs à extraire. Dans
notre cas, on choisit de fixer le nombre de composantes à deux pour obtenir la représentation graphique des
individus et des variables dans le plan. Par contre, on peut choisir de garder les composantes ou les axes dont les
valeurs propres

-Analyse des données- PR M.OUDMANE


• La boite de dialogue suivante : « Rotation » permet de décider la méthode de rotation à utiliser. La
rotation est intéressante dans le cas où les facteurs obtenus (sans rotation) sont difficiles à interpréter.
La méthode la plus utilisée est la rotation Varimax qui minimise le nombre de variables corrélées à
chaque composante. Nous choisissons de travailler pour cet exemple sans rotation. Il ne faut pas
oublier de cocher la case ‘Carte(s) factorielle(s)’ qui permet de visualiser les proximités entre les
variables par rapport aux axes choisi

-Analyse des données- PR M.OUDMANE


• Dans la boite de dialogue « scores », il est nécessaire de cocher les cases : ‘Enregistrer dans des variables’ et
‘Afficher la matrice des coefficients factoriels’. La première option permet d’enregistrer les coordonnées
factorielles des individus comme des nouvelles variables dans le fichier SPSS courant en utilisant la méthode de
régression (méthode par défaut). Cela permettra d’obtenir la représentation graphique de l’univers des individus.

La dernière boite de dialogue « Options » permet surtout de décider le traitement des valeurs manquantes soit
par suppression soit par remplacement. Nous n’avons pas de valeurs manquantes dans notre ensemble de
données, nous décidons donc de laisser les options par défaut.

-Analyse des données- PR M.OUDMANE


Le premier tableau ci-dessous donne les statistiques descriptives de chaque variable et indique l’absence de valeurs
manquantes

-Analyse des données- PR M.OUDMANE


Pour répondre à la question de l’utilité de la factorisation, nous analysons la matrice de corrélation, la
valeur de l’indice KMO et la signification du test de Bartlett. La matrice de corrélation indique qu’il existe
plusieurs variables qui sont corrélées à plus de 50% (0.5), la factorisation est donc conseillée. Cette
conclusion est confirmée par l’indice de KMO (0,714) et le test de Bartlett qui est significatif (signification
<0.05).

-Analyse des données- PR M.OUDMANE


l’« eigenvalue », ou valeurs propres > 1 ou règle de Kaiser-Guttman : une valeur propre représente la quantité
d’informations capturée par un facteur. Un facteur qui aurait une valeur propre inférieure à 1 représenterait moins
d’informations qu’un simple item.
le critère du pourcentage de variance : il s’agit d’une approche par laquelle on observe les pourcentages cumulés de la
variance extraite par les facteurs successifs. L’objectif est de s’assurer qu’un facteur explique une quantité significative de
variance. Il est souvent conseillé d’arrêter l’extraction lorsque 50 % de la variance expliquée est extraite

Nous avons choisi de travailler en deux dimensions. Les deux axes permettront d’expliquer 95,8% de l’information
contenue dans le nuage de points de départ (Tableau ‘Variance totale expliquée’ ci-dessous). Ces deux premiers axes sont
les seuls qui correspondent à des valeurs propres supérieures à 1
-Analyse des données- PR M.OUDMANE
Epuration

• La formation des facteurs repose sur le poids des variables initiales dans l'explication de ces facteurs. Les «
communalités » Une communalité de 0,5 signifie que 50 % de la variance de la variable est prise en compte ou
« expliquée» par les facteurs. Une valeur faible révèle que la variable n'est pas suffisamment corrélé avec les autres.

Le niveau des communalités est considéré comme moyen s'il est compris entre 0,40 et 0,65, bon s'il est compris entre 0,65
à 0,80 et excellent au-delà*. Il est d'usage d'éliminer les items de communalité inférieure à 0,5.

34
Le tableau ‘Qualité de représentation’ donne la part de la variabilité conservée pour chaque variable suite à la
projection sur les deux axes. L ’information initiale est conservée pour toutes les variables puisque les
communalités sont tous élevés ( supérieur à 0,5). Si la qualité de représentation d’une variable est faible
(généralement < 0.5) on peut choisir de l’éliminer de l’analyse

-Analyse des données- PR M.OUDMANE


Epuration

• Même si, en toute rigueur, la rotation n'est pas toujours nécessaire, elle améliore et simplifie dans la quasi- totalité
des cas la solution obtenue. Nous lirons donc en priorité la matrice des composantes après rotation.
Deux critères doivent être considérés:
- Nous envisageons d'éliminer des items dont les coefficients structurels trop faibles ou trop moyens <
0,5)
- Nous envisageons d'éliminer des items moyennement corrélés à plusieurs axes à la fois

36
Le tableau suivant : ‘Matrice des composantes’ mesure la contribution de chaque variable à la formation des
deux axes. Presque toutes les variables contribuent le plus à la formation du premier axe, mis à part la
variable disponibilité qui contribue le plus au deuxième axe. Puisque les deux axes sont indépendants
(Matrice de covariances des composantes), ces coefficients peuvent aussi être interprétés comme coefficients
de corrélation des variables avec les composantes et aussi comme coordonnées des variables dans les
composantes

-Analyse des données- PR M.OUDMANE


Sens des axes
Le sens de chaque axe est donné par la/les variables qui sont bien représentées par
cet axe (loin du centre et proches de l’axe).
Axe 1 : explique oppose la qualité du produit par rapport au prix
Axe 2 : oppose la disponibilité du produit à la non disponibilité
-Analyse des données- PR M.OUDMANE
Le menu Graphes ➔Boites de dialogue ancienne version➔ dispersion/points… permet d’obtenir la
représentation graphique des individus.

Axe 1 : Les produits 1 ; 2 ; 4 ; 5 sont bien représentés sur l’axe 1. Ces marques produits sont donc de meilleure
qualité en termes de gout, de légèreté, de l’image et d’emballage) . Les produits 7 ; 8 ; 10 sont de moyenne
qualité.
Axe 2 : Le produit 6 est disponible sur le marché alors que le produit 9 est très rare sur le marché

Vous aimerez peut-être aussi