Vous êtes sur la page 1sur 41

Analyse factorielle

Master management intégré: qualité,


sécurité, environnement
2015/2016

wahiba kalboussi
INTRODUCTION

• L’analyse des données multidimensionnelle ADM


se propose de traiter l’information liée à la
présence conjointement de nombreuses variables
observées sur plusieurs individus.

• Les méthodes d’analyse des données utilisent des


techniques géométriques permettant de mettre
en évidence des groupes d’individus homogènes,
des liens entre individus et variables, des
ressemblances ou des différences entre variables,
etc..

wahiba kalboussi 2
En Marketing,
• les enquêtes d’étude de marchés aboutissent à
des tableaux de données de très grande taille.
• Tirer des conclusions pertinentes à partir de ces
tableaux n’est pas un exercice facile
• Ce sont les méthodes d’analyse factorielle qui
conduisent à une présentation synthétique d’un
grand ensemble de données résultant de l’étude
de plusieurs caractères quantitatifs ou qualitatifs
et en ne retenant que l’essentiel de l’information.
wahiba kalboussi 3
LES MÉTHODES D’ANALYSE FACTORIELLE

– Analyse en composantes principales


– Analyse factorielle de correspondance
– Analyse de correspondances multiples

wahiba kalboussi 4
Le but des méthodes factorielles
Décrire l’information, la résumer à l’aide d’un petit
nombre de dimensions et visualiser les données à partir
des graphiques simples.
Descriptif-exploratoire: visualisation de données
par graphiques simples.
Synthèse: résumé de grands tableaux individus x
variables.  Variables qualitatives
Variables quantitatives
 L’Analyse en Composantes  l’Analyse Factorielle des
Principales (ACP) Correspondances (AFC)
wahiba kalboussi 5
I. Analyse en Composantes Principales
ACP
• OBJECTIFS
– COMPRENDRE LE FONDEMENT DE L’ ACP
– SAVOIR QUEL EST LE PROCESSUS DE CALCUL ET
SES LOGIQUES
– POUVOIR EXPLIQUER UNE CARTE INDIVIDU ET
UNE CARTE VARIABLE

wahiba kalboussi 6
I.Analyse en Composantes Principales
ACP

• On mesure sur un groupe d’individus (de taille


n), un très grand nombre de variables X1, X2,
.... Xp.

• Ces variables sont la plupart du temps


corrélées entre elles d'une part, et elles
expliquent à peu près également, les
variations observées dans les données d'autre
part.

wahiba kalboussi 7
Utilité de l’ACP
• L‘ACP permet d'obtenir de nouvelles variables,
appelées composantes, qui:
– Expliquent les corrélations entre les variables
initiales
– non corrélées, et
– à variance ordonnée .
– Un petit nombre de ces composantes principales
permettra d'expliquer la plus grande partie de la
variation observée.

wahiba kalboussi 8
Analytiquement
• La première composante Y1:
• Y =a1X1+a2X2+...+apXp telle que la variance
1 (ou
inertie) de Y1, soit maximale.

• La deuxième composante Y2:


• Y = b1 X1+b2X2+...+bpXp telle que Y2 possède la variance
2

maximale parmi toutes les combinaisons linéaires qui ne


sont pas corrélées avec Y1.
• .
• .
• .
• Yp=

wahiba kalboussi 9
Analytiquement
• Y=X U
• Var y= Soit maximum

• R: la matrice des corrélations des variables originales.

• ECRITURE MATRICIELLE: RU= λ U


• La solution de l'équation caractéristique: R  I  0
• permet d'obtenir dans un premier temps les racines propres de R :
1  2  ....   p

• et les vecteurs propres correspondants.

• RU1= λ1 U1 U1

• RU2= λ2u2 U2

wahiba kalboussi 10
a) Var (Yi) = i, i = 1 , 2, ..., p, Valeur propre

b) la somme des variances des composantes est égale à la somme des


variances des p variables originales centrées réduites.
p

1 
i 1
i  p

• p : le pourcentage de variation totale (p) expliqué par la première


composante.
1  2
• p
: le pourcentage de variation totale (p) expliqué par les 2
premières composantes.

• etc.

wahiba kalboussi 11
ACP appliquée en Marketing
• Étude de satisfaction
• Segmentation du marché
• Étude de positionnement
• Perception de la publicité
• Étude de lancement d’un produit…….

wahiba kalboussi 12
Pratique de l’ACP

• Pour mener une ACP, il faut au préalable est


en mesure de répondre à trois questions :
• 1. Les données sont-elles factorisables ?
• 2. Combien de facteurs retenir ?
• 3. Comment interpréter les résultats ?

wahiba kalboussi 13
1.Les données sont-elles factorisables ?

• Matrice de corrélation: Si plusieurs variables


sont corrélées (> 0.5), la factorisation est
possible.

• l’indice de KMO (Kaiser-Meyer-Olkin):


doit tendre vers 1.

wahiba kalboussi 14
1.Les données sont-elles factorisables ?
.
• le test de sphéricité de Bartlett
Le test de sphéricité de Bartlett
• la signification (Sig.) :
Si
Tend vers 0.000, c’est très significatif.
inférieur à 0.05 significatif.
entre 0.05 et 0.10 acceptable.
Au dessus de 0.10, on rejette.

wahiba kalboussi 15
2.Combien de facteurs faut-il retenir ?
Règles empiriques :

Règle de Kaiser : on ne doit retenir dans une ACP normée que les
axes (composantes principales) dont la valeur propre
correspondante est supérieure à l'unité i > 1.

Test du coude (Scree test): retenir les facteurs dont la valeur propre
se situe avant la cassure du « coude » (le début de la pente faible).
Cette règle retient souvent moins d’axes que Kaiser.

Restitution minimale d’information : on choisit le nombre d’axe en


fonction de la restitution minimale d’information que l’on souhaite.
Par exemple, on veut que le modèle restitue au moins 80% de
l’information.

wahiba kalboussi 16
3.La signification d’un axe

• On donne un sens à un axe grâce à une recherche


lexicale à partir des coordonnées des variables et
des individus :

• Identifier les variables qui contribuent le plus à


l‘axe, en positif et en négatif, sans contribuer
aussi à d’autres axes.
ou
• donner un sens à l’axe en s’appuyant aux
individus qui ont les coordonnées extrêmes.

wahiba kalboussi 17
3.La signification d’un axe

• Si l’indice KMO est trop faible (< 0,5)


– la matrice des corrélations « anti-image ».
supprimer la variable (diagonale) ayant le KMO le
plus faible.
– la qualité de représentation (c'est-à-dire le % de
variance de la variable extraite par tous les
facteurs retenus) : plus la valeur associée à la ligne
«Extraction » est faible, moins la variable explique
la variance.

wahiba kalboussi 18
4.Interprétation des résultats

• L’objectif: faire une partition de la population en


groupes homogènes et différents les uns des
autres et on essaie de comprendre les sources de
leurs différences.
• Deux graphiques sont générés

le graphique des variables le graphique des


individus.
wahiba kalboussi 19
La carte des variables
Y2
.V5 Plus la variable est proche du cercle
de corrélations (-1;+1), mieux elle
est représentée.
Une variable proche du
centre est mal .V4 .V6 .V1
représentée dans cet
espace. . V2 Y1

.V3 Plus la variable est proche du


facteur, plus elle y contribue

- Si les variables sont toutes du même côté


de l’axe, on parle d’Effet taille.
- S’il existe deux groupes de variables
opposées : on parle d’Effet forme.
wahiba kalboussi 20
CARTE DES INDIVIDUS
Un point est dit bien représenté sur un axe s’il est proche de sa projection sur l’axe.
Y2
ind4
Forte valeur sur V5
Faible valeur sur V3

ind2
ind6 ind8 ind1
Y1
ind3 ind5
Forte valeur sur V4 Individus . Faible valeur sur V4
Faible valeur sur V1 etV2
moyens Forte valeur sur V1 etV2

L’Indicateur utilisé est l’angle formé entre le point et sa projection sur l’axe.

wahiba kalboussi 21
Quelques mises en garde à l’utilisation
d’une ACP:
• La taille de l’échantillon observé n devrait être, selon
M.G. Kendall, n 10 p.
• (avec p : est le nombre de variables initiales)

• Repérer préalablement les données aberrantes ou


manquantes et les éliminer.

• Pour minimiser l’effet des erreurs de mesure dans le


cas d’un échantillon de taille assez importante, faire un
Test-Retest, c'est-à-dire :
• découper l’échantillon et faire deux fois l’analyse
• garder la structure commune observée dans les deux analyses

wahiba kalboussi 22
wahiba kalboussi 23
Sélectionner : Analyse réduction des dimensions analyse
factorielle

wahiba kalboussi 24
Extraction

Sélectionner le type de méthode de


factorisation, conserver « analyse en
composantes principales » et sélectionner
l’option « diagramme des valeurs propres »
appelé également « graphique du coude ».

wahiba kalboussi 25
Descriptive

Sélectionner toutes les variables à factoriser, et


cliquer sur la flèche à droite.

wahiba kalboussi 26
Pour une lecture plus facile des tableaux de
résultats, on peut classer les variables par ordre
d’importance et cocher celles qui n’expliquent
pas les dimensions, pour cela on sélectionne
« options »

wahiba kalboussi 27
Tout d’abord, on
ne demande pas
une rotation des
données. On clique sur option, et on demande la « carte
factorielle » afin de représenter graphiquement les
différentes variables par rapport aux composantes
qui seront extraites et calculées.

wahiba kalboussi 28
Indice KMO et test de Bartlett
Indice de KMO Mesure de précision de l'échantillonnage de Kaiser-Meyer-Olkin. ,715
Khi-deux approximé 3387,249
= 0.715>0.6 Test de sphéricité de Bartlett Ddl 45
Signification de Bartlett ,000
On admet que les
variables sont
factorisables.
Le recours à l’ACP
est justifié

wahiba kalboussi 29
Qualité de représentation
Initial Extraction
chariot 1,000 0.570
allées 1,000 ,759
propreté 1,000 ,503
mobilier 1,000 ,679
ambiance 1,000 ,858
disponibilité 1,000 ,393
conseil 1,000 ,789
sérieux 1,000 ,739
amabilité 1,000 ,766
orientation 1,000 ,668

La qualité de présentation de la variable « ambiance » est de 0.858, cela


veut dire que 85.8% de la variance de la variable est prise en compte par
l’une des dimensions extraites.
Par contre, la variable disponibilité est mal représentée par les deux
dimensions qui sont extraites (0.393).

wahiba kalboussi 30
• La mauvaise représentation de l’item
disponibilité nous conduit à l’enlever
• Une fois cet items est supprimé, une nouvelle
analyse factorielle peut être effectuée.

wahiba kalboussi 31
wahiba kalboussi 32
Composante Valeurs propres initiales Extraction Sommes des
carrés des facteurs retenus
Total % de la % Total % de la %
Variance cumulés Variance cumulés
1 3,339 33,391 33,391 3,339 33,391 33,391
2 2,324 23,240 56,631 2,324 23,240 56,631
3 1,060 10,600 67,231 1,060 10,600 67,231
4 ,965 9,646
5 ,658 6,580 83,456
6 ,550 5,496 88,952
7 ,382 3,818 92,770
8 ,323 3,234 96,004
9 ,210 2,105 98,109
10 ,189 1,891 100,00

Le tableau présente les 3 dimensions qui permettent de résumer l’information.


La première dimension extraite permet d’expliquer 33.391% de la variance du phénomène.
La deuxième dimension explique 23.24% de la variance et la troisième dimension
n’explique que 10.6% de la variance.
Par hypothèse on retient les axes qui ont une variance (λ ) plus grande que celle des
variables initiales c'est-à-dire λ > 1/p (p : est le nombre de variables initiales=10). On
retient donc les trois premiers axes puisque leur
wahiba variance chacun est supérieure à 10%. 33
kalboussi
MATRICE DES COMPOSANTES

1 2 3
conseil ,879 -,115 ,044
sérieux ,846 -,155 -,019
amabilité ,839 -,198 -,150
orientation ,781 -,089 ,223
disponibilité ,613 -,109 ,073
allées ,177 ,839 ,153
mobilier ,291 ,771 ,003
chariots ,165 ,649 -,349
propreté ,117 ,634 -,296
ambiance -,059 ,327 ,865
MATRICE DES COMPOSANTES
Les colonnes correspondent à chacune des dimensions extraites, contiennent des coefficients
de saturation, qui s’interprètent comme les coefficients de corrélation.
La dimension 1 est fortement corrélée avec les variables: conseil ; sérieux et amabilité des
employés.
la dimension 2 avec les allées et le mobilier du point de vente.
wahiba kalboussi 34
la dimension 3 avec les facteurs d’ambiance du point de vente.
Représentation graphique des individus

• Pour tracer le graphique des individus, on recommence l’analyse


factorielle et on clique sur facteurs ensuite sur enregistrer dans des
variable.

Trois variables sont


créées dans l’éditeur
de données qui
donnent les scores
factoriels c’est à dire
les coordonnées de
chaque individu par
rapport aux trois
dimensions retenues
à partir de la matrice
des composantes.
wahiba kalboussi 35
Sélectionner: graphes ;
1.

boite de dialogue ancienne


version ; diagramme de
dispersion ; définir.

wahiba kalboussi 36
wahiba kalboussi 37
Faire glisser la
variable REGR
Factor Score 1 vers
l’axe X et REGR
Factor 2 vers l’axe Y.

Afin d’afficher sur le Cliquer sur


graphique une “afficher le
identification des diagramme
individus, faire glisser avec les
une variable étiquettes”
catégorielle (sexe, .pour les faire
région, nom des apparaitre.
individus..) vers
“étiqueter les
observations par”.

wahiba kalboussi 38
Cliquer deux fois sur
le graphique: une
fenêtre d’édition de
graphiques s’ouvre
Sélectionner la
commande graphique
ligne de référence.

wahiba kalboussi 39
L’origine des axes (0, 0)
correspond à la
moyenne sur
l’échantillon.
La signification des axes
est celle faite au niveau
de la matrice des
composantes. Il convient
de mettre en valeur :
– les groupes d’individus
ayant un comportement
identique.
– les individus isolés. Cliquer Ok pour
– la position relative des échelle X ; Ajouter 0;
individus par rapport aux Ensuite Ok. Répéter
axes. la même opération
pour l’échelle Y.

wahiba kalboussi 40
ACP avec rotation

• Lorsque la matrice des composantes ne permet pas de discerner


clairement quelle variable compose quelle dimension rotation des
axes pour modifier les coordonnées des variables par rapport aux axes et
de faciliter l'interprétation des facteurs.

VARIMAX : c’est le critère qui maximise la corrélation (saturation) avec un axe unique et
réduit la corrélation avec les autres axes. Il est recommandé de l’utiliser lorsque les nombre
de variables initiales n’est pas important.
QUARTIMAX : c’est le critère qui réduit le nombre de facteurs permettant de reconstituer
une variable.
OBLIMIN : supposent que les facteurs sont reliés entre eux.
EQUAMAX : combinaison de Varimax et Quartimax
wahiba kalboussi 41

Vous aimerez peut-être aussi