Vous êtes sur la page 1sur 10

Méthodes de l’analyse factorielle exploratoire

Les méthodes factorielles sont les méthodes les plus utilisées en analyse des données. Elles
varient suivant la forme des données mais utilisent toutes les mêmes bases mathématiques. Il
faut les distinguer des méthodes regroupées sous le terme «factor analysis» par les anglo-
saxons qui sont des méthodes de statistiques inférentielles s’appuyant sur des modèles
statistiques. Les principales méthodes factorielles sont les suivantes :

–L’analyse en composantes principales (ACP) pour les tableaux de variables quantitatives.

–L’analyse factorielle des correspondances (AFC) pour les tableaux de contingence.

–L’analyse des correspondances multiples (ACM) pour les tableaux de variables qualitatives.

La méthode la plus utilisée dans les recherches en sciences de gestion est l’ACP. Les premiers
développements de cette méthode remonte Pearson (1900) qui a traité le cas de 2 variables
Hotelling (1933)1 l’a étendue à un nombre quelconque de variables.

Les objectifs de l’analyse factorielle exploratoire en composantes principales sont les suivants
d’abord identifier un ensemble de dimension latente à partir d’un ensemble plus grand de
variables initiales. Il s’agit de découvrir une structure sous-jacente, ensuite, réduire le nombre
de variables en un ensemble plus restreint sans déformer l’information et en fin mettre au
point un indice caractérisant un groupe (Jolibert et Jourdan, 2006).

Nous pouvons affirmer que l’analyse factorielle en composante principale, technique de


l’analyse multidimensionnelle des données, est descriptive. Elle consiste à réduire la structure
des données initiales à partir d’une combinaison linéaire des variables d’origine. Il s’agit
d’une analyse exploratoire, qui permet, au niveau d’une échelle de mesure, de pressentir les
items les plus aptes à mesurer le construit et la structure de celui-ci. En d’autres termes, elle
consiste à réduire l’information contenue en n facteur à un nombre réduit de facteur sans pour
autant déformer l’information. Plus clairement, deux principaux objectifs sont assignés à cette
analyse :

1
Cité par GRENIER F. (2002), "Analyse statistique multidimensionnelle appliquée aux collisions d’ions lourds
et légers aux énergies intermédiaires", Mémoire pour l’obtention du grade de Maître ès Sciences, Université
Laval, Janvier

1
a. D’un point de vue empirique : l’analyse factorielle correspond à une démarche
purement statistique de structuration des données. Elle consiste à résumer
l’information contenue dans un tableau de chiffres individus / variables en remplaçant
les variables initiales par un nombre plus petit de variables composites ou de facteurs.

b. D’un point de vue théorique : elle correspond à une démarche psychométrique de


mesure des concepts non observables. Il s’agit de passer des mesures (obtenues par
enquêtes ou par observations) à des concepts théoriques ne pouvant être mesurés
directement. Les variables sont alors considérées comme des combinaisons d’un
certain nombre de facteurs communs sous-jacents non observables appelées variables
latentes. Ce point de vue théorique peut être considéré selon que l’on se situe dans une
démarche de type exploratoire qui a pour objet d’identifier les facteurs à partir des
variables observables ou de type confirmatoire qui vise à s’assurer que les données
recueillies vérifient une structure définie à priori en fonction des hypothèses
théoriques ou a partir des résultats d’études antérieures.

Démarche et conditions de réalisation d’une ACP

L’analyse exploratoire des modèles de mesure repose sur une série d’analyse : l’étude de
l’adéquation des données à l’analyse factorielle, le choix des méthodes d’analyse et
d’extraction, le choix du nombre de facteurs à extraire, le choix de la rotation à appliquer aux
facteurs et l’épuration et interprétation des facteurs.

Matrice de covariance ou de corrélation

Les variables à retenir pour une analyse factorielle doivent avoir été mesurées sur des échelles
d’intervalle ou de rapport. Il est souhaitable d’avoir 3 à 5 fois plus de variables que de
facteurs (Jolibert et Jourdan, 20062). Si les variables ont été mesurées sur des échelles
comparables (par exemple, notations sur des échelles qui comprennent le même nombre
d’échelons), les différences de variance d’une variable à l’autre peuvent être considérées
comme « normales ». Dans ce cas, on peut utiliser la matrice de covariance ou la matrice de
corrélation (Evrard et al, 2000). En revanche, si les variables sont mesurées suivant des
formats de réponse très différents, il est recommandé de les standardiser, c’est-à-dire de les
centrer et de les réduire pour neutraliser l’effet de la différence. L’indice de proximité entre
les variables sera alors le coefficient de corrélation ; la variance de chaque variable est alors
égale à l’unité. Dans ce cas, on utilisera la matrice des corrélations uniquement (Evrard et al,

2
Op. cit.

2
2000). Avec une matrice de corrélation, la variance des variables à faible écart type a autant
d’importance que la variance des variables à fort écart-type. Dans notre cas, nous avons opté
pour une échelle d’intervalle à cinq échelons pour toutes les variables.

Test de KMO et le test de Bartellet

Avant de réaliser une analyse factorielle, il est logique de se demander si les données sont
adéquates à ce type d’analyse. Pour ce faire, Stewart 3 recommande deux tests : le test de
sphéricité de Bartlett et le test de Kaiser, Meyer et Olkin communément appelé test KMO qui
mesure l’adéquation de l’échantillon avec l’ensemble des variables (Evrard et al., 20004).

Le test de Bartlett est un test d’hypothèse que la matrice de corrélation émane d’une
population dont les variables sont indépendantes. En d’autres termes, ce test est « utilisé pour
vérifier l'hypothèse nulle que les variables ne sont pas corrélées dans la population ».

Le test KMO varie entre 0 et 1. il permet de « quantifier le degré de corrélations entre les
items. La valeur 1 indique que chaque variable est expliquée sans erreur par les autres
variables » (Hair et al., 19985), Il est considéré comme inacceptable en dessous du seuil de
0.5, et doit être de préférence supérieur à 0.8 voire 0.9 (Jolibert et Jourdan, 20116).

Après avoir vérifié les résultats des tests de Barlett et KMO, une question qui se pose au
chercheur est celle de la nécessité ou non de réaliser une ACP avec une rotation sur les
données collectées. La rotation repose sur le principe d’augmentation artificielle des
corrélations entre les items et les différents facteurs. Avant de procéder à la suppression des
items mal représentés, des rotations seront menées afin d’augmenter la valeur des coefficients
de corrélation de certains items avec les nouveaux axes et ainsi améliorer la lisibilité des axes
(Evrard et al, 20007). Dans une rotation, l’information restituée par l’espace factoriel reste
constante (variance totale expliquée) mais l’information restituée par chaque axe est modifiée
(variance expliquée par chaque axe) et doit être recalculée. Une rotation peut être orthogonale
ou oblique. Il existe deux grandes méthodes de rotation8.

Méthodes de rotation orthogonale


3
Stewart D.W (1981), "The Application and Misapplication of Factor Analysis
in Marketing Research", Journal of Marketing Research, vol. 18, n°1, pp 51-62
4
Evrard Y., Pras B. et Roux E. (2000), Market, études et recherches en marketing, 3ème édition, Nathan, Paris
5
Hair J. F., Anderson R. E., Tatham R. L. et Black W. C. (1998), Multivariate data analysis, 5ème édition,
Englewood Cliffs, Prentice-Hall.
6
Jolibert A. et Jordan P. (2011), Marketing Research - Méthodes de recherche et d'études en marketing, Dunod 
7
Op. cit.
8
Kacha M. (2009), la couleur, variable d’action marketing, Faculté de Droit, Sciences économiques et Gestion,
Ecole Doctorale des Sciences Juridiques, Politiques, Economiques et Gestion, Institut d’Administration des
Entreprises, Nancy 2

3
Méthode varimax : méthode de rotation orthogonale qui minimise le nombre de variables
ayant de fortes corrélations sur chaque facteur. Elle simplifie l'interprétation des facteurs. La
rotation Varimax vise à optimiser les saturations ou loadings dans chaque composante en
maximisant les écarts entre saturations. L’objectif est d’obtenir au final des saturations
proches de 1 ou de 0 ; plus une saturation est proche de 0, plus faible est son lien avec le
facteur. Cette rotation est la plus utilisée car le problème le plus fréquemment rencontré en
analyse factorielle est de simplifier et de clarifier la signification de chaque facteur.

Méthode quartimax : méthode de rotation qui réduit le nombre de facteurs requis pour
expliquer chaque variable. Chaque variable est fortement corrélée avec un seul facteur et le
moins corrélée possible avec tous les autres facteurs. L’inconvénient est que plusieurs
variables peuvent être fortement corrélées avec le même facteur. La rotation quartimax a pour
objectif de maximiser les écarts entre saturations par variable. Elle peut donc se traduire par
une accumulation de saturations importantes sur un même facteur, ce qui est peu recherché.
Elle vise à réduire le nombre de facteurs expliquant chaque variable.

Méthode equamax : méthode de rotation qui est une combinaison de la méthode Varimax
(qui simplifie les facteurs) et de la méthode Quartimax (qui simplifie les variables). Le
nombre de variables pesant sur un facteur et le nombre de facteurs nécessaires pour expliquer
une variable sont minimisés La rotation Equimax est très peu utilisée car elle donne des
résultats peu probants.

Méthodes de rotation oblique

Une rotation oblique est recommandée lorsque rien n’indique a priori que les composantes
doivent être indépendantes les unes des autres (option la plus réaliste), ou lorsque l’on
souhaite aboutir à une modélisation théorique. Cette rotation est impérative lorsque le
chercheur souhaite faire des analyses factorielles d’ordre supérieur.

- Rotation oblimin direct

- Rotation Promax : rotation oblique qui permet aux facteurs d'être corrélés. Elle peut être
calculée plus rapidement qu'une rotation oblimin directe, aussi est-elle utile pour les vastes
ensembles de données.

La rotation oblique présente l’inconvénient d’être parfois délicate à interpréter, mais elle a
l’avantage de pouvoir mieux rendre compte de certaines situations (par exemple, le cas de
plusieurs facteurs, distincts mais reliés à un même concept. Lorsque les corrélations entre les
facteurs sont élevées, l’interprétation avec une rotation oblique s’avère difficile, c’est la raison

4
pour laquelle les techniques de rotation oblique ne sont pas très populaires. Si le chercheur
postule l’existence de plusieurs dimensions ou facettes au sein d’un même concept, il suppose
implicitement que celles-ci sont corrélées entre elles. Dans ce cas, la rotation oblique est celle
qu’il faut adopter.

Qualité de représentation des items

La qualité de la représentation des items correspond à la mesure du pourcentage de la variance


expliquée par chacune des variables de l’analyse. Il s’agit de vérifier que les items contribuent
bien à l’explication de la variance. Autrement dit, l’analyse de la qualité de la représentation
permet de définir si les items sont bien représentés par la ou les dimensions du construit. Cette
qualité est mesurée par un indice appelé communauté ou Loading. Les items dont la
communauté est inférieure à 0.5 seraient candidats à l’élimination en adoptant une démarche
itérative d’épuration en commençant par les items dont la communauté est la plus faible. Par
ailleurs, nous soulignons que Hair et al (1998)9 précisent que le choix de ce seuil est fonction
de la taille de l’échantillon et du seuil de signification souhaité.

Tableau 6.2 - Qualité de représentation des items à 5%

Taille de 50 60 70 85 100 120 150 200 250 350


l’échantillon
Seuil de 0,75 0,7 0,65 0,6 0,55 0,5 0,45 0,4 0,35 0,30
signification
Hair et al, 1998

Analyse de la variance expliquée

Pour déterminer le nombre de facteurs à retenir, on calcule le pourcentage de variance


expliquée. Celle-ci permet de déterminer si le ou les facteur(s) retenu (s) restitue(nt) bien
l’information contenue dans les variables. SPSS 20.0 retient par défaut les axes dont la valeur
propre est supérieure à 1, critère communément admis, mais il est également possible de
retenir un nombre de facteurs correspondant au test du coude (on retient tous les facteurs
jusqu’à celui dont l’apport en termes de variance expliquée devient marginal, représentant un
« coude » sur le graphique) ou de définir le nombre de facteurs à retenir sur la base de critères
théoriques. Globalement, il convient de s’assurer que la solution retenue explique un

9
Hair J. F., Anderson R. E., Tatham R. L. et Black W. C. (1998), Multivariate data analysis, 5ème édition,
Englewood Cliffs, Prentice-Hall.

5
minimum de variance pour chaque construit : en général, le pourcentage de 60% est
généralement admis (Hair et al., 199810).

Analyse la fiabilité de l’instrument de mesure

(Perrien et a, 1984)l11 soulignent que la fiabilité mesure le degré avec lequel les instruments
de recherche utilisés mesurent de façon constante, le construit étudié. L’indicateur le plus
utilisé dans les recherches marketing est l’alpha de Cronbach. L’alpha de Cronbach permet
de vérifier dans quelle mesure « les questions censées mesurer la même chose mesurent
effectivement cette même chose » (Evrard et al, 2000).

Pour le calcul de cet indice, on utilise la formule par Cronbach12 :

 
 K 
  2 
   1 i
i

 K  1   ii  2 i, j 
2

 i i, j 
 

k : Nombre de questions (ou items)

 2i  : La variance de l’item i (erreur aléatoire)

 i, j  : La covariance entre l’item i et l’item j

Le coefficient alpha a une valeur comprise entre 0 et 1. Un coefficient de 0 représente une


fiabilité nulle et un coefficient de 1 traduit une fiabilité parfaite. Entre ces deux valeurs, il est
nécessaire de se demander quelle est la valeur à partir de laquelle un instrument doit être
considéré comme fiable. Une méta analyse réalisée par Peterson (1994)13 fournit de
nombreuses recommandations sur le niveau de l’alpha à retenir selon le champ de l’étude de
l’instrument évalué. L’examen de 4286 coefficients procédant de 1030 échantillons et de 832
recherches montre un alpha moyen de 0.77 et que 75% des coefficients ont une valeur
supérieure à 0.7 (49% supérieurs à 0.8 et 14% supérieurs à 0.9). En outre, Evrad et al (2000)
jugent que alpha est acceptable s’il est compris entre 0.6 et 0.8 alors que Perrien et al
retiennent un alpha dont la valeur est comprise entre 0.5 et 0.6. Dans notre recherche, nous
allons considérer que les différents items mesurant un phénomène sont fiables si l’alpha est
supérieur à 0.6.
10
Hair J.F., Anderson R.E., Tatham R.L., Black W.C. (1998), Multivariate data analysis (5th), Prentice Hall,
Upper Sadle River, New Jersey
11
Perrien J., Cherone E.J. et Zins M. (1984), "Recherche en marketing ", Gaetan Morin, Paris
12
op.cit.
13
Peterson A.D. (1994), "Une méta analyse du coefficient alpha de Cronbach ", Recherche et Application en
Marketing, Vol. 10, n°2, pp. 75-88

6
Les méthodes de régression

La régression multiple

La régression linéaire multiple est une technique d’analyse multi variée. Elle se présente
comme une généralisation, à plusieurs variables explicatives, de la régression linéaire simple.
La régression multiple permet alors d’examiner la force de dépendance d’une variable
dépendante et un ensemble de variables indépendantes. Pour pouvoir appliquer cette
technique, il faut que toutes les variables envisagées soient métriques. Précisons que la
régression multiple se distingue en deux grandes classes : la première pour faire des
prédictions ou des prévisions et la seconde se rattache à l’explication de la force de la
dépendance d’une variable à expliquer par plusieurs variables explicatives.

Le modèle général d’un modèle de régression multiple peut être formulé comme suit :

Y  a1 x1  a 2 x 2  ...  a n x n    

Avec :

Y : Variable dépendante ou à expliquer


x1 , x2 : Variables indépendantes ou explicatives

a1 , a2 ,.. : Coefficients de régression qui expriment force explicative de ces relations de la
variable dépendante vis-à-vis des variables indépendantes
 : Constante
 : Le biais ou le terme d’erreur qui suit une loi normale N (0, σ)

Le recours à la régression multiple est tributaire au respect des conditions :

Type de variables envisagées : La première condition d’utilisation de la régression repose


sur la nature des variables. Celles-ci doivent être nature métrique. Rappelons que les
variables mobilisées dans notre recherche sont mesurées par une échelle d’intervalle. Cette
première condition est vérifiée pour notre recherche.

Linéarité de la variable dépendante et des variables indépendantes : pour pouvoir


appliquer la régression linéaire multiple, il est essentiel de s’assurer que les variables étudiées
forment une combinaison linéaire et non logarithmique ou quadratique en l’occurrence. Deux
méthodes peuvent être utilisées afin de vérifier l’existence d’une relation linéaire : le

7
coefficient de corrélation de Pearson et le graphe de dispersion des observations entre les
variables (Jolibert et Jourdan, 2006).

Colinéarité des variables explicatives : elle signifie que les variables explicatives sont
fortement corrélées entre elles. Elle, lorsqu’elle existe, fausse l’estimation des coefficients de
régression. En d’autres termes, la régression linéaire multiple suppose que les variables
explicatives sont indépendantes les unes des autres (Evrard et al, 2000)14. Deux variables sont
dites colinéaires à partir du moment où la corrélation entre les deux est statistiquement
significative (>0,5). Cette colinéarité implique que les variables partagent une partie de leur
variance. La multi colinéarité est le fait qu’une variable indépendante est prédictible par une
combinaison linéaire des autres variables aussi indépendantes. Pour pouvoir détecter ce
problème, il est recommandé de régresser la variable indépendante considérée sur les autres
variables indépendantes et calculer l’indice "Facteur d'inflation de la variance " Variance
Inflation Factor (VIF). VIF = 1/tolérance où la tolérance correspond à 1-R² (principal de la
régression). De faibles valeurs de VIF sont un indicateur de l’absence de colinéarité. Les
seuils acceptables pour ces deux indicateurs sont respectivement les suivants : VIF < 3,3 et
Tolérance > 0,3.

Normalité de la distribution des termes d’erreurs ou résidus : les résidus doivent respecter
la condition d’homoscédasticité, être indépendants les uns des autres c’est à dire points
représentés ne doivent pas suivre de tendance particulière, ils doivent être répartis
aléatoirement. Aussi, les résidus doivent être distribués selon une loi normale. La vérification
des trois dernières conditions s’appuie respectivement sur l’analyse du graphique des résidus,
sur la conduite du test de Durbin-Watson (idéalement autour de 2). La normalité des données
peut être testée par le calcul du coefficient d’asymétrie (Skewness) et d’aplatissement
(Kurtosis), le premier ne devant pas dépasser |3|, le second étant parfois accepté jusqu’à |8|.
Ces tests permettent de vérifier que chaque variable a bel et bien une distribution proche
d’une distribution normale (courbe de Gauss) dont la moyenne est nulle et l’écart type est
l’unité.

Une fois, les conditions d’application de la régression linéaire multiple sont remplies, il
importe d’interpréter les résultats obtenus. Ceci, selon l’approche préconisée par Jolibert et
Jourdan (2006), se fait au niveau global, au niveau de chaque variable et enfin au niveau des
résidus.

14
Op cit

8
Au niveau global valider la significativité statistique globale de la régression par l’examen du
test F de Fisher. La valeur de ce test indique si la variance ou l’ajout de variance expliquée
sont significatifs, c'est-à-dire si, quelle que soit la force de la relation entre les variables
indépendantes et la variable dépendante, cette relation est susceptible d’exister dans la
population et n’est pas due simplement à l’erreur d’échantillonnage.

Au niveau de chaque variable : on vérifie la significativité statistique de chaque coefficient


de régression par l’étude du test t associé à chaque estimateur des coefficients de la
régression. Les valeurs du test t pour les coefficients sont constituées par la division de la
valeur du coefficient de régression par son erreur. Cet indice doit être supérieur à 2 (1.96 écart
type) pour qu’il soit significatif. Il indique si chacun des coefficients des variables présentes
dans l’équation est significatif. Un autre indicateur à vérifier, il s’agit de coefficient
standardisé Bêta appelé aussi les coefficients de régression partiels. La standardisation
consiste à convertir les variables en échelles commune, ceci revient à centrer (autour de la
moyenne) et réduire (par rapport à l’écart type) ces variables. Cette opération permet alors de
rendre faisable la comparaison entre les différentes variables du modèle de régression par le
biais de l’élimination des effets de mesure différentes. Par exemple, la taille du foyer et le
revenu (Hait et al, 1998). Lorsque le nombre d’échelons est au moins 5, ce problème de
standardisation ne se posera pas.

De même, il importe de tester la significativité pratique de la régression. Ce test est examiné


par le coefficient de détermination (R²) qui se présente comme le pourcentage de la variation
totale de la variable à expliquer « expliquée » par la régression. Pour juger des valeurs du R²,
Hair et al. (1998) proposent des seuils minimums de cet indice en fonction de la taille de
l’échantillon et du nombre de variables indépendantes ainsi que le seuil de signification
souhaité. De façon générale, plus R² proche de 1, plus le modèle est fiable. Toutefois, il est
recommandé d’utiliser le R² ajusté qui est une mesure modifiée du coefficient de
détermination qui tient compte du nombre de variables indépendantes envisagées dans le
modèle de régression et la taille de l’échantillon pour tenir compte de rendements
décroissants. Cet indice est particulièrement utile, par exemple, lors de la comparaison
d’équations de régression, ayant un nombre différent de variables indépendantes, des tailles
d’échantillons différentes ou les deux (Hair et al., 1998 ; Malhotra et al., 2007).

Tableau 6.3- Valeurs de R² en fonction de la taille de l’échantillon et seuil de


signification

9
Taille de Niveau de signification   0,01 Niveau de signification   0,05
l’échantillon Nombre de variables Nombre de variables
2 5 10 20 2 5 10 20
20 45 56 71 ----- 39 48 64 -----
50 23 29 36 49 19 23 29 42
100 13 16 20 26 10 12 15 21
250 5 7 8 11 4 5 6 8
500 3 3 4 6 3 4 5 9
1000 1 2 2 3 1 1 2 2
selon Hair et al (Hair et al, 2009)

Bêta : Le coefficient standardisé permet de comparer la contribution de chaque variable


puisqu’il s’agit du coefficient de régression ramené sur une échelle standard (variant de -1 à
+1).

Selon Jolibert et Jourdan (2006), si le test de Fisher permet de vérifier la significativité


statistique globale de la régression, le t de Student teste la significativité des estimations des
coefficients de corrélation. L’absence de significativité d’un coefficient signifie que la
variable explicative auquel il est attaché n’a qu’un impact marginal sur la variable
dépendante. La significativité statistique de chaque coefficient de régression permet de
détecter si les variables explicatives étudiées ont un effet sur la variable à expliquer.

10