Académique Documents
Professionnel Documents
Culture Documents
Les méthodes factorielles sont les méthodes les plus utilisées en analyse des données. Elles
varient suivant la forme des données mais utilisent toutes les mêmes bases mathématiques. Il
faut les distinguer des méthodes regroupées sous le terme «factor analysis» par les anglo-
saxons qui sont des méthodes de statistiques inférentielles s’appuyant sur des modèles
statistiques. Les principales méthodes factorielles sont les suivantes :
–L’analyse des correspondances multiples (ACM) pour les tableaux de variables qualitatives.
La méthode la plus utilisée dans les recherches en sciences de gestion est l’ACP. Les premiers
développements de cette méthode remonte Pearson (1900) qui a traité le cas de 2 variables
Hotelling (1933)1 l’a étendue à un nombre quelconque de variables.
Les objectifs de l’analyse factorielle exploratoire en composantes principales sont les suivants
d’abord identifier un ensemble de dimension latente à partir d’un ensemble plus grand de
variables initiales. Il s’agit de découvrir une structure sous-jacente, ensuite, réduire le nombre
de variables en un ensemble plus restreint sans déformer l’information et en fin mettre au
point un indice caractérisant un groupe (Jolibert et Jourdan, 2006).
1
Cité par GRENIER F. (2002), "Analyse statistique multidimensionnelle appliquée aux collisions d’ions lourds
et légers aux énergies intermédiaires", Mémoire pour l’obtention du grade de Maître ès Sciences, Université
Laval, Janvier
1
a. D’un point de vue empirique : l’analyse factorielle correspond à une démarche
purement statistique de structuration des données. Elle consiste à résumer
l’information contenue dans un tableau de chiffres individus / variables en remplaçant
les variables initiales par un nombre plus petit de variables composites ou de facteurs.
L’analyse exploratoire des modèles de mesure repose sur une série d’analyse : l’étude de
l’adéquation des données à l’analyse factorielle, le choix des méthodes d’analyse et
d’extraction, le choix du nombre de facteurs à extraire, le choix de la rotation à appliquer aux
facteurs et l’épuration et interprétation des facteurs.
Les variables à retenir pour une analyse factorielle doivent avoir été mesurées sur des échelles
d’intervalle ou de rapport. Il est souhaitable d’avoir 3 à 5 fois plus de variables que de
facteurs (Jolibert et Jourdan, 20062). Si les variables ont été mesurées sur des échelles
comparables (par exemple, notations sur des échelles qui comprennent le même nombre
d’échelons), les différences de variance d’une variable à l’autre peuvent être considérées
comme « normales ». Dans ce cas, on peut utiliser la matrice de covariance ou la matrice de
corrélation (Evrard et al, 2000). En revanche, si les variables sont mesurées suivant des
formats de réponse très différents, il est recommandé de les standardiser, c’est-à-dire de les
centrer et de les réduire pour neutraliser l’effet de la différence. L’indice de proximité entre
les variables sera alors le coefficient de corrélation ; la variance de chaque variable est alors
égale à l’unité. Dans ce cas, on utilisera la matrice des corrélations uniquement (Evrard et al,
2
Op. cit.
2
2000). Avec une matrice de corrélation, la variance des variables à faible écart type a autant
d’importance que la variance des variables à fort écart-type. Dans notre cas, nous avons opté
pour une échelle d’intervalle à cinq échelons pour toutes les variables.
Avant de réaliser une analyse factorielle, il est logique de se demander si les données sont
adéquates à ce type d’analyse. Pour ce faire, Stewart 3 recommande deux tests : le test de
sphéricité de Bartlett et le test de Kaiser, Meyer et Olkin communément appelé test KMO qui
mesure l’adéquation de l’échantillon avec l’ensemble des variables (Evrard et al., 20004).
Le test de Bartlett est un test d’hypothèse que la matrice de corrélation émane d’une
population dont les variables sont indépendantes. En d’autres termes, ce test est « utilisé pour
vérifier l'hypothèse nulle que les variables ne sont pas corrélées dans la population ».
Le test KMO varie entre 0 et 1. il permet de « quantifier le degré de corrélations entre les
items. La valeur 1 indique que chaque variable est expliquée sans erreur par les autres
variables » (Hair et al., 19985), Il est considéré comme inacceptable en dessous du seuil de
0.5, et doit être de préférence supérieur à 0.8 voire 0.9 (Jolibert et Jourdan, 20116).
Après avoir vérifié les résultats des tests de Barlett et KMO, une question qui se pose au
chercheur est celle de la nécessité ou non de réaliser une ACP avec une rotation sur les
données collectées. La rotation repose sur le principe d’augmentation artificielle des
corrélations entre les items et les différents facteurs. Avant de procéder à la suppression des
items mal représentés, des rotations seront menées afin d’augmenter la valeur des coefficients
de corrélation de certains items avec les nouveaux axes et ainsi améliorer la lisibilité des axes
(Evrard et al, 20007). Dans une rotation, l’information restituée par l’espace factoriel reste
constante (variance totale expliquée) mais l’information restituée par chaque axe est modifiée
(variance expliquée par chaque axe) et doit être recalculée. Une rotation peut être orthogonale
ou oblique. Il existe deux grandes méthodes de rotation8.
3
Méthode varimax : méthode de rotation orthogonale qui minimise le nombre de variables
ayant de fortes corrélations sur chaque facteur. Elle simplifie l'interprétation des facteurs. La
rotation Varimax vise à optimiser les saturations ou loadings dans chaque composante en
maximisant les écarts entre saturations. L’objectif est d’obtenir au final des saturations
proches de 1 ou de 0 ; plus une saturation est proche de 0, plus faible est son lien avec le
facteur. Cette rotation est la plus utilisée car le problème le plus fréquemment rencontré en
analyse factorielle est de simplifier et de clarifier la signification de chaque facteur.
Méthode quartimax : méthode de rotation qui réduit le nombre de facteurs requis pour
expliquer chaque variable. Chaque variable est fortement corrélée avec un seul facteur et le
moins corrélée possible avec tous les autres facteurs. L’inconvénient est que plusieurs
variables peuvent être fortement corrélées avec le même facteur. La rotation quartimax a pour
objectif de maximiser les écarts entre saturations par variable. Elle peut donc se traduire par
une accumulation de saturations importantes sur un même facteur, ce qui est peu recherché.
Elle vise à réduire le nombre de facteurs expliquant chaque variable.
Méthode equamax : méthode de rotation qui est une combinaison de la méthode Varimax
(qui simplifie les facteurs) et de la méthode Quartimax (qui simplifie les variables). Le
nombre de variables pesant sur un facteur et le nombre de facteurs nécessaires pour expliquer
une variable sont minimisés La rotation Equimax est très peu utilisée car elle donne des
résultats peu probants.
Une rotation oblique est recommandée lorsque rien n’indique a priori que les composantes
doivent être indépendantes les unes des autres (option la plus réaliste), ou lorsque l’on
souhaite aboutir à une modélisation théorique. Cette rotation est impérative lorsque le
chercheur souhaite faire des analyses factorielles d’ordre supérieur.
- Rotation Promax : rotation oblique qui permet aux facteurs d'être corrélés. Elle peut être
calculée plus rapidement qu'une rotation oblimin directe, aussi est-elle utile pour les vastes
ensembles de données.
La rotation oblique présente l’inconvénient d’être parfois délicate à interpréter, mais elle a
l’avantage de pouvoir mieux rendre compte de certaines situations (par exemple, le cas de
plusieurs facteurs, distincts mais reliés à un même concept. Lorsque les corrélations entre les
facteurs sont élevées, l’interprétation avec une rotation oblique s’avère difficile, c’est la raison
4
pour laquelle les techniques de rotation oblique ne sont pas très populaires. Si le chercheur
postule l’existence de plusieurs dimensions ou facettes au sein d’un même concept, il suppose
implicitement que celles-ci sont corrélées entre elles. Dans ce cas, la rotation oblique est celle
qu’il faut adopter.
9
Hair J. F., Anderson R. E., Tatham R. L. et Black W. C. (1998), Multivariate data analysis, 5ème édition,
Englewood Cliffs, Prentice-Hall.
5
minimum de variance pour chaque construit : en général, le pourcentage de 60% est
généralement admis (Hair et al., 199810).
(Perrien et a, 1984)l11 soulignent que la fiabilité mesure le degré avec lequel les instruments
de recherche utilisés mesurent de façon constante, le construit étudié. L’indicateur le plus
utilisé dans les recherches marketing est l’alpha de Cronbach. L’alpha de Cronbach permet
de vérifier dans quelle mesure « les questions censées mesurer la même chose mesurent
effectivement cette même chose » (Evrard et al, 2000).
K
2
1 i
i
K 1 ii 2 i, j
2
i i, j
6
Les méthodes de régression
La régression multiple
La régression linéaire multiple est une technique d’analyse multi variée. Elle se présente
comme une généralisation, à plusieurs variables explicatives, de la régression linéaire simple.
La régression multiple permet alors d’examiner la force de dépendance d’une variable
dépendante et un ensemble de variables indépendantes. Pour pouvoir appliquer cette
technique, il faut que toutes les variables envisagées soient métriques. Précisons que la
régression multiple se distingue en deux grandes classes : la première pour faire des
prédictions ou des prévisions et la seconde se rattache à l’explication de la force de la
dépendance d’une variable à expliquer par plusieurs variables explicatives.
Le modèle général d’un modèle de régression multiple peut être formulé comme suit :
Y a1 x1 a 2 x 2 ... a n x n
Avec :
7
coefficient de corrélation de Pearson et le graphe de dispersion des observations entre les
variables (Jolibert et Jourdan, 2006).
Colinéarité des variables explicatives : elle signifie que les variables explicatives sont
fortement corrélées entre elles. Elle, lorsqu’elle existe, fausse l’estimation des coefficients de
régression. En d’autres termes, la régression linéaire multiple suppose que les variables
explicatives sont indépendantes les unes des autres (Evrard et al, 2000)14. Deux variables sont
dites colinéaires à partir du moment où la corrélation entre les deux est statistiquement
significative (>0,5). Cette colinéarité implique que les variables partagent une partie de leur
variance. La multi colinéarité est le fait qu’une variable indépendante est prédictible par une
combinaison linéaire des autres variables aussi indépendantes. Pour pouvoir détecter ce
problème, il est recommandé de régresser la variable indépendante considérée sur les autres
variables indépendantes et calculer l’indice "Facteur d'inflation de la variance " Variance
Inflation Factor (VIF). VIF = 1/tolérance où la tolérance correspond à 1-R² (principal de la
régression). De faibles valeurs de VIF sont un indicateur de l’absence de colinéarité. Les
seuils acceptables pour ces deux indicateurs sont respectivement les suivants : VIF < 3,3 et
Tolérance > 0,3.
Normalité de la distribution des termes d’erreurs ou résidus : les résidus doivent respecter
la condition d’homoscédasticité, être indépendants les uns des autres c’est à dire points
représentés ne doivent pas suivre de tendance particulière, ils doivent être répartis
aléatoirement. Aussi, les résidus doivent être distribués selon une loi normale. La vérification
des trois dernières conditions s’appuie respectivement sur l’analyse du graphique des résidus,
sur la conduite du test de Durbin-Watson (idéalement autour de 2). La normalité des données
peut être testée par le calcul du coefficient d’asymétrie (Skewness) et d’aplatissement
(Kurtosis), le premier ne devant pas dépasser |3|, le second étant parfois accepté jusqu’à |8|.
Ces tests permettent de vérifier que chaque variable a bel et bien une distribution proche
d’une distribution normale (courbe de Gauss) dont la moyenne est nulle et l’écart type est
l’unité.
Une fois, les conditions d’application de la régression linéaire multiple sont remplies, il
importe d’interpréter les résultats obtenus. Ceci, selon l’approche préconisée par Jolibert et
Jourdan (2006), se fait au niveau global, au niveau de chaque variable et enfin au niveau des
résidus.
14
Op cit
8
Au niveau global valider la significativité statistique globale de la régression par l’examen du
test F de Fisher. La valeur de ce test indique si la variance ou l’ajout de variance expliquée
sont significatifs, c'est-à-dire si, quelle que soit la force de la relation entre les variables
indépendantes et la variable dépendante, cette relation est susceptible d’exister dans la
population et n’est pas due simplement à l’erreur d’échantillonnage.
9
Taille de Niveau de signification 0,01 Niveau de signification 0,05
l’échantillon Nombre de variables Nombre de variables
2 5 10 20 2 5 10 20
20 45 56 71 ----- 39 48 64 -----
50 23 29 36 49 19 23 29 42
100 13 16 20 26 10 12 15 21
250 5 7 8 11 4 5 6 8
500 3 3 4 6 3 4 5 9
1000 1 2 2 3 1 1 2 2
selon Hair et al (Hair et al, 2009)
10