Vous êtes sur la page 1sur 194

Introduction à l’analyse des données.

Introduction générale.
L’analyse des données est effectuée pour répondre à l’objectif d’une recherche,
elle est précédée par des préliminaires de contrôle des informations et de
sélection de la ou des méthodes d’analyse les plus appropriées. L’analyse
préliminaire est une préparation à l’analyse principale pour localiser ou corriger
les problèmes que contiennent les données d’une étude (Fidell, L. S., &
Tabachnick, B. G. 2003)1. Nous traitons aussi dans ce chapitre la question des
variables (types, nature et échelles de mesure), le type des données et des
tableaux de données et enfin le choix de la méthode d’analyse appropriée à une
recherche donnée.

 Le type de variables, leur nature, leur statut et leur échelle de mesure ;


 Le type de données et le type de tableaux
 Choix des méthodes d’analyse des données.
 Les préliminaires à l’analyse des données

Variables  : Types nature statut et échelles de mesure.


Toute recherche a pour objet l’étude d’un phénomène qu’on traduit en concept,
lequel correspond à un comportement ou un état variable dans le temps (série
chronologique ou longitudinale) et dans l’espace (sections croisées).
Un comportement ou un état est variable quand il est incertain, dynamique,
imprévisible et différent d’un sujet (objet) à un autre. La variable est donc la
manière d’approcher le comportement ou l’état. Pour aborder une variable on a
besoin d’une mesure ou de plusieurs mesures. (Error: Reference source not
found)
Figure N° 2: Relation entre Concept et Variable

Dans la construction d’un modèle conceptuel, le chercheur part d’un concept


principal traduit en une variable dite principale et probablement de concepts liés
traduits aussi en variables dites périphériques qu’on appellera exogènes et dont
la sélection est dictée par les propositions des travaux passés et par les ambitions
du chercheur.
Chapitre I. Introduction à l’analyse des données.

La variable est dite principale puisqu’elle constitue la raison d’être du modèle et


même de la recherche. Elle peut être le phénomène à expliquer ou le
phénomène explicatif. L’identification des autres variables périphériques se fait
dans un esprit logique et progressif dans la construction d’un modèle. Le
chercheur commence par identifier la première variable périphérique pour
laquelle il estime qu’une relation directe ou indirect avec la variable principale
peut être retenue. Il peut, en se basant sur la littérature, envisager d’inclure
d’autres variables périphériques directes.

Statuts des variables dans une analyse multivariée


Dans la plupart des recherches et pour un besoin de clarté, les auteurs précisent
le statut de chacune des variables impliquées dans leur modèle. Une variable
peut jouer l'un des trois rôles dans le design d’une recherche (Figure N° 3). Les
deux rôles les plus courants sont le rôle de variable indépendante (IV) et de
variable dépendante (DV). La variable indépendante (ID) représente des
explications théoriques pour les changements dans les résultats (dans le temps
et dans l’espace). La variable dépendante (DV) représente les résultats d'intérêt
théorique (ce que la théorie espère expliquer) ou pratique. Le troisième rôle
englobe les variables qui influent sur notre compréhension des relations entre
IVs et DVS. Cette catégorie comprend les médiateurs, les modérateurs et les
variables de contrôle (CV) (Carlson, K. D., & Wu, J. 2011)2.

2
Chapitre I. Introduction à l’analyse des données.

Figure N° 3 : Statuts des variables dans un modèle causal.

Variable
Variable
Modératrice
Indépendant
(MOD_V)
e (IV)
H3
H1
H4 H5 Variable
dépendante
H2 (DV)
Variable
Médiatrice
(MED_V)
Variable de
Contrôle (CV)

Variable dépendante.
Le premier statut qu’on accorde à une variable dans un modèle est le statut
dépendant endogène, à expliquer, critère ou réponse. Une variable est dite
dépendante quand elle est déterminée ou causée par des facteurs ou des
variables dans le modèle. Elle est pure endogène quand seules les variables du
modèle qui la déterminent. Elle partiellement endogène quand elle est
déterminée aussi par des variables autres que celles qui la déterminent dans le
modèle. (D. Little 2010)
Une variable endogène est aussi appelée variable à expliquer ou variable critère.
Une variable endogène est une variable qui apparaît comme variable
dépendante dans au moins une des équations d’un modèle structurel donné.
Dans un diagramme de causalité, les variables endogènes peuvent se reconnaître
au fait qu’elles ont au moins une flèche pointée vers elles.  (Statistica)
Variable indépendante.
La variable indépendante est une variable manipulée (ou contrôlée)
expérimentalement ou statistiquement par le chercheur dans le but d’étudier ses
effets sur la variable dépendante. Il peut s’agir également d’une variable dans
une étude descriptive considérée comme précédant un résultat ou effet (variable
dépendante). Une attention particulière est accordée à cette étape, en effet
l’omission d’une variable indépendante normalement corrélée avec une ou

3
Chapitre I. Introduction à l’analyse des données.

plusieurs variables indépendantes incluses dans le modèle peut conduire à des


estimations biaisées et inconsistantes. D’un autre côté l’omission d’une variable
indépendante non corrélée avec une variable indépendante retenue ne conduit
pas à une surestimation de leurs variances. D’une manière générale l’omission
d’une variable importante est l’une des causes principales de l’erreur de
spécification puisque le modèle est censé reproduire la réalité (Bagozzi 19803
p97 cité par Diamontopoulos A. 1994 p 108)4.
Tableau N° 1 : Les différentes appellations de variables
Variable dépendante Variables indépendantes
Variable à expliquer Variables explicatives
Variable critère Variables prédictrices
Variable endogène Variables exogènes
Variable réponse Variables stimuli

Dans une relation causale (y i=β0 + β1xi+µi) xi est dite exogène c’est-à-dire
E(xi/µi)=0, on parle d’hypothèse d’exogénéité.
Une variable est dite exogène par rapport au phénomène à étudier au sens où
elle considérée comme étant en dehors du dit phénomène. Une variable
exogène peut être explicative du phénomène est appelée variable explicative ou
prédicteur comme elle peut être juste une variable de contrôle. Elle est
considérée comme variable de contrôle quand elle figure pour « purifier » l’effet
de variable explicative sur les variables à expliquer. Les variables de contrôle ne
font pas l’objet d’hypothèse de recherche.
Une variable est exogène quand elle déterminée par des variables non retenues
dans le modèle. Elle l’est aussi quand elle est considérée comme étant
indépendante des variables retenues dans le modèle. (D. Little 2010) 5
La variable exogène peut être modératrice tant qu’elle n’entre pas dans la
définition du phénomène endogène.
Dans la recherche de G. Wang et R. G. Netemeyer (2002) 6, le modèle comprend
trois variables endogènes :  « learning effort »,  « self efficacy »  et  « sales
performance ». Le chercheur assigne à certaines variables endogènes un rôle
médiateur. Cette phase concerne également l’intégration éventuelle d’une ou
plusieurs variables modératrices. La phase de la conception consiste à assigner à
la variable le statut de modératrice pure ou de quasi modératrice.
Une attention particulière est accordée à cette étape, en effet l’omission d’une
variable indépendante normalement corrélée avec une ou plusieurs variables
indépendantes incluses dans le modèle peut conduire à des estimations biaisées
et inconsistantes. D’un autre côté l’omission d’une variable indépendante non
4
Chapitre I. Introduction à l’analyse des données.

corrélée avec une variable indépendante retenue ne conduit pas à une sur-
estimation de leurs variances. D’une manière générale l’omission d’une variable
importante est l’une des causes principales de l’erreur de spécification puisque le
modèle est censé reproduire la réalité (Bagozzi 1980 p 97 cité par Diamontopolos
A.1994 p 108).
Variable médiatrice.
Dans certains modèles de relations entre deux variables V1 et V2, on peut se
rendre compte de la nécessité d’interposer une troisième variable V3 dite
variable médiatrice et considérer que l’effet de V1 sur V2 n’est pas forcément
direct.
Une variable a le statut de variable médiatrice quand les conditions suivantes
sont réunies (Baron, R. M., & Kenny, D. A. 1986)7 :
 Les niveaux de variation de la variable indépendante déterminent d’une
manière significative la variable présumée médiatrice (chemin a).
 La variable présumée médiatrice détermine d’une manière significative la
variable dépendante (chemin b).
 Quand les chemins a et b sont contrôlés, l’effet de la variable
indépendante sur la variable dépendante est moins significatif ou nul.
o Si le chemin c est nul, la variable médiatrice est unique et
dominatrice.
o Si le chemin c n’est pas nul, ceci indique l’existence éventuelle de
plusieurs facteurs médiateurs.
Figure N° 4 : Schéma de modèle avec variable médiatrice.

Quelques exemples de variables médiatrices


En comptabilité, on cite l’article de Choo (2004)8 et constater que ces auteurs
suggèrent les variables « tendances ethnocentriques » comme médiatrices entre
l’ouverture culturelle et l’attitude vis-à-vis du service importé.

5
Chapitre I. Introduction à l’analyse des données.

En management, Fernández-1 retiennent comme hypothèse que Les activités de


RSE interviennent dans la relation entre l'indépendance du conseil et la valeur
marchande de l'entreprise.
Figure N° 5 : Responsabilité sociale de l'entreprise, conseil d'administration et
variable de performance de l'entreprise.

En marketing, Ahmed, P. K. et al. (2003)2 considèrent que l’orientation marché, la


satisfaction des employés et les compétences spécifiques / individuelles sont
considérées comme déterminantes dans la médiation de la relation entre le
marketing mix interne et la performance organisationnelle.

1
Fernández-Gago, R., Cabeza-García, L., & Nieto, M. (2016). Corporate social responsibility, board
of directors, and firm performance: an analysis of their relationships. Review of Managerial
Science, 10(1), 85-104.
2
Ahmed, P. K., Rafiq, M., & Saad, N. M. (2003). Internal marketing and the mediating role of
organisational competencies. European Journal of Marketing, 37(9), 1221-1241.
6
Chapitre I. Introduction à l’analyse des données.

Figure N° 6 : Conceptual model of internal marketing

En comptabilité, on peut citer la recherche de Chan, S. H., & Song, Q. (2020)3

Comment tenir compte d’une variable médiatrice dans un


modèle ?
Plusieurs manières ont été empruntées pour tester l’effet médiateur de certaines

3
Chan, S. H., & Song, Q. (2020). Insight into the process of responsibility judgment of an audit
failure. International Journal of Accounting & Information Management.
7
Chapitre I. Introduction à l’analyse des données.

variables dans les méthodes de 1ière génération et notamment la régression


multiple, nous les présentons dans ce qui suit en faisant des illustrations à
travers des applications :
La méthode de Judy et Kenny (1981)
Dans un modèle de régression, Judy et Kenny (1981 9 cités par Baron R.M. et
Kenny D. A. 1986)10 recommandent d’estimer trois modèles de régression :
 Estimer la variable médiatrice M en fonction de la variable indépendante
X : M=f(X) : M=a1X+Ct
 Estimer la variable dépendante Y en fonction de la variable indépendante
X : Y=f(X) : Y=a2X+Ct
 Estimer la variable dépendante Y en fonction de la variable indépendante
X et de la variable médiatrice M : Y=f (X, M) : Y=a3X+a4M+Ct.

Selon les mêmes auteurs et pour retenir le rôle médiateur de la variable M, il


faut que :
 La variable indépendante X affecte la variable médiatrice M dans
l’équation 1.
 La variable indépendante X affecte la variable dépendante Y dans
l’équation 2.
 La variable médiatrice M affecte la variable dépendante Y dans l’équation
3.
Si toutes ces conditions sont vérifiées et si l’effet de la variable indépendante X
sur la variable dépendante Y est moins important que celui dans la troisième
équation, on peut donc parler d’effet médiateur de la variable M. Le contraire
prône plutôt pour un effet direct plus important que l’effet indirect.
Une médiation est parfaite (totale) quand la variable indépendante X n’a pas
d’effet sur la variable dépendante Y sous contrôle de la variable médiatrice M.
La méthode de Baron et Kenny (1986)
Baron R.M. et Kenny D. A. (1986)11 recommandent d’estimer deux équations :
(1) Y=b0+b1X
(2) Y=b0+b1X+b2 M avec M la variable médiatrice.
Pour vérifier le caractère médiateur de cette variable M, il convient
d’appliquer les quatre règles suivantes :
 Le coefficient de régression b1 est statistiquement significatif dans la
régression (1).
 Dans la régression (2), le coefficient b 2 de la variable médiatrice est
statistiquement significatif.

8
Chapitre I. Introduction à l’analyse des données.

 Le R2 ajusté de la régression (2) est plus important que celui dans la


régression (1).
 Le coefficient b1 dans la régression 2 est plus faible que celui de b 1 dans la
régression 1.
Une première application de cette approche est faite sur les données de Zhou, L.
(2007)12 et sur leur modèle (Figure N° 7). Nous avons pour cela conçu la syntaxe
suivante :
Figure N° 7 : Modèle conceptuel

Les quatre règles ne sont pas respectées, la variable FMK ne joue pas le rôle de
variable médiatrice.
Tableau N° 2 : Résultats de l’estimation des quatre équations.
R R² R² F p Ct Coef Sig. Coef Sig. Vérificatio
(ajust 1 2 n règle
é)
Equation 1 : ,25 ,251 79,28 0 0,48 ,00 Règle 1 :
FMK=Ct+b1*PROAC 2 4 1 0 oui
Equation 2 : ,32 ,10 ,100 6,30 PROAC FMK Règle 3:
BGC=Ct+b3*PROAC+b4*F 0 2 4 Non
MK -,42 ,00 -,200 ,OO Règle 4
5 0 5 NON

Variable médiatrice totale ou médiatrice partielle.


On parle de variable médiatrice totale ou médiatrice partielle. Une médiation est
totale quand l’effet direct n’est pas significatif. Une médiation est partielle quand
les deux effets directs et indirects sont significatifs. (Figure N° 8)

9
Chapitre I. Introduction à l’analyse des données.

Figure N° 8: Formes de médiation

Médiation totale (complète) Médiation partielle

Médiation simple et médiation double.


La médiation peut être simple ou complexe. Elle est simple quand la médiation
n’est possible qu’avec une seule variable et elle est complexe quand elle peut se
faire par deux ou plusieurs variables. (Figure N° 9)
Figure N° 9: Médiation simple et médiation complexe.
Médiation simple Médiation double (complexe)

Variable modératrice
Dans certaines recherches, l’effet d’une variable X sur une autre Y n’est pas
absolu mais dépend à son tour d’une autre variable M qui intervient pour
modérer l’effet de la première sur la deuxième. Contrairement à une variable de
contrôle, une variable modératrice fait l’objet d’une hypothèse de recherche.
Figure N° 10 : Schématisation de la place de la variable modératrice.
(Variable
modératrice)
M

Variable Variable
indépendante dépendante
X Y

10
Chapitre I. Introduction à l’analyse des données.

En général, une variable modératrice est une variable qualitative (sexe, race,
classe) ou quantitative (niveau de récompense) qui affecte la direction et/ou la
force de la relation entre une variable indépendante ou prédictive et une
variable dépendante ou critère. (R.M. Baron & D.A. Kenny 1986)13

1. Quelques exemples de variables modératrices.


En comptabilité, nous citons l’article de Choo (2004)14 le modèle suivant (Figure
N° 11). La variable « facilitators of organizational learning » est retenue comme
modératrice de l’effet de MAIS sur la performance.
Figure N° 11 : Les relations entre les informations de comptabilité de gestion,
l'apprentissage organisationnel et les performances de production.

En marketing international, Ko de Ruyter et al. (1985)15 s’intéressent à l’attitude


envers les services importés en retenant comme variable de contrôle ou
modératrice la nécessité perçue du service et les menaces économiques que
l’importation de ce service représente pour l’individu et pour l’économie du
pays.

11
Chapitre I. Introduction à l’analyse des données.

Figure N° 12 : Modèle d’attitude vis-à-vis des services importés

Source : Ko de Ruyter, Marcel van Birgelen, Martin Wetzel (1985), Consumer ethnocentrism in international
services marketing ; International Business Review; 7 185–202

Ces variables agissent sur l’effet des tendances ethnocentriques sur l’attitude des
consommateurs envers les produits importés.
En marketing International, Erramelli et Roa (1998)16 souhaitent mesurer l’effet
de la spécificité de l’actif sur la proportion de partage de contrôle en faisant
intervenir plusieurs variables modératrices dont l’intensité du capital,
l’inséparabilité du service etc.
Figure N° 13 : Modèle de la spécificité de l’actif sur la propension de contrôle.

Dans le domaine de l’entrepreneuriat, Lumpkin et al. (1996)17 considèrent deux


types de variables modératrices le premier est lié aux facteurs de
l’environnement et le deuxième aux facteurs organisationnels (Figure N° 14).

12
Chapitre I. Introduction à l’analyse des données.

Figure N° 14 : Cadre Conceptuel de l’orientation entrepreneurial

En système d’information Hong et Kim (2002)18 examinent l’impact de


l’adéquation de l’ERP avec l’entreprise « organisation fit of ERP » sur le succès de
leur application en considérant le rôle modérateur de quelques variables
contingentes : niveau d’adaptation des ERP, processus d’adaptation et résistance
organisationnelle. Le modèle mettant en relief ces variables se présente comme
suit :
Figure N° 15: Exemple de variable modératrice en système d’information

13
Chapitre I. Introduction à l’analyse des données.

En management, Fernández-Gago, R. et al. (2016)4 retiennent comme hypothèse


que la rentabilité de l’entreprise modérera (augmentera ou diminuera) l’impact
de l’indépendance du conseil d’administration sur la RSE.
Figure N° 16 : Responsabilité sociale de l'entreprise, conseil d'administration et
variable de performance de l'entreprise.

Types de variables modératrices.


La classification des variables modératrices se fait par rapport à deux critères :
 Une classification basée sur la relation de la variable à spécifier avec la
variable critère (dépendante) (si la variable à spécifier est liée ou non à
cette variable critère) ;
 Une deuxième classification est basée sur le fait que la variable à spécifier
est liée

Tableau N° 3 : Différentes formes de variables modératrices.


Reliée avec la variable à Non reliée à la variable à
expliquer et/ou la expliquer ni à la variable
variable explicative explicative
Pas d’interaction avec 1-Variable non- 2-Variable modératrice
la variable explicative modératrice homogénéisante
Interaction avec la 3-Variable quasi- 4- Variable modératrice
variable explicative modératrice pur
Source : Delphine Lacaze (2001), Le rôle de l’individu dans la socialisation organisationnelle  : le
cas des employés dans les services de restauration et la grande distribution, Thèse Aix Marseille
III.

4
Fernández-Gago, R., Cabeza-García, L., & Nieto, M. (2016). Corporate social responsibility, board
of directors, and firm performance: an analysis of their relationships. Review of Managerial
Science, 10(1), 85-104.
14
Chapitre I. Introduction à l’analyse des données.

Quand la variable à spécifier est liée à la variable critère ou/et à la variable


prédictive mais n’interagit pas avec la variable prédictive, elle n’est pas
considérée comme modératrice. Elle est modératrice par contre quand il s’agit
de l’un des trois cas des autres cadrans.
Ces trois cas peuvent être classés en deux types selon que la variable à spécifier
agisse sur la force ou sur la forme de la relation entre variable critère et variable
prédictive.
Les variables du cadran 2 sont appelées modératrices homogénéisantes. Les
variables du cadran 3 et 4 sont du second type, elles sont appelées quasi
modératrice et pure modératrice (S. Sharma et al. 1981) 19. Ces auteurs
proposent un schéma (Figure N° 20) permettant de décider de la nature de la
variable modératrice.
a. La variable modératrice pure.
Il s’agit des variables qui agissent non pas sur l’importance de la relation entre
une variable prédictive et une variable critère mais sur sa forme.
Figure N° 17 : Cas de modèle avec variable pure modératrice.
Z

X Y

Ce type de variable est continu. Soit les variables y et x est la relation y=a+b*x. La
forme de la relation entre x et y est également fonction d’une autre variable z.
La relation prend la forme : y=a+ (b1+b2*z)*x ce qui peut s’écrire autrement
y=a+b1*x+b2*z*x.
Dans ce type de modèle, on peut constater que la variable modératrice
n’interagit pas avec la variable critère (y), il s’agit de variable pure modératrice.
La variable quasi modératrice.
Une variable est quasi modératrice quand on prévoit une interaction avec la
variable critère et le modèle prend la forme suivante : y=a+b1x+b3z+b2z*x.
Figure N° 18 : Cas de modèle avec une variable quasi modératrice
Z

X Y

15
Chapitre I. Introduction à l’analyse des données.

Nasution, M. D. T. P., & Rossanty, Y. (2018)20 proposent un modèle avec une


variable quasi-modératrice.
Figure N° 19 : Modèle du comportement d’achat avec variable quasi
modératrice.

Source : Nasution, M. D. T. P., & Rossanty, Y. (2018). Country of origin as a moderator of halal
label and purchase behaviour. Journal of Business and Retail Management Research, 12(2).

Figure N° 20 : Identification de la nature de la variable modératrice

16
Chapitre I. Introduction à l’analyse des données.
Source: Subhash Sharma; Richard M Durand; Oded Gur-Arie (1981) Identification and analysis of
moderator variables JMR, Journal of Marketing Research (pre-1986); Aug 1981; 18, 3
La variable Modératrice homogénéisante.
La variable de ce type correspond à celle qui influence la force de la relation
entre une variable critère et une variable prédictive sans qu’elle n’interagisse
avec cette dernière et n’est pas significativement liée avec les deux variables.
Dans ce cas particulier, la variable modératrice est qualitative, elle est retenue
dans une recherche pour tenir compte des différences entre les observations
classées en groupes homogènes.
Figure N° 21 : Exemple de modèle avec variable modératrice de type
« homologizer »

Comment se rendre compte de la nécessité d’une variable


modératrice ?
L’identification d’une variable comme étant modératrice a fait l’objet de
plusieurs recherches et la plus connue est celle de S. Sharma et al. (1981) 21.
La raison d’être d’une variable modératrice est l’existence éventuelle d’une
variable cachée qui justifie des différences significatives sur la relation (de
causalité ou de corrélation) entre deux variables. Il est évident que la manière
d’identification de la présence d’une variable modératrice diffère selon la nature
de l’échelle de mesure des deux variables objets de lien étudié.
Pour se rendre compte de la nécessité de faire intervenir une variable
modératrice, on se base sur l’observation de la valeur du lien entre deux
variables dans différents travaux et un écart type élevé suggère la nécessite
d’une variable modératrice.
Tableau N° 4 : Effet de l’âge sur l’implication
Auteurs 1 2 3
Valeur de l’effet 2,25 0,05 -3,5

A ce propos, nous pouvons faire allusion à l’article de Churchill et al. (1980 p


110)22. Ces auteurs s’appuient sur les travaux de Hunter et al. (1982 p 6) 23 pour

17
Chapitre I. Introduction à l’analyse des données.

justifier la nécessité d’une variable modératrice. Il s’agit de diviser un ensemble


de travaux sur le lien entre deux variables en sous-ensembles en se basant sur
une variable modératrice et procéder à une méta-analyse pour chaque sous-
ensemble. Quand on constate une importante différence entre ces sous-
ensembles, on retient la variable modératrice.
La même manière est utilisée par A. Baldauf ; D.W Cravens (2002)24 pour
supposer qu’une variable, comme l’habilité du vendeur, est à considérer comme
modératrice à partir du moment où les différences des coefficients de régression
sont significatives entre les groupes.
Figure N° 22 : Effet modérateur

Traitement statistique de la variable modératrice.


La manière de traiter une variable modératrice VM dans un modèle théorique de
relation entre une variable V1 et une autre V2, dépend de l’échelle de mesure de
cette variable et de la méthode statistique utilisée pour vérifier les hypothèses.
L’approche consiste à appliquer la méthode statistique appropriée en intégrant
la variable modératrice. L’intégration d’une variable modératrice dans une
relation peut être faite par la voix de l’une de deux approches : l’analyse
multigroupe ou la création d’une nouvelle variable qui n’est autre que le produit
de la variable modératrice avec la variable exogène.

18
Chapitre I. Introduction à l’analyse des données.

Figure N° 23 : Approche d’intégration d’une variable modératrice dans un


modèle de relations.

La première approche consiste à retenir les modalités de la variable modératrice


et appliquer la méthode d’analyse autant de fois que de modalités. Si des
différences sont observées on parle de variable modératrice. La seconde
approche consiste à créer une variable par le produit de la variable exogène par
la variable modératrice et appliquer la méthode d’analyse appropriée. On parle
par exemple de régression linéaire avec variable modératrice « Moderator
regression », de régression logistique avec variable modératrice, d’analyse
discriminante avec variable modératrice. Différents cas sont considérés par
Barron et Kenny (1986)25 (Tableau N° 5).
Tableau N° 5: les différentes méthodes statistiques et intégration d’une variable
modératrice.
Variable Endogène
Variable Variable Continu Catégorique
Exogène modératrice
Continue Continue R.Li.V.M R.Lo.V.M
A.D.V.M
Catégorique R.Li.V.M
Catégorique Catégorique ANOVA (avec Test de Chi2
Interaction)
R.Li.V.M : régression linéaire avec variable modératrice, R.Lo.V.M : régression logistique avec variable
modératrice, A.D.V.M : Analyse Discriminante avec variable modératrice, ANOVA : Analyse de la variance
avec interaction des facteurs. Source : Baron Reuben M. and David A. Kenny (1986); The Moderator-
Mediator Variable Distinction in Social Psychological Research: Conceptual, Strategic, and Statistical
Considerations; Journal of Personality and Social Psychology; No. 6, 1173-1182
Nous présenterons dans le chapitre sur la régression multiple, une application avec une variable
modératrice (

19
Chapitre I. Introduction à l’analyse des données.

A.

20
Chapitre I. Introduction à l’analyse des données.

Error: Reference source not found).

Variable de Contrôle.
Dans certaines recherches et notamment expérimentales, on fait intervenir dans
l’analyse des variables dont on souhaite tout simplement éliminer ou atténuer
l’effet sans vouloir forcément mesurer leur effet sur la variable dépendante. Ce
type de variables est appelé variables de contrôle.  « Une variable de contrôle est
la quantité que les scientifiques gardent constante mais l’observe aussi
attentionnée que la variable dépendante ». Elle est celle qui intervient dans
l’estimation d’une relation sans qu’elle fasse l’objet d’une hypothèse de
recherche. Ce qui différencie donc une variable explicative X d’une variable de
contrôle C c’est l’absence d’hypothèse de recherche.
Figure N° 24 : Variable de contrôle.

X (indépendante, H1 Y (dépendante, à
explicative) expliquer)

C (Contrôle)

En comptabilité, on cite la recherche de Huang, T. C. et al.(2007)5, où les auteurs


retiennent l’âge et le statut matrimonial comme deux variables de contrôle.

5
Huang, T. C., Lawler, J., & Lei, C. Y. (2007). The effects of quality of work life on commitment and
turnover intention. Social Behavior and Personality: an international journal, 35(6), 735-750.
21
Chapitre I. Introduction à l’analyse des données.

1. Comment se rendre compte de la nécessité d’une variable


de contrôle ?
Comment se rendre compte de la nécessité d’inclure une variable de contrôle ?
- Exploiter l’expérience des travaux passés.
- Se baser sur les différences des résultats trouvés dans les recherches
précédentes.
- Consulter les limites et les voies de recherches des articles.
- Consulter des experts dans le domaine.
Intégration d’une variable de contrôle dans un modèle de
régression.
Comment inclure une variable de contrôle dans une analyse ?
Pour mettre en valeur l’effet des variables de contrôle dans une analyse de
régression linéaire ou logistique, une analyse discriminante ou une analyse par
les modèles des équations structurelles, on adopte une trois approches
suivantes :
a. Approche globale.
Cette approche consiste à estimer le modèle complet avec les variables de
contrôle et vérifier la significativité de l’effet de ces dernières et ce dans une
même relation. Le chercheur ne s’intéresse pas à l’effet des variables de contrôle
mais chose est sûre l’effet des variables principales (indépendantes) sur la
variable dépendante est calculé en tenant compte des variables de contrôle.

22
Chapitre I. Introduction à l’analyse des données.

Nous pouvons citer à titre d’exemple la recherche de D. Lamminmakia (2008) 26.


L’auteur estime une seule fonction à la fois incorporant les variables objets de
proposition de recherche (ex. size) et deux variables de contrôle Perf et LTSA.
Approche variable de contrôle puis avec variables d’intérêt.
Plusieurs auteurs estiment un modèle avec les variables de contrôle uniquement
puis ajoutent les variables d’intérêt et procèdent à l’évaluation des différences.
Nous citons en management, la recherche de Green, K. M. et al. (2008)27, nous
avons retenu leur matrice de corrélations pour réestimer les modèles. Nous
estimons les modèles par la méthode de régression hiérarchique. La manière et
les résultats sont affichés dans la Figure N° 25 et le Tableau N° 6.
Figure N° 25 : Procédure de la régression hiérarchique.

Tableau N° 6 : Résultats de l’estimation par la régression hiérarchique.


Erreur standard de F Sig.
Modèle R R-deux R-deux ajusté l'estimation
1 ,376a ,142 ,100 1,024429 3,429 ,007
2 ,592b ,351 ,300 ,903898 6,826 ,000
a. Prédicteurs : (Constante), Environmental dynamism, Firm size (employees), Relative sales
growth rate, Environmental hostility, Firm age (years)
b. Prédicteurs : (Constante), Environmental dynamism, Firm size (employees), Relative sales
growth rate, Environmental hostility, Firm age (years), Technocratic Decision-Making, Strategic
Reactiveness, Structural Organicity
Coefficientsa
Coefficients non Coefficients
standardisés standardisés
Erreur
Modèle B standard Bêta t Sig.
1 (Constante) 4,375 ,584 7,494 ,000
Firm size (employees) 4,724E-5 ,000 ,104 1,097 ,275
Firm age (years) -,002 ,003 -,067 -,706 ,482
Relative sales growth ,010 ,006 ,149 1,609 ,111
rate

23
Chapitre I. Introduction à l’analyse des données.

Environmental hostility -,245 ,100 -,229 -2,439 ,016


Environmental
,203 ,091 ,209 2,234 ,028
dynamism
2 (Constante) ,932 ,852 1,094 ,277
Firm size (employees) 3,276E-5 ,000 ,072 ,849 ,398
Firm age (years) -,002 ,003 -,051 -,595 ,553
Relative sales growth
,007 ,006 ,106 1,273 ,206
rate
Environmental hostility -,157 ,091 -,146 -1,717 ,089
Environmental
,199 ,081 ,204 2,439 ,016
dynamism
Technocratic Decision-
,212 ,074 ,236 2,858 ,005
Making
Strategic Reactiveness ,114 ,106 ,095 1,079 ,283
Structural Organicity ,372 ,090 ,369 4,135 ,000
a. Variable dépendante : Entrepreneurial Orientation

Kim, T., & Chang, K. (2014)28 ont étudié les effets de l'engagement
organisationnel et de l'engagement des employés dans les entreprises coréennes
sur leurs intentions de quitter et leurs comportements de citoyenneté
organisationnelle. En outre, en utilisant l'analyse des effets interactionnels, cette
étude a examiné les effets d'interaction des deux types de prise en compte des
intentions du roulement et des comportements de citoyenneté
organisationnelle. Au total, 209 employés dans neuf entreprises différentes ont
participé à cette étude. Les résultats ont révélé que l'engagement
organisationnel avait un effet négatif sur les intentions du chiffre d'affaires, alors
que les engagements professionnels avaient un effet positif. En outre,
l'engagement organisationnel a eu un effet positif sur les comportements de
citoyenneté organisationnelle, alors que l'engagement professionnel n'a pas eu
d'effet notable sur celui-ci. L'engagement organisationnel et l'engagement
professionnel ont montré certains effets d'interaction globaux concernant les
comportements de citoyenneté organisationnelle ainsi que les intentions de
roulement
Tableau N° 7 : Résultats de la régression avec variable de contrôle.
Unstandardized Standardized R²
Coefficients Coefficients R²ajust F ∆R²
B Std. Error Beta t Sig.
Mode (Constant) 4,244 ,497 8,545 ,000 0,064 0,048 2,970
l1 Age -,460 ,179 -,242 -2,562 ,011
Gender -,026 ,266 -,007 -,099 ,921
Education -,054 ,118 -,033 -,460 ,646
Organization ,051 ,207 ,017 ,244 ,808

24
Chapitre I. Introduction à l’analyse des données.
Working_year -,007 ,027 -,022 -,246 ,806
Mode (Constant) 5,180 ,515 10,049 ,000
l2 Age -,204 ,148 -,107 -1,375 ,171
Gender ,059 ,219 ,017 ,271 ,786
Education -,129 ,097 -,077 -1,328 ,186 18,26
0,389 0,368 0,325
Organization -,130 ,170 -,043 -,764 ,446 6
Working_year -,015 ,022 -,052 -,704 ,482
Org_commit -,657 ,069 -,566 -9,531 ,000
Occup_commit ,438 ,065 ,402 6,718 ,000
a. Dependent Variable : Turnover

En entreprenariat, nous citons l’article de Barringer, B. R., & Bluedorn, A. C.


(1999)29. Ces auteurs examinent dans cette étude la relation entre l'intensité de
l'entrepreneuriat d'entreprise et cinq pratiques de gestion stratégiques
spécifiques dans un échantillon de 169 entreprises manufacturières américaines.
Les cinq pratiques de gestion stratégiques comprennent : l'intensité de l'analyse,
la flexibilité de la planification, l'horizon de planification, le lieu de la planification
et les attributs de contrôle. Les auteurs ont inclus cinq variables de contrôle dans
l'analyse, deux mesures de l'environnement externe (turbulence et complexité),
deux mesures de la stabilité financière (niveau d'endettement et ratio de fonds
propres) et la taille de l'entreprise. Les auteurs font appel à la régression
hiérarchique en procédant en deux étapes. Dans la première étape, ils ont
régressé l'intensité de l'entrepreneuriat d'entreprise sur les variables de
contrôle. Dans la deuxième étape, ils ont régressé l'intensité de l'entrepreneuriat
d'entreprise sur les variables de contrôle et la dimension de gestion stratégique
associée à l'hypothèse. Le test F constituant le test de l'hypothèse reposait sur la
signification statistique de la variation de R² entre le modèle restreint (variables
de contrôle uniquement) et le modèle complet (variables de contrôle plus la
dimension de la gestion stratégique associée à l'hypothèse).
Figure N° 26 : Matrice et programme syntax pour une régression hiérarchique.

25
Chapitre I. Introduction à l’analyse des données.

Approche avec et sans les variables de contrôles.


Cette consiste à estimer plusieurs relations successives avec et sans les variables
de contrôle et d’examiner la significativité des différentiels obtenus sur les
paramètres et notamment le R² (coefficient de détermination multiple). Une
régression dite hiérarchique est utilisée dans ce sens.
Cette approche est utilisée dans les modèles de régression. Pour illustrer une
telle manière de procéder, nous empruntons à Bell et al. (2004)30 leur
application. Il s’agit d’expliquer la motivation au travail et l’engagement de
commercial au service client par les variables support organisationnel et des
variables support de supervision, les auteurs introduisent une variable
modératrice reflétant les plaintes du client. Les variables de contrôle sont au
nombre de 10, par exemple la taille du point de vente, la routine du travail etc.
Pour vérifier ces hypothèses, les auteurs de l’article procèdent par la méthode de
régression hiérarchique modératrice. Ils estiment pour chacune des deux
variables dépendantes, les chercheurs estiment trois modèles : un premier rien
qu’avec les variables de contrôle, le deuxième les variables de contrôle et les
variables explicatives avec effet principal et le troisième les variables de contrôle,
les variables explicatives avec effet principal et effet d’interaction. Dans un
premier modèle, les auteurs estiment uniquement les effets des variables de
contrôle, leur poids est assez significatif soit de 44%. L’ajout des effets
principaux et des effets d’interaction ne font pas augmenter le pouvoir explicatif
du modèle ce qui montre l’importance des variables de contrôle et celui du biais
si on les a ignorées.
Cette démarche est aussi utilisée par une recherche en entrepreneuriat par K.M.
Green et al. (2008)31. Les variables de contrôle déterminent 14,5% de la variance
de l’orientation entrepreneuriale, l’ajout des variables objets d’hypothèse fait
passer le R² du simple au double.
En stratégie, nous citons l’article de U. Lichtenthaler (2009)32 où l’auteur explique
le revenu de vente « return on sales ». L’auteur estime d’abord l’effet des
variables de contrôle dont le pouvoir explicatif est de 12% puis intègre les
variables principales pour constater une augmentation de R² de 4%.

Dans une recherche en marketing, J.E. McGee et al. (1995)33 deux variables ont
été retenues comme étant deux variables de contrôles : l’année de la création de
la société et le total de l’actif, la première servirait pour contrôler l’année
d’entrée dans l’industrie et la deuxième pour contrôler la taille de la firme.
L’estimation de l’effet des variables de contrôle a été faite avec les variables
objets d’hypothèses.
26
Chapitre I. Introduction à l’analyse des données.

Grant Richardson (2006)34 ont expliqué l’évasion fiscale en contrôlant d’une


manière successive sept variables liées à l’environnement économique, politique
et culturel. L’auteur a d’abord estimé le modèle sans les variables de contrôle, ce
qui lui donne un pouvoir explicatif de 80%, il a ajouté par la suite et d’une
manière successive les sept variables de contrôle sans constater une nette
différence dans le pouvoir explicatif.
En finance islamique, nous pouvons citer l’article de S. Farook et al. (2011)35.
Nous disposons dans cet article d’une matrice de corrélation qui nous servi pour
réestimer les paramètres de deux modèles un avec la variable de contrôle (size)
et un autre sans la variable de contrôle. Nous avons également créé un
programme syntax dans ce sens.
Figure N° 27 : Matrice des corrélations et programme syntax pour une régression

Les résultats sont résumés dans le Tableau N° 8. La variable SIZE n’a pas d’effet
significatif sur la variable dépendante (t de student <1,96) et le fait de la
contrôler ou non la variable SIZE ne modifie en rien les coefficients de régression
des différentes variables explicatives.
Tableau N° 8 : estimation des paramètres de régression pour le modèle avec et
sans la variable de contrôle.
Avec la variable de contrôle Sans la variable de contrôle
Coefficients
Coefficients non Coefficients non Coefficients
standardisés standardisés standardisés standardisés
Ecart Sig. Ecart
Modèle B standard Bêta t B standard Bêta Bêta t Sig.

27
Chapitre I. Introduction à l’analyse des données.
(Constante) ,149 ,208 ,714 ,480 ,311 ,165 1,886 ,066
PRCL -,001 ,008 -,013 -,108 ,915 ,000 ,008 ,002 ,013 ,989
MUSPOP ,365 ,159 ,285 2,296 ,027 ,363 ,160 ,284 2,267 ,029
IGSCORE ,046 ,013 ,488 3,619 ,001 ,054 ,011 ,575 4,941 ,000
IAH ,003 ,002 ,258 1,926 ,061 ,004 ,001 ,329 2,691 ,010
SIZE ,023 ,019 ,182 1,255 ,216
R² Ajusté ,392 ,384
F 6,932 8,163
Sig. 0,000 0,000
Approche des résidus.
L’approche des résidus consiste à estimer le modèle avec les variables de
contrôle uniquement et calculer le résidu qui devient une nouvelle variable
dépendante. Puis estimer le modèle en expliquant le résidu par les variables
explicatives (sans les variables de contrôle).
Cette manière d’intégrer les variables de contrôle est observée en marketing
dans la recherche de R. L Hess Jr et al. (2003 p135) 36. Ces auteurs estiment le
modèle de régression uniquement avec les variables de contrôle, puis retiennent
le résidu comme variable dépendante et font intervenir les variables objets
d’hypothèse.
i. Application de la méthode des résidus en économie
Pour illustrer cette approche, nous utilisons les données de l’ Article de Goldsmith, A.
A. (1995)37. Dans cet article, nous disposons d’une matrice des données initiales
sur 59 pays en sous-développement et en transition. Cet article explore la
relation entre les facteurs institutionnels (PIBGROW est le taux de croissance
moyen du PIB pour les six années 1988 à 1993, GDINV est l'investissement
intérieur brut en pourcentage du PIB en 1990, EXPORT est les exportations en
pourcentage du PIB en 1990, EXSOC est une variable artificielle désignant les
pays de l’ex bloc socialiste, POLRGTS est l’indice des droits politiques de Freedom
House pour 1992-1993 et PROPINDX est l’indice des droits de propriété et de
l’héritage) et la croissance dans les années 80 et le début des années 90. En
introduisant la variable de contrôle, l’auteur remarque que de toute évidence,
les facteurs institutionnels n’ont qu’une influence sur la croissance économique.
Il existe une diversité de modèles théoriques pour expliquer les changements de
revenus nationaux, et la plupart des modèles contiennent des variables
économiques plus conventionnelles. Un problème d'endogénéité existe
probablement, car des facteurs économiques peuvent également être corrélés
avec les droits politiques et économiques et ainsi colorer leurs effets. Pour isoler
le rôle des institutions, davantage de variables explicatives sont nécessaires pour
pouvoir identifier leur relation avec la variable dépendante (taux de croissance
annuel du produit national brut de 1980 à 1990). La part des dépenses dans le
28
Chapitre I. Introduction à l’analyse des données.

produit intérieur brut a été introduite en tant que variable de contrôle. Seules
les variables présentées dans le Tableau N° 9 sont retenues dans la présente
analyse en raison du manque d’information sur les autres variables.
Tableau N° 9: Statut des variables dans le modèle estimé
Variable dépendante Variables indépendantes Variable de contrôle
GDPGROW : Average annual GDINV EXPORT
growth rate of GDP (1988-93 POLRGTS
or available years). PROPINDX

En faisant cette régression, nous obtenons une nouvelle colonne dans la matrice
initiale qui contient la variable dépendante après avoir neutraliser la variable de
contrôle.

Tableau N° 10: Chemin à suivre sur SPSS pour effectuer une régression sur la
variable de contrôle et enregistrer le résidu non standardisé.

Dans un second temps, on effectue une régression en retenant cette nouvelle


variable dépendante avec les trois variables principales (indépendantes).

29
Chapitre I. Introduction à l’analyse des données.

Tableau N° 11 : Régression du résidu avec les variables indépendantes.

Pour interpréter les résultats obtenus, on dira ceci : 29,1% de la variance de


produit intérieur brut GDP après avoir neutralisé la variable de de contrôle
EXPORT, est expliqué par les trois variables indépendantes (Tableau N° 12). Pour
s’assurer de la véracité de ce résultat, on fait appel au test de Fisher (Tableau N°
13).
Tableau N° 12 : Récapitulatif des modèlesb
Erreur standard de
Modèle R R-deux R-deux ajusté l'estimation
1 ,572a ,328 ,291 ,84059808
a. Prédicteurs : (Constante), GDINV is gross domestic investment as a percent of the GDP in
1990, POLRGTS is the Freedom House political rights index for 1992-93, PROPINDX is the
Heritage Foundation index of property rights
b. Variable dépendante : Unstandardized Predicted Value

L’hypothèse nulle à tester H0 : Aucune des trois variables indépendantes


n’explique GDP (résiduel). Le risque de rejet à tort est nul, conséquence : H0 est
rejetée. Il existe au moins une variable parmi les trois qui explique GDP.
Tableau N° 13 : ANOVA et Test de Ficher.
Somme des
Modèle carrés ddl Carré moyen F Sig.
1 Régression 18,929 3 6,310 8,929 ,000b
Résidu 38,863 55 ,707

30
Chapitre I. Introduction à l’analyse des données.
Total 57,792 58
a. Variable dépendante : Unstandardized Predicted Value
b. Prédicteurs : (Constante), GDINV is gross domestic investment as a percent of the GDP in
1990, POLRGTS is the Freedom House political rights index for 1992-93, PROPINDX is the
Heritage Foundation index of property rights

Tableau N° 14 : coefficients de régression multiples.


Coefficients non Coefficients Statistiques de
standardisés standardisés colinéarité
Erreur
Modèle B standard Bêta t Sig. Tolérance VIF
1 (Constante) 3,577 ,545 6,562 ,000
POLRGTS is the
Freedom House
,004 ,066 ,007 ,059 ,953 ,883 1,133
political rights index
for 1992-93
PROPINDX is the
Heritage Foundation
-,562 ,143 -,471 -3,920 ,000 ,845 1,183
index of property
rights
GDINV is gross
domestic investment
,028 ,014 ,234 2,021 ,048 ,909 1,100
as a percent of the
GDP in 1990
a. Variable dépendante : Unstandardized Predicted Value

Pour vérifier si la variable de contrôle (EXPORT) est pertinente ou non, on a


régressé la variable dépendante originale avec les trois variables indépendantes.
Le résultat n’est pas le même : une variable GDINV, devient non significative
quand la variable de contrôle est exclue. La variable de contrôle doit faire partie
du modèle de régression de cette recherche.
Tableau N° 15 : Estimation de la variable dépendante (sans contrôler EXPORT)
Coefficientsa
Coefficients non Coefficients Statistiques de
standardisés standardisés colinéarité
Erreur
Modèle B standard Bêta t Sig. Tolérance VIF
1 (Constante) 6,906 2,171 3,182 ,002
POLRGTS is the
Freedom House
political rights ,039 ,264 ,019 ,148 ,883 ,883 1,133
index for 1992-
93
PROPINDX is the -1,959 ,571 -,443 - ,001 ,845 1,183
Heritage 3,433
Foundation index
of property rights

31
Chapitre I. Introduction à l’analyse des données.

GDINV is gross
domestic
investment as a ,046 ,055 ,104 ,838 ,406 ,909 1,100
percent of the
GDP in 1990
a. Variable dépendante : GDPGROW is the average growth rate of the GDP for the six years
1988 to 1993: dependant variable
Intégration de la variable de contrôle par la corrélation
partielle.
Dans le calcul de la corrélation linéaire on peut être amené à contrôler une
variable d’où la nécessité de faire appel à la corrélation partielle.
Figure N° 28 : Corrélation partielle entre Ventes et Prix sous contrôle MTB
Variables de contrôle Prix Ventes
mtb Prix Corrélation 1,000 -,141
Signification (bilatérale) . ,404
ddl 0 35
Ventes Corrélation -,141 1,000
Signification (bilatérale) ,404 .
ddl 35 0
Intégration de la variable de contrôle dans le test de Chi2.
Quand il s’agit de deux variables nominales et quand il s’agit de contrôler
l’association par la prise en compte d’une troisième variables on utilise le test de
chi2 avec variable de contrôle. Pour illustrer ce cas, nous faisons appel à une
matrice initiale disponible sur SPSS «  Satisf.sav”. Cette matrice est le résultat
d’une enquête38 menée par une chaîne de magasins. Afin de déterminer le taux
de satisfaction de la clientèle, une entreprise de vente au détail mène des
enquêtes sur 582 clients en 4 endroits différents (magasins). Une enquête auprès
d’un échantillon de clients est faite dans quatre points de vente pris au hasard
D'après les résultats de l'enquête, on a constaté que la qualité du service client
était le facteur le plus important de la satisfaction globale du client. Compte tenu
de ces informations, la direction souhaite tester si chacun des magasins offre un
niveau de service similaire des autres.

32
Chapitre I. Introduction à l’analyse des données.

Figure N° 29 : Chemin sur SPSS pour une analyse de satisfaction client.

Figure N° 30 : SUITE : Sélection des statistiques

Figure N° 31 : Suite : sélection des fréquences.

Les fréquences observées et théoriques sont présentées dans le Tableau N° 16.

33
Chapitre I. Introduction à l’analyse des données.

Tableau N° 16 : Tableau croisé Magasin * Satisfaction service


Satisfaction service Total
Très Plutôt Neutr Plutôt Très
négative négative e positive positive
Effectif 25 20 38 30 33 146
Magasi
Effectif
n1 23,3 26,3 39,4 28,1 28,8 146,0
théorique
Effectif 26 30 34 27 19 136
Magasi
Effectif
n2 21,7 24,5 36,7 26,2 26,9 136,0
Magasi théorique
n Effectif 15 20 41 33 29 138
Magasi
Effectif
n3 22,1 24,9 37,2 26,6 27,3 138,0
théorique
Effectif 27 35 44 22 34 162
Magasi
Effectif
n4 25,9 29,2 43,7 31,2 32,0 162,0
théorique
Effectif 93 105 157 112 115 582
Total Effectif
93,0 105,0 157,0 112,0 115,0 582,0
théorique

Le test de Chi2 (Tableau N° 17) permet de retenir l’hypothèse d’indépendance


entre le type de points de vente et la satisfaction-service. Le risque de rejet de
H0 (indépendance entre le type de point de vente et le niveau de service. C’est
ce que souhaite la direction dans un soucis de standardisation du service) est très
élevé (> 5%), on ne pas l’assumer et rejeter H0 ; d’où H0 est accepté. Ce résultat
confirme que la satisfaction des clients vis-à-vis du service est la même d’un
point de vente à une autre.
Tableau N° 17 : Tests du Khi-deux
Valeur ddl Signification asymptotique
(bilatérale)
Khi-deux de Pearson 16,293a 12 ,178
Rapport de vraisemblance 17,012 12 ,149
Association linéaire par linéaire ,084 1 ,772
Nombre d'observations valides 582
a. 0 cellules (0,0%) ont un effectif théorique inférieur à 5. L'effectif théorique minimum est de
21,73.

On soupçonne tout de même des différences au sein de la population étudiée.


Pour illustrer ce cas particulier, nous reprenons l’exemple des différences de
satisfaction client à travers les points de vente. Nous avons montré dans
l’exemple de la satisfaction client une indépendance entre la satisfaction et le
magasin. Cette conclusion peut paraître en contradiction avec les soupçons du
responsable de la chaîne d’une grande surface. On soupçonne le fait que le client

34
Chapitre I. Introduction à l’analyse des données.

ait ou non des contacts avec le représentant du service. D’où l’idée de contrôler
une variable traduisant les différences.
Le test du chi-carré est effectuée séparément pour les clients qui ont fait et pour
ceux qui n'ont pas eu contact avec un représentant du magasin. Bien que n'étant
pas directement liée à la qualité du service rendu par vos employés, on peut
considérer une analyse séparée de ces clients afin de déterminer s'il ya un autre
facteur qui explique cette relation.
Figure N° 32 : Test de Chi2 avec intégration d’une variable de contrôle.

Tableau N° 18 : Matrice des fréquences observées et théoriques avec variable de


contrôle.
Tableau croisé Magasin * Satisfaction service * Contact avec l'employé
Contact avec l'employé Satisfaction service Total
Très Plutôt Neutre Plutôt Très
négative négative positive positive
Effectif 16 9 18 17 19 79
Magasin
Effectif
1 12,0 14,2 20,8 16,9 15,0 79,0
théorique
Effectif 2 15 16 13 12 58
Magasin
Effectif
2 8,8 10,4 15,3 12,4 11,0 58,0
théorique
Magasin
Effectif 9 14 23 22 14 82
Magasin
Non Effectif
3 12,5 14,8 21,6 17,6 15,6 82,0
théorique
Effectif 17 14 19 10 10 70
Magasin
Effectif
4 10,7 12,6 18,4 15,0 13,3 70,0
théorique
Effectif 44 52 76 62 55 289
Total Effectif
44,0 52,0 76,0 62,0 55,0 289,0
théorique
Oui Magasin Effectif 9 11 20 13 14 67
Magasin
Effectif
1 11,2 12,1 18,5 11,4 13,7 67,0
théorique
Effectif 24 15 18 14 7 78
Magasin
Effectif
2 13,0 14,1 21,6 13,3 16,0 78,0
théorique
Magasin Effectif 6 6 18 11 15 56

35
Chapitre I. Introduction à l’analyse des données.
Effectif
3 9,4 10,1 15,5 9,6 11,5 56,0
théorique
Effectif 10 21 25 12 24 92
Magasin
Effectif
4 15,4 16,6 25,4 15,7 18,8 92,0
théorique
Effectif 49 53 81 50 60 293
Total Effectif
49,0 53,0 81,0 50,0 60,0 293,0
théorique
Effectif 25 20 38 30 33 146
Magasin
Effectif
1 23,3 26,3 39,4 28,1 28,8 146,0
théorique
Effectif 26 30 34 27 19 136
Magasin
Effectif
2 21,7 24,5 36,7 26,2 26,9 136,0
théorique
Magasin
Effectif 15 20 41 33 29 138
Magasin
Total Effectif
3 22,1 24,9 37,2 26,6 27,3 138,0
théorique
Effectif 27 35 44 22 34 162
Magasin
Effectif
4 25,9 29,2 43,7 31,2 32,0 162,0
théorique
Effectif 93 105 157 112 115 582
Total Effectif
93,0 105,0 157,0 112,0 115,0 582,0
théorique

Tableau N° 19 : Tests du Khi-deux


Contact avec l'employé Valeur ddl Signification asymptotique
(bilatérale)
Khi-deux de Pearson 20,898b 12 ,052
Rapport de vraisemblance 22,937 12 ,028
Non Association linéaire par linéaire 3,514 1 ,061
Nombre d'observations valides 289
Khi-deux de Pearson 25,726c 12 ,012
Rapport de vraisemblance 25,777 12 ,012
Oui Association linéaire par linéaire 1,993 1 ,158
Nombre d'observations valides 293
Khi-deux de Pearson 16,293a 12 ,178
Rapport de vraisemblance 17,012 12 ,149
Total Association linéaire par linéaire ,084 1 ,772
Nombre d'observations valides 582
a. 0 cellules (0,0%) ont un effectif théorique inférieur à 5. L'effectif théorique minimum est de
21,73.
b. 0 cellules (0,0%) ont un effectif théorique inférieur à 5. L'effectif théorique minimum est de 8,83.
c. 0 cellules (0,0%) ont un effectif théorique inférieur à 5. L'effectif théorique minimum est de 9,37.

Nature des variables dans un modèle.


A. Variables latentes et variables observables.
La notion de variable latente revient à Green, P. E. et al. (1976) 39, considérés
comme étant les premiers à l’avoir utilisée. Une variable latente est définie
comme « un concept non observable, objet d’hypothèse et ne peut être abordée
d’une manière approximative que par des variables observables ou mesurables »
36
Chapitre I. Introduction à l’analyse des données.

Hairs et al. (1995 p 585).


« Une variable latente est une variable qui ne peut être mesurée directement,
mais qui est supposée être à la base des variables observées.  Un exemple de
variable latente est un facteur dans l’analyse factorielle.  Les variables latentes
dans les diagrammes de causalité sont souvent représentées par un nom de
variable entouré d’un cercle ou d’un ovale »
Le passage par des variables latentes s’impose pour certains concepts qui ne
peuvent être mesurés directement.
La notion de variable latente est liée à la notion d’échelle de mesure qui n’est
autre qu’« un rassemblement d’énoncés qui sont supposés rendre compte
indirectement du phénomène sous-jacent au construit que le chercheur souhaite
saisir et mesurer » (DeVellis, 1991)40. La relation entre la variable latente et ses
variables observables peut être réflexive, formative ou du type MIMIC.
1. Le modèle de mesure réflexif.
Le modèle de mesure réflexif est le plus courant dans la littérature. Un modèle
de mesure réflexif est formé d’une variable latente et une batterie de variables
observables positivement corrélées (Bollen and Lennox 1991 ; Edwards and
Bagozzi 2000 ; Fornell 1982 cités par Coltman et. Al. 200841).
Des mesures sont dites réflexives quand elles représentent un reflet, une image,
une manifestation (Fornell et Bookstein 1982)42 ou une facette d’un construit
(variable latente). (Blalock 1985, MacCallum et Browne 1993 cités par K. Law and
Shim Sum Wrong (1999)43 p144).
La relation réflexive est schématisée comme suit :
Figure N° 33 : Schéma du modèle réflexif.

Source: Edwards J.R. and R.P. Bagozzi (2000), On the Nature and Direction of relationships
Between Constructs and Measures; Psychological Methods, Vol 5 N°2 pp 115-174.
« Une échelle est constituée d’indicateurs réflexifs, dont les valeurs sont causées
par un construit sous-jacent. C’est la température qui cause la variation du
thermomètre et non le contraire. C’est l’attitude bonne ou mauvaise qui cause la
réponse pas du tout d’accord/ tout à fait d’accord à un item et non le contraire »
Darpy (1999-2003)44
Dans une échelle de mesure de l’ethnocentrisme (CETSCALE) de Shimp et Sharma
1987)45, c’est le niveau d’ethnocentrisme chez l’individu qui cause la réponse
37
Chapitre I. Introduction à l’analyse des données.

Tout à fait d’accord à pas du tout d’accord à chacun des 17 items de mesure et
non le contraire.
Dans le modèle réflexif, le construit exerce un effet de causalité sur la variable
observable.
La mesure est formée de deux composantes : la composante réelle « true score
t » et la composante de l’erreur « random score e » (Lord and Novick 196846 cités
par D/ W GERBING ; J.C ANDERSON 1984)47. La mesure peut donc s’écrire : x=t+e
sachant que Cov(t,e)=0 et E(x)=t
La valeur réelle étant définie comme la valeur espérée de la mesure. L’erreur e
représente des inconsistances liées à des mesures parallèles. L’erreur est
aléatoire. Ce raisonnement fait pour une seule mesure est valable pour des
mesures multiples.
La relation de causalité prend la forme suivante : xi=lix+di où xi désigne la
variable observable, x : la variable latente ou le construit ; li la contribution
factorielle représentant l’effet de x sur xi et di l’erreur de mesure aléatoire.
Le modèle de mesure Formatif.
Depuis une dizaine d’années, la mesure formative gagne du terrain au dépend de
la mesure réflexive. Les chercheurs en sociologie sont ceux qui ont en fait le plus
grand usage (Curtis and Jakson 1962), Blalock 1964, 1971 et Land 1970). Les
chercheurs en Marketing adoptant la mesure formative sont plutôt rares (Fornell
et Bookstein 1982) et Diamantopolos 48 cite à ce propos Diamantopoulos and
Winklhofer (2001) et plus récemment Rossiter (2002) and Jarvis et al. (2003).
La mesure formative est décrite par Blalock (1971) 49 cité par Jeffrey R. Edwards
and Richard P. Bagozzi 2000)50 pour désigner la variable latente mesurée par une
ou plusieurs de ses causes. De même MacCallum et Brown (1993, p 533) et
Bedeian, Day et Kelloway (1997 p 788) précisent que les mesures formatives
peuvent être considérées comme des causes de la variable latente.
L’idée commune des modèles de mesures formatives part du principe qu’il est
possible de constater que des indicateurs (variables observables) peuvent causer
la variable latente et non le contraire (MacCallum, R.C.and M.W.Browne (1993 51)
cité par A.Diamantopoulos ; Heidi M Winklhofer 52. On confond souvent entre
indicateur formatif et indicateur causal53.
Bagozzi (1994)54 remarque quand une variable latente est définie comme une
somme linéaire d’un ensemble de mesures ou quand un ensemble de mesures
d’une variable dépendante est déterminé par une combinaison linéaire des
mesures de variables indépendantes, les mesures sont appelées indicateurs
formatifs. Le construit formatif est confondu avec la notion d’indice différent à
son tour de la notion d’échelle.
38
Chapitre I. Introduction à l’analyse des données.

L’exemple typique de la variable latente cité dans ce sens est celui du statut
socioéconomique (Hausser et Goldbeger 1971 et Haisser1973) 55, celui de la
réussite dans la carrière professionnelle (Judge et Bretz 1994 56) et celui de la
qualité de la vie (Bollen and Ting 2000 57, Fayers, hand, Bjordal and Groenvold
199758).
En ce qui concerne le statut socio-économique qui n’est autre qu’une
combinaison de variables observables comme l’éducation, le revenu, la
profession et le lieu de résidence Ces variables forment donc le concept latent.
La dimension formative est manifestée par le principe que si une composante du
statut socioéconomique, le revenu par exemple augmente, ledit statut augmente
sans pour autant qu’un changement soit constaté dans les autres composantes.
A l’inverse le statut socioéconomique d’un individu peut augmenter sans qu’il ne
soit accompagné par une augmentation systématique des quatre composantes
(A. Diamantopoulos ; H. M Winklhofer (2001))59.
Tableau N° 20: Modèle formatif
Modèle formatif sans erreur Modèle formatif avec erreur
d’estimation (ξ) d’estimation (ξ)
ζ
x1 γ1
x1 γ1 1

η
η x2
x2 γ2
γ2
γ3
x3
γ3
x3
Eta=γ1*x1+ γ2*x2+ γ3*x3 Eta=γ1*x1+ γ2*x2+ γ3*x3+ζ

La relation formative entre une variable latente et ses mesures se schématisent


de deux manières :
 La première permet d’écrire l’équation mettant en évidence un lien de
causalité entre les mesures et la variable latente. Par exemple pour un
modèle de mesure formatif à trois variables l’équation s’écrit comme
suit : η= γ1x1+ γ2x2+ γ3x3 ou en général η= Σγixi
 La deuxième manière consiste à ajouter une erreur dite erreur
d’estimation

La relation mathématique se présente comme suit :

39
Chapitre I. Introduction à l’analyse des données.

Le construit est formatif s’il remplit les propriétés suivantes (Adamantios


Diamantopoulos ; Heidi M Winklhofer):
 Les indicateurs (variables observables), ne sont pas essentiellement
interchangeables, l’omission d’un indicateur représente une omission
d’une part du construit (Bollen et Lennox 1991 p 308).
 Les indicateurs d’un construit formatif sont des variables exogènes, les
corrélations entre eux ne sont pas expliquées par le modèle de mesure.
L’estimation de leur validité s’impose (Bollen 1989).
 Il n’y a pas de raison que le modèle spécifique de signe (négatif ou positif)
et son amplitude (élevée, modérée ou faible) doivent caractériser les
corrélations entre les indicateurs formatifs. (Bollen, 1984)
 L’indicateur formatif n’a pas de terme d’erreur. La variance de l’erreur est
représentée uniquement pour la variable latente et la corrélation entre
indicateur et erreur de la variable latente est nulle.
 Le modèle de mesure d’un construit formatif est statistiquement sous
identifié Le modèle ne peut être identifié que s’il est placé dans le cadre
d’un modèle plus large incorporant les conséquences de la variable
latente (Bollen 1989) 60.
 Quand le modèle de mesure est intégré dans un modèle global,
l’identification des paramètres est problématique.
Le modèle de mesure MIMIC.
Le modèle MIMIC (Multiple Indicateur / Multiple Cause) est une combinaison du
modèle formatif et du modèle réflexif. Il tient sa raison d’être à la fois à une
réalité qui peut exister dans la nature des liens entre une variable latente et ses
mesures et à un problème technique d’identification du modèle formatif (voir
chapitre5). La première raison d’être est le fait de se trouver en présence d’un
phénomène social abordé par un ensemble de mesures dont certaines sont les
causes et d’autres sont les reflets. La deuxième raison d’être est le fait qu’un
modèle de mesure formatif, n’ayant pas la possibilité d’être identifié, nécessitera
l’ajout de mesure mais celles-ci lui sont liées d’une manière réflexive.

40
Chapitre I. Introduction à l’analyse des données.

Figure N° 34 : Modèle MIMIC de l’éfficacité de la prévision des ventes


X1
X2 eFE
X3 1
1
1 Y1 ey1
X4 Forecasting 1
X5 Effectiveness Y2 ey2
1
X6 Y3 ey3

X7
X8

Pour illustrer ce modèle, nous nous empruntons à Winklhofer et al. (2002) leur
application. Les auteurs s’intéressent à la variable latente  efficacité de la
prévision, elle est mesurée d’une manière réflexive par trois items (y1, y2 et y3)
et d’une manière formative par huit autres items (x1 à x8).
Tableau N° 21 : Les items réflexifs et les items formatifs
Items formatifs Items réflexifs
x1 = % moyen d’erreur absolue à court terme y1 = Meilleure compétence
x2 = % moyen d’erreur absolue à moyen terme des prévisions à l’export
x3 = Fréquence des fois où les ventes dans l’industrie.
prévisionnelles ont tendance à sous-estimer les y2 = Confiance des preneurs
ventes réalisées à l’export. de décision dans les
x4 =tendance de surestimation des ventes à prévisions effectuées.
l’export. y3 = comparées aux
x5 = préparation à l’avance des prévisions et des concurrents les aptitudes de
décisions relatives à l’export. prévision des ventes sont
x6 = retard dans la réception des informations meilleures.
par le preneur de décision.
x7 = Le coût de l’information pour les opérations
à l’export sont toujours souvent prohibitive.
Environnemental turbulence
x8 = Turbulence de l’environnement
Dans la formulation des hypothèses, les auteurs font allusion à la nature du lien
entre chaque item et la variable latente.
Comparaison entre construit réflexif et construit formatif.
Après avoir présenté les caractéristiques de chacun des deux modèles de
mesure, nous procédons à présent à une comparaison dans l’espoir de lever
toute équivoque entre les deux modèles.

41
Chapitre I. Introduction à l’analyse des données.

Il est à noter que différents auteurs présentent la comparaison moyennant


plusieurs critères. Coltman et al. (2008) 61 suggèrent cinq niveaux de
comparaison :
Tableau N° 22 : Comparaison entre le construit réflexif et le construit formatif.
Construit réflexif Construit formatif
Nature du La variable latente existe Le construit latent n’existe
construct indépendamment des qu’à travers les mesures
mesures utilisées
Direction de la Les liens de causalité sont Le lien de causalité de
causalité du construit vers l’indicateur l’indicateur vers le
construit.
Caractéristiques Les indicateurs peuvent être « Les items ou les
des indicateurs interchangeables et il est indicateurs définissent le
possible de se contenter construit. Le domaine
d’un échantillon réduit représenté par le construit
d’items. L’inclusion ou est sensible au nombre et
l’exclusion d’un ou de aux types d’indicateurs
plusieurs items du domaine sélectionnés pour
n’altère pas la validité du représenter le construit.
contenu du construit Enlever ou ajouter un
appartenant au domaine du indicateur peut changer le
construit (Jarvis et al 2003) domaine conceptuel du
construit ».
Corrélation entre Les items sont positivement Les items ne sont pas
les items et fortement corrélés nécessairement corrélés
Relation entre Les indicateurs doivent avoir Il n’est pas nécessaire que
indicateurs et les les mêmes antécédents et les indicateurs aient les
construits les mêmes conséquences mêmes antécédents et les
antécédents et mêmes conséquences
conséquences

Le choix entre une spécification formative et une spécification réflective est


principalement basé sur des considérations théoriques se rapportant sur la
relation de causalité entre indicateurs et variable latentes.
Variable Artificielle.
Dans l’application de certaines méthodes d’analyse statistique qui exigent que
les variables explicatives ou de contrôle soit métriques, la présence d’une
42
Chapitre I. Introduction à l’analyse des données.

variable catégorique ne peut être intégrée dans le modèle que si elle est
convertie en variable (s) artificielles (s) codée 0 ou 1.
Dans une étude on peut observer des sous-groupes dans un échantillon, par
exemple il s’agit d’expliquer la performance des commerciaux par la taille de leur
territoire et leur expérience. L’expérience étant une variable nominale
permettant d’observer deux sous-groupes : les commerciaux ayant plus de 5 ans
d’expérience et ceux qui ont moins de cinq ans d’expérience.
Pour traiter ce cas, il est possible d’emprunter l’une des deux voies suivantes :
 La première : Procéder par une analyse statistique (régression par
exemple) en considérant les groupes de l’échantillon séparément et de
faire autant d’analyse statistique que de sous-groupes. Cette solution
n’est possible que si la taille de l’échantillon est importante et le nombre
de modalités de la variable catégorique désignant les sous-groupes est
faible.
 Quand ce n’est pas le cas, il est possible d’estimer un seul modèle (de
régression par exemple) en considérant des groupes multiples dans une
même étude. Les variables artificielles constituent la solution pour ce cas
particulier.

La variable artificielle, encore appelée variable muette ou « dummy variable » est


considérée comme une variable numérique pour représenter les sous-groupes
d’un échantillon dans une étude.
Ce type de variables est considéré pour chaque variable nominale ou ordinale. La
procédure d’inclusion consiste à créer autant de variables dichotomiques codées
0 ou 1 que de modalités moins 1 de la variable explicative catégorique.
Par exemple, si on retient l’exemple de la performance de la force de vente, on
dispose de 5 variables métriques et de deux variables nominale : le genre et la
région. Pour une variable nominale ou ordinale à k modalités, le nombre de
variables artificielles à créer est de k-1. La variable région à 3 modalités, il
convient de créer 2 variables artificielles. La Figure N° 35 permet de voir
comment on créer ces variables sur SPSS.

43
Chapitre I. Introduction à l’analyse des données.

Figure N° 35 : Manière sur SPSS pour créer des variables artificielles.

Tableau N° 23 : Matrice des données de vente après création des variables
artificielles.
Aptitude
vendeur
Vente Revenu (communi, Nombre Potentiel
moyenne annuel compet d'années du Région Région=G
réalisée moyen etc..) d'expérience territoire commerciale Genre Genre=Femme Genre=Homme Région=Tunis D Régions Région=autres
1 40128 713 1,27 4,08 179,50 GD Femme OUI Non Non OUI Non
Régions
2 35700 823 1,05 3,65 144,00 GD Femme OUI Non Non OUI Non
Régions
3 62639 1031 1,09 6,37 179,00 autres Homme Non OUI Non Non OUI
4 28274 1121 1,41 2,94 182,00 Tunis Femme OUI Non OUI Non Non
5 49306 1420 1,14 5,07 171,10 GD Femme OUI Non Non OUI Non
Régions
6 62080 1811 1,25 6,39 205,00 autres Homme Non OUI Non Non OUI
7 35343 1934 1,17 3,73 160,00 GD Femme OUI Non Non OUI Non
Régions
8 59660 2000 ,62 6,17 38,50 autres Femme OUI Non Non Non OUI
9 63596 2182 1,26 6,58 208,50 autres Femme OUI Non Non Non OUI
10 30542 2462 1,28 3,30 169,90 GD Femme OUI Non Non OUI Non
Régions
11 4140 2500 ,84 ,66 5,60 Tunis Homme Non OUI OUI Non Non
12 5216 2500 ,75 ,77 5,80 Tunis Homme Non OUI OUI Non Non
13 6454 2500 ,67 ,90 6,00 Tunis Homme Non OUI OUI Non Non
14 31677 2747 1,03 3,44 138,00 GD Femme OUI Non Non OUI Non
Régions
15 26512 2793 1,22 2,93 158,00 Tunis Femme OUI Non OUI Non Non
16 19152 2811 1,13 2,20 137,50 Tunis Femme OUI Non OUI Non Non
17 62291 2857 1,05 6,51 173,00 autres Femme OUI Non Non Non OUI
18 58375 2895 1,04 6,13 167,00 autres Femme OUI Non Non Non OUI
19 10986 3000 1,03 1,40 14,40 Tunis Homme Non OUI OUI Non Non
20 48000 3289 1,16 5,13 175,00 GD Femme OUI Non Non OUI Non
Régions
21 47751 3351 1,12 5,11 169,00 GD Femme OUI Non Non OUI Non
Régions
22 8131 3416 1,39 1,15 16,00 Tunis Homme Non OUI OUI Non Non
23 29100 3616 1,33 3,27 177,00 GD Femme OUI Non Non OUI Non
Régions
24 68270 4022 1,14 7,23 196,00 autres Femme OUI Non Non Non OUI
25 27017 4312 1,27 3,13 167,00 GD Femme OUI Non Non OUI Non
Régions
26 36036 4448 1,18 4,05 165,30 GD Femme OUI Non Non OUI Non
Régions
27 40656 4673 1,18 4,53 172,00 GD Femme OUI Non Non OUI Non
Régions

44
Chapitre I. Introduction à l’analyse des données.
28 53878 4768 1,10 5,86 174,90 GD Femme OUI Non Non OUI Non
Régions
29 20617 4797 1,34 2,54 167,90 Tunis Femme OUI Non OUI Non Non
30 40946 4824 1,14 4,58 166,00 GD Femme OUI Non Non OUI Non
Régions
Total N 30 30 30 30 30 30 30 30 30 30 30 30
a. Limité aux 30 premières observations.

Comment choisir la modalité de référence ?


Le choix de la modalité de référence se fait en raisonnant par rapport aux trois
considérations suivantes (Statnotes)62 :
 Le groupe de référence est celui désigné par la modalité de référence,
celui-ci doit être clairement défini puisqu’il servira de renvoi quand on
veut interpréter le coefficient de régression par exemple qui est censé
refléter le changement dans la variable dépendante. Un groupe de
référence du genre « autre » ou « divers » n’est pas le bon groupe de
référence, la comparaison risque d’être ambiguë.
 Le groupe de référence ne doit pas comprendre un nombre faible
d’observations sans quoi la comparaison devient stable et peu pertinente.
 En cas d’échelle catégorique ordinale, il est préférable de choisir la
modalité médiane ou le groupe médian en raison de sa qualité
comparative avec les extrémités de l’échelle.
Variable instrumentale.
Une variable instrumentale part du principe que les variables explicatives x i sont
statistiquement indépendantes du terme d’erreur µi (E(xi/µi=0)). On parle
d’hypothèse d’exogénéité. Quand cette hypothèse n’est pas vérifiée, les
estimateurs βi sont biaisés et la variable xi n’est pas considérée comme exogène
mais endogène au sens que βi n’est pas retenu comme effet causal de x sur Y.
Pour aller outre cette difficulté, on fait intervenir une variable instrumentale z i
choisir de façon à ce qu’elle soit corrélée avec x i mais toujours non corrélées avec
l’erreur µi E(zi/µi=0)). Pour analyser l’effet de x sur y, on estime les paramètres du
système d’équation suivant :
Yi=β0+β1xi+µi
Xi=ϒ0+ ϒ1zi+υi
De cette façon, en étudiant la variation de y i et de xi en fonction de zi on peut
estimer sans bais l’effet de xi sur yi
« Pour que les régressions de variables instrumentales fonctionnent, chaque
instrument doit satisfaire à deux conditions, à savoir la pertinence instrumentale
et l’exogénéité instrumentale. Si un instrument est pertinent, la variation de
l'instrument est liée à la variation de la variable instrumentée (par exemple, les
coûts de transaction). En outre, il doit satisfaire à la restriction d’exclusion, c’est-

45
Chapitre I. Introduction à l’analyse des données.

à-dire que l’instrument doit être décorrélé de la variable de choix choisie (par
exemple, la participation des marchés émergents) » H. Lu (2008 p27).
Pour illustrer la variable instrumentale, nous nous référons à l’exemple suivant :
il s’agit d’une « société de vente par correspondance a un club de lecture et un
club de CD. Chaque mois, ils proposent des offres spéciales aux membres du
club. L'entreprise souhaite créer un modèle pour le total des achats d'offres
spéciales du mois en fonction du total des achats de livres, des achats de CD et
du type d'offre accordée aux membres du club ».
La régression des moindres carrés en deux étapes est utile lorsqu'il existe des
boucles de rétroaction dans votre modèle. Par exemple, un club de lecture peut
vouloir modéliser le montant des ventes croisées aux membres, en utilisant le
montant que les membres dépensent en livres en tant que prédicteur.
Cependant, l'argent dépensé pour d'autres articles est de l'argent non dépensé
en livres, de sorte qu'une augmentation des ventes croisées correspond à une
diminution des ventes de livres. Il y a une boucle de rétroaction entre la réponse
et le prédicteur, ainsi l'erreur dans la réponse est corrélée au prédicteur.
La régression des moindres carrés en deux étapes convient à cette situation, car
l'argent dépensé pour des offres spéciales n'est pas de l'argent dépensé en livres
ou en CD; il y a donc une boucle de rétroaction entre la réponse et ces deux
prédicteurs.
La matrice des données est disponible sur SPSS, elle comprend quatre-vingt-dix-
neuf mois d'informations sur les ventes sont collectées dans « cross_sell.sav ». Le
fichier comprend également une variable, Offre spéciale, affichant l'offre spéciale
de chaque mois, qui a également été recodée en deux variables indicatrices,
l'offre articles et l'offre Chèques, pouvant être utilisées comme prédicteurs dans
les procédures de régression. Enfin, les remises mensuelles offertes aux
membres du club sont également répertoriées » SPSS.

46
Chapitre I. Introduction à l’analyse des données.

Figure N° 36 : Création des variables retardées

Figure N° 37 : Sélection des variables dans la méthode 2SLS

Tableau N° 24 : Résultats de la méthode de régression 2SLS


Model Summary

Equation 1 Multiple R
,383

R Square
,147

Adjusted R Square
,110

Std. Error of the Estimate


,340

ANOVA
Sum of Squares df Mean Square F Sig.
Equation 1 Regression 1,851 4 ,463 3,994 ,005
Residual 10,772 93 ,116
Total 12,623 97
Coefficients

47
Chapitre I. Introduction à l’analyse des données.
Unstandardized Coefficients
B Std. Error Beta t Sig.
Equation 1 (Constant) -1,511 1,317 -1,147 ,254
buycd ,353 ,106 1,090 3,336 ,001
buybk ,189 ,116 ,542 1,626 ,107
offer_type2 ,303 ,105 ,300 2,899 ,005
offer_type1 ,130 ,091 ,117 1,425 ,158
Coefficient Correlations
buycd buybk offer_type2 offer_type1
Equation 1 Correlations buycd 1,000 ,410 ,371 -,082
buybk ,410 1,000 ,636 ,203
offer_type2 ,371 ,636 1,000 ,427
offer_type1 -,082 ,203 ,427 1,000

Ces résultats (Tableau N° 24) indiquent que le chiffre d’affaires prévu de l’offre
spéciale est égal à -1.511 + 0.353 * buycd + 0.189 * buybk + 0.130 * offer_type1
+ 0.303 * offer_type2. La valeur de signification pour offer_type1 est supérieure
à 0,05, ce qui indique que l’effet des petits appareils en tant qu’offre spéciale ne
se distingue pas de celui des jeux d’échecs commémoratifs. La valeur de
signification pour buybk est également supérieure à 0,05, mais il semble
probable que cela soit davantage dû à l’inadéquation des variables d’instrument
actuelles aux valeurs estimées de buybk générées qu’à l’adéquation de buybk en
tant que prédicteur des rachats. (SPSS)

Échelles de mesure des variables.


Pour opérationnaliser le comportement ou l’état d’un sujet ou d’un objet, on a
l’habitude de faire appel à une échelle de mesure. Nous proposons dans ce qui
suit une présentation des différentes échelles, leur comparaison ainsi que des
questions diverses y inhérentes.
Une échelle de mesure est définie comme la relation entre les valeurs assignées
aux attributs des variables.
Le niveau de mesure permet de savoir comment interpréter les données
retraçant la variation de la variable à travers les observations ou dans le temps.
Le niveau de mesure permet également de décider de la méthode à utiliser pour
analyser ces données.

48
Chapitre I. Introduction à l’analyse des données.

Figure N° 38: La constitution des variables et des mesures.

Types d’échelles de mesure des variables.


Les typologies des échelles de mesure des variables sont nombreuses. La
typologique est d’abord dichotomique, et on distingue entre métrique, continue
ou quantitative et non métrique ou catégorielle ou qualitative. Elle est aussi à
quatre catégories et on distingue entre échelle nominale, ordinale, intervalle et
ratio ou proportionnelle.
Figure N° 39 : Typologie des échelles de mesure des variables.

49
Chapitre I. Introduction à l’analyse des données.

Échelle nominale
L’échelle nominale appelée aussi catégorique non ordinale par opposition à
l’échelle catégorique ordinale63. « La variable statut social est par exemple un
exemple de variable catégorielle non ordinale où il n’est pas admis un
classement entre les personnes célibataires, mariées, divorcées ou veuves ».
Les variables catégoriques non ordinales sont confondues avec les variables
nominales où le classement des différentes modalités de réponse ne répond pas
à un ordre particulier.
La plus ancienne des 4 échelles. Dans cette échelle « les nombres utilisés sont
des codes qui ont un rôle d’identificateur de situations possibles » C. J. Huberty
et al. (1986)64. Les chiffres appelés codes n’impliquent pas des comparaisons
entre les objets ou les sujets dont on codifie le comportement ou la nature. Cette
échelle nécessite que l’on utilise le même code pour la même classe.
a. Échelle Binaire ou dichotomique
L’échelle binaire ou dichotomique est un cas particulier de l’échelle nominale.
Une différence est à faire entre une vraie dichotomie d’une dichotomie
artificielle. La première est une dichotomie réelle qui lui correspond deux
catégories distinctes comme par exemple être un homme ou une femme. Une
vraie dichotomie est à distinguer d’une dichotomie artificielle par le fait qu’on ne
peut pas « imaginer un continuum quelconque sous-jacent à l’une ou à l’autre de
ces catégories » Jacques Baillargeon 65.
Une échelle dichotomique artificielle correspond à « des dimensions continues
que l'on présume être distribuées normalement dans la population, mais qui,
pour diverses raisons, ont dû être mesurées grossièrement en seulement deux
niveaux ». Nous pouvons citer par exemple « être client de l’entreprise ou client
de la concurrence » Jacques Baillargeon.
Échelle Ordinale.
Elle s’ajoute à l’échelle nominale pour éventuellement procéder à des
comparaisons entre objets par rapport à la même variable nominale.
« Les variables catégorielles ordinales sont celles qui retiennent un certain ordre
dans les modalités. La variable CSP est pour certain assimilée à une variable
catégorielle ordinale puisque on admet un classement économique et social des
différentes catégories ».
Échelle Intervalle.
Elle s’ajoute à l’échelle ordinale pour permettre de déterminer de combien, en
plus ou en moins une caractéristique est présente dans un élément. L’unité de

50
Chapitre I. Introduction à l’analyse des données.

mesure et le point zéro sont fixés arbitrairement. Elle possède des unités de
mesures constantes
« On cite l’exemple classique des échelles de Fahrenheit et Celsius pour mesurer
des températures. On peut faire « des inférences quant aux différences entre les
entités que l’on mesure » (1) On ne peut pas dire qu’une valeur est un multiple
de l’autre. Les différences entre les valeurs d’une échelle peuvent être exprimées
comme des multiples les unes des autres. On peut utiliser la plupart des mesures
statistiques : La moyenne, L’écart type, La corrélation.
Echelle Proportionnelle ou ratio.
Elle « constitue l’élite des échelles », elle autorise le calcul de toutes les
opérations arithmétiques et elle possède un point zéro unique. On les trouve
dans les sciences physiques pour mesurer la longueur, le poids etc. Cette échelle
permet la comparaison des rapports.
Comparaison entre les échelles.
Il est possible de comparer les quatre échelles par rapport à l’existence ou non
d’un ordre, de l’égalité ou non des intervalles et l’existence ou non d’un point
zéro.
Figure N° 40 : Types des échelles de mesure.

Tableau N° 25 : Comparaison entre les échelles de mesures.


Échelle Echelles qualitatives ou non Echelles quantitatives ou métriques
métriques
Nominale Ordinale Intervalle Proportionnelle ou
ratio
Ordre Non Oui Oui Oui
Égalité des Non Non Oui Oui
intervalles
Point zéro Non Non Non Oui

51
Chapitre I. Introduction à l’analyse des données.

Opérations Mode, Médiane, Moyenne, écart- Moyenne


statistiques fréquence, Corrélation de type, test-t géométrique,
Chi2 rang harmonique,
coefficient de
variation
Exemple Numérotation Qualité Température Longueur, Poids

Une proposition d’Evrard et al. (2002)66 permet de lever certaines difficultés dans
la qualification d’une échelle à allouer à une variable donnée.

On part d’une variable retraçant le comportement ou l’état d’un sujet ou d’un


objet et on part du principe de l’existence de k catégories reproduisant ce
comportement ou cet état.
Si ces k catégories ne sont pas ordonnés, l’échelle de la variable est dite
nominale, sinon elle est ordinale.
La deuxième question en cas d’échelle ordinale est relative à l’égalité des
intervalles entre les catégories. En cas d’inégalité l’échelle est bel et bien
ordinale, sinon elle peut être intervalle ou proportionnelle.
Pour trancher entre ces deux échelles métriques, il convient de vérifier s’il y a un
zéro naturel. Si oui l’échelle est intervalle sinon elle est proportionnelle.

Prenons le cas de la variable CSP (catégorie socio-professionnelle). L’INS retient


par exemple 10 CSP. K=10. Ces dix catégories sont-elles ordonnées par rapport à
un besoin de l’étude. A priori et en l’absence d’un critère de classement
(revenu), ces catégories ne sont pas ordonnées. L’échelle est donc nominale.
Le chiffre d’affaires. K est valeur qui n’a pas de limites supérieures. Les k
catégories sont bien ordonnés. Les intervalles entre les catégories sont-ils égaux.
Oui si on retient une catégorisation. Le zéro est-il naturel ? Oui puisqu’il a une
signification : absence de CA. L’échelle est donc proportionnelle.

52
Chapitre I. Introduction à l’analyse des données.

Figure N° 41 : Choix du niveau de mesure.

Source : Evrard, Pras et Roux (2002), Market, Fondements et Méthodes des recherches en Marketing ;
DUNOD P 303

Transformation d’une échelle.


On peut être amené à transformer une échelle pour diverses raisons. D’abord
pour des raisons de convenance. En effet, il est possible que le répondant dans
53
Chapitre I. Introduction à l’analyse des données.

une enquête refuse de donner une information précise et donc métrique sur une
donnée particulière (ex chiffre d’affaires). Une autre raison réside dans la
disponibilité d’une information métrique mais celle-ci ne respecte pas une
condition d’application d’une méthode choisie comme par exemple la normalité.
La solution de convertir l’échelle métrique en échelle ordinale ou nominale.
La transformation de l’échelle n’est pas possible dans tous les sens, elle n’est
possible que d’une échelle métrique à une échelle ordinale ou nominale.
Figure N° 42 : Transformation de l’échelle.

Comment transformer une échelle métrique en une échelle nominale?


La transformation d’une variable d’une échelle continue à une échelle
catégorielle (ou nominale) se fait de plusieurs manières.
 Une première manière consiste à utiliser la médiane de façon à diviser
l’échantillon en deux groupes (A. Baldauf; D.W Cravens (2002) 67.
 La deuxième effectuer une classification des observations sur la base de la
variable métrique pour identifier des groupes qui deviennent les
modalités de la version nominale de la variable intiale.
Échelles de mesures assimilées à métrique.
De nombreuses échelles ont été assimilées aux échelles métriques dans les
sciences sociales en général et en marketing en particulier. On peut citer l’échelle
de Likert, l’échelle sémantique différentielle etc…
Échelle de Likert
C’est une échelle qui porte le nom de son auteur, elle se base sur l’expression du
degré d’adhésion du répondant à une proposition. Les réponses se font sur une
échelle allant de tout à fait en désaccord à tout à fait d’accord. La position neutre
caractérise une échelle impaire.
Échelle de Stapel
L’échelle de Stapel est une version simplifiée de l’échelle sémantique

54
Chapitre I. Introduction à l’analyse des données.

différentielle. Sa forme est unipolaire allant par exemple d’une réponse négative
à une autre positive (D. Menezes et al.1979)68.
Échelle différentielle de Thurstone
« L’échelle différentielle de Thurstone (à ne pas confondre avec la loi du
jugement comparatif que nous avons vue plus haut) pour but d’aboutir à des
mesures d’intervalles, et elle utilise la méthode des intervalles apparemment
égaux. Bien que l’on puisse être tenté de considérer cette technique comme
relevant de la méthode « jugement » plutôt que de la méthode « réponse »,
nous choisirons pour notre part de la considérer comme une méthode de «
réponse », en raison de la sévérité des hypothèses qui lui sont sous-jacentes »
Green et Thill (1972).
D’un point de vue pratique, la mise en œuvre de cette technique passe par les
étapes suivantes:
 Le chercheur rédige un grand nombre (100 à 150) de propositions qui sont en
relation avec l’attitude qu’il étudie. Ces propositions peuvent être obtenues
grâce aux réponses d’un grand nombre de personnes interrogées de manière
non- directive, ou elles peuvent être conçues par les chercheurs eux-mêmes.
 On demande à plusieurs « juges » de classer les propositions en onze groupes
« égaux » qui vont du « plus favorable » au « moins favorable » pour un
attribut particulier. Le sixième groupe constitue le point « neutre».
 On détermine pour chaque item (proposition) une valeur de mesure, en
pondérant la moyenne ou la médiane par les fréquences observées chez les
juges.
 On choisit enfin 20 à 25 propositions, en utilisant seulement les propositions
dont la variance, pour l’ensemble des juges, est « relativement faible ».
 Dans le questionnaire final, qui se compose des 20 à 25 items, les
propositions sont présentées en ordre aléatoire, et l’on demande au sujet
d’indiquer seulement celles avec lesquelles il est en accord.
 La moyenne (ou la médiane) des valeurs d’échelles du sujet correspond alors
à son « score » total pour l’attribut qui est mesuré. Donc, en définitive, on
échelonne ainsi les sujets et les stimuli.
Échelle sémantique différentielle
L’échelle sémantique différentielle a été conçue par Osgood et ses collaborateurs
(Osgood CE. Et al. (1957)69. Elle permet d’analyser à la fois l’intensité et le
contenu des attitudes des répondants à l’égard d’entités telles que l’image.
La démarche consiste à demander aux répondants de décrire un phénomène
(objet de l’étude), au moyen d’un ensemble de couples d’adjectifs opposés, du

55
Chapitre I. Introduction à l’analyse des données.

type de ceux indiqués en Figure suivante. On procède en demandant aux


répondants de décrire l’entreprise, par exemple, au moyen d’un ensemble de
couples d’adjectifs opposés, du type de ceux indiqués en Figure N° 43.
Figure N° 43: Un exemple d’échelle sémantique différentielle.

Source: Green, Paul E., and Tull, Donald S., Research for Marketing Decisions, Prentice Hall, Englewood Cliffs,
N.J., 1978.

La technique Q-Sort.
La technique Q-sort a pour objectif de comparer les individus, et non d’obtenir
des valeurs d’échelle en tant que telles. Les phases de sa mise en œuvre sont les
suivantes (F.N. Kerlinger 196470 cité par Green et Tull 1972). On fournit au sujet
un grand nombre d’items (75 à 150) et on lui demande de les disposer en onze
groupes, allant du « plus favorable » au « moins favorable ».
Contrairement à ce qui est fait dans la technique de Thurstone, qui a pour but de
déterminer des valeurs d’échelle (en supposant que des « juges » puissent
classer les propositions en divers groupes, de caractère plus ou moins favorable),
dans la technique Q-sort on demande au sujet d’indiquer son degré d’accord ou
de désaccord avec l’item considéré. Donc, si le sujet approuve énergiquement
l’item, il le place dans un groupe extrême, etc...
D’autre part, le sujet doit placer dans chaque groupe un nombre d’items
prédéterminé, qui est fixé de manière à obtenir pour l’ensemble une distribution
finale approximativement normale.
On attribue un « score » à chaque groupe. Dans cette technique, on ne
s’intéresse non pas aux scores totaux des sujets, mais au degré de similitude
entre divers sujets pour chacun des items. On peut obtenir cette similitude par
une analyse de corrélation classique.
On peut adresser à la technique Q-sort un certain nombre de critiques qui ont
déjà été faites à propos des techniques de Likert, de Thurstone et de
scalogramme. On utilise en général la technique Q-sort pour classer les sujets en
fonction de leur « similitude » relativement à l’attitude qui est mesurée. Dans ce
cas, cette technique peut en outre être critiquée du point de vue statistique (F.N.
Kerlinger 1964 cité par Green et Tull 1972) 71. La principale difficulté inhérente à
ces trois types « d’échelles » est peut-être due au fait que nous avons affaire

56
Chapitre I. Introduction à l’analyse des données.

aussi bien à des différences entre stimuli qu’à des différences entre sujets, et au
fait que certaines attitudes peuvent ne pas être échelonnables.

Hypothèses et méthodes d’analyse.


Il s’agit de mette en place les hypothèses qui mettent en valeur les relations
entre les variables exogènes et les variables endogènes et/ ou entre ces
dernières.

I. Définition d’une hypothèse


Une hypothèse est une réponse anticipée à une question. C’est une affirmation
non forcément prouvée à propos du comportement d’un phénomène social. Plus
explicitement, elle est un « énoncé formel qui prédit la ou les relations attendues
entre deux ou plusieurs variables. C'est une solution plausible au problème de
recherche » Lexique Méthodologie.
« Une hypothèse est une proposition relative à un état de la nature et, d’un point
de vue pratique, elle implique une action possible ainsi qu’une prévision du
résultat qui sera obtenu si l’action est entreprise » P.E. Green et D.S. Tull (traduit
par J. LLeu)  (1974 p22)72.
L’hypothèse est un moyen pour simplifier la réalisation d’un objectif de
recherche a priori compliqué. Partant de ce principe, sa formulation doit être
plus simple que celle des objectifs.

Types d’hypothèses
Selon la nature de la problématique et de l’objectif de recherche, on distingue
entre plusieurs formes d’hypothèses. Avant de présenter les différentes formes
d’hypothèses de recherche, nous mettons le point sur la différence entre
hypothèse de recherche et hypothèse statistique.
A. Hypothèse statistique et Hypothèse de recherche.
Une hypothèse de recherche est à la base de la conceptualisation d’une relation
entre deux concepts ou de variables latentes. Une hypothèse statistique est une
traduction technique de la relation suivant une norme utilisée par les outils
statistiques.

57
Chapitre I. Introduction à l’analyse des données.

Figure N° 44 : Position de l’hypothèse statistique par rapport à l’hypothèse de


recherche.

La vérification d’une hypothèse de recherche nécessite souvent le recours à des


méthodes statistiques qui exigent la traduction de l’hypothèse de recherche en
hypothèse statistique. (P.E.Green et D.S.Tull 1974).
1. Hypothèse statistique : Hypothèse nulle.
L’hypothèse statistique est « un énoncé quantitatif concernant les
caractéristiques d’une population (Baillargeon et Rainville 1978 73 cités par
Thiétart R A et coll (1999)74 p 293). Plus exactement, elle est une affirmation
portant sur la distribution d’une ou de plusieurs variables aléatoires (Dodge
199375 cité par Thiétart R A et coll (1999) p 293).
En statistique on est souvent conduit à formuler l’hypothèse sous une forme
double, hypothèse nulle et hypothèse alternative.
L’hypothèse nulle désigne généralement l’absence du phénomène étudié.
L’hypothèse alternative correspond à celle souhaitée par le chercheur.
L’hypothèse nulle est un énoncé qui prédit l'absence de relation ou de différence
statistiquement significative (ou importante) entre des groupes de sujets pour
une variable dépendante.
Hypothèse alternative est un énoncé qui prédit l'existence d'une relation ou
d'une différence statistiquement significative entre des groupes de sujets pour
une variable dépendante.
L’hypothèse statistique est utilisée pour tester une hypothèse de recherche, elle
vient donc comme complément technique à l’hypothèse de recherche.
Exemple:
Hypothèse de recherche :
H1: Plus l’auditeur a de l’expérience, meilleure sera la qualité de son audit.
Q=a1*Exp+Ct+er
Hypothèse statistique :
H0 : a1=0
H1= a1>0
58
Chapitre I. Introduction à l’analyse des données.

Tableau N° 26 : hypothèses nulles pour chaque étape d’analyse 


Paramètre Outil d’analyse Hypothèse nulle
Moyenne Moyenne La moyenne est
nulle
Structure de
l’échantillon

Les Observations P1 Mahalanobis


Aberrantes ou
déviantes

Normalité  Déviation à la Méthode La déviation à la


normalité univariée : loi normale est
 Skewness nulle
 Kurtosis
 Shapiro-
Wilk
 K-S
Méthode
multivariée
(Mardia)

Variance nulle ou non Variance >0,5 Variance nulle


significative des
réponses

Indépendance des
observations

**Homogénéité des
répondants :

**Test paramétrique
si H0 de
normalité>0,05
**Test de V de

59
Chapitre I. Introduction à l’analyse des données.

Cramer

**Test non
paramétrique si H0
de normalité<0,05 de
kruskal-Wallis
***Test Test non
paramétrique si H0
de normalité<0,05 de
U de Mann-Whitney
Variance commune
attribuée à la
méthode « biais
CVM »
analyse factorielle H0 : La structure
exploratoire de F1 est
constituée d’un
seul construit 
Indice de KMO et
Test de Bartlett

Hypothèse de recherche.
Les hypothèses de recherche et statistiques peuvent être classées en différentes
catégories (Figure N° 45). L’hypothèse de recherche est un énoncé formel qui
prédit la ou les relations attendues entre deux ou plusieurs variables. C'est une
solution plausible au problème de recherche. L’hypothèse de recherche émane
de la littérature. Elle est pertinente quand elle fait l’objet de manque de
recherches ou de controverse entre les auteurs.

60
Chapitre I. Introduction à l’analyse des données.

Figure N° 45 : Typologie des Formes d’hypothèses.


Recherche

Unidirectionnelle
Directionnelle

Bidirectionnelle

Non
directionnelle
Statistique

Hypothèse Directionnelle et Hypothèse Non directionnelle


Une hypothèse directionnelle est une hypothèse de causalité au sens propre du
mot. Elle est formulée pour tracer le chemin entre deux variables latentes : la
cause et l’effet. On distingue une hypothèse unidirectionnelle et d’une
hypothèse bidirectionnelle.
Une hypothèse est dite unidirectionnelle quand les travaux passés défendent un
effet à sens unique entre deux variables.
Figure N° 46 : Exemple de relation de causalité et covariance donnant lieu à des
hypothèses.
Variable A
H1

Variable C

H2

Variable B
H3

Une hypothèse unidirectionnelle peut être établie pour un effet de causalité


entre une variable exogène sur une variable endogène, c’est le cas de H1 et H3
de la Figure N° 46. Ces hypothèses avancent donc un effet de causalité d’une
variable A sur une variable C. L’hypothèse unidirectionnelle sert également à

61
Chapitre I. Introduction à l’analyse des données.

établir une relation de causalité d’une variable endogène sur une autre
endogène. C’est le cas de H4 dans la Figure N° 47.
Figure N° 47 : Modèle avec hypothèse de double causalité

Quel que soit le cas on est dans une relation dite de cause à effet. L’effort de
conceptualisation à ce propos consiste à trouver dans une relation les
symptômes de la causalité. J. R. Edwards et R. P. Bagozzi (2000 p23) 76 retiennent
un consensus sur les propriétés d’une relation de causalité (Asher, 1983; Bagozzi,
1980; Bollen, 1989; Cook & Campbell, 1979; Heise, 1975; James, Mulaik, & Brett,
1982) :
La causalité nécessite que la cause et l’effet soit deux entités distinctes. Quand
deux variables ne sont pas distinctes leur relation est tautologique et ne peut
être vue comme une relation de causalité.
La causalité nécessite une association c'est-à-dire que la cause et l’effet
covarient. L’association est vue sous l’optique de probabilité en admettant que la
cause accroît la vraisemblance de l’effet.

62
Chapitre I. Introduction à l’analyse des données.

Figure N° 48 : Modèle avec hypothèse à double causalité

La causalité nécessite une antériorité temporelle dans la mesure que la cause se


produit avant l’effet.
La causalité nécessite l’élimination des explications rivales des relations
présumées entre la cause et l’effet (Cook and Campbell 1979 77). Cette dernière
condition est difficile à satisfaire dans la pratique.
Une hypothèse bidirectionnelle prévoit la possibilité pour que deux variables
s’interagissent (double effet de causalité H4 et H2.
Une hypothèse bidirectionnelle ne concerne que les relations entre des variables
endogènes. Une hypothèse bidirectionnelle est une caractéristique d’un modèle
non-récursif. Deux constats issus de la littérature peuvent conduire à une telle
hypothèse : soit une réalité soutenue par un consensus des auteurs soit au
contraire une insuffisance de consensus dans les travaux passés (la littérature) ce
qui conduit le chercheur à proposer un double effet de causalité.
Hypothèse Simple et Hypothèse Complexe.
Une hypothèse est dite simple quand elle met en relation deux variables
uniquement. On parle d’hypothèse qui met en relief l’effet direct d’une variable
sur une autre.
Pour le besoin de l’étude, le chercheur peut se trouver dans l’obligation d’inclure
dans son hypothèse plus de deux variables et formule une hypothèse dite
complexe. Nous observons deux cas le cas où la troisième variable est médiatrice
et le cas où elle est modératrice.
Le premier cas concerne les hypothèses complexes qui insistent sur l’effet
indirect d’une variable sur une autre.

63
Chapitre I. Introduction à l’analyse des données.

Figure N° 49 : Modèle à effet indirect

Nous pouvons citer à titre d’exemple la recherche de M. TREMBLAY et P.-É.


LANDREVILLE78.
« Hypothèses 3a-d: Le sentiment de signification (a), de compétence (b), d’auto-
détermination (c) et d’impact (d) jouent un rôle médiateur entre la perception
du partage descendant de l’information et la perception de soutien
organisationnel ». M. TREMBLAY et P.-É. LANDREVILLE
Le deuxième cas d’hypothèse complexe quand il s’agit de relativiser l’effet d’une
variable sur une autre en faisant intervenir une variable modératrice désignant
les groupes objet de l’étude.
Figure N° 50: Cas de modèle avec variable pure modératrice.
C

A B

Pour illustrer cette forme d’hypothèse, on propose la recherche de Roth (1995


p165)79 qui propose une hypothèse avec comme troisième variable : une variable
modératrice.
H2a : L’effet de l’image fonctionnelle de la marque sur la part de marché peut
être élevé (v.s. faible) quand l’incertitude de la culture nationale peut être
facilement (v.s difficilement) prédite.
Un exemple d’hypothèse complexe en sciences comptable est emprunté à Yin Xu
and Brad M. Tuttle (2005 p 210)80 et s’énonce comme suit :
H1a : quand le résultat comptable est positif, le superviseur l’attribue plus aux
facteurs internes liés aux subordonnés rapprochés qu’aux subordonnés non
rapprochés.

Hypothèse, proposition et Question de recherche.


Nous estimons que l’effort de conceptualisation ne mène à une hypothèse
pertinente que si le débat présenté par le chercheur fait état d’une controverse
entre des courants de pensées ou entre de constats empiriques. Une
convergence des opinions des auteurs des travaux passés rend une hypothèse
peu pertinente.
En l’absence d’un fondement théorique, une hypothèse ne pourrait pas être

64
Chapitre I. Introduction à l’analyse des données.

avancée par le chercheur. Ce dernier peut se limiter à poser une question à la


place d’une hypothèse et se prêter à trouver une réponse à cette question. Nous
pouvons à ce titre citer A.R. Elangovan (2001 p 160) qui estime que la littérature
n’est pas suffisamment développée sur l’effet direct ou indirect du stress sur
l’intention de quitter et préfère poser deux questions à la place d’une hypothèse
sur respectivement l’effet direct et sur l’effet indirect. Si le chercheur est en
mesure d’apporter une réponse à la question il peut avancer une proposition à la
place de la question. Nous schématisons le processus de recherche qui mène à
une hypothèse (Figure N° 51).
Figure N° 51 : Passage de la question de recherche à la proposition à l’hypothèse
Interrogation sans Interrogation avec Interrogation avec
une initiative de réponse (initiative du réponses
réponse de la part du chercheur ou résultat controversées dans
chercheur d’une étude qualitative) la littérature

Question de Proposition de Hypothèse de


recherche recherche recherche

Le nombre d’hypothèses dans un modèle.


Les situations où les chercheurs sont critiqués pour avoir avancé trop
d’hypothèses dans leur recherche sont nombreuses sans qu’on connaisse les
fondements de ces critiques et sans qu’on connaisse les réponses aux questions
posées à ce sujet comme par exemple : C’est quoi trop d’hypothèses ? Quel est le
nombre d’hypothèses maximum ? Quelles sont les conséquences du nombre
« jugé » important d’hypothèses ? et, n’y a-t-il pas des critères pour justifier le
nombre d’hypothèses ?
Sur ces questions, il y a très peu de travaux dans la littérature, nous relevons
l’article probablement unique celui de Futschik, A., & Posch, M. (2005) qui
démontrent que la prise en compte d'un nombre approprié d'hypothèses dans ce
contexte peut conduire à une augmentation substantielle du nombre attendu de
rejets corrects.
Le nombre d’hypothèses est dictée par le nombre de concepts impliqués dans
une recherche, plus de dernier est élevé plus est élevé le nombre d’hypothèses.
Le nombre de concepts conduit le chercheur à plus d’effort de recherche
bibliographique pour assoir et fonder ses hypothèses. Le nombre de concepts et

65
Chapitre I. Introduction à l’analyse des données.

donc d’hypothèses alourdit le mode d’enquête et notamment le questionnaire


qui se voit trop long et probablement au détriment de la qualité des informations
obtenues. A ce niveau, le chercheur est appelé à faire des sacrifices pour imposer
des priorités à certains concepts et donc à certaines hypothèses au détriment
d’autres. D’un autre côté, une hypothèse implique un paramètre à estimer et
plus le nombre de paramètres à estimer est élevé plus la taille de l’échantillon
doit être importante. On passe de 5 à 10 observations par paramètre quand on
fait appel à la méthode ML et à 10 observations par variables (et donc par
paramètre) quand on applique une méthode de régression via MCO. Il convient
de noter que la contrainte méthode peut ne pas en constituer une quand les
hypothèses sont testées par différentes méthodes d’une manière groupée ou
d’une manière séparée.

Vérification des hypothèses de recherche d’un même modèle par


différentes méthodes statistiques.
Il convient de noter quand certains chercheurs se trouvent pour une raison ou
une autre de faire appel à deux ou plusieurs méthodes statistiques pour vérifier
des hypothèses de recherche d’un même modèle. La question posée est de
savoir s’il n’existe pas de biais suite au recours à différentes méthodes
statistiques employées pour vérifier des hypothèses d’un même modèle.
Théoriquement le résultat du test (rejet ou acceptation de l’hypothèse) devrait
être le même quel que soit la méthode, mais une différence est possible. Nous
estimons qu’une réflexion sur cette question mérite d’être faite pour trouver des
éléments de réponse.

Types de données.
Les données qu’on peut analyser dans une recherche peuvent prendre
différentes formes.
Différents types de données font l’objet de manipulations statistiques :
 Les données de type sections-croisées « cross-section » ou transversales.
 Les données de type séries chronologiques « time series »
 Les données de type longitudinales.
 Les données de type Panel “panel”
Chacun de ces trois types de données peut comporter :
 Des données nichées ‘nested” ou non.
 Des données censurées “censured” ou complètes.
 Des données multiniveaux « multilevel » ou un seul niveau.
66
Chapitre I. Introduction à l’analyse des données.

I. Données Sections-Croisées (Cross-section) ou transversales.


Les données qu’un chercheur souhaite analyser peuvent être de la forme
sections-croisées ou « cross-section ». Une donnée de ce type est celle qui
correspond aux valeurs d’un ensemble d’observations (sections) pendant une
seule et une même période et ce par rapport à un ensemble de variables.
Tableau N° 27 : Forme d’un tableau des données de type sections-croisées.
V1 V2 …. VP
Observation 1
Sections Observation 2
…. xij
Observation n
Xij : la valeur prise la section i par rapport à la variable j.

Ce qui nous intéresse dans une analyse de type ce sont les différences entre les
sections (les observations). En comptabilité, nous citons Hans B. C. al. (2007)81
qui ont retenu un échantillon d’entreprises britanniques et allemandes pour
expliquer les différences en adopteurs et non adopteurs des IFRS. En marketing
nous citons à titre d’exemple la recherche de O. Kitapci et al. (2009)82 qui ont
retenu un échantillon de clients des banques pour expliquer les différences de
plainte entre clients fidèles et nouveaux arrivants.

2. Données séries Chronologiques et Données Longitudinales.


Un tableau de données de type chronologique est celui qui correspond aux
observations d’une même entité (l’entreprise, le pays, etc.) pendant plusieurs
périodes par rapport à un ensemble de variables. (Tableau N° 28)
Tableau N° 28 : Forme d’un tableau de type chronologique.
V1 ….. Vj …. VP
Période 1
…..
Période i xij
….
Période n

xij correspond à la valeur prise par une entité observée (ou un individu) pendant
la période i par rapport à la variable j. x ij peut correspondre à une moyenne

67
Chapitre I. Introduction à l’analyse des données.

observée à la période i pour un ensemble homogène d’entités ou d’individus.


Dans ce type de données, le temps peut jouer un rôle important dans l’analyse.
La comparaison des données chronologiques aux données longitudinales a été
faite par peu d’auteurs. Nous citons Klösgen, W. (2002) 83 qui situent les
différences à trois niveaux : la méthode d’analyse, la périodicité et l’équidistance
et le nombre de périodes. Les données chronologiques sont traitées par des
méthodes économétriques alors que les données longitudinales sont plutôt
traitées par des méthodes multivariées. Pour les données économétriques la
périodicité et l’équidistance sont nécessaires ainsi qu’un nombre élevé de
périodes ce qui n’est pas nécessaire pour les données longitudinales.
Tableau N° 29 : Comparaison données chronologiques et données longitudinales.
Critères Données Données longitudinales.
chronologiques
Méthodes d’analyse Econométrie Analyse multivariée
Périodicité et Oui Non
équidistance
Nombre de périodes Elevé Faible

Données de Panel
A. Présentation des données de panel.
Il est possible de combiner dans une même recherche des données de type
sections-croisée et des données du type chronologique. Ce type de données est
appelé données de panel. On relève dans ce type de données une pertinence
informationnelle entre individus (cross-section) et à travers le temps (série
chronologique). L’idéal est que les données de panel soient mesurées à des
intervalles de temps réguliers (par exemple, année, trimestre et mois). Sinon, les
données du panel doivent être analysées avec prudence (Park, H. M. 2015) 84.
Tableau N° 30 : Données de type Panel (sections croisées x Séries chronologiques)
Observations Périodes V1 V2 …. …… Vp
O1 P1
O1 P2

O2 P1
O2 P2
O2 P.. xijm
..
68
Chapitre I. Introduction à l’analyse des données.

O3 P1
O3 P2
..
…..
ON P1
ON P2
…. …
ON Pl

Quelques illustrations d’utilisation des données de panel.


Nous citons à titre d’exemple en sciences comptables la recherche de Even Fallan
(2009 p6)85 et également de Zaman, M., & Chayasombat, J. (2014)86 qui précisent
que pour contrôler les caractéristiques non observées des entreprises et pour
permettre l'analyse des retards dans les variables, ils ont construit des données
de panel consistant en une série chronologique pour chacune des entreprises
dans l'ensemble de données transversales (sections croisées). En sociologie nous
citons la recherche de Eiji Yamamura (2010 p4)87 pour qui la structure des
données est composée de 47 préfectures et de 13 ans (1989-2001). L'ensemble
de données brutes comprend diverses données de niveau de préfecture sur
diverses variables. En management, Hitt, M. A. et al. (2001)88 ont des données
transversales (entreprises) et des séries chronologiques (années). L'échantillon
final, composé de 252 observations, comprenait des données sur 93 entreprises.
Ajustements méthodologiques pour des données de panel.
Les données de panel nécessitent des ajustements méthodologiques par rapport
aux données transversales ou du type sections croisées.
Yu, L. (2018)6 a utilisé des données de panel (5 firmes sur une période de 4 ans
2014-2016). L’auteur précise que : pour améliorer la fiabilité de l'analyse
factorielle, il a utilisé la valeur moyenne des données à la fin des années 2014-
2016 pour mener une analyse empirique.

6
Yu, L. (2018). Research on the Comprehensive Financial Competitiveness of Beijing, Tianjin and
Hebei Region Based on Principal Component Analysis. DEStech Transactions on Engineering and
Technology Research, (eeec).
69
Chapitre I. Introduction à l’analyse des données.

Xiong, S., et al. (2000)7 retiennent la région de la grande baie Guangdong-Hong


Kong-Macao comme objet d'enquête pour recueillir les données de panel de 11
villes de la région de la baie de 2000 à 2018 et construire un modèle de mesure
de l'intégration financière. Compte tenu de l'influence de la tendance temporelle
sur la composante principale, les données originales ont été traitées, testées et
analysées de manière standardisée.
Hitt, M. A. et al. (2001)89 ont utilisé le modèle LSDV (least squares dummy
variable) (Hsiao, 198690, Sayrs, 198991 cités par Hitt, M. A. et al. 2001). Au lieu
d'utiliser une constante commune pour toutes les observations, ces auteurs ont
introduit une variable fictive pour chaque entreprise et chaque année et estimé
le modèle à l'aide de la régression des moindres carrés généralisée (GLS).
L'utilisation de variables fictives aide à contrôler les entreprises non observées et
l'hétérogénéité spécifique à l'année (Bergh, 199392 cité par Hitt, M. A. et al.
2001). Le modèle LSDV sert également à minimiser les problèmes
d'hétéroscédasticité et d'autocorrélation, qui peuvent tous les deux être causés
par une hétérogénéité non spécifique à l'entreprise (Sayrs, 1989 cité par Hitt, M.
A. et al. 2001). Nous reviendrons sur les données de Panel à l’occasion de la
présentation de la méthode de régression.

Données Nichées
Dans certaines recherches, les éléments de la population cible sont nichés, c'est-
à-dire rassemblés au sein de groupes (niches) et les individus à l’intérieur d’une
niche ont une certaine similarité qui se manifeste dans l’information collectée.
Les groupes ou les niches les plus représentés peuvent influencer les résultats. Si
le phénomène de niche est réel, la section devient la niche et non l’individu.
Par exemple, quand la population d’une recherche est composée de vendeurs
dans les grandes surfaces ou de commerciaux appartenant à des entreprises, il
est possible que des unités d’échantillonnage (le vendeur, le commercial)
puissent avoir une certaine similarité dans les réponses ou dans les informations
relevées. (S J Bell et al. 2004)93
L’analyse des informations provenant des individus appartenant à des entités
(niches) peuvent contenir des biais de redondance. Quand certaines entités sont
plus représentées que d’autres, la valeur du paramètre statistique ne reflète pas
l’état ou le comportement des individus. (J. Lawrence R. 1982) 94 (Osborne, J. W.
7
Xiong, S., Yang, D., & Xiong, X. (2020, September). Measurement and Evaluation of Regional
Financial Integration in Guangdong, Hong Kong and Macao: Based on the Panel Data from 2000
to 2018. In The 3rd International Conference on Economy, Management and Entrepreneurship
(ICOEME 2020) (pp. 85-90). Atlantis Press.
70
Chapitre I. Introduction à l’analyse des données.

(2000)95.
Différents tests ont été utilisés pour vérifier l’effet de niche (nested data) :
 Le premier est le test d’Eta-carré (η²) permet de tester si deux
observations (employés par exemple) appartenant à une même unité
agrégée (un magasin par exemple) sont plus similaires que deux
employés appartenant à deux unités différentes. Une valeur de ce
paramètre dépassant le seuil 0,20 (Georgopilos 1986) 96 indique que la
présence d’effet de niche dans les données et que l’agrégation des
données est appropriée.
 Le second test est suggéré par ICC (intra class correlation) de James et al.
(1984)97, il permet de mesurer le degré d’accord au sein d’une unité. Le
paramètre statistique, connu par rwg, doit excéder 0,70 pour constater
l’existence d’effet de niche et se prononcer pour un niveau élevé
d’agreement entre les répondants au sein d’une même unité.
Baruch, Y. et al. (2014 p p522) 98 ont mené une enquête auprès de 545 chefs de
projet dans 21 entreprises pour étudier la réussite dans la carrière. Avant de
mener les analyses nécessaires à la réalisation des objectifs de cette recherche,
les auteurs ont voulu vérifier la présence d’effet de niche c’est-à-dire la similarité
des réponses au sein des 21 entreprises des 545 chefs de projets. Une analyse de
la variance est menée et retient l’entreprise comme variable indépendante à 21
modalités (groupes) et les variables de l’étude comme variables dépendantes. Le
recours au rwg (ICC : intra-class correlation) pour décider de retenir le chef de
projet comme section (observation) et non l’entreprise et écarter l’effet de
niche.

Dans leur article S. J. Bell et al. (2004)99 utilisent la statistique d’Eta² et le test r wg
pour procéder à l’identification des données nichées. Les auteurs ont voulu
tester si un phénomène de niche existe dans les données d’une enquête auprès
d’un échantillon de 115 commerciaux appartenant à différents points de vente.
13 variables de l’étude ont fait l’objet des deux tests précédents. Les résultats
prônent la présence d’effet de niche et donc la possibilité d’exploiter les
informations par niche. En effet, les valeurs de Eta² sont supérieures à 0.20 et les
valeurs de rwg sont supérieures à 0,7.

Données censurées ou incomplètes.


« Une des caractéristiques des données de survie est l'existence d'observations
incomplètes. En effet, les données sont souvent recueillies partiellement,
notamment, à cause des processus de censure et de troncature. Les données
71
Chapitre I. Introduction à l’analyse des données.

censurées ou tronquées proviennent du fait qu'on n'a pas accès à toute


l'information : au lieu d'observer des réalisations indépendantes et
identiquement distribuées (i.i.d.) de durées X, on observe la réalisation de la
variable X soumise à diverses perturbations, indépendantes ou non du
phénomène étudié » P. SAINT PIERRE (2012)100.
Les données traitées par l’analyse de survie sont assez particulières. Elles sont
d’abord observées entre deux évènements touchant un acteur ou une entité :
l’évènement de début et l’évènement de la fin comme par exemple l’entrée dans
un cycle de formation et le fait d’y sortir. L’évènement de début représente
l’entrée dans le processus étudié et l’évènement de sortie ou de fin est celui qui
représente la sortie dans le processus. L’évènement de sortie est généralement
la plus pertinente dans une étude. Un auditeur entre à une date dans un cabinet
d’expert-comptable et pourra la quitter à une autre date. « Le problème c’est
qu’on ne peut pas connaître pour toutes les observations « qu'on en ignore la
longueur exacte faute de savoir à quelle date s'est produit l'événement par
lequel elles ont commencé, et/ou faute de connaître la date de l'événement
clôturant la période en question ».
Une donnée censurée ou non censurée dépend du fait que l’évènement étudié
s’est produite pour le sujet ou l’objet pendant ou non la fenêtre d’observation.
Données non censurées.
Une donnée est non censurée correspond à une observation pour laquelle
l’évènement s’est produit pendant la période d’observation. Une donnée non
censurée est codée 0.
Figure N° 52 : Cas d’une donnée non censurée (ou donnée complète)
Evènement

Début de Fin de l’observation


l’observation

Données censurées
La donnée de survie d’un sujet ou d’un objet pour lequel l’évènement n’est pas
survenu pendant la période d’observation est appelée « donnée censurée ». Une
donnée censurée est codée 1.
72
Chapitre I. Introduction à l’analyse des données.

On a par exemple choisi d’observer un échantillon de client du 1 janvier 2011 au


31 décembre 2012 et l’évènement est le fait que le client n’est plus en service
c’est-à-dire à quitter l’entreprise. Un client pour lequel on ne dispose pas
d’information s’il a subi ou non l’évènement pendant cette période est objet
d’une donnée censurée. La durée de vie du client est supérieure à la durée de vie
de l’étude.
Figure N° 53 : Données à la survenue différente de l’évènement.
A

P1 P2 P3 P4 P5 P6 P7 P8
Période d'observation
Fin de la
période
d'observati
on

Par exemple on a observé 7 clients pendant 8 périodes et l’évènement est le fait


que le client a quitté l’entreprise. Les deux clients F et G représentent des
données censurées (ou incomplètes) puisqu’ils n’ont pas subi l’évènement
pendant la fenêtre d’observation.
Donnée censurée à gauche.
Une donnée censurée à gauche (Figure N° 54) correspond à celle d’un individu
qui a déjà subi l'événement avant qu’il ne soit observé. Ce qui revient à dire que
la date de l’évènement le concernant est inférieure à la date du début de
l’observation. C’est le cas par exemple de l’individu A.

73
Chapitre I. Introduction à l’analyse des données.

Figure N° 54 : Cas d’une donnée censurée à gauche et à droite


Évènement

Début de Fin de l’observation


l’observation

Données censurées à droite.


Une donnée censurée à droite correspond au cas d’un individu pour lequel
l’information est incomplète du moins dans la période d’observation.
L’information, sur le fait que cet individu ait ou non subi l’évènement, est
inconnue.
A titre d’exemple, on peut se référer à la base des données disponibles sur SPSS
(Telco.sav). Cette base contient 1000 clients d’un fournisseur d’internet. Sur la
période d’observation, on a constaté que 274 ont subi l’évènement (avoir changé
de fournisseur : codé 1) et le reste n’ont pas subi l’évènement (donnée
incomplète). Le recours aux méthodes classiques (Anova, régression linéaire,
etc..) ne sont pas autorisées, elles sont remplacées par les méthodes d’analyse
de survie (table de vie, Kaplan-Meier et Régression de COX).

Données à un seul niveau et données multi-niveaux


(multilevels).
Les recherches à multi-niveaux se développent dans les séances sociales et les
sciences exactes (Dansereau, F., Jr., & Alutto, J. A. 1990)101. Nous citons à titre
d’exemple l’étude de S. E. Naumann et al. (2000)102 qui ont étudié la justice
procédurale et résume leurs données dans Le Tableau N° 31 qui traduit des
corrélations entre variables à de deux niveaux : individuels et collectifs.

74
Chapitre I. Introduction à l’analyse des données.

Tableau N° 31: Corrélation multi-niveaux.


Variable Mea s.d. 1 2 3 4 5 6 7
n
lndividual-level measures
1. Procedural justice 3.11 0.70
2. Organizational commitment 3.67 0.67 .53*
*
3. Helping behavior 3.68 0.79 .14* .16*
Group-level measures
Procedural justice climate agreement 0.82 0.13
2. Work group cohesion 3.84 0.48 .49*
*
3. Supervisor visibility 3.86 0.49 .50* .53*
* *
4. Education heterogeneity 0.46 0.17 -.07 .17 .18
5. Gender heterogeneity 0.20 0.18 .05 .09 .03 -.07
6. Race heterogeneity 0.33 0.21 .01 -.13 -.04 -.10 .07
7. Age heterogeneity 0.30 0.11 -.30* -.27 -.21 .17 -.46** .01
8. Tenure heterogeneity 1.04 0.45 -.03 -.04 .19 .25 -.01 .46* .30
*

" For individual-level measures, n = 220, for group-level measures, n = 34. * p < .05 * * p < .01

Options de collecte des informations.


Le chercheur dispose de deux options pour collecter ses informations :
l’expérimentation et l’observations et la simulation (Green and Tull 1974).
L’expérimentation consiste à mener des expériences contrôlées randomisée sur
des sujets sélectionnés au hasard puis assignés au hasard à un groupe de
traitement qui reçoit le traitement ou à un groupe témoin qui ne reçoit pas le
traitement. L'effet causal du traitement est alors l'impact du traitement sur un
résultat (Bascle, G. 2008 p285).

Choix des méthodes d’analyse.


Le choix de la méthode ou des méthodes d’analyse des données doit être décidé
par le chercheur avant même de collecter les informations. En effet, le contraire
peut conduire à une situation d’impasse obligeant le chercheur à exploiter
partiellement les données de son enquête pour lesquelles il a investi temps et
argent.

Il est très utile dans ce sens d’établir un tableau récapitulatif des éléments de la
méthodologie adoptée pour une recherche avant d’entamer le volet empirique.
Il est possible de trouver des tableaux de synthèse méthodologiques dans la
plupart des thèses réalisées sous notre direction ou en collaboration avec des

75
Chapitre I. Introduction à l’analyse des données.

collègues comme par exemple la thèse de M. Belkhir (2011) et W. Yangui (2015)


ou en comptabilité dans la thèse de O. Akrout (2016).
Il s’agit d’établir un lien étroit en procédant comme suit :
D’abord le concept de base, sa mesure (échelle, nombre d’items
éventuellement.) et le numéro de la question qui a servi pour s’en informer.
Ensuite on fait autant pour les concepts liés. On présente le numéro de
l’hypothèse entre le concept de base et le concept lié ainsi que la ou les
méthodes qui vont servir pour vérifier l’hypothèse.

76
Tableau N° 32 : Exemple de tableau récapitulatif de la méthodologie d’une enquête basée sur un questionnaire.
Concept de Tests et Tests et Tests de
base / Nature Nombre Question méthodes Concepts liés Echelles Nombre Question méthode Hypothèses Tests et Robustesse
variables de d’items N° d’analyse de mesure d’items N° s méthode
contrôle préliminaires d’analyse d’analyse
préliminaires

symétrie Analyse factorielle Analyse factorielle H2 et H3 - La méthode Tests de


de pouvoir Likert à 5 4 Q1 des axes Risque perçu de Likert à 5 3 Q2 des axes principaux des équations Robustesse :
perçue en points principaux déréférencement points Test de fiabilité par structurelles
faveur de Test de Alpha de Cronbach par l’approche
l’enseigne fiabilité par Confiance Likert à 5 Test de normalité
H1
PLS (test de
- Biais relatif à la
en points 1 Q3 taille de
Alpha de (Kolmogorov- Smirnov significativité
l’enseigne 9 l’échantillon : PLS
Cronbach et Shapiro-Wilk) des effets par
Test de fiabilité Avantages perçus de la Test de fiabilité par le P1 et P2 l’approche appliqué sur des
par le coefficient relation (Fonction Likert à 5 1 Q4 coefficient composite Bootstrap) items agrégés.
composite volume) points 1 Test de validité
Test de validité
Coût réel : Budget De
convergente (Fornell - Biais relatif aux
convergente et Larcker, 1981) effets des
Marketing proportion 1 Q5
(Fornell et Larcker, Test de validité variables de
1981) Coût de référence De discriminante (Fornell P3, P4 et contrôle : PLS en
Test de validité interne (coût juste) proportion 1 Q6 et Larcker, 1981 + Chin P5 incorporant
discriminante 1998 et Gotz et al., l’effet des
Valeur perçue de la relation Likert à 5 H6, H7, H8
(Fornell et Larcker, 2009) variables de
points 3 Q7 et H9
1981 Test de corrélation contrôle.
+ Chin 1998 et Valeur financière entre les variables H4 et H5
Gotz et al., perçue du Likert à 5 4 Q8 latentes
2009) référencement points
P6, P7 et
Iniquité négative Likert à 5
4 Q9 P8
perçue points
Adoption d’une P9, P10 et
stratégie agressive de Likert à 5 9 Q P11
négociation points 10
P12
Concessions perçues de Likert à 5
l’acheteur points 3 Q
11
Satisfaction à l’égard des
coûts de Likert à 5 1 Q H10 et
référencement points 12 P13

Source : Yangui Wasfi (2015) ; EFFET DE L’ASYMÉTRIE DU POUVOIR PERÇUE SUR LA RÉUSSITE DE LA NÉGOCIATION DU RÉFÉRENCEMENT DANS LA
GRANDE DISTRIBUTION : ÉTUDE ORIENTÉE FOURNISSEUR, Thèse de Doctorat pour l’obtention du titre de docteur en Sciences de
Gestion ; Université de Sfax ; Faculté des Sciences Économiques et de Gestion Laboratoire de Recherche en Marketing (LRM)
I. Critères de Choix de la méthode d’analyse.
Plusieurs critères interviennent pour choisir la ou les méthodes appropriées.
 La nature de l’objectif (descriptif, explicatif et prédictif).
 Le nombre de variables présentes dans une même hypothèse.
 L’échelle de mesure des variables (nominale, ordinale, intervalle et ratio
ou proportionnelle).
SPSS par exemple fournit une assistance pour aider à choisir la méthode la plus
appropriée au besoin du chercheur après avoir répondu d’une manière
séquentielle à un ensemble de questions. Aideàassistant statistique…
1. Le choix de la méthode bivariée.
Si l’analyse ne porte que si deux variables simultanément, le choix de la méthode
à adopter dépend de la réponse apportée aux deux questions suivantes :
o Quel est l’objectif de l’analyse (associer ou comparer des groupes) ?
o Quelle est la nature de l’échelle des deux variables ?
Plusieurs propositions de tableaux ou de diagrammes ont été faites pour aider à
choisir la méthode bivariée appropriée. Nous notons la proposition de Evrard Y,
et al. (2000)103 qui proposent une double entrée pour sélectionner la méthode en
considérant l’échelle de mesure de deux variables et l’objectif (de comparaison
ou d’association) (Tableau N° 33).
Tableau N° 33: Choix de la méthode d’analyse bivariée
Objectifsà Association Comparaison
Echelles des 2 2 groupes Plusieurs groupes
variables ▼ Indépenda Apparié Indépend Appari
nts s ants és
Métrique / Corrélation linéaire de
Métrique Pearson
Coefficient de Régression
Ordinale/ Spearman ; Kendall ; Kappa de
Ordinale Gamma ; Somer Cohen
Nominale/ d.l=1 d.l >1
Nominale
Chi2 avec Chi2
correction Coefficient
Yates de
Coefficien contingenc
t Phi e  ;
Risque V Cramer
relatif
Odds
ratio
Chapitre I. Introduction à l’analyse des données.

Métrique/ Eta² Test-t de différence de ANOVA à


Nominale moyennes  un seul
facteur
ANOVA
one-way
Ordinale Test de Test de Test de Test de
/Nominale Mann- Mc- Kruskal- Friedm
Withney Nemar Wallis an
Test de
Wilkonson
Ordinale/ Test de
dichotomique Cochran

2. Le choix des méthodes multivariées.


Quand on se trouve en présence de trois variables ou plus, le choix de la
méthode se fait en passant par trois niveaux en répondant aux questions :
Quelle est la nature de la matrice utilisée ?
Nous avons noté qu’en fonction de l’objectif du chercheur, ce dernier peut se
trouver en présence de deux types de matrice : une matrice divise ou une
matrice indivise.
Dans le cas où la matrice serait divise, le choix de la méthode se fait parmi les
méthodes d’analyse de dépendance.
Si par contre, la matrice est indivise, le choix se fera dans la famille des méthodes
d’interdépendance.
Figure N° 55: Nature de la matrice et choix de méthodes.

79
Chapitre I. Introduction à l’analyse des données.

Un des grands problèmes de l’analyse des données et le choix de la méthode


multivariée appropriée. Pour réussir le choix de la bonne méthode, il y a lieu de
considérer différents critères.
Le choix de la méthode se fait en référence à quatre critères :
 Objectifs de la recherche.  Type de la matrice.
o Décrire. o Divise
o Expliquer. o Indivise.
o Prédire.  Échelle de mesure des
 Nombre de variables. variables.
o Une variable et une o Intervalle.
seule. o Nominale.
o Deux variables. o Ordinale.
o Plus de 2 variables.

L’analyse multivariée peut être une analyse d’interdépendance ou de


dépendance selon que la matrice utilisée est respectivement indivise ou divise. Il
possible de recourir au diagramme suivant (Figure N° 56) pour procéder au choix
en répondant à un ensemble de questions.

80
Chapitre I. Introduction à l’analyse des données.

Figure N° 56: Processus de choix des méthodes multivariées

Source (adaptée) SUNER, A., & ÇELİKOĞLU, C. C. (2007). Application of a Population Based Study of
Correspondence Analysis in Choosing A Health Institution.

3. Méthodes d’analyse et applications SPSS


Le recours au logiciel par exemple SPSS, nécessite en général la disponibilité de la
matrice initiale X(n,p). Cependant et à titre d’exercice ou de réplication, il est
possible pour certaines méthodes d’effectuer les mêmes analyses mais sans la
matrice initiale et ce en faisant recours à une matrice de synthèse : une matrice
de contingence, une matrice de corrélation, une matrice de variance-covariance,
une matrice des scores factorielles ou une matrice de proximité. Dans le Tableau
N° 34, nous présentons les méthodes qui exigent la matrice initiale et celles qui
peuvent s’appliquer sur une matrice de synthèse.

81
Chapitre I. Introduction à l’analyse des données.

Tableau N° 34: Les possibilités d’utilisation des méthodes d’analyses sur SPSS en
fonction des différents types de données.
Type de données Matrice Matrice de synthèse
initiale (Recours au syntax)
Méthodes X(n,p) Matrice de Matrice Matrice des Matrice de Matrice
d’analyse contingence de corrélations variances des
similarité covariance scores
factoriels
Chi2 x x
ANOVA x
Gamma x x
V Cramer x x
Analyse factorielle x x
des
correspondances
Modèle log- x x
linéaire
MDS x x
Classification x x
(typologie)
Régression linéaire x + Taille de + Taille de
l’échantillon l’échantillon
et écarts-
types)
Analyse x x
Discriminante
MANOVA x
Analyse factorielle x x x x
Régression x
Logistique
CHAID x

4. Saisie des matrices de synthèse sur SPSS


5. Saisie de la matrice de corrélation.
L’application de l’analyse factorielle sur cette matrice nécessite un programme
syntaxe. (Figure N° 57)
Pour saisir une matrice de corrélation sur SPSS, il convient de consacrer deux
colonnes pour deux variables de type alphanumérique. La première, appelée «
rowtype_ »  est prévue pour désigner la nature de l’information « CORR ». La
deuxième colonne appelée « varname_ »  est consacrée aux noms des variables
observables. Une ligne est réservée pour la taille de l’échantillon et une autre
pour les moyennes et une dernière pour les écart-types en inscrivant
respectivement  n  et «mean » et «stddev».

82
Chapitre I. Introduction à l’analyse des données.

Figure N° 57 : Matrice de corrélation et le programme syntax de l’analyse


factorielle.

6. Cas de données du type Covariance.


Pour saisir la matrice sur SPSS, il convient de consacrer deux colonnes pour deux
variables de type alphanumérique. La première, appelée « rowtype_ »  est
prévue pour désigner la nature de l’information COV. La deuxième colonne
appelée « varname_ »  est consacrée aux noms des variables observables. Une
ligne est réservée pour la taille de l’échantillon et une autre pour les moyennes
en inscrivant respectivement  n  et « mean ». 
Figure N° 58 : Manière de saisie de la matrice de Covariance.

7. Cas de données du type contribution factorielle F(k,p).


En cas où la matrice est une matrice des contributions factorielles comme dans la
Figure N° 59, le programme syntaxe connaît une légère modification.
Tableau N° 35 : Genre * Level of objectives Cross_tabulation
Faceur
1 2
Explorer 1 .763 -.057
Explorer 2 .674 .048
83
Chapitre I. Introduction à l’analyse des données.

Explorer 3 .626 .044


Explorer 4 .356 .243
Exploiter 1 .159 .535
Exploiter 2 .047 .300
Exploiter 3 -.135 .993
Exploiter 4 .282 .429
Figure N° 59 : Matrice du score factoriel et syntax de l’analyse factorielle.

8. Saisie d’une matrice de contingence.


Pour une matrice de contingence, on crée sur SPSS deux variables : deux pour
accueillir les variables contingentes et une pour les fréquences. La première peut
être numérique ou Alphanumérique mais la troisième est obligatoirement
numérique.
Figure N° 60 : Matrice de contingence genre x objectif et Codage des modalités
de la variable

84
Chapitre I. Introduction à l’analyse des données.

Figure N° 61 : Obtention de la matrice de contingence

Tableau N° 36 : Genre * Level of objectives Cross_tabulation


Level of objectives
H H_M M L_M L Total
Genre Homme 73 118 443 110 33 777
Femme 18 58 243 47 16 382
Total 91 176 686 157 49 1159

9.Saisie d’une matrice de proximité ou de distance.


Dans le cas où on ne dispose pas de la matrice initiale mais une matrice de
proximité S(n,n). SPSS offre la possibilité de faire les différentes analyses
moyennant cette matrice. La saisie de la matrice prend la forme du Tableau N°
37. Pour illustrer le recours à une matrice de proximité, nous empruntons de
Dubois et Jolibert (1994)104 leur matrice sur les marques de raquettes de Tennis
(Tableau N° 37).
Tableau N° 37 : Matrice de proximité des paires de marques de raquette de
Tennis
Rowtype_ Varname_ master olymp match presti consor winner winst caima
PROX master ,00 2,00 24,00 20,00 23,00 28,00 26,00 27,00
PROX olymp 2,00 ,00 19,00 17,00 18,00 25,00 21,00 22,00
PROX match 24,00 19,00 ,00 16,00 12,00 4,00 10,00 14,00
PROX presti 20,00 17,00 16,00 ,00 7,00 15,00 9,00 6,00
PROX consor 23,00 18,00 12,00 7,00 ,00 11,00 1,00 3,00
PROX winner 28,00 25,00 4,00 15,00 11,00 ,00 8,00 13,00
PROX winst 26,00 21,00 10,00 9,00 1,00 8,00 ,00 5,00
PROX caima 27,00 22,00 14,00 6,00 3,00 13,00 5,00 ,00
85
Chapitre I. Introduction à l’analyse des données.

Source : Dubois et Jolibert (1994)

Pour effectuer par exemple une analyse typologique avec cette matrice on fait
recours à la fonction SYNTAX dans le logiciel SPSS.
CLUSTER
/MATRIX=IN(*)
/PLOT=DENDROGRAM.

Préliminaires à l’analyse des données.


Les préliminaires sont l’ensemble des tâches de contrôle et de vérification que le
chercheur est contraint d’effectuer pour donner à sa recherche plus de fiabilité,
d’exactitude et de portée. Ces préliminaires sont de deux types : ceux dont la
portée est générale comme la source des informations (population, échantillon),
le biais de non réponse, les observations aberrantes, les données manquantes, la
variabilité des réponses, le biais CVM et ceux spécifiques à la méthode d’analyse
comme la normalité, la multicolinéarité et l’endogénéité.
Figure N° 62: Les préliminaires à l’analyse des données
Les préliminaires à l’analyse des
données

Les préliminaires Les préliminaires spécifiques


généraux

- taux de réponse - Normalité


- biais de non réponse -Multicolinéarité
-observations déviantes -biais d'endogéinéité
-observations manquantes
-variances des réponses
-biais CVM

Tableau N° 38 : Préliminaires à l’analyse des données


Etapes Eléments à Outils Intérêt Conséquences Remèdes
vérifier utilisés
86
Chapitre I. Introduction à l’analyse des données.
Taux de Taux de Nbre de Comparer à Résultats non Rappeler les
réponse et réponse répondants / une norme pertinents, non-
Biais de non- Taille de ignorance des répondants
réponse l’échantillon spécificités de
Absence de Armstrong, J. Vérifier s’il certains
biais de non & Overton, T. existe une membres de la
réponse (1977)105 différence population.
entre
répondants et
non
répondants
Les La présence Box plot Assurer la Résultats A éliminer si le
observations d’observations Score comparabilité erronés nombre ne
aberrantes extrêmes standardisé des réponses dépasse pas les
Distance de 2%
Mahalanobis A traiter à part
Les valeurs Importance  Le nombre Résultats Elimination des
manquantes ne dépasse erronés observations
pas les 15% ou des valeurs
(Hair et al. manquantes.
2010)106 Imputation des
Caractère Test MCAR valeurs
complètement de Little, R. J. manquantes.
aléatoire (H0) (1988)107
Variance nulle Pertinence des Ecart-type Certaines Eliminer les
ou non différences inférieur à variables sont ef items aux
significative dans les 0,5 fait des écarts-types
des responses réponses constantes inférieurs à 0,5.
Matrice
singulière
Homogénéité Comparabilité Chow test Analyse
de la des Hausman multigroupe
population observations test Intervention de
variable
modératrice
Indépendance Les Durbin- Estimation et
des observations Watson. erreur standard
observations doivent être Test d’Eta- biaisées,
indépendantes carré (η²) pouvoir du test
Levene de significativité
Statistic infecté (Bliese &
Hanges, 2004;
Kenny & Judd,
1986 cités par
N. G. Dyera, P. J.
Hangesa, R. J.
Hallb (2005
p150)108.
Variance Présences des Harman Résultats Des mesures à
commune biais de (1967) via erronés prendre aux
attribuée à la méthode EFA (1ier niveaux de
méthode facteur ne l’échantillon,
récupère pas du
plus que questionnaire.
50%) Intégrer une
Harman variable CVM

87
Chapitre I. Introduction à l’analyse des données.
(1967) via
CFA

La normalité Possibilité Skewnes et Qualité des Résultats Augmenter la


de la d’utiliser des Kurtosis estimations erronés taille de
distribution outils Mardia l’échantillon,
des variables d’analyse K.S corriger la non
paramétriques normalité,
enlever les
observations
déviantes,
changer de
méthodes
d’analyse.

I. Nature, Taille, structure et représentativité de l’échantillon.


A. Nature de l’échantillon.
La qualité des informations et celle des résultats sont liées au fait que
l’échantillon soit aléatoire ou non. Un échantillon aléatoire suppose que la
condition d’indépendance des observations, nécessaire à l’application des
méthodes statistiques, est vérifiée. Une telle condition n’est pas évidente pour
les échantillons non aléatoires.
Certains articles précisent la nature de leur échantillon avec beaucoup de détails
et de précisions comme par exemple en comptabilité celui de Zaman, M., &
Chayasombat, J. (2014)109 ou en management celui de Dewar R. D. and J. E.
Dutton (1986 p1426)8110. Zaman, M., & Chayasombat, J. (2014 p245) 9
mentionnent que pour tenir compte des biais des différences industrielles et
géographiques potentielles, ils ont utilisé un échantillon aléatoire stratifié avec
des secteurs industriels et les régions standard gouvernementales comme
variables stratifiées. D’autres auteurs ne font aucune précision ce qui conduit
généralement à la conclusion que l’échantillon n’est pas aléatoire et
l’extrapolation des résultats à la population est objet de doute.
La précision de la nature aléatoire ou non aléatoire de l’échantillon est
importante pour la qualité des résultats d’une recherche. Le chercheur est censé
savoir que le choix d’un échantillon non aléatoire peut conduire à des résultats
biaisés si on ne procède pas à la vérification d’un certain nombre de conditions.
8
Dewar Robert D. and Jane E. Dutton (1986), The Adoption of Radical and Incremental
Innovations : An Empirical Analysis ; Management Science, Vol. 32, No. 11 (Nov., , pp. 1422-1433.
Alan G Sawyer; A Dwayne Ball (1981); Statistical power and effect size in marketing research,
Journal of Marketing Research: Aug; 18
9
Zaman, M., & Chayasombat, J. (2014). Audit pricing and product differentiation in small private
firms: evidence from Thailand. Journal of Accounting in Emerging Economies, 4(2), 240-256.
88
Chapitre I. Introduction à l’analyse des données.

« Les tests statistiques ne permettent pas de corroborer de manière fiable les


déductions tirées du fait que les échantillons non aléatoires ont violé l'exigence
d'indépendance des observations et que différentes parties des communautés
étudiées n'avaient pas la même chance d'être représentées dans l'échantillon.
Exigences supplémentaires, par exemple de normalité et d'homoscédasticité ont
également été négligés dans plusieurs cas » Lájer, K. (2007).
Tableau N° 39 : Nature de l’échantillon et précautions à prendre.
Echantillon aléatoire Echantillon non
aléatoire
Méthode statistique Paramétrique Non paramétrique
Indépendance des Assurée _ pas besoin de Non assurée - à vérifier
observations vérifier
Normalité Assurée Non assurée - à vérifier
Généralisation des Possible Non évidente
résultats
Taille de l’échantillon.
La taille de l’échantillon ou le nombre d’observations juste nécessaire pour
garantir une certaine qualité des résultats (A. G Sawyer; A D. Ball 1981)111 est une
question très courante qui préoccupe le chercheur se prêtant à se lancer dans
une étude. Plusieurs considérations interviennent dans la fixation de la taille de
l’échantillon :
1. Le niveau de précision ou de l’erreur d’échantillonnage.
La taille de l’échantillon dans le cadre d’un tirage aléatoire est calculée en
retenant la formule suivante.
Formule N° 1: Taille de l’échantillon.
z2 p∗q
n s= ²
e
ns= taille de l’échantillon ; z = Valeur de Z pour une valeur de α (ex α égale à 5%) ;
p=variabilité (ex. 0,5), q=1-p ; e=niveau de précision ou erreur d’échantillonnage
(ex 5%).
1,962∗0,5∗0,5
Exemple pour z égal à 1,96 ns=n s= =385
0 ,05²
Les exigences de la méthode d’analyse.
La taille de l’échantillon dépend aussi d’autres considérations comme la nature
de la méthode à utiliser joue un rôle important, la complexité du modèle
89
Chapitre I. Introduction à l’analyse des données.

(nombre de relations et de variables et la nature de l’échelle de mesure des


variables.
Plusieurs propositions ont été faites pour suggérer une taille de l’échantillon :
 Un minimum de 30 observations est nécessaire pour utiliser sans crainte
les outils statistiques paramétriques.
 Le recours au test de Chi2 nécessite des fréquences attendues pour
chaque catégorie au moins égale à 1 et 20% des catégories au maximum
peuvent avoir des fréquences inférieures à 5.
 Le recours à une régression multiple (Maxwell, S. E. 2000) 112 nécessite
également qu’on prenne des précautions concernant le nombre
d’observations à utiliser pour estimer les paramètres de l’équation.
 En analyse factorielle (R. C. MacCallum et al. 2001) 113 et en règle générale,
Perrien, et al. (1989 p 482)114, suggèrent que le nombre d’observations
soit environ égal à 10 fois le nombre de variables pour pouvoir tester la
signification statistique des différents facteurs.
Le nombre de variables.
D’autres auteurs établissent un lien entre la taille de l’échantillon et le nombre
de variables. Ainsi par exemple, Sorbom et Joreskog (1982 p12) 115 suggèrent que
la taille doit égale à 10 fois le nombre de variables observables. D’autres auteurs
suggèrent une taille de 200 si le nombre de variables observables (k) est inférieur
ou égal à 12 et dans le cas contraire une taille égale à : 1,5*k*(k+1). Selon James
Stevens (1996)116 la règle de 15 observations par variables prédictrices est un
standard pour l’application de l’OLS dans une analyse de régression multiple.
Loehlin (1992)117 a pu conclure, à partir d’une simulation Monte Carlo utilisant
des modèles d’analyse factorielle confirmatoire, qu’en présence d’un modèle de
2 à quatre facteurs, la taille de l’échantillon doit être au minimum 100 et si
possible au mieux 200. Westland (2010)118 a suggéré l'équation suivante:
Formule N° 2 : Taille de l’échantillon de Westland (2010).
2
n ≥ 50∗r −450∗r +1100
n>=50*r²-450*r+1100, où n est la taille de l'échantillon et r est le rapport des
indicateurs aux variables latentes, pour identifier la taille minimale de
l'échantillon. Cette méthode a été utilisée par Ryu, J. S. et al. (2016) 119.
La référence au travaux passés.
A ces critères, nous insistons sur la prise en considération de la moyenne des
tailles de l’échantillon retenues par les auteurs dans le champ débattu par une
recherche. Nous trouvons plusieurs auteurs qui se comparent aux principaux
auteurs de leur domaine, à la moyenne ou un intervalle de la taille la plus faible à
90
Chapitre I. Introduction à l’analyse des données.

la taille la plus forte.


Structure et Représentativité de l’échantillon.
La qualité d’un échantillon réside dans le degré de son équivalence à la
population. Il convient donc de calculer les fréquences et les pourcentages dans
chaque catégorie de la caractéristique retenue et de les comparer à ceux de la
population.
Il convient de donner au lecteur une meilleure représentation de la structure de
l’échantillon et surtout la conformité de cette structure à celle de la population.
Plusieurs manières sont observées dans la littérature pour présenter la structure
de l’échantillon. La manière graphique est la plus simple et la plus expressive
(Figure N° 63).
Figure N° 63 : Caractéristiques de l’échantillon

Source : Ezekiel, A. O., Olaleke, O., Omotayo, A., Lawal, F., & Femi, O. (2018). Data on empirical
investigation of direct and indirect effect of personality traits on entrepreneurs’ commitment of
SMEs. Data in brief, 19, 1171.
1. Conformité de l’échantillon à la population : Exemple en
logistique
Une application en logistique est empruntée à Fynes, B. et al. (2005) 120 où les
auteurs souhaitent savoir si la structure de leur échantillon de 200 firmes
représente bien la population. Les tests de Chi2 utilisés ne permettent pas de
rejeter l’hypothèse H0 : Indépendance entre d’une part les modalités de la
caractéristique et la source (population ou échantillon). Il y a donc une
indépendance. Ceci suggère que le profil de réponse de l'échantillon n’est pas
significativement différent du profil de la population, et que l'échantillon est
largement représentatif des variables clés.

91
Chapitre I. Introduction à l’analyse des données.

Tableau N° 40 : Test de représentativité de l’échantillon.


Characteristic Population (%) Sample (%) Chi2
No. of employees
Less than 20 21.9 16.5
20 but less than 50 41.2 40.0
NS
50 but less than 100 15.6 20.5
100 but less than 200 11.0 11.5
200 or more 10.3 11.5
Plant ownership
Irish 55.0 52.0
United Kingdom 5.0 2.5
Other European 14.0 14.5 NS
USA 20.5 25.0
Japan 2.0 3.5
Other 3.5 2.5
Plant age
Less than 5 years 10.8 14.0
6 but less than 11 years 18.5 22.0
NS
11 but less than 20 years 47.1 42.0
20 but less than 50 years 21.2 19.0
50 years or more 2.4 3.0
Source : Fynes, B., Voss, C., & de Búrca, S. (2005). The impact of supply chain relationship
dynamics on manufacturing performance. International Journal of Operations & Production
Management, 25(1), 6-19.

Nous montrons dans ce qui suit les calculs qui ont mené à ces résultats et ce
pour me premier critère. La matrice de contingence croisant la source
(population et l’échantillon) avec la taille de l’entreprise (nombre d’employés) a
été utilisée en guide d’application. Le recours au test de Chi2 d’association
permet les résultats suivants :
Tableau N° 41 : Matrice de contingence.
Critère
100 but 20 but 50 but
less less 200 or less Less
than 20 than 50 more than 100 than 20 Total
Source Population Effectif 90 338 85 128 180 821
Effectif
90,9 336,1 86,8 135,9 171,3 821,0
théorique
Sample Effectif 23 80 23 41 33 200

92
Chapitre I. Introduction à l’analyse des données.
Effectif
22,1 81,9 21,2 33,1 41,7 200,0
théorique
Total Effectif 113 418 108 169 213 1021
Effectif
113,0 418,0 108,0 169,0 213,0 1021,0
théorique

Figure N° 64 : Manière sur SPSS pour saisir une matrice des fréquences dans la
population et celles dans l’échantillon.

Figure N° 65 Manière sur SPSS pour saisir une matrice des fréquences dans la
population et celles dans l’échantillon (Suite).

La valeur de Chi2 est égale 4,906 avec p égale à 0,297, l’hypothèse nulle (H0 :
indépendance entre la source d’information et le critère) est acceptée. La
structure de l’échantillon est conforme à celle de la popuation et la
représentativité est retenue.
Tableau N° 42: Résultats du Test de Chi2
Signification asymptotique
Valeur ddl (bilatérale)
93
Chapitre I. Introduction à l’analyse des données.

Khi-deux de Pearson 4,906a 4 ,297


Rapport de vraisemblance 4,911 4 ,297
N d'observations valides 1021
a. 0 cellules (0,0%) ont un effectif théorique inférieur à 5. L'effectif théorique minimum est de 21,16.
Conformité de l’échantillon à la population : Exemple en
comptabilité.
Une application dans le même objet de Byrne, M. et al. (2013)121 est notée en
comptabilité. Les auteurs se contentent de se baser sur des pourcentages
similaires entre l’échantillon et la population pour parler de représentativité du
premier.
Tableau N° 43 : Profil de l’échantillon et sa représentativité de la population.
Population Sample
No. % No. %
Gender
Male 126 52 55 55
Female 117 48 45 45
243 100
Type of institution
University 111 46 47 47
Institute of Technology 132 54 53 53
243 100
Qualifications
Masters degree or PhD Not known 86 86
Professional qualification Not known 76 76
Academic career (average) Not known 12.6 years
Source : Byrne, M., Chughtai, A., Flood, B., Murphy, E., & Willis, P. (2013). Burnout among
accounting and finance academics in Ireland. International Journal of Educational
Management, 27(2), 127-142.
Conformité de l’échantillon à la population : Exemple en
tourisme.
Une recherche sur l’intention de visiter les destinations touristiques, K.
Kaplanidou and C. Vogt 2006 p 211)122 ont procédé à simple comparaison des
proportions des répondants selon leurs caractéristiques démographiques à ceux
de la base des données et ceux d’une étude précédente faite en 2004. Les
similarités observées ont été en faveur de l’échantillon retenu dans cette
recherche (Tableau N° 44).
Tableau N° 44: Comparaison de la structure démographique de l’échantillon de
touristes à celle de la population.
TIA Online Research Panel Respondents’

94
Chapitre I. Introduction à l’analyse des données.

Demographic Demographic Profile(N = Demographic


Profiles of 2004 6,790) Profile
Online Travelers (n = 2,342
Gender
Male 49% 20% 30%
Female 51% 54% 69%
Missing 26% 1%
Household
income
< $25,000 11% 7% 6%
$25,000-$49,999 29% 23% 23%
$50,000-$74,999 23% 25% 29%
$75,000-$99,999 16% 17% 18%
$100,000+ 21% 16% 18%
Missing 12% 6%
Age
18-34 34% 14% 15%
35-54 47% 48% 60%
55+ 19% 14% 25%
Missing 24%
Source : Kyriaki Kaplanidou and Christine Vogt (2006), A Structural Analysis of Destination Travel
Intentions as a Function of Web Site Features, Journal of Travel Research ; 45; 204
Conformité de l’échantillon à la population : exemple en
marketing.
Dans leur étude, Akinci, S. et al. (2004) 10 ont pour objectif de mieux comprendre
les attitudes des consommateurs et l’adoption des services bancaires par
Internet chez des consommateurs sophistiqués. Sur la base d'un échantillon
aléatoire d'académiciens, les auteurs ont examiné les caractéristiques
démographiques, comportementales et comportementales des utilisateurs et
des non-utilisateurs de services bancaires par Internet (IB). Un questionnaire
d'enquête a été mis au point pour recueillir les données primaires auprès des
répondants. Pour constituer une base de sondage, une liste de 1228 adresses
électroniques appartenant aux académiciens a été obtenue auprès du service
informatique de l’université. Étant donné que tous les répondants avaient un
accès permanent à Internet dans leurs bureaux, la majorité du sondage a été
réalisée en ligne ; à cette fin, un courrier électronique expliquant les objectifs de
la recherche et contenant un lien vers la page du questionnaire virtuel a été
remis à 223 adresses bancaires par Internet. Après deux semaines, un suivi a
également été effectué, mais cette fois sous forme imprimée sur le campus en

10
Akinci, S., Aksoy, Ş., & Atilgan, E. (2004). Adoption of internet banking among sophisticated
consumer segments in an advanced developing country. International journal of bank
marketing, 22(3), 212-232.
95
Chapitre I. Introduction à l’analyse des données.

avril 2002. À la fin de la période de collecte des données, 140 questionnaires


utilisables ont été obtenus, générant un taux de réponse de 11,04 pour cent. Ce
faible taux de réponse a été accepté car les enquêtes par Internet ont les taux de
réponse les plus faibles parmi les enquêtes par courrier électronique, par centres
commerciaux et par courrier (Malhotra, 1999). Les répartitions de la population
cible et de l'échantillon par titres académiques sont présentées dans le tableau
suivant. Pour tester la similarité de la structure, des tests-t d’égalité des
proportions ont été effectués entre la population et les proportions de
l'échantillon, deux différences significatives sont à signaler au niveau de deux
titres : les spécialistes et les enseignants mais aucune différence significative n'a
été détectée pour les autres titres indiquant ainsi une tendance
approximativement similaire.
Tableau N° 45: Fréquences dans la population et dans l’échantillon
Polulation Sample Significance of the
Title n % n % difference
Professor 164 13.4 16 11.4 0.500
Associate professor 88 7.0 15 10.7 0.191
Assistant professor 147 12.0 23 16.4 0.172
Doctor/lecturer 190 15.5 25 17.9 0.483
Research assistant 535 43.6 58 41.5 0.627
Specialist 54 4.4 2 1.4 0.011*
Teacher 50 4.1 1 0.7 0.000*
Total 1,228 100 140 100
Conformité de l’échantillon à la population : exemple en
CRM.
Raimondo, M. A. et Al. (2008)123 étudient les influences de l'équité relationnelle
sur la loyauté attitudinale et la loyauté comportementale. Ils testent aussi
l'hypothèse que l'âge relationnel modère l'impact de l'équité relationnelle sur la
fidélité, en adoptant une conception transversale et des données provenant d'un
échantillon de clients italiens de services de téléphonie mobile (N = 461). Pour
s’assurer de la conformité de la structure de l’échantillon à celle de la population,
les auteurs proposent un tableau des données statistiques de deux sources :
Tableau N° 46 : Statistiques sur la population et sur l’échantillon.
Descriptors Population (16 to 65 Sample
Years Old)
N 38441781 461
Gender
Male (%) 49.71 50.33
Female (%) 50.29 49.67
Age (M, SD) 40.07 (13.75) 28.71 (8.13)
16 to 23 (%) 13.53 24.95
24 to 30 (%) 15.64 43.60
96
Chapitre I. Introduction à l’analyse des données.
31 to 40 (%) 23.66 21.04
41 to 50 (%) 19.88 8.46
51 to 65 (%) 27.29 1.95
Area of residence
Northern Italy (%) 44.87 41.87
Southern Italy and islands (%) 55.13 58.13

Conformité de l’échantillon à la population : cas de marketing


agroalimentaire.
Salazar-Ordóñez, M. et al. (2018)11 présentent un guide pour analyser le
comportement des consommateurs dans les marchés agroalimentaires, où se
produisent des défaillances dans la différenciation des produits, dans le but de
démêler les rôles affichés par les informations des consommateurs et les
déductions tirées de stimuli informationnels.
Tableau N° 47 : Analyse descriptive de l’échantillon et de la population
Caracéristiques Sample % Populatio Chi2 Test
n%
Gender Female 52.7 51 Chi2=0.11
(p=0,73)
Age 20–39 years 34 36.4 Chi2= 1.80
40–54 years 35 28.6 (p= 0.40)
55 years 31 35
Schooling University 27.4 25.7 Chi2=0.14
level studies (p=0.70)
Household 1–2 people 44
members 3–5 people 53.7
5+ people 2.3

<1000 19.2
Household 1000–2000 47.4
income (€ €2001–3000 € 21.9
3000þ € 11.5
Some time Yes 24.7
living in rural
areas
21.9
11.5

11
Salazar-Ordóñez, M., Rodríguez-Entrena, M., Cabrera, E. R., & Henseler, J. (2018). Survey data
on consumer behaviour in olive oil markets: The role of product knowledge and brand
credence. Data in brief, 18, 1750-1757.
97
Chapitre I. Introduction à l’analyse des données.

Taux de réponse et Biais de non-réponse.


A. Le Taux de réponse.
Le taux de réponse correspond au rapport du nombre de répondants effectifs sur
le nombre des observations touchées par le support de l’enquête. Une fois le
taux de réponse est comparé à une norme comme celle proposée par Aaker et
al. (2008)124 qui considèrent qu’un taux de réponse moins de 20% est
inacceptable ou celle de Baruch, Y. (1999) 125 qui place le seuil à 40%. Singleton, R.
A. et al. (2005126 cités par Nandedkar, A., & Brown, R. S. 2017) 127 considèrent
qu’un taux de réponse supérieur à 70% écarte le biais de non réponse.
La comparaison se fait également par rapport aux travaux similaires.
Pour illustrer le taux de réponse, nous nous référons à un article en finance celui
de R.A. Olsen et C.M.Cox (2001) 128. Le taux de réponse constaté est 27%, il est
considéré par les auteurs comme typique par référence au type de recherches
abordées.
Une application en comptabilité est observée dans l’article de Nuhu, N. A. et al.
(2016)129 Ces obtiennent un taux de réponse de 17,12%. Ils notent que ce taux de
réponse se compare avantageusement aux études antérieures de la comptabilité
de gestion (Banker et al., 2008 (6,5%) ; Ittner et al., 2002 (11%), King et al., 2010
(14,6%)).
Dans une application en management, J. Kemper et al. (2013)130 trouvent un taux
de réponse de 22% qu’ils comparent aux travaux passés similaires. Le taux de
réponse est calculé comme suit : 347/1575.
Dans une recherche en finance islamique, Abu Hussain, H., & Al-Ajmi, J. (2012) 131
trouvent un taux de réponse de 74,9% sans le comparer à une norme ou à des
travaux passés.
Le biais de non réponse.
Le biais de non réponse consiste à l’éventuel effet des personnes qui n’ont pas
répondu à un questionnaire sur les résultats s’ils avaient répondu. Selon
Malhotra et al. (2006)132 les résultats d’une étude peuvent changer s’il existe une
différence entre les répondants et les non répondants. Pour vérifier l’existence
de ce biais, on fait appel à la méthode subjective, méthode de Armstrong et
Overton (1977) et à la méthode objective de Lambert et Harrington (1990).

98
Chapitre I. Introduction à l’analyse des données.

Tableau N° 48 : Quelques résultats sur l’analyse des non-réponses.


Taux Approche Critères Méthod Résultat Remèdes
de s e de test s du test
répons
e
Shun Yin Marketing 9% Armstron Taille Chi2 positif Suppression
Lam g et Activité de certaines
Venkates Overton observation
et al. (1977) s
(2004) 133
Saldanha, Ressources Armstron Zone Chi2 Minime
J. P., humaines g et géographiqu
Shane Overton e, revenu,
Hunt, C., (1977) Taille de la
& Mello, flotte
J. E.
(2013)134
Wouters, Comptabilit Armstron
M., é g et
Anderson Overton
, J. C., & (1977)
Wynstra,
F.
(2005)135
Michael Marketing Armstron Vendeurs négatif
J., Dorsch g et meilleurs,
Scott R. Overton typiques,
Swanson (1977) mauvais
and Scott
W. Kelley
(1998)136
Viator, R. Comptabilit Armstron Niveau Chi2 négatif
E. é g et hiérarchique,
(2001)137 Overton genre, Taille
(1977)
Hult, G. Managemen 19% Armstron Négatif
T. M., t g et
Hurley, R. Overton
F., & (1977)
Knight, G.
A.
(2004)138
Gonzalez Marketing 26% Armstron Nombre ANOVA négatif
- g et d’employés
Zapatero, Overton et actif total
C. et al. (1977)
(2017)139 Lambert
et
Harringto
n (1990)

99
1. La méthode subjective : La méthode de Armstrong, J. &
Overton, T. (1977)
La méthode de Armstrong, J. & Overton, T. (1977) 140 consiste à dater et
numéroter les questionnaires lors de l’envoi et surtout de leur réception. D’après
cette méthode, les derniers répondants sont supposés être similaires aux non-
répondants Flower F.J. (1993)141. En conséquence, les premières réponses reçues,
ont été comparés aux dernières. Si les différences sont non significatives, on
retient la conclusion que le biais de non réponse n’altère pas les résultats. Cette
méthode est dite subjective (Hult, G. T. M. et al. 2004) 142.
a. Exemple en marketing : Biais de non réponse méthode
subjective.
Dans leur étude de Ashraf, M. et al. (2017)12 constatent que le taux de réponse
dans leur enquête en ligne est de 17,8%. Ils vérifient le biais de non réponse et
présentent les résultats suivants (Tableau N° 49) :
Tableau N° 49: Analyse du biais de non réponse.
Variables N Mean Std. t- Sig.
Deviation Statistics (2-tailed)
Perceived Confirmation Early 100 3.3370 0.92126 0.023 0.982
Late 100 3.3400 0.91008
Competence Trust Early 100 4.0133 0.83943 1.172 0.244
Late 100 3.8610 0.83408
Benevolence Trust Early 100 3.3267 1.00502 -1.146 0.255
Late 100 3.4933 0.97957
Integrity Trust Early 100 3.1358 1.15013 -1.339 0.184
Late 100 3.3500 1.02309
Satisfaction Early 100 3.5762 0.95471 -0.950 0.345
Late 100 3.4440 1.07788
Source : Ashraf, M., Jaafar, N. I., & Sulaiman, A. (2017). The Mediation Effect of Trusting Beliefs on The
Relationship between Expectation-Confirmation and Satisfaction with The Usage of Online Product
Recommendation. The South East Asian Journal of Management.

Pour vérifier le biais de non-réponse, une comparaison des moyennes sur toutes
les constructions d'étude a été réalisée en utilisant des tests t appariés. Les
résultats ont révélé que la valeur de signification pour tous les construits d'étude
est supérieure à 0,05. Ainsi, on conclut qu'il n'y a pas de différences
statistiquement significatives dans les moyennes pour ces deux groupes et que,

12
Ashraf, M., Jaafar, N. I., & Sulaiman, A. (2017). The Mediation Effect of Trusting Beliefs on The
Relationship between Expectation-Confirmation and Satisfaction with The Usage of Online
Product Recommendation. The South East Asian Journal of Management.
Chapitre I. Introduction à l’analyse des données.

par conséquent, les répondants qui n'ont pas répondu au sondage auront
probablement les mêmes perceptions des concepts que ceux qui ont répondu.
Exemple en comptabilité : Biais de non réponse méthode
subjective.
Une application en comptabilité est observée dans l’article de J. L. Pruijssers et
al. (2013)143. Sur les 281 experts comptables interrogés, 40 sont considérés
comme des répondants précoces et 40 comme des retardataires. Un test-t de
différence des moyennes sur les variables sociodémographiques montrent que
l’hypothèse d’égalité des moyennes est acceptée. Il n’y a pas de différence entre
les profils des répondants et des non répondants.
Tableau N° 50 : Test du biais de non-réponse
Variable Early respondents (n=40) Late respondents (n=40)
Demographic variables (p-values)
Gender 0.572
Level (partner/senior/junior) 0.579
Years worked for current employer 0.761
Type of firm (B4/mid-tier/small) 0.539
Constructs of interest
Client commitment 3.97 4.10
Economic dependency 2.34 2.16
Profit orientation 4.42 4.40
Client retention 5.29 5.31
Transparency 5.22 5.19
Audit quality reducing behaviors 2.59 2.21
Deliberate distortions 2.30 1.93
Overcharging clients 2.06 1.90
Professional commitment 5.15 5.47
Level of education (BA/Msc/PhD/ hogeschool), Type of education (accounting vs no
accounting) *means significantly different at p <.05
Source: Jorien L. Pruijssers and J. (Hans) van Oosterhout ORGANIZATIONAL ANTECEDENTS OF
DYSFUNCTIONAL AUDITOR BEHAVIORS: THE MITIGATING ROLE OF AUDIT FIRM GOVERNANCE,
Electronic copy available at: http://ssrn.com/abstract=2251828.
Exemple en finance islamique : Biais de non réponse méthode
subjective.
Une application de cette méthode en finance islamique est constatée dans
l’article de Abu Hussain, H., & Al-Ajmi, J. (2012 144. Ces auteurs concluent qu’il n’y
a pas de différence entre les 30 premiers répondants et les 30 derniers et
excluent le biais de non réponse.
Exemple en management : Biais de non réponse méthode
subjective.

101
Chapitre I. Introduction à l’analyse des données.

En management, Ahmed, I., & Manab, N. A. (2016)145 ont utilisé le test de Levene
pour constater qu’il n’existe pas de différence significative entre les premiers
répondants et les répondants retardataires (Tableau N° 51).
Tableau N° 51 : Résultats du test T d'échantillons indépendants pour le biais de
non-réponse Le test de Levene pour l'égalité des variances.
Group N Mean SD F Sig.
Variables
Early Response 111 4.1391 .44883 .034 .853
RMF Late Response 52 3.9509 .40357
Early Response 111 3.9022 .75075 1.101 .296
BEO Late Response 52 3.5247 .80933
Early Response 111 3.2723 1.23787 3.238 .074
COP Late Response 52 3.2655 1.12999
Early Response 111 4.3784 .50437 .306 .581
RMI Late Response 52 4.0962 .46218
Early Response 111 4.2027 .36543 .002 .968
RMC Late Response 52 4.1563 .34556
Early Response 111 3.9640 .51040 .100 .752
RKS Late Response 52 3.9115 .50938
Early Response 111 4.0060 .63799 1.709 .193
SCP Late Response 52 4.1506 .57381
Early Response 111 2.9225 .72968 1.790 .183
OIN Late Response 52 4.2038 .52914
Early Response 111 3.3333 .80173 .439 .509
LFS Late Response 52 3.4207 .82472
Early Response 111 4.2117 .41920 .005 .945
FFP Late Response 52 4.3013 .39197
Early Response 111 4.1967 .42176 .232 .631
NFP Late Response 52 4.1154 .45678
Note: RMF=Risk Management Framework, BEO= Board Equity Ownership, C O P =Compliance,
RMI=Risk Management Information, RMC=Risk Management Culture, RKS=Risk Knowledge
Sharing, SCP=Staff Competence, OIN=Organisational innovativeness, LFS=Leadership Factors,
FFP=Financial Firm Performance, NFP= Non-financial Firm Performance
La méthode objective de Lambert et Harrington (1990).
La méthode objective revient à Lambert, D.M., and Harrington, T.C. (1990) 146, elle
nécessite que l’on dispose des données sur les caractéristiques de toutes les
observations touchées par l’instrument de l’enquête et il s’agit de comparer la
structure du groupe des répondants à celle des non répondants. Si la différence
est non significative, le bais de non réponse n’altère pas les résultats.
a. Exemple en Management : Biais de non réponse méthode
objective.

102
Chapitre I. Introduction à l’analyse des données.

Nous observons le recours à cette méthode en management dans l’article de


Hult, G. T. M. et al. (2004) 147. Ces auteurs comparent les répondants aux non
répondants par rapport aux critères de la taille de la firme, l’âge et le volume des
ventes et se prononcent pour l’absence de biais de non réponse.
Une application de la méthode de Lambert, D.M., and Harrington, T.C. (1990) est
relevée en management dans l’article de Saldanha, J. P. (2013)148. Les auteurs
ont testé la différence entre les non répondants et les répondants sur trois
critères : la région, le revenu et la taille de la flotte. Le test de Chi2 (Tableau N°
52) donne respectivement Chi2 = 12.07, df = 8, p-value = .148, Chi2 = 2.70, df = 6,
p-value = .845, Ch2 = 2.40, df = 6, p-value = .879. Il est non significatif pour les
trois critères ce qui permet d’accepter l’hypothèse nulle et se prononcer pour
l’absence du biais de non réponse.
Tableau N° 52 : Biais de non réponse avec la méthode de Lambert D.M et
Harrington Y C (1990)
Census region Fleet size
Sample Nonrespondents Sample Nonrespondents
N. ENG 16 108 50 29 139
MID ATL 75 344 100 331 1,517
E.N. CNTR 169 648 250 201 869
W.N. CNTR 68 325 500 69 292
S ATL 97 543 1,000 33 151
E.S. CNTR 64 242 5,000 27 142
W.S. CNTR 83 376 >5,000 4 34
MTN 49 204 Q² = 2.70 Chi2(6) = 10.645
PAC 73 354
Totals 694.0 3,144.0
Q² = 12.07 Chi2(8) = 13.36 p-value = .148
Source : Lambert, D.M., and Harrington, T.C. (1990). Measuring Nonresponse Bias in Customer
Service Mail Surveys., Journal of Business Logistics 11(2) :5–25.
Exemple en Comptabilité.
Dans leur étude, Collier, P., & Gregory, A. (1996)149 ont voulu déterminer si les
comités d'audit garantissent efficacement la qualité de l'audit en protégeant les
auditeurs des réductions de frais susceptibles de nuire à la qualité de l'audit, et
signalent des contrôles internes plus stricts permettant de réduire les délais
d'audit et donc les honoraires d'audit. Comme préliminaire à leur analyse
principale, les auteurs effectuent des tests de biais de non-réponse pour les
variables taille de l’entreprise et frais d’audit ; Le tableau 4 présente des
statistiques récapitulatives sur les entreprises ne répondant pas. Nous
comparons deux variables de taille, l'actif total et les ventes, entre les groupes de

103
Chapitre I. Introduction à l’analyse des données.

répondants et les non-répondants, ainsi que les frais d'audit et le groupe


industriel. Les auteurs ont effectué un test de différence de moyennes pour les
trois caractéristiques des répondants et un test de Chi2.
Étant donné l’asymétrie des variables taille et frais de vérification, le test
approprié est le test de Mann-Whitney; cela est significatif pour les trois
variables aux niveaux de 5% et 1%. Ce résultat, selon lequel le taux de non-
réponse est plus élevé parmi les petites entreprises, est similaire à celui obtenu
par Simunic (1980 cité par Collier, P., & Gregory, A. (1996)). En outre, un test du
chi2 des différences dans le groupe industriel n'a révélé aucune différence
significative au niveau de 5%. De toute évidence, l’importance de la taille de la
société dans notre échantillon doit être contrôlée à fond.
Tableau N° 53 : Répondant et non répondant : Résumé des statistiques.
Responding Non-responding
Mean Median S.De Mean Med S.Dev
v ian
Total 1375 354 3185 339 142 878
assets £m
Sales £m 1432 413 3157 358 189 800
Audit fee 789 400 1054 334 142 878
£O00
Responding Non-responding Chi2 P
Number Percentage Number Percentage 1,073 0,784
Industry 1 123 39.0 51 44.0
Industry 2 127 40.3 41 35.3
Industry 3 56 17.8 21 18.1
Industry 4 9 2.9 3 2.6
315 100% 116 100%

Exemple en Marketing : Biais de non réponse méthode objective.


Shun Yin Lam et al. (2004)150 font recours à cette méthode dans une recherche en
marketing après avoir observé un taux de réponse de 9%. Les auteurs disposent
de deux informations sur les non répondants  : statut de la firme et Coût moyen
de livraison par mois. Le test d’indépendance de chi2 (Tableau N° 54) montre
qu’il y a une dépendance entre les deux groupes répondants et non répondants
d’une part et la structure des deux variables caractérisant l’échantillon. En
conséquence, il y a biais de non réponse. Les auteurs remarquent que les
résultats obtenus sur l’échantillon ne se généralisent pas sur la population. Ils
remarquent que la catégorie du milieu pour la première variable connaît un
déséquilibre entre les deux groupes.

104
Chapitre I. Introduction à l’analyse des données.

Tableau N° 54 : Test de Chi2 d’indépendance entre la structure de l’échantillon et


celle de la population.
Respondents Nonrespondents Chi2
Observed Percentage
Observed % Observed % of Responses
Frequenc Responses Frequenc
y y
Average Shipping Cost per Month : Size of the participating company
Large ($2,261 and above per 8 3.0 50 1.8 Chi2=25,32
month) 4 p= 0.000
Medium ($451-$2,260 per month) 52 19.4 269 9.9
Small ($450 and below per 208 77.6 2399 88.3
month)
Total 268 2718
Activity Status : Current customers versus ex-inactive customers Chi2=8,290
Current customers 234 87.3 2,169 79.8 P=,004
Inactive customers 34 12.7 549 20.2
Total 268 2,718
Exemple en Finance : Biais de non réponse méthode objective.
Baker, H. K., & Kapoor, S. (2015) 151 étudient les opinions des dirigeants des
entreprises indiennes sur les divisions d'actions et les actions gratuites
(dividendes en actions) et de les relier aux explications des distributions de
stocks identifiées dans la littérature.
Pour tester le biais de non-réponse, les auteurs comparent les caractéristiques
des 42 entreprises répondantes à celles des 458 entreprises n'ayant pas répondu
en utilisant le test t pour l'égalité des moyennes et le test de Wilcoxon non
paramétrique. Les auteurs utilisent la base de données Prowess du CMIE pour
obtenir les données suivantes sur chacun des deux groupes pour 2012 :
dividendes sur actions, actif total, capitalisation boursière, ratio cours / valeur
comptable et rendement en dividendes. Pour déterminer si les firmes
répondantes et non répondantes diffèrent significativement sur chaque
caractéristique, ils testent d'abord l'égalité de variance en utilisant le test de
Levene. Ils utilisent le test t pour l'égalité des moyennes. Étant donné l'asymétrie
des distributions, ils utilisent également le test de Wilcoxon non paramétrique.
Les résultats sont présentés dans le Tableau N° 55.
Tableau N° 55 : Caractéristiques des répondants et des non-répondants des
firmes NSE cotés en bourse.
Equity Total Market Price- Dividend
dividend assets capitalization to yield (%)
(Rs. (Rs. (Rs. million) book

105
Chapitre I. Introduction à l’analyse des données.
million) million) ratio

Respondents 37 42 42 42 42
Non-respondents 394 458 458 454 458
Mean
Respondents 2,115.6 260,991.6 128,520.2 2.185 1.717
Non-respondents 2,198.6 244,191.9 111,073.3 2.816 1.848
SD
Respondents 4,285.3 659,829.9 211,060.8 1.430 1.300
Non-respondents 6,980.5 854,794.1 292,602.3 3.483 3.545

Levene’s test for equality of variances 0.096 0.001 0.009 5.218* 0.415

t-test for equality of means (equality of 0.071 −0.124 −0.377 1.163 0.239
variances assumed)

t-test for equality of means (equality of 0.105 −0.154 −0.494 2.295* 0.506
variance not assumed)
Wilcoxon test −1.470 −0.806 −1.519 −1.207 −1.075
Notes : This table shows five characteristics for the survey respondents and non-respondents and
the tests for non-response bias. *Significant at the 0.05 level
Source  : Baker, H. K., & Kapoor, S. (2015). Why Indian firms issue stock distributions.  Managerial
Finance, 41(7), 658-672.

Les résultats montrent qu'une seule des cinq caractéristiques - le ratio prix /
valeur comptable diffère significativement au niveau de 0,05 pour le test de
Levene pour l'égalité des variances et le test t pour l'égalité des moyennes
(égalité de variance non assumée). Cependant, le test de Wilcoxon n'est pas
statistiquement significatif pour ce ratio. Par conséquent, malgré le taux de
réponse relativement faible, les auteurs retiennent la conclusion que les
répondants et les non-répondants ne diffèrent pas statistiquement sur quatre
des cinq caractéristiques.
Attitudes à prendre en cas de biais de non réponses.
En cas de biais de non constaté dans une recherche, il y a lieu de le signaler.
Différentes attitudes peuvent être prises par les auteurs :
a. Afficher le biais de non réponse dans les limites de la
recherche. Nous pouvons citer l’article de Lichtenthaler, U.
(2009) 13
Corriger l’enquête en procédant au suivi des non répondants ou
augmenter la taille de l’échantillon en s’assurant des mêmes
conditions de l’enquête.
13
Lichtenthaler, U. (2009). RETRACTED: The role of corporate technology strategy and patent
portfolios in low-, medium-and high-technology firms.
106
Chapitre I. Introduction à l’analyse des données.

Les Observations , Aberrantes ou déviantes (outliers)


Une observation est aberrante est celle « Qui s'écarte du bon sens, des règles,
des normes » Larousse. Les observations aberrantes ou déviantes constituent un
problème pour toutes les méthodes statistiques. Le problème est notamment
dans la déviation par rapport à la normalité. Il existe des observations déviantes
univariées (déviance sur une seule variable) et des observations déviantes
multivariées (déviance sur plusieurs variables) (R. Weston and Paul A. Gore, Jr
2006 p 736)152.
A. Conséquences des Observations déviantes.
La présence d’observations aberrantes ou encore appelées extrêmes peut
« influencer sensiblement certaines statistiques telles que la moyenne ou fausser
des relations entre variables du fait de leur poids élevé » St-Pierre, L. (1999)153.
Autant dans les méthodes de premières générations et que de seconde
génération, les observations aberrantes peuvent être l’origine de résultats
biaisés (K. Bollen (1987)154. Il est donc indispensable de vérifier leur présence
dans le fichier des données avant de l’exploiter.
Détection des Observations Aberrantes :
1. Détection des observations déviantes univariées.
a. Le « Box Plot » ou la « boîte à moustaches ».
Le Box plot est une méthode graphique permettant de repérer les observations
déviantes, elle est bien appropriée quand le nombre d’observations est faible.
Son principe est de répartir les observations en 4 groupes de 25% d’observations
après avoir effectué un ordonnancement de façon à avoir 25% des observations
des deux côtés de la médiane entre le 1ier quartile et le 3ième quartile. Une
observation est dite déviante ou aberrante quand elle se situe au-dessous ou au-
dessus des limites 1,5 à 3 fois l’interquartile.
Figure N° 66: « Box-Plot » ou Boite à moustaches

107
Chapitre I. Introduction à l’analyse des données.

Pour avoir ce graphique sur SPSS, on peut procéder par la voie statistique
numérique (analyseà statistiques descriptives à explorer) soit directement par
le menu : graphe.
Pour calculer cette expression sur SPSS, nous considérons l’exemple d’application
de Matsumura, H. et al. (2019)14. Les auteurs proposent une matrice initiale
présentant 5 variables : Brand Sector, Brand value US dollar, Oversea sales ratio,
Global Domestica et MarketcapJPY.

Statistiques
Brand value (US dollar)
N Valide 79
Manquant 0
Moyenne 1337892,29114
Médiane 789000,00000
Ecart type 1572839,605634
Plage 8310282,000
Minimum 4718,000
Maximum 8315000,000

14
Matsumura, H., Ueda, T., & Sagane, Y. (2019). Data on the correlations among brand value,
market capitalization, and consolidated overseas sales ratios of Japanese companies. Data in
Brief, 23, 103808.
108
Chapitre I. Introduction à l’analyse des données.

Figure N° 67 : Chemin sur SPSS pour explorer les données et les observations
déviantes.

Comme on peut l’observer la distribution est loin d’être normale, la boîte à


moustache est loin de ressembler à celle de la forme de la Figure N° 68. Comme
on peut le remarquer 10 marques sont déviantes.
Figure N° 68 : Boîte à Moustaches des observations des états financiers sur la
base de la valeur de la marque.

109
Chapitre I. Introduction à l’analyse des données.

La méthode de Q-Q Plot


 « La deuxième manière est connue par la Q-Q plot. Elle consiste à comparer la
distribution des observations aux données que l’on pourrait avoir si la
distribution est parfaitement normale ». « Elle consiste à tracer les quantiles de
la distribution d’une variable contre les quantiles de la distribution normale. Les
tracés de probabilité servent généralement à déterminer si la distribution d’une
variable correspond à une distribution normale. Si la variable sélectionnée
correspond à la distribution à tester, les points se concentrent autour d’une
droite » dite droite de Henry.
Pour illustrer cette méthode considérons une application en sciences comptables
où il s’agit de voir si l’indice de convergence à la norme IRFS-PME suit ou non la
loi normale. Comme on peut le constater dans la Figure N° 69, les points-
observations (états financiers) sont alignés sur la droite sauf pour quelques-uns.
Figure N° 69: Test de normalité de la variable valeur de la marque.

110
Chapitre I. Introduction à l’analyse des données.

Pour avoir la Q-Q Plot on procède comme suit (Figure N° 70) :


Figure N° 70 : Chemin sur SPSS pour obtenir le graphique de Q-Q plot.

Le score-z ou le score standardisé.


Il s’agit de calculer le score-z standardisé d’une variable objet du test de
présence des observations déviantes. À partir de la valeur x i on calcule
l’expression z :
Formule N° 3 : Calcul du score Z
xi −x
z i=
σx
 Une première suggestion revient à Tabachnick et al. (1996) 155, elle stipule
que des variables ayant un score standardisé z i supérieur à 3,29
représentent des données aberrantes potentielles de niveau univarié.
 Une deuxième suggestion de Kline R. (2011 p 54) est d’éliminer toute
observation dont la valeur absolue de z dépasse 3.
 Une autre suggestion156 propose d’examiner le seuil en rapport avec la
taille de l’échantillon :
o Si la taille de l’échantillon est faible (80 observations ou moins), le
seuil à retenir est de +/- 2,5.
o Si la taille dépasse les 80 observations, le seuil à retenir est de +/-
3.

111
Chapitre I. Introduction à l’analyse des données.

Figure N° 71: Calcul du score z sur SPSS

Pour calculer cette expression sur SPSS on procède comme suit :


Analyseàdescriptivesà(on choisit la variable en question) et on coche la case
« enregistrer des valeurs standardisées dans des variables ».
Considérons l’exemple de l’indice de convergence. Sur SPSS, il convient par la
suite de sélectionner la colonne de la nouvelle variable du score standardisé et
de classer par ordre décroissant les observations pour repérer les observations
dépassant le seuil préconisé.
Détection des observations aberrantes bivariées
Pour identifier les observations aberrantes bivariées on peut faire appel au
graphique du nuage des points par rapport à deux variables. Dans l’exemple des
états financiers, on a retenu deux variables CAHT et Indconv (Figure N° 72).
Figure N° 72: Chemin sur SPSS pour identifier des observations aberrantes
bivariées.

Comme on peut le remarquer Figure N° 73), un certain nombre d’observations


sont déviantes et notamment trois : N°59, 58, 60 et 67.

112
Chapitre I. Introduction à l’analyse des données.

Figure N° 73 : Recherche des observations déviantes des 125 états financiers par
rapport deux variables CAHT et Indconv.

Détection des observations aberrantes multivariées.


Différentes méthodes ont été proposées pour identifier les observations
déviantes multivariées. Nous citons la méthode de Mahalanobis, la méthode de
Cook et la méthode du résidu.
a. La méthode de Mahalanobis.
La méthode de Mahalanobis est utilisée pour détecter les observations déviantes
multivariées. Elle est utilisée dans les analyses de régression et dans les
méthodes des équations structurelles.
i. Calcul de la distance de Mahalanobis.
Plus cette distance est forte, plus l’observation est éloignée du centroïde sous
l’hypothèse de la normalité.
La distance au carrée de Mahalanobis (D²) est une version multidimensionnelle
du score z. Il permet de mesurer la distance d’une observation par rapport à une
moyenne multidimensionnelle appelée centroïde.
 Hair et al. (2009)157 proposent de comparer le rapport du carré de la
distance de Mahalanobis par le nombre de variables étudiées à une
valeur maximale fixées généralement à 3 ou 4 pour les grands
échantillons.
 Fox (1991 p 34)158 propose une valeur de d supérieure à 4/(n-k-1) avec n
nombre d’observations et k nombre de variables indépendantes.

113
Chapitre I. Introduction à l’analyse des données.

Pour illustrer cette méthode, nous faisons recours aux données de l’enquête de
O. Akrout (2016)159 sur la profession d’expertise-comptable. Il s’agit de mener
une analyse de régression multiple en considérant comme variable dépendante
n’importe qu’elle variable métrique (nous avons retenu le numéro des
répondants) et les variables à tester comme variables indépendantes (18 items
sur l’engagement professionnel).
Dans le sous-menu « enregistrer » (Figure N° 74), nous cochons la case
« Distance de Mahalanobis », nous obtenons ainsi dans la matrice une nouvelle
variable désignant la distance de chaque observation par rapport au barycentre
(Figure N° 75).
Figure N° 74 : Calcul de la distance de Mahalanobis

Figure N° 75: Création d’une nouvelle colonne désignant la distance de


Mahalanobis.

Calcul de la valeur limite de la Distance de Mahalanobis.


L’expression D² suit une distribution de Chi2 avec comme degré de liberté le
nombre de variables inclues dans le test de multinormalité. Dans l’exemple ci-
dessus, le nombre de variables retenues pour le concept de l’engagement
114
Chapitre I. Introduction à l’analyse des données.

professionnel de l’expert-comptable est de 18 ; le seuil théorique de Chi2 pour


une probabilité moins de 0,001 et dl de 18 est égal à 37,156. Toutes les
observations dont la distance de Mahalanobis est supérieure à ce seuil est
considérée comme déviante. On peut relever sur cette base 16 observations
déviantes.
Identification des observations déviantes par la méthode de la
« boîte à moustaches ».
Il est possible de procéder à une analyse descriptive de cette nouvelle
information pour afficher graphiquement les observations déviantes (Figure N°
76). Comme on peut le constater sur la Figure N° 77, 16 observations déviantes
ont été identifiées ayant une distance de Mahalanobis supérieure à 38.
Figure N° 76: Analyse descriptive des observations déviantes.

Figure N° 77: Distribution de la distance de Mahalanobis et observations


déviantes.

115
Chapitre I. Introduction à l’analyse des données.

i. Calcul de la probabilité de Mahalanobis.


Il est possible aussi de calculer la probabilité de Mahalanobis (Figure N° 78) et de
considérer comme déviantes toutes les observations dont le P est inférieur à
0,001 (Kline 2011)160. Nous relevons 9 observations déviantes (Figure N° 79).
Figure N° 78: Calcul de la probabilité de la distance de Mahalanobis.

Figure N° 79 : Affichage des observations déviantes.

Une recherche en comptabilité faisant recours au test de Mahalanobis est celle


de Smith, R. E., & Wright, W. F. (2004) 161. Les auteurs ont examiné les données
aberrantes et noté peu d'impact potentiel ; Les observations ayant la distance de
Mahalanobis au carré la plus grande à partir du centre de gravité ne sont pas loin
du centre de gravité sous l'hypothèse de normalité, en conséquence l'hypothèse
de normalité multivariée est respectée.

116
Chapitre I. Introduction à l’analyse des données.

Conditions d’application de la méthode de Mahalanobis.


La méthode de Mahalanobis exige que les variables soient métriques (intervalle
ou ordinale quand cette dernière est assimilée à métrique : nombre d’échelons
dépasse 3.
Après avoir repéré les observations déviantes, le chercheur est en mesure de
procéder à leur élimination ou à les traiter séparément moyennant une
justification théorique à de telles mesures. Après élimination, on peut vérifier si
les variables suivent bien une loi multinormale.
La distance de Cook.
La distance de Cook est utilisée pour identifier les observations déviantes. Nous
retrouvons le recours à cette statistique dans l’article de Lam, S. Y., et al.
(2004)162. Une observation ayant une valeur de Cook supérieure ou égale à 1 est
considérée comme déviante (Tabachnick and Fidell 1996163 cités par Lam, S. Y., et
al. 2004)164.
Le résidu.
Le résidu est utilisé pour effectuer un diagnostic des observations aberrantes
dans le cadre d’une régression multiple. La procédure pour utiliser cet outil est
donnée par la Figure N° 80. Garson (STATNOTES) propose de s’assurer que le
résidu standardisé soit bien inférieur à 3,3 ce qui correspond à une probabilité
inférieure à 0.001.

117
Chapitre I. Introduction à l’analyse des données.

Figure N° 80 : Procédure sur SPSS pour un bilan des observations déviantes.

Comme on peut le remarquer le bilan qui résulte des instructions précédentes ne


fait pas état d’observations aberrantes. Aucune observation n’a un résidu
dépassant 3. (Tableau N° 56 et Tableau N° 57)
Tableau N° 56 : Bilan des observations aberrantes selon le critère erreur
résiduelle.
Minimum Maximum Moyenne Ecart-type N
Prévision 3856,3674 5993,6978 5070,3232 466,03656 38
Résidu -750,94531 435,56531 ,00000 268,07326 38
Erreur Prévision -2,605 1,981 ,000 1,000 38
Erreur Résidu -2,480 1,438 ,000 ,885 38
a. Variable dépendante : ventes

Tableau N° 57 : Etat des observations selon l’erreur résiduelle.


Numéro de l'observation Erreur Résidu Ventes Prévision Résidu
1 ,371 5540,39 5428,0480 112,34203
2 ,689 5439,04 5230,4191 208,62091
3 -,925 4290,00 4570,0931 -280,09310
4 ,190 5502,34 5444,7583 57,58165
5 -1,113 4871,77 5208,7314 -336,96144
6 ,892 4708,08 4437,8699 270,21007
7 ,052 4627,81 4612,2068 15,60316
8 -1,745 4110,24 4638,5783 -528,33825
9 ,880 4122,69 3856,3674 266,32257
10 ,784 4842,25 4604,7225 237,52745

118
Chapitre I. Introduction à l’analyse des données.
11 ,942 5740,65 5455,4351 285,21493
12 -,179 5094,10 5148,2280 -54,12796
13 ,038 5383,20 5371,6347 11,56526
14 1,187 4888,17 4528,7859 359,38413
15 -,719 4033,13 4250,8304 -217,70043
16 -,702 4941,96 5154,4702 -212,51016
17 ,292 5312,80 5224,3752 88,42483
18 -2,480 4139,87 4890,8153 -750,94530
19 1,438 5397,36 4961,7947 435,56530
20 -,822 5149,47 5398,4950 -249,02496
21 1,195 5150,83 4789,1241 361,70586
22 -1,241 4989,02 5364,7796 -375,75963
23 ,088 5926,86 5900,1721 26,68787
24 ,339 4703,88 4601,1908 102,68920
25 ,902 5365,59 5092,4083 273,18168
26 -,169 4630,09 4681,4107 -51,32068
27 ,396 5711,86 5591,9116 119,94839
28 -,821 5095,48 5344,0691 -248,58914
29 1,236 6124,37 5750,2154 374,15458
30 -,108 4787,34 4820,0950 -32,75499
31 -,977 5035,62 5331,4779 -295,85792
32 ,340 5288,01 5185,0356 102,97442
33 -,225 4647,01 4715,2497 -68,23967
34 -,600 5315,63 5497,2827 -181,65268
35 ,615 6180,06 5993,6976 186,36241
36 -,107 4800,97 4833,3366 -32,36664
37 ,548 5512,13 5346,1821 165,94789
38 -,481 5272,21 5417,9816 -145,77165
a. Variable dépendante : ventes
Évaluation des observations aberrantes.
Les observations aberrantes peuvent faire l’objet d’élimination si leur pertinence
n’est pas démontrée. L’idée d’évaluer l’importance des observations déviantes
conduit certains chercheurs comme M. Trimarchi et al. (2001 p9)165 à effectuer
une analyse discriminante avec et sans observations aberrantes. Ces auteurs
notent que l'analyse a utilisé cent cinquante-cinq réponses, obtenues auprès des
cadres d'achat à Hong Kong. Le dépistage des données indiquait qu'il n'y avait
aucune violation des hypothèses requises pour une analyse discriminante fiable.
L'évaluation de l'asymétrie et de la kurtosis indiquait que les données
satisfaisaient à la normalité. La distance de Mahalanobis a été calculée pour
détecter les valeurs aberrantes multivariées : pour le critère p <.001 (c2 (7) =
24,32), sept observations aberrantes ont été trouvées. L'étude de ces cas
indiquait que les réponses étaient généralement caractérisées soit par une note
élevée, soit par une note faible pour la plupart des questions. Pour examiner
l'effet des valeurs aberrantes, une analyse discriminante a été effectuée à la fois
incluant et excluant les cas aberrants. L'effet de la suppression des valeurs
119
Chapitre I. Introduction à l’analyse des données.

aberrantes sur les résultats de l'analyse était marginal, donc les cas aberrants ont
été retenus dans l'échantillon final.
Traitement des observations aberrantes.
Après avoir repéré les observations déviantes, le chercheur est en mesure de
procéder à leur élimination quand leur nombre ne dépassent pas les 2% du
nombre total des observations (A. J. Kunnan 1998 p 299) ou à les traiter
séparément moyennant une justification théorique à de telles mesures.

Les Données manquantes (missing value).


Une valeur manquante correspond au cas où lors d’une enquête certains
répondants ne répondent pas à toutes les questions. La saisie des données du
questionnaire est supposée prévoir une manière pour faire signifier que
certaines cases sont considérées manquantes. La plupart des cas, le fait de
laisser la case vide est un signe de valeur manquante.
A. Importance des données manquantes.
Avant de décider du sort des valeurs manquantes, il convient d’évaluer leur
importance ou leur pertinence. Deux approches sont présentes dans la
littérature. L’approche du seuil du pourcentage de valeur manquantes tolérées
et l’approche du « with and without ».
1. Données manquantes et le Seuil des 15%.
La première approche est marquée par l’apport de Tabachnick, G. B., & Fidell, S.
L. (2007)166 et Hair et al. (2010) 167 (cités par Kabiru J.R. et al. 2012168 ) qui
120
Chapitre I. Introduction à l’analyse des données.

proposent d’éliminer toutes les observations dont le nombre de données


manquantes dépassent les 15% quand la taille de l’échantillon le permet.
Pour illustrer ce point nous nous référons à la recherche de Ben Hmad N. et
Akrout O. (2016) et il s’agit d’analyser les données manquantes des réponses sur
les différents items des différentes variables latentes.
Figure N° 81: Manière sur SPSS pour analyser les données manquantes.

Tableau N° 58: Etat des données manquantes des différentes variables du


modèle.
Statistiques univariées
Manquant Nombre d'extrêmesa
N Moyenne Ecart type Effectif Pourcentage Faible Elevée
tenure 968 35,56 21,268 32 3,2 0 0
age 975 41,75 12,573 25 2,5 0 0
employ 904 11,00 10,113 96 9,6 0 15
address 850 11,47 9,965 150 15,0 0 9
income 821 71,1462 83,14424 179 17,9 0 71
marital 885 115 11,5
ed 965 35 3,5
retire 916 84 8,4
gender 958 42 4,2
tollfree 1000 0 ,0
equip 1000 0 ,0
callcard 1000 0 ,0
wireless 1000 0 ,0
multline 1000 0 ,0
a. Nombre d'observations en dehors de la plage autorisée (Q1 - 1,5*IQR, Q3 + 1,5*IQR).

Comme on peut le constater seule la variable « revenu » dispose d’un taux de

121
Chapitre I. Introduction à l’analyse des données.

données manquantes dépassant les 15%.


Données manquantes et l’approche du « avec et sans »
La seconde approche consiste à évaluer les données avec et sans les données
manquantes. Nous citons à ce propos la recherche de Gerard, J. M. et al. (2006
p961)169 qui pour évaluer le biais qui pourrait résulter de données manquantes,
ils ont comparé les répondants avec et sans données manquantes sur plusieurs
facteurs démographiques (âge du répondant, niveau de scolarité, revenu familial,
âge de l'enfant). Peu de différences sont constatées entre les deux groupes, et
celles-ci se limitaient au niveau d'éducation des parents. Les répondants avec des
données manquantes sur le désaccord conjugal, la discipline dure des parents et
la participation des parents étaient moins instruits que les répondants qui ont
rapporté sur ces variables. En partant du constat des différences faible avec et
sans les données manquantes, les auteurs ont dû passer à l’imputation des
données manquantes.
Caractère aléatoire des données manquantes.
Rabin (1976)170 (cité par Rebecca Weston et P.A. Gore, Jr. 2006 p 737)171
présentent trois catégories de données manquantes: les données manquantes
complètement aléatoires (MCAR: Missing completely at random); les données
manquantes aléatoires (MAR) et les données manquantes non aléatoires
(MNAR). L’auteur remarque que les deux premiers types de données
manquantes sont moins problématiques que le troisième type de données
manquantes en raison du caractère systématique de la perte des données.
L’auteur prend le cas du participant à une enquête qui oublie des données par
peu d’intérêt à un construit en sautant des items. Il s’agit du cas des données
non aléatoires. Pour s’assurer du caractère complètement aléatoire des données
manquantes, on utilise le test de MCAR de Little.
1. MCAR Caractère complètement aléatoire : Le test de
MCAR de Little.
Les données manquantes peuvent être non aléatoires, aléatoires et
complètement aléatoires.
Pour vérifier le caractère complètement aléatoire des données, nous utilisons les
informations d’une enquête sur la force de vente dans le contexte tunisien. Dans
cette enquête nous nous intéressons aux neuf mesures de l’effort fournies par la
force de vente. Pour vérifier le caractère complètement aléatoire nous
procédons comme suit :

122
Chapitre I. Introduction à l’analyse des données.

Figure N° 82 : Manière sur SPSS pour vérifier le caractère complètement aléatoire
des données manquantes.

Les données manquantes ne représentent pas plus de 1,4% des données. Ceci
montrent leur caractère peu pertinent.
Tableau N° 59 : Les données manquantes.
Manquant Nombre d'extrêmesa
N Moyenne Ecart type Effectif Pourcentage Faible Elevée
effor1 357 3,10 ,758 3 ,8 16 0
effor2 356 2,39 ,944 4 1,1 0 0
effor3 356 2,99 ,754 4 1,1 . .
effor4 360 2,44 ,862 0 ,0 0 0
effor5 358 3,32 ,717 2 ,6 5 0
effor6 355 3,39 ,668 5 1,4 3 0
effor7 359 2,47 ,968 1 ,3 0 0
effor8 359 2,16 ,941 1 ,3 0 0
effor9 359 2,92 ,817 1 ,3 . .
a. Nombre d'observations en dehors de la plage autorisée (Q1 - 1,5*IQR, Q3 + 1,5*IQR).

Le test de Little permet d’accepter l'hypothèse nulle selon laquelle les données
manquantes sont complètement aléatoires (Test MCAR de Little : Khi-deux =
76,566 DF = 61, Sig. = ,086). Le risque de rejet de H0 est de 8,6% ce risque est
supérieur au seuil classique (5%), on ne pas assumer ce risque et on ne peut pas
dans ce cas rejeter H0. L’hypothèse nulle est acceptée, les données manquantes
sont complètement aléatoires.
Tableau N° 1 Moyennes EMa
effor1 effor2 effor3 effor4 effor5 effor6 effor7 effor8 effor9
3,10 2,39 2,99 2,44 3,32 3,38 2,47 2,16 2,92
Test MCAR de Little : Khi-deux = 76,566, DF = 61, Sig. = ,086
a. Applications de la méthode MCAR de Little.

123
Chapitre I. Introduction à l’analyse des données.

i. Application en Finance.
Liberatore, J., & Miller, T. (2016 p3) 172 développent dans leur article une
taxonomie des entreprises manufacturières et de services, en mettant l'accent
sur différents paramètres de performance clés pour surveiller et gérer la partie
logistique de la chaîne d'approvisionnement. En outre, cette étude détermine si
l'utilisation de mesures clés spécifiques par les entreprises dans ces différentes
classifications varie selon l'industrie, et quel effet, le cas échéant, l'accent mis sur
différents paramètres de performance clés dans les classifications ont sur la
performance financière. Les données originales de cette étude ont été obtenues
à partir du programme d'analyse comparative des SAP pour la planification de la
chaîne d'approvisionnement et utilisent les données de mesure du rendement de
247 entreprises de fabrication et de services. L'ensemble de données comprend
2 223 éléments de données (9 variables * 247 cas), où 330 (14,84%) sont
manquants. La quantité et la configuration des données manquantes devraient
affecter la technique utilisée pour remplacer les valeurs de données manquantes
(Tsikritsis N. 2005). Les modèles possibles sont non manquants au hasard
(NMAR), manquant au hasard (MAR) et manquant complètement au hasard
(MCAR). Ce dernier cas est le meilleur et signifie que la présence de données
manquantes sur une variable n'est pas liée aux valeurs des autres variables de
l'ensemble de données. Le test de Little est la norme pour déterminer si
l'ensemble de données est MCAR ou non. En appliquant le test de Little, les
auteurs ont trouvé que leur ensemble de données est MCAR (test statistique du
chi carré = 356.491, d, f 324, p = 0.103).
Application en ressources humaines.
Un exemple en ressources humaines et sciences comptables montrant une
conclusion différente est effectué sur les données de Salau, O. et al. (2018) 15.
L’examen de la matrice des données montre la présence des valeurs manquantes
sur toutes les variables avec un maximum de 4,3% des observations. La valeur de
Little's MCAR test: Chi-Square = 6403,963, DF = 3595, Sig. = ,000. L’hypothèse
nulle (H0 : les valeurs manquantes sont complètement aléatoires) est rejetée
pour ces données.
Tableau N° 60: Etats des valeurs manquantes.
Missing No. of Extremesa
N Mean Std. Deviation Count Percent Low High
ORA1 564 3,39 ,799 12 2,1 19 0
15
Salau, O., Osibanjo, A., Adeniji, A., & Igbinoba, E. (2018). An integrated dataset on
organisational retention attributes and commitment of selected ICT and accounting firms. Data in
brief, 18, 1930-1936.
124
Chapitre I. Introduction à l’analyse des données.
ORA2 574 3,73 ,556 2 ,3 . .
ORA3 569 3,56 ,729 7 1,2 13 0
ORA4 561 3,35 ,831 15 2,6 15 0
ORA5 551 3,11 1,071 25 4,3 0 0
ORA6 567 3,54 ,746 9 1,6 10 1
ORA7 569 3,55 ,708 7 1,2 9 0
ORA8 553 2,86 1,320 23 4,0 0 0
ORA9 555 2,92 1,272 21 3,6 0 0
ORA10 573 2,88 ,952 3 ,5 0 0
ORA11 568 3,12 ,920 8 1,4 25 0
ORA12 553 3,03 ,972 23 4,0 0 0
ORA13 562 2,73 1,077 14 2,4 0 0
ORA14 574 3,52 ,723 2 ,3 9 0
ORA15 563 3,47 ,877 13 2,3 24 0
ORA16 565 3,17 ,946 11 1,9 40 0
ORA17 560 2,88 1,139 16 2,8 0 0
ORA18 558 2,89 ,948 18 3,1 0 0
ORA19 569 3,05 ,983 7 1,2 47 0
ORA20 567 3,14 ,942 9 1,6 30 0
ORA21 570 2,60 ,961 6 1,0 10 0
ORA22 568 2,52 1,051 8 1,4 23 0
ORA23 569 2,62 1,115 7 1,2 0 0
ORA24 566 ,89 1,191 10 1,7 0 0
ORA25 560 2,41 1,119 16 2,8 33 0
AC1 562 1,90 1,161 14 2,4 0 0
AC2 560 1,56 1,294 16 2,8 0 0
AC3 569 2,28 1,219 7 1,2 49 2
AC4 572 2,62 1,111 4 ,7 0 0
AC5 557 2,52 1,212 19 3,3 48 0
NC1 551 2,51 1,233 25 4,3 50 0
NC2 569 3,26 ,950 7 1,2 40 0
NC3 568 3,22 ,984 8 1,4 40 0
NC4 555 2,51 1,390 21 3,6 0 0
NC5 568 2,74 1,177 8 1,4 0 0
CC1 567 2,55 1,316 9 1,6 0 0
CC2 565 2,43 1,323 11 1,9 0 0
CC3 556 2,44 1,160 20 3,5 42 0
CC4 566 2,69 1,293 10 1,7 0 0
CC5 558 2,79 1,050 18 3,1 0 0
a. Number of cases outside the range (Q1 - 1.5*IQR, Q3 + 1.5*IQR).

MAR : Le caractère aléatoire de données.


Quand les données manquantes ne sont pas complètement aléatoires, on passe
à vérifier si elles sont aléatoires. Les données manquantes sont de type MAR
quand elles sont liées une autre variable de l'ensemble de données, mais n'est
pas liée à la variable d'intérêt (Allison, 2001 cités par Schlomer, G. L. et al.
2010)173. Pour vérifier si les données manquantes dont aléatoires (MAR) pour

125
Chapitre I. Introduction à l’analyse des données.

une variable, on suit les étapes suivantes avancées par par Schlomer, G. L. et al.
(2010) :
 Créer une variable muette avec deux valeurs : manquante et non
manquante.
 Utiliser des procédures statistiques standard pour tester la relation entre
cette variable et les autres variables d'intérêt de l'ensemble de données.
o Si la variable muette n'est liée à aucune autre variable, les
données sont soit MCAR, soit ne manquent pas au hasard
(NMAR).
o Si la variable fictive est associée à d'autres variables, les données
sont MAR ou NMAR
Traitement des données manquantes.
Le traitement des valeurs manquantes s’impose même si leur proportion est
faible étant donné que certains logiciels statistiques les éliminent pas défaut
(SPSS par exemple) et d’autres ne poursuivent pas l’analyse quand ils les
rencontrent (AMOS par exemple). Il existe plusieurs méthodes pour traiter les
informations manquantes, et les chercheurs en proposent plusieurs typologies.
Certains (par exemple L. Ben Othmane (2012), classent les méthodes de
traitement en méthodes palliatives, en méthodes statistiques et en méthodes
supervisées.
D’autres comme Kline (1989)174 les classent en méthodes d’élimination,
méthodes de remplacement (ou imputation) et méthodes d’estimation à travers
une modélisation. Une excellente synthèse basée sur cette classification est faite
par N. Tsikriktsis (2005)175 qui effectue une comparaison des différentes
méthodes en insistant sur les occasions de recours, les avantages et les
inconvénients.

126
Chapitre I. Introduction à l’analyse des données.

Figure N° 83 : Méthodes de traitement des valeurs manquantes.


Méthodes de
traitement des
valeurs manquantes

Méthodes Méthodes
Méthodes palliatives
statistiques supervisées

Méthode de Méthode de Méthodes Méthodes


La technique de
suppression par ligne suppression par d’imputation ou de d’imputation ou de
régression
« list wise » attribut « pairwise » complétion simple complétion multiple

Moyenne

Médiane

Mode

Source : Schéma composé à partir des informations tirées de Laila Ben Othmane (2012),
Prévalence et facteurs associés aux données manquantes des registres de consultations
médicales des médecins des centres de santé communautaires de … BA Ly - - theses.ulaval.ca
a. La méthode de « Listwise » ou élimination de l’observation.
C’est la méthode de traitement des valeurs manquantes la plus courante. Elle
consiste à éliminer toutes les observations du moment où l’observation contient
une valeur manquante.
Si les données ne correspondent pas à l'hypothèse de MCAR, la suppression par
liste « listwise » peut produire des estimations biaisées (Acock, A. C. 2005)176.
La méthode de pairwise
Cette méthode n’élimine pas l’observation que pour la variable qui enregistre un
manquement d’information.
La méthode de substitution par la moyenne.
Cette méthode consiste à remplacer les informations manquantes par la
moyenne de la variable.

Variance nulle ou non significative des réponses « low or poor


variance ».
Avant de mener les analyses nécessaires pour atteindre les objectifs d’une
recherche, il convient d’effectuer des analyses préliminaires des variables pour
127
Chapitre I. Introduction à l’analyse des données.

vérifier s’il n’y en a pas une ayant une variance faible qui ne différencie que
d’une manière faible les répondants. Ces variables doivent être éliminés
(Thomas, R., & Wood, E. 2015 p91)177. Une variable ayant une variance faible
(<0,25) (Son, C. G. et al. 2005 p445)178 ou un écart-type inférieur à 0,50 (Francis-
Smythe, J. 2013 p232)179 reflète une faible variabilité des réponses autour de la
moyenne. Une telle anomalie au niveau des données pourrait donner des
résultats non significatifs non attendus (Sandvik, C., et al. 2009)180.
Ce préliminaire est observée en comptabilité dans l’article de Caldwell, D. F. et al.
(1990 p250)181 qui ont éliminé 5 items sur 16 suite à une faible variance. Dans le
travail de Lundin, J. (2015 p29)182, une faible variance dans les données a eu pour
conséquence l’absence de significativité des effets attendus.
Pour illustrer la question de la variance faible, nous faisons appel aux données de
l’enquête et plus précisément une échelle de mesure relative à l’indépendance
de l’expert-comptable. Comme on peut le remarquer (Tableau N° 61), trois items
ont des variances inférieures à 0,25 que nous proposons d’éliminer.
Tableau N° 61 : Statistiques descriptives des items de l’échelle d’indépendance.
Moyenne Ecart Variance Asymétrie Erreur Kurtosis Erreur Plage
type standard standard
d'asymétrie de Kurtosis
 
IND1 1,18 0,534 0,285 3,445 0,201 12,523 0,399 3

IND2 1,13 0,338 0,114 2,221 0,201 2,976 0,399 1

IND3 4,80 0,606 0,367 -3,650 0,201 13,673 0,399 3

IND4 1,74 1,089 1,187 1,281 0,201 0,172 0,399 3

IND5 1,45 0,654 0,428 1,179 0,201 0,208 0,399 2

IND6 4,96 0,199 0,040 -4,672 0,201 20,099 0,399 1

IND7 2,81 1,250 1,563 -0,532 0,201 -1,310 0,399 4

IND8 4,87 0,338 0,114 -2,221 0,201 2,976 0,399 1

IND9 4,60 0,729 0,531 -2,263 0,201 5,323 0,399 3

Les biais de réponse


Un biais de réponse est une tendance systématique à répondre à une gamme
d'éléments du questionnaire sur une base autre que le contenu spécifique de
l'élément (c'est-à-dire ce que les éléments ont été conçus pour mesurer)
(Paulhus, D. L. 1991)183.

128
Chapitre I. Introduction à l’analyse des données.

Figure N° 84 : Type de biais de réponse.

A. Biais liés à la désirabilité sociale.


La désirabilité est un trait de personnalité rendant l’individu socialement
acceptable ou dans ses relations interpersonnelles. Ce trait est lié à l’acceptation
sociale, à l’approbation, à la popularité au statut social, aux qualités de
leadership ou toute qualité faisant de l’individu un compagnon socialement
acceptable.16
Afin de contrôler statistiquement la possibilité d'un biais de réponse de social-
désirabilité, Dorsch, M. J et al. (1998)184 ont demandé aux répondants de
compléter une version en 19 éléments (Carlson et Grossbart 1988) de l'échelle
de désirabilité sociale de Marlowe-Crowne (M-C) (Crowne et Marlowe 1964). La
mesure de désirabilité sociale M-C ne tenait compte d'aucune variabilité
appréciable des perceptions acheteur-vendeur,(lamda = 0,88, F (12, 79) = 0,88, p
= 0,5706). Cela suggère que les conclusions ne seront probablement pas
influencées de manière significative par un biais de réponse de désirabilité
sociale.
Biais de non réponse partiel.
Une forme de biais de réponse que l'on retrouve dans presque toutes les
enquêtes par sondage implique une non-réponse partielle. Les deux questions
sont laissées en blanc ou les répondants n'indiquent aucune connaissance des
questions en cochant un point d'échelle « sans opinion». Bien que la mesure des
attitudes neutres fasse l’objet de controverses, certaines recherches indiquent
qu’il serait utile d’inclure une catégorie «pas d’opinion» pour aider les
répondants qui n’ont vraiment pas une attitude envers un objet particulier

16
https://www.ncbi.nlm.nih.gov/mesh?term=social%20desirability
129
Chapitre I. Introduction à l’analyse des données.

(Green et Tull, 1978 cités par Jayanti, R. K., et al. 2004185).


Biais de consentement.
L'acquiescence est une forme de biais de réponse qui se définit comme une
tendance à évaluer systématiquement les objets ou les attitudes de manière
favorable ou positive. On pense que le biais d’acquiescence chez les personnes
âgées est dû à la tendance des personnes âgées à adopter des attitudes plus
favorables et à souscrire aux déclarations quel que soit leur contenu (McPherson,
1983 cité par Jayanti, R. K., et al. 2004).
Biais des extrémités.
Ce biais est dû à la tendance à utiliser les extrêmes, tout en excluant les points
intermédiaires, pour répondre à une échelle (Shulman, A. 1973) 186.

Homogénéité des répondants.


Ce test entre dans le cadre de ce qui est couramment partagé dans les discours
des chercheurs celui de « ne comparer que ce qui est comparable ». Le test
consiste à s’assurer que les observations retenues dans l’échantillon, qu’on
appelle les sections, peuvent être croisées au sens qu’il n’existe pas des
caractéristiques qui peuvent laissent entrevoir des sous-groupes.
A. Identification de l’hétérogénéité de l’échantillon.
Il existe plusieurs outils pour identifier l’existence ou non de l’hétérogénéité dans
un échantillon (Tableau N° 62).
Tableau N° 62 : Tests d’homogénéité et méthode d’analyse
Test d’égalité des variance Méthode d’analyse
(homoscédasticité ou homogénéité de
la population)
Test de Levene Analyse de la variance
Test de Box Analyse discriminante
Test de Chi2, t-test, Test de Fisher
Test de Chow Analyse de régression
Test d’invariance Méthodes des équations
structurelles
1. Test d’homogénéité par le Ficher ou le Chi2.
Pour citer un exemple en marketing, nous nous référons à Dwyer, F. R., & Oh, S.
(1988)187. Ces auteurs font appel dans leur article à trois types d’acteurs de la
distribution : les coopératives de détail, les grossistes volontaires et les

130
Chapitre I. Introduction à l’analyse des données.

indépendants (Tableau N° 63). Pour le cas de la localisation, on pose comme


hypothèse nulle : Pas d’association entre la localisation et le statut du
distributeur (Homogénéité). Le risque de rejeter H0 à tort (0,562) dépasse les
5%, ce risque est élevé, on ne pas l’assumer, on ne peut pas rejeter H0 : H0 est
accepté, il y a homogénéité entre les distributeurs de point de vue localisation. Il
est possible de raisonner en termes de 127 intermédiaires et non de trois
groupes d’intermédiaires.
Le deuxième exemple est la taille de l’entreprise. Pour qu’il ’y ait une
homogénéité des répondants il faut s’assurer de l’absence de différence entre les
moyennes des tailles des intermédiaires. On pose H0 : pas de différence
significative entre les types d’intermédiaires sur le plan nombre d’employés. La
valeur de Ficher est égale à 3,32 significative du risque de 5%. Ce risque étant
élevé, H0 est acceptée. Il y a homogénéité des répondants.
Tableau N° 63 : Profil de l’échantillon
Characteristics Retailer Wholesaler lndependents Statistics for
Cooperatives Voluntaries (n= 24) Differences
(n= 58) (n = 45) Across
Channel
Forms
Store Location (%) Chi2 = 2.976
Multiple locations 9 3 4 P=0.562
Free standing 29 27 14
Other (mali, strip) 20 15 6
Total
Number of Employees F = 3.32*
Range 2 to 86 2 to 86 1 to 33 1 to 75
Mean• 14.5A 14.5A 6.7B 13.4AB
Median 8 8 4 5
Last Year's Sales ($000) F = 2.11
Range 200 to 12,000 10 to 4000 50 to 6300
Mean 1517 697 1636
Median 700 213 285
Share of Sales ln:
Sample (row sum = 1.0) .46 .27 .27
Hardware Age (1984) w/s vol. .48 .34 .18
Last Year's ROI (%) F = 3.35*
Range (5) to 42 (5) to 42 (5) to 55
Mean• 13.2 7.3A 15.0A
Median 12.0 7.0 7.0
Perceived Relative Profitability Chi2 = 11.53*
(%)c
Above average 35 17 29
Average 51 39 42
Below Average 14 44 29
a. "For F-statistics implicating rejection of the hypothesis of equivalent means, group means with a
common letter superscript are
b. not significantly different per the Bonferroni contrast procedure and a two-tailed family alpha of .1 O.
c. bN = 23 as one outlier emphasizing lumber (sales = $45 MM) is excluded.

131
Chapitre I. Introduction à l’analyse des données.
d. 01nterpolated 10-point categorical scale: bottom category "negative," coded -5%; top category "50%
or more," coded 55%. Only
e. one firm is in this top category and 17 are in the bottom.
f. *Significant at p < .05.
Source : Dwyer, F. R., & Oh, S. (1988). A transaction cost perspective on vertical contractual
structure and interchannel competitive strategies. The Journal of Marketing, 21-34.

Un second exemple est observé dans la thèse de Akrout F. (1996)188. Compte


tenu de l'importance de la variable structure économique du circuit auquel
appartient l'intermédiaire interrogé, nous avons procédé à des tests statistiques
pour nous assurer de l’homogénéité des acteurs de la distribution retenus dans
cette étude.
Tableau N° 64: Profil croisé de l'échantillon
Structure ® Conventionnelle Contractuelle Intégrée Statistiques des
Caractéristiques ¯ N1= 257 N2=214 N3=67 différences entre les
formes de circuit
Taille (Nbre d’employés) c2= 40.08
- 1 employé 72 35 9 d.l = 6
- de 2 à 5 employés 70 45 12 r=0.000
- de 5 à 10 employés 96 88 40
- 10 employés et plus 17 46 6
Surface du point de vente c2= 66.47
- Moins de 10 m2 5 8 4 d.l = 16
- De 10 à 20 m2 36 69 30 r=0.000
- De 20 à 30 m2 56 16 7
- De 30 à 40 m2 33 12 3
- De 40 à 50 m2 19 19 1
- De 50 à 100 m2 17 15 2
-De 100 à 500 m2 33 26 8
-De 500 à 1000 m2 47 36 11
- 1000 m2 et plus 11 13 3
Niveau moyen c2= 15.65
d’éducation des employés d.l = 4
Primaire 21 11 8 r=0.003
Secondaire 171 110 43
Supérieur 39 58 13
Niveau
Gros 68 64 24 c2= 9.71
Détail 184 136 41 d.l = 4
Gros/Détail 5 14 2 r=0.045
Niveau d’éducation du
propriétaire. c2= 16.83
Primaire 25 11 5 d.l = 4
Secondaire 126 61 26 r=0.002
Supérieur 56 67 22
132
Chapitre I. Introduction à l’analyse des données.

Age de l’entreprise.
- Moins de 5 ans 93 72 14 c2= 26.76
- de 5 à 10 ans 73 73 36 d.l=12
- de 10 à 15 ans 37 25 5 r=0.008
- de 15 à 20 ans 13 15 3
- de 20 à 25 ans 18 7 2
- de 25 à 30 ans 11 8 6
- 30 ans et plus 12 14 1
Age du propriétaire
-Moins de 30 ans 78 93 25 c2= 9.48
- de 30 à 40 ans 78 54 19 d.l = 6
- de 40 à 50 ans 52 30 11 r=0.148
- 50 ans et plus 6 33 12

Le croisement de la variable forme du circuit (conventionnel, contractuel et


intégré) avec les caractéristiques générales des intermédiaires enquêtés laisse
apparaître des conclusions intéressantes. En effet, il semble que la taille du point
de vente (en nombre d’employés) est dépendante de la forme du circuit adopté.
Il en est de même pour la variable surface, le niveau d’éducation moyen des
employés, celui du propriétaire, de l’âge de l’entreprise. Seul l’âge du
propriétaire est indépendant de la forme. Il ressort de cette dernière conclusion
que le choix entre rester dans la forme actuelle (généralement conventionnelle)
et adopter une structure contractuelle ou intégrée n'est pas déterminé par l’âge
du propriétaire. A la question de savoir si avec l’avancement de l’âge la
tendance est plutôt vers une forme de circuit ou vers une autre, la réponse n’est
pas claire a priori.
Il est important de noter que sur ces différentes caractéristiques, notre
échantillon risque de présenter des biais (abstraction faite de l’âge) ; cependant
ces biais ne risquent pas de peser lourd sur les résultats puisqu' un certain
équilibre est assuré entre les différentes structures regroupées en deux
catégories : la structure conventionnelle et la structure non conventionnelle
(intégrée et contractuelle).
Le test d’homogénéité par le test de Levene.
Le test d’homogénéité de la variance par le biais de test de Levene est effectué
par Zhao, X. (2005)189. L’échantillon retenu est de 17 firmes Allemandes
installées en Chine. Un test d’homogénéité est positif puisque sur les cinq
variables, le test de Levene est non significatif : l’hypothèse nulle « H0 égalité ou
homogénéité des variances » est acceptée.

133
Chapitre I. Introduction à l’analyse des données.

Tableau N° 65 : Test d’homogénéité de la variance


Levene Risk Levene
Firm size Statistic df1 df2 Sig. aversion Statistic df1 df2 Sig.
1.257 2 17 0.31 0.719 2 17 0.502
0
Market Levene Income Levene
size Statistic df1 df2 Sig. tax Statistic df1 df2 Sig.
0.023 1 18 0.88 0.107 1 18 0.747
0
Perceived Levene
risk Statistic df1 df2 Sig.
2.104 2 17 0.15
3
Source : Zhao, X. (2005). Modeling market entry mode choice : the case of German firms in
China. University of Bielefeld. Retrieved May, 12, 2006.
Le test d’homogénéité par le test de Chow (1960)
Le test de Chow (1960)190 s’applique sur des analyses de régressions pour vérifier
si les estimations des coefficients de régression ne changent pas d’un groupe à
un autre.
Formule N° 4 : Formule de Chow
𝑇𝑒𝑠𝑡 𝑑𝑒 𝐶ℎ𝑜𝑤=(𝑆𝑐−(𝑆1+ 𝑆2)/𝑘)(𝑆1+ 𝑆2)/(𝑁1+𝑁2−2𝑘)
Avec : SC la somme des carrés des résidus estimés du modèle initial, S1 la somme des carrés des résidus
estimés du premier groupe, et S2 la somme des carrés des résidus estimés du groupe 2. Les valeurs N1 et N2
représentent le nombre d'observations dans chaque groupe et k est le nombre total de paramètres à
estimer. La statistique du test suit une loi de Fisher avec ν1 = k et ν2 = N1 + N2 - 2k degrés de liberté.
L'hypothèse nulle du test de Chow stipule que les coefficients de régressions ne changent pas d’un groupe à
un autre » Wikipedia.

Dans une recherche en marketing, Jones, M. A., et al. (2000 p265)191 s’assurent
de l’homogénéité de la population étudiée. Le test consiste à vérifier l’existence
de différence significative entre les modèles de régression à travers les types
d’industries. La valeur de Fisher calculée est de 0,008 avec un p<0.10.
L’hypothèse d’homogénéité est acceptée, il n’y a donc pas de raison de séparer
les industries dans les analyses.
Dans une recherche en finance islamique, Yusoff, R., & Wilson, R. (2005)192
utilisent le test de Chow pour vérifier l’homogénéité de la population des
dépositaires des banques islamiques (participation aux bénéfices) par rapport
aux dépositaires classiques (basés sur les intérêts). Le test permet de retenir
l’hypothèse d’homogénéité au risque de se tromper de 10%.
Dans une recherche en finance, Ayadi, I. (2014)193 étudient l’efficience des
banques tunisiennes et utilise dans un premier temps le test de Chow pour
134
Chapitre I. Introduction à l’analyse des données.

vérifier l’homogénéité de ces dernières. Le risque de se tromper en rejetant H0


(homogénéité des banques) est moins de 5%, les 17 banques retenues
présentent une certaine hétérogénéité ce qui complique la question de les
intégrer dans une même analyse.
Le test d’invariance.
Le test d’invariance ou de stabilité est appliquée quand l’étude porte sur une
population contenant explicitement deux groupes au moins. Burki, U., & Kadić-
Maglajlić, S. (2013)194 ont vérifié l’homogénéité de la population étudiée en
procédant à un test d’invariance sur un modèle d’équation structurel.
Correction de l’hétérogénéité.
1. Ajout de variable instrumentale.
Ngondjeb, Y. et al. (2011) font appel à des variables instrumentales pour
contrôler le biais qui peut être causé par l’hétérogénéité de la population
utilisée.

Indépendances des Observations.


Hopkins, K. D. (1982) a posé dans une publication la question de l’unité de
l’analyse : l’individu ou le groupe, ceci entre dans le cadre de la nécessité de
veiller à l’indépendance des observations. Les observations doivent être
indépendantes au sens que les liens entre deux sources d’information sont
supposés insignifiants. Ainsi par exemple la méthode d’échantillonnage « boule
de neige » est à éviter. La méthode d’échantillonnage aléatoire est conseillée.
Les observations non indépendantes peuvent biaiser les estimations. C’est ainsi
que les observations similaires les plus représentatives peuvent influencer les
résultats.
Comme pour la plupart des méthodes statistiques, la condition d’indépendance
entre les observations est de rigueur. L’indépendance entre les observations
consiste à supposer que les réponses données par un individu n’influencent pas
les réponses d’un autre individu. En cas où cette condition n’est pas respectée,
comme par exemple une même personne interrogée deux fois dans deux
périodes différentes, ou des subordonnés et leur chef interrogé sur un même
thème. Quand la dépendance entre les observations est substantielle,
l’estimation des paramètres est biaisée ainsi que leur erreur standard, ce qui
affectent le pouvoir du test de significativité (Bliese & Hanges, 2004; Kenny &
Judd, 1986 cités par N. G. Dyera, P. J. et al. (2005 p150).
Pour vérifier l’existence de dépendance entre les observations, on fait appel au

135
Chapitre I. Introduction à l’analyse des données.

test de Cohen. Si la dépendance est substantielle, il y a lieu soit de regrouper les


observations dépendantes et en tirer une moyenne ou procéder à une analyse
multigroupe.
A. Test d’indépendance des observations par la méthode
de Durbin-Watson.
L’indépendance des observations est testée par exemple par la statistique de
Durbin-Watson dans la méthode de régression. Une valeur de cette statistique
comprise entre 1,5 et 2,5 indique que les observations indépendantes
(Hutcheson et al. 1999)195. La condition d’indépendance des observations est
respectée puisque D.W (1,763) est comprise entre 1,5 et 2,5.
Figure N° 85 : Manière sur SPSS pour calculer Durbin-Watson.

Tableau N° 66 : Calcul de Durbin-Watson


Récapitulatif des modèlesb
Modèle R R-deux R-deux ajusté Erreur standard Durbin-Watson
de l'estimation
1 ,321a ,103 ,102 10589,173 1,763
a. Valeurs prédites : (constantes), Nombre d'années d'expérience, aptitude vendeur (communi,
compet etc..), Revenu annuel moyen b. Variable dépendante : Vente moyenne réalisée

Test d’indépendance des observations par la méthode Eta².


Le test d’Eta-carré (η²) permet de vérifier si deux observations (deux employés
par exemple) appartenant à une même unité agrégée (Variable indépendante : le
magasin par exemple) sont plus similaires par rapport à des variables
dépendantes que deux observations appartenant à deux unités différentes.
Dans leur article S. J. Bell et al. (2004)196 utilisent la statistique d’Eta² pour
procéder à l’identification des données nichées. Les données peuvent être
136
Chapitre I. Introduction à l’analyse des données.

nichées, c’est dire une similarité entre des groupes de répondants non pas suite
à une variable choisie mais au fait que des observations ont été prises au sein
des mêmes entités. Les données nichées peuvent être désirées par le chercheur
ou au contraire non désirées. Elles sont désirées quand le chercheur souhaite
pour une raison ou une autre agréger les observations. Elles sont non désirées
quand l’agrégation n’est pas voulue mais des similarités au sein des entités
peuvent conduire à une agrégation forcée.
Dans cet article, il s’agit de vérifier si des différences peuvent exister entre les
vendeurs d’un même magasin au niveau des réponses à un ensemble de
variables (dépendantes). Si des différences sont significatives, l’agrégation
s’impose pour éviter l’effet de redondance des réponses.
Par exemple, la valeur de Eta² correspondante à la variable dépendante
« promotion opportunity » est égale à 0,38 ce qui signifie que 38% de la variance
de cette variable est expliquée par le fait que le vendeur appartienne au même
magasin (Tableau N° 67).
Tableau N° 67 : Lien entre les variables dépendantes et avec l’appartenance ou
non à un même magasin.
Variable 1 2 3 4 5 6 7 8 9 10 Il 12 13 14 15
1. Store s ize
2. Promotion opportu nity .1
3
3. Job autonomy .24 .08
4. Job sec urity .09 .3 1 .33
5. Distributive ju stice . .52 .40 .39
14
6. Team orientation .09 .46 .27 . 14 .44
7. Coworker s upport -.03 .44 .32 .26 .48 .66
8. Job routinization -.09 -. 1 7 -.23 -.31 -.23 -.44 -.20
9. Role ambiguity .01 -.27 -.37 -.40 -.35 -.36 -.40 . 12
1 O. Resource aclequacy .23 .35 .04 .07 .2 1 .33 .43 -.1 5 -.22
1 1 . Organizational support .01 .29 . 1 8 .25 .50 .46 .42 -.36 -.2 1 .39
1 2. Supervisory support .1 1 .47 .27 . 17 .45 .39 .35 -.20 -.35 . 14 .37
1 3. Custome r complaints .07 . 1 7 -.01 .26 .04 -.05 .09 -.2 1 -.27 -.22 -.04 .20
1 4. Commitment to customer -.28 . 1 5 .14 .35 .23 .36 .46 -.38 -.26 -.06 -.32 .25 .03
serv ice
1 5. J ob motivation .05 .20 .07 .46 .36 .39 .23 -.37 -.37 . 16 .37 . 10 .17 .33
Mean 7.22 3.34 3.49 4.03 3.03 3.50 3.79 2.1 2 2.02 3.6 1 2.93 3.79 6.03 3.8 1 2.99
Standard dev iation 3.78 .49 .47 .39 .65 .5 1 .52 .44 .42 .43 .50 .63 3.97 .40 .52
Cronbach's a lpha .73 .83 .79 .89 .84 .70 .70 .64 .5 1 .72 .9 1 .89 .8 1
Compos ite reliabi lity .75 .86 .74 .93 . 89 .82

Ave rage va riance ex t racted .50 .67 .50 .8 1 .57 .60


Eta² .3 .25 .38 .33 .37 .28 .25 .34 .34 .43 .40 .40 .32
8
rwg .97 .94 .96 .94 .95 .95 .95 .95 .97 .95 .92 .99 .95

137
Chapitre I. Introduction à l’analyse des données.

Source : Simon J. Bell Bülent Mengüç Sara L. Stefani (2004); When Customers Disappoint: A
Model of Relational Internal Marketing and Customer Complaints; Journal of the Academy of
Marketing Science. Volume 32, No. 2, pages 118.

Selon Georgopilos 1986197 (cité par S. J. Bell B. et al. 2004198), la valeur de ce


paramètre doit excéder le seuil 0,20 pour considérer que les données sont
nichées et que l’agrégation à un niveau donné est bien appropriée. On déduit
que pour s’assurer de l’indépendance des observations, les valeurs de Eta²
doivent être inférieures à 0,20.

Une application est faite pour vérifier l’implication des enquêteurs dans la
réalisation d’une enquête par questionnaire. Nous disposons des résultats d’une
enquête faites auprès des responsables de points de vente. 24 enquêteurs ont
été recrutés pour mener une enquête sur le rapport entre les acteurs des circuits
de distribution. On souhaite vérifier s’il n’y a pas des signes de fraude de la part
des enquêteurs et quiconque ingérence des enquêteurs dans les réponses. Pour
calculer Eta sur SPSS on suit le chemin présenté dans la Figure N° 86.
Figure N° 86 : Manière de calcul de Eta

Tableau N° 68: Valeurs de Eta et Eta²


Eta Eta²
Nominal par Intervalle Eta divc1 dépendant 0,277 0.076729
Nominal par Intervalle Eta divc3 dépendant 0,297 0.088209
Nominal par Intervalle Eta divc2 dépendant 0,290 0.0841

Pour ces trois variables, la valeur de Eta² est inférieur à 0,20, ce qui permet de
noter que les réponses par groupes d’enquêteurs sont bien différentes (Tableau
N° 68), les observations sont indépendantes.

138
Chapitre I. Introduction à l’analyse des données.

Remèdes au biais de non indépendances des observations.


Afin d'éviter d'éventuels problèmes statistiques liés à l'indépendance des
observations Davis, L. R. et al. (1993) 199, n’ont inclus qu'une seule observation
choisie au hasard par client dans les analyses. Ainsi, l'échantillon final consiste en
une observation pour chacun des 98 clients.

Le biais de CVM : « Common variance method »


La traduction des concepts en variables et les variables en mesures conduit à des
erreurs que certains qualifient d’erreur méthode ou erreur systématique et
erreurs aléatoire (J. A. Cote; M. R. Buckley (1987)200. La mesure est donc la
somme de trois composantes (Figure N° 87) : la partie vraie (true : t), la
composante erreur qui a son tour est composée de deux sous-composantes :
l’erreur méthode et l’erreur aléatoire. X=t+em+ea.
La mesure est formée par deux composantes : la composante réelle « t true
score » et la composante de l’erreur « e random score » (Lord & Novick 1968201
cités par J. R. Edwards et R.P. Bagozzi 2000)202. L’erreur de mesure est composée
de deux parties : une partie systématique et une partie aléatoire.
Figure N° 87: Notion d'erreur

Bagozzi et Yi (1991)203 remarquent que la principale source de l’erreur


systématique est la variance de la méthode. Un commun accord entre les
chercheurs permet de noter que la variance commune attribuée à la méthode
“common variance method” est un véritable problème dans les sciences sociales.
(P. M. Podsakoff 2003 p897)204. Ce biais est attribuée à la méthode de mesure
des items plus qu’aux mesures qui représentent le construit (Baggozi et Yi
1991205, P. M. Podsakoff 2003 p897)206. Il est attribué au « self-report » et de la
« mono source methodological tools » Markovits Yannis (2011)207.
Le terme méthode, notent Bagozzi et Yi (1991)208, réfèrent à la forme de mesure
dans ses différents niveaux d’abstraction (le contenu de l’item, le type d’échelle,
la forme de la réponse et le contexte général (Fiske 1982 p 81 -84 cité par P. M.
Podsakoff 2003 p897). P. M. Podsakoff 2003 (p897) élargit le niveau
139
Chapitre I. Introduction à l’analyse des données.

d’abstraction pour étendre l’effet méthode à l’effet de halo, la désirabilité


sociale, l’effet du consentement. Des ressemblances entre les répondants, leur
contexte, la nature non aléatoire de l’échantillon peuvent aussi être à l’origine du
biais CVM (Commun variance method). (Markovits Yannis 2011)209. Une étude de
Cote et Buckley (1987)210 a permis de trouver que les mesures contiennent 42%
de variance attribuée au trait, 26% à la méthode et 32% à l’erreur aléatoire.
L’erreur méthode est celle qui nous concerne et notamment le biais qu’elle
pourrait engendrer.
A. CVM : Causes et Conséquences.
1. CVM : Causes et solutions.
Les causes du CVM sont multiples, on peut citer :
 Une même et une seule source d’information. Le fait que l’information
soit collectée auprès d’une même et une seule source pour être à
l’origine d’un biais de CMV. Pour éviter cette source de biais, Burney, L. L.,
Henle, C. A., & Widener, S. K. (2009)211 fait appel à différents répondants.
 L’auto-évaluation. En effet, le fait que l’information soit faite par
l’enquêté lui-même quand il s’agit d’une évaluation de ses propres efforts
ou de ses résultats peut conduire à un biais (Chen, J., Reilly, R. R., & Lynn,
G. S. 2005)212.
 Le même temps de collecte des informations. Les informations collectées
pendant la même période et notamment quand il s’agit de chercher à
vérifier des liens de causalité peut causer un biais de CVM (Nicolaou, A. I.
2000)213.
 Des mesures similaires. Le recours aux construits pour mesurer des
concepts est très courant en sciences sociales et il arrive que des
concepts similaires conduisent à des mesures similaires, ce qui peut
provoquer un biais de CMV. Nous pouvons citer à ce propos, par
exemple, les mesures des deux construits : engagement dans la
profession et engagement dans l’organisation. Poznanski, P. J. (1991) 214
s’attarde sur ce point dans sa thèse pour écarter le biais de CMV en
s’appuyant sur les témoignages de Aranya and Ferris (1984)215 et de Bline,
Duchon, and Meixner (1991)216.
 L’ambiguïté des mesures.
 Effet de la désirabilité sociale. Garantir l’anonymat.
 Quand la réponse est facilitée par la question.
 L’outil de collecte (par exemple le questionnaire). Multiplier les outils de
collecte.
140
Chapitre I. Introduction à l’analyse des données.

 Séparation des questions portant sur les variables dépendantes de celles


sur les variables indépendantes. La séparation peut être faite sur la même
enquête c’est à dire sur le même questionnaire mais en plaçant les
questions des variables dépendantes loin de celles des variables
indépendantes. Il est possible de séparer ces variables en interrogeant
certains répondants sur les variables dépendantes et d’autres sur les
variables indépendantes comme l’ont fait par exemple Cohen, A., &
Sayag, G. (2010)217 en comptabilité et Nasution, H. N., & Mavondo, F. T.
(2008)218 en CRM.
 Ordre des questions.
CVM conséquences.
Les études qui ne prennent pas des mesures pour supprimer le biais de la
variance commune attribuable à la méthode peuvent générer des résultats
surestimant la quantité de variance expliquée (cf. Abrahamson, 1983 219 cité par
Caldwell, D. F., et al. 1990 220 ). Le biais CVM peut être à l’origine de la
surestimation des relations entre les variables. (Markovits Yannis 2011 p84)221. La
CMV peut amplifier la force de certaines relations (Lui, S. S., Ngo, H. Y., & Tsang,
A. W. N. 2001)222.
Outils de détection du biais de la variance commune
attribuée à la méthode (CMV).
1. La plus petite corrélation entre les variables.
Lindell et Brandt (2000)223 cités par Green, K. W. et al. (2015) 224 recommandent
que la plus petite corrélation entre les variables soit utilisée comme
approximation de la variation de la méthode courante. Selon cette approche, la
plus faible corrélation entre les variables de l'étude est de 0,430 entre la
dimension des coûts de la performance logistique et la récupération des
investissements. La plus petite corrélation entre les relations spécifiées dans le
modèle structurel est de 0,600 pour l'orientation vers le marché et les achats
écologiques. En substituant ces corrélations dans les formules fournies par
Malhotra et al. (2007), le score z calculé est de 5,04. Ce z-score calculé
correspond à la signification au niveau 0.01. En ajustant pour la variance de
méthode commune en utilisant la plus petite corrélation (0,430), la plus petite
corrélation entre les relations hypothétiques (0,600) reste significativement
différente de zéro au niveau 0,01. D'après les résultats du test par procuration,
les problèmes associés au biais de méthode commun ne sont pas considérés
comme significatifs (Lindell et Whitney, 2001)225.

141
Chapitre I. Introduction à l’analyse des données.

La méthode du facteur unique de Harman (1967) via EFA.


a. Principe et mécanisme de la méthode de Harman via EFA.
L’hypothèse sous-jacente de la méthode de Harman (1967)226 est que si une
variance importante existe au sein des données, un facteur unique émerge d’une
analyse factorielle exploratoire et dispose d’une variance importante (Newkirk H.
E. et al. 2006 p487)227.
La méthode du test du facteur unique part du principe que si des items
appartiennent à des construits différents, le facteur unique ne serait pas
pertinent. La méthode teste donc la possibilité que des items qui appartiennent à
des construits différents puissent former un facteur unique dominant et si c’est
le cas cela peut être dû à l’effet de la variance commune attribuée à la méthode
et non à celle des items M. Igbaria et al. (1997 p 291)228.

Traditionnellement, le test à un facteur de Harman indique un CMV est


problématique si une analyse factorielle exploratoire (EFA) avec toutes les
variables de l'étude produit des valeurs propres suggérant que le premier facteur
représente plus de 50% de la variance parmi les variables. (Podsakoff, P.M., &
Organ, D.W. 1986)229.
La vérification de la dominance du facteur unique par la méthode Harman se fait
par une simple analyse factorielle exploratoire sans rotation ou avec une rotation
VARIMAX (Seibert, S. E. et al. 2001) 230 en s’assurant que le facteur N°1 qui émerge
ne récupère pas plus que 50% de la variance totale.
Tableau N° 69 : Résumé de la méthode de Harman via AFE.
Facteur Analyse Rotation % inertie Contribution
factorielle
1ier facteur ACP Sans rotation Pas plus de Pas d’items partagés
ou rotation 50% entre facteur
varimax
Application du CVM via EFA.
i. Application de la méthode de CVM de Harman via EFA en Marketing.
Kandemir, D., et al. (2006) 231 ont mis au point une nouvelle structure, orientée
alliance, et exploré son influence sur les performances des réseaux d’alliances et
des marchés. Les auteurs ont puisé dans des données recueillies auprès de 182
entreprises américaines possédant une vaste expérience dans la création, le
développement et la gestion d’alliances stratégiques dans les domaines du
marketing, du développement de nouveaux produits, de la distribution, de la

142
Chapitre I. Introduction à l’analyse des données.

technologie et de la fabrication. 20 mesures ont fait l’objet d’une enquête pour 7


concepts censés être distincts. Une analyse factorielle exploratoire a été menée
dans le cadre de la méthode de Harman pour s’assurer du biais CVM qui risquent
d’attaquer les 20 mesures. Les résultats sont présentés dans le Tableau N° 70, le
premier facteur ne récupère pas plus de 14%, le biais de CVM n’est pas
menaçant pour les analyses.
Tableau N° 70 : Résultats de l’analyse factorielle exploratoire.
Variance totale expliquée
Sommes extraites du carré des Sommes de rotation du carré des
Valeurs propres initiales chargements chargements
% de la % % de la % de la
Composante Total variance cumulé Total variance % cumulé Total variance % cumulé
1 5,225 26,124 26,124 5,225 26,124 26,124 2,793 13,963 13,963
2 2,924 14,618 40,742 2,924 14,618 40,742 2,699 13,494 27,456
3 1,882 9,412 50,154 1,882 9,412 50,154 2,613 13,065 40,521
4 1,520 7,598 57,752 1,520 7,598 57,752 2,114 10,570 51,091
5 1,235 6,174 63,926 1,235 6,174 63,926 1,984 9,919 61,011
6 1,027 5,135 69,061 1,027 5,135 69,061 1,610 8,050 69,061
7 ,895 4,475 73,536
8 ,725 3,625 77,161
9 ,639 3,195 80,355
10 ,510 2,549 82,905
11 ,497 2,485 85,389
12 ,436 2,179 87,568
13 ,425 2,126 89,694
14 ,376 1,881 91,575
15 ,355 1,775 93,350
16 ,309 1,543 94,893
17 ,287 1,435 96,328
18 ,265 1,326 97,654
19 ,249 1,243 98,898
20 ,220 1,102 100,000
Méthode d'extraction : Analyse en composantes principales.

ii. Application du CVM vis EFA en ressources humaines.


Une application en ressources humaines revient à Golden T. D. et al. (2008)232.
Dans leur article les auteurs précèdent la validation de leurs hypothèses par une
vérification de la présence de variance commune de la méthode. Les auteurs ont
obtenu trois facteurs distincts comme prévu avec des valeurs propres
supérieures à un et ils ne retiennent aucune preuve de facteur unique dans les
données.
Dans le même domaine, nous citons un autre recours à cette méthode pour
vérifier le CMV, il s’agit de l’article de Sanjay T. Menon (2001) 233. Nous disposons
dans cet article d’une matrice des corrélations ce qui nous permettra de refaire
les calculs et de vérifier la présence du CMV.

143
Chapitre I. Introduction à l’analyse des données.

Figure N° 88 : Matrice des corrélations et le syntax de l’analyse factorielle.

Comme on peut le constater le premier facteur ne récupère que 23% de la


variance totale et les contributions factorielles ne sont comparables que pour
PC5.
Tableau N° 71 : Résultats de l’analyse factorielle avec Rotation Varimax
Variance totale expliquée
Sommes extraites du Sommes de rotation du
Valeurs propres initiales carré des chargements carré des chargements
% de la % % de la % % de la %
Composante Total variance cumulé Total variance cumulé Total variance cumulé
1 5,667 37,781 37,781 5,667 37,781 37,781 3,453 23,021 23,021
2 2,247 14,977 52,758 2,247 14,977 52,758 2,966 19,771 42,792
3 1,429 9,528 62,286 1,429 9,528 62,286 2,924 19,494 62,286
4 ,820 5,464 67,750 Rotation de la matrice des composantesa
5 ,728 4,853 72,603 F1 F2 F3
6 ,627 4,183 76,786 GI4 ,847
7 ,588 3,918 80,704 GI1 ,832
8 ,568 3,785 84,489 GI2 ,828
9 ,524 3,490 87,979 GI5 ,641
10 ,474 3,159 91,138 GI3 ,637
11 ,333 2,222 93,360 PC1 ,861
12 ,285 1,903 95,262 PC4 ,829
13 ,266 1,775 97,037 PC2 ,770
14 ,242 1,610 98,648 PC3 ,573
15 ,203 1,352 100,000 PC5 ,412 ,543
COMP3 ,863
COMP1 ,779
COMP2 ,760
144
Chapitre I. Introduction à l’analyse des données.

COMP5 ,652
COMP4 ,604
Méthode d'extraction : Analyse en composantes principales.
Application du CVM vis EFA en système d’information.
Une application de la méthode de Harman en système d’information est
empruntée à Newkirk H. E. et al (2006 p487)234. Les auteurs constatent l’absence
d’une variance commune significative des mesures puisque 15 facteurs avec des
valeurs propres supérieures à 1 et aucun facteur n’explique une variance
remarquable (les variances varient de 1,2% à 27%). Cette conclusion est aussi
retenue par Parolia N. et al.(2007)235 dans leur article en système d’information.
Les auteurs constatent plus d’un facteur émerge de l’analyse pour atteindre une
variance totale de 68% sachant que le premier facteur ne récupère que 35%. Il
n’y a donc pas un seul facteur qui représente tous les items et la variance
commune attribuée à la méthode n’est pas évidente.
Application du CVM vis EFA en entrepreneuriat.
Une application en entrepreneuriat revient à Barringer Bruce R. et al. (1999) 236.
Les auteurs mènent une analyse factorielle exploratoire sans rotation en suivant
le principe de base que s’il y a un substantiel biais de CMV dans les données un
facteur unique est censé émergé. L’utilisation de la proposition de Harman
montre que 13 facteurs ayant des valeurs propres supérieures à 1 apparaissent
et aucun facteur n’est dominant. Le biais de CMV n’est pas un problème pour les
données de l’étude.
Application du CVM vis EFA en comptabilité.
Pour illustrer cette méthode en comptabilité nous faisons appel à l’article de Xu,
Y., & Tuttle, B. M. (2005) 237, dans cet article nous disposons des contributions
factorielles « loading » et il est possible de recalculer les résultats à partir de ces
données moyennant la fonction SYNTAX sur SPSS (Figure N° 89).

145
Chapitre I. Introduction à l’analyse des données.

Figure N° 89 : Matrice des contributions factorielles et le programme syntax.

Comme on le voit dans le Tableau N° 72, le facteur 1 n’est pas dominant, il ne


récupère que 24,80% d’information (moins de 50%), ce qui écarte le biais de la
variance commune attribuée à la méthode si on se réfère la méthode de Harman
via EFA.
Tableau N° 72 : Résultats des solutions factorielles.
Variance totale expliquée
Sommes reconstituées du carré des Sommes de rotation du carré des
chargements chargements
% de la % de la
Composante Total variance % cumulé Total variance % cumulé
1 3,716 24,773 24,773 3,721 24,805 24,805
2 2,583 17,223 41,996 2,394 15,957 40,761
3 1,446 9,643 51,639 1,632 10,878 51,639
4 1,172 7,815 59,454 1,172 7,815 59,454

Un exemple en comptabilité très significatif de la méthode de Harman (1967) est


observé dans l’article de Augustine, O. E., et al. (2014) 238. Les auteurs ont dans
leur modèle plusieurs concepts traduits en variables lesquelles sont mesurées
différemment sur les échelles appropriées.

146
Chapitre I. Introduction à l’analyse des données.

Figure N° 90 : Application de la méthode de Harman (1967) en comptabilité


comportementale.

L’utilisation de la matrice de covariance pour une analyse factorielle laisse


apparaitre un facteur unique qui récupère plus de 50% de variance (80,35%). Un
biais CVM est flagrant dans les données de cet article ce qui remet en question
les résultats auxquels il a abouti (Tableau N°73).
Tableau N°73 : CVM : Méthode de Harman via EFA exemple en comptabilité
comportementale.
Sommes extraites du carré des
Valeurs propres initiales chargements
% de la % de la
Composante Total variance % cumulé Total variance % cumulé
1 16,875 80,356 80,356 16,875 80,356 80,356
2 ,611 2,911 83,267
3 ,500 2,380 85,646
4 ,461 2,195 87,841
5 ,407 1,940 89,781
6 ,322 1,535 91,316
7 ,297 1,415 92,731

19 ,053 ,252 99,638
20 ,039 ,188 99,826
21 ,037 ,174 100,000
Méthode d'extraction : Analyse en composantes principales.

Application du CVM vis EFA en stratégie.


Une application en stratégie revient à Rudd J. M. et al. (2008) 239. Ces auteurs
rappellent que l’approche transversale de la collecte de données comporte des
limites inhérentes et, bien que la question de la variance de méthode commune
ait été discutée dans le cadre de l'administration du questionnaire, la possibilité
de généraliser les résultats est maintenant abordée. Bien que la justification de la

147
Chapitre I. Introduction à l’analyse des données.

conception de la recherche soit valable, toute prétention de généralisabilité des


résultats serait fausse. Les résultats sont statistiquement valables et présentent
des informations théoriques et pratiques intéressantes dans un contexte national
et industriel spécifique. Des tests empiriques supplémentaires doivent être
effectués pour pouvoir affirmer que les conclusions peuvent être généralisées.
Une autre application en stratégie est empruntée à Kandemir, D., et al. (2006)240.
Nous disposons dans cet article d’une matrice des corrélations, ce qui permet
d’appliquer l’analyse factorielle exploratoire (AFE) par le bais d’un programme
syntax vu que nous ne disposons pas d’une matrice de initiale.
Figure N° 91 : Matrice sur SPSS et Syntax

Tableau N° 74 : Résultats de l’analyse factorielle exploratoire.


Variance totale expliquée
Sommes extraites du Sommes de rotation du
Valeurs propres initiales carré des chargements carré des chargements
% de la % % de la % % de la %
Composante Total variance cumulé Total variance cumulé Total variance cumulé
1 5,707 35,668 35,668 5,707 35,668 35,668 2,951 18,442 18,442
2 1,747 10,921 46,589 1,747 10,921 46,589 2,503 15,645 34,087
3 1,409 8,808 55,397 1,409 8,808 55,397 2,356 14,722 48,809
4 1,240 7,753 63,150 1,240 7,753 63,150 2,294 14,340 63,150
5 ,888 5,549 68,699
6 ,746 4,661 73,360
7 ,663 4,146 77,506
…….. ……
15 ,294 1,839 98,344
16 ,265 1,656 100,000
Méthode d'extraction : Analyse en composantes principales.

Si on examine les résultats de l’AFE, quatre facteurs sont extraits, le premier


facteur ne récupère que 18,44% largement inférieur au seuil des 50%. Il s’avère
148
Chapitre I. Introduction à l’analyse des données.

qu’il n’y a pas de facteur dominant, ce qui écarte le biais de CMV par la méthode
de Harman via EFA.
Application du CVM vis EFA en science des organisations
Une application en science des organisations à partir de la matrice des
corrélations est empruntée à la recherche de W. L. J., & Anderson, S. E. (1994)241.
Figure N° 92 : Matrice des corrélations et syntax

Une analyse factorielle exploratoire et l’application de la méthode de Harman via


EFA montrent le facteur N°1 n’est pas dominant, il ne récupère que 21% de
l’inertie initiale et les contributions factorielles croisées ne concernent qu’une
seule mesure (Tableau N° 75). Ces résultats écartent le biais de CMV.

149
Chapitre I. Introduction à l’analyse des données.

Tableau N° 75 : Solutions factorielles


Variance totale expliquée
Sommes extraites du carré des Sommes de rotation du
Valeurs propres initiales chargements carré des chargements
% de la % % de la % % de la %
Composante Total variance cumulé Total variance cumulé Total variance cumulé
1 6,025 37,653 37,653 6,025 37,653 37,653 3,485 21,783 21,783
2 2,222 13,890 51,543 2,222 13,890 51,543 2,850 17,814 39,597
3 1,666 10,411 61,954 1,666 10,411 61,954 2,770 17,311 56,907
4 1,408 8,803 70,756 1,408 8,803 70,756 1,698 10,615 67,522
5 1,162 7,261 78,017 1,162 7,261 78,017 1,679 10,495 78,017
6 ,803 5,017 83,034 Rotation de la matrice des composantes a
7 ,453 2,829 85,864 Composante
8 ,420 2,625 88,489 1 2 3 4 5
9 ,372 2,323 90,811 JC1 ,838
10 ,325 2,032 92,843 JC3 ,773
11 ,286 1,789 94,632 JC2 ,766
12 ,264 1,648 96,280 SAT1 ,707
13 ,199 1,241 97,522 SAT2 ,678 ,468
14 ,157 ,979 98,501 SAT3 ,581
15 ,136 ,850 99,350 COM2 ,889
16 ,104 ,650 100,000 COM1 ,876
COM3 ,830
LCR3 ,927
LCR1 ,918
LCR2 ,906
NEGEMO1 ,879
NEGEMO2 ,876
POSEMO1 ,892
POSEMO2 ,880
Méthode d'extraction : Analyse en composantes principales.

Application du CVM vis EFA en finance islamique.


En finance islamique, nous pouvons citer la recherche de Rahman, S. (2015)242
pour illustrer la méthode de Harman via EFA. Comme l’auteur l’a noté, une
analyse en composante principale avec rotation Varimax a permis d’obtenir un
premier facteur qui récupère 31,47%. L’auteur remarque le biais CVM ne pèse
pas lourd sur les résultats puisque le pourcentage récupéré par le premier
facteur n’atteint pas les 50%.
Tableau N° 76 : Résultat de la méthode de Harman via EFA.
Initial Eigenvalues Extraction Sums of Squared Loadings
Component % of % of
Total Variance Cumulative % Total Variance Cumulative %
1 10.072 31.474 31.474 10.072 31.474 31.474
2 2.857 8.929 40.403
Source : Rahman, S. (2015). Relationship between employee corporate social responsibility (CSR)
attitudes, job satisfaction and organisational commitment in Bangladesh. Macquarie Graduate
School of Management Macquarie University, Macquarie Park, NSW, Australia

150
Chapitre I. Introduction à l’analyse des données.

La méthode de Harman via CFA (analyse factorielle


confirmatoire)
Une application de la CMV par la méthode du facteur unique dominant est celle
de D. Kandemir et al. (2006)243.
Tableau N° 77 : Vérification du CVM par une CFA sur les tous les items de 7
construits.
Modèle CMIN DF CMIN/DF
Modèle à un seul facteur 923.64 170 5,49
Modèle à sept facteurs 174.61 149 1,17
Figure N° 93: Résultats de la méthode de Harman Via CFA.
1 seul facteur Sept facteurs

Le modèle à un seul facteur donne un CHI2 (170) = 923,64, contre CHI2 (149) =
174.61 pour le modèle de mesure qui comprenait sept facteurs ; l'ajustement
était pire dans le modèle unidimensionnel à ce qu'elle était dans le modèle de
mesure. Un ajustement pire pour le modèle à un seul facteur suggère qu'un
facteur général n'est pas tenu compte pour la majorité de la covariance entre les
mesures de cette étude.
Nous avons appliqué l’analyse factorielle confirmatoire par la méthode de
Harman sur l’exemple des difficultés d’analyse stratégique. Comme on peut le
constater le modèle à un seul facteur (qui occulte la CVM) n’est pas significatif à
comparer au modèle de mesure à trois facteurs.
Tableau N° 78 : Vérification du CVM par une CFA sur les difficultés d’analyse
stratégique.
Modèle NPAR CMIN DF P CMIN/DF
Modèle à un seul facteur 22 117,160 44 ,000 2,663

151
Chapitre I. Introduction à l’analyse des données.

Modèle NPAR CMIN DF P CMIN/DF


Modèle à Trois facteurs 27 73,254 51 ,022 1,436

La détection du CMV par la méthode des corrélations simples.


Nous pouvons citer à ce propos Buchan, H. F. (2005) 244 qui tout simplement a
constaté l’absence d’effet méthode et notamment le biais de la désirabilité
sociale en se basant sur la non significativité des corrélations entre cette dernière
(mesurée par l’échelle réduite de Marlowe–Crowne) et les variables du modèle.
Tableau N° 79: Illustration de la méthode de Marlowe-Crowne.
Attitude Subjective Perceived Instrumental Moral Ethical
norm behavioral climate sensitivity intentions
control
Marlowe– 0.080 0.131 0.019 0.114 0.131 0.151
Note: Cronbach's alpha=0.68 which approximates Nunnally's (1978) suggested benchmark of 0.7.
Source : Buchan, H. F. (2005). Ethical decision making in the public accounting profession: An
extension of Ajzen’s theory of planned behavior. Journal of Business Ethics, 61(2), 165-181.

Ryan, J. J. (2001)245 ont testé la présence du biais de CMV à travers le phénomène


de la désirabilité sociale. L’observation des corrélations entre d’une part la
désirabilité sociale et les autres variables montrent un lien significatif ce qui
laisse penser que les réponses aux variables 7, 8 et 9 ont été influencées par ce
phénomène (Tableau N° 80).
Tableau N° 80 : Matrice des corrélations (et des valeurs de fiabilités)
Variables Mean SD 1 2 3 4 5 6 7 8 9
Age 34.51 08.9
0
2.Sex 00.46 00.5 -0.030
0
3. Social desirability 05.74 00.7 0.07 00.02 (0.62)
8
4.Tenure 06.29 05.0 000.54 -0.15 0.10
7
5. Procedural justice 04.18 01.5 0.07 -0.09 0.09 00.04 (0.95)
8
6.Moral reasoning 38.91 15.7 -0.040 -0.01 -0.090 -0.02 0.040 (0.70)
7
7.OCB-helping 06.00 0.69 0.03 0.19 0.49* 00.02 0.190 00.21* (0.70)
*
8.OCB-civic virtue 05.73 0.90 0.14 -0.14 0.21* 00.19 0.39* 0.14 00.33* (0.70)
* *
9.OCB-sportsman 05.50 1.27 0.17 -0.21* 0.19* 00.14 0.39* 00.23* 0.20* 00.34** (0.78)
*

Carbonell, P., et Rodríguez-Escudero, A. I. (2009) 246 utilisent également la


corrélation simple comme une quatrième méthode pour détecter le biais CMV.
152
Chapitre I. Introduction à l’analyse des données.

Les corrélations (Tableau N° 81) ne montrent pas des liens exceptionnels. La


corrélation moyenne entre les variables est 0,26. En résumé, le biais de CMV ne
semble pas être un problème majeur cette étude.
Tableau N° 81 : Corrélation des variables de l’article.
Mean S.D. 1. 2. 3. 4. 5. 6. 7. 8. 9.
1. Innovation speed 4.36 1.05 1.0
2. Top management 5.52 1.00 .26** 1.0
support
3. Clarity of goals 5.57 1.15 .33** .42** 1.0
4. Speed-based 2.92 1.78 .13* .35** .29** 1.0
rewards
5. Technology novelty 3.61 1.85 .02 .12 .12 .22** 1.0
6. Technological 3.23 1.65 _.01 .11 .05 .21** .19 1.0
turbulence *
7. Competitive 3.56 1.53 _.08 _.09 _.08 _.10 .10 .14 1.0
intensity
8. Team size 7.50 5.41 _.11 .14 .16* .28* .01 .19* _.04 1.0
9. NPD resources 5.56 .95 .24** .32** .56** .13 .09 _.02 _.08 .05 1.0
10. Market uncertainty 3.64 1.49 .00 .15* _.11 .14 .02 .42** _.05 .00 _.01

La méthode du facteur latent mesuré par variable « marker »


Pour tester la variance commune attribuée à la méthode on utilise une variable
appelée « marker ». Le choix d’une telle variable est conditionné par le critère de
la faible corrélation avec les variables de la recherche en question. Le recours à
cette méthode peut être fait soit moyennant la corrélation partielle soit un
modèle de mesure avec les méthodes des équations structurelle.
Biais CMV : remèdes
Pour tenter de remédier au biais de variance commune attribuée à la méthode,
plusieurs propositions ont été notées dans la littérature.
Remèdes lors de la collecte des informations
 Anonymat assuré au répondant permet de réduire le biais CMV et
notamment celui induit par la désirabilité sociale Liu, Y., Luo, Y., & Liu, T.
(2009)247.
 Séparer les questions relatives aux variables dépendantes et aux variables
indépendantes. Lindell, M. K., & Whitney, D. J. (2001) 248 suggère d’utiliser
une variable « marker » pour séparer la variable dépendante des
variables indépendantes.
 Procéder au test du questionnaire pour vérifier la clarté des termes
employés.
 Diviser l’échantillon suivant un critère. Nous citons à titre d’exemple
Lachman, R., & Aranya, N. (1986)249 qui ont divisé leur échantillon deux
groupes : les professionnels du métier d’expertise comptable et les non
153
Chapitre I. Introduction à l’analyse des données.

professionnels. Pour les professionnels la corrélation entre l’engagement


organisationnel et l’engagement professionnel est élevée mais pour les
non-professionnels, elle est faible et non significative. Par conséquent, la
variance commune attribuée à la méthode a un effet, au mieux, une très
petite et sans importance.
 Multiplier les sources d’information.
 Procéder à l’enquête en deux temps. Cette solution est adoptée par
exemple par Buchan, H. F. (2005)250.
 Utiliser des méthodes de collecte différentes. Il s’agit d’utiliser pour
certaines variables une méthode de collecte et pour d’autres une autre
méthode. Cette solution est constatée dans la recherche de Campion, M.
A et al. (1994)251.
 Diversifier les lieux de l’enquête. Cette solution est adoptée par Carson, K.
D., Carson, P. P., & Bedeian, A. G. (1995) 252 pour interroger certains dans
leur lieu de travail et certains chez eux.
Remèdes post analyse.
Quand l’effet du biais attribué à la variance commune de la méthode est réel et
quand il n’est plus possible d’y remédier en revenant à la procédure de collecte
des informations, on estime le modèle en gardant l’effet méthode.

La normalité et la multinormalité.
Le respect de la normalité ou plutôt de la multinormalité est une condition
traditionnelle dans l’usage des méthodes dites paramétriques.
A. La normalité : À quoi ça consiste ?
Une variable suit une distribution normale quand elle prend la forme d’une
cloche : symétrique et non aplatie de façon à ce que 64% des observations soient
situées des deux côtés de la moyenne plus ou moins une fois l’écart-type, 98% la
moyenne +/- 2 fois l’écart-type et 100 la moyenne +/- 3 fois l’écart type. Une
variable suit une loi normale centrée réduite quand sa moyenne nulle et son
écart type égal à 1.

154
Chapitre I. Introduction à l’analyse des données.

Figure N° 94 : Courbe de la loi normale.

Plusieurs manières graphiques sont utilisées pour analyser la déviation à la loi


normale.
La première consiste à établir un graphique (histogramme) de la distribution de
la variable qu’on souhaite étudier et de faire figurer sur l’histogramme la courbe
de la normalité.
L’examen du graphique permet d’avoir une idée de la proximité ou de la
déviation à la loi normale. Si la distribution de probabilités d’une variable est
symétrique et en forme de cloche, alors environ 68% des valeurs de la population
se retrouveront entre µ -  et µ + environ 95% des valeurs de la population se
retrouveront entre µ - 2 et µ + 2presque 100% des valeurs de la population se
retrouveront entre µ - 3 et µ + 3

155
Chapitre I. Introduction à l’analyse des données.

Figure N° 95 : Manière sur SPSS pour établir le graphique de la normalité.

Par exemple la distribution d’une variable MTB (Marché total de la branche de


peinture) sur 38 observations donne le graphique suivant :
Figure N° 96 : Distribution de la variable MTB
MTB
10

4
Fréquence

2
Sigma = 70,44
Moyenne = 406,1
0 N = 38,00
27
30 ,0
32 ,0
35 0
37 ,0
40 ,0
42 ,0
45 ,0
47 0
50 ,0
52 ,0
55 ,0
5
0
5,
0
5
0
5
0,
5
0
5
0,
0

MTB

Les symptômes de la déviation à la loi normale.


Plusieurs outils sont utilisés pour détecter la déviation à la loi normale. Nous les
classons en deux catégories : les outils graphiques (Q-Q Plot…) et les outils
numériques (Le Test K-S-L, le test de Shapiro-Wilk, …).
La méthode de Q-Q Plot
 « La deuxième manière est connue par la Q-Q plot. Elle consiste à comparer la

156
Chapitre I. Introduction à l’analyse des données.

distribution des observations aux données que l’on pourrait avoir si la


distribution est parfaitement normale ». « Elle consiste à tracer les quantiles de
la distribution d’une variable contre les quantiles de la distribution normale. Les
tracés de probabilité servent généralement à déterminer si la distribution d’une
variable correspond à une distribution normale. Si la variable sélectionnée
correspond à la distribution à tester, les points se concentrent autour d’une
droite dite droite de Henry».
Pour illustrer cette méthode considérons une application en sciences comptables
où il s’agit de voir si l’indice de convergence à la norme IRFS-PME suit ou non la
loi normale. Comme on peut le constater dans la Figure N° 97, les points-
observations (états financiers) sont alignés sur la droite sauf pour quelques-uns.
Pour avoir la Q-Q Plot on procède comme suit :
Figure N° 97: Test de normalité de l'indice de convergence à l’IFRS PME

Le Test K-S-L : Kolmogorov-Smironov avec correction de


Lilliefors
Le Test de Lilliefors ou la correction de la significativité de Lilliefors est une
variante du test de Kolmogorov-Smironov. Il est aussi utilisé pour vérifier
l’hypothèse nulle : les données de l’échantillon suivent la loi normale.
Comme nous pouvons le constater dans l’application suivante, la statistique de
Lilliefors est de 0,085 avec un risque de rejet de H0 de 2,4%. L’hypothèse de la
normalité est rejetée.
Tableau N° 82 : Test de Normalité avec Lilliefors.
Kolmogorov-Smirnova Shapiro-Wilk
Statistique ddl Signification Statistique ddl Signification
Indconv ,085 129 ,024 ,969 129 ,05
a. Correction de signification de Lilliefors

Pour calculer le test de Lilliefors sur SPSS on suit les consignes suivantes que
nous résumons dans la Figure N° 98.

157
Chapitre I. Introduction à l’analyse des données.

Sur SPSS, cliquer sur Analyseà Statistiques descriptivesà


Exploreràdiagrammeà  cocher la case « graphe répartition gaussienne avec
tests ». On obtient les résultats des tests de Lilliefors et de Shapiro-Wilk.
Figure N° 98 : Test de Test de Lilliefors Sur SPSS

Pour illustrer ce test retenons un exemple en finance empruntée à la recherche


de M. Abdou Moustafa (2004)253.

Tableau N° 83: Test de normalité avec la statistique de Lilliefors


Stock No. # of Returns Lilliefors Kurtosis Skewness
Statistic** Statistic*** Statistic***
1 564 0.336 143.381 2.122
(0.037) (0.205) (0.103)
2 564 0.248 110.820 1.719
(0.037) (0.205) (0.103)
3 419 0.365 42.579 -2.219
(0.043) (0.238) (0.119)
4 352 0.335 190.706 10.427
(0.047) (0.259) (0.130)
Source : Mohamed Abdou Moustafa (2004), Testing the Weak-Form Efficiency of the United Arab
Emirates Stock Market, Al Ain University, International Journal of Business, Vol. 9, No. 3

L’auteur utilise la statistique de Lilliefors et constate que l’hypothèse de la


normalité est rejetée. Par exemple, pour le stock N°1 la statistique est égale à
0,336 avec un risque de rejet de H0 de 3,7%. L’hypothèse nulle (la distribution
suit la loi normale est rejetée).

Il arrive que le test de Lilliefors (correction de Kolmogorov-Smirnov) retienne la


normalité et Shapiro-Wilk la nie. La décision est de faire confiance au second
test.

158
Chapitre I. Introduction à l’analyse des données.

Le Test de Shapiro-Wilk
Le Test de Shapiro-Wilk est utilisé pour vérifier l’hypothèse nulle : les données de
l’échantillon suivent la loi normale.
Comme nous pouvons le constater dans l’application suivante, la statistique de
Shapiro-Wilk est de 0,981 avec un risque de 0,344 ce qui permet d’accepter
l’hypothèse nulle et de constater le respect de la loi normale (Tableau N° 84).
Tableau N° 84 : Test de Normalité avec Shapiro_Wilk
Kolmogorov-Smirnova Shapiro-Wilk
Statistique ddl Signification Statistique ddl Signification
Indconvmoy ,053 72 ,200* ,981 72 ,344
a. Correction de signification de Lilliefors
*. Il s'agit d'une borne inférieure de la signification réelle.

Le test de Shapiro-wilk a été utilisé par RF Hurley (1998)254 pour vérifier la


déviation de la loi normale des réponses des clients à la perception de la qualité
des services dans la grande distribution, constatée par le test de Skewness.
Le risque de rejet de H0 est bien inférieur à 0.001 ce qui permet à l’auteur de
rejeter l’hypothèse et constater une signifiante déviation de la loi normale.
Pour calculer le test de Shapiro-Wilk sur SPSS on suit les consignes suivantes que
nous résumons dans la Figure N° 99.
Sur SPSS, cliquer sur Descriptive statistics, Explore, Plots, Normality plots with
tests. On obtient les résultats des tests de Lilliefors et de Shapiro-Wilk.
Il arrive que le test de Lilliefors (correction de Kolmogorov-Smirnov) retienne la
normalité et Shapiro-Wilk la nie. La décision est de faire confiance au second
test.

Figure N° 99 : Test de Shapiro et Wilk Sur SPSS

159
Chapitre I. Introduction à l’analyse des données.

L’asymétrie ou le critère de Skewness.


Pour qu’une distribution soit normale, il faut d’abord qu’elle soit symétrique.
Pour mesurer l’asymétrie, on fait recours à la Formule N° 5:
Formule N° 5: Calcul de Skewness
N

 (x
i 1
i  x) 3

NS 3 Avec S variance de x
A chaque valeur de Skewness correspond son erreur standard.
Formule N° 6: Calcul du S.E
6 6
s.e    0,129
n 357
La distribution est symétrique quand cette expression (l’asymétrie) est égale à
zéro. Une distribution qui a une asymétrie positive à une longue queue vers la
droite. Une distribution est asymétrique négative quand elle possède une longue
queue vers la gauche.
Approximativement une valeur d’asymétrie supérieure à deux fois son erreur
standard (l’écart type divisé par la racine carrée de N) correspond à une
distribution asymétrique (Chou, C.-P., & Bentler, P. M. (1990) 255. Chou et Bentler
(1995256 cités par R.Weston and Paul A. Gore, Jr. 2006 257 p735) considèrent qu’un
indice d’asymétrie (Skewness) supérieur à trois est le maximum.
Soit trois variables observables AR1, AR2 et AR3. Le test d’asymétrie est présenté
dans le Tableau N° 85.
Tableau N° 85 : Statistiques descriptives
N Moyenne Ecart type Skewness e.s c.r
AR1 357 4,14 ,957 -1,296 ,129 -10,04
AR2 357 3,74 ,965 -,604 ,129 -4,682
AR3 357 4,24 ,789 -1,323 ,129 -10,25

Pour les trois items, la valeur de Skewness est plus que 3 fois supérieure à
l’erreur standard ce qui permet de rejeter la symétrie. L’asymétrie est
importante, elle est à gauche ce qui correspond à un nombre important
d’observations du côté gauche plus qu’autorisé par la loi normale comme
montré dans la Figure N° 100.

160
Chapitre I. Introduction à l’analyse des données.

Figure N° 100: Distribution des observations pour la variable AR1.

L’aplatissement ou le Kurtosis.
Une distribution normale ne doit pas être aussi aplatie. L’aplatissement ou le
Kurtosis est une mesure du degré de concentration des observations dans les
queues. Pour calculer l’aplatissement on se base sur la Formule N° 8.
Formule N° 7 : Formule de Kurtosis.
N

 (x
i 1
i  x) 4
3
NS 4
Avec S variance de x
Formule N° 8: calcul de l’erreur standard
24 24
s.e    0,259
n 357 Un Kurtosis qui dépasse +/- 3 quand il est divisé par
son erreur standard est un signe d’aplatissement (donc de déviation à la loi
normale) (Lynn, M. L., et al. 2009 p239)258.
Dans la pratique, la valeur d’aplatissement est rarement égale à zéro. On parle
plutôt de déviation par rapport au niveau d’aplatissement requis par la
normalité. Un Kurtosis compris entre -2 et +2 est acceptable et ne considère pas
l’aplatissement comme engendrant une déviation importante par rapport à la loi
normale. Un Kurtosis supérieur à 10 annonce un problème et une valeur
supérieure à 20 est extrême (Kline, 2005259 cité par Rebecca Weston and Paul A.
Gore, Jr. 2006 p735)260.
Un Kurtosis négatif indique que les queues comptent moins d’observations que
dans une distribution normale. Un Kurtosis positif indique les queues comptent
plus d’observations que dans une distribution normale.
Dans l’exemple ci-dessus, la valeur de Kurtosis est dans les normes pour le
deuxième item et non pour les autres.
Tableau N° 86 : Statistiques descriptives de l’aplatissement (Kurtosis)
N Moyenne Ecart type Kurtosis e.s c.r
AR1 357 4,14 ,957 1,624 ,257 6,32
161
Chapitre I. Introduction à l’analyse des données.

AR2 357 3,74 ,965 ,071 ,257 0,276


AR3 357 4,24 ,789 2,562 ,257 9,968

Pour calculer la valeur du Kurtosis sur SPSS on suit le chemin indiqué dans la
Figure N° 101 et Figure N° 102.
Figure N° 101 : Manière de Procéder sur SPSS pour calculer les paramètres de
test de la normalité.

Figure N° 102 : Manière de Procéder sur SPSS pour calculer les paramètres de
test de la normalité (Suite)

Le test de Jarque-Bera
Le test de Jacque-Bera est utilisé pour tester la normalité. Il permet de vérifier
l’hypothèse nulle H0 : La distribution de la variable est normale contre
l’hypothèse H1 : la distribution n’est pas normale. « Le test de Jarque-Bera ne
teste pas à proprement parler si les données suivent une loi normale, mais plutôt
si le kurtosis et le coefficient d'asymétrie des données sont les mêmes que ceux
d'une loi normale de même espérance et variance » Wikepedia.
162
Chapitre I. Introduction à l’analyse des données.

Formule N° 1 : Formule de Jaque-Bera


2
n−k 2 ( K −3 )
JB= (S + )
6 4
Avec n nombre d’observations,
N nombre d’observations
k nombre de variables explicatives si les données proviennent des résidus d’une
régression linéaire dans le cas contraire k reste nul.
S le coefficient d’asymétrie de l’échantillon testé
et K la Kurtosis de l’échantilllon testé.
« Une loi normale a un coefficient d'asymétrie de 0 et une kurtosis de 3. On saisit
alors que si les données suivent une loi normale, le test s'approche alors de 0 et
on accepte (ne rejette pas) H0 au seuil α » Wikepedia.
Pour illustrer ce test nous faisons appel aux données des ventes de peintures
Figure N° 103 : Régression sur les ventes de peinture et calcul des résidus

163
Chapitre I. Introduction à l’analyse des données.

Figure N° 104 : Calcul de Skewness et de Kurtosis

Figure N° 105: Calcul de la statistique de Jaque-Bera sur Excel.

La valeur de Jaque-Bera pour cet exemple est égale à 8,654.

164
Chapitre I. Introduction à l’analyse des données.

Le critère MARDIA
Le test le plus largement utilisé pour vérifier la multinormalité est le test de
Mardia (1970)261 qui n’est autre qu’une généralisation multivariée du test de
Kurtosis (Ga´ Bor J. Sze´ kelya, & M. L. Rizzob 2005 p59262, Ke-Hai Yuan et al.
(2004 p413)263.
La formule de calcul est :
Formule N° 9 : Mardia.
N
1 2 p( p+2 )( N −1)

N i=1 [( ]
x i −x )' S−1 ( x i−x ) −
N +1
Avec p : nombre de variables observables et N la taille de l’échantillon.
La statistique de Mardia, sous l’hypothèse de la normalité, a une moyenne nulle
et une erreur standard égale à (8p(p+2)/N) 1/2, avec p le nombre de variables et N
la taille de l’échantillon.
Le test de Mardia permet de tester l’hypothèse nulle suivante :
H0 : La valeur du coefficient de Mardia =0 ce qui se traduit par une présence de
multi-normalité.
« Quand la valeur de c.r. (critical ratio dépasse 1,96 et la probabilité de rejet de
H0 est faible moins de 5%), le risque de rejet de H0 est faible, l’hypothèse est
rejetée et la multi normalité n’est pas assurée. Quand, au contraire, la valeur de
c.r. est bien inférieure à 1,96 (et donc une probabilité dépassant 5%), le risque de
rejet de H0 étant élevé, l’hypothèse ne peut qu’être acceptée et la multi
normalité est assurée ». Bryman et Cramer (2001)264 indiquent que si la valeur du
ratio critique (c.r.) dépasse 5, la distribution est considérée non normale.
En général, « l’hypothèse de la multi normalité est satisfaite lorsque les
coefficients Mardia ont une valeur inférieure à 3 (Romeu et Ozturk 1993 265 cités
par Roussel et al. 2002 p 83266). Bollen & Stine (1992)267 avancent la règle
suivante : si la valeur de Mardia est inférieure à la valeur p(p+2), les données
suivent la loi multinormale.
À titre d’exemple, nous pouvons faire allusion à la recherche en sociologie de D.
R McCreary et al. (2002 p172) 268. Dans cette application, il s’agit d’une échelle de
36 indicateurs pour lesquels les statistiques de Kurtosis et de Skewness sont dans
les normes, seulement la multinormalité ne l’est pas, la valeur de Mardia
(Mardia’s normalized estimate) est de 24,98. Pour réduire cette déviation les
auteurs éliminent 7 observations identifiées multivariées déviantes, ce qui
permet de réduire Mardia à 18,98 qui demeure importante.
Pour illustrer cette méthode, nous proposons l’exemple du modèle de mesure de
l’effort.
165
Chapitre I. Introduction à l’analyse des données.

Comme on peut le remarquer dans l’exemple suivant, la valeur de Mardia est


égale à 19,585. Cette valeur est calculée sur la base d’un échantillon de 360
observations et de 9 variables. La valeur de s.e est égale à (8*9(9+2)/360) 1/2 soit
1,48. Le ratio critique (c.r) correspondant à cette valeur de Mardia est égal à
19,585/1,48 soit 13,23.
Figure N° 106 : Manière sur AMOS pour demander le test de normalité et des
observations déviantes.

Tableau N° 87: Évaluation de la normalité


Variable min max skewness c.r. Kurtosis c.r.
effor4 1,000 4,000 -,059 -,457 -,680 -2,634
effor3 1,000 4,000 -,625 -4,845 ,458 1,772
effor9 1,000 4,000 -,570 -4,419 -,002 -,008
effor8 1,000 4,000 ,423 3,280 -,711 -2,755
effor7 1,000 4,000 ,003 ,025 -,969 -3,752
effor6 1,000 4,000 -,779 -6,034 ,232 ,897
effor5 1,000 4,000 -,770 -5,968 ,140 ,541
effor2 1,000 4,000 ,046 ,353 -,910 -3,526
effor1 1,000 4,000 -,779 -6,034 ,729 2,825
Multivariate 19,585 13,204

Le test c.r. (équivalent au test t) indique une valeur égale à 13,23 ce qui veut dire
que la valeur de Mardia est 13 fois supérieure à son erreur type, cette valeur est

166
Chapitre I. Introduction à l’analyse des données.

bien différente de zéro. En termes de rapport, celui-ci est bien supérieure à 1,96
et donc un risque de rejet de H0 inférieur à 5%, l’hypothèse nulle est rejetée ce
qui entraîne le rejet de la multi normalité.

Le Problème de multicolinéarité.
A. La Multicolinéarité : A quoi cela consiste ?
Plusieurs méthodes nécessitent l’absence de la multicolinérité. Il s’agit de
l’utilisation des variables explicatives effectivement indépendantes les unes des
autres. On parle d’abord de colinéarité qui est définie comme étant la
redondance qui peut exister entre une variable et une autre supposées
indépendantes dans un modèle explicatif d’une troisième variable.
La multicolinéarité est une généralisation de la colinéarité à plusieurs variables
dites exogènes dans un modèle causal. Il y a multicolinéarité quand une variable
exogène est une combinaison linéaire des autres variables exogènes.
Les symptômes de multicolinéarité.
Différents signes et méthodes sont proposés pour détecter la présence de
multicolinéarité. Nous présentons un résumé de ces signes ou méthodes dans le
Tableau N° 88 : Résumé des outils de mesure de la multicolinéarité
Outil Formule Signe de multicolinéarité
Des coefficients de
régression illogiques
(Lafi, S. Q., & Kaneene, J.
B. 1992)17
Corrélation >0.8
VIF Variance inflation 1/(1-R²) >10
factor
Tolérance 1-R² <0,20
Nombre de Valeur propre >15
conditionnement MAX/Valeur propre MIN

Il n'y a pas de règles pour déterminer à partir de quelles valeurs précises il existe
des preuves de problèmes de multicolinéarité (Suàrez Àlvarez, L. et al. 2007) 269.
Schmidt, P., & Muller, E. N. (1978) 270 et Kaplan D. (1994)271 (cités par R. Grewal et
al. (2004 p521)272 recommandent d’inspecter :
17
Lafi, S. Q., & Kaneene, J. B. (1992). An explanation of the use of principal-components analysis
to detect and correct for multicollinearity. Preventive Veterinary Medicine, 13(4), 261-275.
167
Chapitre I. Introduction à l’analyse des données.

 Les corrélations entre les variables prédictrices et à ce propos une


corrélation supérieure à 0.80 est un signe de multicolinéarité. Bryman &
Cramer (1997)273 suggèrent que la simple corrélation entre variables
indépendantes ne devrait pas être considérée comme préjudiciable tant
qu'elles ne dépassent pas 0,80 ou 0,90.
Pour illustrer ce cas de figure, nous empruntons des données de corrélations à
Williams, S. V. (2003)274. L’application de l’analyse factorielle est entravée par une
matrice non définie positive. Le contrôle de la matrice de corrélation fait
apparaître une corrélation de 0,879 entre TI2 et TI3. Cet obstacle à la
triangulation de la matrice ne peut être dépassé que si on passe de 0,879 à 0,7.
Cette solution n’est que pédagogique, on ne peut envisager que l’élimination de
TI2 ou TI3.
Figure N° 107 : Exemple de matrice de corrélation aboutissant à une matrice
singulière.

 La corrélation entre les coefficients de régression.


 Le déterminant de la matrice de corrélation des variables prédictrices.
 Le signe des coefficients de régression.
 Et le VIF (variance inflation factor) et la tolérance.
Carson, G. D. (2011)275 propose d’inspecter la présence des signes suivant d’une
forte multicolinéarité par :

168
Chapitre I. Introduction à l’analyse des données.

 Des coefficients de régression standardisés fortement proches de 1.


 Des erreurs types très importantes pour certaines relations et non pour
d’autres.
 Des covariances très fortes entre certains paramètres plus que d’autres.
1. Corrélation supérieure à 0.80
Il est dans les traditions des analyses statistiques de se prononcer pour la
présence de multicolinérité quand les corrélations des variables sont supérieures
à 0.80 (Rockwell 1975)276.
La Tolérance.
Quand, pour une variable indépendante, cette expression est inférieure à 0.20,
ladite variable est éliminée de l’analyse et considérée comme responsable de la
multicolinéarité. L’exemple suivant illustre le calcul de la tolérance sur SPSS.
Comme on peut le remarquer toutes les valeurs de la tolérance sauf les variables
FRV et MTB sont supérieures à 0,20. les données comportent un problème de
multicolinéarité pour ces deux variables.
Figure N° 108 : Calcul du VIF et de la Tolérance sur SPSS.

Tableau N° 89: Test de la multicolinéarité.


Modèle Coefficients non Coefficients t Sig. Corrélations Statistiques de
standardisés standardisés colinéarité
B Erreur Bêta Corrélation Partielle Partielle Tolérance VIF
standard simple
(Constante) 3073,164 755,988 4,065 ,000
mtb 5,059 1,884 ,663 2,686 ,012 ,671 ,446 ,249 ,141 7,103
reg 2,590 3,890 ,063 ,666 ,511 -,060 ,123 ,062 ,945 1,058
prix -17,333 9,833 -,247 -1,76 ,088 ,285 -,311 -,163 ,436 2,296
bur 4,532 7,761 ,068 ,584 ,564 ,149 ,108 ,054 ,639 1,566
inves 1,184 ,926 ,138 1,278 ,211 ,381 ,231 ,118 ,741 1,349
BPUB 10,313 2,164 ,501 4,765 ,000 ,608 ,663 ,441 ,777 1,287
FRV ,255 3,306 ,021 ,077 ,939 ,582 ,014 ,007 ,114 8,768
169
Chapitre I. Introduction à l’analyse des données.
TBPB -,065 ,474 -,014 -,138 ,891 -,116 -,026 -,013 ,878 1,139
VIF : Le Facteur d’inflation de la variance (variance inflation
factors).
Le VIF montre comment la variance de l’estimation d’un paramètre connaît une
inflation par la présence d’une multicolinearité. La valeur de VIF est la réciproque
de la tolérance et calculée par la Formule N° 10.
Formule N° 10: VIF ou « Variance inflation factor ».
1
VIF= 2
1−Ri
Avec R² le coefficient de détermination multiple d’une variable indépendante Xi en fonction des autres
variables indépendantes

Une valeur de VIF supérieure à 10 est un signe de collinerity nuisible (Hair et


al.,1995). Cette méthode est observée dans l’étude de (Siddiqui, T. A., & Siddiqui,
K. I. 2017)277. Ces auteurs ont calculé le VIF pour chaque item du modèle de
mesure dans une régression avec tous les autres et ont dû éliminer un certain
nombre d’item ayant un VIF supérieur à 10. Si on revient à l’exemple précédent,
les variables suspectées de multicolinéarité ont un VIF proches de 10.
Le nombre de conditionnement « Condition number »
Le nombre de conditionnement de la matrice de corrélation est la racine carrée
du rapport de la valeur propre la plus grande à la plus petite. Selon Greene W.H.
(1993)278, une valeur supérieure à 20 est indicative de multicolinéarité.
Habituellement, lorsque le nombre de conditionnement est supérieur à 30, on
considère qu'il existe une multicolinéarité, et la précision de l'estimation des
coefficients de régression peut être influencée par cette multicolinéarité dans les
corrélations entre des variables indépendantes (Hong 1996) 279, Wiengarten, F. et
al. (2010)280 rappellent qu’en règle générale, la multicolinéarité est une
préoccupation si le nombre de conditionnement est 15 et très préoccupant s'il
est supérieur à 30.
Le calcul du nombre de conditionnement est fait sur AMOS en demande le sous-
menu output l’option « sample moment ». Si nous reprenons les données de
l’exemple du marché de la peinture cité dans le titre précédent en estimant un
modèle de régression par la méthode d’analyse des chemins «  path analysis » sur
AMOS. Comme on peut le remarquer (Tableau N° 90), la valeur de ce critère est
de 53,507, la multicolinéarité est nuisible et risque de fausser les résultats de la
régression.

170
Chapitre I. Introduction à l’analyse des données.

Tableau N° 90 : Matrice des corrélations des variables du modèle de la vente de


la peinture avec calcul du « conditon number »
publicit tbpb frvente inves bur prix reg mtb ventes
publicit 1,000
tbpb -,197 1,000
frvente ,132 -,019 1,000
inves ,241 -,124 ,218 1,000
bur ,102 -,128 ,361 ,166 1,000
1,00
prix ,252 -,182 ,630 -,064 ,438
0
reg -,119 -,146 -,051 -,094 ,005 ,028 1,000
mtb ,199 -,020 ,903 ,145 ,160 ,555 -,069 1,000
ventes ,608 -,116 ,582 ,381 ,149 ,285 -,060 ,671 1,000
Condition number = 53,597 Eigenvalues 3,271 1,381 1,231 ,962 ,881 ,701 ,372 ,140 ,061

En comptabilité, nous citons l’article de Fuerman, R. D. (2009)281 qui fait appel au


« nombre de conditionnement pour faire la remarque suivante : aucun nombre
de condition ne dépasse 14.3. Étant donné que les seuils de nombre de
conditions de 20 (Belsley et al. 1980) et de 30 (Judge et al. 1988) ne sont pas
dépassés, la multicollinéarité ne semble pas être un problème. Cet outil est
observé dans l’article de Shin, H. et al. (2006)282 qui remarquent que la
multicolinéarité a été examinée dans les corrélations de 12 variables
indépendantes, et ils ont constaté qu'elle existe (valeur propre 0.00426,
condition de conditionnement égal à 53,01.
En finance islamique, nous évoquons l’article de Islam, M. S., & Dooty, E. N. (2015) 283.
Comme on peut l’observer dans le Tableau N° 91, les deux variables exogènes ne
présentent pas de problèmes de multicolinéarité, le nombre de conditionnement
est inférieur à 15.
Tableau N° 91 : Test de multicollinéarité.
Collinearity Diagnostic Collinearity Statistics
Dimensio Eigen Condition Model Toleranc VIF
n Value (k) Index (CI) e
1 2.797 1.000 Constant - -
2 0.127 4.686 Dividend per .890 1.124
share
3 0.075 6.098 Retained earnings .890 1.124
Source : Islam, M. S., & Dooty, E. N. (2015). Determinants of stock price movements: Evidence
from Chittagong stock exchange, Bangladesh. Journal of Economics and Business Research, 21(2),
117-133.
171
Chapitre I. Introduction à l’analyse des données.

Hughes, J. N. et al. (2004)284 ont trouvé dans leur étude sur l’échelle SCAP
(Social–Cognitive Assessment Profile) une valeur du nombre de conditionnement
de 5,04 permettant de dépasser le problème de multicolinéarité. Dans leur
recherche sur la gestion des chaînes logistiques, Wiengarten, F. et al. (2010)285
notent que leurs résultats indiquent que les indices de conditionnement sont
également dans la fourchette souhaitable et ils concluent que la multicolinéarité
n'impose aucune menace sérieuse à l’analyse.
Les Conséquences de la Multicolinéarité
Wang, G. C. (1996)286 reproduit quatre conséquences de la multicolinéarité :
 Dans un modèle à deux variables, lorsque la multicolinéarité, qui est souvent
appelée colinéarité pour le cas à deux variables, est présente, l'erreur-type
estimée pour les coefficients sera grande. En effet, dans la formule de la
variance des coefficients, il existe un facteur multiplicateur sous la forme de 1
/ (1-r²), où r est le coefficient de corrélation entre deux variables et sa valeur
est comprise entre -1 et + 1. Ce facteur est souvent Appelé facteur d'inflation
de variance. Lorsque r = 0, il n'y a pas de multicolinéarité et le facteur
d'inflation est égal à 1. Alors quand r augmente en valeur absolue, les
variances des coefficients estimés augmentent aussi. Lorsque r approche ± 1,
le facteur d'inflation approche l'infini. Dans le cas de plus de deux variables
indépendantes, le coefficient de détermination (R²) remplacera r² dans le
facteur d'inflation de variance.
 Lorsque les coefficients estimés ont de grandes erreurs-types et sont
instables, il sera difficile pour le chercheur d'évaluer correctement
l'importance relative des variables indépendantes. Surtout lorsque les
coefficients estimés ont des signes erronés.
 Les coefficients estimés peuvent devenir négligeables ou présenter des signes
erronés et, par conséquent, être sensibles aux changements dans les
données d'échantillonnage. Cela est dû au fait que lorsque les variables
indépendantes sont corrélées, les erreurs-types estimées pour les
coefficients seront importantes et, par conséquent, les statistiques t seront
faibles. Les coefficients estimés avec de grandes erreurs-types seront
instables. Une addition de quelques observations supplémentaires à
l'échantillon entraînera un changement important dans la taille des
coefficients et parfois dans les signes des coefficients. Lorsque l'un des
coefficients change de signe de positif à négatif ou de négatif à positif à la
mise à jour du modèle, le modèle ne produira pas une bonne prévision.
 La présence de multicolinéarité peut amener le chercheur à supprimer une

172
Chapitre I. Introduction à l’analyse des données.

variable importante du modèle en raison de sa faible statistique t. Le


chercheur ne doit pas abandonner arbitrairement une variable du modèle
sans essayer d'éliminer le problème de multicolinéarité par d'autres moyens.
Les remèdes à la multicolinéarité.
Pour remédier aux effets éventuels de la multicolinéarité dans un modèle de
régression, il est possible d’opter pour l’une des manières suivantes :
Quand il s’agit des méthodes de la première génération et notamment de la
régression multiple, plusieurs remèdes sont proposés :
 Utiliser la méthode « pas à pas » dans l’estimation du modèle de régression.
 S’il est possible fusionner les variables exogènes, procéder à une analyse
factorielle sur les variables exogènes et créer des facteurs qui vont devenir
les nouvelles variables exogènes.
 Créer une variable d’interaction. Il s’agit de repérer les variables
« indépendantes » fortement corrélées et procéder à la création d’une
variable par leur produit.
 Standardiser les variables. (Aiken et West (1991 287 cités par S. Ang and Larry L.
Cummings 1997)288.
 Séparer les variables suspectées multicorrélées dans des modèles séparés.
La méthode pas à pas
La manière de procéder pour la méthode pas à pas est présentée dans la Figure
N° 109. Les résultats mènent à un modèle où sont exclues les variables aux effets
non significatifs et aux colinéarités fortes avec les variables retenues.

173
Chapitre I. Introduction à l’analyse des données.

Tableau N° 92 : Récapitulatif des modèles


Erreur standard de
Modèle R R-deux R-deux ajusté l'estimation
1 ,671a ,450 ,435 404,11593
2 ,828b ,685 ,667 310,34054
3 ,849c ,722 ,697 295,90451
a. Prédicteurs : (Constante), mtb
b. Prédicteurs : (Constante), mtb, publicit
c. Prédicteurs : (Constante), mtb, publicit, prix

Figure N° 109 : Option pas à pas dans la méthode de régression multiple.

Mener une analyse factorielle sur les variables


indépendantes.
L'analyse factorielle est utilisée pour réduire un grand nombre de variables
explicatives et pour éliminer les problèmes de multicolinéarité. Le recours à cette
approche nécessite que le nombre de facteurs retenus soit assez faible,
récupérant le maximun d’inertie et surtout une signification et une pertinence
des facteurs.

174
Chapitre I. Introduction à l’analyse des données.

Figure N° 110 : Analyse factorielle sur les variables explicatives des ventes.

Comme on peut le constater dans le Tableau N° 93, les variables indépendantes


se réduisent à trois facteurs cela se traduit par la forte corrélation entre les
variables. Le problème réside dans la signification de ces facteurs qui n’est pas
une évidence dans cet exemple.
Tableau N° 93 : Structure des variables explicatives des ventes.
Rotation de la matrice des composantesa
Composante
1 2 3
frvente ,938
mtb ,883
prix ,818
bur ,474
inves ,755
publicit ,699
tbpb -,739
reg ,674
Méthode d'extraction : Analyse en composantes principales.
Méthode de rotation : Varimax avec normalisation Kaiser.
a. Convergence de la rotation dans 4 itérations.
Créer une variable d’interaction
Les deux variables les plus corrélées font l’objet d’interaction.

175
Chapitre I. Introduction à l’analyse des données.

Figure N° 111 : Création d’une variable d’interaction.

Séparer les variables multicorrelées dans des modèles


différents.
Cette approche consiste à estimer le modèle en intégrant les variables exogènes
objets de problèmes de multicolinéarité d’une manière séparée. Yang, Y. et al.
(2016 p93)289 ont utilisé cette approche dans son article pour analyser l’effet de
l’autocompassion « self compassion » sur la satisfaction de vie par la médiation
de l’espérance. En management D. Dewar and J. E. Dutton (1986 p 1429) 290 ont
utilisé cette méthode en management. En comptabilité, on trouve la recherche
de à Khlif, H., A. et al. (2016 p336)291.

Le Biais d’endogénéité.
L'endogénéité est considérée comme un des principaux problèmes quand il s’agit
d’étudier la relation de causalité entre une variable « cause » et une autre
« effet ». En termes statistique, ce problème survient quand l’hypothèse de non
corrélation entre la variable cause (X) et l’erreur d’estimation (µ) n’est pas
vérifiée. Cette situation implique une estimation biaisée du coefficient censé
mettre en valeur l’effet de X sur Y. Les problèmes d'endogénéité sont
particulièrement frustrants pour les chercheurs, car la direction et la taille du
biais sont difficiles à prédire ex ante (Hamilton, B. H., & Nickerson, J. A. (2003
P52).
Les symptômes et les outils de détection du biais
d’endogénéité.
A. Corrélation variable exogène et erreur d’estimation.
La méthode consiste à s’assurer que la corrélation entre la variable supposée
176
Chapitre I. Introduction à l’analyse des données.

être exogène et l’erreur d’estimation est non significative.


Le test de Hausman (1978).
Le test de Hausman (1978) est un outil standard utilisé pour s’assurer si une
variable est bien exogène. Ce test est approximé au test de Chi2 pour vérifier
l’hypothèse nulle : la variable X est exogène. Pour un risque d’erreur inférieur à
5%, l’hypothèse est rejetée et le biais d’endogénéité est bien réel.
Coffé, H., & Geys, B. (2005) 292 soupçonneraient une endogénéité de la variable
exogène « capital sociale » qui peut conduire à des résultats d’estimation biaisés
lorsqu’on utilise l’estimation des moindres carrés ordinaires (MCO). Pour tester
l'exogénéité (c.a.d l’absence du biais d’endogénéité) du capital social, les auteurs
utilisent le test standard de Hausman (1978). L'hypothèse nulle selon laquelle le
capital social est exogène et que les MCO donneraient des estimations
cohérentes est rejetée (bien que marginalement) à des niveaux de confiance
conventionnels (Chi2 (1) = 4,208, p <0,05). Les auteurs ont par la suite
instrumentalisé le capital social à travers un certain nombre de variables
suggérées dans des travaux antérieurs : comme la mobilité de la population (c.-à-
d. Migration d'entrée et de sortie en pourcentage de la population totale), le
pourcentage de la population de plus de 65 ans et le pourcentage de nationalité
non-Belges. Un test de Hansen J visant à identifier de manière excessive des
restrictions corrobore le caractère approprié de ces instruments ; Chi2(2) =0,05,
p = 0,975. En outre, chacun des instruments est statistiquement significatif et
avec un signe attendu dans la régression de première étape - soulignant
davantage leur validité.
Las causes du biais d’endogénéité.
La causalité inversée (reversed causality) ou La simultanéité :
La causalité inversée des relations structurelles peut être l'une des principales
sources d'endogénéité. Pour s’en assurer, il convient d’inverser tous les liens
structurels (Beta et Gamma) du modèle de structure et comparer sa qualité
d’ajustement avec le modèle de structure initial. Cette approche est utilisée par
Poudel, K. P. et al. (2012)293. Les auteurs notent que bien que ce modèle
alternatif ait un ajustement acceptable, mais comparé au modèle hypothétique,
l’ajustement est moins bon. Ainsi, ils supposent en toute sécurité que la causalité
inverse et donc une source d’endogénéité n’est pas un problème, et leurs
résultats sont robustes.
Dans un modèle de structure si veut vérifier qu’une variable latente x influence
une autre h, il faut que l’inverse ne soit pas vrai (h n’influence pas x). Si c’est le
cas, il convient de faire intervenir une variable instrumentale w qui ne soit pas
177
Chapitre I. Introduction à l’analyse des données.

influencée par h.
L’omission d’une variable ou L’hétérogénéité inobservée.
L’omission des variables serait le problème le plus fréquemment rencontré en
sciences sociales et comportementales (Vella, 1998). Il existe un biais de
variables omis lorsqu'une variable, qui affecte la variable dépendante et est
corrélée à une ou plusieurs variables explicatives, est omise. Le fait que le
chercheur choisisse seul et d’une manière délibérée les variables sans faire appel
à la littérature augmente le risque d’omission (Wooldridge, J. M. 2002 cité par
Bascle, G. (2008).
L’erreur de mesure
Des mesures qui manquent de précision affectent l’estimation des effets.
Effet retardé.
Dans le cas d’une estimation de la causalité sur des données temporelles, les
chercheurs ajoutent souvent une variable indépendante qui traduit l’effet
retardé. Une telle démarché peut conduire à un biais d’endogénéité si les résidus
sont autocorrélés.
Les solutions aux biais d’endogénéité.
La solution de la variable instrumentale.
Pour surmonter le biais d'endogénéité dans l'estimation des MCO, Coffé, H., &
Geys, B. (2005) traitent la variable « capital social » comme une variable
endogène et utilisons la méthode de la régression des doubles moindres carrés
(2SLS).

Les tests de Robustesses des résultats des analyses statistiques.

I. Effet de taille.
« La taille de l’effet désigne à quel degré un phénomène donné est présent dans
la population » (Cohen 1988, p. 9 selon Bourque, J. et al. (2009)18 ). « Il désigne
désormais généralement tout indice de relation entre variables… » Il « décrit le
degré auquel l'hypothèse nulle d'absence de relation entre variables est fausse »
Witell, L. et al. (2014)19.

18
Bourque, J., Blais, J. G., & Larose, F. (2009). L’interprétation des tests d’hypothèses: p, la taille
de l’effet et la puissance. Revue des sciences de l'éducation, 35(1), 211-226.
19
Witell, L., Gustafsson, A., & D. Johnson, M. (2014). The effect of customer information during
new product development on profits from goods and services. European Journal of
Marketing, 48(9/10), 1709-1730.
178
Chapitre I. Introduction à l’analyse des données.

A. Erreur type I et Erreur Type II


« Jean-François Bach, de l'Académie des sciences de France, dans un discours
prononcé en 2011, soutenait: «Mieux vaut se tromper quelques fois que de ne
pas entreprendre une démarche scientifique originale par peur de commettre
une erreur».
La recherche scientifique est inconcevable sans la notion d'erreur. On peut en
distinguer plusieurs types »20.
Tableau N° 94 : Erreur de Type I et erreur de type II
Hypothèse vraie
H0 H1
Hypothèse H0 1-α β
retenue H1 α 1-β

« α : seuil de significativité. C'est aussi la probabilité de rejeter H0 alors que H0


est vraie (risque de première espèce ou risque de commettre une erreur de type
I) : risque de voir une différence là où il n'y en a pas.
β: risque de seconde espèce. C'est la probabilité d'accepter H0 alors que H0 est
fausse (risque de commettre une erreur de type II) : risque de ne pas mettre en
évidence une différence qui, pourtant, existe.
1-β : probabilité de détecter correctement un cas où H0 doit être rejetée.
Puissance du test »21.
Mesure de l’effet taille selon les paramètres statistiques.
La mesure de l’effet taille varie selon la méthode d’analyse statistique.
Wolverton, S., et al. (2016) proposent un tableau résumant les mesures de l’effet
taille des tests inférentiels communs (Tableau N° 95).
Tableau N° 95 : Mesure de l’effet taille des tests inférentiels communs
Test H0 Effect size Criteria
measure
Correlation R=0 rho=0 R and rho 0.7 strong
coefficient 0.5 moderate
0.3 weak
Coefficient of r², rho² 50% strong
determination 25% moderate
10% weak
20
http://dimension.usherbrooke.ca/dimension/ssrerreurs.html
21
http://www.normalesup.org/~carpenti/Cours/PSR-M1-Stats-CM-Compl-2006.pdf
179
Chapitre I. Introduction à l’analyse des données.

Independence test µ1=µ2 Cohen’s d


0.8 strong
0.5 moderate
0.2 weak
One-way analysis of µ1=µ2=…=µk η² (eta squared) 0.5 strong
variance 0.3 moderate
0.1 weak
Krskal-Wallis H test Media1=median2 0.5 strong
0.3 moderate
0.1 weak
χ² Test of F expected=f Phi(φ) Cohen’s w 0.5 strong
independence and observed (calculated as 0.3 moderate
related tests the square root 0.1 weak
of χ² divided by
n)
Source : Wolverton, S., Dombrosky, J., & Lyman, R. L. (2016). Practical significance: ordinal scale data and
effect size in zooarchaeology. International Journal of Osteoarchaeology, 26(2), 255-265.

L'interprétation de la taille de l'effet était simple : les valeurs inférieures ou


égales à 0,20 indiquent une taille d'effet négligeable ou nulle ; ceux compris
entre 0,20 et 0,49 pour une taille d’effet faible, entre 0,50 et 0,79 pour une taille
d’effet modérée et pour plus de 0,80 une taille d’effet importante.

180
Chapitre I. Introduction à l’analyse des données.

182
1
Fidell, L. S., & Tabachnick, B. G. (2003). Preparatory data analysis. Handbook of psychology.
2
Carlson, K. D., & Wu, J. (2011). The illusion of statistical control : Control variable practice in management
research. Organizational Research Methods.
3
Bagozzi, R.P. (1980), Causal Models in Marketing, New York, Wiley
4
Diamantopolos A. (1994), Modelling With LISREL : A Guide for the Uninitiated, Journal of Marketing
Management, 10, 105-136.
5
Little, D. (2010). New contributions to the philosophy of history (Vol. 6). Springer Science & Business Media.
6
Wang, G., & Netemyer, R. G. (2002). The effects of job autonomy, customer demandingness, and trait
competitiveness on salesperson learning, self-efficacy, and performance. Journal of the Academy of Marketing
Science, 30(3), 217-228.
7
Baron, R. M., & Kenny, D. A. (1986). The moderator-mediator variable distinction in social psychological research:
Conceptual, strategic and statistical considerations. Journal of Personality and Social Psychology, 51, 1173– 1182
8
Jong-min Choe (2004) ; The relationships among management accounting information, organizational learning
and production performance; Journal of Strategic Information Systems 13 pp 61–85
9
Judd, C.M. & Kenny, D. A. (1981), Process analysis estimating mediation in evaluation research, Evaluation
research, 5, 602-619.
10
Baron, R. M., & Kenny, D. A. (1986); The moderator–mediator variable distinction in social psychological
research: Conceptual, strategic and statistical considerations; Journal of Personality and Social Psychology, 51, p
1177
11
Baron, R. M., & Kenny, D. A. (1986); The moderator–mediator variable distinction in social psychological
research: Conceptual, strategic and statistical considerations; Journal of Personality and Social Psychology, 51, p
1177
12
Zhou, L. (2007). The effects of entrepreneurial proclivity and foreign market knowledge on early
internationalization. Journal of World Business, 42(3), 281-293.
13
Reuben M. Baron and David A. Kenny (1986) ; The Moderator-Mediator Variable Distinction in Social
Psychological Research: Conceptual, Strategic, and Statistical Considerations; Journal of Personality and Social
Psychology, 1, 51, No. 6, 1173-1182
14
Jong-min Choe (2004) ; The relationships among management accounting information, organizational learning
and production performance; Journal of Strategic Information Systems 13 pp 61–85
15
Ko de Ruyter, Marcel van Birgelen, Martin Wetzel (1985), Consumer ethnocentrism in international services
marketing ;  International Business Review ; 7 185–202
16
Erramilli M.K.and C.P.Rao (1993); Service Firms' International Entry Mode Choice: A Modified Transaction-Cost
Analysis Approach, Journal of Marketing V 57 July pp 19-38.
17
Lumpkin, G T; Dess, Gregory G (1996); Clarifying the entrepreneurial orientation construct and linking it to
performance; Academy of Management. The Academy of Management Review; Jan ; 21, 1; pg. 135
18
Hong K.K.and Y.G.Kim (2002); The critical success factors for ERP implementation an organizational fit
perspective; Information and Management; 40 pp 25-40
19
Subhash Sharma; Richard M Durand; Oded Gur-Arie (1981), Identification and analysis of moderator variables;
Journal of Marketing Research ; Aug; 18, pg. 291
20
Nasution, M. D. T. P., & Rossanty, Y. (2018). Country of origin as a moderator of halal label and purchase
behaviour. Journal of Business and Retail Management Research, 12(2).
21
Subhash Sharma; Richard M Durand; Oded Gur-Arie (1981), "Identification and analysis of moderator variables";
Journal of Marketing Research ; Aug; 18, pg. 291
22
Gilbert A Churchill Jr; Neil M Ford; Steven W Hartley; Orville C Walker Jr (1985)  ; The determinants of salesperson
performance : A meta-analysis, Journal of Marketing Research; May; 22, pg. 103-129
23
Hunter, Jon E., Frank L. Schmidht and Gregg B. Jackson (1982), Meta-analysis: Cumulative research Findings
Across Studies, Beverly Hills, Ca. ; Sage Publications.
24
Artur Baldauf; David W Cravens (2002) ; The effect of moderators on the salesperson behavior performance and
salesperson...European Journal of Marketing;; 36, 11/12; pg. 1380
25
Baron Reuben M. and David A. Kenny (1986); The Moderator-Mediator Variable Distinction in Social
Psychological Research: Conceptual, Strategic, and Statistical Considerations; Journal of Personality and Social
Psychology; No. 6, 1173-1182
26
Dawne Lamminmakia (2008); Accounting and the management of outsourcing: An empirical study in the hotel
industry, Management Accounting Research 19) 163–181
27
Green, K. M., Covin, J. G., & Slevin, D. P. (2008). Exploring the relationship between strategic reactiveness and
entrepreneurial orientation: The role of structure–style fit. Journal of Business Venturing, 23(3), 356-383.
28
Kim, T., & Chang, K. (2014). Turnover intentions and organizational citizenship behaviours in Korean firms: the
interactional effects of organizational and occupational commitment. Asia Pacific Business Review, 20(1), 59-77.
29
Barringer, B. R., & Bluedorn, A. C. (1999). The relationship between corporate entrepreneurship and strategic
management. Strategic Management Journal, 20(5), 421-444.
30
Simon J Bell; Bulent Menguc; Sara L Stefani (2004); When Customers Disappoint: A Model of Relational Internal
Marketing and Customer; Academy of Marketing Science. Journal; Spring; 32, 2
31
Kimberly M. Green, Jeffrey G. Covin, Dennis P. Slevin (2008) Exploring the relationship between strategic
reactiveness and entrepreneurial orientation: The role of structure–style fit, Journal of Business Venturing, 23
356–383
32
Ulrich Lichtenthaler (2009), The role of corporate technology strategy and patent portfolios in low-, medium- and
high-technology firms, Research Policy,
33
McGee J.E; M.J.Dowling and W.L.Megginson  (1995) ; Cooperative Strategy and New Venture Performance : The
Role of Business Strategy and Management Experience; Strategic Management Journal, Vol 16 N° 7 Oct pp 565-
580
34
Grant Richardson (2006), Determinants of tax evasion: A cross-country investigation, Journal of International
Accounting, Auditing and Taxation, 15 150–169
35
Roberts, R. W. (1992). Determinants of corporate social responsibility disclosure: an application of stakeholder
theory. Accounting, Organizations and Society, 17(6), 595-612.
36
Hess Ronald L Jr; Shankar Ganesan; Noreen M Klein (2003), Service failure and recovery: The impact of
relationship factors on customer, Academy of Marketing Science. Journal; Spring; 31, 2; pg. 127
37
Goldsmith, A. A. (1995). Democracy, property rights and economic growth. The Journal of Development
Studies, 32(2), 157-174.
38
Kertoasri Jl. Analysis of Cross-Classifications Using Crosstabs; Brawijaya Professional Statistical Analysis; BPSA
MALANG66 Malang
39
Green, P. E., F. J. Carmone and D. P. Wachpress (1976), Consumer Segmentation via Latent Class Analysis, Journal
of Consumer Research, 3, 170-174.
40
DeVellis, R. F. 1991. Scale development: Theory and applications. Newbury Park, CA: Sage.
41
Coltman, T., Devinney, T. M., Midgley, D. F., & Venaik, S. (2008). Formative versus reflective measurement
models: Two applications of formative measurement. Journal of Business Research, 61(12), 1250-1262.
42
Fornell. C and Bookstein, F.L. (1982), Two Structural Equation Models : LISREL and PLS applied to Consumer Exit-
Voice, Journal of Marketing, 19, 440-452.
43
Kenneth Law and Shim Sum Wrong (1999), Multidimensional Constructs in Structural Equation Analysis : An
Illustration Using the Job Perception a,d Job Satisfaction Construct, Journal of management, Vol 25, N°2 pp 143-
160
44
Darpy (1999-2003); Développement d’une échelle de mesure : La notion de variable latent ; pagesperso-
orange.fr/denis.darpy/…/variablelatente.pdf
45
Shimp, Terence A.; Sharma, Subhash (1987); Consumer Ethnocentrism: Construction and Validation of the
CETSCALE; JMR, Journal of Marketing Research; Aug; 24, 3 pp. 280-290
46
Lord, Frederic M. and Melvin R. Novick (1968), Statistical Theories of mental Test Scores, reading, MA: Addison-
Wesley
47
David W Gerbing and James C Anderson (1984); On the Meaning of Within-Factor Correlated Measurement
Errors; Journal of Consumer Research; Jun; 11, 1; pg. 572
48
Adamantios Diamantopoulos (2006); the error term in formative measurement models: interpretation and
modeling implications interpretation and modelling implications, Journal of Modelling in Management Vol. 1 No.
1, pp. 7-17
49
Blalock, H.M. (1971). Causal models involving unobserved variables in stimulus-response situations. In H.
M.Blalock (Ed.), Causal models in the social sciences (pp. 335-347). Chicago: Aldine
50
Jeffrey R. Edwards and Richard P. Bagozzi (2000): On the Nature and Direction of Relationships between
Constructs and Measures; Psychological Methods Vol. 5, No. 2~ p 157.
51
MacCallum, R.C.and M.W.Browne (1993), The Use of Causal Indicators In Covariance Structure Models: Some
Pratical Issues, Psychological Bulletin, 114 (3), 533-41
52
Diamantopoulos, A., & Winklhofer, H. M. (2001). Index construction with formative indicators: An alternative
to scale development. Journal of marketing research, 38(2), 269-277.
53
Adamantios Diamantopoulos; Heidi M Winklhofer (2001); Index construction with formative indicators: An
alternative to scale development; Journal of Marketing Research; May; 38, 2; p 270.
54
Bagozzi Richard (1994), Structural Equation Models in Marketing Research Basic: Principles; in Principles of
Marketing Research, R. Bagozzi ed. Oxford Blackwell, 317-85.
55
Hauser, R.M. (1971), Socioeconomic Nackground and Education Performance, Rose Monographe Series,
Washington DC: American Sociological Association. Hauser R.M. (1973), Disggregating a Social-Psychological
Model of Educational Attainment”, In Structural Equation Models in the Social sciences, Arthur S. Goldberger and
Otis Dudkey Duncan eds. New York: Seminar Press, 255-84.
56
Judge TA, Bretz RD. Person-organization fit and the theory of work adjustment: implications for satisfaction,
tenure, and career success. J Vocat Behav 1994; 44(1):32–54.
57
Bollen K, Ting K. (2000); A tetrad test for causal indicators. Psychol Methods; 5(1): 3–22.
58
Fayers PM, Hand DJ, Bjordal K, Groenvold M. Causal indicators in quality of life research. Qual Life Res 1997;
6:393–406.
59
Adamantios Diamantopoulos; Heidi M Winklhofer (2001), Index construction with formative indicators: An
alternative to scale develo..., Journal of Marketing Research; May; 38, 2; pg. 269
60
BOLLEN (1989), Structural Equations With Latent Variables, New York John Wiley & Sons
61
Coltman, T, Devinney, TM, Midgley, DF & Veniak, S, (2008); Formative versus reflective measurement
Models : Two applications of formative measurement, Journal of Business Research, 61(12), , 1250-1262.
62
Statnotes
63
Carl J.Huberty, Janet M.Wisenbaker, Jerry D.Smith and Janet C.Smith (1986) ; Using Categoriel Variables in
Discriminant Analysis ; Multivariate Behavioral Research, 21,479-496
64
Huberty, C. J., Wisenbaker, J. M., Smith, J. D., & Smith, J. C. (1986). Using categorical variables in discriminant
analysis. Multivariate behavioral research, 21(4), 479-496.
65
Jacques Baillargeon Application et interprétation des techniques statistiques avancées ;
http://www.uqtr.ca/cours/srp-6018/s4/panoplie.htm
66
Evrard, Pras et Roux (2002), Market, Fondements et Méthodes des recherches en Marketing ; DUNOD
67
Artur Baldauf; David W Cravens ( 2002) ; The effect of moderators on the salesperson behavior performance and
salesper...European Journal of Marketing; 36, 11/12; pg. 1380
68
Dennis Menezes; Norbert F Elbert (1979), Alternate semantic scaling formats for measuring store image: An
evaluation Journal of Marketing Research Feb; 16 pg. 80
69
Osgood CE., G.J. Suci et PH. Tannenbaum (1957), The Measurement of Meaning (University of Illinois Press,
Urbana, Illinois,).
70
F.N. Kerlinger (1964), Foundations of Behavioral Research (Holt, Rinehart and Winston, Inc., New York, , pp. 581-
598
71
Green, P. E., Tull, D. S., & Lleu, J. (1974). Recherche et décisions en marketing. Presses universitaires de Grenoble.
72
P.E.Green et D.S.Tull (traduit par J.LLeu)  (1974) : Recherche et Décisions en Marketing  ; PUF.
73
Baillargeon G. et Rainville J. (1978), Statistique appliquée, tome 2, Trois-Rivières, Les éditions SMG, 6e édition.
74
Thiétart R.A. et coll (1999), Méthodes de Recherche en Management, Dunod
75
Dodge Y.(1993), Statistique : Dictionnaire encyclopédique, Paris, Dunod..
76
Jeffrey R. Edwards and Richard P. Bagozzi (2000), On the Nature and Direction of Relationships Between Constructs and
Measures; Psychological Methods, Vol. 5, No. 2 pp 155-174
77
Cook, T., & Campbell, D. (1979). Quasi-experimentation: Design and analysis issues for field settings. Boston: Houghton
Mifflin
78
Michel TREMBLAY et Pascale-Édith LANDREVILLE, L’influence du partage de l’information sur l’engagement
organisationnel: Influence directe ou indirecte? www.reims- ms.fr/agrh/.../2008landreville-trembley.pdf
79
Roth, Martin S (1995); The effects of culture and socioeconomics on the performance; Journal of Marketing
Research; May; 32, 2; pg. 163-176
80
Yin Xu and Brad M. Tuttle (2005); The Role of Social Influences in Using Accounting Performance Information to Evaluate
Subordinates: A Causal Attribution Approach; Behavioral research in Accounting, Volume 17, pp.191.210
81
Hans B. Christensen, Edward Lee, Martin Walker (2007); Cross-sectional variation in the economic consequences
of international accounting harmonization: The case of mandatory IFRS adoption in the UK, The International
Journal of Accounting 42 341–379
82
Olgun Kitapci and Ibrahim Taylan Dortyol (2009), The differences in customer complaint behaviour between
loyal customers and first comers in the retail banking industry The case of Turkish customers, Management
Research News; Vol. 32; No. 10, pp. 932-941
83
Klösgen, W. (2002). Types and forms of data. Handbook of Data Mining and Knowledge Discovery, Oxford
University Press, New York, USA, 33-44.
84
Park, H. M. (2015). Linear regression models for panel data using SAS, Stata, LIMDEP, and SPSS.
85
Fallan, E., & Fallan, L. (2009). Voluntarism versus regulation: Lessons from public disclosure of environmental
performance information in Norwegian companies. Journal of Accounting & Organizational Change, 5(4), 472-
489.
86
Zaman, M., & Chayasombat, J. (2014). Audit pricing and product differentiation in small private firms: evidence
from Thailand. Journal of Accounting in Emerging Economies, 4(2), 240-256.
87
Yamamura, E. (2011). The effects of the social norm on cigarette consumption: evidence from Japan using panel
data. Japan and the World Economy, 23(1), 6-12.
88
Hitt, M. A., Bierman, L., Shimizu, K., & Kochhar, R. (2001). Direct and moderating effects of human capital on
strategy and performance in professional service firms: A resource-based perspective. Academy of Management
journal, 44(1), 13-28.
89
Hitt, M. A., Bierman, L., Shimizu, K., & Kochhar, R. (2001). Direct and moderating effects of human capital on
strategy and performance in professional service firms: A resource-based perspective. Academy of Management
journal, 44(1), 13-28.
90
Hsiao, C. (1986). Analysis of Panel Data, Econometric Society Monograph No. 11.
91
Sayrs, L. W. (1989). Pooled time series analysis. Newbury Park, CA: Sage
92
Bergh, D. D. (1993). Don't “waste” your time! The effects of time series errors in management research: The case
of ownership concentration and research and development spending. Journal of Management, 19(4), 897-914.
93
When Customers Disappoint: A Model of Relational Internal Marketing and Customer , Academy of Marketing
Science Journal; Spring; 32, 2; pg. 112
94
James, Lawrence R. (1982), Aggregation Biais in Estimates of perceptual Agreement, Journal of Applied
Psychology , 67 (April): 219-229
95
Osborne, J. W. (2000). Advantages of hierarchical linear modeling. Practical Assessment, Research &
Evaluation, 7(1), 1-3.
96
Georgopoulos, B. S. (1986). Organizational Structure, Problem-Solving, and Effectiveness. San Francisco: Jossey-
Bass. Cite par Simon J. Bell Bülent Mengüç Sara L. Stefani (2004); When Customers Disappoint: A Model of
Relational Internal Marketing and Customer Complaint; Journal of the Academy of Marketing Science. Volume 32,
No. 2, pages 118.
97
James, Lawrence R., Robert G. Demaree, and GerritWolf. (1984); Estimating Within-Group Interrater Reliability With and
Without Response Bias; Journal of Applied Psychology 69 (February): 85-98. James, Lawrence R.
98
Baruch, Y., Grimland, S., & Vigoda-Gadot, E. (2014). Professional vitality and career success: Mediation, age and
outcomes. European Management Journal, 32(3), 518-527.
99
Simon J. Bell Bülent Mengüç Sara L. Stefani (2004); When Customers Disappoint: A Model of Relational Internal
Marketing and Customer Complaints; Journal of the Academy of Marketing Science. Volume 32, No. 2, pages 118.
100
Philippe SAINT PIERRE (2012) ; Introduction à l'analyse des durées de survie 1 Avril
101
Dansereau, F., Jr., & Alutto, J. A. 1990. Level-of-analysis issues in climate and culture research. In B. Schneider
(Ed.), Organizational climate and culture: 193-236. San Francisco: Jossey-Bass.
102
Stefanie E. Naumann; Nathan Bennett (2000), A Case for Procedural Justice Climate: Development and Test of a
Multilevel Model, The Academy of Management Journal, Vol. 43, No. 5. (Oct., pp. 881-889.
103
Evrard Y., B. Pras, R. Roux (2000) : Market, Etudes et recherches en Marketing, DUNOD p 339
104
 Dubois, P.-L. et Jolibert, A., (1992), Le Marketing – Fondements et Pratique, Economica.
105
Armstrong, J., & Overton, T. (1977) . Estimating nonresponse bias in mail surveys. Journal of Marketing Research,
14 (August), 396-402.
106
Hair, J., Black, W. C., Babin, B. J., & Anderson, R. E. (2010). Multivariate data analysis (7th ed.). Upper saddle River, New
Jersey: Pearson Education International.
107
Little, R. J. (1988). A test of missing completely at random for multivariate data with missing values. Journal of the
American Statistical Association 83(404): 1198-1202.
108
Naomi G. Dyera, Paul J. Hangesa, Rosalie J. Hallb (2005); Applying multilevel confirmatory factor analysis techniques to
the study of leadership; The Leadership Quarterly; 16 149–167
109
Zaman, M., & Chayasombat, J. (2014). Audit pricing and product differentiation in small private firms: evidence
from Thailand. Journal of Accounting in Emerging Economies, 4(2), 240-256.
110
Dewar Robert D. and Jane E. Dutton (1986), The Adoption of Radical and Incremental Innovations : An Empirical
Analysis ; Management Science, Vol. 32, No. 11 (Nov., , pp. 1422-1433.
111
Alan G Sawyer; A Dwayne Ball (1981); Statistical power and effect size in marketing research, Journal of
Marketing Research: Aug; 18
112
Maxwell, S. E. (2000), Sample size and multiple regression analysis, Psychological Methods, 5, 434–458.
113
Robert C. MacCallum Keith F. Widaman Kristopher J. Preacher (2001); Sample Size in Factor Analysis: The Role of
Model Error; Multivariate Behavioral Research, 36 (4), 611-637
114
Chéron, E. J., & Zins, M. (1983). Recherche en marketing: méthodes et décisions. Chicoutimi, Québec: G. Morin.
115
Jöreskog, K. G., & Sörbom, D. (1982). Recent developments in structural equation modeling. Journal of marketing
research, 404-416.
116
Stevens, J. (1996). Applied multivariate statistics for the social sciences (3rd ed.). Mahwah, New Jersey: Erlbaum.
117
Loehlin, J. C. (1992). Latent Variable Models: An Introduction to Factor. Path, and Structural Analysis Lawrence
Erlbaum Ass., Publishers, Hillsdale, New Jersey.
118
Westland, J. C. (2010). Lower bounds on sample size in structural equation modeling. Electronic Commerce
Research and Applications, 9(6), 476-487.
119
Ryu, J. S., Decosta, J. P. L. E., & Andéhn, M. (2016). From branded exports to traveler imports: Building destination
image on the factory floor in South Korea. Tourism Management, 52, 298-309.
120
Fynes, B., Voss, C., & de Búrca, S. (2005). The impact of supply chain relationship dynamics on manufacturing
performance. International Journal of Operations & Production Management, 25(1), 6-19.
121
Byrne, M., Chughtai, A., Flood, B., Murphy, E., & Willis, P. (2013). Burnout among accounting and finance
academics in Ireland. International Journal of Educational Management, 27(2), 127-142.
122
Kyriaki Kaplanidou and Christine Vogt (2006), A Structural Analysis of Destination Travel Intentions as a Function
of Web Site Features, Journal of Travel Research; 45; 204
123
Raimondo, M. A., " Nino" Miceli, G., & Costabile, M. (2008). How relationship age moderates loyalty formation:
The increasing effect of relational equity on customer loyalty. Journal of Service Research, 11(2), 142-160.
124
Aaker, D.A., Kumar, V. and Day, G.S. (2001), Marketing Research, John Wiley and Sons, New York.
125
Baruch, Y. 1999. Response rate in academic studies-A comparative analysis. Human relations 52(4), pp. 421-438.
126
Singleton, R. A., Straits, B. C., & Straits, M. M. (2005). Approaches to Social Sciences.
127
Nandedkar, A., & Brown, R. S. (2017). Should I Leave or Not? The Role of LMX and Organizational Climate in
Organizational Citizenship Behavior and Turnover Relationship. Journal of Organizational Psychology, 17(4), 51-
66.
128
Olsen, R. A., & Cox, C. M. (2001). The influence of gender on the perception and response to investment risk: The
case of professional investors. The journal of psychology and financial markets, 2(1), 29-36.
129
Nuhu, N. A., Baird, K., & Appuhami, R. (2016). The Association between the Use of Management Accounting
Practices with Organizational Change and Organizational Performance. In Advances in Management Accounting
(pp. 67-98). Emerald Group Publishing Limited.
130
Kemper, J., Schilke, O., & Brettel, M. (2013). Social capital a eu microlevel origin of organizational
capabilities. Journal of Product Innovation Management,30(3), 589-603.
131
Abu Hussain, H., & Al-Ajmi, J. (2012). Risk management practices of conventional and Islamic banks in
Bahrain. The Journal of Risk Finance, 13(3), 215-239.
132
Malhotra, N. K., Hall, J., Shaw, M., & Oppenheim, P. (2006). Marketing research : An applied orientation (3rd ed.).
French Forest: Prentice Hall
133
Shun Yin Lam Venkatesh Shankar M. Krishna Erramilli Bvsan Murthy (2004); Customer Value, Satisfaction, Loyalty, and
Switching Costs: An Illustration From a Business-to-Business Service Context, Journal of the Academy of Marketing Science.
Volume 32, No. 3, pages 293-311.
134
Saldanha, J. P., Shane Hunt, C., & Mello, J. E. (2013). Driver management that drives carrier performance. Journal
of Business Logistics, 34(1), 15-32.
135
Wouters, M., Anderson, J. C., & Wynstra, F. (2005). The adoption of total cost of ownership for sourcing
decisions––a structural equations analysis. Accounting, Organizations and Society, 30(2), 167-191.
136
Michael J., Dorsch Scott R. Swanson and Scott W. Kelley (1998); the Role of Relationship Quality in the
Stratification of Vendors as Perceived by Customers; Journal of the Academy of Marketing Science. Volume 26,
No. 2, pages 128-142
137
Viator, R. E. (2001). An examination of African Americans' access to public accounting mentors: perceived
barriers and intentions to leave. Accounting, Organizations and Society, 26(6), 541-561.
138
Hult, G. T. M., Hurley, R. F., & Knight, G. A. (2004). Innovativeness: Its antecedents and impact on business
performance. Industrial marketing management, 33(5), 429-438.
139
Gonzalez-Zapatero, C., Gonzalez-Benito, J., & Lannelongue, G. (2017). Understanding how the functional
integration of purchasing and marketing accelerates new product development. International Journal of
Production Economics, 193, 770-780.
140
Armstrong, J., & Overton, T. (1977). Estimating nonresponse bias in mail surveys. Journal of Marketing Research,
14 (August), 396-402.
141
Fowler, F. J. (1993). Survey research methods. Applied research methods series 1. Newbury Park, CA: Sage.
142
Hult, G. T. M., Hurley, R. F., & Knight, G. A. (2004). Innovativeness : Its antecedents and impact on business
performance. Industrial marketing management, 33(5), 429-438.
143
Pruijssers, J and van Oosterhout, J. and Heugens, Pursey P.M.A.R., (2013), Organizational Antecedents of
Dysfunctional Auditor Behaviors: The Mitigating Role of Audit Firm Governance (April 16, 2013). Available at
SSRN: https://ssrn.com/abstract=2251828 or http://dx.doi.org/10.2139/ssrn.2251828
144
Abu Hussain, H., & Al-Ajmi, J. (2012). Risk management practices of conventional and Islamic banks in
Bahrain. The Journal of Risk Finance, 13(3), 215-239.
145
Ahmed, I., & Manab, N. A. (2016). Moderating Effects of Board Equity Ownership on the Relationship between
Enterprise Risk Management and Firms Performance: Data Screening and Measurement Model. benefits, 7(6).
146
Lambert, D.M., and Harrington, T.C. (1990). Measuring Nonresponse Bias in Customer Service Mail Surveys., Journal of
Business Logistics 11(2):5–25.
147
Hult, G. T. M., Hurley, R. F., & Knight, G. A. (2004). Innovativeness : Its antecedents and impact on business
performance. Industrial marketing management, 33(5), 429-438.
148
Saldanha, J. P., Shane Hunt, C., & Mello, J. E. (2013). Driver management that drives carrier performance.  Journal
of Business Logistics, 34(1), 15-32.
149
Collier, P., & Gregory, A. (1996). Audit committee effectiveness and the audit fee.  European Accounting
Review, 5(2), 177-198.
150
Shun Yin Lam Venkatesh Shankar M. Krishna Erramilli Bvsan Murthy (2004); , Loyalty, and Switching Costs:
An Illustration From a Business-to-Business Service Context, Journal of the Academy of Marketing Science.
Volume 32, No. 3, pages 293-311.
151
Baker, H. K., & Kapoor, S. (2015). Why Indian firms issue stock distributions. Managerial Finance, 41(7), 658-672.
152
Rebecca Weston and Paul A. Gore, Jr. (2006) A Brief Guide to Structural Equation Modeling; The Counseling
Psychologist; 34; 719-751.
153
St-Pierre, Line (1999); En pensant à demain: un modèle de prédiction des comportements déviants chez les
adolescents Line St-Pierre Ecole de Psychologie ; Thèse École des Etudes Supérieures et de la Recherche de
l'université d'Ottawa.
154
Kenneth Bollen (1987), Outliers and Improper Solutions: A Confirmatory Factor Analysis; Example 375
Sociological Methods Research 1987; 15; 375
155
Tabachnick, B. G., h Pidell, L. S. (1996). Using multivariate S t a t i s t i c s (3rd ed.). California : Harper & Collins
College Publishers cités par. « En pensant à demain*: un modèle de prédiction des comportements déviants chez
les adolescents Line St-Pierre Ecole de Psychologie Thèse déposée à l’Éco1e des Etudes Supérieures et de la
Recherche de l'université d'Ottawa dans le cadre des exigences du programme de doctorat
156
www.utexas.edu/courses/.../DetectingOutliers.ppt 
157
Hair J., Black W., Babin B. et Anderson R. (2009), Multivariate data analysis: A global perspective, 7th Edition, NJ:
Pearson.
158
Fox J. (1984): Regression diagnostics, Series Quantitatives in the Social Sciences, S a Sage University paper 79
159
Akrout Onsa (2016) ; Intention de quitter la profession d’expertise comptable : Acuité, Déterminants et Profils.
Thèse de Doctorat en Sciences de Gestion, Université de Carthage, IHEC de Cathage.
160
Kline, R. B. (2011). Principles and practice of structural equation modeling. 2011. New York: Guilford Press Google
Scholar.
161
Smith, R. E., & Wright, W. F. (2004). Determinants of customer loyalty and financial performance. Journal of
management accounting research, 16(1), 183-205.
162
Lam, S. Y., Shankar, V., Erramilli, M. K., & Murthy, B. (2004). Customer value, satisfaction, loyalty, and switching
costs : an illustration from a business-to-business service context. Journal of the academy of marketing science,
32(3), 293-311.
163
Tabachnick, Barbara G. and Linda S. Fidell. 1996. Using Multivariate Statistics. 3d ed. New York : HarperCollins
164
Lam, S. Y., Shankar, V., Erramilli, M. K., & Murthy, B. (2004). Customer value, satisfaction, loyalty, and switching
costs: an illustration from a business-to-business service context. Journal of the academy of marketing science,
32(3), 293-311.
165
Michael Trimarchi and James Routledge (2001), An Exploratory Study of Interfirm +Between Hong Kong Buyers,
and Sellers from the West, Working Paper 01/2 December, UNIVERSITY OF THE SUNSHINE COAST FACULTY OF
BUSINESS WORKING PAPER SERIES
166
Tabachnick, G. B., & Fidell, S. L. (2007). Using Multivariate Statistics (5th ed.). New York: Pearson Educational Inc.
167
Hair, J., Black, W. C., Babin, B. J., & Anderson, R. E. (2010). Multivariate data analysis (7th ed.). Upper saddle River, New
Jersey: Pearson Education International.
168
Kabiru Jinjiri Ringim , Mohd Rizal Razalli and Norlena Hasnan (2012); A Framework of Business Process Re-
engineering Factors and Organizational Performance of Nigerian Banks, Asian Social Science Vol. 8, No. 4; April
169
Gerard, J. M., Krishnakumar, A., & Buehler, C. (2006). Marital conflict, parent-child relations, and youth
maladjustment: A longitudinal investigation of spillover effects. Journal of Family Issues, 27(7), 951-975.
170
Rubin, D. B. (1976). Inference and missing data. Biometrika, 61, 581-592.
171
Weston, R., & Gore, P. A. (2006). A brief guide to structural equation modeling. The Counseling Psychologist,
34(5), 719-751.
172
Liberatore, J., & Miller, T. (2016). Outbound Logistics Performance and Profitability: Taxonomy of Manufacturing
and Service Organizations. Bus Eco J, 7(221), 2
173
Schlomer, G. L., Bauman, S., & Card, N. A. (2010). Best practices for missing data management in counseling
psychology. Journal of Counseling psychology, 57(1), 1.
174
Kline, R.B., 1998. Principles and Practice of Structural Equation Modelling. Guilford Press, New York.
175
Nikos Tsikriktsis (2005) A review of techniques for treating missing data in OM survey research, Journal of
Operations Management, 24 53–62
176
Acock, A. C. (2005). Working with missing values. Journal of Marriage and family, 67(4), 1012-1028.
177
Thomas, R., & Wood, E. (2015). The absorptive capacity of tourism organisations. Annals of Tourism Research, 54,
84-99.
178
Son, C. G., Bilke, S., Davis, S., Greer, B. T., Wei, J. S., Whiteford, C. C., ... & Khan, J. (2005). Database of mRNA gene
expression profiles of multiple human organs. Genome research, 15(3), 443-450.
179
Francis-Smythe, J., Haase, S., Thomas, E., & Steele, C. (2013). Development and validation of the career
competencies indicator (CCI). Journal of Career Assessment, 21(2), 227-248.
180
Sandvik, C., Gjestad, R., Samdal, O., Brug, J., & Klepp, K. I. (2009). Does socio-economic status moderate the
associations between psychosocial predictors and fruit intake in school The unit of analysis: Group children? The
Pro Children study. Health education research, cyp055.
181
Caldwell, D. F., Chatman, J. A., & O'Reilly, C. A. (1990). Building organizational commitment: A multifirm
study. Journal of occupational Psychology, 63(3), 245-261.
182
Lundin, J. (2015). Entrepreneurship and Economic Growth: Evidence from GEM Data.
183
Paulhus, D. L. (1991). Measurement and control of response bias.Measurement and control of response
bias.
184
Dorsch, M. J., Swanson, S. R., & Kelley, S. W. (1998). The role of relationship quality in the stratification of
vendors as perceived by customers. Journal of the Academy of marketing Science, 26(2), 128.
185
Jayanti, R. K., McManamon, M. K., & Whipple, T. W. (2004). The effects of aging on brand attitude
measurement. Journal of Consumer Marketing, 21(4), 264-273.
186
Shulman, A. (1973). A comparison of two scales on extremity response bias. The Public Opinion Quarterly, 37(3),
407-412.
187
Dwyer, F. R., & Oh, S. (1988). A transaction cost perspective on vertical contractual structure and
interchannel competitive strategies. The Journal of Marketing, 21-34.
188
Akrout, F. (1996). Analyse macromarketing de la dynamique des circuits de distribution : construction et test d'un
modèle intégré (Doctoral dissertation). Université de Sfax Faculté des Sciences Economiques et de Gestion de
Sfax.
189
Zhao, X. (2005). Modeling market entry mode choice: the case of German firms in China.  university of Bielefeld.
Retrieved May, 12, 2006.
190
Chow, G.C., 1960. Tests of equality between sets of coefcients in two linear regressions. Econometrica 28,
3.
191
Jones, M. A., Mothersbaugh, D. L., & Beatty, S. E. (2000). Switching barriers and repurchase intentions in services.
Journal of retailing, 76(2), 259-274.
192
Yusoff, R., & Wilson, R. (2005). An econometric analysis of conventional and Islamic bank deposits in
Malaysia. Review of Islamic Economics, 9(1), 31.
193
Ayadi, I. (2014). Technical efficiency of Tunisian banks. International Business Research, 7(4), 170.
194
Burki, U., & Kadić-Maglajlić, S. (2013). An Islamic marketing perspective on salesperson’s intentions to behave
ethically. International Journal of Social Entrepreneurship and Innovation, 2(5), 391-403.
195
Hutcheson, Graeme and Nick Sofroniou (1999); The multivariate social scientist: Introductory statistics using
generalized linear models. Thousand Oaks, CA: Sage Publications. ISBN 0761952012.
196
Simon J. Bell Bülent Mengüç Sara L. Stefani (2004); When Customers Disappoint: A Model of Relational Internal
Marketing and Customer Complaints; Journal of the Academy of Marketing Science. Volume 32, No. 2, pages 118.
197
Georgopoulos, B. S. (1986), Organizational Structure, Problem-Solving, and Effectiveness. San Francisco: Jossey-Bass.
198
Simon J. Bell Bülent Mengüç Sara L. Stefani (2004); When Customers Disappoint: A Model of Relational Internal
Marketing and Customer Complaints; Journal of the Academy of Marketing Science. Volume 32, No. 2, pages 118.
199
Davis, L. R., Ricchiute, D. N., & Trompeter, G. (1993). Audit effort, audit fees, and the provision of nonaudit
services to audit clients. Accounting Review, 135-150.
200
Cote Joseph A.; M. Ronald Buckley (1987), Estimating Trait, Method, and Error Variance: Generalizing across
70 Construct Validation Studies, Journal of Marketing Research, Vol. 24, No. 3. (Aug), pp. 315-318.
201
Lord, Frederic M. and Melvin R. Novick (1968), Statistical Theories of Mental Test Scores, Reading, MA: Addison-
Wesley (1984), Factor Correlated Measurement Error, Journal of Consumer Research; Jun; 11, 1; pg. 572.
202
Edwards J, Bagozzi R. (2000), on the nature and direction of relationships between constructs and measures.
Psychological Methods; 5(2):155–174.
203
Bagozzi, R. P., & Yi, Y. (1991). Multitrait–multimethod matrices in consumer research. Journal of Consumer
Research, 17, 426–439.
204
Philip M. Podsakoff, Scott B. MacKenzie, and Jeong-Yeon Lee Nathan P. Podsakoff (2003), Common Method
Biases in Behavioral Research: A Critical Review of the Literature and Recommended Remedies, Journal of Applied
Psychology, Vol. 88, No. 5, 879–903
205
Bagozzi, Richard P.; Yi, Youjae; Phillips, Lynn W. (1991), Assessing Construct Validity in Organizational Research,
Administrative Science Quarterly; Sep; 36, 3; pg. 421
206
Philip M. Podsakoff, Scott B. MacKenzie, and Jeong-Yeon Lee Nathan P. Podsakoff (2003), Common Method
Biases in Behavioral Research: A Critical Review of the Literature and Recommended Remedies, Journal of Applied
Psychology, Vol. 88, No. 5, 879–903
207
Markovits Yannis (2011), Normative commitment and loyal boosterism: Does job satisfaction mediate this
relationship? MIBES Transactions, Vol 5, Issue 1, Spring
208
Bagozzi, R. P., Yi, Y., & Phillips, L. W. (1991). Assessing construct validity in organizational
research. Administrative science quarterly, 421-458.
209
Markovits Yannis (2011), Normative commitment and loyal boosterism: Does job satisfaction mediate this
relationship? MIBES Transactions, Vol 5, Issue 1, Spring
210
Cote, J. A., R. Buckley. (1987). Estimating trait, method, and error variance: Generalizing across 70 construct
validation studies. Journal of. Marketing Research. 24(3) 315–318.
211
Burney, L. L., Henle, C. A., & Widener, S. K. (2009). A path model examining the relations among strategic
performance measurement system characteristics, organizational justice, and extra-and in-role performance.
Accounting, Organizations and Society, 34(3), 305-321.
212
Chen, J., Reilly, R. R., & Lynn, G. S. (2005). The impacts of speed-to-market on new product success: the
moderating effects of uncertainty. Engineering Management, IEEE Transactions on, 52(2), 199-212.
213
Nicolaou, A. I. (2000). A contingency model of perceived effectiveness in accounting information systems:
Organizational coordination and control effects. International Journal of Accounting Information Systems, 1(2),
91-105.
214
Poznanski, P. J. (1991). The effects of organizational commitment, professional commitment, life-span career
development, and self-monitoring on job satisfaction and job performance among staff accountants (Doctoral
dissertation, Texas Tech University).
215
Aranya, N., & Ferris, K. R. (1984). A reexamination of accountants' organizational-professional conflict.
Accounting Review, 1-15.
216
Bline, D. M., Meixner, W. F., & Duchon, D. (1991). The measurement of organizational and professional
commitment: An examination of the psychometric properties of two commonly used instruments. Behavioral
Research in Accounting.
217
Cohen, A., & Sayag, G. (2010). The effectiveness of internal auditing: an empirical examination of its determinants
in Israeli organisations. Australian Accounting Review, 20(3), 296-307.
218
Nasution, H. N., & Mavondo, F. T. (2008). Organisational capabilities: antecedents and implications for customer
value. European Journal of Marketing, 42(3/4), 477-501.
219
Abrahamson, M. (1983). Social Research Methods. Englewood Cliffs, NJ: Prentice-Hall
220
Caldwell, D. F., Chatman, J. A., & O'Reilly, C. A. (1990). Building organizational commitment: A multifirm study.
Journal of occupational Psychology, 63(3), 245-261.
221
Markovits, Y. (2011). Normative commitment and loyal boosterism: Does job satisfaction mediate this
relationship?. MIBES Transactions, TEI Larissas, 5(1), 73-89.
222
Lui, S. S., Ngo, H. Y., & Tsang, A. W. N. (2001). Interrole conflict as a predictor of job satisfaction and propensity to
leave: A study of professional accountants. Journal of Managerial Psychology, 16(6), 469-484.
223
Lindell, M.K. and Brandt, C.J. (2000), Climate quality and climate consensus as mediators of the relationship between
organizational antecedents and outcomes, Journal of Applied Psychology, Vol. 85 No. 1, pp. 331-348.
224
Green, K. W., Toms, L. C., & Clark, J. (2015). Impact of market orientation on environmental sustainability
strategy. Management Research Review, 38(2), 217-238.
225
Lindell, M. K., & Whitney, D. J. (2001). Accounting for common method variance in cross-sectional research
designs. Journal of applied psychology, 86(1), 114.
226
Harman, D. (1967). A single factor test of common method variance. Journal of Psychology, 35(1967), 359-378.
227
Newkirk Henry E. and Albert L. Lederer (2006), The effectiveness of strategic information systems planning under
environmental uncertainty, Information & Management 43 481–501
228
Igbaria, Magid, et al. "Personal computing acceptance factors in small firms: a structural equation model." MIS
quarterly (1997): 279-305.
229
Podsakoff, P.M., & Organ, D.W. (1986). Self-reports in organizational research: Problems and prospects. Journal of
Management, 12, 69–82.
230
Seibert, S. E., Kraimer, M. L., & Liden, R. C. (2001). A social capital theory of career success. Academy of
Management Journal, 44(2), 219-237.
231
Kandemir, D., Yaprak, A., & Cavusgil, S. T. (2006). Alliance orientation: conceptualization, measurement, and
impact on market performance. Journal of the academy of marketing science, 34(3), 324-340.
232
Golden Timothy D. and John F. Veiga (2008), The impact of superior–subordinate relationships on the
commitment, job satisfaction, and performance of virtual workers, The Leadership Quarterly 19 77–88
233
Sanjay T. Menon (2001), Employee Empowerment: An Integrative Psychological Approach, APPLIED
PSYCHOLOGY: AN INTERNATIONAL REVIEW, , 50 (1), 153±180
234
Newkirk Henry E. And Albert L. Lederer (2006), The effectiveness of strategic information systems planning
under environmental uncertainty, Information & Management 43 481–501
235
Parolia Neeraj, Stephen Goodman, Yuzhu Li et James J. Jiang (2007) Mediators between coordination and IS
project performance, Information & Management 44 635–645
236
BARRINGER BRUCE R. AND ALLEN C. BLUEDORN (1999) THE RELATIONSHIP BETWEEN CORPORATE
ENTREPRENEURSHIP AND STRATEGIC MANAGEMENT, Strategic Management Journal Strat. Mgmt. J., 20: 421–
444
237
Xu, Y., & Tuttle, B. M. (2005). The role of social influences in using accounting performance information to
evaluate subordinates: A causal attribution approach. Behavioral Research in Accounting, 17(1), 191-210.
238
Augustine, O. E., Efayena, O., & Edegware, J. (2014), Behavioural Factors Affecting Accounting Task Performance.
European Journal of Business and Management www.iiste.org ISSN 2222-1905 (Paper) ISSN 2222-2839 (Online)
Vol.6, No.8, 2014
239
Rudd John M., Gordon E. Greenley, Amanda T. Beatson, Ian N. Lings (2008) Strategic planning and performance:
Extending the debate, Journal of Business Research 61 99–108
240
Kandemir, D., Yaprak, A., & Cavusgil, S. T. (2006). Alliance orientation: conceptualization, measurement, and
impact on market performance. Journal of the Academy of Marketing Science, 34(3), 324-340.
241
Williams, L. J., & Anderson, S. E. (1994). An alternative approach to method effects by using latent-variable
models: Applications in organizational behavior research. Journal of Applied Psychology, 79(3), 323.
242
Rahman, S. (2015). Relationship between employee corporate social responsibility (CSR) attitudes, job
satisfaction and organisational commitment in Bangladesh. Macquarie Graduate School of Management
Macquarie University, Macquarie Park, NSW, Australia
243
Destan Kandemir; Attila Yaprak; S Tamer Cavusgil (2006); Alliance Orientation: Conceptualization, Measurement,
and Impact on Market Performance; Academy of Marketing Science Journal; Summer; 34, 3; pg. 324
244
Buchan, H. F. (2005). Ethical decision making in the public accounting profession: An extension of Ajzen’s theory
of planned behavior. Journal of Business Ethics, 61(2), 165-181.
245
Ryan, J. J. (2001). Moral reasoning as a determinant of organizational citizenship behaviors: A study in the public
accounting profession. Journal of business Ethics, 33(3), 233-244.
246
Carbonell, P., & Rodríguez-Escudero, A. I. (2009). Relationships among team's organizational context, innovation
speed, and technological uncertainty: An empirical analysis. Journal of Engineering and Technology Management,
26(1), 28-45.
247
Liu, Y., Luo, Y., & Liu, T. (2009). Governing buyer–supplier relationships through transactional and relational
mechanisms: Evidence from China. Journal of Operations Management, 27(4), 294-309.
248
Lindell, M. K., & Whitney, D. J. (2001). Accounting for common method variance in cross-sectional research
designs. Journal of applied psychology, 86(1), 114.
249
Lachman, R., & Aranya, N. (1986). Evaluation of alternative models of commitments and job attitudes of
professionals. Journal of Organizational Behavior, 7(3), 227-243.
250
Buchan, H. F. (2005). Ethical decision making in the public accounting profession: An extension of Ajzen’s theory
of planned behavior. Journal of Business Ethics, 61(2), 165-181.
251
Campion, M. A., Cheraskin, L., & Stevens, M. J. (1994). Career-related antecedents and outcomes of job rotation.
Academy of Management Journal, 37(6), 1518-1542.
252
Carson, K. D., Carson, P. P., & Bedeian, A. G. (1995). Development and construct validation of a career
entrenchment measure. Journal of Occupational and Organizational Psychology, 68(4), 301-320.
253
Mohamed Abdou Moustafa (2004), Testing the Weak-Form Efficiency of the United Arab Emirates Stock Market,
Al Ain University, International Journal of Business, Vol. 9, No. 3,
254
RF Hurley (1998), Alternative indexes for monitoring customer perceptions of service quality: a comparative
evaluation in a retail context, … - Journal of the Academy of Marketing …,
255
(SPSS11)
256
Chou, C.-P., & Bentler, P. M. (1990). Model modification in covariance structure modeling: A comparison among
the likelihood ratio, Lagrange Multiplier, and Wald tests. Multivariate Behavioral Research, 25, 115-136
257
Rebecca Weston and Paul A. Gore, Jr. (2006) A Brief Guide to Structural Equation Modeling; The Counseling
Psychologist 34; 719-751.
258
Lynn, M. L., Naughton, M. J., & VanderVeen, S. (2009). Faith at work scale (FWS): Justification, development, and
validation of a measure of Judaeo-Christian religion in the workplace. Journal of business ethics, 85(2), 227-243.
259
Kline, R. B. (2005). Principles and practice of structural equation modeling (2nd ed.). New York: Guilford.
260
Rebecca Weston and Paul A. Gore, Jr. (2006); A Brief Guide to Structural Equation Modeling; The Counseling
Psychologist 34; 719-751.
261
Mardia K.V. (1970), Measures of multivariate skewness and kurtosis with applications, Biometrika 57, 519–530.
262
Ga´ bor J. Sze´ kelya, and Maria L. Rizzob (2005); A new test for multivariate normalité   ; Journal of Multivariate
Analysis; 93 58–80
263
Ke-Hai Yuan, Paul L. Lambert and Rachel T. Fouladi (2004), Mardia’s Multivariate Kurtosis with Missing Data,
Multivariate Behavioral Research, 39 (3), 413-437
264
Bryman, A. & Cramer, D. (2001). Quantitative Data Analysis with SPSS Release 10 for Windows, London:
Routledge.
265
Romeu, J.L., Ozturk, A., 1993. A comparative study of goodness of fit tests for multivariate normality ; . Journal of
Multivariate Analysis, 46, 309-334.
266
Patrice Roussel, Frédéric Wacheux (2005) ; Management des ressources humaines : Méthodes de recherche en
sciences humaines et sociales ; Publié par De Boeck Université
267
Bootstrapping goodness-of-fit measures in structural equation models
268
Donald R McCreary; Nancy D Rhodes; Deborah M Saucier (2002), A confirmatory factor analysis of the short form
sex role behavior scale, Sex Roles; Aug; 47, 3/4; Academic Research Library pg. 169-177
269
Suàrez Àlvarez, L., Díaz Martín, A. M., & Casielles, R. V. (2007). Relationship marketing and information and
communication technologies: Analysis of retail travel agencies. Journal of travel Research, 45(4), 453-463.
270
Schmidt, P., & Muller, E. N. (1978). The problem of multicollinearity in a multistage causal alienation model: A
comparison of ordinary least squares, maximum-likelihood and ridge estimators. Quality & Quantity, 12(4), 267-
297.
271
Kaplan, D. (1994). Estimator conditioning diagnostics for covariance structure models. Sociological methods &
research, 23(2), 200-229.
272
Grewal, R., Cote, J. A., & Baumgartner, H. (2004). Multicollinearity and measurement error in structural equation
models : Implications for theory testing. Marketing Science, 23(4), 519-529.
273
Bryman, A., & Cramer, D. (1997). Quantitative data analysis with SPSS for windows. London: Routledge.
274
Williams, S. V. (2003). An empirical investigation of turnover intentions of internal auditors (Doctoral dissertation,
Virginia Commonwealth University).
275
Carson, G. D. (2011). StatNotes : Topics in Multivariate Analysis. Retrieved from.
276
Rockwell, R. C. (1975). Assessment of multicollinearity : The Haitovsky test of the determinant. Sociological
Methods & Research, 3(3), 308-320.
277
Siddiqui, T. A., & Siddiqui, K. I. (2017). Exploring Linkages between Telecom and Financial Inclusion : An
Innovative Strategy for Success. Proceedings of International Conference on Strategies in Volatile and Uncertain
Environment for Emerging Markets July 14-15, 2017 Indian Institute of Technology Delhi, New Delhi pp.830-837
278
Greene, W.H., 1993. Econometric Analysis, third ed. Prentice-Hall, Upper Saddle River, NJ.
279
Hong J.S. (1996) SAS and Statistical Data Analysis. Tamjin Publications, Seoul, pp. 335–411.
280
Wiengarten, F., Humphreys, P., Cao, G., Fynes, B., & McKittrick, A. (2010). Collaborative supply chain practices
and performance : exploring the key role of information quality. Supply Chain Management : An International
Journal, 15(6), 463-473.
281
Fuerman, R. D. (2009). Bernard Madoff and the solo auditor red flag.
282
Shin, H., Park, Y. J., & Kim, M. J. (2006). Predictors of maternal sensitivity during the early postpartum
period. Journal of Advanced Nursing, 55(4), 425-434.
283
Islam, M. S., & Dooty, E. N. (2015). Determinants of stock price movements: Evidence from Chittagong stock
exchange, Bangladesh. Journal of Economics and Business Research, 21(2), 117-133.
284
Hughes, J. N., Webster-Stratton, B. T., & Cavell, T. A. (2004). Development and validation of a gender-balanced
measure of aggression-relevant social cognition. Journal of Clinical Child and Adolescent Psychology, 33(2), 292-
302.
285
Wiengarten, F., Humphreys, P., Cao, G., Fynes, B., & McKittrick, A. (2010). Collaborative supply chain practices
and performance : exploring the key role of information quality. Supply Chain Management : An International
Journal, 15(6), 463-473.
286
Wang, G. C. (1996). How to handle multicollinearity in regression modeling. Journal of Business Forecasting
Methods and Systems, 15, 23-27.
287
Aiken, L. S., West, S. G., & Reno, R. R. (1991). Multiple regression : Testing and interpreting interactions. Sage.
288
Soon Ang and Larry L. Cummings 1997), “Stratégic Response to institutional Influences on Informations systems
Outsourcing”, Organisation Science, Vol 8, N°3 (May 1), pp 235-256.
289
Yang, Y., Zhang, M., & Kou, Y. (2016). Self-compassion and life satisfaction : The mediating role of hope.
Personality and Individual Differences, 98, 91-95.
290
Dewar, R. D., & Dutton, J. E. (1986). The adoption of radical and incremental innovations: An empirical analysis.
Management science, 32(11), 1422-1433.
291
Khlif, H., A., Guidara, A., & Hussainey, K. (2016). Sustainability level, corruption and tax evasion: a cross-country
analysis. Journal of Financial Crime, 23(2), 328-348.
292
Coffé, H., & Geys, B. (2005). Institutional performance and social capital: An application to the local
government level. Journal of urban affairs, 27(5), 485-501.
293
Poudel, K. P., Carter, R., & Lonial, S. (2012). The process aspect of entrepreneurial orientation-performance
relationship: Uncovering the mediating roles of technological capabilities, innovation and firm growth. Frontiers
of Entrepreneurship Research, 32(12), 3.

Vous aimerez peut-être aussi