Vous êtes sur la page 1sur 34

Institut Universitaire d’Abidjan

TECHNIQUES QUANTITATIVES EN
MARKETING

Licence 3 : MARKETING

Semestre 2

M. ANI Abel

anisatroko01@gmail.com

2019-2020
PLAN DU COURS
Introduction
Chapitre 0 : Introduction et rappels
Chapitre 1 : Etude des instruments de mesure
Chapitre 2 : Statistiques descriptives
Chapitre 3 : Modélisation statistique
1.0. Introduction

Les études quantitatives permettent de rassembler des données chiffrées à partir d’un échantillon
représentatif. Dans ces études, on s’intéresse aux faits, aux opinions émises, aux comportements, etc.
Après avoir étudié aux cours précédents les deux premières phases de la recherche à savoir : le cadre
théorique et le cadre méthodologique, ce cours s’appesanti sur l’analyse de données.
L’analyse des données est une étape importante du processus de recherche. C’est elle qui permet de
répondre aux questions soulevées par la recherche, en offrant les informations nécessaires à la
vérification des hypothèses formulées. Par définition, c’est le processus de transformation des
informations recueillies, visant à les condenser de façon à en faciliter l’interprétation.

1.1. Rappel

Une fois la collecte effectuée et les données saisies, l’analyse des données comporte généralement 6
étapes. Ce sont :
A. Le contrôle de la phase d’abstraction
Cette étape consiste à vérifier si les données collectées sont conformes à ce que l’on attendait. Il s’agit
de savoir si :

 les informations sont disponibles pour toutes les variables ;


 les informations sont disponibles pour tous les individus ;
 il n’y a pas d’erreur de saisie ou de déclaration des valeurs des différentes variables ;
 etc.

B. Le redressement de l’échantillon
Si l’on constate que la distribution de certaines variables est différente de la distribution dans la
population ou la distribution théorique, il convient de redresser l’échantillon avant de poursuivre
l’analyse. Omettre de le faire entraîne des biais importants dans les résultats de l’analyse. Le
redressement consiste à pondérer les unités statistiques de façon à satisfaire aux distributions connues
des variables dans la population.
C. Préparation d’un sous-fichier d’analyse
Cette étape comporte les phases suivantes :

 Attribution d’un numéro d’identification à chaque observation,


 Définir les variables nécessaires à l’analyse ;
 Recodage éventuelle des variables
 Sélection des variables sur lesquelles porte l’analyse.

D Comment choisir la méthode d’analyse ?


Deux facteurs essentiels déterminent le choix d’une méthode d’analyse :
1) Les objectifs de l’étude
2) Le type de variables.

i) Les objectifs de l’étude


Il s’agit de savoir si l’étude est descriptive ou explicative. De ce point de vue, il existe deux types de
méthodes : a) Les méthodes descriptives ; et b) Les méthodes explicatives.
Les premières considèrent les variables sur le même plan sans établir des relations causales entre elles,
tandis que les secondes font cette distinction en mettant en exergue une relation de cause à effet.

Exemples :

 Une étude visant à mesurer uniquement la performance des entreprises est descriptive ;
 Si par contre l’étude porte sur les déterminants de la performance des entreprises, alors elle est
explicative ;
 Une étude visant à rendre compte de l’effet de l’éducation sur le revenu explicative.

ii) Le type des variables


Les variables se distinguent selon l’échelle de mesure et la nature.
Distinction selon l’échelle
Il y a quatre types d’échelles : les échelles nominales, les échelles ordinales, les échelles d’intervalles
et les échelles proportionnelles.
L’échelle nominale
Les variables à échelle nominale ont les caractéristiques suivantes :

 Elles prennent des valeurs servant uniquement d’étiquettes ;


 On ne peut effectuer aucune opération mathématique sur elle ;
 On peut néanmoins en prendre la distribution ;
 La mesure de tendance centrale est le mode.

L’échelle ordinale
Les variables à échelle ordinale ont les caractéristiques suivantes :

 Elles contiennent toutes les informations offertes par les variables à échelle nominale ;
 Les valeurs de la variable peuvent être classées par ordre croissant ou décroissant ;
 La médiane sert aussi de mesure de tendance centrale ;
 On peut calculer les coefficients de corrélation d’ordre entre les variables ordinales.

L’échelle d’intervalle
Les variables à échelle d’intervalle :

 Contiennent les informations fournies par les deux échelles précédentes ;


 Possèdent des unités de mesure constantes permettant d’établir la distance entre deux
observations ;
 Toutefois, leur point « 0 » est fixé arbitrairement de sorte qu’on ne peut pas dire qu’une valeur
est multiple d’une autre. Exemple : mesure de la température en Fahrenheit ou en Celsius.
 On peut néanmoins procéder à certains calculs statistiques comme la moyenne arithmétique, le
coefficient de corrélation, etc.
 On ne peut calculer de moyenne géométrique ni de coefficient de variation.
L’échelle proportionnelle
Les variables à échelle proportionnelle :

 Contiennent les informations offertes par les trois échelles précédentes ;


 Possèdent un point « 0 » unique => toute valeur est multiple d’une autre.
Exemple : Poids, salaire, surface, etc.
 On peut procéder à tous les calculs statistiques.

Distinction selon la nature


En ce qui concerne la nature, elle permet de distinguer deux types de variables  : les variables
métriques ou quantitatives et les variables non- métriques ou qualitatives.
Les variables d’échelles ordinale ou nominale sont des variables qualitatives. Les variables d’échelle
d’intervalle ou proportionnelle sont des variables quantitatives. De plus les variables quantitatives
peuvent être distinguées en variables discrètes ou continues.
E Exécution des programmes disponibles
Des programmes existent dans la plupart des logiciels statistiques (SPSS, STATA, SAS, etc.) pour
l’application des méthodes couramment utilisées. Il existe, cependant, des spécificités à chaque
logiciel qu’il est recommandé de bien connaître.
F La synthèse des données
Il s’agit de savoir quel type de sortie (manière de présenter les résultats) l’on veut avoir : tableaux de
fréquence, résumés statistiques, graphiques, etc.
Les niveaux d’analyse
La démarche de l’analyse des données doit être progressive. Elle consiste à passer à travers différents
niveaux. Mais cette progression n’est pas nécessairement systématique ; elle dépend surtout de la
connaissance que l’on a de la distribution des variables à l’étude. Si cette connaissance est nulle, le
passage à travers les différents niveaux d’analyse est nécessaire.
Ces différents niveaux d’analyse sont :

 l’analyse univariée
 l’analyse bivariée
 l’analyse multivariée

Chapitre 1 : Etude des instruments de mesure

Plusieurs enquêtes en marketing souffrent de rigueur méthodologique, ce qui rend leurs résultats peu
fiables. En effet, on note des concepts non définis, des questions mal posées sans parler des biais
inhérents au questionnaire (modalités de réponses, sensibilité des questions, questions inutiles) ou
même de la non représentativité de l’échantillon. Si les concepts sont abordés dans la littérature, dans
le même contexte, le chercheur peut recourir aux instruments utilisés. En revanche, si les concepts ne
sont pas abordés dans la littérature dans le même contexte, le chercheur aura tendance à élaborer son
propre instrument de mesure. Le questionnaire est l'instrument de mesure utilisé pour la collecte des
informations. N'étant pas qu'une simple liste de questions, son élaboration requiert beaucoup de
rigueur.

Afin de faire de meilleures suggestions et permettre de prendre des décisions sur la base de résultats
d’étude de meilleure qualité réalisées, le cours présente deux techniques qui ont fait leurs preuves : le
test de la validité et de la fiabilité de l’échelle de mesure. Dans un premier temps nous expliquons la
notion d’échelle de mesure puis nous exposons les notions de validité et de fiabilité des mesures ainsi
que les techniques pour les tester et améliorer ainsi la qualité des études quantitatives.

1.1. Qu’est-ce qu’une échelle de mesure ?


La compréhension des déterminants d’un comportement (qualité perçue, confiance, perception de la
marque, opinion, fidélité, etc.) occupe les directeurs marketing et chargés d’études. S’il offre de
multiples opportunités, le Big Data doit se baser sur des questions qui mesurent bien ce que l’on
cherche à mesurer. Cette question n’est pas nouvelle mais son occultation peut conduire à des résultats
erronés et de fait à de mauvaises décisions managériales.
La définition du concept et le choix des items ou questions est une étape fondamentale pour bien
mesurer un concept. Il existe souvent des échelles de mesure déjà existantes que le chargé d’étude peut
utiliser.
Par exemple, l’échelle de mesure du bouche-à-oreille bien connue est composée de trois questions :
Vous dites des choses positives aux autres au sujet de X ; Vous recommandez X à toute personne qui
cherche des conseils ; Vous encouragez vos amis et vos relations à faire vos achats auprès de X ;
questions auxquelles le répondant doit répondre sur une échelle de Likert allant de « pas du tout
d’accord » à « tout à fait d’accord ». On demande aux répondants d’être plus ou moins d’accord avec
ces affirmations ou d’accorder une importance plus ou moins forte à telle ou telle chose sur une
échelle de Likert à 5 ou 7 points. Ces questions ou items sont des indicateurs permettant de capter la
propension du répondant à dire des choses positives sur un produit ou un magasin. Ensuite, deux
techniques permettent de vérifier que les questions posées sont de bons indicateurs du concept : le test
de validité et le test de fiabilité de l’échelle de mesure.

1.2. Le test de la validité d’une échelle de mesure


Le test de la validité d’une échelle de mesure permet de répondre à la question : mesure-t-on ce qu’on
cherche à mesurer ?
La validité a plusieurs formes et il existe donc plusieurs techniques pour la tester. Tout d’abord, il
s’agit de savoir si les questions permettent de capter les différents aspects du phénomène étudié
(validité faciale ou de contenu). Ceci peut être approuvé via le jugement d’un expert du domaine lors
du test du questionnaire. Ensuite il faut vérifier que les différents indicateurs offrent une bonne
représentation du phénomène étudié (validité de trait ou de construit).
Il faut s’assurer que les indicateurs qui sont supposés mesurer le même phénomène sont corrélés –
c’est la validité convergente – et se distinguent des indicateurs supposés mesurer des phénomènes
différents – c’est la validité discriminante.
L’Analyse Factorielle Exploratoire (AFE) permet de tester ces deux validités. Enfin il s’agit de voir si
les relations entre les mesures d’un concept et celles d’autres concepts sont bien en conformité avec
les prédictions de la théorie (validité nomologique ou prédictive). Cette étape de validation intervient
au cours de la phase confirmatoire après que l’enquêteur se soit assuré de la pertinence des questions à
poser avec les tests de la validité de trait et de fiabilité.

1.3. Purification des échelles de mesure

La purification consiste à supprimer les items peu pertinents et d'analyser les caractéristiques multi
dimensionnelles des concepts. Afin de déterminer la structure factorielle de l’échelle, il faut procéder
par des analyses factorielles.

Quel est l'intérêt de l'analyse factorielle ?

L'analyse factorielle est une démarche statistique de structuration des données, qui consiste à résumer
l'information, en regroupant des variables quantitatives en variables composites ou combinaisons
linéaires appelées composantes principales ou facteurs ou axes, Evrard et al (1993).Son postulat
fondamental est : si des variables sont corrélées les unes avec les autres dans nos données, c'est parce
qu'elles subissent l'influence de certains facteurs qui leur sont communs. Ainsi l'objectif de l'analyse
est de mettre en évidence ces facteurs communs (facteurs latents), non directement observables, mais
qui pourront être estimés.

Vos données sont-elles factorisables

Cette question peut être reformulée de la manière suivante : « les données forment-elles un ensemble
suffisamment cohérent pour qu'il soit raisonnable d'y chercher des dimensions communes qui aient un
sens et ne soient pas des artefacts statistiques ? », Evrard et al (2000). Il existe deux tests qui
permettent de répondre à cette question : le MSA (Measure of Sampling Adequacy) également appelé
test de KMO de Kaiser, Meyer et Olkin et le test de sphéricité de Bartlett.

Le KMO : Il mesure l'importance des coefficients de corrélation observés par rapport à
l'importance des coefficients de corrélations partielles. Autrement dit, il teste si les
coefficients de corrélation entre les énoncés sont suffisamment élevés pour y chercher des
dimensions communes. Un KMO élevé (proche de 1) indique que l'analyse factorielle est une
méthode appropriée et pertinente pour analyser les données. En revanche, un KMO inférieur
à 0.5, signifie que les items ne partagent pas assez de variance pour que l'analyse factorielle
soit adéquate.
Une valeur de KMO de moins de
<0.5 est inacceptable
=0.5 est misérable
=0.6 est médiocre
=0.7 est moyenne
=0.8 est méritoire
=0.9 est merveilleuse (ref: SPSS professional statistics)
Le test de sphéricité de Bartlett: Il analyse la forme du nuage de point et teste l'hypothèse
d'une matrice de corrélation égale à une matrice identité (échantillon issu d'une population
normale pour les variables considérées). Il confirme l'existence de relations entre les variables
et la pertinence de l'analyse factorielle, Evrard et al (1993). Si la signification (Sig.) tend vers
0.000, c'est très significatif ; inférieur à 0.05, significatif ; entre 0.05 et 0.10, acceptable et au-
dessus de 0.10, on rejette.

Ces instruments permettent de répondre à la question posée : l'analyse factorielle est-elle possible
avec nos données ? La purification, consiste à se demander : Quels sont les items pertinents à
retenir ?

Pour répondre à cette question, il faut d'une part étudier les communalités, qui mesurent la part de la
variance de la variable expliquée par les facteurs retenus. Ces derniers sont les facteurs dont leurs
valeurs propres sont supérieures à 1, une valeur propre représente la variance totale expliquée par
chaque facteur, du fait qu'on travaille avec des données centrées réduites cette variance vaut 1.
D'autre part, il faut étudier les coefficients de corrélation entre les variables (items) et les facteurs.
Pour cela il faut regarder du côté de la matrice factorielle ou matrice des composantes principales
représentant les coefficients de corrélation (loadings) entre les variables centrées réduites et les
facteurs. La règle est de ne retenir que les variables dont la valeur du coefficient de corrélation en
valeur absolue avec le facteur est supérieure à 0,5, Evrard et al (1993). Ces variables peuvent être
corrélées à plusieurs facteurs, pour une bonne interprétation de ces facteurs il est préférable de
procéder à une rotation.

L'objectif de la rotation est d'accentuer les corrélations de chaque item avec les facteurs qu'ils ont
servis à constituer, la rotation n'affecte pas les communalisés, ni le pourcentage de la variance totale
expliquée. La rotation peut être orthogonale, si les axes sont maintenus orthogonaux et que les
facteurs qui en résulte sont non corrélés, la méthode varimax qu'on a appliquée pour cette recherche
est la plus utilisée.
Pour la détermination des facteurs, c'est la règle de Kaiser qui est commode d’utiliser. Cette
règle veut qu'on ne retienne que les facteurs (composantes) aux valeurs propres supérieures à
1.
La communalité permet d'assurer que les facteurs retenus expliquent une part suffisante de
la variance de chaque item, elle représente la somme des carrés des poids factoriels. Si la
communalité d'un item est supérieure à 0,5, il est considéré comme suffisamment contributif
à expliquer l'axe.

1.4. Le test de la fiabilité d’une échelle de mesure


La fiabilité correspond au degré avec lequel les instruments utilisés mesurent de façon constante le
construit étudié. Trois méthodes permettent de tester la fiabilité d’une mesure :
1) La méthode du « test / retest » : le questionnaire est administré deux fois à la même population à
deux intervalles différents et les résultats obtenus sont comparés ;
2) La méthode du « Split half » ou des deux moitiés : le questionnaire est administré au même
moment à des échantillons différents (l’échantillon est scindé en deux) et les résultats sont comparés ;
3) La technique des formes alternatives : il s’agit d’introduire dans le questionnaire plusieurs
questions sur le même phénomène mais formulées différemment. Le questionnaire est administré aux
mêmes individus. Cette dernière méthode n’oblige par le chargé d’étude à poser les mêmes questions
aux mêmes personnes ce qui est souvent difficile à faire. De plus, lorsqu’on l’utilise, le chargé d’étude
peut évaluer la fiabilité de l’échelle avec le coefficient Alpha de Cronbach. Ce dernier est calculé pour
vérifier si les énoncés partagent des notions communes, s’ils sont en cohérence entre eux.
L’alpha de Cronbach est un coefficient de fiabilité qui mesure la cohérence interne d’une échelle
construite à partir d’un ensemble d’items. La pratique consiste à réduire un grand nombre d’items
initiaux dans un processus itératif de conservation / élimination des items en fonction de la valeur du
coefficient alpha, qui varie entre 0 et 1. Plus elle est proche de 1, et plus la cohérence interne de
l’échelle (sa fiabilité) est forte.
On élimine donc les items qui diminuent le score, et on conserve ceux qui contribuent à augmenter
l’alpha. On peut ainsi s’assurer que lorsque l’on construit un questionnaire pour une nouvelle enquête,
on ne retiendra dans la phase principale d’administration que les blocs de questions pour mesurer un
phénomène qui ont la plus forte cohérence interne.
En pratique, le coefficient alpha de Cronbach indique la part de variance des items d’une échelle qui
est attribuable au score réel et prend en compte le nombre d’items qui forment l’échelle, ainsi que leur
corrélation moyenne. Pour une corrélation moyenne donnée l’alpha est donc d’autant plus important
que l’échelle comporte un nombre important d’items. L’alpha prend une valeur allant de 0 à 1 ; s’il est
trop faible, cela signifie que l’échelle est soit composée d’un nombre trop faible d’items, soit que ces
items ont très peu en commun. Entre 0,7 et 0,8 on peut considérer que l’échelle de mesure est fiable.
Pour conclure, le chargé d’étude doit s’assurer, avant d’administrer un questionnaire, que les questions
posées sont pertinentes et prouver la validité et la fiabilité des échelles de mesures qui serviront à
mesurer les concepts constituant la question de recherche. C’est une étape fondamentale de
clarification basée sur la définition des concepts et leur opérationnalisation ou terme plus générique :
comment transformer le concept en question.

A retenir
A la fin de ce chapitre, l’apprenant doit maitriser toutes les étapes du traitement des données et surtout,
la purification d’une échelle de mesure. De ce fait, il doit savoir ce que c’est la validité et la fiabilité
d’une échelle de mesure.

Chapitre 2 : Statistiques descriptives : Analyses univariée et bivariée

2.1. Analyse univariée descriptive

Elle intervient dans deux cas :


1) peut servir dans une analyse descriptive sommaire qui ne vise pas à rendre compte des
relations entre variables ; et
2) peut-être une étape dans une analyse plus poussée.

Dans ce deuxième cas, elle fait partie de l’étape de contrôle de la phase d’abstraction. Elle aidera
alors à :

 identifier les variables à faible taux de réponse ;


 identifier les variables à variabilité nulle ;
 identifier les valeurs aberrantes ;
 recoder certaines variables ;
 tester l’hypothèse de normalité ;
 etc.
Cela peut se faire soit par l’étude des distributions de fréquences (simples ou cumulées) ; ou au moyen
de paramètres statistiques mesurant la tendance centrale, la dispersion et la forme des distributions.
Ces notions ont été suffisamment traitées dans les cours de statistique descriptive pour qu’on s’y
attarde.
Exemple de paramètres statistiques :

 tendance centrale : mode, médiane, moyenne ;


 dispersion : étendue, écart interquartile, variance, écart-type ;
 forme : symétrie (skewness), hauteur (kurtosis).

2.2. Analyse bivariée ou bidimensionnelle

L’analyse bivariée consiste à croiser deux variables disponibles dans le tableau de données. Elle
permet de mettre en relation ces deux variables en établissant par une mesure adéquate, le niveau de
cette relation. C’est une étape vers l’analyse multivariée dans la mesure où la matrice de corrélation
qui sert de base à cette dernière est calculée par paire de variables.
L’analyse de la relation entre deux variables X et Y dépend de la logique de l’ordre causal existant
entre ces variables et leur nature.
2.2.1. Comment analyser la relation entre deux variables ?

Les caractéristiques de la relation entre deux variables sont : le degré, la direction, la forme et la
signification.
a. Le degré 

Une mesure d’association doit renseigner sur l’existence ou non d’une relation, puis sur la force de
cette relation. Dans le cas de mesure d’association standardisée ou normée, le coefficient varie entre -1
et +1. Un coefficient nul ou proche de zéro dénote une association faible ou nulle entre les deux
variables, tandis qu’un coefficient proche de +1 ou -1 est révélateur d’une forte association.
Mais toutes les mesures d’association ne sont pas ce type. Certaines comme le Chi2 sont dépendantes
du nombre d’unités, ou de valeurs ou de catégories des variables et rendent la comparaison plus
difficile.

b. Direction de l’association

Lorsque les variables sont au moins ordinales, il devient utile de s’interroger sur la direction de la
relation.
Lorsque les valeurs les plus élevées d’une variable sont associées aux valeurs les plus élevées de
l’autre variable et idem pour les valeurs faibles, l’association observée est positive. Les deux variables
varient dans le même sens. Lorsqu’elle varie en sens inverse, la relation est négative. Le signe du
coefficient indique la direction lorsque les mesures sont normées.

c. La forme de l’association 

Le troisième élément à prendre en compte est la forme de l’association. La forme la plus simple est la
forme linéaire. C’est pourquoi beaucoup de modèles en font une hypothèse.
La relation linéaire suppose un accroissement constant d’une des variables (la variable dépendante)
lorsque l’autre variable (la variable indépendante) croît d’une unité.
La relation linéaire ne s’applique donc qu’aux variables métriques.
La relation entre deux variables métriques peut aussi avoir une forme plus complexe : curvilinéaire,
sinusoïdale, etc.
L’existence de telles relations appelle le lecteur à plus de prudence dans l’application du modèle
linéaire. Il y a intérêt à bien l’examiner avant de se lancer dans l’analyse car cela peut aider à effectuer
les transformations nécessaires avant l’application du modèle linéaire.
Par exemple, le coefficient de corrélation de Pearson est une mesure de relation linéaire très efficace,
mais il est inopérant si la relation entre les variables est curvilinéaire.

d. La signification statistique
Dans la mesure où l’on travaille souvent à partir d’un échantillon et non de la population elle-même,
il faut s’assurer que l’association observée est réelle. Cela renvoie aux tests statistiques et donc à
l’inférence statistique.
Les tests reposent sur une hypothèse nulle consistant à dire qu’il n’existe pas de relation entre les
variables et qu’elles sont indépendantes, pour autant que l’échantillon ait été tiré de façon aléatoire.
On suppose alors que la probabilité que la différence entre la statistique de l’échantillon et le
paramètre attendu de la population sous l’hypothèse nulle est due au hasard.
Si cette probabilité est très faible, on rejette l’hypothèse nulle sans toutefois y voir une confirmation de
l’hypothèse alternative qui n’est pas, cependant, rejetée. Dans le cas contraire, on décidera qu’on n’a
pas suffisamment de garantie pour soutenir l’hypothèse alternative et on adoptera l’hypothèse nulle.
Les niveaux de signification s’expriment en termes de probabilité. On considère généralement que :
P > 0 .1 équivaut à une différence non significative (adoption de l’hypothèse nulle)
P ≤ 0.05 équivaut à une différence significative (rejet de l’hypothèse nulle)
P ≥ 0.01 équivaut à une différence très significative (rejet de l’hypothèse nulle).
Les tests usuels sont ceux du Chi2, t (Student) et F (Ficher).

2.2.2. Les mesures d’association entre deux variables

La mesure d’association entre deux variables dépend de différents facteurs dont :


 le type d’analyse, et
 la nature des variables.
a. Mesures d’association entre variables nominales
Parmi ces mesures, il y a :
 le Chi2, et les coefficients dérivés comme le Ф (phi), le coefficient de contingence c, et le v de
Cramer ; et
 les mesures basées sur la réduction proportionnelle des erreurs : λ (Lambda)
Les premières indiquent seulement s’il y a une association ou pas, et les secondes à la fois l’existence
de la relation et son degré.
b. Mesures d’association entre 2 variables ordinales
Les mesures ainsi calculées sont les suivantes :

- le Gamma de Goodman et Kruskal ;


- le tau-b de kendall ;
- le tau-c ;
- le tau-d de Sommers

c. Les mesures d’association entre variables quantitatives

La mesure d’association symétrique entre deux variables quantitatives est donnée par le coefficient de
corrélation (r) de Pearson. r mesure le degré d’association linéaire entre les deux variables. Pour ce qui
est de la mesure d’association asymétrique, on se sert des coefficients de régression (linéaire) β.

Chapitre 3 : Analyses multivariées


La modélisation est le processus par lequel l'analyste soumet un faisceau d'hypothèses à l'analyse
statistique. Elle exige une vision complexe et ordonnée des phénomènes sociaux. Elle consiste en une
mise en relation des variables conforme aux conceptions théoriques et à une soumission au processus
d'expérimentation. Le processus d'expérimentation amène à considérer chaque tentative de solution
permettant l'élaboration d'une analyse statistique comme autant d'expériences soumises au test de la
réalité.
C'est le lieu ici de rappeler que n'importe quel ensemble de variables, même les plus farfelues, peuvent
faire l'objet d'un coefficient d'explication ou de n'importe quelle autre analyse statistique. Par ailleurs,
ces analyses ne donnent aucune information sur le type de variable. L'analyste ne peut donc compter
sur l'analyse statistique pour lui fournir automatiquement un modèle théorique.
La spécification du modèle est avant tout un problème théorique et sa résolution est une tâche qui
précède l'utilisation de techniques statistiques sophistiquées. Par ailleurs, ce sont les objectifs
théoriques qui guident dans le choix d'une technique d'analyse. Dans ce troisième chapitre, on
abordera les analyses multivariées descriptives et explicatives.

3.1. Analyses descriptives multivariées

On désigne par statistique descriptive multidimensionnelle l’ensemble des méthodes de la statistique


descriptive (ou exploratoire) permettant de traiter simultanément un nombre quelconque de variables.

Ces méthodes sont purement descriptives, c’est-à-dire qu’elles ne supposent, à priori, aucun modèle de
type probabiliste. (Ainsi, lorsqu’on considère un ensemble de variables quantitatives sur lesquelles on
souhaite réaliser une A.C.P., il n’est pas nécessaire de supposer que ces variables sont distribuées
selon des lois normales.)

Dans chaque méthode que nous allons développer, les variables considérées seront de même nature :

 Toutes quantitatives (Analyse en Composantes Principales)


 Toutes qualitatives (Analyses des Correspondances)
Les méthodes les plus classiques de la statistique descriptive multidimensionnelle sont les méthodes
factorielles.

 Elles consistent à rechercher des facteurs (cette notion sera précisée ultérieurement) en
nombre restreint et résumant le mieux possible les données considérées.
 Elles aboutissent à des représentations graphiques des données (des individus comme des
variables) par rapport à ces facteurs, représentes comme des axes.
 Ces représentations graphiques sont du type nuage de points (ou diagramme de dispersion).
Nous allons développer 3 méthodes, chacune correspondant à une section :

 l’Analyse en Composantes Principales (A.C.P.), dans cette section 1,


 l’Analyse Factorielle des Correspondances (A.F.C.), dans la section 2 et;
 l’Analyse des Correspondances Multiples (A.C.M.), dans la section 3.
Nous laisserons de côté l’Analyse Factorielle Discriminante et l’Analyse Canonique (méthodes
factorielles plus particulières), ainsi que les méthodes non factorielles (principalement la
classification).

3.1.1. Analyse en Composantes Principales (A.C.P.)


On commence donc par introduire l’A.C.P., méthode centrale, indispensable pour bien comprendre le
fonctionnement de toute technique factorielle. On développe ensuite l’A.F.C., cas particulier de
l’A.C.M. lorsqu’on ne considère que deux variables qualitatives. On généralise enfin à l’A.C.M

L’objectif de l’Analyse en Composantes Principales est de revenir à un espace de dimension réduite


(par exemple 2) en déformant le moins possible la réalité. Il s’agit donc d’obtenir le résumé le plus
pertinent possible des données initiales. C’est la matrice des variances-covariances (ou celle des
corrélations) qui va permettre de réaliser ce résume pertinent, parce qu’on analyse essentiellement la
dispersion des données considérées. De cette matrice, on va extraire, par un procédé mathématique
approprié, les facteurs que l’on recherche, en petit nombre.

Ils vont permettre de réaliser les graphiques désirés dans cet espace de petite dimension (le nombre de
facteurs retenus), en déformant le moins possible la configuration globale des individus telle qu’elle
est définie par l’ensemble des variables initiales (ainsi remplacées par les facteurs).

 C’est l’interprétation de ces graphiques qui permettra de comprendre la structure des données
analysées
L’ACP est une méthode particulièrement puissante pour résumer et visualiser l’ensemble des liaisons
linéaires entre variables continues.

Données

n individus observés sur p variables quantitatives. L’A.C.P. permet d’explorer les liaisons entre
variables et les ressemblances entre individus.

Résultats

 Visualisation des individus (Notion de distances entre individus)


 Visualisation des variables (en fonction de leurs corrélations)
INTERPRÉTATION DES RÉSULTATS

1- Mesurer la qualité des représentations obtenues :

 critère global
 critères individuels
2- « Donner des noms aux axes »
Expliquer la position des individus

3- Utilisation éventuelle de variables supplémentaires (illustratives)

Type d’analyse d’ACP:

ACP normée (centrage, réduction): Toutes les variables sont situées à une même distance de l’origine
et participent de manière égale à l’inertie totale du nuage.

ACP non normée (centrage, réduction): La distance de la variable à l’origine est égale à la variance
de la variable. Dans la pratique, il est souvent justifié de donner aux variables une importance égale en
utilisant l’ACP normée.

Comment définir les axes de l’ACP

On recherche le 1er axe de manière à ce que la projection du nuage de point sur cet axe ait une
variance maximum. Le second axe est orthogonal au premier tel que la projection du nuage sur cet axe
maximise la part de variance restante.

Quelques définitions utiles

Valeur propre/vecteur propre

Les vecteurs propres (eigenvectors) sont les vecteurs d’une matrice et les valeurs propres
(eigenvalues) sont des valeurs associées à ces vecteurs

Les axes factoriels

 Ils sont engendrés par les vecteurs propres normés


 Ils sont perpendiculaires 2 à 2
 Ils correspondent aux directions dans laquelle la dispersion du nuage de point est la plus
grande
 L’axe principal est associé à la plus grande valeur propre λ1
Les valeurs propres

 Elles correspondent à la variance des projections du nuage de point sur l’axe qui leur est
associé
 Elles rendent compte de l’importance de l’axe dans la représentation des données
Les composantes principales

 Ce sont de nouvelles variables, combinaisons linéaires des anciennes variables


 Elles permettent de calculer les coordonnées des individus dans le nouveau référentiel défini
par les axes factoriels, (projections des individus sur les axes)
Qualité globale des représentations

 «Variance» du nuage sur l’axe (k)


 Elle est donnée par λk, la valeur propre associée au vecteur propre engendrant l’axe k
 Plus λk est élevé, plus l’axe est important pour la représentation des données
Part de variance portée par l’axe k (=inertie)

Part de l’inertie portée par les k premiers axes. Elle représente la qualité globale de représentation des
données dans l’espace défini par les k premiers axes.

Tableau des valeurs-test

Ce tableau est directement lié au tableau des corrélations. En effet, on retrouve la même matrice carrée
croisant les variables continues actives deux à deux. L’objectif de cette matrice est de répondre à la
question suivante : Est-ce que la valeur du coefficient de corrélation observée entre 2 variables permet
de dire que leur liaison est significative ?

Plus la valeur-test sera élevée et plus la liaison linéaire sera forte. On peut également affirmer qu’une
valeur-test inférieure à 2 (en valeur absolue) indique qu’il n’y a pas de liaison linéaire entre les
variables

Tableau des valeurs propres

Cette sortie présente l’ensemble des valeurs propres de l’analyse. Le tableau est constitué des éléments
suivants.

 Variance du nuage (trace de la matrice) : Correspond à la valeur de l’inertie totale du


nuage de points étudié. Cette trace est égale à la somme des variances de chaque
variable active. En analyse normée (ici), la variance associée à chaque variable active
étant égale à 1, la trace de la matrice est égale au nombre de variables actives, c’est à
dire ? ….
 Axe: Correspond au numéro de l’axe factoriel. En ACP, le nombre d’axes factoriels
est égal au nombre de variables actives.
 Variance de l’axe: Correspond à l’inertie interceptée par l’axe factoriel
 % de la variance expliquée: Indique la part de l’inertie totale prise en compte par
chaque axe factoriel
 % de la variance cumulée: Edite la part de l’inertie totale prise en compte par tous les
axes factoriels en sommant les pourcentages de l’axe étudié et ses prédécesseurs
 Le critère de Kaiser: Il consiste à retenir que les axes dont l’inertie est supérieure à
l’inertie moyenne. Dans le cas d’une ACP normée, cela revient à garder les valeurs
propres supérieures à 1.
L’éditeur de graphiques factoriels

Après l’exécution d’une ACP, vous pouvez consulter et mettre en valeur les résultats grâce à l’éditeur
graphique de plans factoriels. L’éditeur vous permet de réaliser l’ensemble des graphiques de l’ACP :
représentation des variables avec cercle des corrélations, représentation des individus, représentation
simultanée individus-axes unitaires, et cela sur les différents plans de l’analyse.

Représentation des variables sur le 1er plan factoriel

3.1.2. Analyse factorielle des correspondances (A.F.C.)

Généralités

Méthode adaptée au traitement de données qualitatives

Généralisation de l’ACP

AFC simple : étude de la correspondance entre 2 variables croisées dans un tableau de contingence
L’étude d’un tableau individu × variables qualitatives se fait via l’AFC multiple (AFCM)

Objectif de l’AFC

 Mettre en évidence les relations qui existent (ou pas) entre les différentes modalités des 2
variables
 Utilisation d’une métrique pour quantifier la force des liaisons entre les modalités des 2
variables : la métrique du Khi2
 Remarque : la métrique du Khi2 favorise les modalités de faibles effectifs en leur attribuant un
poids plus grand dans l’analyse.

Conditions de mise en oeuvre

 Les 2 variables doivent être qualitatives


 Les observations doivent être indépendantes (un individu dans une seule case du tableau de
contingence)
 Chaque modalité apparaît au moins une fois dans le tableau
 Il est de plus souhaitable que les effectifs théoriques soient supérieurs à 5 dans toutes les
cases (même condition que pour le test du Khi2)
 Description
 Cette procédure effectue l'Analyse Factorielle des Correspondances d'un tableau de
contingence ou, de façon plus générale, de tout tableau de nombres non négatifs.
 Les éléments en colonne seront toujours appelées « fréquences » et les éléments en ligne des «
individus » ou des « lignes ».
Analyse effectuée

 L’AFC effectue l’analyse des profils lignes et des profils colonnes.


 Elle répond à des questions telles que : existe-il des lignes qui se ressemblent, c'est-à-dire dont
les profils pour les colonnes sont proches, ou au contraire existe-il des lignes qui s’opposent,
c'est-à-dire dont les profils pour les colonnes sont très différents.
 Elle répond aux mêmes questions pour ce qui concerne les colonnes par rapport aux lignes.
Analyse factorielle en correspondances multiples (AFCM) Voir méthode d’AFC.

3.1.3. Matrice Importance – Satisfaction


Cette procédure permet de construire une matrice « Importance-satisfaction » à partir d’une note
de satisfaction globale et de notes de satisfaction sur des items susceptibles d’influencer la note
globale. La matrice importance-satisfaction synthétise de manière graphique la satisfaction pour
chaque item et son importance par rapport à la satisfaction globale. Elle permet d’identifier et de
hiérarchiser les axes d’amélioration en fonction des points d’insatisfaction. Trois méthodes de calculs
sont possibles : « Corrélations », « Régression PLS » et « Matrice bi-factorielle (AFC) ».
Mise en œuvre sous SPAD
Importer votre base de données
Glissez-déposez la méthode « Matrice Importance-Satisfaction » sur la base importée pour obtenir le
diagramme suivant :

Paramétrage de la méthode
 L’onglet Variables
Cet onglet vous permet de sélectionner la méthode à utiliser pour les calculs et le statut des différentes
variables.
 L’onglet Valeurs par modalités
Pour effectuer les calculs, les méthodes Corrélations et PLS nécessitent des variables de type «
Continue ». Si c’est le cas pour toutes les variables sélectionnées, cet onglet est inactif (grisé). Si une
ou plusieurs variables sélectionnées sont nominales, vous devez affecter à chaque modalité de ces
variables une valeur positive pour qu’elles soient considérées comme des variables continues.
Si par exemple (méthode Corrélations), toutes les variables sont nominales avec un codage identique à
4 modalités (« Pdt Satisfait », « Plutôt pas Satisfait », « Plutôt Satisfait », « Très satisfait »). L’onglet «
Valeurs par modalités » est actif et nous permet d’affecter une valeur à chaque modalité. La valeur est
ordonnée (de 1 à 4) de façon logique avec la signification de la modalité.
Si vous choisissez la méthode « Matrice Bi-factorielle », la méthode nécessite de regrouper les valeurs
dans 2 modalités « Satisfait » et « Insatisfait ». Cet onglet vous permet alors d’affecter chaque valeur à
un de ces 2 groupes.
L’onglet Paramètres
Tous les paramètres de l’analyse ont une valeur par défaut correspondant aux choix les plus classiques.
Vous pouvez modifier ces choix selon vos besoins. Reportez-vous à l’aide en ligne pour le détail des
paramètres.
Résultats
Les résultats sont accessibles par le menu contextuel de la méthode (Clic droit – Résultats - Rapport).
Ils sont ici édités dans Excel, dans différentes feuilles. Dans les préférences de SPAD (Outils –
Préférences – Résultats – Sorties graphiques), vous avez la possibilité de choisir un autre tableur
comme « Open Office », ou une sortie de type HTML éditable avec votre navigateur internet.
Note : Les résultats sont identiques pour les méthodes « Corrélations » et « PLS ».
Méthode
Le tableau donne un récapitulatif des principaux paramètres utilisés pour les calculs.
Variables
Les tableaux montrent le codage effectué pour transformer les variables nominales en continues et le
nombre de répondants pour chaque modalité de chaque variable. Si vous aviez sélectionné des
variables continues, vous disposeriez pour chaque variable du minimum et du maximum.
Résultats (Si méthode corrélations)
Le tableau de résultats est composé de 3 colonnes.

 Item : Libellé des items de satisfaction.


 Importance : Corrélation de chaque item de satisfaction avec la variable de
satisfaction globale.
 Satisfaction : La note de satisfaction moyenne de chaque item

Résultats (Si méthode PLS)


La présentation des résultats est identique à celle de la méthode « Corrélations ». Les différences de
résultats observés sont dues à la gestion des données manquantes et au mode de calcul. En effet, pour
la méthode « PLS » on supprime tous les individus non renseignés pour la variable de satisfaction
globale. Ensuite les moyennes de satisfaction des items sont calculées sur les répondants à chaque
question.
Graphique
La méthode vous permet d’éditer les résultats sous la forme d’un graphique. Le graphique est
accessible par le menu contextuel de la méthode (Clic droit – Résultats - Graphique) On se reportera à
l’aide en ligne pour l’utilisation détaillée de ce graphique.
Le graphique est le résultat final de cette méthode et celui qui apporte les informations pertinentes.
L’axe « Satisfaction » correspond aux moyennes des différents items. L’axe « Importance »
correspond à l’impact des items sur la satisfaction globale mesurée ici en termes de corrélations. Le
graphique est découpé en 4 cadrans (déterminés par la moyenne de chaque axe) :
Lecture / interprétation
La zone de performance
Ce sont les points forts de l’entreprise. Ce sont des points qui ont un impact important sur la
satisfaction globale et dont les clients sont globalement satisfaits. Il faut maintenir la satisfaction et la
valoriser.
La zone de frustration
Ce sont les points faibles de l’entreprise. Ce sont des facteurs qui ont un impact important sur la
satisfaction globale mais dont les clients sont globalement moins satisfaits. Il faut les améliorer en
priorité.
La zone de banalisation
Ce sont des facteurs qui ont un impact peu important sur la satisfaction globale mais dont les clients
sont globalement satisfaits. Il faut maintenir la satisfaction et elle peut servir pour la communication.
Ces critères sont souvent considérés comme acquis par les clients.
La zone d’indifférence
Ce sont des points qui ont un impact peu important sur la satisfaction globale et dont les clients sont
moins satisfaits. Il faut tout de même surveiller ces points pour ne pas générer une insatisfaction trop
grande.

Résultats de la méthode Matrice bi-factorielle


La méthode matrice Bi-factorielle (AFC) est différente des deux autres. Elle part de l’hypothèse que la
satisfaction n’étant pas un concept linéaire, ce ne sont pas toujours les mêmes critères qui engendrent
satisfaction ou insatisfaction. A partir de là, elle calcule deux indicateurs d’importance, le premier
portant sur la satisfaction et le second sur l’insatisfaction. Ces indicateurs sont représentés sur un
graphique ce qui permet de visualiser les priorités d’action. La méthode nécessite le regroupement des
valeurs de satisfaction dans 2 groupes « Satisfait » et « Insatisfait ».
Méthode
Le tableau donne un récapitulatif des principaux paramètres utilisés pour les calculs.
Variables
Les tableaux indiquent les modalités d’origines correspondant à la « satisfaction » et à «
l’insatisfaction » et le nombre de répondants pour chaque modalité par question.
AFC
Ce tableau donne les croisements des items regroupés en 2 modalités avec la variable de satisfaction
globale, elle-même en deux modalités. L’AFC est réalisée sur ce tableau :

Satisfaction globale
Item Modalités
Satisfait Insatisfait

Résultats
Le tableau des résultats pour la méthode « Bi-factorielle » est le suivant

Contribution à Contribution à la
Item
l'insatisfaction satisfaction
Pour chaque item, les contributions correspondent aux coordonnées factorielles (en valeur absolue)
des modalités « Satisfait » et « Insatisfait » obtenues par l’AFC du tableau précédent. Plus la valeur est
élevée, plus la contribution est forte.
Graphique
La méthode vous permet d’éditer les résultats sous la forme d’un graphique. Le graphique est
accessible par le menu contextuel de la méthode (Clic droit – Résultats - Graphique) Des indicateurs
d’impact sur la satisfaction et l’insatisfaction globale sont calculés pour chaque item. Ceci permet
ensuite de hiérarchiser les actions à mettre en place selon la pyramide suivante:

Lecture / interprétation
Le graphique est découpé en 4 cadrans (déterminés par la moyenne de chaque axe) :
Les basiques
Leur absence entraîne de l’insatisfaction. Leur présence apporte peu de satisfaction supplémentaire.
Les performances
Ils génèrent potentiellement à la fois de la satisfaction et de l’insatisfaction
Les Bonus
Ils génèrent de la satisfaction et ont une faible capacité à mécontenter.
Les secondaires
Leur niveau de satisfaction a peu d’influence sur le niveau de satisfaction globale.
Par rapport à la méthode « classique », la matrice bi-factorielle nous permet d’identifier les leviers
plus précisément et surtout l’impact qu’ils vont avoir sur la satisfaction ou l’insatisfaction.

Que retenir

Il faut noter que ce chapitre permettra aux étudiants analystes de données, de connaitre l’utilité des
méthodes d’interdépendances et de faire la différences entre les différentes analyses factorielles. Par
ailleurs, ils doivent maitriser le mode d’application de chaque méthode et les différents indicateurs ou
paramètres à produire.

Exercice
A l’aide du logiciel SPAD, ouvrir la base de données « ANOMA» et établir le profil du personnel
soignant en fonction de leurs caractéristiques sociodémographiques et les facteurs de démotivation de
ces derniers. Ensuite, on vous demande de déterminer les facteurs de démotivation et de motivation du
personnel soignant et faire de propositions concrètes.

NB : Choisir la méthode d’analyse appropriée sur la base de votre connaissance du cours

Références indicatives

 M.CRUCIANU et al. « Méthodes factorielles pour l’analyse des données » Hermes-Lavoisier


(2004)
 J.P.NAKACHE, J.CONFAIS « Approche pragmatique de la classification », Technip, 2005
 Cibois Philippe (1983), L’analyse factorielle, Paris, Presses universitaires de France, coll.
“Que Sais-Je ?” 128 p.

3.2. Analyses explicatives multivariées : Les modèles de dépendance

L’analyse multivariée explicative offre une procédure de contrôle des relations causales qui permet
d’éviter les pires erreurs. Cela en fonction de la logique de l’analyse causale établie dans le cadre
théorique. Cette logique vient de Lazarsfeld qui au milieu du 20 e siècle tentait de vérifier une
observation d’Emile Durkheim disant que :

"Lorsque deux faits sociaux sont en relation et qu’on pense que l’un est la cause de l’autre, il faut se
demander si cette association ne serait pas due à quelque chose de cachée"

Quel que soit le nombre de variables de contrôle et le type d'échelle de mesure, on se retrouve dans les
trois situations suivantes :

• Disparition de la relation initiale et détection de relation fallacieuse ;

• Effets additifs de la variable indépendante et de la variable de contrôle sur la variable


dépendante

• Effet d'interaction de la variable indépendante et de la variable de contrôle sur la variable


dépendante.

Ces structures causales conduisent à l'existence de différents types de variables de contrôle dans
l'analyse. Il convient donc de construire des modèles d’analyse.

La modélisation est le processus par lequel l'analyste soumet un faisceau d'hypothèses à l'analyse
statistique. Elle exige une vision complexe et ordonnée des phénomènes sociaux. Elle consiste en une
mise en relation des variables conforme aux conceptions théoriques et à une soumission au processus
d'expérimentation.
La spécification du modèle est avant tout un problème théorique et sa résolution est une tâche qui
précède l'utilisation de techniques statistiques sophistiquées. Par ailleurs, ce sont les objectifs
théoriques qui guident dans le choix d'une technique d'analyse.

Les méthodes de dépendance sont des méthodes à partir desquelles l’on cherche à expliquer des
phénomènes.

Parmi ces dernières, on distingue :

 L’analyse de la variance ;
 L’analyse de régression linéaire ;
 L’analyse de régression logistique ;
 L’analyse discriminante ;
 L’analyse canonique ;
 La régression de survie (analyse des durées de vie) ;
 L’analyse multiniveaux ;
 Etc.

Dans ce cours nous ne traiterons que des deux premières citées, en commençant par L’analyse de
variance dans ce chapitre.

3.2.1. Analyse de la variance

Objet de la méthode

L’analyse de la variance met en relation une variable quantitative à expliquer et une ou plusieurs
variables explicatives catégorielles. L’objet est d’expliquer les variations de la variable dépendante
quantitative par l’appartenance aux différentes catégories constituées par les modalités de la (ou des)
variable(s) qualitative(s).

Exemple :

1. Expliquer les différences de revenu entre les sexes, les catégories professionnelles, et les
niveaux d’instruction.
2. Expliquer les différences de fécondité selon le milieu de résidence ou le groupe ethnique ou la
région ;
3. Expliquer le niveau de consommation d’un produit par le fait d’avoir été exposé à une
campagne de publicité ou non et par le milieu de résidence.

Principe de la méthode
La méthode consiste à savoir si la variation de la variable dépendante susceptible d’être observée entre
les différentes modalités des variables catégorielles correspond à la réalité ou au hasard.
Cela revient à faire un test de signification sur la différence entre les moyennes des groupes
correspondant aux différentes modalités de la variable catégorielle.

Lorsque le nombre de modalités de la variable catégorielle est égal à 2, le test statistique n’est autre
chose que celui de Student sur la différence de 2 moyennes appartenant à des échantillons
indépendants.

L’analyse de la variance est appropriée lorsque le nombre de modalités de la variable indépendante est
supérieur à 2.

La comparaison des moyennes des groupes se fait à partir de celle entre deux types de variances. La
variance entre les différents groupes et la variance à l’intérieur des groupes. D’où l’appellation de la
méthode.

La décomposition de la variance totale

Supposons que nous ayons une variable catégorielle de 3 modalités (i=1,2,3). Pour chacune de ces
modalités, on a un nombre donné d’observations j. Chaque observation (ou valeur de la variable
dépendante) de l’ensemble de l’échantillon peut être notée Xij.

Variance totale = Variance intra-échantillon + Variance inter-échantillon = V1 + V2

Rappelons que l’analyse de variance consiste à faire un test du type

Ho : µ1 =µ2 = µ3

Pour faire ce test, on compare les X́i .

Lorsqu’on fait cette comparaison, on se pose la question de savoir si les différences susceptibles d’être
observées sont dues aux groupes ou si ce sont de simples fluctuations aléatoires.

Les fluctuations aléatoires sont mesurées par la variance intra-échantillon et les différences dues aux
groupes sont mesurées par la variance inter-échantillon.

L’idée de base de la méthode est que si les différences observées sont dues aux groupes, alors la
composante variance inter-échantillon doit être suffisamment grande par rapport à la composante

V2
variance intra-échantillon. Pour s’en assurer, on calcule une statistique appelée F : F =
V1

Si F s’éloigne de 1, alors les variations observées peuvent être attribuées à l’effet des groupes. Cela
suppose en effet que les variations inter-échantillon sont suffisamment grandes pour être dues
simplement au hasard, ou pour être de simples fluctuations aléatoires.

Le rapport F est calculé en vue d’appliquer un test de Ficher (d’où le F) qui permet d’établir que F est
suffisamment supérieur à 1 ; ou que V2 est largement supérieur à V1.
La variation intra-échantillon est dite résiduelle et la variation inter-échantillon rend compte de l’effet
de la variable catégorielle.

3.2.2. L’analyse de régression linéaire simple


Objet de la méthode

L’analyse de régression est une méthode statistique qui sert à expliquer ou prédire une variable
dépendante par une ou plusieurs variables indépendantes. Elle fait partie des modèles de dépendance
(i.e des méthodes explicatives) ; lesquels se distinguent en modèles linéaires et modèles non linéaires.
L’analyse de régression fait partie des modèles linéaires, tout comme l’analyse de la variance
d’ailleurs.

Comme méthode explicative, l’analyse de régression permet d’établir une relation de cause à effet
entre une ou plusieurs variables et la variable dépendante. En prenant le cas d’une seule variable
indépendante X, on a une relation du type :

X Y où Y est la variable dépendante.

Cette relation de cause (X) à effet (Y) se distingue de la relation de type X Y qui est une
relation d’association. Une relation d’association indique que les deux variables sont liées sans qu’on
soit en mesure de déterminer laquelle des deux explique l’autre.

Deux conditions sont nécessaires pour établir une relation de cause à effet :

 L’antériorité de X par rapport à Y. L’évènement lié à X précède celui lié à Y, dans le temps  ;
et
 La relation observée ne doit être due à aucune autre variable.

La deuxième condition exige de contrôler la relation entre X et Y par d’autres variables indépendantes.
On procède pour cela à la régression multiple. Mais c’est toujours mieux de commencer par la
régression simple, l’analyse de l’effet de la variable indépendante X sur la variable dépendante Y

La relation fonctionnelle linéaire entre X et Y peut s’exprimer par :

Y = f(X) = ax+b (1)

Dans une telle relation, lorsque l’on fait la représentation graphique de la relation comme l’indique la
figure 1, tous les points se retrouvent sur la droite.
Y D

En analyse statistique, il est très rare d’avoir tous les points sur la droite. On obtient généralement un
nuage de points comme l’indique la figure 2 ci-après :

Y ••••
••••
•••••••
••••••
•••••
X
Comme tous les points ne tombent pas exactement sur la droite, l’équation (1) doit être modifiée pour
inclure un facteur aléatoire de la façon suivante :

Y = aX + b + e (2) où e est le terme d’erreur.

Ainsi, l’équation est généralement formulée pour chaque observation i de la façon suivante :

Yi = β0 + β1Xi +ε i (3)

Le principe de la méthode consiste de passer d’une relation statistique comme en (2) ou en (3) à une
relation fonctionnelle comme en (1). Autrement dit, transformer le nuage de points en une droite D
comme l’indique la figure 3 ci-dessous.

Y ••••
••••
•••••••
••••••
•••••
X
^=^
La droite D s’obtient en prenant : Yi β0+ ^
β 1Xi

Cela permet d’avoir les valeurs de Y estimées à partir de la droite de régression. Puisque nous
connaissons déjà la vraie valeur de Y pour chaque observation i, on est en mesure de calculer l’erreur
^ = εi
^ . Elle est obtenue en faisant Yi - Yi
commise en calculant Yi

La question à se poser est de savoir quelle estimation de β 0 et β1 qui minimise l’erreur ε i.

La méthode des moindres carrés ordinaires

La méthode des moindres permet d’avoir la droite qui ajuste le mieux le nuage de points. Elle consiste
à minimiser la somme des carrés des erreurs. On utilise la somme des carrés et non la somme des
erreurs car cette dernière peut aboutir à un résultat nul.

Min ∑ ¿¿ ¿

Il suffit pour cela de prendre la dérivée de ∑ ¿¿ ¿ et de l’annuler.


Ceci permet d’obtenir les estimations de β0 et β1

∑ ( Xi− X́ ) (Yi−Ý ) Cov( X Y ) σ (Y )


^
β1 = 2 = = r*
∑ (Xi− X́) V ( X) σ ( X)

^
β 0 = Ý - ^
β 1 X́

Le test de signification sur les paramètres

Une fois que les coefficients de régression sont estimés, on leur applique un test pour vérifier leur
signification. Cette opération se justifie de la même manière que les tests effectués sur les moyennes et
les proportions à l’issue d’une enquête par sondage. En effet, l’enquête portant sur une petite partie
seulement de la population que l’on tire au hasard, on se pose la question de savoir si les résultats
obtenus correspondent à la réalité ou sont dus au hasard de la constitution de l’échantillon.

Le test se fait sur chacun des deux paramètres calculés, à savoir ^


β 1 et ^
β0

L’hypothèse H0 suppose que chacun des coefficients est nul et l’hypothèse alternative suppose qu’ils
sont différents de 0.
Par exemple si ^
β 1 est nul, cela suppose qu’il n’y a pas de relation linéaire entre X et Y. Le test
consiste donc à savoir si l’hypothèse alternative est vraie, c'est-à-dire si le coefficient obtenu est
significatif ; ce qui atteste de l’existence d’un effet de X sur Y dans une relation linéaire.

Le test est un test de Student avec n-k degrés de liberté ; où n est le nombre d’observations et k le
nombre de paramètres à estimer, ici 2.

A cette fin, on calcule l’écart type de chaque paramètre s ^ s β 0 auxquels on rapporte ^


β 1 et ^ β 1 et ^
β 0. Cela
donne des valeurs t1 et t0 qu’on compare aux valeurs correspondantes de la table de Student avec n-k
degrés de liberté.

s2
^
ε2
=∑ i *
∑ X 2i
β0 2
n−k n ∑ ( X i− X́ )

2 ∑ ε2i * 1
s^ = 2
β1
n−k ∑ ( X i− X́ )

Les écarts types sont obtenus en prenant la racine carrée des valeurs calculées à partir des formules ci-
dessus. t1 et t0 sont obtenus en prenant :

^
β1
t1 =
s^
β1

^
β0
t0 =
s^
β0

Si les t calculés sont supérieurs aux valeurs de la table de Student, alors l’hypothèse H0 est rejetée et
les valeurs calculées des coefficients sont considérées comme significatives.

Le test peut se faire aussi de deux autres manières :

 En calculant l’intervalle de confiance ; ou


 En calculant la probabilité critique.

Le test basé sur l’intervalle de confiance consiste à savoir si celui –ci ne contient pas la valeur 0. Si
Oui alors l’hypothèse nulle est acceptée ; ce qui signifie que la variable indépendante n’a pas d’effet
sur la variable dépendante dans le cas de ^
β 1.

Le test basé sur la probabilité critique consiste à savoir si celle-ci est supérieure ou non au seuil de
signification que l’on se fixe (10%, 5%, ou 1%). Habituellement, on prend 5%. Ainsi si la probabilité
critique est supérieure à 5%, on accepte l’hypothèse nulle, et la variable indépendante n’a pas d’effet
sur la variable dépendante dans le cas de ^
β 1 . Si elle est inférieure ou égale à 5%, on rejette
l’hypothèse nulle et l’effet de la variable indépendante sur la variable dépendante est jugé significatif.

L’adéquation du modèle

Nous avons vu que l’analyse de régression consiste transformer le nuage de points en une droite ou si
l’on veut à ajuster le nuage de points par une droite. Dans cet exercice, plus les points se rapprochent
de la droite, moins l’erreur commise est importante et plus la variation de Y (la variable dépendante)
est expliquée par le modèle.

La variation de Y est donnée par : ∑ (Yi−Ý )2

^ i + Y^ i - Ý
Yi - Ý = Yi - Y

∑ (Yi−Ý )2 = ∑ (Y^ i−Ý )2 + ∑ (Y i−Y^ )2


Variation totale = variation expliquée + variation résiduelle

Somme des carrés totale = somme des carrés expliquée + somme des carrés résiduelle

L’adéquation du modèle est donnée par le rapport entre la somme des carrés expliquée sur la somme
des carrés totale. On le note R2.

R=2 ∑ (Y^ i −Ý )2 =1-


∑ (Y i −Y^ )2 = 1 - ∑ ε i2
∑ (Yi−Ý )2 ∑ (Yi−Ý )2 ∑ (Yi−Ý )2
R2 varie entre 0 et 1. Plus il se rapproche de 1, plus le modèle explique la variation de Y.

3.2.3. La régression linéaire multiple

La nécessité d’introduire d’autres variables dans le modèle

Lorsqu’on analyse la relation entre deux variables et que l’on constate l’existence d’un effet
significatif de X sur Y, on peut se poser la question de savoir si la relation est réelle, ou si elle ne
cache pas une autre réalité.

Pour pouvoir répondre à cette question, on introduit d’autres variables dans le modèle. Pour prendre le
cas le plus simple, supposons que l’on introduise une troisième variable Z. Z est une deuxième
variable indépendante. L’introduction d’une troisième conduit à différents cas de figure dont voici
quelques-uns :
Le cas a signifie qu’il n’y a pas de relation de cause à effet entre X et Y et que la relation observée lors
de la régression simple (analyse bivariée) est due au fait qu’elles ont une cause commune qui est Z. En
raison de cette cause commune, il existe une association entre X et Y et non une relation de cause à
effet. La relation précédente est donc une relation fallacieuse. L’introduction de Z fait donc
disparaître l’effet significatif de X.

Le cas b signifie que Z est une variable antérieure à X. L’introduction de Z peut faire disparaître l’effet
de X.

Dans le cas c, Z est une variable intermédiaire. L’effet de X sur Y passe par Z. L’effet de X est donc
indirect. L’effet de X disparaît en absence de Z

Le cas d signifie que X et Z sont des variables indépendantes concomitantes. Chacune d’elles a son
effet propre sur Y. Les deux effets sont disjoints additifs. L’effet de X se maintient.

Le cas e signifie que X a à la fois un effet direct sur Y et un effet indirect à travers Z. Dans l’effet
indirect, Z est une variable intermédiaire. L’effet total de X (t) est égal à l’effet partiel de X (α) plus le
produit de l’effet de X sur Z (β) et de celui de Z sur Y (λ). t = α + βλ. L’introduction de Z réduit donc
l’effet de X.

Le cas f signifie que l’effet de X sur Y dépend de Z. Il varie selon les modalités de Z. L’introduction
de Z peut donc faire disparaître ou renforcer l’effet de X.
3.2.4. Le modèle de régression multiple

Le modèle se présente ainsi :

Yi = β 0 + β 1 X 1+ β 2 X 2+ε i

L’estimation de β 0 , β 1 et β 2 est obtenue ici aussi par la méthode des moindres carrés ordinaires en
minimisant la somme des carrés des erreurs.

^β 1 = ¿ ¿

^β 2 = ¿ ¿

^β = Ý -- ^β X́ − ^β X́ Le test de signification de l’estimation des paramètres


0 1 1 2 2

Le test de signification se fait de la même manière en calculant le t de Student associé à chaque

paramètre. Cela passe par l’estimation préalable de s ^ s β 1 et s ^


β0 , ^ β2

s2
^β =
∑ ε2i ∑ ( X 2 i− X́ 2 )2
1
n−k ¿¿

ε2 ∑ ( X 1 i− X́ 1 )2
s2^β = ∑ i
2
n−k ¿¿

β^ 1
t1 = 2
s β^ 1

β^ 2
t2 =
s 2β^
2

La règle de décision est la même que dans le cas de la régression simple.

On peut recourir aussi à l’intervalle de confiance ou à la probabilité critique comme précédemment.

L’adéquation du modèle

L’adéquation du modèle s’évalue par le coefficient de détermination multiple R 2 comme


précédemment.

2 ∑ ( Y^ i −Ý )2 ∑ ε 2i ^β1 ∑ ( Y i −Ý )( X 1 i− X́ 1 ) + ^β 2 ∑ ( Y i−Ý ) ( X 2 i− X́ 2 )


R = = 1- =
∑ (Y i −Ý )2 ∑ (Y i −Ý )2 ∑ (Y i−Ý )2
L’inclusion de nouvelles variables a pour effet d’augmenter la somme des carrés expliquée par le
modèle pour la même somme des carrés totale, et conséquemment le niveau du coefficient de
variation. Pour résoudre ce problème on ajuste le coefficient de détermination en calculant Ŕ2.

n−1
Ŕ2 = 1 – (1-R2) n
k

Test sur l’ensemble des coefficients

Le test de Student appliquée sur chaque paramètre permet de savoir si la variable associée à un effet
significatif ou pas. On peut aussi faire le test sur l’ensemble des paramètres ou sur une partie de cet
ensemble. Il suffit pour cela de rapporter la variance expliquée par le modèle à la variance résiduelle
comme cela se fait dans le cas de l’analyse de la variance. On obtient un rapport F avec k-1 et n-k
degrés de libertés qu’on compare au F de la table.

F k−a ,n−k =
∑ (Y^ i −Ý )2 /( k−1)
∑ ε 2i /( n−k )
Si le F calculé excède le F de la table, alors on rejette l’hypothèse nulle selon laquelle tous les
paramètres β sont nuls. Autrement dit on accepte l’hypothèse alternative selon laquelle ils ne sont pas
tous nuls.

Ce test permet aussi de valider le R2 calculé. Cela signifie qu’il est significativement différent de 0.

Comment déterminer l’importance de chaque variable indépendante

On détermine l’importance de chaque variable par le coefficient de corrélation partielle. Par exemple,

pour X1, le coefficient de corrélation partielle est donné par r YX 1 . X 2. Il mesure la corrélation partielle
entre Y et X1, après avoir annulé l’effet de X2.

On peut de la même manière calculer le coefficient de corrélation partielle de X 2.

La variable dont le coefficient de corrélation partielle est le plus élevé est la variable la plus
importante dans l’explication de la variable dépendante Y.

Que retenir

A la fin du chapitre 2, les étudiants analystes de données doivent savoir l’importance des méthodes de
dépendance et de faire la différence entre les différentes analyses explicatives. Par ailleurs, ils doivent
maitriser le mode d’application de chaque méthode et les différents indicateurs ou paramètres à
produire.
Exercices

Exercice 1

A partir de la base de donnees “base.dta”,

Un chercheur veut expliquer les différences de fécondité selon la connaissance des méthodes
contraceptives (v301) chez la femme. En utilisant la méthode statistique appropriée, répondez à sa
préoccupation.

Exercice 2

A partir de la base de donnees “base.dta”,

On cherche à connaître les facteurs associés au risque d’avoir des besoins non satisfaits chez la
femme. On se demande si le milieu de résidence (v025), la religion (v130), le niveau d’instruction
(v106), le groupe d’âges (v013) et le nombre total d’enfants nés vivants (v201) chez la femme sont des
facteurs liés au risque d’avoir des besoins non satisfaits (bns) en matière de planification familiale en
Côte d’ivoire.

1. Identifier les variables dépendante et indépendantes liées à cette recherche


2. Determiner la distribution de l’échantillon selon la variable besoins non satisfaits (bns), la
variable religion (v130) et interpreter les résultats
3. Determiner la correlation entre les besoins non satisfaits et la religion et interpreter les
résultats
4. Identifier les determinants des besoins non satisfaits en planification familiale et justifier votre
réponse
Utiliser la commande suivante: regress bns i.v025 i.v130 i.v106 i.v013 i.v201

Les références bibliographiques

 Denis LAROCQUE : Méthodes quantitatives de gestion (Disponible à BU)


 Maurice LETHIELLIEUX, Statistique descriptive (7ème édition), Dunod, 2013 (disponible
sur Scholarvox)
 Louis ESCH, Mathématiques pour économistes et gestionnaires (4ème édition), De Boeck,
2010 (disponible à la BU)
 M.CRUCIANU et al. « Méthodes factorielles pour l’analyse des données » Hermes-Lavoisier
(2004)
 J.MOREAU et al. “L’analyse des correspondances et les techniques connexes”. Springer
(2000)
 G.GOVAERT (éditeur) « Analyse des données », Hermes, 2003
 J.P.NAKACHE, J.CONFAIS « Approche pragmatique de la classification », Technip, 2005
 R. GUTIERREZ "Applied stochastic models and data analysis". World Scientific (1991). M.J.
VALDERRAMA
 J. MOSCAROLA "Enquêtes et analyse de données ". Vuibert (1990).
 L. LEBART et al. "Statistique exploratoire multidimensionnelle". Dunod (1995).
 C. DERVIN "Comment interpréter les résultats d'une analyse factorielle de
correspondances ?". ITCF (1988)
 Cibois Philippe (2003), Les écarts à l’indépendance. Techniques simples pour analyser les
données d’enquête, Sciences Humaines, coll. “Méthodes quantitatives pour les sciences
sociales”, 102 p., fichier au format PDF,
 Cibois Philippe (2007), Les méthodes d’analyse d’enquête, Paris, Presses universitaires de
France, 128 p.
 Cibois Philippe (1983), L’analyse factorielle, Paris, Presses universitaires de France,

Vous aimerez peut-être aussi