Académique Documents
Professionnel Documents
Culture Documents
TECHNIQUES QUANTITATIVES EN
MARKETING
Semestre 2
M. ANI Abel
anisatroko01@gmail.com
2019-2020
PLAN DU COURS
Introduction
Chapitre 0 : Introduction et rappels
Chapitre 1 : Etude des instruments de mesure
Chapitre 2 : Statistiques descriptives
Chapitre 3 : Modélisation statistique
1.0. Introduction
Les études quantitatives permettent de rassembler des données chiffrées à partir d’un échantillon
représentatif. Dans ces études, on s’intéresse aux faits, aux opinions émises, aux comportements, etc.
Après avoir étudié aux cours précédents les deux premières phases de la recherche à savoir : le cadre
théorique et le cadre méthodologique, ce cours s’appesanti sur l’analyse de données.
L’analyse des données est une étape importante du processus de recherche. C’est elle qui permet de
répondre aux questions soulevées par la recherche, en offrant les informations nécessaires à la
vérification des hypothèses formulées. Par définition, c’est le processus de transformation des
informations recueillies, visant à les condenser de façon à en faciliter l’interprétation.
1.1. Rappel
Une fois la collecte effectuée et les données saisies, l’analyse des données comporte généralement 6
étapes. Ce sont :
A. Le contrôle de la phase d’abstraction
Cette étape consiste à vérifier si les données collectées sont conformes à ce que l’on attendait. Il s’agit
de savoir si :
B. Le redressement de l’échantillon
Si l’on constate que la distribution de certaines variables est différente de la distribution dans la
population ou la distribution théorique, il convient de redresser l’échantillon avant de poursuivre
l’analyse. Omettre de le faire entraîne des biais importants dans les résultats de l’analyse. Le
redressement consiste à pondérer les unités statistiques de façon à satisfaire aux distributions connues
des variables dans la population.
C. Préparation d’un sous-fichier d’analyse
Cette étape comporte les phases suivantes :
Exemples :
Une étude visant à mesurer uniquement la performance des entreprises est descriptive ;
Si par contre l’étude porte sur les déterminants de la performance des entreprises, alors elle est
explicative ;
Une étude visant à rendre compte de l’effet de l’éducation sur le revenu explicative.
L’échelle ordinale
Les variables à échelle ordinale ont les caractéristiques suivantes :
Elles contiennent toutes les informations offertes par les variables à échelle nominale ;
Les valeurs de la variable peuvent être classées par ordre croissant ou décroissant ;
La médiane sert aussi de mesure de tendance centrale ;
On peut calculer les coefficients de corrélation d’ordre entre les variables ordinales.
L’échelle d’intervalle
Les variables à échelle d’intervalle :
l’analyse univariée
l’analyse bivariée
l’analyse multivariée
Plusieurs enquêtes en marketing souffrent de rigueur méthodologique, ce qui rend leurs résultats peu
fiables. En effet, on note des concepts non définis, des questions mal posées sans parler des biais
inhérents au questionnaire (modalités de réponses, sensibilité des questions, questions inutiles) ou
même de la non représentativité de l’échantillon. Si les concepts sont abordés dans la littérature, dans
le même contexte, le chercheur peut recourir aux instruments utilisés. En revanche, si les concepts ne
sont pas abordés dans la littérature dans le même contexte, le chercheur aura tendance à élaborer son
propre instrument de mesure. Le questionnaire est l'instrument de mesure utilisé pour la collecte des
informations. N'étant pas qu'une simple liste de questions, son élaboration requiert beaucoup de
rigueur.
Afin de faire de meilleures suggestions et permettre de prendre des décisions sur la base de résultats
d’étude de meilleure qualité réalisées, le cours présente deux techniques qui ont fait leurs preuves : le
test de la validité et de la fiabilité de l’échelle de mesure. Dans un premier temps nous expliquons la
notion d’échelle de mesure puis nous exposons les notions de validité et de fiabilité des mesures ainsi
que les techniques pour les tester et améliorer ainsi la qualité des études quantitatives.
La purification consiste à supprimer les items peu pertinents et d'analyser les caractéristiques multi
dimensionnelles des concepts. Afin de déterminer la structure factorielle de l’échelle, il faut procéder
par des analyses factorielles.
L'analyse factorielle est une démarche statistique de structuration des données, qui consiste à résumer
l'information, en regroupant des variables quantitatives en variables composites ou combinaisons
linéaires appelées composantes principales ou facteurs ou axes, Evrard et al (1993).Son postulat
fondamental est : si des variables sont corrélées les unes avec les autres dans nos données, c'est parce
qu'elles subissent l'influence de certains facteurs qui leur sont communs. Ainsi l'objectif de l'analyse
est de mettre en évidence ces facteurs communs (facteurs latents), non directement observables, mais
qui pourront être estimés.
Cette question peut être reformulée de la manière suivante : « les données forment-elles un ensemble
suffisamment cohérent pour qu'il soit raisonnable d'y chercher des dimensions communes qui aient un
sens et ne soient pas des artefacts statistiques ? », Evrard et al (2000). Il existe deux tests qui
permettent de répondre à cette question : le MSA (Measure of Sampling Adequacy) également appelé
test de KMO de Kaiser, Meyer et Olkin et le test de sphéricité de Bartlett.
Le KMO : Il mesure l'importance des coefficients de corrélation observés par rapport à
l'importance des coefficients de corrélations partielles. Autrement dit, il teste si les
coefficients de corrélation entre les énoncés sont suffisamment élevés pour y chercher des
dimensions communes. Un KMO élevé (proche de 1) indique que l'analyse factorielle est une
méthode appropriée et pertinente pour analyser les données. En revanche, un KMO inférieur
à 0.5, signifie que les items ne partagent pas assez de variance pour que l'analyse factorielle
soit adéquate.
Une valeur de KMO de moins de
<0.5 est inacceptable
=0.5 est misérable
=0.6 est médiocre
=0.7 est moyenne
=0.8 est méritoire
=0.9 est merveilleuse (ref: SPSS professional statistics)
Le test de sphéricité de Bartlett: Il analyse la forme du nuage de point et teste l'hypothèse
d'une matrice de corrélation égale à une matrice identité (échantillon issu d'une population
normale pour les variables considérées). Il confirme l'existence de relations entre les variables
et la pertinence de l'analyse factorielle, Evrard et al (1993). Si la signification (Sig.) tend vers
0.000, c'est très significatif ; inférieur à 0.05, significatif ; entre 0.05 et 0.10, acceptable et au-
dessus de 0.10, on rejette.
Ces instruments permettent de répondre à la question posée : l'analyse factorielle est-elle possible
avec nos données ? La purification, consiste à se demander : Quels sont les items pertinents à
retenir ?
Pour répondre à cette question, il faut d'une part étudier les communalités, qui mesurent la part de la
variance de la variable expliquée par les facteurs retenus. Ces derniers sont les facteurs dont leurs
valeurs propres sont supérieures à 1, une valeur propre représente la variance totale expliquée par
chaque facteur, du fait qu'on travaille avec des données centrées réduites cette variance vaut 1.
D'autre part, il faut étudier les coefficients de corrélation entre les variables (items) et les facteurs.
Pour cela il faut regarder du côté de la matrice factorielle ou matrice des composantes principales
représentant les coefficients de corrélation (loadings) entre les variables centrées réduites et les
facteurs. La règle est de ne retenir que les variables dont la valeur du coefficient de corrélation en
valeur absolue avec le facteur est supérieure à 0,5, Evrard et al (1993). Ces variables peuvent être
corrélées à plusieurs facteurs, pour une bonne interprétation de ces facteurs il est préférable de
procéder à une rotation.
L'objectif de la rotation est d'accentuer les corrélations de chaque item avec les facteurs qu'ils ont
servis à constituer, la rotation n'affecte pas les communalisés, ni le pourcentage de la variance totale
expliquée. La rotation peut être orthogonale, si les axes sont maintenus orthogonaux et que les
facteurs qui en résulte sont non corrélés, la méthode varimax qu'on a appliquée pour cette recherche
est la plus utilisée.
Pour la détermination des facteurs, c'est la règle de Kaiser qui est commode d’utiliser. Cette
règle veut qu'on ne retienne que les facteurs (composantes) aux valeurs propres supérieures à
1.
La communalité permet d'assurer que les facteurs retenus expliquent une part suffisante de
la variance de chaque item, elle représente la somme des carrés des poids factoriels. Si la
communalité d'un item est supérieure à 0,5, il est considéré comme suffisamment contributif
à expliquer l'axe.
A retenir
A la fin de ce chapitre, l’apprenant doit maitriser toutes les étapes du traitement des données et surtout,
la purification d’une échelle de mesure. De ce fait, il doit savoir ce que c’est la validité et la fiabilité
d’une échelle de mesure.
Dans ce deuxième cas, elle fait partie de l’étape de contrôle de la phase d’abstraction. Elle aidera
alors à :
L’analyse bivariée consiste à croiser deux variables disponibles dans le tableau de données. Elle
permet de mettre en relation ces deux variables en établissant par une mesure adéquate, le niveau de
cette relation. C’est une étape vers l’analyse multivariée dans la mesure où la matrice de corrélation
qui sert de base à cette dernière est calculée par paire de variables.
L’analyse de la relation entre deux variables X et Y dépend de la logique de l’ordre causal existant
entre ces variables et leur nature.
2.2.1. Comment analyser la relation entre deux variables ?
Les caractéristiques de la relation entre deux variables sont : le degré, la direction, la forme et la
signification.
a. Le degré
Une mesure d’association doit renseigner sur l’existence ou non d’une relation, puis sur la force de
cette relation. Dans le cas de mesure d’association standardisée ou normée, le coefficient varie entre -1
et +1. Un coefficient nul ou proche de zéro dénote une association faible ou nulle entre les deux
variables, tandis qu’un coefficient proche de +1 ou -1 est révélateur d’une forte association.
Mais toutes les mesures d’association ne sont pas ce type. Certaines comme le Chi2 sont dépendantes
du nombre d’unités, ou de valeurs ou de catégories des variables et rendent la comparaison plus
difficile.
b. Direction de l’association
Lorsque les variables sont au moins ordinales, il devient utile de s’interroger sur la direction de la
relation.
Lorsque les valeurs les plus élevées d’une variable sont associées aux valeurs les plus élevées de
l’autre variable et idem pour les valeurs faibles, l’association observée est positive. Les deux variables
varient dans le même sens. Lorsqu’elle varie en sens inverse, la relation est négative. Le signe du
coefficient indique la direction lorsque les mesures sont normées.
c. La forme de l’association
Le troisième élément à prendre en compte est la forme de l’association. La forme la plus simple est la
forme linéaire. C’est pourquoi beaucoup de modèles en font une hypothèse.
La relation linéaire suppose un accroissement constant d’une des variables (la variable dépendante)
lorsque l’autre variable (la variable indépendante) croît d’une unité.
La relation linéaire ne s’applique donc qu’aux variables métriques.
La relation entre deux variables métriques peut aussi avoir une forme plus complexe : curvilinéaire,
sinusoïdale, etc.
L’existence de telles relations appelle le lecteur à plus de prudence dans l’application du modèle
linéaire. Il y a intérêt à bien l’examiner avant de se lancer dans l’analyse car cela peut aider à effectuer
les transformations nécessaires avant l’application du modèle linéaire.
Par exemple, le coefficient de corrélation de Pearson est une mesure de relation linéaire très efficace,
mais il est inopérant si la relation entre les variables est curvilinéaire.
d. La signification statistique
Dans la mesure où l’on travaille souvent à partir d’un échantillon et non de la population elle-même,
il faut s’assurer que l’association observée est réelle. Cela renvoie aux tests statistiques et donc à
l’inférence statistique.
Les tests reposent sur une hypothèse nulle consistant à dire qu’il n’existe pas de relation entre les
variables et qu’elles sont indépendantes, pour autant que l’échantillon ait été tiré de façon aléatoire.
On suppose alors que la probabilité que la différence entre la statistique de l’échantillon et le
paramètre attendu de la population sous l’hypothèse nulle est due au hasard.
Si cette probabilité est très faible, on rejette l’hypothèse nulle sans toutefois y voir une confirmation de
l’hypothèse alternative qui n’est pas, cependant, rejetée. Dans le cas contraire, on décidera qu’on n’a
pas suffisamment de garantie pour soutenir l’hypothèse alternative et on adoptera l’hypothèse nulle.
Les niveaux de signification s’expriment en termes de probabilité. On considère généralement que :
P > 0 .1 équivaut à une différence non significative (adoption de l’hypothèse nulle)
P ≤ 0.05 équivaut à une différence significative (rejet de l’hypothèse nulle)
P ≥ 0.01 équivaut à une différence très significative (rejet de l’hypothèse nulle).
Les tests usuels sont ceux du Chi2, t (Student) et F (Ficher).
La mesure d’association symétrique entre deux variables quantitatives est donnée par le coefficient de
corrélation (r) de Pearson. r mesure le degré d’association linéaire entre les deux variables. Pour ce qui
est de la mesure d’association asymétrique, on se sert des coefficients de régression (linéaire) β.
Ces méthodes sont purement descriptives, c’est-à-dire qu’elles ne supposent, à priori, aucun modèle de
type probabiliste. (Ainsi, lorsqu’on considère un ensemble de variables quantitatives sur lesquelles on
souhaite réaliser une A.C.P., il n’est pas nécessaire de supposer que ces variables sont distribuées
selon des lois normales.)
Dans chaque méthode que nous allons développer, les variables considérées seront de même nature :
Elles consistent à rechercher des facteurs (cette notion sera précisée ultérieurement) en
nombre restreint et résumant le mieux possible les données considérées.
Elles aboutissent à des représentations graphiques des données (des individus comme des
variables) par rapport à ces facteurs, représentes comme des axes.
Ces représentations graphiques sont du type nuage de points (ou diagramme de dispersion).
Nous allons développer 3 méthodes, chacune correspondant à une section :
Ils vont permettre de réaliser les graphiques désirés dans cet espace de petite dimension (le nombre de
facteurs retenus), en déformant le moins possible la configuration globale des individus telle qu’elle
est définie par l’ensemble des variables initiales (ainsi remplacées par les facteurs).
C’est l’interprétation de ces graphiques qui permettra de comprendre la structure des données
analysées
L’ACP est une méthode particulièrement puissante pour résumer et visualiser l’ensemble des liaisons
linéaires entre variables continues.
Données
n individus observés sur p variables quantitatives. L’A.C.P. permet d’explorer les liaisons entre
variables et les ressemblances entre individus.
Résultats
critère global
critères individuels
2- « Donner des noms aux axes »
Expliquer la position des individus
ACP normée (centrage, réduction): Toutes les variables sont situées à une même distance de l’origine
et participent de manière égale à l’inertie totale du nuage.
ACP non normée (centrage, réduction): La distance de la variable à l’origine est égale à la variance
de la variable. Dans la pratique, il est souvent justifié de donner aux variables une importance égale en
utilisant l’ACP normée.
On recherche le 1er axe de manière à ce que la projection du nuage de point sur cet axe ait une
variance maximum. Le second axe est orthogonal au premier tel que la projection du nuage sur cet axe
maximise la part de variance restante.
Les vecteurs propres (eigenvectors) sont les vecteurs d’une matrice et les valeurs propres
(eigenvalues) sont des valeurs associées à ces vecteurs
Elles correspondent à la variance des projections du nuage de point sur l’axe qui leur est
associé
Elles rendent compte de l’importance de l’axe dans la représentation des données
Les composantes principales
Part de l’inertie portée par les k premiers axes. Elle représente la qualité globale de représentation des
données dans l’espace défini par les k premiers axes.
Ce tableau est directement lié au tableau des corrélations. En effet, on retrouve la même matrice carrée
croisant les variables continues actives deux à deux. L’objectif de cette matrice est de répondre à la
question suivante : Est-ce que la valeur du coefficient de corrélation observée entre 2 variables permet
de dire que leur liaison est significative ?
Plus la valeur-test sera élevée et plus la liaison linéaire sera forte. On peut également affirmer qu’une
valeur-test inférieure à 2 (en valeur absolue) indique qu’il n’y a pas de liaison linéaire entre les
variables
Cette sortie présente l’ensemble des valeurs propres de l’analyse. Le tableau est constitué des éléments
suivants.
Après l’exécution d’une ACP, vous pouvez consulter et mettre en valeur les résultats grâce à l’éditeur
graphique de plans factoriels. L’éditeur vous permet de réaliser l’ensemble des graphiques de l’ACP :
représentation des variables avec cercle des corrélations, représentation des individus, représentation
simultanée individus-axes unitaires, et cela sur les différents plans de l’analyse.
Généralités
Généralisation de l’ACP
AFC simple : étude de la correspondance entre 2 variables croisées dans un tableau de contingence
L’étude d’un tableau individu × variables qualitatives se fait via l’AFC multiple (AFCM)
Objectif de l’AFC
Mettre en évidence les relations qui existent (ou pas) entre les différentes modalités des 2
variables
Utilisation d’une métrique pour quantifier la force des liaisons entre les modalités des 2
variables : la métrique du Khi2
Remarque : la métrique du Khi2 favorise les modalités de faibles effectifs en leur attribuant un
poids plus grand dans l’analyse.
Paramétrage de la méthode
L’onglet Variables
Cet onglet vous permet de sélectionner la méthode à utiliser pour les calculs et le statut des différentes
variables.
L’onglet Valeurs par modalités
Pour effectuer les calculs, les méthodes Corrélations et PLS nécessitent des variables de type «
Continue ». Si c’est le cas pour toutes les variables sélectionnées, cet onglet est inactif (grisé). Si une
ou plusieurs variables sélectionnées sont nominales, vous devez affecter à chaque modalité de ces
variables une valeur positive pour qu’elles soient considérées comme des variables continues.
Si par exemple (méthode Corrélations), toutes les variables sont nominales avec un codage identique à
4 modalités (« Pdt Satisfait », « Plutôt pas Satisfait », « Plutôt Satisfait », « Très satisfait »). L’onglet «
Valeurs par modalités » est actif et nous permet d’affecter une valeur à chaque modalité. La valeur est
ordonnée (de 1 à 4) de façon logique avec la signification de la modalité.
Si vous choisissez la méthode « Matrice Bi-factorielle », la méthode nécessite de regrouper les valeurs
dans 2 modalités « Satisfait » et « Insatisfait ». Cet onglet vous permet alors d’affecter chaque valeur à
un de ces 2 groupes.
L’onglet Paramètres
Tous les paramètres de l’analyse ont une valeur par défaut correspondant aux choix les plus classiques.
Vous pouvez modifier ces choix selon vos besoins. Reportez-vous à l’aide en ligne pour le détail des
paramètres.
Résultats
Les résultats sont accessibles par le menu contextuel de la méthode (Clic droit – Résultats - Rapport).
Ils sont ici édités dans Excel, dans différentes feuilles. Dans les préférences de SPAD (Outils –
Préférences – Résultats – Sorties graphiques), vous avez la possibilité de choisir un autre tableur
comme « Open Office », ou une sortie de type HTML éditable avec votre navigateur internet.
Note : Les résultats sont identiques pour les méthodes « Corrélations » et « PLS ».
Méthode
Le tableau donne un récapitulatif des principaux paramètres utilisés pour les calculs.
Variables
Les tableaux montrent le codage effectué pour transformer les variables nominales en continues et le
nombre de répondants pour chaque modalité de chaque variable. Si vous aviez sélectionné des
variables continues, vous disposeriez pour chaque variable du minimum et du maximum.
Résultats (Si méthode corrélations)
Le tableau de résultats est composé de 3 colonnes.
Satisfaction globale
Item Modalités
Satisfait Insatisfait
Résultats
Le tableau des résultats pour la méthode « Bi-factorielle » est le suivant
Contribution à Contribution à la
Item
l'insatisfaction satisfaction
Pour chaque item, les contributions correspondent aux coordonnées factorielles (en valeur absolue)
des modalités « Satisfait » et « Insatisfait » obtenues par l’AFC du tableau précédent. Plus la valeur est
élevée, plus la contribution est forte.
Graphique
La méthode vous permet d’éditer les résultats sous la forme d’un graphique. Le graphique est
accessible par le menu contextuel de la méthode (Clic droit – Résultats - Graphique) Des indicateurs
d’impact sur la satisfaction et l’insatisfaction globale sont calculés pour chaque item. Ceci permet
ensuite de hiérarchiser les actions à mettre en place selon la pyramide suivante:
Lecture / interprétation
Le graphique est découpé en 4 cadrans (déterminés par la moyenne de chaque axe) :
Les basiques
Leur absence entraîne de l’insatisfaction. Leur présence apporte peu de satisfaction supplémentaire.
Les performances
Ils génèrent potentiellement à la fois de la satisfaction et de l’insatisfaction
Les Bonus
Ils génèrent de la satisfaction et ont une faible capacité à mécontenter.
Les secondaires
Leur niveau de satisfaction a peu d’influence sur le niveau de satisfaction globale.
Par rapport à la méthode « classique », la matrice bi-factorielle nous permet d’identifier les leviers
plus précisément et surtout l’impact qu’ils vont avoir sur la satisfaction ou l’insatisfaction.
Que retenir
Il faut noter que ce chapitre permettra aux étudiants analystes de données, de connaitre l’utilité des
méthodes d’interdépendances et de faire la différences entre les différentes analyses factorielles. Par
ailleurs, ils doivent maitriser le mode d’application de chaque méthode et les différents indicateurs ou
paramètres à produire.
Exercice
A l’aide du logiciel SPAD, ouvrir la base de données « ANOMA» et établir le profil du personnel
soignant en fonction de leurs caractéristiques sociodémographiques et les facteurs de démotivation de
ces derniers. Ensuite, on vous demande de déterminer les facteurs de démotivation et de motivation du
personnel soignant et faire de propositions concrètes.
NB : Choisir la méthode d’analyse appropriée sur la base de votre connaissance du cours
Références indicatives
L’analyse multivariée explicative offre une procédure de contrôle des relations causales qui permet
d’éviter les pires erreurs. Cela en fonction de la logique de l’analyse causale établie dans le cadre
théorique. Cette logique vient de Lazarsfeld qui au milieu du 20 e siècle tentait de vérifier une
observation d’Emile Durkheim disant que :
"Lorsque deux faits sociaux sont en relation et qu’on pense que l’un est la cause de l’autre, il faut se
demander si cette association ne serait pas due à quelque chose de cachée"
Quel que soit le nombre de variables de contrôle et le type d'échelle de mesure, on se retrouve dans les
trois situations suivantes :
Ces structures causales conduisent à l'existence de différents types de variables de contrôle dans
l'analyse. Il convient donc de construire des modèles d’analyse.
La modélisation est le processus par lequel l'analyste soumet un faisceau d'hypothèses à l'analyse
statistique. Elle exige une vision complexe et ordonnée des phénomènes sociaux. Elle consiste en une
mise en relation des variables conforme aux conceptions théoriques et à une soumission au processus
d'expérimentation.
La spécification du modèle est avant tout un problème théorique et sa résolution est une tâche qui
précède l'utilisation de techniques statistiques sophistiquées. Par ailleurs, ce sont les objectifs
théoriques qui guident dans le choix d'une technique d'analyse.
Les méthodes de dépendance sont des méthodes à partir desquelles l’on cherche à expliquer des
phénomènes.
L’analyse de la variance ;
L’analyse de régression linéaire ;
L’analyse de régression logistique ;
L’analyse discriminante ;
L’analyse canonique ;
La régression de survie (analyse des durées de vie) ;
L’analyse multiniveaux ;
Etc.
Dans ce cours nous ne traiterons que des deux premières citées, en commençant par L’analyse de
variance dans ce chapitre.
Objet de la méthode
L’analyse de la variance met en relation une variable quantitative à expliquer et une ou plusieurs
variables explicatives catégorielles. L’objet est d’expliquer les variations de la variable dépendante
quantitative par l’appartenance aux différentes catégories constituées par les modalités de la (ou des)
variable(s) qualitative(s).
Exemple :
1. Expliquer les différences de revenu entre les sexes, les catégories professionnelles, et les
niveaux d’instruction.
2. Expliquer les différences de fécondité selon le milieu de résidence ou le groupe ethnique ou la
région ;
3. Expliquer le niveau de consommation d’un produit par le fait d’avoir été exposé à une
campagne de publicité ou non et par le milieu de résidence.
Principe de la méthode
La méthode consiste à savoir si la variation de la variable dépendante susceptible d’être observée entre
les différentes modalités des variables catégorielles correspond à la réalité ou au hasard.
Cela revient à faire un test de signification sur la différence entre les moyennes des groupes
correspondant aux différentes modalités de la variable catégorielle.
Lorsque le nombre de modalités de la variable catégorielle est égal à 2, le test statistique n’est autre
chose que celui de Student sur la différence de 2 moyennes appartenant à des échantillons
indépendants.
L’analyse de la variance est appropriée lorsque le nombre de modalités de la variable indépendante est
supérieur à 2.
La comparaison des moyennes des groupes se fait à partir de celle entre deux types de variances. La
variance entre les différents groupes et la variance à l’intérieur des groupes. D’où l’appellation de la
méthode.
Supposons que nous ayons une variable catégorielle de 3 modalités (i=1,2,3). Pour chacune de ces
modalités, on a un nombre donné d’observations j. Chaque observation (ou valeur de la variable
dépendante) de l’ensemble de l’échantillon peut être notée Xij.
Ho : µ1 =µ2 = µ3
Lorsqu’on fait cette comparaison, on se pose la question de savoir si les différences susceptibles d’être
observées sont dues aux groupes ou si ce sont de simples fluctuations aléatoires.
Les fluctuations aléatoires sont mesurées par la variance intra-échantillon et les différences dues aux
groupes sont mesurées par la variance inter-échantillon.
L’idée de base de la méthode est que si les différences observées sont dues aux groupes, alors la
composante variance inter-échantillon doit être suffisamment grande par rapport à la composante
V2
variance intra-échantillon. Pour s’en assurer, on calcule une statistique appelée F : F =
V1
Si F s’éloigne de 1, alors les variations observées peuvent être attribuées à l’effet des groupes. Cela
suppose en effet que les variations inter-échantillon sont suffisamment grandes pour être dues
simplement au hasard, ou pour être de simples fluctuations aléatoires.
Le rapport F est calculé en vue d’appliquer un test de Ficher (d’où le F) qui permet d’établir que F est
suffisamment supérieur à 1 ; ou que V2 est largement supérieur à V1.
La variation intra-échantillon est dite résiduelle et la variation inter-échantillon rend compte de l’effet
de la variable catégorielle.
L’analyse de régression est une méthode statistique qui sert à expliquer ou prédire une variable
dépendante par une ou plusieurs variables indépendantes. Elle fait partie des modèles de dépendance
(i.e des méthodes explicatives) ; lesquels se distinguent en modèles linéaires et modèles non linéaires.
L’analyse de régression fait partie des modèles linéaires, tout comme l’analyse de la variance
d’ailleurs.
Comme méthode explicative, l’analyse de régression permet d’établir une relation de cause à effet
entre une ou plusieurs variables et la variable dépendante. En prenant le cas d’une seule variable
indépendante X, on a une relation du type :
Cette relation de cause (X) à effet (Y) se distingue de la relation de type X Y qui est une
relation d’association. Une relation d’association indique que les deux variables sont liées sans qu’on
soit en mesure de déterminer laquelle des deux explique l’autre.
Deux conditions sont nécessaires pour établir une relation de cause à effet :
L’antériorité de X par rapport à Y. L’évènement lié à X précède celui lié à Y, dans le temps ;
et
La relation observée ne doit être due à aucune autre variable.
La deuxième condition exige de contrôler la relation entre X et Y par d’autres variables indépendantes.
On procède pour cela à la régression multiple. Mais c’est toujours mieux de commencer par la
régression simple, l’analyse de l’effet de la variable indépendante X sur la variable dépendante Y
Dans une telle relation, lorsque l’on fait la représentation graphique de la relation comme l’indique la
figure 1, tous les points se retrouvent sur la droite.
Y D
En analyse statistique, il est très rare d’avoir tous les points sur la droite. On obtient généralement un
nuage de points comme l’indique la figure 2 ci-après :
Y ••••
••••
•••••••
••••••
•••••
X
Comme tous les points ne tombent pas exactement sur la droite, l’équation (1) doit être modifiée pour
inclure un facteur aléatoire de la façon suivante :
Ainsi, l’équation est généralement formulée pour chaque observation i de la façon suivante :
Yi = β0 + β1Xi +ε i (3)
Le principe de la méthode consiste de passer d’une relation statistique comme en (2) ou en (3) à une
relation fonctionnelle comme en (1). Autrement dit, transformer le nuage de points en une droite D
comme l’indique la figure 3 ci-dessous.
Y ••••
••••
•••••••
••••••
•••••
X
^=^
La droite D s’obtient en prenant : Yi β0+ ^
β 1Xi
Cela permet d’avoir les valeurs de Y estimées à partir de la droite de régression. Puisque nous
connaissons déjà la vraie valeur de Y pour chaque observation i, on est en mesure de calculer l’erreur
^ = εi
^ . Elle est obtenue en faisant Yi - Yi
commise en calculant Yi
La méthode des moindres permet d’avoir la droite qui ajuste le mieux le nuage de points. Elle consiste
à minimiser la somme des carrés des erreurs. On utilise la somme des carrés et non la somme des
erreurs car cette dernière peut aboutir à un résultat nul.
Min ∑ ¿¿ ¿
^
β 0 = Ý - ^
β 1 X́
Une fois que les coefficients de régression sont estimés, on leur applique un test pour vérifier leur
signification. Cette opération se justifie de la même manière que les tests effectués sur les moyennes et
les proportions à l’issue d’une enquête par sondage. En effet, l’enquête portant sur une petite partie
seulement de la population que l’on tire au hasard, on se pose la question de savoir si les résultats
obtenus correspondent à la réalité ou sont dus au hasard de la constitution de l’échantillon.
L’hypothèse H0 suppose que chacun des coefficients est nul et l’hypothèse alternative suppose qu’ils
sont différents de 0.
Par exemple si ^
β 1 est nul, cela suppose qu’il n’y a pas de relation linéaire entre X et Y. Le test
consiste donc à savoir si l’hypothèse alternative est vraie, c'est-à-dire si le coefficient obtenu est
significatif ; ce qui atteste de l’existence d’un effet de X sur Y dans une relation linéaire.
Le test est un test de Student avec n-k degrés de liberté ; où n est le nombre d’observations et k le
nombre de paramètres à estimer, ici 2.
s2
^
ε2
=∑ i *
∑ X 2i
β0 2
n−k n ∑ ( X i− X́ )
2 ∑ ε2i * 1
s^ = 2
β1
n−k ∑ ( X i− X́ )
Les écarts types sont obtenus en prenant la racine carrée des valeurs calculées à partir des formules ci-
dessus. t1 et t0 sont obtenus en prenant :
^
β1
t1 =
s^
β1
^
β0
t0 =
s^
β0
Si les t calculés sont supérieurs aux valeurs de la table de Student, alors l’hypothèse H0 est rejetée et
les valeurs calculées des coefficients sont considérées comme significatives.
Le test basé sur l’intervalle de confiance consiste à savoir si celui –ci ne contient pas la valeur 0. Si
Oui alors l’hypothèse nulle est acceptée ; ce qui signifie que la variable indépendante n’a pas d’effet
sur la variable dépendante dans le cas de ^
β 1.
Le test basé sur la probabilité critique consiste à savoir si celle-ci est supérieure ou non au seuil de
signification que l’on se fixe (10%, 5%, ou 1%). Habituellement, on prend 5%. Ainsi si la probabilité
critique est supérieure à 5%, on accepte l’hypothèse nulle, et la variable indépendante n’a pas d’effet
sur la variable dépendante dans le cas de ^
β 1 . Si elle est inférieure ou égale à 5%, on rejette
l’hypothèse nulle et l’effet de la variable indépendante sur la variable dépendante est jugé significatif.
L’adéquation du modèle
Nous avons vu que l’analyse de régression consiste transformer le nuage de points en une droite ou si
l’on veut à ajuster le nuage de points par une droite. Dans cet exercice, plus les points se rapprochent
de la droite, moins l’erreur commise est importante et plus la variation de Y (la variable dépendante)
est expliquée par le modèle.
^ i + Y^ i - Ý
Yi - Ý = Yi - Y
Somme des carrés totale = somme des carrés expliquée + somme des carrés résiduelle
L’adéquation du modèle est donnée par le rapport entre la somme des carrés expliquée sur la somme
des carrés totale. On le note R2.
Lorsqu’on analyse la relation entre deux variables et que l’on constate l’existence d’un effet
significatif de X sur Y, on peut se poser la question de savoir si la relation est réelle, ou si elle ne
cache pas une autre réalité.
Pour pouvoir répondre à cette question, on introduit d’autres variables dans le modèle. Pour prendre le
cas le plus simple, supposons que l’on introduise une troisième variable Z. Z est une deuxième
variable indépendante. L’introduction d’une troisième conduit à différents cas de figure dont voici
quelques-uns :
Le cas a signifie qu’il n’y a pas de relation de cause à effet entre X et Y et que la relation observée lors
de la régression simple (analyse bivariée) est due au fait qu’elles ont une cause commune qui est Z. En
raison de cette cause commune, il existe une association entre X et Y et non une relation de cause à
effet. La relation précédente est donc une relation fallacieuse. L’introduction de Z fait donc
disparaître l’effet significatif de X.
Le cas b signifie que Z est une variable antérieure à X. L’introduction de Z peut faire disparaître l’effet
de X.
Dans le cas c, Z est une variable intermédiaire. L’effet de X sur Y passe par Z. L’effet de X est donc
indirect. L’effet de X disparaît en absence de Z
Le cas d signifie que X et Z sont des variables indépendantes concomitantes. Chacune d’elles a son
effet propre sur Y. Les deux effets sont disjoints additifs. L’effet de X se maintient.
Le cas e signifie que X a à la fois un effet direct sur Y et un effet indirect à travers Z. Dans l’effet
indirect, Z est une variable intermédiaire. L’effet total de X (t) est égal à l’effet partiel de X (α) plus le
produit de l’effet de X sur Z (β) et de celui de Z sur Y (λ). t = α + βλ. L’introduction de Z réduit donc
l’effet de X.
Le cas f signifie que l’effet de X sur Y dépend de Z. Il varie selon les modalités de Z. L’introduction
de Z peut donc faire disparaître ou renforcer l’effet de X.
3.2.4. Le modèle de régression multiple
Yi = β 0 + β 1 X 1+ β 2 X 2+ε i
L’estimation de β 0 , β 1 et β 2 est obtenue ici aussi par la méthode des moindres carrés ordinaires en
minimisant la somme des carrés des erreurs.
^β 1 = ¿ ¿
^β 2 = ¿ ¿
s2
^β =
∑ ε2i ∑ ( X 2 i− X́ 2 )2
1
n−k ¿¿
ε2 ∑ ( X 1 i− X́ 1 )2
s2^β = ∑ i
2
n−k ¿¿
β^ 1
t1 = 2
s β^ 1
β^ 2
t2 =
s 2β^
2
L’adéquation du modèle
n−1
Ŕ2 = 1 – (1-R2) n
k
Le test de Student appliquée sur chaque paramètre permet de savoir si la variable associée à un effet
significatif ou pas. On peut aussi faire le test sur l’ensemble des paramètres ou sur une partie de cet
ensemble. Il suffit pour cela de rapporter la variance expliquée par le modèle à la variance résiduelle
comme cela se fait dans le cas de l’analyse de la variance. On obtient un rapport F avec k-1 et n-k
degrés de libertés qu’on compare au F de la table.
F k−a ,n−k =
∑ (Y^ i −Ý )2 /( k−1)
∑ ε 2i /( n−k )
Si le F calculé excède le F de la table, alors on rejette l’hypothèse nulle selon laquelle tous les
paramètres β sont nuls. Autrement dit on accepte l’hypothèse alternative selon laquelle ils ne sont pas
tous nuls.
Ce test permet aussi de valider le R2 calculé. Cela signifie qu’il est significativement différent de 0.
On détermine l’importance de chaque variable par le coefficient de corrélation partielle. Par exemple,
pour X1, le coefficient de corrélation partielle est donné par r YX 1 . X 2. Il mesure la corrélation partielle
entre Y et X1, après avoir annulé l’effet de X2.
La variable dont le coefficient de corrélation partielle est le plus élevé est la variable la plus
importante dans l’explication de la variable dépendante Y.
Que retenir
A la fin du chapitre 2, les étudiants analystes de données doivent savoir l’importance des méthodes de
dépendance et de faire la différence entre les différentes analyses explicatives. Par ailleurs, ils doivent
maitriser le mode d’application de chaque méthode et les différents indicateurs ou paramètres à
produire.
Exercices
Exercice 1
Un chercheur veut expliquer les différences de fécondité selon la connaissance des méthodes
contraceptives (v301) chez la femme. En utilisant la méthode statistique appropriée, répondez à sa
préoccupation.
Exercice 2
On cherche à connaître les facteurs associés au risque d’avoir des besoins non satisfaits chez la
femme. On se demande si le milieu de résidence (v025), la religion (v130), le niveau d’instruction
(v106), le groupe d’âges (v013) et le nombre total d’enfants nés vivants (v201) chez la femme sont des
facteurs liés au risque d’avoir des besoins non satisfaits (bns) en matière de planification familiale en
Côte d’ivoire.