Académique Documents
Professionnel Documents
Culture Documents
Introduction :
Dans la plupart des recherches, l’analyse des données ne se limite pas à une seule
variable à la fois. Le responsable de la recherche et le décideur s’intéressent aux relations qui
peuvent exister entre des variables prises deux par deux.
Toutefois, une relation bivariée implique l’effet d’une variable sur une autre variable et
non l’inverse, on parle d’une relation de dépendance. Dans ce cas, la variable qui subit
l’influence est appelée « variable dépendante » (aussi appelée variable à expliquer) et la
variable qui produit l’effet, « variable indépendante » (aussi appelée variable explicative).
Il arrive qu’il soit difficile ou même impossible de décider du statut des variables mises
en relation. On dit alors qu’il s’agit d’une relation d’interdépendance ou d’association.
Le but de ce chapitre est de présenter les procédures d’analyse appropriées dans le cas
de relations bi-variées.
I- Les mesures d’association entre deux variables nominales :
I-1) Tableaux croisés ou tableau de contingence :
Le cas de croisement entre deux variables non métriques (nominales ou ordinales) est
rencontré très fréquemment dans l’analyse des résultats des enquêtes en marketing : il s’agit
de l’étude des tris croisés (ou tableau de contingence) dont la signification peut être certifiée
par le test de Chi-deux (noté χ2)
Exp. Lors d’une étude effectuée sur le tabac auprès des étudiants ; nous avons croisé
la question « est-ce que vous êtes fumeurs ? » et la question « sexe de la personne ». On a pu
tirer le tableau croisé suivant :
tabac
Fumeur Non-fumeur Total
Sexe Homme 4 4 8
Femme 1 6 7
Total 5 10 15
F 1/5*100 6/10*100
100% 100%
Remarque importante :
Lorsqu’on fait l’analyse des tableaux croisés, une erreur fréquente est d’oublier de
s’assurer que les fréquences à l’intérieur du tableau sont suffisamment grandes. La plupart des
logiciels statistiques avertissent l’utilisateur qu’un tableau croisé contient des cellules dont les
fréquences théoriques sont trop faibles. SPSS par exemple, informe le chercheur du
pourcentage de cellules du tableau qui contiennent des fréquences théoriques inférieures à
cinq. Le test de χ2 repose en effet sur une distribution d’échantillonnage approximative dont
la qualité dépend de la taille des fréquences théoriques du tableau. Généralement les
statisticiens recommandent de travailler avec des tableaux dont les fréquences théoriques sont
au moins égales à cinq. Si le problème est aigu, le chercheur doit regrouper des catégories afin
d’augmenter la taille des fréquences. Si cela s’avère impossible, il doit abandonner l’analyse
et peut être se contenter de commander les résultats d’un point de vue descriptif (c’est à dire
en se limitant à l’échantillon).
Ensuite, Le test de Student pour une corrélation entre deux variables quantitatives a
pour but d’évaluer les chances de conclure qu’il existe dans la population une association
entre les deux variables étudiées.
Ainsi on suit les étapes suivantes :
1) définir les hypothèses :
H0 : il n’y a pas de relation entre les deux variables ;
H1 : les deux variables sont liées ;
2) On fixe le taux de risque accepté (on prend généralement = 0,05).
3) On calcul le coefficient de corrélation rxy
4) Le test statistique approprié pour une mesure d’association entre deux variables
quantitatives est le test de Student ;
5) on peut calculer la valeur de Student t (tcalculé). la formule pour calculer la valeur
de t à partir d'une corrélation de Pearson est:
√n − 2
t(n − 2) = r
√1 − 𝑟2
6) déterminer la valeur théorique t (ddl=n-2 et = 0,05) à partir de la table de
Student ;
7) décider ; la règle de décision consiste à :
Comparer le tcalculé et le tthéorique:
- si tcalculé > tthéorique : on rejette H0 (c'est-à-dire, les deux variables sont dépendantes)
- si tcalculé < tthéorique : on accepte H0 (c'est-à-dire, les deux variables sont
indépendantes).
De même dans SPSS on compare la significativité avec = 0,05:
- Si obs (significativité) ≥ 0,05 on accepte H0 ; au risque d’erreur .
- Si obs (significativité) < 0,05 on rejette H0.
La régression simple permet de mettre en évidence le lien de cause à effet entre deux
variables (une VI et un VD) en concluant les coefficients de régression qui caractérisent cette
relation et l’expliquent dan
s l’équation de régression.
𝑦 = 𝑎 + 𝑏𝑥 + 𝑒
Y : valeur de la variable à expliquer (ou variable dépendante) ;
X : valeur de la variable explicative (ou variable indépendante) ;
𝑎 : la constante ;
b : le pente de la droite ;
e : le terme d’erreur de l’équation.
L’interprétation des résultats de la régression
Les résultats de la régression se lisent grâce aux indices suivants :
• r : le coefficient de corrélation (r) est un indice standardisé variant de –1 à +1, indiquant la
force de la relation entre l’ensemble des variables indépendantes et la variable dépendante.
Plus la corrélation est élevée, plus la relation linéaire entre les variables indépendantes et la
variable dépendante est élevée.
• r2 : la corrélation au carré, appelée coefficient de détermination, est un indice de la part de
variance de la variable dépendante expliquée par les variables indépendantes qui sont dans
l’équation. Il donne ainsi la part de variance de la variable expliquée par la variable
indépendante.
II-2-2. L’inférence :
Pour tester la significativité globale du modèle au niveau de la population, La procédure
consiste, tout d’abord, à définir les deux hypothèses suivantes :
H0 : b = 0
H1 : b ≠ 0
La statistique du test : statistique F de Fisher On utilise la statistique, notée F définie
par la formule : F = (n − 2) r2/ (1 − r2). Fcalculé
On fixe = 0,05
La statistique F suit la loi de Fisher à (1, n − 2) ddl. Fthéorique
Règle de décision :
Si Fcalculé > Fthéorique on rejette H0
Si Fcalculé < Fthéorique on accepte H0
De même dans SPSS on compare la significativité avec = 0,05:
- Si obs > 0,05 on accepte H0 ; au risque d’erreur .
- Si obs < 0,05 on rejette H0.
Le test F : sa valeur indique si la variance ou l’ajout de variance expliquée est significative, c’est-à-
dire si, quelle que soit la force de la relation entre les variables indépendantes et la variable
dépendante, cette relation est susceptible d’exister dans la population et n’est pas due simplement
au hasard de l’échantillonnage.
Avec :
2
(𝐧𝟏 − 𝟏)𝑆12 + (𝐧𝟐 − 𝟏)𝑆22
𝑆 =
𝐧𝟏 + 𝐧𝟐 − 𝟐
𝐗̄𝟏et 𝐗̄𝟐 : sont les moyennes des deux groupes de la variable qualitative au niveau de
l’échantillon.
S1 et S2 : sont les écarts-types des deux groupes de la variable qualitative au niveau de
l’échantillon.
n1 et n2 : sont les effectifs des deux groupes de la variable qualitative
Remarque : pour une taille d’échantillon élevée (n1 > 30 et n2 > 30), les valeurs de t
sous l’hypothèse nulle sont distribuées suivant une distribution normale.
Avec Zcalculé :
𝐗̄ 𝟏 − 𝐗̄ 𝟐
𝑍=
2 2
√ 𝑆1 + 𝑆2
𝐧𝟏 𝐧𝟐