Vous êtes sur la page 1sur 13

Chapitre IV : L’analyse bivariée

Introduction :
Dans la plupart des recherches, l’analyse des données ne se limite pas à une seule
variable à la fois. Le responsable de la recherche et le décideur s’intéressent aux relations qui
peuvent exister entre des variables prises deux par deux.

Toutefois, une relation bivariée implique l’effet d’une variable sur une autre variable et
non l’inverse, on parle d’une relation de dépendance. Dans ce cas, la variable qui subit
l’influence est appelée « variable dépendante » (aussi appelée variable à expliquer) et la
variable qui produit l’effet, « variable indépendante » (aussi appelée variable explicative).

Il arrive qu’il soit difficile ou même impossible de décider du statut des variables mises
en relation. On dit alors qu’il s’agit d’une relation d’interdépendance ou d’association.

Il faut être conscient des limites de l’interprétation de l’existence d’une liaison


statistique entre deux variables : le fait que deux variables soient associées (c’est-à-dire que
les valeurs qu’elles prennent sur un certain nombre d’observations tendent à varier ensemble)
ne signifie pas qu’il y ait entre elles une relation de causalité (c’est-à-dire que les variations de
l’une sont directement provoquées, entraînées par les variations de l’autre). La concomitance
des variations de ces deux variables peut être due, par exemple, à leur commune association
avec une troisième variable, extérieure à l’analyse.

Ainsi, dans ce chapitre nous allons voir :


- la relation d’interdépendance ou d’association entre deux variables ;
- la relation de cause à effet entre deux variables.

Le but de ce chapitre est de présenter les procédures d’analyse appropriées dans le cas
de relations bi-variées.
I- Les mesures d’association entre deux variables nominales :
I-1) Tableaux croisés ou tableau de contingence :
Le cas de croisement entre deux variables non métriques (nominales ou ordinales) est
rencontré très fréquemment dans l’analyse des résultats des enquêtes en marketing : il s’agit
de l’étude des tris croisés (ou tableau de contingence) dont la signification peut être certifiée
par le test de Chi-deux (noté χ2)

Exp. Lors d’une étude effectuée sur le tabac auprès des étudiants ; nous avons croisé
la question « est-ce que vous êtes fumeurs ? » et la question « sexe de la personne ». On a pu
tirer le tableau croisé suivant :

tabac
Fumeur Non-fumeur Total
Sexe Homme 4 4 8
Femme 1 6 7
Total 5 10 15

I-1-1) Interprétation des résultats :


Dans le cas de notre exemple, la valeur total 5 de la première colonne peut être interprétée
comme étant l'effectif des fumeurs qui sont constitués de 4 hommes et une femme.

I-1-2) Pourcentage conditionnel :


On distingue les pourcentages lignes et les pourcentages colonnes.
Pourcentages ligne :

fumeur Non fumeur

Homme 4/8*100 4/8*100 100%


%
Femme 1/7*100 6/7*100 100%
%

La valeur 4/8 représente le pourcentage du nombre des hommes qui


fument, 1/7 représente le pourcentage du nombre des femmes qui
fument.
Pourcentages colonne :

Fumeur Non fumeur


% %
H 4/5*100 4/10*100

F 1/5*100 6/10*100

100% 100%

La valeur 4/5*100= 80% c’est-à-dire 80% des fumeurs son homme et


20% des fumeurs sont des femmes.

I-2) l’inférence : le Test de khi-deux


Le test de Khi-deux pour une classification croisée de deux variables a pour but
d’évaluer les chances de conclure qu’il existe dans la population une association entre les
deux variables étudiées.
La première étape du test consiste à établir les hypothèses :
1) H0 : les deux variables sont indépendantes ;
H1 : les deux variables sont dépendantes
2) Le seuil de confiance désiré (risque de rejeter H0 par erreur) est = 0,05.
3) Le test statistique approprié pour une mesure d’association entre deux variables
qualitatives est le test de Khi-deux ;
4) Le calcul de khi-deux (χ2 calculé).

χ2 =  (Oij –Tij)2 /Tij


où;
Oij : fréquence observée dans la iéme ligne et la jème colonne
Tij : fréquence théorique dans la iéme ligne et la jème colonne
n : nombre de lignes
k : nombre de colonnes

5) Déterminer le khi-deux théorique (χ2 table). Pour = 0,05 et ddl= (l-1)(c-1)


Avec l : le nombre de ligne du tableau croisé
c: nombre de colonne du tableau croisé
6) Comparer χ2 table et χ2 calculé
Si χ2 calculé ˃ χ2 table : on rejette H0
Si χ2 calculé ≤ χ2 table : on accepte H0

Dans notre exemple :


1) H0 : les deux variable sexe et tabac sont indépendantes.
H1 : les deux variable sexe et tabac sont dépendantes.
2) Le seuil de confiance désiré (risque de rejeter H0 par erreur) est = 0,05.
3) Le test statistique approprié pour une mesure d’association entre deux variables
qualitatives est le test de Khi-deux ;
4) Le calcul de khi-deux (χ2 calculé). χ2 =  (Oij –Tij)2 /Tij

 Le tableau de fréquences observées (Oij) :


tabac
Fumeur Non-fumeur Total
Sexe Homme 4 4 8
Femme 1 6 7
Total 5 10 15

 Le tableau de fréquence théorique (Tij) :


tabac
Fumeur Non-fumeur Total
Sexe Homme 5*8/15= 2,66 18*10/15= 5,33 8
Femme 5*7/15= 2,33 10*7/15= 4,66 7
Total 5 10 15

(𝟒−𝟐,𝟔𝟔)𝟐 (𝟏−𝟐,𝟑𝟑)𝟐 (𝟒−𝟓,𝟑𝟑)𝟐 (𝟔−𝟒,𝟔𝟔)𝟐


χ2= + + + = 2,15
𝟐,𝟔𝟔 𝟐,𝟑𝟑 𝟓,𝟑𝟑 𝟒,𝟔𝟔

5) Déterminer le χ2 théorique à partir de la table de Khi-deux pour = 0,05 et pour


un ddl= (2-1)*(2-1)= 1 ; χ2 théorique = 3,84
6) Comparer le χ2 théorique et le χ2 calculé
Si χ2 calculé ˃ χ2 théorique : on rejette H0 et on accepte H1
Si χ2 calculé ≤ χ2 théorique : on accepte H0
Ainsi on peut conclure que les deux variables sexe et fumeur sont indépendantes. C’est-
à-dire le tabagisme est indépendant du sexe.

Remarque importante :
Lorsqu’on fait l’analyse des tableaux croisés, une erreur fréquente est d’oublier de
s’assurer que les fréquences à l’intérieur du tableau sont suffisamment grandes. La plupart des
logiciels statistiques avertissent l’utilisateur qu’un tableau croisé contient des cellules dont les
fréquences théoriques sont trop faibles. SPSS par exemple, informe le chercheur du
pourcentage de cellules du tableau qui contiennent des fréquences théoriques inférieures à
cinq. Le test de χ2 repose en effet sur une distribution d’échantillonnage approximative dont
la qualité dépend de la taille des fréquences théoriques du tableau. Généralement les
statisticiens recommandent de travailler avec des tableaux dont les fréquences théoriques sont
au moins égales à cinq. Si le problème est aigu, le chercheur doit regrouper des catégories afin
d’augmenter la taille des fréquences. Si cela s’avère impossible, il doit abandonner l’analyse
et peut être se contenter de commander les résultats d’un point de vue descriptif (c’est à dire
en se limitant à l’échantillon).

II- Croissement entre deux variables quantitatives :


II-1. La mesure d’association :
II-1-1. Le coefficient de corrélation de Pearson (r):
Lorsque les deux variables sont quantitatives, on peut utiliser l’analyse de corrélation.
Cette technique est appropriée par l’étude des relations de dépendance uniquement.
L’objectif est d’étudier si les deux variables, mesurées sur le même ensemble d’observation
de taille n, varient de façon analogue (si pour une observation, l’une prend une valeur élevée,
l’autre à également une valeur élevée) ou non.
Supposons qu'on nous demande de tester s'il y a ou non une dépendance entre les
variables quantitatives X et Y. La procédure consiste à définir le coefficient de corrélation
linéaire de Pearson (rxy) :

Le coefficient de corrélation linéaire de Pearson (rxy) :


rxy = (Xi – X)(Yi- Y) /(n – 1)SxSy
Dans cette équation, le coefficient de corrélation (rxy) est le résultat de la somme du
produit des écarts entre les valeurs des deux variables (Xi, Yi) et leurs moyenne respectives
(X,Y), divisé par le produit des écarts-types (Sx, Sy) et la taille de l’échantillon moins un
(n-1).
Plus le coefficient est proche de 1 en valeur absolue, plus les variables sont dites
corrélées :
- si rxy est proche de +1, ceci signifie que les deux variables varient dans le même
sens ;
- si rxy est proche de –1, ceci signifie que les deux variables varient en sens inverse
l’une de l’autre ;
- si rxy est proche de 0, moins les variables sont corrélées. rxy = 0 signifie l’absence de
corrélation entre les deux variables.
II-1-2. La représentation graphique de la relation:
Le coefficient de Pearson est un indice reflétant une relation linéaire entre deux
variables continues. Le coefficient de corrélation varie entre -1 et +1, 0 reflétant une relation
nulle entre les deux variables, une valeur négative (corrélation négative) signifiant que
lorsqu'une des variables augmente, l'autre diminue ; tandis qu'une valeur positive (corrélation
positive) indique que les deux variables varient ensemble dans le même sens. Voici des
exemples illustrant les 3 situations:

II-1-3. L’inférence : test de significativité d’une relation


Pour tester cette relation d’interdépendance entre les variables au niveau de la population,
La procédure consiste, tout d’abord, à définir les deux hypothèses suivantes :

H0 : rxy = 0 (X et Y son indépendantes)


H1 : rxy ≠ 0 (X et Y son dépendantes)

Ensuite, Le test de Student pour une corrélation entre deux variables quantitatives a
pour but d’évaluer les chances de conclure qu’il existe dans la population une association
entre les deux variables étudiées.
Ainsi on suit les étapes suivantes :
1) définir les hypothèses :
H0 : il n’y a pas de relation entre les deux variables ;
H1 : les deux variables sont liées ;
2) On fixe le taux de risque accepté  (on prend généralement = 0,05).
3) On calcul le coefficient de corrélation rxy
4) Le test statistique approprié pour une mesure d’association entre deux variables
quantitatives est le test de Student ;
5) on peut calculer la valeur de Student t (tcalculé). la formule pour calculer la valeur
de t à partir d'une corrélation de Pearson est:
√n − 2
t(n − 2) = r
√1 − 𝑟2
6) déterminer la valeur théorique t (ddl=n-2 et = 0,05) à partir de la table de
Student ;
7) décider ; la règle de décision consiste à :
Comparer le tcalculé et le tthéorique:
- si tcalculé > tthéorique : on rejette H0 (c'est-à-dire, les deux variables sont dépendantes)
- si tcalculé < tthéorique : on accepte H0 (c'est-à-dire, les deux variables sont
indépendantes).
De même dans SPSS on compare la significativité avec = 0,05:
- Si obs (significativité) ≥ 0,05 on accepte H0 ; au risque d’erreur .
- Si obs (significativité) < 0,05 on rejette H0.

II-2. La mesure explicative entre deux variables métriques :


II-2-1. La régression simple :
Le but de la régression simple est d'expliquer une variable Y à l'aide d'une variable X.
La variable Y est appelée variable dépendante (VD), ou variable à expliquer et la variable X
est appelée variable indépendante (VI), ou variable explicative.
Ainsi, l’analyse de régression teste l’impact d’une VI sur une VD.
Lorsque le problème implique une seule variable indépendante, la technique statistique
est appelée régression simple. Lorsque le problème implique plusieurs variables
indépendantes, il s’agit d’une régression multiple. La régression est utilisée pour l’explication
et la prédiction.
Ainsi, l’analyse de régression teste l’impact d’une ou plusieurs VI sur une VD (on
introduit donc l’idée de causalité).

La régression simple permet de mettre en évidence le lien de cause à effet entre deux
variables (une VI et un VD) en concluant les coefficients de régression qui caractérisent cette
relation et l’expliquent dan
s l’équation de régression.
𝑦 = 𝑎 + 𝑏𝑥 + 𝑒
Y : valeur de la variable à expliquer (ou variable dépendante) ;
X : valeur de la variable explicative (ou variable indépendante) ;
𝑎 : la constante ;
b : le pente de la droite ;
e : le terme d’erreur de l’équation.
L’interprétation des résultats de la régression
Les résultats de la régression se lisent grâce aux indices suivants :
• r : le coefficient de corrélation (r) est un indice standardisé variant de –1 à +1, indiquant la
force de la relation entre l’ensemble des variables indépendantes et la variable dépendante.
Plus la corrélation est élevée, plus la relation linéaire entre les variables indépendantes et la
variable dépendante est élevée.
• r2 : la corrélation au carré, appelée coefficient de détermination, est un indice de la part de
variance de la variable dépendante expliquée par les variables indépendantes qui sont dans
l’équation. Il donne ainsi la part de variance de la variable expliquée par la variable
indépendante.

II-2-2. L’inférence :
Pour tester la significativité globale du modèle au niveau de la population, La procédure
consiste, tout d’abord, à définir les deux hypothèses suivantes :
H0 : b = 0
H1 : b ≠ 0
La statistique du test : statistique F de Fisher On utilise la statistique, notée F définie
par la formule : F = (n − 2) r2/ (1 − r2). Fcalculé
On fixe = 0,05
La statistique F suit la loi de Fisher à (1, n − 2) ddl. Fthéorique
Règle de décision :
Si Fcalculé > Fthéorique on rejette H0
Si Fcalculé < Fthéorique on accepte H0
De même dans SPSS on compare la significativité avec = 0,05:
- Si obs > 0,05 on accepte H0 ; au risque d’erreur .
- Si obs < 0,05 on rejette H0.

Le test F : sa valeur indique si la variance ou l’ajout de variance expliquée est significative, c’est-à-
dire si, quelle que soit la force de la relation entre les variables indépendantes et la variable
dépendante, cette relation est susceptible d’exister dans la population et n’est pas due simplement
au hasard de l’échantillonnage.

III- Le croisement entre une variable quantitative et une variable qualitative :


Il est nécessaire de recourir aux techniques statistiques de comparaison de moyenne
lorsque l’analyse porte sur une relation bivariée comprenant une variable quantitative et une
variable qualitative.
Il existe deux types de tests de comparaison de moyenne :
- Les tests de comparaison de moyennes pour échantillons indépendants ;
- Les tests de comparaison de moyennes pour échantillons appariés.
1) La comparaison de deux moyennes indépendantes: une variable quantitative et une
variable qualitative à 2 modalités
Le premier cas que nous allons examiner est celui où la variable qualitative comporte
deux modalités. Si la variable qualitative est dichotomique (avec deux modalités), on utilise
un test de comparaison de deux moyennes indépendantes (test en t).
On peut ainsi tester la signification des différences de moyennes observées sur deux
sous-échantillons. Cela suppose que la variable explicative est qualitative et la variable à
expliquer est quantitative.
La procédure du test d’hypothèse consiste :
1) définir les deux hypothèses suivantes :
H0 : m1 = m2
H1 : m1 ≠ m2
m1 et m2 : sont les moyennes des deux groupes de la variable qualitative dans la
population.
2) On fixe le risque d’erreur accepté  (on prend généralement = 0,05).
3) Le test statistique approprié pour la comparaison de deux moyennes est le test de
Student ;
4) on peut calculer la valeur t de Student (c’est le tcalculé). La formule pour calculer la
valeur de t est:
𝐗̄ 𝟏 − 𝐗̄ 𝟐
𝑡= 1 1
√𝑆 2 ( + )
𝐧𝟏 𝐧𝟐

Avec :
2
(𝐧𝟏 − 𝟏)𝑆12 + (𝐧𝟐 − 𝟏)𝑆22
𝑆 =
𝐧𝟏 + 𝐧𝟐 − 𝟐

𝐗̄𝟏et 𝐗̄𝟐 : sont les moyennes des deux groupes de la variable qualitative au niveau de
l’échantillon.
S1 et S2 : sont les écarts-types des deux groupes de la variable qualitative au niveau de
l’échantillon.
n1 et n2 : sont les effectifs des deux groupes de la variable qualitative

5) déterminer la valeur théorique tthéorique pour (ddl=n1+ n2 -2 et = 0,05) à partir de la


table de Student ;
6) décider ; la règle de décision consiste à :
Comparer le tcalculé et le tthéorique :
- si tcalculé > tthéorique : on rejette H0 (c'est-à-dire, les deux variables sont dépendantes)
- si tcalculé < tthéorique : on accepte H0 (c'est-à-dire, les deux variables sont
indépendantes).
De même dans SPSS on compare la significativité avec = 0,05:
- Si obs > 0,05 on accepte H0 ; au risque d’erreur .
- Si obs < 0,05 on rejette H0.

Remarque : pour une taille d’échantillon élevée (n1 > 30 et n2 > 30), les valeurs de t
sous l’hypothèse nulle sont distribuées suivant une distribution normale.
Avec Zcalculé :
𝐗̄ 𝟏 − 𝐗̄ 𝟐
𝑍=
2 2
√ 𝑆1 + 𝑆2
𝐧𝟏 𝐧𝟐

et Zthéorique = 1,96 pour = 0,05

2) La comparaison de trois moyennes ou plus : une variable quantitative et une


variable qualitative à plus de 2 modalités
L’analyse de la variance à 1 facteur peut être considérée comme la généralisation du
test de moyenne au cas où il s’agit de comparer non plus 2 moyennes, mais simultanément p
moyennes correspondant à p modalités d’une variable explicative (ou facteur). C’est à dire
une analyse de variance (le test F).
Au niveau de l’analyse de la variance à un facteur (appelée ANOVA) il s’agit de
savoir s’il y a une liaison entre la variable à expliquer (la variable métrique) et la variable
explicative (la variable nominale). Cela peu être vue comme un cas d’analyse bivariée (liaison
entre variable quantitative et une variable qualitative). On procède ainsi :
1) On formule les hypothèses, avec H0 : la valeur moyenne de la variable à expliquer
est la même pour toutes les modalités de la variable explicative ;
H0 : m1 = m2 = .… = mp
H1 : m1 ≠ m2 ≠ … ≠ mp
Si cette hypothèse nulle est démentie par le test, l’existence d’une relation sera
établie. Ensuite, il faut effectuer des comparaisons entre les moyennes deux à deux (c'est-à-
dire tester les effets spécifiques).
2) On fixe le risque d’erreur accepté  (on prend généralement = 0,05).
3) Le test statistique approprié pour la comparaison de deux moyennes est le test de
Fisher;
4) on peut calculer la valeur F de Fisher (c’est le Fcalculé). Calculée par SPSS
5) La statistique F suit la loi de Fisher à (k-1, N-k) ddl. Fthéorique
(Avec k : nombre des modalités et N total de tous les échantillons n1+n2+ …+nk).
6) déterminer la valeur théorique Fthéorique F (k-1 ;N-k) à partir de la table de Fisher ;
7) décider ; la règle de décision consiste à :
Comparer le Fcalculé et le Fthéorique :
- si Fcalculé > Fthéorique : on rejette H0 (c'est-à-dire, on conclut que les moyennes sont
globalement différentes.)
- si Fcalculé < Fthéorique : on accepte H0 (c'est-à-dire, les moyennes sont égales)
De même dans SPSS on compare la significativité avec = 0,05:

- Si obs > 0,05 on accepte H0 ; au risque d’erreur .


- Si obs < 0,05 on rejette H0.

3) La comparaison de 2 moyennes pour un échantillon apparié : 2 variables


numériques à mesures répétées
Le test de comparaison de moyennes pour échantillons appariés est utilisé lorsque l’on
souhaite comparer deux moyennes mesurés chez les mêmes individus.
On test l’égalité des moyennes de deux variables à l’intérieur d’un même échantillon.
Les variables X1 et X2 sont observées sur les mêmes individus. Un même échantillon est
soumis à deux mesures successives. La première mesure associée à la variable X1 (moyenne
𝐗̄𝟏 et écart type S1) ; La deuxième mesure associée à la variable X2 (moyenne 𝐗̄𝟐 et écart type
S2).
Le but : tester si la différence entre les deux mesures sur les mêmes individus est
statistiquement significatif.
1) On veut tester les hypothèses suivantes :
H0 : m1 = m2
H1 : m1 ≠ m2
m1 et m2 : sont les moyennes des deux mesures.
1) On fixe le risque d’erreur accepté  (on prend généralement = 0,05).
2) Le test statistique approprié est le test de Student si n<30;
3) on peut calculer la valeur t de Student (c’est le tcalculé). la formule pour calculer la
valeur de t est:
𝑚𝑑 ∑𝑛𝑖=1(𝑑𝑖 −𝑚𝑑 ) 2
𝑡= Avec : 𝑆2𝑑 = 𝑛−1
2
√𝑆𝑑
𝑛

Et md = 𝐗̄𝟏 - 𝐗̄𝟐 ; md est la différence de moyennes


di: x1i – x2i : c’est la différence entre les deux mesures
𝐗̄𝟏 et 𝐗̄𝟐 : sont les moyennes des deux mesure effectuées
Sd : l’écarts-types de la différence
n : la taille de l’échantillon.
4) déterminer la valeur théorique tthéorique pour (ddl= n-1 et = 0,05) à partir de la
table de Student ;
5) décider ; la règle de décision consiste à :
Comparer le tcalculé et le tthéorique :
- si tcalculé > tthéorique : on rejette H0 (c'est-à-dire, les deux variables sont dépendantes)
- si tcalculé ≤ tthéorique : on accepte H0 (c'est-à-dire, les deux variables sont
indépendantes).
De même dans SPSS on compare la significativité avec = 0,05:
- Si obs ≥ 0,05 on accepte H0 ; au risque d’erreur .
- Si obs < 0,05 on rejette H0.
Remarque : si la taille de l’échantillon n≥31 Le test statistique approprié est le test de la loi
Normal ; ainsi Zcalculé est:
𝑚𝑑
𝑍=
√𝑆𝑑2
Et Zthéorique = 1,96 pour = 0,05

4) La comparaison d’une moyenne observée à une moyenne théorique :


Il s’agit de comparer la moyenne obtenue sur un échantillon avec une norme. Il permet
de comparer la moyenne d’une variable numérique avec une valeur bien déterminée.
Le but : tester si la différence entre la moyenne de l’échantillon et la norme est
statistiquement significative.
2) On veut tester les hypothèses suivantes :
H0 : m = m0
H1 : m ≠ m0
m: la moyenne de l’échantillon.
m0 : la norme
6) On fixe le risque d’erreur accepté  (on prend généralement = 0,05).
7) Le test statistique approprié est le test de Student (si n≤30);
8) on peut calculer la valeur t de Student (c’est le tcalculé). la formule pour calculer la
𝐗̄ − 𝐦𝟎
valeur de t est :𝑡 = 2
√ 𝑆
𝐧

𝐗̄: la moyenne de l’échantillon


Sd : l’écarts-types
n : la taille de l’échantillon.
9) déterminer la valeur théorique tthéorique pour (ddl = n-1 et = 0,05) à partir de la
table de Student ;
10) décider ; la règle de décision consiste à :
Comparer le tcalculé et le tthéorique :
- si tcalculé > tthéorique : on rejette H0 (c'est-à-dire, les deux variables sont dépendantes)
- si tcalculé < tthéorique : on accepte H0 (c'est-à-dire, les deux variables sont
indépendantes).
De même dans SPSS on compare la significativité avec = 0,05:
- Si obs > 0,05 on accepte H0 ; au risque d’erreur .
- Si obs < 0,05 on rejette H0.

Vous aimerez peut-être aussi