Vous êtes sur la page 1sur 22

Description des données

bivariées
 L’objectif est d’examiner les relations
entre deux variables. A ce propos,
nous allons chercher à mesurer un
indicateur de liaison entre les deux
variables, et à tester la signification
de ce lien en faisant appel à la
statistique inférentielle.

TOUFIK_Saïd_2021-2022 1
« suite » Description des
données bivariées
 Nous nous préoccuperons principalement de
l’association entre deux variables ; il s’agira
de :
 (i) mettre en évidence l’existence d’une
association (par une procédure de test) ;
 (ii) mesurer sa force (le plus souvent par un
indicateur d’association variant entre 0 et 1,
c’est-à-dire allant d’une association nulle à
une association « parfaite » ;
TOUFIK_Saïd_2021-2022 2
« suite » Description des
données bivariées
 (iii) éventuellement (selon la nature
des variables traitées) d’étudier sa
direction (les variables étudiées
varient-elles dans le même sens ou en
sens contraire ?)
 Ainsi, le tableau 1 présentera une vue
d’ensemble des principales méthodes
d’association.
TOUFIK_Saïd_2021-2022 3
« suite » Description des
données bivariées
Tableau 1 : Rappel sur la nature des
Variables, le type d’analyse et le test statistique

Nature des variables Type d’analyse Test statistique

Quantitatives Corrélation Student

Qualitatives Tri croisé Khi-deux

Ordinales Méthode des rangs Spearman

Qualitative/Quantitative ANOVA Fisher-Snedecor

Qualitative/Ordinale Distribution des rangs Mann-Whitney


TOUFIK_Saïd_2021-2022 4
I. Analyse bidimensionnelle d’un
couple de variables quantitatives

 La mesure d’association la plus connue est le


coefficient de corrélation linéaire.
 Ce dernier s’écrit :
(X  X)(Y  Y)
co v(X Y
, ) i
i i

r  s s 
XY X Y
2 2
(X  X) (Y  Y)
i i
i i

 Le coefficient de corrélation varie de +1 à -1.

TOUFIK_Saïd_2021-2022 5
« suite » I. Analyse bidimensionnelle d’un
couple de variables quantitatives

 Le signe du coefficient reflète le sens de


relation : les valeurs positives correspondent à
des variations de même sens, les valeurs
négatives à des variations de sens contraire.
 Ce coefficient de corrélation fait l’objet d’un test.
 L’hypothèse nulle de ce test est H0 (C’est-à-dire
l’absence de relation). On calcule :
r n2
t
1 r2

TOUFIK_Saïd_2021-2022 6
« suite » I. Analyse bidimensionnelle d’un
couple de variables quantitatives

 Cet indicateur suit une loi de Student à (n-2)


degrés de liberté « ddl » quand H0 est vraie.
 Si le nombre d’observations est faible
(inférieur à 30), on regarde une table de cette
loi ; au dessus de 30 observations, la
distribution de t est normale, les grandes
valeurs de t conduisent à rejeter H0 d’absence
de corrélation.

TOUFIK_Saïd_2021-2022 7
II. Analyse bidimensionnelle d’un
couple de variables qualitatives

 Le cas du croisement entre deux variables


qualitatives est rencontré très fréquemment dans
l’analyse des résultats d’enquête : il s’agit des tris
croisés (ou tableaux de contingence) dont la
signification peut être certifiée par le test Khi-
deux.
 Ainsi, la procédure de calcul du test est la
suivante :

TOUFIK_Saïd_2021-2022 8
« suite » II. Analyse bidimensionnelle
d’un couple de variables qualitatives

 - soient deux variables qualitatives X et


Y, ayant pour nombre de modalités
respectif r et s ;
 - le tableau de contingence représentant
la ventilation de l’échantillon suivant ces
deux variables a pour élément général
nij , nombre d’éléments de l’échantillon
répondant simultanément à la modalité i
de la variable X (i=1, …, r) et à la
modalité j de la variable Y (j=1, …, c).
TOUFIK_Saïd_2021-2022 9
« suite » II. Analyse bidimensionnelle
d’un couple de variables qualitatives

 - notons le nombre d’éléments ayant la


modalité i de X : c
n i.  
i1
n ij

 de façon analogue, soit : r


n .j  
j1
n ij
 Soit n le nombre total d’éléments de
l’échantillon :
n    n ij   n i.   n .j
i j i j

TOUFIK_Saïd_2021-2022 10
« suite » II. Analyse bidimensionnelle
d’un couple de variables qualitatives

 la probabilité pour un élément de la


population de répondre à la fois aux
modalités i et j des deux variables peut
être estimée par : n ij
P̂ij 
n
 de façon analogue, on peut écrire :
n i. n .j
P̂i.  ; P̂.j 
n n

TOUFIK_Saïd_2021-2022 11
« suite » II. Analyse bidimensionnelle
d’un couple de variables qualitatives

 Si l’hypothèse testée, c’est-à-dire


l’indépendance entre X et Y est vraie, on
doit avoir Pij  Pi.  P.j
 cela veut dire que l’appartenance d’un
élément à une classe d’une des variables
n’est pas conditionnée par son appartenance
à une classe de l’autre.

TOUFIK_Saïd_2021-2022 12
« suite » II. Analyse bidimensionnelle
d’un couple de variables qualitatives

 Ainsi, l’effectif théorique de la classe (i,j)


est alors égal à n n
n̂ 
ij
i. .j

n
 Le test du Khi-deux consiste alors à
calculer la quantité : (n  n̂ ) 2

  
2 ij ij

i j n̂ ij

TOUFIK_Saïd_2021-2022 13
« suite » II. Analyse bidimensionnelle
d’un couple de variables qualitatives

Cette dernière quantité suit une loi du  à


2

(r-1)(c-1) degrés de libertés ; la


consultation de la table fournit alors la
réponse à la question posée. Si  observé ≥ 
2 2

théorique, à un certain seuil de


signification, on peut alors rejeter
l’hypothèse nulle.

TOUFIK_Saïd_2021-2022 14
« suite » II. Analyse bidimensionnelle
d’un couple de variables qualitatives

 Par ailleurs, se pose la question sur le degré


d’association sur entre les deux variables
qualitatives. A ce propos, le coefficient de
contingence (C) peut être appliqué pour des
mesures d’association sans contrainte de taille
de tableau.
 C oscille entre une borne inférieure de 0
lorsqu’il n’y a aucune association (lorsque 
2

=0) et une borne supérieure inférieure à


1.
TOUFIK_Saïd_2021-2022 15
« suite » II. Analyse bidimensionnelle
d’un couple de variables qualitatives

 Cette valeur maximale du coefficient


dépend de la taille du tableau (nombre de
lignes x nombre de colonnes), raison pour
laquelle il ne doit être employé que pour
comparer des tableaux de même taille. Le
coefficient de contingence C est calculé de
la manière suivante :
χ2
C 2
χ n
TOUFIK_Saïd_2021-2022 16
III. Analyse bidimensionnelle d’un
couple de variables ordinales

 Les mesures d’association entre variables


ordinales vont traiter essentiellement de la
comparaison entre deux classements d’un
ensemble d’objets.
 Supposons par exemple que deux personnes
(notées X et Y) aient classé 10 films selon l’ordre de
leurs préférences , l’objet de l’analyse va être de
déterminer si les jugements de ces deux
personnes, exprimés par X et Y, convergent ou
divergent.

TOUFIK_Saïd_2021-2022 17
« suite » III. Analyse bidimensionnelle
d’un couple de variables ordinales

 Parmi les méthodes disponibles pour cette


analyse, il y a le coefficient de Spearman
(rhô). Ce coefficient de corrélation des
rangs varie entre -1 et +1 (comme un
coefficient de corrélation linéaire) et
s’interprète de façon analogue :

TOUFIK_Saïd_2021-2022 18
« suite » III. Analyse bidimensionnelle
d’un couple de variables ordinales

 +1 correspond à une association positive


parfaite (les deux classements sont
identiques) ;
 -1 correspond à une association négative
parfaite (les deux classements sont
opposés : le premier de l’un est le dernier de
l’autre …) ;

TOUFIK_Saïd_2021-2022 19
« suite » III. Analyse bidimensionnelle
d’un couple de variables ordinales

 Le calcul de ce coefficient est fondé sur les


opérations suivantes :
 pour chaque objet i, on calcule la
différence des rangs de cet objet dans les
classements des individus X et Y ;
 on élève cette différence au carré pour
éviter que les écarts de sens contraire ne se
compensent, soit d2i ;

TOUFIK_Saïd_2021-2022 20
« suite » III. Analyse bidimensionnelle
d’un couple de variables ordinales

 on calcule la somme de ces carrés pour les


n objets classés, soit  d i .
2

i
 Le coefficient de corrélation des rangs de
Spearman s’écrit : 6 d 2
rs  1 
i
i

n(n  1)
2

TOUFIK_Saïd_2021-2022 21
« suite » III. Analyse bidimensionnelle
d’un couple de variables ordinales

 Pour savoir si la valeur calculée est


statistiquement significative, il faut se reporter à
la table des coefficients de Spearman. Celle-ci
donne la valeur critique (vc) pour une erreur ()
donnée :
 si le coefficient calculé (cc) est < à (-vc), alors il y
a une discordance des classements ;
 si le coefficient calculé (cc) est > à (vc), alors il y a
une concordance des classements ;
 si (-vc) < (cc) < (vc), alors l’indépendance des
classements.

TOUFIK_Saïd_2021-2022 22

Vous aimerez peut-être aussi