Vous êtes sur la page 1sur 22

Les descriptions faites sur les variables soulèvent toute une série de

questions sur leurs relations, qui devront être mises en lumière en les
rapprochant deux à deux dans des analyses bivariée. Les tris croisés,
par exemple, permettent d'examiner les relations entre deux ou
plusieurs variables. Ces relations peuvent être symétriques - l'analyse
cherche à mesurer la liaison entre les deux variables et à en tester la
signification - , ou dissymétriques - l'analyse cherche à expliquer les
variations d'une variable dépendante par les variations d'une
variable indépendante. Ce dernier cas appelle des méthodes
explicatives (ANOVA, régression, etc.)

Pr. BOULAHOUAL Adil 2


Les tableaux croisés à deux ou plusieurs modalités sont en général
complétés par des mesures d'association qui permettent de
démontrer la signification statistique d'une association observée
entre les variables.
Les tris croisés ont pour objet de rassembler dans un tableau unique
les distributions de fréquences ou d'effectifs de deux ou plusieurs
variables. Ce premier outil d'analyse des relations entre deux
variables, ou relations bivariée, permet de répondre à des
questions qui se posent dès l'origine de l'étude (par exemple: « Les
hommes dépensent-ils plus que les femmes sur le point de vente? » ;
« Le sexe et le nom ont-ils une influence sur le montant moyen
dépensé? »)…

Pr. BOULAHOUAL Adil 3


Tests et mesures d'association de deux variables qualitatives

Les tris croisés ne permettent pas de démontrer l'existence d'une


association de deux variables du point de vue statistique. Pour
mesurer véritablement la relation entre les variables, il est nécessaire
de mettre en place des tests de signification statistique de
l'association.

Le test très simple du khi-deux pour vérifier l'association de deux


variables qualitatives constitue une bonne introduction.

Pr. BOULAHOUAL Adil 4


Existence d'une association significative
d'indépendance: le test du Khi-deux

Le test du Khi-deux 2 est couramment utilisé. Il cherche à tester si deux


variables qualitatives (nominales ou ordinales) sont significativement
associées. En réalité, c'est l'indépendance des variables qualitatives,
présentées dans un tableau croisé, qui est testée. On cherche à vérifier si
l'association des deux variables est suffisamment forte pour que l'hypothèse
de leur indépendance puisse être rejetée.

Pr. BOULAHOUAL Adil 5


Le principe est de comparer la distribution observée (Oij)' c'est-à-dire les
effectifs que l'on peut lire dans le tableau croisé, à une distribution
théorique (Tij) qui correspond à l'hypothèse selon laquelle les deux
variables sont indépendantes. Normalement, si les variables étaient
indépendantes, l'effectif observé ne devrait dépendre que des effectifs
marginaux, c'est-à-dire de l'effectif total de chaque modalité.

Pr. BOULAHOUAL Adil 6


Possèdent une Possèdent pas Total
carte fidélité de carte fidélité

Hommes 100 100 200

Femmes 200 200 400

Total 300 300 600

Pr. BOULAHOUAL Adil 7


Possèdent une Possèdent pas Total
carte fidélité de carte fidélité

Hommes 250 750 1 000

Femmes 150 450 600

Total 400 1 200 1 600

25% des clients possèdent une carte fidélité

Pr. BOULAHOUAL Adil 8


La statistique 2
Le 2 observé sur l'échantillon se calcule de la manière suivante:

  
2
r c O ij  Tij 
2

i 1 j 1 Tij
Où:
i = numéro de la ligne;
j = numéro de la colonne;
r = nombre de lignes, c'est-à-dire le nombre de modalités de la variable présentée en
lignes;
c = nombre de colonnes, c'est-à-dire le nombre de modalités de la variable présentée en
colonnes.

Pr. BOULAHOUAL Adil 9


  
2
r c O
ij  Tij 
2

i 1 j 1 Tij

Reprenons le même exemple des clients fidèle sachant que les données
collectées auprès de l’échantillon sont les suivantes:
Possèdent Possèdent pas Total
une carte de carte fidélité
fidélité
T O T O

250 220 750 780 1 000


Hommes

T O T O

150 180 450 420 600


Femmes

400 1 200 1 600


Total

 
2 220  250  780  750  180  150  420  450 
2

2

2

2
 12 ,8
250 750 150 Pr. BOULAHOUAL
450 Adil 10
Procédure de test

On pose l’hypothèse nulle :

H0 : Il n’y a pas de relation entre les deux variables.


H1 ; Il existe une relation statistiquement significative entre
les deux variables.

On rejette l’hypothèse nulle (on conclut que la relation existe) si :

2 > 2 0,05 [(r-1)(c-1)]

Pr. BOULAHOUAL Adil 11


0.01 0.02 0.05 0.1 0.15 0.2

1 0.000 0.001 0.004 0.016 0.036 0.064

2 0.020 0.040 0.103 0.211 0.325 0.446

3 0.115 0.185 0.352 0.584 0.798 1.005

4 0.297 0.429 0.711 1.064 1.366 1.649

5 0.554 0.752 1.145 1.610 1.994 2.343

6 0.872 1.134 1.635 2.204 2.661 3.070

7 1.239 1.564 2.167 2.833 3.358 3.822

8 1.647 2.032 2.733 3.490 4.078 4.594

9 2.088 2.532 3.325 4.168 4.817 5.380

10 2.558 3.059 3.940 4.865 5.570 6.179

11 3.053 3.609 4.575 5.578 6.336 6.989

12 3.571 4.178 5.226 6.304 7.114 7.807

13 4.107 4.765 5.892 7.041 7.901 8.634

14 4.660 5.368 6.571 7.790 8.696 9.467

 
2 220  250  780  750  180  150  420  450 
2

2

2

2
 12 ,8
250 750 150 450 12
Pr. BOULAHOUAL Adil
La loi du 2 suit une distribution asymétrique dont la forme dépend du
nombre de degrés de liberté n. Le nombre de degrés de liberté varie en
fonction du nombre de modalités des variables et se calcule de la manière
suivante: (r-1)(c -1).

dl=1
dl=2
dl=3
dl=5

Pr. BOULAHOUAL Adil13


On rejettera l'hypothèse nulle d'indépendance entre les variables
si le 2 calculé est supérieur à la valeur de référence du 2 se
trouvant dans la table de 2 pour n degrés de liberté (en
lignes dans la table) et pour un (niveau de risque de se
tromper en rejetant l'hypothèse nulle donné en colonnes, fixé
généralement à 5.

2 > 20,05 [(r-1)(c-1)]

H0 : Il n’y a pas de relation entre les deux variables.

Pr. BOULAHOUAL Adil 14


Les logiciels statistiques, dont SPSS, donnent une signification ou p-value,
s'interprétant comme le niveau risque de se tromper en rejetant H0 .
Ainsi, si elle est inférieure à 5 %, on rejette l'hypothèse d'indépendance
entre les deux variables, qui sont alors significativement associées.
Il est important de noter que ce test est assez sensible à la taille de
l'échantillon, à la taille du tableau croisé et que, normalement, chaque
case du tableau devrait avoir un effectif théorique au moins égal à cinq.
Si l'on cherche à établir le profil des clients les plus fidèles en croisant le
statut marital et la possession d'une carte de fidélité, par exemple, le test
du khi-deux permettra de définir si ces deux variables sont indépendantes.

Pr. BOULAHOUAL Adil15


Pr. BOULAHOUAL Adil16
Pr. BOULAHOUAL Adil17
Pr. BOULAHOUAL Adil 18
Nous avons créé un tableau croisé dans SPSS selon la procédure
présentée plus haut et sélectionné le test du khi-deux dans le menu
Statistiques de la boîte de dialogue Tableaux croisés. La valeur du t est à
la fois élevée et supérieure à la valeur critique correspondant au seuil de
signification statistique de 0,05 (nous obtenons 0,035). Ce résultat nous
permet de rejeter l'hypothèse nulle (<< Marital et carte sont
indépendantes ») et de conclure qu'il existe bien une relation entre le
statut marital et la possession d'une carte de fidélité dans la population
observée.

Pr. BOULAHOUAL Adil 19


Indicateurs mesurant la force de l'association

Dans le cas particulier des tableaux carrés 2 x 2 (2 lignes et 2 colonnes),


qui comparent deux variables à deux modalités, il est recommandé
d'appliquer une correction au 2 , ou d'utiliser le coefficient phi .
Celui-ci correspond à la racine carrée du 2 divisé par la taille de
l'échantillon, soit:
2

n
Le coefficient de contingence (C) peut être appliqué pour des mesures
d'association sans contrainte de taille de tableau.
2
C
2 n

Pr. BOULAHOUAL Adil 20


Le coefficient d'association prédictive (lambda) permet de mesurer
dans quelle proportion une variable qualitative indépendante
influence une variable qualitative dépendante. C'est donc une
mesure dissymétrique qui - contrairement aux précédentes - a pour
objet une force de prédiction.
On peut mesurer la force de la relation entre les deux
variables par le biais de l’indice V de Cramer :  2

V
n( L  1)
n = nombre d’observations (total des fréquences)
L = minimum des lignes et des colonnes du tableau
0 <V<1
Pr. BOULAHOUAL Adil 21
Pr. BOULAHOUAL Adil22
Pr. BOULAHOUAL Adil 23

Vous aimerez peut-être aussi