Vous êtes sur la page 1sur 3

Section 3 Tests non paramétriques

I. Analyse des tableaux croisés

Le test le plus couramment utilisé, pour tester l’association entre deux variables
nominales, est celui du khi-deux (X2). Il a pour objet de tester l’indépendance des
variables dans un tableau croisé en comparant la distribution observée (𝑉𝑉𝑜𝑜 ) sur
l’échantillon à une distribution théorique (𝑉𝑉𝑡𝑡 ) qui correspond à l’hypothèse que l’on
veut tester.

1. Test de Khi-deux

Le X2 observé sur l’échantillon se calcule de la manière suivante :

(𝑉𝑉𝑜𝑜 −𝑉𝑉𝑡𝑡 )2
X2 = ∑𝑛𝑛𝑖𝑖=1
𝑉𝑉𝑡𝑡

La loi du khi-deux (Karl Pearson 1900) suit une distribution asymétrique dont la
forme dépend du nombre de degré de liberté. Le nombre de degré de liberté varie en
fonction du nombre de modalités des variables comparées et se calcule de la manière
suivante : ddl = n – 1 × p – 1 (Avec n : modalités de la 1ère variable et p : modalités de la
2ème variable). On rejettera l’hypothèse nulle (pas d’association entre les variables) si le
X2 calculé est supérieur à la valeur de référence du X2 se trouvant dans la table de khi-
deux pour n degrés de liberté (lignes) et pour un α (niveau de précision donné en
colonnes).

Conditions d’application de X2 :
- Aucune case du tableau de contingence n’a une espérance E(Aij) < 1
- Moins de 20% de cases ont une espérance E(Aij) < 5
Pour les tableaux deux lignes, deux colonnes, il est préférable d’utiliser le test de
Fisher. Par ailleurs lorsque les cellules sont inférieures à 5, il faut procéder à des
regroupements. Ajoutons qu’il est préférable de travailler directement sur les effectifs
plutôt que sur des fréquences ou des pourcentages.

2. Prolongements du khi-deux de Pearson

La mise en évidence de la relation entre deux variables nominales n’apporte pas


d’information sur la force du lien qui les unit. Pour connaître cette dernière, il
faut calculer :

- Le coefficient Phi pour les tableaux 2×2. Il varie de 0 à 1 ;


Phi (φ) = �𝑋𝑋 2 /𝑁𝑁

Cours d’analyse de données Pr Mohammed BEN AMAR


- Le V de Cramer pour des tableaux de dimension supérieure à 2×2 et dont le
nombre de lignes n’égale pas forcément le nombre de colonnes. Il varie de 0 à 1.
V = �𝑋𝑋 2 /𝑁𝑁(𝑘𝑘 − 1)

Où k est le plus petit du nombre de rangées ou du nombre de colonnes.


Remarque : le V de Cramer est égal à Phi pour les tableaux 2×2.

- L’AFC permet de déterminer la correspondance des profils lignes-colonnes d’un


tableau croisé et constitue un prolongement du test de khi-deux.

II. Le test de Mann-Whitney


Le test non paramétrique de Mann-Whitney est utilisé pour comparer
deux échantillons indépendants de petite taille. Il est valide sur des données cardinales
ou ordinales, voire des variables différentes observées sur deux populations.
Toutefois, en pratique, il permet surtout d'estimer si les variables de deux échantillons
suivent la même loi de probabilité. Ce qui revient souvent à se demander si ces
échantillons proviennent de la même population.
La taille minimale de chaque échantillon est de quatre observations. C'est moins
exigeant que le test concurrent de Kolmogorov-Smirnov et a fortiori que les tests
paramétriques. Une technique parfois concurrente est le test de la médiane. Si les deux
échantillons comptent au moins une dizaine d'observations chacun, le test de Mann-
Whitney perd de son intérêt puisqu'un test paramétrique devient alors légitime.
Ce test utilise les rangs, c’est-à-dire l’ordre dans lequel apparaissent les observations
des deux échantillons lorsqu'ils sont réunis et triés. Il teste l’hypothèse H0 selon
laquelle les échantillons sont identiquement positionnés.

𝑛𝑛1 (𝑛𝑛1 + 1)
𝑈𝑈1 = 𝑛𝑛1 𝑛𝑛2 + − 𝑅𝑅1
2
𝑛𝑛2 (𝑛𝑛2 + 1)
𝑈𝑈2 = 𝑛𝑛1 𝑛𝑛2 + − 𝑅𝑅2
2

𝑈𝑈 = 𝑚𝑚𝑚𝑚𝑚𝑚{𝑈𝑈1 ; 𝑈𝑈2}

III. Le test de Kruskal-Wallis

Le test de Kruskal-Wallis est une alternative non-paramétrique à l'ANOVA d'ordre 1


(inter-groupes). Il est utilisé pour comparer au moins trois échantillons, et tester
l'hypothèse nulle suivant laquelle les différents échantillons à comparer sont issus de
la même distribution ou de distributions de même médiane. Ainsi, l'interprétation
du test de Kruskal-Wallis est très similaire à une ANOVA paramétrique d'ordre 1, sauf
qu'il est basé sur les rangs au lieu des moyennes.

Cours d’analyse de données Pr Mohammed BEN AMAR


Hypothèses du test de Kruskal-Wallis :
• Hypothèse nulle H0 : m1 = m2 = m3 = ……… = mj
• Hypothèse alternative H1 : au moins une des médianes est différente des autres

𝐾𝐾
12 𝑆𝑆𝑗𝑗2
𝐾𝐾𝐾𝐾 = �� � − 3(𝑛𝑛 + 1)
𝑛𝑛(𝑛𝑛 + 1) 𝑛𝑛𝑗𝑗
𝑗𝑗=1
Avec :
S correspond à la somme des rangs
n est le nombre d’observations global
nj est le nombre d’observations par sous échantillon (j = 1 – K)
K est le nombre de modalités.

Cours d’analyse de données Pr Mohammed BEN AMAR

Vous aimerez peut-être aussi