Vous êtes sur la page 1sur 16

11/03/2024

Tests non paramétriques


Un petit résumé

Lorsque les conditions d’utilisation du test paramétrique ne sont


pas vérifiées (si la loi de la variable aléatoire X ne suit pas une loi
normale ou si l’échantillon est de petite taille), on peut utiliser le
test non paramétrique.

Ce test se base sur les rangs d’observations et s’intéresse à l’ensemble de la distribution


(somme des rangs). Au contraire, les tests paramétriques se basent sur des paramètres
(moyenne, variance…).

1
11/03/2024

Il permet donc, sans aucune hypothèse sur la loi de probabilité suivie par la
variable aléatoire impliquée, de donner des conclusions.

Lorsque les données sont quantitatives, les tests non paramétriques transforment
les valeurs en rangs. L’appellation tests de rangs est souvent rencontrée.

Lorsque les données sont quanlitatives, seuls les tests non


paramétriques sont utilisés

Pour les variables quantitatives (continues, ordinales


ou discrètes)
1 - Avec un échantillon
• Test Dixon : tester les valeurs douteuses dans un échantillon.
• Test de Wilcoxon : tester si la valeur médiane de l’échantillon s’écarte d’une valeur
théorique.
• Test de Kolmogorov-Smirnov : tester si la distribution de l’échantillon suit une loi normale.

2 - Avec deux échantillons


• Test de Mann-Whitney : comparer la distribution de deux échantillons non appariés.
• Test de Wilcoxon apparié : comparer la distribution de deux échantillons appariés.
• Test de Corrélation de rang de Spearman.

2
11/03/2024

Pour les variables qualitatives (nominales)

1. Avec un échantillon
Test binomial : Savoir si l’échantillon suit une loi binomiale

2. Avec deux échantillons


•Test du Chi-2 (échantillons non appariés)
•Test de McNemar (échantillons appariés)
3. Avec plus de deux échantillons
•Test Chi-2 (échantillons non appariés)
•Test Cochran (échantillons appariés)

Test d’hypothèses pour les tests non paramétriques

En effet, l’étape qui consiste à estimer les paramètres des distributions avant de faire un test
d’hypothèse n’est plus nécessaire (test de conformité en loi). Donc les hypothèses sont plus
générales, c’est-à-dire, par exemple :

• H0 : les deux échantillons sont identiques (issus de la même population)


• H1 : les deux échantillons sont significativement différents (de populations différentes)

3
11/03/2024

En résumé

Principe du test non paramétrique


Lorsque les variables sont dites quantitatives, les tests non paramétriques
transforment les valeurs en rangs, nommé aussi test de rangs.

Ces tests de rangs ne vont pas prendre en compte les valeurs des échantillons mais uniquement
voir comment les échantillons sont mélangés quand on les réunit et qu’on les ordonne.

A contrario, les variables dites qualitatives, seuls les tests non paramétriques sont utilisables.

L’idée est que sous H0, les deux échantillons devraient être fortement mélangés.
Si les valeurs de l’un sont inférieures aux valeurs de l’autre, alors il y a une différence significative.

4
11/03/2024

Test de Wilcoxon-Mann-Whitney ou test U de Mann-Whitney

wilcox.test avec R et la bibliothèque "stats"


https://fr.wikipedia.org/wiki/Test_de_Wilcoxon-Mann-Whitney
• Pour pouvoir calculer un test U de Mann-Whitney, il faut disposer de deux échantillons
aléatoires indépendants présentant au moins des caractéristiques à échelle ordinale.
• Les variables ne doivent satisfaire à aucune courbe de distribution.
Hypothèses des tests U de Mann-Whitney
Les hypothèses du test U de Mann-Whitney sont très similaires à celles du test t indépendant. La différence, cependant,
est que dans le cas du test U de Mann-Whitney, le test est basé sur une différence de tendance centrale, alors que dans
le cas du test t, le test est basé sur une différence de valeurs moyennes. Ainsi, le test U de Mann-Whitney aboutit à :

Hypothèse nulle : il n'y a pas de différence (en termes de tendance centrale) entre les deux groupes de la population.
Hypothèse alternative : il existe une différence (en termes de tendance centrale) entre les deux groupes de la
population.

Test U de Mann-Whitney
https://datatab.fr/tutorial/mann-whitney-u-test
Le test U de Mann-Whitney est donc le pendant non paramétrique du test t pour échantillons indépendants ; il est soumis à des
hypothèses moins strictes que le test t. Par conséquent, le test U de Mann-Whitney est toujours utilisé lorsque la condition de
distribution normale du test t n'est pas remplie.

5
11/03/2024

Test U de Mann-Whitney
https://datatab.fr/tutorial/mann-whitney-u-test Hypothèses du test U de Mann-Whitney
Pour pouvoir calculer un test U de Mann-Whitney, il faut disposer
Si les données sont disponibles par paires,
de deux échantillons aléatoires indépendants présentant au moins
le test de Wilcoxon doit être utilisé à la place du
des caractéristiques à échelle ordinale. Les variables ne doivent
test U de Mann-Whitney.
satisfaire à aucune courbe de distribution.
Calculer le test U de Mann-Whitney
Pour calculer le test U de Mann-Whitney pour deux échantillons indépendants, il faut d'abord déterminer les rangs des
valeurs individuelles (un exemple avec des rangs égaux suit ci-dessous).

Test U de Mann-Whitney
Ces classements sont ensuite additionnés pour les deux groupes. Dans l'exemple ci-dessus, la somme des rangs T1 des
femmes est de 37 et la somme des rangs T2 des hommes est de 29. La valeur moyenne des rangs est donc R̄1= 6,17 pour
les femmes et R̄1= 5,80 pour les hommes. La différence entre R̄1 et R̄2 indique maintenant s'il existe des différences
possibles entre les temps de réaction. Dans l'étape suivante, les valeurs U sont calculées à partir des sommes de rangs T1
et T2.

6
11/03/2024

Test U de Mann-Whitney
où n1, n2 sont le nombre d'éléments dans le premier et le second
groupe respectivement. Si les deux groupes proviennent de la même
population, c'est-à-dire que les groupes ne diffèrent pas, la valeur des
deux valeurs U est la valeur attendue de U. Une fois que la moyenne et
la dispersion ont été estimées, z peut être calculé. Pour la valeur U de
Mann-Whitney, la plus petite valeur de U1 et U2 est utilisée.

Selon la taille de l'échantillon, la valeur p du test U de Mann-Whitney est


calculée de manière différente. Pour un maximum de 25 cas, on utilise les
valeurs exactes, qui peuvent être lues dans un tableau. Pour des
échantillons plus importants, la distribution normale peut être utilisée
comme approximation. Ainsi, dans le présent exemple, on prendrait en fait la
valeur exacte, ici néanmoins le chemin de la distribution normale. Pour cela,
il suffit d'introduire la valeur z dans la calculatrice de la valeur z à la valeur p.

Test U de Mann-Whitney

Si la valeur z calculée est supérieure à la valeur z critique, les


deux groupes diffèrent.

7
11/03/2024

Calculer U de Mann-Whitney en cas d’égalité des rangs


Si plusieurs personnes partagent un rang, on parle de rangs liés. Dans ce cas, le calcul des sommes des rangs et de l'écart-type
de la valeur U est modifié. Nous allons examiner ces deux aspects à l'aide d'un exemple.
Dans cet exemple, on peut voir que...
•...les temps de réaction 34 apparaissent deux fois et partagent les rangs 2 et 3
•...les temps de réaction 39 apparaissent trois fois et se partagent les rangs 6, 7 et 8

en cas d’égalité des rangs


Pour tenir compte de ces rangs liés, les valeurs moyennes des rangs communs sont calculées dans chaque cas. Dans le
premier cas, on obtient un "nouveau" rang de 2,5 et dans le second cas, un "nouveau" rang de 7. Les sommes des rangs
T peuvent maintenant être calculées.

8
11/03/2024

en cas d’égalité des rangs

9
11/03/2024

Test de Wilcoxon
https://datatab.fr/tutorial/wilcoxon-test

Le test de Wilcoxon vérifie si les valeurs moyennes de deux groupes dépendants diffèrent
significativement l'une de l'autre. Le test de Wilcoxon est un test non paramétrique et est donc
soumis à beaucoup moins d'hypothèses que son homologue paramétrique, le test t pour
échantillons dépendants. Par conséquent, dès que les conditions limites du test t pour échantillons
dépendants ne sont plus remplies, le test de Wilcoxon est utilisé.

Exemple médical:
Il convient de vérifier si les performances de la mémoire sont meilleures le matin ou le soir.

Exemple technique:
Un fabricant de courroies trapézoïdales a des temps d'arrêt très élevés sur ses 5 lignes de production. Il faut
maintenant déterminer si un paramètre du système a une influence sur les temps d'arrêt.

Hypothèses Test de Wilcoxon


Le test de Wilcoxon étant un test non paramétrique, il n'est pas nécessaire que les données
soient normalement distribuées. Toutefois, pour calculer un test de Wilcoxon, les échantillons
doivent être dépendants. Les échantillons dépendants sont présents, par exemple, lorsque les
données sont obtenues à partir de mesures répétées ou lorsqu'il s'agit de paires dites
naturelles.

Mesure répétée: Une caractéristique d'une personne, par exemple son poids, a été mesurée à deux moments
différents.
Couples naturels: Les valeurs ne doivent pas nécessairement provenir de la même personne, mais de
personnes qui vont ensemble, par exemple avocat/client, épouse/mari et psychologue/patient. Bien entendu, il
ne s'agit pas nécessairement de personnes.
Indépendance: Le test de Wilcoxon suppose l'indépendance, c'est-à-dire que les observations appariées sont
tirées au hasard et de manière indépendante.

En outre, la forme de la distribution des différences entre les deux échantillons dépendants doit être approximativement
symétrique.
Si les données ne sont pas disponibles par paires, le test U de Mann-Whitney est utilisé à la place du test de Wilcoxon.

10
11/03/2024

Hypothèses du test de Wilcoxon


Les hypothèses du test de Wilcoxon sont très similaires à celles du test t dépendant. Toutefois,
dans le cas du test de Wilcoxon, il s'agit de vérifier s'il existe une différence de tendance centrale
; dans le cas du test t, il s'agit de vérifier s'il existe une différence de moyenne. Ainsi, le test U de
Mann-Whitney donne:

•Hypothèse nulle: Il n'y a pas de différence (en termes de tendance centrale) entre les deux groupes de la population.
•Hypothèse alternative: Il existe une différence (par rapport à la tendance centrale) entre les deux groupes de la
population.

La question qui se pose est la suivante: pourquoi ne pas toujours utiliser le test de Wilcoxon au lieu du test t pour les
échantillons dépendants? Dans ce cas, je n'ai pas besoin de tester la distribution normale! Les tests paramétriques
comme le test t sont généralement plus puissants!

Avec un test paramétrique, une différence plus faible ou un échantillon plus petit suffit généralement à rejeter
l'hypothèse nulle. Les deux sont, bien sûr, très pratiques. C'est pourquoi, dans la mesure du possible, il faut
toujours utiliser des tests paramétriques!

Calculer le test de Wilcoxon

11
11/03/2024

Calculer le test de Wilcoxon


Pour calculer le test de Wilcoxon pour deux échantillons dépendants, on
calcule d'abord la différence entre les valeurs dépendantes. Une fois les
différences calculées, les valeurs absolues des différences sont utilisées
pour former les classements. Il est important de noter le signe original
des différences (un exemple avec des rangs égaux est donné ci-
dessus).

Dans la dernière étape, les sommes des rangs sont


formées, qui sont dérivées d'une différence positive et
d'une différence négative. La statistique de test W est
alors calculée à partir de la plus petite valeur de T+ et
de T-.

KRUSKAL - WALLIS
Test de Kruskal Wallis

Ce test correspond au test de Mann-Whitney pour plus de deux échantillons, on peut le considérer
comme la version non paramétrique de l’Anova (modèles statistiques qui permettent de montrer si
des groupes appartiennent à la même population).
Cas d’utilisation :

•Comparer la production de blé sur 4 terrains indépendants.

Exemple :
La compagnie ferroviaire cherche à comparer le nombre de retards maintenant pour quatre types
de trains : les trains A, B, C, et D. Dans le tableau ci-dessous est listé le nombre de retards par type
de trains. Notre but est de déterminer s’il y a des différences significatives de retards entre les
différents types de trains.

L’hypothèse nulle Ho : « tous les types de trains ont des retards similaires » et

l’hypothèse alternative H1 : « L’un des types de trains a plus/moins de retards que les autres ».

12
11/03/2024

Le tableau suivant est une liste des tests non


paramétriques et de leurs alternatives
paramétriques
Tests non paramétriques : Test paramétrique équivalent
Test des signes à 1 échantillon Test Z à 1 échantillon, test t à 1 échantillon
Test de Wilcoxon à 1 échantillon Test Z à 1 échantillon, test t à 1 échantillon
Test de Mann-Whitney Test t à 2 échantillon
Test de Kruskal-Wallis ANOVA à un facteur contrôlé
Test de Mood pour les médianes ANOVA à un facteur contrôlé
Test de Friedman ANOVA à deux facteurs contrôlés

L'ANOVA à un facteur contrôlé

L'ANOVA à un facteur contrôlé permet de comparer les moyennes de trois


groupes ou plus, afin de déterminer si elles diffèrent de manière significative les
unes des autres.

Une autre fonction importante de l'ANOVA à un facteur contrôlé est d'estimer les
différences entre des groupes spécifiques.

13
11/03/2024

Test de Kruskal-Wallis TEST NON-PARAMÉTRIQUE SUR K ÉCHANTILLONS


INDÉPENDANTS: TEST DE KRUSKAL-WALLIS

Quand utiliser le test de Kruskal-Wallis ?

Le test de Kruskal-Wallis est un test non paramétrique à utiliser lorsque vous êtes en présence de k
échantillons indépendants, afin de déterminer si les échantillons proviennent d'une même population ou si au
moins un échantillon provient d'une population différente des autres.

Le test de Kruskal-Wallis est souvent utilisé comme une alternative à l'ANOVA dans le cas où l'hypothèse de
normalité n'est pas acceptable.

Il permet de tester si k échantillons (k>2) proviennent de la même population, ou de populations ayant des
caractéristiques identiques, au sens d'un paramètre de position (le paramètre de position est conceptuellement
proche de la médiane,

mais le test de Kruskal-Wallis prend en compte plus d'information que la position au seul sens de la médiane).

Test de Kruskal-Wallis TEST NON-PARAMÉTRIQUE SUR K ÉCHANTILLONS


INDÉPENDANTS: TEST DE KRUSKAL-WALLIS

Principe du test de Kruskal-Wallis


Si on désigne par Mi le paramètre de position l'échantillon i, les hypothèses nulle H0 et
alternative Ha du test de Kruskal-Wallis sont les suivantes :
•H0 : M1 = M2 = … = Mk
•Ha : il existe au moins un couple (i, j) tel que Mi ≠ Mj

https://fr.wikipedia.org/wiki/Test_de_Kruskal-Wallis

14
11/03/2024

Mise en œuvre et calcul de la statistique K


Le calcul de la statistique K du test de Kruskal-Wallis fait intervenir comme pour le test de Mann-Whitney le rang
des observations, une fois les k échantillons (ou groupes) mélangés. K est défini par :

K = 12/(N(N+1)) Σi=1..k [Ri²-3(N+1)]

où ni est la taille de l'échantillon i, N la somme des ni, et Ri la somme des rangs pour l'échantillon i parmi
l'ensemble des échantillons.

Lorsque k=2 le test de Kruskal-Wallis est équivalent au test de Mann-Whitney, et la statistique K est équivalente à
la statistique Ws.

Lorsqu'il y a des ex aequo, on utilise les rangs moyens pour les observations correspondantes, comme dans le cas
du test de Mann-Whitney

Calcul de la p-value du test de Kruskal-Wallis


Pour le calcul de la p-value associée à une valeur donnée de K, XLSTAT propose trois alternatives :

•Méthode asymptotique : la p-value est obtenue grâce à une approximation de la loi de K par une loi du
Khi² à (k-1) degrés de liberté. Cette approximation est fiable, sauf lorsque N est petit.

•Méthode exacte : le calcul de la p-value exacte repose sur la distribution réelle de K. Ce calcul est très
intensif numériquement.

•Méthode Monte Carlo : ce calcul est basé sur un rééchantillonnage aléatoire. L'utilisateur doit choisir le
nombre de simulations (ou rééchantillonnages) à réaliser. Un intervalle de confiance autour de la p-value
obtenue est fourni. Cet intervalle sera bien entendu d'autant plus resserré que le nombre de simulations
est important.

Si la p-value est telle que l'on doit rejeter l'hypothèse H0, alors au moins un échantillon (ou groupe) est
différent d'un autre. Afin d'identifier quels échantillons sont responsables du rejet de H0, il est possible
d'utiliser une procédure de comparaisons multiples.

15
11/03/2024

https://fr.wikipedia.org/wiki/Test_de_Kruskal-Wallis
•Analysis of variance (ANOVA, parametric):
• One-Way ANOVA Test in R
• Two-Way ANOVA Test in R
• MANOVA Test in R: Multivariate Analysis of Variance

kruskal.test sous R avec la librairie « Stats »

scipy.stats.kruskal sous Python avec la librairie « scipy.stats »

Références
https://fr.wikipedia.org/wiki/Test_de_Kruskal-Wallis

https://datatab.fr/tutorial/kruskal-wallis-test

https://www.datanovia.com/en/fr/lessons/test-de-kruskal-wallis-dans-r/

https://biodatascience-course.sciviews.org/sdd-umons-2018/test-de-kruskal-wallis.html

https://www.normalesup.org/~carpenti/tdm-stats/tdm22222.html

16

Vous aimerez peut-être aussi