Vous êtes sur la page 1sur 14

Introduction aux tests non

paramétriques
(partie 3)

MOUSSA K. Richard, PhD


Professeur Agrégé d’Economie,
spécialité: Statistique et Econométrie
ENSEA
Tests sur plusieurs échantillons :
Test de Kruskal-Wallis
• Comparer les moyennes de K (K>2) distributions
𝐻0 : 𝜃1 = 𝜃2 = ⋯ = 𝜃𝐾
ቊ𝐻 : ∃𝑘, 𝑗 𝑡𝑒𝑙 𝑞𝑢𝑒 𝜃 ≠ 𝜃
𝑎 𝑘 𝑗
• Une généralisation du test de Wilcoxon-Mann-
Whitney
• Une alternative non paramétrique de l’ANOVA
(surtout quand l’hypothèse de normalité n’est pas
vérifiée).
• Test basé sur les rangs
Tests sur plusieurs échantillons :
Test de Kruskal-Wallis
• Soit 𝑅𝑖𝑗 le rang de l’observation 𝑗 de l’échantillon 𝑖
𝑛𝑖
dans l’échantillon global, et soit 𝑆𝑖 = σ𝑗=1 𝑅𝑖𝑗 la
somme des rangs des observations de
l’échantillon 𝑖
𝑁+1 𝑁+1
• On a 𝐸 𝑆𝑖 = 𝑛𝑖 et 𝐸 𝑅𝑖𝑗 =
2 2
ҧ 𝑆𝑖
• Soit 𝑆𝑖 = ൗ𝑛𝑖 la moyenne des rangs des
observations de l’échantillon 𝑖.
• Sous 𝐻0 les 𝑆𝑖ҧ sont égaux les uns des autres et
identiques à 𝐸 𝑅𝑖𝑗 = 𝑅ത
Tests sur plusieurs échantillons :
Test de Kruskal-Wallis
• La statistique de test de Kruskal-Wallis est donnée
par :
𝐾
12
𝐻= ෍ 𝑛𝑖 𝑆𝑖ҧ − 𝑅ത 2
𝑁 𝑁+1
𝑖=1
𝐾
12 𝑆𝑖 2
𝐻= ෍ −3 𝑁+1
𝑁 𝑁+1 𝑛𝑖
𝑖=1
• Sous 𝐻0 , la statistique H tend vers 0.
• Pour 𝑛𝑖 grand (au moins 5), on H suit un khi2
(chi2) à K-1 degré de liberté
Tests d’échantillon aléatoire :
présentation
• On dispose d’un échantillon X de taille N.
• On souhaite tester si l’échantillon est aléatoire (H0
: échantillon aléatoire)
• Sous H0 plusieurs idées sont envisageables :
– L’ordre d’apparition des observations n’a pas
d’importance…
– Aucune tendance n’est discernable
– X n’est pas généré selon un processus de Markov
Tests d’échantillon aléatoire :
Application des rho de Spearman et Kendall
• Soit 𝑖 le rang d’apparition de l’observation 𝑥𝑖 et
soit 𝑅𝑖 le rang de 𝑥𝑖 dans l’échantillon global.
• Si l’échantillon est aléatoire alors il ne devrait pas
exister de corrélation entre les rangs d’apparition
1,2, … , 𝑁 et les rangs dans l’échantillon
𝑅1 , 𝑅2 , … , 𝑅𝑁
• On peut donc calculer les coefficients de
corrélation de Spearman ou de Kendall des deux
échantillons de rangs
• S’il existe une corrélation alors l’échantillon n’est
pas aléatoire.
Tests d’échantillon aléatoire :
Application des rho de Spearman et Kendall
• Le coefficient de corrélation de Spearman :
σ𝑁
𝑖=1 𝑖 − 𝑖 ҧ 𝑅𝑖 − ത
𝑅
𝜌𝑆 =
σ𝑁
𝑖=1 𝑖 − 𝑖 ҧ 2 σ𝑁 𝑅 − 𝑅
𝑖=1 𝑖
ത 2

𝑁
6 2
=1− ෍ 𝑅𝑖 − 𝑖
𝑁(𝑁 2 − 1)
𝑖=1
1
Pour rappel, 𝐸 𝜌𝑆 = 0 et 𝑉 𝜌𝑆 =
𝑁−1
Tests d’échantillon aléatoire :
Application des rho de Spearman et Kendall
• Lorsque 𝑁 > 30
𝜌𝑆 𝑁 − 1 ~ 𝒩 0,1
• Lorsque 11 ≤ 𝑁 ≤ 30
𝑁−2
𝜌𝑆 2
~ 𝓉 𝑁−2
1 − 𝜌𝑆
• Lorsque 𝑁 ≤ 10
On utilise la loi exacte.
Tests d’échantillon aléatoire :
Application des rho de Spearman et Kendall
• Le coefficient de corrélation Kendall :
4𝑄
𝜏 =1−
𝑁 𝑁−1
𝑁−1 𝑁

𝑄 = ෍ ෍ 𝕀ℝ+ 𝑥𝑖 − 𝑥𝑗
𝑖=1 𝑗=𝑖+1
2 2𝑁+5
• Pour rappel, 𝐸 𝜏 = 0 et 𝑉 𝜏 =
9𝑁 𝑁−1
• Pour 𝑁 > 10,
9𝑁 𝑁 − 1 𝜏
~ 𝒩(0,1)
2 2𝑁 + 5
Tests d’échantillon aléatoire :
Application du test des signes
• Si l’échantillon X est aléatoire, alors les
évènements 𝑥𝑖 > 𝑥𝑖+1 et 𝑥𝑖 < 𝑥𝑖+1 ont la
même probabilité de réalisation (𝑝 = 1/2)
• Soit la statistique
𝑁−1

𝑆 = ෍ 𝕀ℝ+ 𝑥𝑖 − 𝑥𝑖+1
𝑖=1
• Si la tendance est croissante, 𝑆 = 0 et si la
tendance est décroissante, 𝑆 = 𝑁 − 1
Tests d’échantillon aléatoire :
Application du test des signes
• Soit 𝑍𝑖 = 𝕀ℝ+ 𝑥𝑖 − 𝑥𝑖+1
1
• Sous H0, 𝑍𝑖 ~ 𝐵 et on a :
2
𝑁−1 𝑁−1
𝐸 𝑆 = et 𝑉 𝑆 =
2 12
• Lorsque 𝑁 > 12, on a :
𝑆 − 𝐸(𝑆)
~ 𝒩(0,1)
𝑉(𝑆)
Tests d’échantillon aléatoire :
Généralisation du test des signes (Test des séquences homogènes)

• Soit une valeur de référence noté 𝑥0 (la médiane


par exemple…)
• S’il existe une tendance monotone (croissante ou
décroissante) sur un certain nombre
d’observations consécutifs, on aura certaines
valeurs inférieures et d’autres supérieures à 𝑥0
• Soient les évènements 𝐴 = 𝑥 ≥ 𝑥0 et 𝐵 =
𝑥 < 𝑥0
• On peut transformer l’échantillon en séquence de
A et B
Tests d’échantillon aléatoire :
Généralisation du test des signes (Test des séquences homogènes)

• Soit 𝑍𝑖 = ቊ0 𝑠𝑖 𝑥𝑖−1 𝑒𝑡 𝑥𝑖 𝑒𝑛𝑔𝑒𝑛𝑑𝑟𝑒𝑛𝑡 𝑙𝑒 𝑚ê𝑚𝑒 é𝑣è𝑛𝑒𝑚𝑒𝑛𝑡 𝐴 𝑜𝑢 𝐵


1 𝑠𝑖𝑛𝑜𝑛
2𝑝𝑚
• On a 𝑝 𝑍𝑖 = 1 = 𝑝 𝐴𝐵 ∪ 𝐵𝐴 = où
𝑁(𝑁−1)
• 𝑚 est le nombre de B et 𝑝 le nombre de A
• La statistique 𝑆 = σ𝑁𝑖=2 𝑍𝑖 donne le nombre de
séquences. Plus S est grand et plus on est proche
d’un échantillon aléatoire.
• La région critique est du type :
𝑝 𝑆<𝑐 =𝛼
Tests d’échantillon aléatoire :
Généralisation du test des signes (Test des points de retournement)

1 𝑠𝑖 𝑥𝑖+1 − 𝑥𝑖 𝑥𝑖 − 𝑥𝑖−1 < 0


• Soit 𝑍𝑖 = ቊ
0 𝑠𝑖𝑛𝑜𝑛
• Si 𝑍𝑖 = 1 alors on a un point de retournement
2 2 2
• On a 𝑝 𝑍𝑖 = 1 = 1 − = et 𝐸 𝑍𝑖 =
6 3 3
• Soit 𝑃 = σ𝑁−1
𝑖=2 𝑍𝑖 , on a :
2(𝑁−1) 16𝑁−29
𝐸 𝑃 = et 𝑉 𝑃 =
3 90
• Plus 𝑝 est grand, plus on est proche d’un
échantillon aléatoire.
• La région critique est : 𝑝 𝑃 < 𝑐 = 𝛼

Vous aimerez peut-être aussi