Vous êtes sur la page 1sur 24

Tests pour k Échantillons

Pr. A. Zoglat

FSR

A. Zoglat (FSR) Introduction MSE Automne 1 / 24


Introduction

L’extension naturelle du problème de comparaison de deux échantillons


indépendants est le problème de comparaison de k échantillons
indépendants avec k ≥ 3.
On suppose qu’on dispose de k échantillons (de tailles respectives
n1 , . . . , nk ) issus de k populations indépendantes de fonctions de
répartitions (f.r.) respectives F1 , . . . , Fk . On s’intéresse à l’hypothèse
H0 : F1 = . . . = Fk contre l’alternative H1 :“Au moins deux f.r. sont
différentes”.

A. Zoglat (FSR) Introduction MSE Automne 2 / 24


Introduction

Nous nous intéressons au cas où les f.r. sont de la forme Fi (x) = F (x − θi )


avec F continue. Le problème s’énonce alors H0 : θ1 = . . . = θk contre
l’alternative H1 :“il existe i 6= j tels que θi 6= θj ”.
En statistique paramétrique, sous la condition de normalité, ce problème
peut être traité par les techniques de l’ANOVA à un facteur. En statistique
non-paramétrique, on ne supposera que la continuité de F . Pour tester H0 ,
on dispose d’un test qui est une extension du test de la médiane ainsi que
du test de Kruskal-Wallis pour l’ANOVA.

A. Zoglat (FSR) Introduction MSE Automne 3 / 24


Extension du Test de la Médiane

Sous H0 , les k échantillons ne constituent qu’un seul échantillon de tailles


N = n1 + . . . + nk issu d’une population de f.r. F continue. On note δ la
médiane de F et δb = md la médiane de cet échantillon. Sous H0 , chaque
observation a approximativement 50% de chance d’être supérieure à md .
L’échantillon sera en faveur de H0 si le nombre d’observations supérieures à
md est approximativement égal N/2.
Un test basé sur ce critère est attribué à Brown et Mood (1948, 1951).

A. Zoglat (FSR) Introduction MSE Automne 4 / 24


Extension du Test de la Médiane

Pour le i ème échantillon, i = 1, . . . , k, on notera Ui le nombre


d’observations inférieures à md . On note t = U1 + . . . + Uk le nombre total
d’observations inférieures à md .

Échantillon 1 Échantillon 2 ... Échantillon k Total


<md u1 u2 ... uk t
≥ md n1 − u1 n2 − u2 ... nk − uk N −t
Total n1 n2 ... nk N

A. Zoglat (FSR) Introduction MSE Automne 5 / 24


Extension du Test de la Médiane

N

Sous l’hypothèse H0 , les t répartitions des observations par rapport à md
sont équiprobables et le nombre de répartitions dichotomiques (dans ce
cas) est égal à ki=1 nuii . Ainsi,
Q 

n1 nk
 
u1 ... uk
f (u1 , u2 , . . . , uk |t) = N
 .
t

Soit π la probabilité qu’une observation soit inférieure à δ. Si un ou


plusieurs Ui sont “trop” loin de leurs moyennes ni π, on doit rejeter H0 .

A. Zoglat (FSR) Introduction MSE Automne 6 / 24


Extension du Test de la Médiane

Généralement, il n’est pas facile de définir la région de rejet. Nous pouvons


toutefois baser notre décision sur un autre critère qui, malgré qu’il repose
sur une approximation, peut s’avérer assez fiable pourvu que min ni ≥ 5.
i
Pour i = 1, 2, . . . , k, on note fi1 = ui et fi2 = ni − ui les fréquences
observées des observations respectivement inférieures et supérieures ou
égales à la médiane.

A. Zoglat (FSR) Introduction MSE Automne 7 / 24


Extension du Test de la Médiane

ni t
Les fréquences théoriques, sous H0 , sont alors données par : ei1 = et
N
ni (N − t)
ei2 = . La statistique 1
N
2
k X k
X (fij − eij )2 N2 X (ui − ni t/N)2
Q= = ,
eij t(N − t) ni
i=1 j=1 i=1

suit asymptotiquement une loi de χ2(k−1) .

Remarque
N −1
Cette approximation est meilleure pour Q ∗ = Q.
N

1. Formule corrigée : ni au lieu de ui


A. Zoglat (FSR) Introduction MSE Automne 8 / 24
Exemple

Une étude a montré que 45% de personnes “normales” ronflent parfois


pendant leur sommeil alors que 25% ronflent pratiquement tout le temps.
Trois instruments, conçus pour empêcher de ronfler, viennent d’être
brevetés. Pour déterminer l’instrument le plus efficace des trois, une
expérience a été menée auprès de 15 personnes qui d’habitude ronflent
pendant leur sommeil. Ces 15 personnes ont été réparties au hasard en trois
groupes dont chacun sera doté d’un type d’instrument. Les intensités de
ronflement mesurées pour chaque personne sont reportées dans le tableau
suivant :

A. Zoglat (FSR) Introduction MSE Automne 9 / 24


Exemple [Instrument]

Instrument
I1 I2 I3
73 96 12
79 92 26
86 89 33
91 95 8
35 76 78

Au seuil de signification α = 0.05, que peut-on conclure ?

A. Zoglat (FSR) Introduction MSE Automne 10 / 24


Solution avec R

library(agricolae);I1=c(73,79,86,91,35);I2=c(96,92,89,95,76);
I3=c(12,26,33,8,78);rfldata=c(I1,I2,I3); n1=length(I1);
n2=length(I2); n3=length(I3); N=sum(c(n1,n2,n3));
trtmnt=c(rep(1,n1),rep(2,n2),rep(3,n3))
u1=sum(ifelse(I1<median(rfldata), 1,0))
u2=sum(ifelse(I2<median(rfldata), 1,0))
u3=sum(ifelse(I3<median(rfldata), 1,0)); t=u1+u2+u3
Q=(N^2/(t*(N-t)))*sum(c((u1-n1*t/N)^2/n1,(u2-n2*t/N)^2/n2),
(u3-n3*t/N)^2/n3); Qstar=(1-1/N)*Q
pvalue=pchisq(Qstar,df = 2,lower.tail = FALSE)
A. Zoglat (FSR) Introduction MSE Automne 11 / 24
Test de Kruskal-Wallis

Le test de la médiane pour k échantillons est basé sur la comparaison de


chaque observation à la médiane de l’échantillon mélange. Nous présentons
ici un test qui, en plus, prend en considération l’amplitude de la déviation
de chaque observation par rapport à la médiane.
Sous H0 , les N observations sont issues de la même population. Les rangs
des observations devraient alors être “bien distribués” entre les k
échantillons de sorte que la contribution de chaque échantillon dans la
somme des rangs est proportionnelle à sa taille :
Pour le i ème échantillon, la somme des rangs espérée (sous H0 ) est égale à
ni N(N + 1) ni (N + 1)
= .
N 2 2
A. Zoglat (FSR) Introduction MSE Automne 12 / 24
Test de Kruskal-Wallis

On peut aussi l’expliquer en remarquant que sous H0 , le rang moyen pour


1 X N +1
chaque observation est i= . L’espérance des sommes rangs
N 2
ni (N + 1)
de ni observations est donc égale à .
2
Notons Ri la somme des rangs des observations du i ème échantillon. Le
test suivant est un test raisonnable basé sur les déviations des sommes des
rangs observés par rapport aux rangs espérés :
k h
X ni (N + 1) i2
S= Ri − .
2
i=1

L’hypothèse H0 est rejetée pou les grandes valeurs de S.

A. Zoglat (FSR) Introduction MSE Automne 13 / 24


Test de Kruskal-Wallis

La loi de S, sous H0 est donnée par

t(s)
fS (s) = Qk ,
i=1 ni !/N!

où t(s) est le nombre de rangements possibles pour que S = s.


Il est clair que le calcul de la loi de S n’est pas simple. Des tables pour
cette loi sont disponibles dans certains cas où les ni sont égaux et petits et
k = 3, 4 ou 5.
Il existe des variantes de S qui utilisent le théorème central limite pour
obtenir asymptotiquement des valeurs critiques.

A. Zoglat (FSR) Introduction MSE Automne 14 / 24


Test de Kruskal-Wallis

La statistique de Kruskal-Wallis est donnée par


k
12 X 1 h ni (N + 1) i2
H= Ri − .
N(N + 1) ni 2
i=1

Les deux statistiques S et H sont équivalentes seulement si les tailles ni des


échantillons sont égales.
La complexité des calculs des lois exactes de ces statistiques justifie le
recours aux approximations pour déterminer les valeurs critiques.

A. Zoglat (FSR) Introduction MSE Automne 15 / 24


Test de Kruskal-Wallis

Sous l’hypothèse H0 , les rangs occupés par les observations du i ème


échantillon constituent donc un échantillon aléatoire de taille ni choisi sans
remise dans la population finie {1, 2, . . . , N}. La moyenne est la variance de
cette population sont :
N N
1 X N +1 1 X
2 N2 − 1
µ= i= , et σ = (i − µ)2 = .
N 2 N 12
i=1 i=1

L’espérance et la variance du rang moyen du i ème échantillon, R i = Ri /ni ,


sont données par :
σ 2 N − ni
E[R i ] = µ, et Var (R i ) = .
ni N − 1

A. Zoglat (FSR) Introduction MSE Automne 16 / 24
Test de Kruskal-Wallis

Ainsi, sous H0 , on a

N +1 (N − ni )(N + 1) N +1
E[R i ] = , Var (R i ) = , et Cov (R i , R j ) = − .
2 12ni 12

Puisque R i est une moyenne d’échantillon, on a par le théorème central


R i − (N + 1)/2 L
limite : Zi = p ' N (0, 1), pour ni assez grand. Les
(N − ni )(N + 1)/12ni
X N
Zi ne sont pas indépendants puisque ni R i = N(N + 1)/2.
i=1

A. Zoglat (FSR) Introduction MSE Automne 17 / 24


Test de Kruskal-Wallis

Kruskal (1952) a montré que, sous H0 , si aucun ni n’est trop petit alors
N N  n (N+1) 2
X N − ni 2 X 12ni Ri − i 2
Zi = = H,
N N(N + 1)
i=1 i=1

suit approximativement une loi de χ2k−1 .


Lorsque H0 est rejetée, nous pouvons recourir à la procédure des
comparaisons multiples. Pour comparer les deux groupes i et j
(1 ≤ i < j ≤ k), nous calculons

|R i − R j |
Zij = q 
N(N + 1)/12 (1/ni + 1/nj )

A. Zoglat (FSR) Introduction MSE Automne 18 / 24


Exemple [Instrument, suite]

I1=c(73,79,86,91,35); I2=c(96,92,89,95,76)
I3=c(12,26,33,8,78); rfldata=c(I1,I2,I3)
n1=length(I1); n2=length(I2); n3=length(I3)
N=sum(c(n1,n2,n3)); trtmnt=c(rep(1,n1),rep(2,n2),rep(3,n3))
rng=rank(rfldata)
rng1=sum(rng[1:5]);rng2=sum(rng[6:10]);rng3=sum(rng[11:15])
krskl=sum(c((rng1-n1*(N+1)/2)^2/n1,(rng2-n2*(N+1)/2)^2/n2,
(rng3-n3*(N+1)/2)^2/n3))
Hkrskl=12*krskl/(N*(N+1))
kruskal.test(rfldata,trtmnt) # Test implémenté dans R
A. Zoglat (FSR) Introduction MSE Automne 19 / 24
Exemple

Les médecins dans dans un hôpital psychiatrique aimeraient connaître le


traitement le plus efficace pour un certain type de troubles mentaux. Un
groupe de 40 patients de conditions physiques et mentales similaires ont
été répartis au hasard en quatre (4) groupes de dix (10) patients. Pendent
six (6) mois, trois groupes ont été traités respectivement à (1)
l’Électrochoc, (2) la Psychothérapie, (3) l’Électrochoc & la Psychothérapie,
alors que le quatrième groupe n’a reçu aucun traitement.

A. Zoglat (FSR) Introduction MSE Automne 20 / 24


Exemple

À la fin de cette période, les patients ont subi un ensemble de tests afin de
les classer selon l’amélioration de leurs états après les traitements. Le rang
1 indique le plus haut niveau d’amélioration, suivi du rang 2 . . . etc. Sur la
base des résultats ci-dessous, peut-on conclure que les effets des
traitements sont différents ?
Groupe Rangs des patients
1 19 22 25 24 29 26 37 23 27 28
2 14 21 2 6 10 16 17 11 18 7
3 12 1 5 8 4 13 9 15 3 20
4 38 39 40 30 31 32 33 36 34 35

A. Zoglat (FSR) Introduction MSE Automne 21 / 24


Solution
rngg1=c(19,22,25,24,29,26,37,23,27,28); R1=sum(rngg1)
rngg2=c(14,21,2,6,10,16,17,11,18,7); R2=sum(rngg2)
rngg3=c(12,1,5,8,4,13,9,15,3,20); R3=sum(rngg3)
rngg4=c(38,39,40,30,31,32,33,36,34,35); R4=sum(rngg4)
trtpsy=c(rep(1,10),rep(2,10),rep(3,10),rep(4,10))
m1=10;m2=10;m3=10;m4=10; M=m1+m2+m3+m4
krskl.psy=sum(c((R1-m1*(M+1)/2)^2/m1,(R2-m2*(M+1)/2)^2/m2,
(R3-m3*(M+1)/2)^2/m3,(R4-m4*(M+1)/2)^2/m4))
Hkrskl.psy=12*krskl.psy/(M*(M+1))
pchisq(Hkrskl.psy,3,lower.tail = FALSE)
kruskal.test(c(rngg1,rngg2,rngg3,rngg4),trtpsy) # Le code R
A. Zoglat (FSR) Introduction MSE Automne 22 / 24
Solution

> Hkrskl.psy
[1] 31.89366
> pchisq(Hkrskl.psy,3,lower.tail = FALSE)
[1] 5.510612e-07

> kruskal.test(c(rngg1, rngg2, rngg3, rngg4),trtpsy)


Kruskal-Wallis rank sum test
data: c(rngg1, rngg2, rngg3, rngg4) and trtpsy
Kruskal-Wallis chi-squared=31.894,df=3,p-value=5.511e-07

A. Zoglat (FSR) Introduction MSE Automne 23 / 24


Exercice

Pour chacun des trois romanciers (C.E. Vulliamy, , Ellery Queen, Helen Mc-
Cloy ) on a choisi un roman. Le tableau ci-dessous contient le nombre de
phrases par page comptées sur des pages choisies au hasard.

C.E. Vulliamy 13 27 26 22 26
Ellery Queen 43 35 47 32 31 37
Helen McCloy 33 37 33 26 44 33 54

Au seuil signification α = 0.05, peut-on conclure que les nombres de


phrases par page (pour les trois romanciers) sont identiquement distribués.

A. Zoglat (FSR) Introduction MSE Automne 24 / 24