Vous êtes sur la page 1sur 39

COMPARAISONS DE

MOYENNES
Chapitre 8

JM NGUYEN PCEM1 2005


PLAN
Introduction

Un seul échantillon

Deux échantillons

Plus de 2 échantillons
I INTRODUCTION

Principe d’un test statistique : conclusion portée sur les


populations à partir des échantillons
II UN ECHANTILLON
Problématique
On a un échantillon E de n individus pour lequel on
mesure la valeur d’une variable aléatoire continue, X.
On cherche à savoir si les valeurs prises par cette variable aléatoire
dans cet échantillon sont compatibles avec celles d’une population
P. En d’autres termes, on se pose l’une des questions suivantes :

1- Sur le critère de la variable X, l’échantillon E est-il issu de la


population P ? (situation bilatérale)
2- L’échantillon E provient-il d’une population P’ dont la
moyenne de la variable X est supérieure à celui de la population
P ? (situation unilatérale)
3- L’échantillon E provient-il d’une population P’ dont la
moyenne de la variable X est inférieure à celui de la
population P ? (situation unilatérale)
On pose les définitions suivantes :

m= moyenne constatée sur l’échantillon


µ= moyenne théorique de la population P
σ² = variance théorique dans la population P
s² = l’estimateur sans biais de σ²
2.1 Grand échantillon (n>=30)

La moyenne m, par le TCL, suit une loi normale, d’espérance


µ et d’écart-type σ/√n.

Soit σ est connue, alors on utilise sa valeur

Soit σ est inconnue, alors on l’estime à partir de s

Le paramètre Z=[(m- µ)/σ √ n] , suit une loi normale centrée


réduite

Le test consiste à calculer le paramètre Z et à le comparer


avec la valeur critique définie par la taille et l’hypothèse testée
Exemple
Soit un échantillon de 30 garçons âgés 13 ans et dont le poids moyen
est de 43.5kg.
Sur le critère du poids, cet échantillon peut-il provenir d’une population
P dont le poids moyen est de 44kg et la variance σ²=2.54²?

Etape 1 : Choix du test et vérification des conditions d’utilisation.


Définition de la statistique.
On veut comparer la moyenne d’un échantillon à celle d’une
population P de référence.

La taille de l’échantillon est >=30, sa moyenne (par le TCL) suit une loi
normale.
La variable centrée réduite Z= (m-µ)/(s/ √ n)
suit la loi normale centrée réduite N(0,1).
Etape 2 : Définir H0 et H1

Soit µ1, la moyenne d’une population P1 représenté par l’échantillon


Soit µ0 la moyenne de la population P de référence

H 0 : µ 1 = µ 0
H : µ ≠ µ
 1 1 0

Etape 3: Fixer le risque α et définir la règle de décision.


On fixe α=5%.
On cherche à savoir si m est différent de µ (qu’elle soit inférieure
ou supérieure). On est dans une situation bilatérale.
On rejettera H0 si |Z|≥1.96. On acceptera alors H1.
On acceptera H0 si |Z|<1.96 et on ne rejettera pas H0.
Zone critique
Valeur critique 1.96
Etape 4 : Calculer la statistique
43.5 − 44
Z= = −1.078
2.54 / 30

Etape 5 : Appliquer les règles de décision


La valeur Z se situe dans la région d’acceptation de H0. On
ne rejette donc pas l’hypothèse nulle.

Etape 6 : Conclure sur les populations


Avec les données qui me sont présentées, il est possible que
l’échantillon soit issu de la population P.
Cependant, avec les données qui me sont présentées, je n’avais qu’une
probabilité de 43.3% de mettre en évidence une telle différence si elle existait
réellement (Puissance).
Sous quelles conditions aurait pu-t-on rejeter l’hypothèse nulle ?

Soit en diminuant la variance, tout en conservant le même


nombre de sujets
. − 44
435
Si σ²=1.02² et n=30 Z= = −2.68
102
. / 30

Soit en augmentant le nombre de sujets tout en conservant


la variance
. − 44
435
Si σ²=2.54² et n=3000 Z= = −10.78
2.54 / 3000
2.2 Petit échantillon (n<30)
2.2.1 Si la distribution de la variable aléatoire suit une
loi Normale et la variance est connue
On retrouve la situation en 2.1
Le paramètre Z=[(m- µ)/σ √ n] , suit une loi normale centrée réduite.

2.2.2 Si la distribution de la variable aléatoire suit une


loi Normale et la variance est inconnue
m − µ
Le paramètre t = 0
suit une loi de Student à (n-1) ddl.
s
n
Exemple : On sait que la concentration plasmatique du calcium du sujet
sain est de µ0=2.5 µmol/ml

Chez 18 personnes on a trouvé une moyenne de m=3.2 µmol/


et un écart-type s=1.1 µmol/ml.
Peut-on conclure que la calcémie moyenne de ces 18 personnes soit
augmentée ? On suppose que la moyenne µ1 de la calcémie, dans la
population dont est issu l’échantillon, suit une loi normale.

Etape 1 : Choix du test et vérification des conditions d’utilisation.


Définition de la statistique.

L’échantillon est petit, mais la variable aléatoire µ1 (moyenne de la


calcémie) suit une loi normale dans la population dont est issu
l’échantillon.
m − µ
La statistique t =
1
s suit une loi de Student à 17(18-1) ddl.
n
Etape 2 : Définir H0 et H1

Soit µ1, la moyenne d’une population P1 représenté par l’échantillon


Soit µ0 la moyenne de la population P0 de référence
H 0 : µ 1 = µ 0
H : µ > µ
 1 1 0

Etape 3: Fixer le risque α et définir la règle de décision.

Puisqu’on s’intéresse seulement de savoir si µ1 > µ0 on prendra un


test en situation unilatérale.
La valeur critique en situation bilatérale, est de t(2.5% ;17ddl)=2.11.
Nous sommes en situation unilatérale t(5% ;17ddl) =1.74.
m − µ
— Si t = s
0
≥1.74, on rejettera H0. On accepte H1
n

— Si t = m − µ 0 <1.74, on ne rejettera pas H0. On accepte


s
H0
n
Etape 4 : Calculer la statistique
3 . 2 − 2 .5
t = = 2 .7
1 .1
18
Etape 5 : Appliquer les règles de décision

La valeur de la statistique t=2.7 est supérieure à 1.74.


Je rejette H0 avec un risque α=5% de me tromper.
J’accepte l’hypothèse H1
Etape 6 : Conclure sur les populations

Au vu des données dont je dispose, je conclue que la calcémie moyenne


de la population dont est issu cet échantillon est supérieure à celle de la
population des sujets sains.

Remarque :
Calcul de la puissance : 1-β=85.4%

La puissance est bonne, le risque alpha est petit : les résultats ne


ressemblent pas à un fait dû au hasard.
2.1.1 Si la distribution de la variable aléatoire ne suit une loi Normale

Il n’existe pas de test non paramétrique pour comparer une


moyenne par rapport à une référence! !

On utilise alors la médiane. La médiane = valeur qui sépare


l’échantillon en 2 groupes égaux

On teste alors la proportion de sujets à droite ou a gauche de


la médiane de référence par rapport à 50%. (test de
proportion)
Exemple :
on mesure un score de douleur dans un groupe de 15 patients traités
avec un nouvel morphinique. Le score varie de 0, pour aucune
sensation de douleur à 10, douleur insupportable.
Le nouveau morphinique diminue-t-il la douleur ?
On a les résultats suivants :
0,0,1,1,2,2,2,3,3,4,5,6,7,8,8.

La médiane de la population de référence traitée avec l’ancien


médicament est de 4.
Solution : dans l’échantillon, la proportion de patients ayant
un score inférieur à 4 est de 9/15, soit 60%. Cette proportion
doit être comparée à celle de 50% de la population de
référence. Il s’agit donc d’une comparaison d’une
fréquence observée à une fréquence théorique.
III DEUX ECHANTILLONS
Notion d’appariement des mesures (pour stat en pcem1):
Mesures répétées d’une même variable, effectuées chez une même
personne. Les valeurs ne sont plus indépendantes.

Exemple : On veut évaluer l’effet d’un traitement hypo


cholestérolémiant sur 2 groupes de patients.
Pour ce faire, on mesure le taux de cholestérol avant la mise
en route du traitement puis après 3 mois de traitement.
Les mesures avant et après constituent des données appariées.
Si on compare le taux de cholestérol à 3 mois entre les 2
groupes, on ne tiendra pas en compte la valeur de départ de
chaque groupe. Il faut donc trouver une solution pour tenir
compte des valeurs de départ.
L’appariement est utilisé pour diminuer, voire ôter la variabilité
intra-sujet. Cela permet ainsi de mieux apprécier la variabilité inter-
sujets

3.2 Problématique
On a 2 échantillons de sujets pour lesquels on cherche à savoir

si les moyennes des populations sont différentes H 0 : µ 1 = µ 2


H : µ ≠ µ
test bilatéral  1 1 2

si la moyenne d’une population est supérieure à l‘autre H 0 : µ1 = µ 2


H : µ > µ
test unilatéral  1 1 2

si la moyenne d’une population est inférieure à l‘autre H 0 : µ 1 = µ 2


test unilatéral H : µ < µ
 1 1 2
3.3 Données non appariées
3.3.1 Grands échantillons : n1 et n2≥30
Par le TCL, les moyennes de ces 2 échantillons suivent des lois
normales, de moyennes µ1, µ2 et d’écart-types σ1/√n1 et σ2/√n2.
σ1 σ2
La variable (m1-m2) suit une loi N(µ1-µ2, + )
n1 n2

On estime σ1 et σ2 par s1 et s2.

m1 − m2
La statistique , Z= suit par
s12 s 22
+
n1 n 2

approximation par la normale centrée réduite.


Exemple : Dans une étude expérimentale, on veut comparer un
nouveau traitement T2 à un ancien traitement T1. Le critère de
jugement est la durée de survie.

100 souris atteintes de mélanome stade 1.


On tire au sort les souris qu’on soumet au traitement T1 ou T2
(50 dans chaque groupe).
On suit les souris jusqu’à leur décès. Toutes les conditions sont
égales entre les 2 groupes hormis le traitement, donné en double
aveugle.
T1: survie moyenne de 175 +/-60 jours
T2: survie moyenne de 200 +/- 80 jours

Le traitement T2 donne-t-il une meilleure survie chez la


souris atteinte d’un mélanome de stade 1 au risque α=5% ?
Etape 1 : Choix du test et vérification des conditions d’utilisation.
Définition de la statistique.

— 2 échantillons
— Critère de jugement = survie (en jours) ≅ variable continue.
— n1≥30 et n2≥30

Les moyennes suivent des lois normales par le TCL

µ 2 − µ1
Z= Suit une loi normale centrée réduite
σ 2
σ 2
2
+ 1
n2 n1
s2 s1
Etape 2 : Définir H0 et H1
H0 : µ1=µ2
H1 : µ2>µ1
Etape 3: Fixer le risque α et définir la règle de décision.
α=5%
Situation unilatérale
m2 − m1
Rejet de H0 si Z= 2 2 >1.64
s s
2
+ 1

n2 n1

Etape 4 : Calculer la statistique


m2 − m1 200 − 175
Z= 2 2
= = 177
.
s2 s1 80² 60²
+ +
n2 n1 50 50
Etape 5 : Appliquer les règles de décision
Z>1.64, on rejette “H0 : µ1=µ2 ”
et on accepte “ H1 : µ2>µ1 ”

Etape 6 : Conclure sur les populations


Au vu des résultats et de la méthodologie de cette
expérimentation, je conclue que T2 améliore la survie des souris
par rapport à T1.
3.3.2 Petits échantillons : (n1 ou n2) < 30
3.3.2.1 Egalité des variances (σ1 = σ2) et les variables
aléatoires (X1 et X2) suivent des lois normales

On estime la variance commune par :


( n − 1) × s 2
+ ( n − 1) × s 2

s2 =
1 1 2 2

n1 + n 2 − 2

m1 − m2
t=
Sous H0, s2 s2 suit une loi de Student à (n1+n2-2) ddl
+
n1 n2
Exemple : Idem précédent sauf n1=9 et n2=18 hypothèses
supplémentaires : Lois normales + égalité des variances

Etape 1 : Choix du test et vérification des conditions d’utilisation.


Définition de la statistique.

2 échantillons
critère de jugement = survie (en jours) , variable continue.
lois normales, égalité des variances, mais petits échantillons
m2 − m1
La statistique t= 2 2
suit une loi de Student à à (18+9-2) = 25 ddl
s s
+
n2 n1

Etape 2 : Définir H0 et H1

H0 : µ1=µ2
H1 : µ2>µ1
Etape 3: Fixer le risque α et définir la règle de décision.

α =5%.
Situation unilatérale
m2 − m1
t(5%,25ddl)= 1.708 - Rejet de H0 si t= >1.708
s2 s2
+
n2 n1

Etape 4 : Calculer la statistique

( 9 − 1) × 60 2
+ (18 − 1) × 80 2
s2 = = 5504
18 + 9 − 2

200 − 175
t= = 0.82
5504 5504
+
18 9
Situation Unilatérale :t(αα,n-1)ddl α=5%
Situation Bilatérale :t(α/2
α/2,n-1)
α/2 ddl
Probabilité à gauche 95%

97.5%
α/2=2.5%

ddl
Etape 5 : Appliquer les règles de décision
t<1.7, on ne rejette pas “H0 : µ1=µ2 ”

Etape 6 : Conclure sur les populations

Je n’ai pas mis en évidence la supériorité du traitement T2 par


rapport au traitement T1 concernant la survie des souris
atteintes de mélanomes de stade 1.
(La puissance a posteriori est de 23%)
σ1 ≠ σ2) ou (X1 ou X2) ne suit pas une loi normale
3.3.2.2 (σ

Test non paramétrique de Mann-Whitney

Test non paramétrique de Wilcoxon

Principes : on ordonne les valeurs, puis on remplace les valeurs


par leurs rangs. Les tests sont basés sur la comparaison des rangs
entre les 2 échantillons.
3.4 Données appariées

≥30 ou distribution normale


3.4.1 Grands échantillons n≥
de la variable aléatoire
3.4.1.1 Un seul échantillon
Principe : tester la moyenne des différences par rapport à zéro
 H0 : d = 0
 AV AP
H 1 : d ≠ 0 n
d n
(∑ d i ) 2
Estimation de la variance ∑ di ² − i =1
n
s2 = i =1
( n − 1)
d −0
Paramètre à tester t = s suit une loi de Student à (n-1) ddl
n
3.4.1.2 Deux échantillons, données appariées
Plusieurs possibilités de prendre en compte la valeur initiale

δ1
δ2 Comparaison de 2 moyennes indépendantes

Comparaison tenant compte de l’appariement


H 0 : δ 1 = δ 2
H : δ ≠ δ
 1 1 2
Exemple :
On mesure l’effet du stress sur la glycémie chez 9 patients. On
suppose que la glycémie suit une loi normale dans la population dont
sont issus ces 9 patients.
Pour chaque sujet, 2 mesures sont effectuées, l’une à l’état basal
après une période de sommeil, l’autre 15 mn après un stress provoqué .
On obtient les résultats suivants :

Patient 1 2 3 4 5 6 7 8 9
Basal 5.5 4.3 6.5 4.5 5.2 4.3 5.0 5.4 5.2

Stress 5.4 6.7 6.5 6.0 5.2 5.0 4.8 4.7 4.5

Le stress modifie-t-il la glycémie ?


Etape 1 : Choix du test et vérification des conditions d’utilisation.
Définition de la statistique.

Données appariées, un seul échantillon, loi normale. Test de la différence à zéro.


d −0
Paramètre t= suit une loi de Student à (9-1) ddl
s
n
Etape 2 : Définir H0 et H1
 H0 : d = 0

H 1 : d ≠ 0

Etape 3: Fixer le risque α et définir la règle de décision.

α=5%.
Situation bilatérale.
Zone de rejet de H0 : 2.306 (table de Student à 8ddl)
Etape 4 : Calculer la statistique
Calcul des différences
Patient 1 2 3 4 5 6 7 8 9
Basal 5.5 4.3 6.5 4.5 5.2 4.3 5.0 5.4 5.2
Stress 5.4 6.7 6.5 6.0 5.2 5.0 4.8 4.7 4.5
Différences -0.1 2.4 0 1.5 0 0.7 -0.2 -0.7 -0.7 2.9

D² 0.01 5.76 0 2.25 0 0.49 0.04 0.49 0.49 9.53

8.41 0.32
9.53 − t = = 0.93
s2 = 9 = 10744
. 10744
.
8
9

Etape 5 : Appliquer les règles de décision


t<2.306, je ne rejette pas H0 : “la différence de la glycémie n’est pas
différente de zéro ”
Etape 6 : Conclure sur les populations

Avec les données qui me sont présentées, je n’ai pas mis en évidence
de différence significative de glycémie avant et après une épreuve de
stress.

Remarque
Mon échantillon est petit. De plus la différence que j’ai constatée
(0.32) est 2 fois inférieure à la variabilité des différences Dans ces
conditions, il n’est pas étonnant que la différence constatée ne soit
pas significative.

(La puissance calculée a posteriori est de 14.5%.)


IV PLUS DE 2 ECHANTILLONS
4.1 Une seule comparaison
4.1.1 Paramétrique Analyse de variance (ANOVA)
Comparaison de k moyennes m1,m2,...m
Principe :
H0 : µ1=µ
µ2=...=µ
µk
H1 : au moins µ1≠µ2...ou µm≠µn...(n<=k ; m<=k)

4.1.2 Non paramétrique

Test non paramétrique de Kruskal-Wallis


4.2 Plusieurs comparaisons : tests multiples

Après le rejet de H0 d’une ANOVA ou d’un test de KW

En fonction de la conclusion recherchée :


a) Je sais quels groupes sont intéressants à comparer

Test de Dunnett (+): un groupe (témoin ou traité)


versus les autres groupes
méthode des contrastes (+) : choix de la comparaison

Exemple de contraste
G1 G2 G3 G4
-1 -1 +1 +1 (G1+G2) versus (G3+G4)
0 0 -1 +1 G3 versus G4
b) Je ne sais pas à priori quels groupes sont intéressants à comparer

Test de Bonferroni
Comparaison 2 à 2 des moyennes en utilisant un risque
de première espèce = α/k, k= nombre de groupes.

Inconvénient : peu puissante

Test de Tuckey

Méthode exacte, plus puissante que Bonferroni.


Inconvénient : conditions d’utilisation paramétriques

En l’absence de vérification des hypothèses d’utilisation des tests ci-


dessus, le test de Kruskal-Wallis multiple peut être utilisé. Il est
moins puissant, mais ne nécessite pas de conditions d’utilisation : il
est dit non paramétrique.