Comparaisons Des Moyennes

COMPARAISONS DE
MOYENNES
Chapitre 8
JM NGUYEN PCEM1 2005

PLAN
Introduction
Un seul échantillon
Deux échantillons
Plus de 2 échantillons
I INTRODUCTION
Principe d’un test statistique : conclusion portée sur les

populations à partir des échantillons
II UN ECHANTILLON
Problématique
On a un échantillon E de n individus pour lequel on
mesure la valeur d’une variable aléatoire continue, X.
On cherche à savoir si les valeurs prises par cette variable aléatoire
dans cet échantillon sont compatibles avec celles d’une population
P. En d’autres termes, on se pose l’une des questions suivantes :
1- Sur le critère de la variable X, l’échantillon E est-il issu de la

population P ? (situation bilatérale)
2- L’échantillon E provient-il d’une population P’ dont la
moyenne de la variable X est supérieure à celui de la population
P ? (situation unilatérale)
3- L’échantillon E provient-il d’une population P’ dont la
moyenne de la variable X est inférieure à celui de la
population P ? (situation unilatérale)
On pose les définitions suivantes :
m= moyenne constatée sur l’échantillon

µ= moyenne théorique de la population P
σ² = variance théorique dans la population P
s² = l’estimateur sans biais de σ²
2.1 Grand échantillon (n>=30)
La moyenne m, par le TCL, suit une loi normale, d’espérance

µ et d’écart-type σ/√n.
Soit σ est connue, alors on utilise sa valeur
Soit σ est inconnue, alors on l’estime à partir de s
Le paramètre Z=[(m- µ)/σ √ n] , suit une loi normale centrée

réduite
Le test consiste à calculer le paramètre Z et à le comparer

avec la valeur critique définie par la taille et l’hypothèse testée
Exemple
Soit un échantillon de 30 garçons âgés 13 ans et dont le poids moyen
est de 43.5kg.
Sur le critère du poids, cet échantillon peut-il provenir d’une population
P dont le poids moyen est de 44kg et la variance σ²=2.54²?
Etape 1 : Choix du test et vérification des conditions d’utilisation.

Définition de la statistique.
On veut comparer la moyenne d’un échantillon à celle d’une
population P de référence.
La taille de l’échantillon est >=30, sa moyenne (par le TCL) suit une loi
normale.
La variable centrée réduite Z= (m-µ)/(s/ √ n)
suit la loi normale centrée réduite N(0,1).
Etape 2 : Définir H0 et H1
Soit µ1, la moyenne d’une population P1 représenté par l’échantillon

Soit µ0 la moyenne de la population P de référence
H 0 : µ 1 = µ 0
H : µ ≠ µ
 1 1 0
Etape 3: Fixer le risque α et définir la règle de décision.

On fixe α=5%.
On cherche à savoir si m est différent de µ (qu’elle soit inférieure
ou supérieure). On est dans une situation bilatérale.
On rejettera H0 si |Z|≥1.96. On acceptera alors H1.
On acceptera H0 si |Z|<1.96 et on ne rejettera pas H0.
Zone critique
Valeur critique 1.96
Etape 4 : Calculer la statistique
43.5 − 44
Z= = −1.078
2.54 / 30
Etape 5 : Appliquer les règles de décision

La valeur Z se situe dans la région d’acceptation de H0. On
ne rejette donc pas l’hypothèse nulle.
Etape 6 : Conclure sur les populations

Avec les données qui me sont présentées, il est possible que
l’échantillon soit issu de la population P.
Cependant, avec les données qui me sont présentées, je n’avais qu’une
probabilité de 43.3% de mettre en évidence une telle différence si elle existait
réellement (Puissance).
Sous quelles conditions aurait pu-t-on rejeter l’hypothèse nulle ?
Soit en diminuant la variance, tout en conservant le même

nombre de sujets
. − 44
435
Si σ²=1.02² et n=30 Z= = −2.68
102
. / 30
Soit en augmentant le nombre de sujets tout en conservant

la variance
. − 44
435
Si σ²=2.54² et n=3000 Z= = −10.78
2.54 / 3000
2.2 Petit échantillon (n<30)
2.2.1 Si la distribution de la variable aléatoire suit une
loi Normale et la variance est connue
On retrouve la situation en 2.1
Le paramètre Z=[(m- µ)/σ √ n] , suit une loi normale centrée réduite.
2.2.2 Si la distribution de la variable aléatoire suit une

loi Normale et la variance est inconnue
m − µ
Le paramètre t = 0
suit une loi de Student à (n-1) ddl.
s
n
Exemple : On sait que la concentration plasmatique du calcium du sujet
sain est de µ0=2.5 µmol/ml
Chez 18 personnes on a trouvé une moyenne de m=3.2 µmol/

et un écart-type s=1.1 µmol/ml.
Peut-on conclure que la calcémie moyenne de ces 18 personnes soit
augmentée ? On suppose que la moyenne µ1 de la calcémie, dans la
population dont est issu l’échantillon, suit une loi normale.

L’échantillon est petit, mais la variable aléatoire µ1 (moyenne de la

calcémie) suit une loi normale dans la population dont est issu
l’échantillon.
m − µ
La statistique t =
1
s suit une loi de Student à 17(18-1) ddl.
n
Soit µ1, la moyenne d’une population P1 représenté par l’échantillon

Soit µ0 la moyenne de la population P0 de référence
H 0 : µ 1 = µ 0
H : µ > µ
 1 1 0
Puisqu’on s’intéresse seulement de savoir si µ1 > µ0 on prendra un

test en situation unilatérale.
La valeur critique en situation bilatérale, est de t(2.5% ;17ddl)=2.11.
Nous sommes en situation unilatérale t(5% ;17ddl) =1.74.
m − µ
Si t = s
0
≥1.74, on rejettera H0. On accepte H1
n
Si t = m − µ 0 <1.74, on ne rejettera pas H0. On accepte

s
H0
n
3 . 2 − 2 .5
t = = 2 .7
1 .1
18
La valeur de la statistique t=2.7 est supérieure à 1.74.

Je rejette H0 avec un risque α=5% de me tromper.
J’accepte l’hypothèse H1
Au vu des données dont je dispose, je conclue que la calcémie moyenne

de la population dont est issu cet échantillon est supérieure à celle de la
population des sujets sains.
Remarque :
Calcul de la puissance : 1-β=85.4%
La puissance est bonne, le risque alpha est petit : les résultats ne

ressemblent pas à un fait dû au hasard.
2.1.1 Si la distribution de la variable aléatoire ne suit une loi Normale
Il n’existe pas de test non paramétrique pour comparer une

moyenne par rapport à une référence! !
On utilise alors la médiane. La médiane = valeur qui sépare

l’échantillon en 2 groupes égaux
On teste alors la proportion de sujets à droite ou a gauche de

la médiane de référence par rapport à 50%. (test de
proportion)
Exemple :
on mesure un score de douleur dans un groupe de 15 patients traités
avec un nouvel morphinique. Le score varie de 0, pour aucune
sensation de douleur à 10, douleur insupportable.
Le nouveau morphinique diminue-t-il la douleur ?
On a les résultats suivants :
0,0,1,1,2,2,2,3,3,4,5,6,7,8,8.
La médiane de la population de référence traitée avec l’ancien

médicament est de 4.
Solution : dans l’échantillon, la proportion de patients ayant
un score inférieur à 4 est de 9/15, soit 60%. Cette proportion
doit être comparée à celle de 50% de la population de
référence. Il s’agit donc d’une comparaison d’une
fréquence observée à une fréquence théorique.
III DEUX ECHANTILLONS
Notion d’appariement des mesures (pour stat en pcem1):
Mesures répétées d’une même variable, effectuées chez une même
personne. Les valeurs ne sont plus indépendantes.
Exemple : On veut évaluer l’effet d’un traitement hypo

cholestérolémiant sur 2 groupes de patients.
Pour ce faire, on mesure le taux de cholestérol avant la mise
en route du traitement puis après 3 mois de traitement.
Les mesures avant et après constituent des données appariées.
Si on compare le taux de cholestérol à 3 mois entre les 2
groupes, on ne tiendra pas en compte la valeur de départ de
chaque groupe. Il faut donc trouver une solution pour tenir
compte des valeurs de départ.
L’appariement est utilisé pour diminuer, voire ôter la variabilité
intra-sujet. Cela permet ainsi de mieux apprécier la variabilité inter-
sujets
3.2 Problématique
On a 2 échantillons de sujets pour lesquels on cherche à savoir
si les moyennes des populations sont différentes H 0 : µ 1 = µ 2

H : µ ≠ µ
test bilatéral  1 1 2
si la moyenne d’une population est supérieure à l‘autre H 0 : µ1 = µ 2

H : µ > µ
test unilatéral  1 1 2
si la moyenne d’une population est inférieure à l‘autre H 0 : µ 1 = µ 2

test unilatéral H : µ < µ
 1 1 2
3.3 Données non appariées
3.3.1 Grands échantillons : n1 et n2≥30
Par le TCL, les moyennes de ces 2 échantillons suivent des lois
normales, de moyennes µ1, µ2 et d’écart-types σ1/√n1 et σ2/√n2.
σ1 σ2
La variable (m1-m2) suit une loi N(µ1-µ2, + )
n1 n2
On estime σ1 et σ2 par s1 et s2.
m1 − m2
La statistique , Z= suit par
s12 s 22
+
n1 n 2
approximation par la normale centrée réduite.

Exemple : Dans une étude expérimentale, on veut comparer un
nouveau traitement T2 à un ancien traitement T1. Le critère de
jugement est la durée de survie.
100 souris atteintes de mélanome stade 1.

On tire au sort les souris qu’on soumet au traitement T1 ou T2
(50 dans chaque groupe).
On suit les souris jusqu’à leur décès. Toutes les conditions sont
égales entre les 2 groupes hormis le traitement, donné en double
aveugle.
T1: survie moyenne de 175 +/-60 jours
T2: survie moyenne de 200 +/- 80 jours
Le traitement T2 donne-t-il une meilleure survie chez la

souris atteinte d’un mélanome de stade 1 au risque α=5% ?
2 échantillons
Critère de jugement = survie (en jours) ≅ variable continue.
n1≥30 et n2≥30
Les moyennes suivent des lois normales par le TCL
µ 2 − µ1
Z= Suit une loi normale centrée réduite
σ 2
σ 2
2
+ 1
n2 n1
s2 s1
H0 : µ1=µ2
H1 : µ2>µ1
α=5%
Situation unilatérale
m2 − m1
Rejet de H0 si Z= 2 2 >1.64
s s
2
+ 1
n2 n1

m2 − m1 200 − 175
Z= 2 2
= = 177
.
s2 s1 80² 60²
+ +
n2 n1 50 50
Z>1.64, on rejette “H0 : µ1=µ2 ”
et on accepte “ H1 : µ2>µ1 ”

Au vu des résultats et de la méthodologie de cette
expérimentation, je conclue que T2 améliore la survie des souris
par rapport à T1.
3.3.2 Petits échantillons : (n1 ou n2) < 30
3.3.2.1 Egalité des variances (σ1 = σ2) et les variables
aléatoires (X1 et X2) suivent des lois normales
On estime la variance commune par :

( n − 1) × s 2
+ ( n − 1) × s 2
s2 =
1 1 2 2
n1 + n 2 − 2
m1 − m2
t=
Sous H0, s2 s2 suit une loi de Student à (n1+n2-2) ddl
+
n1 n2
Exemple : Idem précédent sauf n1=9 et n2=18 hypothèses
supplémentaires : Lois normales + égalité des variances

2 échantillons
critère de jugement = survie (en jours) , variable continue.
lois normales, égalité des variances, mais petits échantillons
m2 − m1
La statistique t= 2 2
suit une loi de Student à à (18+9-2) = 25 ddl
s s
+
n2 n1
H0 : µ1=µ2
H1 : µ2>µ1
α =5%.
Situation unilatérale
m2 − m1
t(5%,25ddl)= 1.708 - Rejet de H0 si t= >1.708
s2 s2
+
n2 n1
( 9 − 1) × 60 2
+ (18 − 1) × 80 2
s2 = = 5504
18 + 9 − 2
200 − 175
t= = 0.82
5504 5504
+
18 9
Situation Unilatérale :t(αα,n-1)ddl α=5%
Situation Bilatérale :t(α/2
α/2,n-1)
α/2 ddl
Probabilité à gauche 95%
97.5%
α/2=2.5%
ddl
t<1.7, on ne rejette pas “H0 : µ1=µ2 ”
Je n’ai pas mis en évidence la supériorité du traitement T2 par

rapport au traitement T1 concernant la survie des souris
atteintes de mélanomes de stade 1.
(La puissance a posteriori est de 23%)
σ1 ≠ σ2) ou (X1 ou X2) ne suit pas une loi normale
3.3.2.2 (σ
Test non paramétrique de Mann-Whitney
Test non paramétrique de Wilcoxon
Principes : on ordonne les valeurs, puis on remplace les valeurs

par leurs rangs. Les tests sont basés sur la comparaison des rangs
entre les 2 échantillons.
3.4 Données appariées
≥30 ou distribution normale

3.4.1 Grands échantillons n≥
de la variable aléatoire
3.4.1.1 Un seul échantillon
Principe : tester la moyenne des différences par rapport à zéro
 H0 : d = 0
 AV AP
H 1 : d ≠ 0 n
d n
(∑ d i ) 2
Estimation de la variance ∑ di ² − i =1
n
s2 = i =1
( n − 1)
d −0
Paramètre à tester t = s suit une loi de Student à (n-1) ddl
n
3.4.1.2 Deux échantillons, données appariées
Plusieurs possibilités de prendre en compte la valeur initiale
δ1
δ2 Comparaison de 2 moyennes indépendantes
Comparaison tenant compte de l’appariement

H 0 : δ 1 = δ 2
H : δ ≠ δ
 1 1 2
Exemple :
On mesure l’effet du stress sur la glycémie chez 9 patients. On
suppose que la glycémie suit une loi normale dans la population dont
sont issus ces 9 patients.
Pour chaque sujet, 2 mesures sont effectuées, l’une à l’état basal
après une période de sommeil, l’autre 15 mn après un stress provoqué .
On obtient les résultats suivants :
Patient 1 2 3 4 5 6 7 8 9
Basal 5.5 4.3 6.5 4.5 5.2 4.3 5.0 5.4 5.2
Stress 5.4 6.7 6.5 6.0 5.2 5.0 4.8 4.7 4.5
Le stress modifie-t-il la glycémie ?

Données appariées, un seul échantillon, loi normale. Test de la différence à zéro.

d −0
Paramètre t= suit une loi de Student à (9-1) ddl
s
n
 H0 : d = 0

H 1 : d ≠ 0
α=5%.
Situation bilatérale.
Zone de rejet de H0 : 2.306 (table de Student à 8ddl)
Calcul des différences
Patient 1 2 3 4 5 6 7 8 9
Basal 5.5 4.3 6.5 4.5 5.2 4.3 5.0 5.4 5.2
Stress 5.4 6.7 6.5 6.0 5.2 5.0 4.8 4.7 4.5
Différences -0.1 2.4 0 1.5 0 0.7 -0.2 -0.7 -0.7 2.9
D² 0.01 5.76 0 2.25 0 0.49 0.04 0.49 0.49 9.53
8.41 0.32
9.53 − t = = 0.93
s2 = 9 = 10744
. 10744
.
8
9

t<2.306, je ne rejette pas H0 : “la différence de la glycémie n’est pas
différente de zéro ”
Avec les données qui me sont présentées, je n’ai pas mis en évidence
de différence significative de glycémie avant et après une épreuve de
stress.
Remarque
Mon échantillon est petit. De plus la différence que j’ai constatée
(0.32) est 2 fois inférieure à la variabilité des différences Dans ces
conditions, il n’est pas étonnant que la différence constatée ne soit
pas significative.
(La puissance calculée a posteriori est de 14.5%.)

IV PLUS DE 2 ECHANTILLONS
4.1 Une seule comparaison
4.1.1 Paramétrique Analyse de variance (ANOVA)
Comparaison de k moyennes m1,m2,...m
Principe :
H0 : µ1=µ
µ2=...=µ
µk
H1 : au moins µ1≠µ2...ou µm≠µn...(n<=k ; m<=k)
4.1.2 Non paramétrique
Test non paramétrique de Kruskal-Wallis

4.2 Plusieurs comparaisons : tests multiples
Après le rejet de H0 d’une ANOVA ou d’un test de KW
En fonction de la conclusion recherchée :

a) Je sais quels groupes sont intéressants à comparer
Test de Dunnett (+): un groupe (témoin ou traité)

versus les autres groupes
méthode des contrastes (+) : choix de la comparaison
Exemple de contraste
G1 G2 G3 G4
-1 -1 +1 +1 (G1+G2) versus (G3+G4)
0 0 -1 +1 G3 versus G4
b) Je ne sais pas à priori quels groupes sont intéressants à comparer
Test de Bonferroni
Comparaison 2 à 2 des moyennes en utilisant un risque
de première espèce = α/k, k= nombre de groupes.
Inconvénient : peu puissante
Test de Tuckey
Méthode exacte, plus puissante que Bonferroni.

Inconvénient : conditions d’utilisation paramétriques
En l’absence de vérification des hypothèses d’utilisation des tests ci-

dessus, le test de Kruskal-Wallis multiple peut être utilisé. Il est
moins puissant, mais ne nécessite pas de conditions d’utilisation : il
est dit non paramétrique.

Comparaisons Des Moyennes

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Comparaisons Des Moyennes

Transféré par

Droits d'auteur :

Formats disponibles

COMPARAISONS DE

JM NGUYEN PCEM1 2005

Principe d’un test statistique : conclusion portée sur les

1- Sur le critère de la variable X, l’échantillon E est-il issu de la

m= moyenne constatée sur l’échantillon

La moyenne m, par le TCL, suit une loi normale, d’espérance

Soit σ est connue, alors on utilise sa valeur

Soit σ est inconnue, alors on l’estime à partir de s

Le paramètre Z=[(m- µ)/σ √ n] , suit une loi normale centrée

Le test consiste à calculer le paramètre Z et à le comparer

Etape 1 : Choix du test et vérification des conditions d’utilisation.

Soit µ1, la moyenne d’une population P1 représenté par l’échantillon

Etape 3: Fixer le risque α et définir la règle de décision.

Etape 5 : Appliquer les règles de décision

Etape 6 : Conclure sur les populations

Soit en diminuant la variance, tout en conservant le même

Soit en augmentant le nombre de sujets tout en conservant

2.2.2 Si la distribution de la variable aléatoire suit une

Chez 18 personnes on a trouvé une moyenne de m=3.2 µmol/

Etape 1 : Choix du test et vérification des conditions d’utilisation.

L’échantillon est petit, mais la variable aléatoire µ1 (moyenne de la

Soit µ1, la moyenne d’une population P1 représenté par l’échantillon

Etape 3: Fixer le risque α et définir la règle de décision.

Puisqu’on s’intéresse seulement de savoir si µ1 > µ0 on prendra un

 Si t = m − µ 0 <1.74, on ne rejettera pas H0. On accepte

La valeur de la statistique t=2.7 est supérieure à 1.74.

Au vu des données dont je dispose, je conclue que la calcémie moyenne

La puissance est bonne, le risque alpha est petit : les résultats ne

Il n’existe pas de test non paramétrique pour comparer une

On utilise alors la médiane. La médiane = valeur qui sépare

On teste alors la proportion de sujets à droite ou a gauche de

La médiane de la population de référence traitée avec l’ancien

Exemple : On veut évaluer l’effet d’un traitement hypo

si les moyennes des populations sont différentes H 0 : µ 1 = µ 2

si la moyenne d’une population est supérieure à l‘autre H 0 : µ1 = µ 2

si la moyenne d’une population est inférieure à l‘autre H 0 : µ 1 = µ 2

On estime σ1 et σ2 par s1 et s2.

approximation par la normale centrée réduite.

100 souris atteintes de mélanome stade 1.

Le traitement T2 donne-t-il une meilleure survie chez la

Les moyennes suivent des lois normales par le TCL

Etape 4 : Calculer la statistique

Etape 6 : Conclure sur les populations

On estime la variance commune par :

Etape 1 : Choix du test et vérification des conditions d’utilisation.

Etape 4 : Calculer la statistique

Etape 6 : Conclure sur les populations

Je n’ai pas mis en évidence la supériorité du traitement T2 par

Test non paramétrique de Mann-Whitney

Test non paramétrique de Wilcoxon

Principes : on ordonne les valeurs, puis on remplace les valeurs

≥30 ou distribution normale

Comparaison tenant compte de l’appariement

Le stress modifie-t-il la glycémie ?

Données appariées, un seul échantillon, loi normale. Test de la différence à zéro.

Etape 3: Fixer le risque α et définir la règle de décision.

D² 0.01 5.76 0 2.25 0 0.49 0.04 0.49 0.49 9.53

Etape 5 : Appliquer les règles de décision

(La puissance calculée a posteriori est de 14.5%.)

4.1.2 Non paramétrique

Test non paramétrique de Kruskal-Wallis

Après le rejet de H0 d’une ANOVA ou d’un test de KW

En fonction de la conclusion recherchée :

Si t = m − µ 0 <1.74, on ne rejettera pas H0. On accepte