Vous êtes sur la page 1sur 26

THEORIE DES TESTS

STATISTIQUES

PCEM1 2006
PLAN
Principe

Risques et probabilités d’erreur

Nombre de sujets nécessaires


I PRINCIPES DU TEST STATISTIQUE
• Dans une population de batraciens, on a observé une
mutation génétique. Elle se traduit par une modification de la
fréquence des croassements, passant de 90-120 KHz à 35-75
KHz.

Batraciens mutés
KHz
35 75
Batraciens non mutés
KHz
90 120

• Pour différencier les batraciens mutés et non mutés, il suffit


de faire une règle de décision « si la fréquence est < 80,
alors il s’agit d’un batracien ayant la mutation ».
• En réalité, on observe la répartition suivante:

45

40

35 Règle de décision à 80 KHz

30

25
Non Mutés
20
Mutés
Nombre de cas

15

10

KHz
Les tests d’hypothèses sont des outils pour prendre la
décision de rejeter l’une des 2 hypothèses en situation
d’incertitude : les données que nous possédions ne sont pas
incompatibles avec l’une ou l’autre des hypothèses.
 
Si on constitue 2 échantillons de sujets provenant de 2
populations, le fait de constater que ma ≠ mb ne correspond
pas forcément que µa ≠ µb et donc cela ne doit pas nous
mener à rejeter µa = µb. 

Les tests que nous utilisons doivent nous garantir la


minimisation de la prise de risques.
Un producteur de foie gras cherche à améliorer le poids de ses foies
gras
Il constate dans ses archives, les résultats suivants:
Poids moyen=1.2 Nb

Variance=1.44 250

N=1225 200

150

100

50

0
0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.9
Poids

Un industriel lui propose, à l’essai, un complément alimentaire


pour ses canards gras en 2003 et affirme que ce produit
augmenterait de 10% le poids moyen des foie gras (+0.12kg).
Que doit-il croire ? 2 hypothèses s’affrontent :

1°) ou bien le complément 2°) ou bien le complément


alimentaire n’a aucun effet sur le alimentaire augmente bien le
poids moyen de ses foies gras poids moyen de ses foies gras

Soit m le poids moyen des foies  H 0 : m = 1.2kg



 H1 : m = 1.32 Kg
Le complément alimentaire étant onéreux, l’agriculteur
préfère rester en statu quo tant que les faits observés ne
prouvent pas le contraire.
H0 est appelé l’hypothèse nulle
H1 est appelé l’hypothèse alternative
Comment va-t-il prendre sa décision ?
Il n’abandonne pas ses anciennes méthodes, donc H0 , sauf si les
faits expérimentaux sont tels que H0 ne soit plus probable.
Il va choisir le niveau de probabilité qu’il considère comme
improbable, 5%
Il ne va croire au produit ( donc à H1) que si la probabilité de se
tromper est inférieure à 5%.
Sans le savoir, il a construit un test statistique.

m=1.2

5%

Poids moyen des foies


1.2
m + 1.64 × = 1.256
1225

Si m1>1.256, alors il repousse H0 et accepte H1


La valeur à partie de laquelle il considère que
les résultats ne sont pas dus au hasard
s’appelle le seuil de la zone critique

Valeur critique
Moy. théorique Zone critique

Poids moyen des foies gras

L’ensemble des {m1>1.256} est appelé région critique ou


région de rejet de H0.
Epilogue
Au bout d’un an, le poids moyen des foies est de m1=1.24 kg
Il conserve alors H0 car cette différence (1.2 à 1.24) peut être
due au hasard et n’est pas le fait du complément alimentaire.
Conséquences
Cependant, rien ne dit qu’il ne s’est pas trompé en conservant
H0 car l’industriel avait peut être raison, mais avec ses canards,
il n’a rien vu.
Il y a donc 2 manières de se tromper
La première consiste à croire à l’effet du complément
alimentaire sur le gain de poids, alors que le produit n’y est pour
rien.
C’est le risque 5% qu’il a décidé de prendre. Ce risque est
appelé risque de première espèce et est noté α.

La deuxième manière de se tromper consiste à ne pas croire à


l’effet du complément alimentaire sur le gain de poids, alors que
le produit a réellement un effet. Mais avec les données
présentes, on n’a rien vu.
Supposons que le produit soit efficace.
Dans ce cas la moyenne m fluctue selon une loi Normale
1. 2
(1.32, = 0.0342 ).
1225
On fait une erreur chaque fois que le poids moyen est inférieur
à 1.256, le seuil de la zone critique.
 1.256 − 1.32 

Calculons Pr Z <  ⇔ Pr(z<-1.867)
 1.2 1225 

Pr(z<-1.867)=0.031=3.1%

Ce risque est appelé risque de deuxième espèce et est noté β. Dans


notre cas, ce risque est faible : ne pas croire à l’effet du complément
alimentaire sur le gain de poids, alors que le produit a réellement un
effet est ici un risque faible.

La probabilité complémentaire (1-β) est appelé puissance du test, car


c’est la probabilité de conclure avec H1 quand H1 est vraie, c’est la
probabilité de mettre en évidence une différence quand elle existe.
PRINCIPE
• On effectue des tests sur des échantillons
pour conclure sur la population
• Un test est un mécanisme qui permet de
trancher entre 2 hypothèses au vu des
résultats d’un échantillon : H0 et H1

• On construit le test autour de H0 ( on dit


qu’on privilégie H0 ) en définissant le risque
qu’on accepte de prendre si on rejette
l’hypothèse nulle.
RISQUES ET PROBABILITES D’ERREUR
Définitions
• On a 2 hypothèses, mais l’une seule est vraie.
Réalité
Décision H0 H1
H0 1-α β

H1 α 1−β

α = Risque de 1ére espèce=Prob. de se tromper si on rejette H0


β= Risque de 2ième espèce=Prob. de ne pas mettre en évidence
une différence si elle existe
1−β= Puissance du test=Prob. de mettre en évidence
une différence si elle existe
RISQUES ET PROBABILITES D’ERREUR
Définitions
45

40

35 Règle de décision α= 5%
30

Mutés β Non Mutés


25
1-β
20

15

10

α KHz
RISQUES ET PROBABILITES D’ERREUR
Conclusion
Il existe 2 types d’erreur associés à une règle de
décision.
La première erreur consiste à rejeter H0 à tort
= Erreur de première espèce =α
 
La deuxième consiste à rejeter H1 à tort
= Erreur de deuxième espèce = β
RISQUES ET PROBABILITES D’ERREUR
Puissance d’un Test
C’est la probabilité de mettre en évidence une différence si elle
existe.
Cas de la comparaison de 2 moyennes entre 2 groupes ayant le
même effectif
n=nombre de sujets par groupe
εα= valeur de l’écart réduit correspondant à la probabilité α.

Exemple: si α=5%, εα =1.96. La probabilité pour que l’écart réduit égale ou


dépasse une valeur donnée ε est donnée par la probabilité α.
∆= différence de moyenne entre les 2 groupes
σ2=variance commune des 2 groupes
2.5% 2.5%

2 n∆ ²
ε 2β = − εα -ε=−1.96 +ε=1.96
σ ² La table de l’écart réduit donne la probabilité α
pour que l’écart réduit égale ou dépasse en
valeur absolue, une valeur donnée ε, c’est à dire
la probabilité extérieure à l’intervalle( –ε, +ε)

Si ε2β β alors la puissance (1-β)

La puissance est proportionnelle à ∆ et inversement proportionnelle à σ².


La puissance augmente quand εα diminue (⇔ α augmente)
H0 H1

1-β

εα

β
α
Ce n’est pas parce que je ne vois rien qu’il n’y a rien a voir
RISQUES ET PROBABILITES D’ERREUR
Exemples
On a administré chez 20 patients 2 traitements différents . On mesure une substance
X et on obtient les résultats suivants pour les 2 échantillons X1 et X2 :
X1 3 3.5 4 3.7 4.1 3.5 3.8 3.8 3.9 4.2 m1=3.75
X2 7 8 12 9 12 8.3 9.3 6.4 10 13 m2=9.5
On cherche à savoir si les 2 traitements sont différents
1) Peut on affirmer que 9.5 > 3.75 sans faire de test statistique ?
Réponse : oui, sans hésiter car on a pas besoin de test pour comparer 2 nombres !!!
2) Quelle est la formulation de l’hypothèse nulle permettant de répondre à cette question ?
Réponse : H0 : “ La moyenne de la population représentée par X1 est différente de celle
de la population représentée par X2 ”
3) Si on rejette l’hypothèse nulle, quelle conclusion peut-on faire concernant les risques et
probabilités encourus ?
Réponse : Le risque maximal de se tromper est le risque α. La probabilité de détecter
une différence est 1-β
RISQUES ET PROBABILITES D’ERREUR
le petit ‘p’
Tous les logiciels donnent une valeur p à la fin de
chaque test.
•Il s’agit de la probabilité a posteriori du risque α.

•Lorsqu’on a rejeté H0, il correspond au seuil α qu’on aurait pu


prendre initialement sans modifier la conclusion (rejet H0).

•Exemple: on compare 2 moyennes. On rejette H0 au seuil


α=5%, on trouve p=0.02. Cela signifie que si on avait pris
initialement α=2%, on aurait aussi conclu au rejet de H0.
RISQUES ET PROBABILITES D’ERREUR
le petit ‘p’
• Par la suite et par abus de langage, on a
étendu l’utilisation du ‘p’
‘p’=probabilité de se tromper si on rejette H0
RISQUES ET PROBABILITES D’ERREUR
Exemple
Comparaison de 2 moyennes entre 2 groupes de 79 individus (158 individus
au total), test bilatéral sur la créatinine.

t = -2.0342, df = 156, p-value = 0.0436


alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval: -2.41463255 -0.03549404
sample estimates: mean (sd) of x mean (sd) of y
9.599747(3.6121) 10.82481(3.950)

‘p-value= 0.0436’ signifie que la probabilité pour que les 2 moyennes soient égales vaut 4.36%
La différence entre les 2 groupes sont significatives.

Cependant, si on calcul la puissance a posteriori de ce test, on trouve 1-β=0.533; Cela veut


dire qu’on avait une probabilité de 53% pour mettre en évidence une différence.
NOMBRE DE SUJETS NECESSAIRES
Cas de 2 groupes

Le NSN d’une étude comparative dépend


•Variabilité du critère de jugement
•Différence minimale qu’on veut mettre en évidence
•Risque α
•Risque β

2 n∆ ²
ε 2β = − εα
σ ²