Vous êtes sur la page 1sur 86

Risques derreur statistique et test

statistique

Origine de la problmatique

Fluctuations alatoires
chantillon 1
48%

Obtenir pile pile ou face


(Probabilit = 50%)

chantillon 2
52%
chantillon 3
50%
chantillon 4
45%

Fluctuations alatoires
chantillon 1
9%

Mme type de patients


(Probabilit d'AVC = 12%)

chantillon 2
12%
chantillon 3
16%
chantillon 4
26%

Fluctuations alatoires
d'chantillonnage
Fortes pour des effectifs petits et moyens
Faibles pour des grands effectifs
Jamais nulles

Consquences pour la comparaison de 2 chantillons


les proportions observes dans 2 chantillons peuvent tre
diffrentes
uniquement du fait du hasard
mme si dans ces 2 chantillons la vraie probabilit tait la mme

les FAE sont susceptibles de fausser les comparaisons

Consquences des fluctuations


Effet du traitement = 0
Vrai risque = 10%

Vrai risque = 10%

Groupe T+

Groupe T-

Risque observ = 6%

Risque observ = 12%

Diffrence observe = -6%

Problmatique des comparaisons


Quand on ignore la ralit,

la diffrence observe de -6% est-elle ?


une manifestation des fluctuations alatoires,
donc due uniquement au hasard
la traduction dune relle diffrence entre les deux groupes,
donc dun effet non nul du traitement

Comment dpartager ces 2 possibilits ?


Solution : test statistique

But des comparaisons


Quel est le but des comparaisons ?

Grp T
diff -6%

Conclure
l'existence d'une
diffrence

Dcider d'utiliser
le nouveau
traitement

Grp C

La conclusion doit tre conforme la ralit


mais elle se base uniquement sur lobserv

Effets des fluctuations dans une


comparaison
Le hasard peut faire apparatre une diffrence qui n'existe

pas en ralit
Inversement, le hasard peut rduire une diffrence qui

existe rellement
donc 2 faons de fausser la conclusion

Risques derreur statistique

Risques de conclusions errones


Deux risques d'erreur
Risque alpha
Risque bta

Erreurs statistiques
dues uniquement au hasard

Erreur statistique alpha


Conclure l'existence d'une diffrence qui n'existe pas en

ralit : faux positif


chantillon 1
7.5%
Vrai valeur
12%

Diffrence
non relle
chantillon 2
15%

Erreur statistique bta


Ne pas conclure une diffrence qui existe pourtant en

ralit : faux ngatif


Vrai valeur
12%

chantillon 1
15%
Fausse absence
de diffrence

Vrai valeur
19%

chantillon 2
15%

Risques d'erreur statistiques


Risque alpha : risque de conclure une diffrence qui

nexiste pas
Risque bta : risque de ne pas mettre en vidence une
diffrence qui existe rellement
Puissance : 1 - bta : probabilit de mettre en vidence
une diffrence qui existe rellement

Application lessai
thrapeutique
Risque alpha : considrer comme efficace un traitement

qui ne lest pas


Risque bta : ne pas conclure alors que le traitement est
efficace
Puissance : montrer lefficacit dun traitement rellement
efficace

Conclusion

Ralit

Diffrence

Erreur bta

Diffrence
Pas de diffrence

Pas de diffrence

Erreur alpha

Tests statistiques
Outils d'aide la dcision
Principe
conclure une diffrence
que si le risque de faire une erreur (de premire espce) est faible

Quantification du risque d'erreur alpha


partir des donnes disponibles

(Risque de commettre une erreur alpha = risque alpha)

Principe gnral
p1 = 7%

Quelle est la probabilit de commettre une erreur


si je conclus partir de ces donnes

p0 = 13%

l'existence d'une relle diffrence

Probabilit faible

Probabilit forte

Conclusion

Pas de conclusion

Conclure l'existence d'une diffrence que si le


risque de faire une conclusion errone est faible

Dmarche du test statistique


Calcul de la probabilit p
p : probabilit que "la diffrence observe soit due

uniquement au hasard"
p reprsente le risque de faire une conclusion errone si
l'on dcidait de conclure
p est une quantification du risque alpha
On ne conclut que si ce risque d'erreur est suffisamment
petit

Seuil de risque
Seuil de risque de conclusion errone acceptable
seuil de risque alpha = 5%

p < 5%
on prend le risque de conclure

p > 5%
on ne conclut pas

< ou ?

Signification statistique

Diffrence
observe

Test

Diffrence significative
p<0.05
Il est peu probable que la
diffrence observe soit due
au hasard
Diffrence non significative
p>0.05
La probabilit que la
diffrence observe soit due
au hasard est forte

Seuil de signification statistique

Le test statistique est un moyen


qui autorise conclure l'existence d'une diffrence
que si le risque de commettre une erreur est faible
Risque d'erreur faible = 5% (en gnral)
seuil de dcision

Contrle du risque alpha


mais le risque d'erreurs alpha persiste
100 essais avec un traitement sans efficacit
conclusion tort l'efficacit dans 5 essais

Ralisation du test
Calcul partir des donnes de la probabilit de commettre

une erreur alpha = p

p1 = 7%

p = 0.04

p<5% conclusion l'existence


de la diffrence
parce que le risque de faire une
conclusion fausse est faible

p = 0.25

p>5% impossible de conclure


l'existence d'une diffrence
car si on concluait une diffrence,
le risque d'erreur serait trop fort

p0 = 13%

p1 = 20%
p0 = 17%

P < 0.05
En concluant l'efficacit, on prend un risque de 5% de

faire une conclusion errone


5% est un risque d'erreur lev
en pratique 2 essais significatifs
risque = 5% * 5% = 2.5/1000

Disparition du risque d'erreur


bta
Le risque bta est incalculable
Impossible de quantifier le risque d'erreur quand on fait

une conclusion d'absence de diffrence


il est donc impossible de faire ce type de conclusion
les tests permettent seulement de conclure l'existence d'une
diffrence
en cas de diffrence non signification
impossible de conclure
et ne permet surtout pas de conclure l'absence de diffrence vu que
le risque d'erreur est inconnu
"l'absence de preuve n'est pas la preuve de l'absence"

Diffrence non significative


Absence
Absencerelle
relle
d'effet
d'effet
Rsultat
Rsultat
non
nonsignificatif
significatif

Manque
Manquede
de
puissance
puissance

Impossible de conclure
Ne pas conclure labsence de diffrence
Labsence de preuve nest pas la preuve de labsence

OBJECTIF : Evaluer lefficacit dune injection unique de tobramycine


(T) chez des patientes traites pour une pylonphrite aigu
noncomplique par de la ciprofloxacine (CIP) (500 mg 2 fois par jour
per os).
RSULTATS : Cent dix huit patientes ont t inclues, 60 dans le
groupe
tobramycine et 58 dans le groupe placebo. E. coli a t isol de faon
prdominante et tous les germes isols taient sensibles la
ciprofloxacine
RSULTATS : Cent dix huit patientes ont t inclues, 60 dans le
groupe tobramycine et 58 dans le groupe placebo. E. coli a t isol
de faon prdominante et tous les germes isols taient sensibles la
ciprofloxacine et la tobramycine. Deux checs sont survenus dans le
groupe CIP + T et 4 dans le groupe CIP + P (non significatif).
CONCLUSION : Ladministration dune dose de tobramycine
namliore aucun paramtre clinique dans le traitement des
pylonphrites aigus non compliques traites par de la
ciprofloxacine par voie orale.

Dualit entre test et intervalle de


confiance

dfinition des IC
Intervalle qui a 95% de chance de contenir la vraie valeur
il est raisonnable de parier que la vraie valeur est dans

l'intervalle (prob de 95%)


il est peu probable (prob 5%)
que la vraie valeur soit > bs
ou que la vraie valeur soit < bi
il est donc peu raisonnable de parier que la vraie valeur soit
l'extrieur de l'IC

Intervalle de confiance
Diffrence = -6%
IC 95% = [-8%;-4%]
Lintervalle [-8%;-4%] 95% de chance de contenir la vraie

valeur de la diffrence
reflte l'incertitude de l'estimation
Il n'est pas possible d'exclure que le vrai effet ne soit que

de -4%
situation la pire
efficacit plus faible que les -6% de l'estimation ponctuelle

Ensemble des valeurs non statistiquement diffrentes du

rsultats

p<0.05

NS
IC 95%
Rsultat
observ

Relation entre IC et test


IC dune diffrence n'incluant pas 0
[-10% ; -4%]
la probabilit davoir ce type dintervalle si la vraie valeur est zero
est <=5%
donc il est possible de conclure une diffrence non nulle car le
risque derreur alpha est <=5%
= diffrence significative (au seuil de 5%)

IC de la diffrence des risques incluant 0


[-20% ; 20%]
= diffrence non significative

-5% [-10%,-2%]

P<0.05

-2% [-9%;+2%]

NS

Diffrence

Pertinence clinique
Signification statistique

pertinence clinique

Rduction de mortalit de 25% 12%, p<0.05


rduction statistiquement significative
pertinente cliniquement

Rduction de mortalit de 2.3% 2.1%, p<0.05


rduction statistiquement significative
peu pertinente cliniquement

Prsentation thorique

Thorie des tests d'hypothses

Hypothse nulle
H0 : p1 - p0 = 0

(p1 = p0)

(le traitement n'a pas d'effet)

Hypothse alternative
H1 : p1 - p0 0

(p1 p0)

(le traitement un effet)

Test statistique =
retenir une de ces 2 hypothses
en fonction des donnes recueillies

Risques d'erreur alpha et bta


= Prob[ accepter H1 alors que H0 est vraie ]
= Prob[ accepter H0 alors que H1 est vraie ]

Rappel
H0 : p1 = p0
H1 : p1 <> p0

Calcul de p
p = prob [ d'observer une diffrence au moins aussi

importante que ce que l'on a observ alors que H0 est


vraie ]
soit z = p1 - p0 la diffrence entre les 2 prop. p1 et p0
si H0 est vraie, z suit une loi normale (si n grand)
moyenne 0 (H0)

cart type

p1(1 p1 ) p0 (1 p0 )

n1
n0

Principe du test : calculer la probabilit d'observer dans ce cas une


diffrence au moins aussi grande que celle qui a t effectivement
observe (par exemple 7% - 13% = -6%)

f(x)

Distribution de Z sous
l'hypothses nulle

p = surface sous la courbe


Pr(Z -6%)

-6%

z observ

p quantifie le degr de dsaccord entre l'hypothse nulle et

ce qui a t observ

Rejet de l'hypothse nulle H0


Autre faon de raliser un test
But du test
rejeter H0 ( p1 - p0 = 0 )
pour accepter H1 ( p1 - p0 0 )
rejeter H0 conclusion = diff. significative
ne pas rejeter H0 conclusion = diff. non significative
sans valuation prcise du p

Limites de rejet
valeurs de dcision pour le rejet de H0
valeurs de diffrences observes
notes L (et -L)

-L

Rejet

PAS de rejet de H0

L
Diff observe
Rejet

L est dtermin par le seuil choisi (5%)


par dfinition = Prob [conclure si H0]
Prob [ diff. observe <-L ou >L si H0] =

2.5%

2.5%

-L

Diffrence z

L dfini les diffrences qui ont une probabilit faible d'tre

observes sous l'hypothse nulle

L = 1.96
( = cart type de la diffrence)

Rappel

Loi normale N(0,)

95 %

-1.96

1.96

Exemple 1
diff. observe z = -5%
L = 7% pour alpha=5% (-L = -7%)
pas de rejet de H0

Exemple 2

diff. observe z = 12%


L = 7%
rejet de H0
conclusion : diff. significative au seuil de 5%

Exemple 3

diff. observe z = -4%


L = 2% (-L = -2%)
rejet de H0
conclusion : diff. significative au seuil de 5%

Possibilit de diff. significative aussi bien en cas de :


diffrence positive (p1 > p0)
diffrence ngative (p1 < p0)

Test bilatral

Comparaison des 2 approches


Rejet de l'hypothse nulle
calcul de L
si diff. observe <-L ou diff. observe >L
rejet de h0
diff significative

si

-L < diff observe < L

pas de rejet de H0
diff non significative

Calcul de p
si p<0.05 diff. significative
si p>0.05 diff. non significative

L dpend de
alpha
p1 p0
n1 n0

cart type de la diffrence (erreur standard)

p dpend de
diffrence observe
p1 p0
cart type de la diffrence (erreur standard)
n1 n0

Exemple :
Diff. Observe = -5%
approche par rejet de H0
conclusion : diff. Significative
le risque d'erreur encouru en concluant la diffrence est < 5%

approche par calcul de p


rsultat : p = 0.03
prob de cette diff. soit due uniquement au hasard est de 0.03
le risque d'erreur encouru en concluant la diffrence est de 3%

Rsum
Erreur alpha
type d'erreur statistique

Risque alpha
risque de commettre une erreur alpha

Seuil de la signification statistique


valeur de risque alpha consenti
en gnral 5%

p
quantification partir des donnes observes du risque alpha

Erreurs d'interprtation
p nest pas la prob. de lhypothse nulle
p est la prob. dobtenir le rsultat observ si H0 est vraie

p nest pas la prob. que le ttt. nait pas deffet


p est la prob. dobtenir le rsultat qui a t observ si le ttt. est en
ralit inefficace

"obtenir le rsultat observ" =


obtenir une diff. au moins aussi importante que le rsultat observ
cf. dfinition de p
rappel : avec une VA continue, la prob d'une valeur est nulle

p<0.05 ne signifie pas quil y a moins de 5% de chance

que le ttt. soit sans effet


p<0.05 ne signifie pas quil y a 95% de chance que le ttt.
est un effet
il y a moins de 5% de chance dobserver le rsultat obtenu si le ttt.
est sans effet

p nest pas Pr(H0) ou 1-Pr(H1)

Bilatral / unilatral

traitement A > traitement B

Test
bilatral

Diff. significative

Test
Diff. significative
unilatral

traitement A < traitement B

Diffrence non significative

Diff. significative

Diffrence non significative

Valeur de la
diffrence

0,70

0,79

1
0,98

1,45

Risque rel

Test
bilatral

Diff. significative

Test
unilatral

Diff. significative

Diffrence non significative

Diff. significative

Diffrence non significative

Consquences
Un rsultat NS en bilatral peut tre significatif en unilatral
pas de choix a posteriori

Rptitions des tests statistiques

Rptition des tests


Plusieurs tests raliss pour rpondre une mme

question
par exemple plusieurs critre de jugement

Conclusion un effet partir du moment o il existe au

moins un test significatif


Le risque de la conclusion est bien suprieure 5%
Inflation du risque alpha
Rappel, avec un ttt. sans effet,
sur 100 tests, il y en aura 5 significatifs (en moyenne)

1 test

Conclusion

Contrle parfait du
risque alpha (5%)

Conclusion

Le risque de conclure
tort est > 5%

(seuil de 5%)

Test 1
Test 2
Test 3
Test 4

A partir du moment o
au moins 1 test est
significatif

Comparaisons multiples
Aux ds, la probabilit d obtenir un six est
plus forte avec 3 ds qu avec un seul

Test 1
Risque de
conclure tort
une diffrence
= 5%

Test 2
Risque de
conclure tort
une diffrence
= 5%

Test 3
Risque de
conclure tort
une diffrence
= 5%

Globalement, le risque de
conclure tort une diffrence
lors de ces 4 comparaisons est
bien plus important que 5%.

Test 4
Risque de
conclure tort
une diffrence
= 5%

Comparaisons multiples
Avec un traitement sans efficacit
en faisant 10 tests statistiques (p.e. 10 essais)
nous avons 40% de risque de faire au moins une

conclusion ( tort)

global 1 1

Nb de tests

Risque alpha
global

0.23

10

0.40

20

0.64

50

0.92

Critres de jugement
Aspirine pour la prvention des vnements

cardiovasculaires
Critres de jugement

mortalit totale
vnements cardiovasculaires mortels ou non mortels
DC cardiovasculaires
Mort subite
Infarctus
Accident vasculaire crbraux
Interventions de revascularisation

Risque alpha de conclure tort l'efficacit ?

Critre de jugement principal


Dcs de toute cause
Dcs cardiovasculaire
Mort subite

Critre principal
Dcs de toute cause
Critres secondaires

Infarctus

Dcs cardiovasculaire

Accident vasculaire crbraux

Mort subite

Chirurgie

Infarctus
Accident vasculaire crbraux
Chirurgie

Pas de dfinition
de critre principal
7 tests statistiques
Risque
Risquede
deconclure
conclure
tort
tortl lefficacit
efficacitdu
du
traitement
traitement==30%
30%

Dfinition a priori
d un critre principal
Un seul test statistique
Risque
Risquede
deconclure
conclure
tort
tortl lefficacit
efficacitdu
du
traitement
=
5%
traitement = 5%

Critre principal
Conclusion que si le critre principal est significatif
Critres secondaires : explicatifs

Multiplicit des critres de


jugement - Exemple

In women, however (Table 2), a positive effect


on BMD was observed at several sites (mostly
trabecular bone zones), namely the femoral
neck and the Wards
triangle in the 6069 y group, and upper and
total radius in the 7079 y group.

Autres situations de rptition des


tests
mesures rptes au cours du temps

Analyse en sous-groupes - Essai


non concluant
Essai

0.92

NS

1 Age<75
2 Age>75

0.92
0.95

NS
NS

3 Hommes
4 Femmes

0.92
0.99

NS
NS

5 Antcdents d'infarctus
6 Pas d'antcdents d'infarctus

0.87
1.03

NS
NS

7 Prise d'aspirine
8 Pas d'aspirine

0.78
1.09

p<0.05
NS

Limites- Multiplicit des tests


1 Age<75
2 Age>75

test 1
test 2

risque erreur 5%
risque erreur 5%

3 Hommes
4 Femmes

test 3
test 4

risque erreur 5%
risque erreur 5%

5 Antcdents d'infarctus
6 Pas d'ATCD d'infarctus

test 5
test 6

risque erreur 5%
risque erreur 5%

7 Prise d'aspirine
8 Pas d'aspirine

test 7
test 8

risque erreur 5%
risque erreur 5%

Analyses en sous groupes - Essai


concluant
Essai

0.78

p<0.05

1 Age<75
2 Age>75

0.65
0.90

p<0.01
NS

3 Hommes
4 Femmes

0.76
0.78

p<0.05
p<0.05

5 Antcdent d'infarctus
0.97
6 Pas d'antcdent d'infarctus 0.70

NS
p<0.01

7 Diabtique
8 Non diabtique

p<0.001
p<0.05

0.50
0.91

Analyses intermdiaires
en cours dessai, avant que tous les patients prvus aient

t recruts
et/ou avant la fin de la priode de suivi initialement prvue
But arrter prmaturment
pour efficacit
pour toxicit
pour futilit

Ajustement du seuil de
signification
Mthode de Bonferroni
Pour k comparaisons, le seuil ajust est :
Pour k=3, saj = 5% / 3 = 1.67%

saj
k

Quand est petit,


k
1 1k
1 1 k
Donc pour conserver un risque alpha global de 5% :
k

k 0.05
0.05

Inconvnient : fait lhypothse dune stricte indpendance des


variables testes mthode conservatrice

Ajustement du seuil de
signification - 2
Mthode de Tukey

saj
k
Pour k=3, saj = 5% / 1.73 = 2.89%

Cas 1
Analyse intermdiaire
1

p = 0.10

p = 0.011

Analyse
finale

3 analyses intermdiaires + 1 analyse finale = 4

comparaisons
saj 5% / 4 1.25%
Arrt prmatur de lessai

Cas 2
Analyse intermdiaire
1

Analyse
finale

p = 0.25

p = 0.08

p = 0.04

p = 0.01

Pas darrt prmatur mais conclusion lefficacit

Cas 3
Analyse intermdiaire
1

Analyse
finale

p = 0.42

p = 0.28

p = 0.12

p = 0.04

Pas darrt prmatur et rsultat non significatif (p=4%>saj)

Cas 4
Analyse intermdiaire
1

Analyse
finale

P = 0.89

p = 0.48

p = 0.25

p = 0.10

Rsultat non significatif

Essai 1

Essai 2

Infarctus mortels et non mortels

p=0.03

p=0.001

infarctus non mortels

p=0.05

p=0.010

dcs par infarctus

p=0.02

p=0.010

dcs de toute cause

p=0.06

p=0.03

Conclusion essai 1
pas de dmonstration de l'efficacit

Conclusion essai 2
dmonstration de l'efficacit de manire statistiquement significative
(p<0.05)
sur les 3 premiers critres de jugement

Catalogue des tests statistiques

Taille de lchantillon
Avec les chantillons de grandes tailles
les distributions des

moyennes
proportions
diffrence de moyenne
diffrence de proportions

sont des distributions normales


--> calcul simple de p et des IC

Avec les chantillons de petites tailles (n<30)


ces distributions ne sont pas normales (en gnral)
(en gnral inconnues)

techniques spciales dites "non paramtriques"

Variable continue
Donnes : distribution normale
moyenne : distribution normale qq soit n

Donnes : distribution quelconque symtrique


moyenne : distribution normale qq n>30

Donnes : distribution quelconque


moyenne : distribution normale qq n>100

Variable binaire
proportion : distribution normale qd n>30

Sries statistiques apparies


2 sries statistiques provenant de l'observation des mmes

sujets (units statistiques)


2 mthodes de dosage de la glycmie A et B
les 2 mthodes sont appliques aux mmes sujets
pour chaque patient : 2 valeurs, une avec chaque mthode
= 2 sries apparies

2 groupes de patients diffrents


mthode A utilise avec le 1er grp
mthode B utilise avec le 2e grp
= 2 sries non apparies

Catalogue des tests statistiques


Le test utilis doit tre prcis avec le rsultat
Un test pour chaque situation dfinie par :
type de la variable (continue, binaire)
petit ou grand effectif
sries apparies ou non

Var. continues (comparaison des moyennes)


Sries non apparies
grand effectif
test t (test de Student), Test z

test non paramtrique


Test de Wilcoxon

(Mann-Whitney)

Sries apparies
grand effectif
test t pour sries apparies (Student pour sries apparies)

test non paramtrique


Test de Wilcoxon pour sries apparies

Var. binaires (comparaison des proportions)


Sries non apparies
grand effectif
Chi 2 (

)2

test non paramtrique


Test exact de Fisher

Sries apparies
test de McNemar

Var. qualitative plusieurs modalits


idem var. binaires

Vous aimerez peut-être aussi