Test Statistique

Risques derreur statistique et test
statistique
Origine de la problmatique
Fluctuations alatoires
chantillon 1
48%
Obtenir pile pile ou face

(Probabilit = 50%)
chantillon 2
52%
chantillon 3
50%
chantillon 4
45%
chantillon 1
9%
Mme type de patients

(Probabilit d'AVC = 12%)
chantillon 2
12%
chantillon 3
16%
chantillon 4
26%
d'chantillonnage
Fortes pour des effectifs petits et moyens
Faibles pour des grands effectifs
Jamais nulles
Consquences pour la comparaison de 2 chantillons

les proportions observes dans 2 chantillons peuvent tre
diffrentes
uniquement du fait du hasard
mme si dans ces 2 chantillons la vraie probabilit tait la mme
les FAE sont susceptibles de fausser les comparaisons
Consquences des fluctuations

Effet du traitement = 0
Vrai risque = 10%
Vrai risque = 10%
Groupe T+
Groupe T-
Risque observ = 6%
Risque observ = 12%
Diffrence observe = -6%
Problmatique des comparaisons

Quand on ignore la ralit,
la diffrence observe de -6% est-elle ?

une manifestation des fluctuations alatoires,
donc due uniquement au hasard
la traduction dune relle diffrence entre les deux groupes,
donc dun effet non nul du traitement
Comment dpartager ces 2 possibilits ?

Solution : test statistique
But des comparaisons

Quel est le but des comparaisons ?
Grp T
diff -6%
Conclure
l'existence d'une
diffrence
Dcider d'utiliser
le nouveau
traitement
Grp C
La conclusion doit tre conforme la ralit

mais elle se base uniquement sur lobserv
Effets des fluctuations dans une

comparaison
Le hasard peut faire apparatre une diffrence qui n'existe
pas en ralit
Inversement, le hasard peut rduire une diffrence qui
existe rellement
donc 2 faons de fausser la conclusion
Risques derreur statistique
Risques de conclusions errones

Deux risques d'erreur
Risque alpha
Risque bta
Erreurs statistiques
dues uniquement au hasard
Erreur statistique alpha

Conclure l'existence d'une diffrence qui n'existe pas en
ralit : faux positif

chantillon 1
7.5%
Vrai valeur
12%
Diffrence
non relle
chantillon 2
15%
Erreur statistique bta

Ne pas conclure une diffrence qui existe pourtant en
ralit : faux ngatif

Vrai valeur
12%
chantillon 1
15%
Fausse absence
de diffrence
Vrai valeur
19%
chantillon 2
15%
Risques d'erreur statistiques

Risque alpha : risque de conclure une diffrence qui
nexiste pas
Risque bta : risque de ne pas mettre en vidence une
diffrence qui existe rellement
Puissance : 1 - bta : probabilit de mettre en vidence
une diffrence qui existe rellement
Application lessai
thrapeutique
Risque alpha : considrer comme efficace un traitement
qui ne lest pas

Risque bta : ne pas conclure alors que le traitement est
efficace
Puissance : montrer lefficacit dun traitement rellement
efficace
Conclusion
Ralit
Diffrence
Erreur bta
Diffrence
Pas de diffrence
Pas de diffrence
Erreur alpha
Tests statistiques
Outils d'aide la dcision
Principe
conclure une diffrence
que si le risque de faire une erreur (de premire espce) est faible
Quantification du risque d'erreur alpha

partir des donnes disponibles
(Risque de commettre une erreur alpha = risque alpha)
Principe gnral
p1 = 7%
Quelle est la probabilit de commettre une erreur

si je conclus partir de ces donnes
p0 = 13%
l'existence d'une relle diffrence
Probabilit faible
Probabilit forte
Conclusion
Pas de conclusion
Conclure l'existence d'une diffrence que si le

risque de faire une conclusion errone est faible
Dmarche du test statistique

Calcul de la probabilit p
p : probabilit que "la diffrence observe soit due
uniquement au hasard"
p reprsente le risque de faire une conclusion errone si
l'on dcidait de conclure
p est une quantification du risque alpha
On ne conclut que si ce risque d'erreur est suffisamment
petit
Seuil de risque
Seuil de risque de conclusion errone acceptable
seuil de risque alpha = 5%
p < 5%
on prend le risque de conclure
p > 5%
on ne conclut pas
< ou ?
Signification statistique
Diffrence
observe
Test
Diffrence significative
p<0.05
Il est peu probable que la
diffrence observe soit due
au hasard
Diffrence non significative
p>0.05
La probabilit que la
diffrence observe soit due
au hasard est forte
Seuil de signification statistique
Le test statistique est un moyen

qui autorise conclure l'existence d'une diffrence
que si le risque de commettre une erreur est faible
Risque d'erreur faible = 5% (en gnral)
seuil de dcision
Contrle du risque alpha

mais le risque d'erreurs alpha persiste
100 essais avec un traitement sans efficacit
conclusion tort l'efficacit dans 5 essais
Ralisation du test
Calcul partir des donnes de la probabilit de commettre
une erreur alpha = p
p1 = 7%
p = 0.04
p<5% conclusion l'existence

de la diffrence
parce que le risque de faire une
conclusion fausse est faible
p = 0.25
p>5% impossible de conclure

l'existence d'une diffrence
car si on concluait une diffrence,
le risque d'erreur serait trop fort
p0 = 13%
p1 = 20%
p0 = 17%
P < 0.05
En concluant l'efficacit, on prend un risque de 5% de
faire une conclusion errone

5% est un risque d'erreur lev
en pratique 2 essais significatifs
risque = 5% * 5% = 2.5/1000
Disparition du risque d'erreur

bta
Le risque bta est incalculable
Impossible de quantifier le risque d'erreur quand on fait
une conclusion d'absence de diffrence

il est donc impossible de faire ce type de conclusion
les tests permettent seulement de conclure l'existence d'une
diffrence
en cas de diffrence non signification
impossible de conclure
et ne permet surtout pas de conclure l'absence de diffrence vu que
le risque d'erreur est inconnu
"l'absence de preuve n'est pas la preuve de l'absence"

Absence
Absencerelle
relle
d'effet
d'effet
Rsultat
Rsultat
non
nonsignificatif
significatif
Manque
Manquede
de
puissance
puissance
Impossible de conclure
Ne pas conclure labsence de diffrence
Labsence de preuve nest pas la preuve de labsence
OBJECTIF : Evaluer lefficacit dune injection unique de tobramycine

(T) chez des patientes traites pour une pylonphrite aigu
noncomplique par de la ciprofloxacine (CIP) (500 mg 2 fois par jour
per os).
RSULTATS : Cent dix huit patientes ont t inclues, 60 dans le
groupe
tobramycine et 58 dans le groupe placebo. E. coli a t isol de faon
prdominante et tous les germes isols taient sensibles la
ciprofloxacine
RSULTATS : Cent dix huit patientes ont t inclues, 60 dans le
groupe tobramycine et 58 dans le groupe placebo. E. coli a t isol
de faon prdominante et tous les germes isols taient sensibles la
ciprofloxacine et la tobramycine. Deux checs sont survenus dans le
groupe CIP + T et 4 dans le groupe CIP + P (non significatif).
CONCLUSION : Ladministration dune dose de tobramycine
namliore aucun paramtre clinique dans le traitement des
pylonphrites aigus non compliques traites par de la
ciprofloxacine par voie orale.
Dualit entre test et intervalle de

confiance
dfinition des IC
Intervalle qui a 95% de chance de contenir la vraie valeur
il est raisonnable de parier que la vraie valeur est dans
l'intervalle (prob de 95%)

il est peu probable (prob 5%)
que la vraie valeur soit > bs
ou que la vraie valeur soit < bi
il est donc peu raisonnable de parier que la vraie valeur soit
l'extrieur de l'IC
Intervalle de confiance
Diffrence = -6%
IC 95% = [-8%;-4%]
Lintervalle [-8%;-4%] 95% de chance de contenir la vraie
valeur de la diffrence
reflte l'incertitude de l'estimation
Il n'est pas possible d'exclure que le vrai effet ne soit que
de -4%
situation la pire
efficacit plus faible que les -6% de l'estimation ponctuelle
Ensemble des valeurs non statistiquement diffrentes du
rsultats
p<0.05
NS
IC 95%
Rsultat
observ
Relation entre IC et test

IC dune diffrence n'incluant pas 0
[-10% ; -4%]
la probabilit davoir ce type dintervalle si la vraie valeur est zero
est <=5%
donc il est possible de conclure une diffrence non nulle car le
risque derreur alpha est <=5%
= diffrence significative (au seuil de 5%)
IC de la diffrence des risques incluant 0

[-20% ; 20%]
= diffrence non significative
-5% [-10%,-2%]
P<0.05
-2% [-9%;+2%]
NS
Diffrence
Pertinence clinique
Signification statistique
pertinence clinique
Rduction de mortalit de 25% 12%, p<0.05

rduction statistiquement significative
pertinente cliniquement
Rduction de mortalit de 2.3% 2.1%, p<0.05

rduction statistiquement significative
peu pertinente cliniquement
Prsentation thorique
Thorie des tests d'hypothses
Hypothse nulle
H0 : p1 - p0 = 0
(p1 = p0)
(le traitement n'a pas d'effet)
Hypothse alternative
H1 : p1 - p0 0
(p1 p0)
(le traitement un effet)
Test statistique =
retenir une de ces 2 hypothses
en fonction des donnes recueillies
Risques d'erreur alpha et bta

= Prob[ accepter H1 alors que H0 est vraie ]
= Prob[ accepter H0 alors que H1 est vraie ]
Rappel
H0 : p1 = p0
H1 : p1 <> p0
Calcul de p
p = prob [ d'observer une diffrence au moins aussi
importante que ce que l'on a observ alors que H0 est

vraie ]
soit z = p1 - p0 la diffrence entre les 2 prop. p1 et p0
si H0 est vraie, z suit une loi normale (si n grand)
moyenne 0 (H0)
cart type
p1(1 p1 ) p0 (1 p0 )
n1
n0
Principe du test : calculer la probabilit d'observer dans ce cas une

diffrence au moins aussi grande que celle qui a t effectivement
observe (par exemple 7% - 13% = -6%)
f(x)
Distribution de Z sous
l'hypothses nulle
p = surface sous la courbe

Pr(Z -6%)
-6%
z observ
p quantifie le degr de dsaccord entre l'hypothse nulle et
ce qui a t observ
Rejet de l'hypothse nulle H0

Autre faon de raliser un test
But du test
rejeter H0 ( p1 - p0 = 0 )
pour accepter H1 ( p1 - p0 0 )
rejeter H0 conclusion = diff. significative
ne pas rejeter H0 conclusion = diff. non significative
sans valuation prcise du p
Limites de rejet
valeurs de dcision pour le rejet de H0
valeurs de diffrences observes
notes L (et -L)
-L
Rejet
PAS de rejet de H0
L
Diff observe
Rejet
L est dtermin par le seuil choisi (5%)

par dfinition = Prob [conclure si H0]
Prob [ diff. observe <-L ou >L si H0] =
2.5%
2.5%
-L
Diffrence z
L dfini les diffrences qui ont une probabilit faible d'tre
observes sous l'hypothse nulle
L = 1.96
( = cart type de la diffrence)
Rappel
Loi normale N(0,)
95 %
-1.96
1.96
Exemple 1
diff. observe z = -5%
L = 7% pour alpha=5% (-L = -7%)
pas de rejet de H0
Exemple 2
diff. observe z = 12%

L = 7%
rejet de H0
conclusion : diff. significative au seuil de 5%
Exemple 3
diff. observe z = -4%

L = 2% (-L = -2%)
rejet de H0
conclusion : diff. significative au seuil de 5%
Possibilit de diff. significative aussi bien en cas de :

diffrence positive (p1 > p0)
diffrence ngative (p1 < p0)
Test bilatral
Comparaison des 2 approches

Rejet de l'hypothse nulle
calcul de L
si diff. observe <-L ou diff. observe >L
rejet de h0
diff significative
si
-L < diff observe < L
pas de rejet de H0
diff non significative
Calcul de p
si p<0.05 diff. significative
si p>0.05 diff. non significative
L dpend de
alpha
p1 p0
n1 n0
cart type de la diffrence (erreur standard)
p dpend de
diffrence observe
p1 p0
cart type de la diffrence (erreur standard)
n1 n0
Exemple :
Diff. Observe = -5%
approche par rejet de H0
conclusion : diff. Significative
le risque d'erreur encouru en concluant la diffrence est < 5%
approche par calcul de p

rsultat : p = 0.03
prob de cette diff. soit due uniquement au hasard est de 0.03
le risque d'erreur encouru en concluant la diffrence est de 3%
Rsum
Erreur alpha
type d'erreur statistique
Risque alpha
risque de commettre une erreur alpha
Seuil de la signification statistique

valeur de risque alpha consenti
en gnral 5%
p
quantification partir des donnes observes du risque alpha
Erreurs d'interprtation
p nest pas la prob. de lhypothse nulle
p est la prob. dobtenir le rsultat observ si H0 est vraie
p nest pas la prob. que le ttt. nait pas deffet

p est la prob. dobtenir le rsultat qui a t observ si le ttt. est en
ralit inefficace
"obtenir le rsultat observ" =

obtenir une diff. au moins aussi importante que le rsultat observ
cf. dfinition de p
rappel : avec une VA continue, la prob d'une valeur est nulle
p<0.05 ne signifie pas quil y a moins de 5% de chance
que le ttt. soit sans effet

p<0.05 ne signifie pas quil y a 95% de chance que le ttt.
est un effet
il y a moins de 5% de chance dobserver le rsultat obtenu si le ttt.
est sans effet
p nest pas Pr(H0) ou 1-Pr(H1)
Bilatral / unilatral
traitement A > traitement B
Test
bilatral
Diff. significative
Test
Diff. significative
unilatral
traitement A < traitement B
Diff. significative
Valeur de la
diffrence
0,70
0,79
1
0,98
1,45
Risque rel
Test
bilatral
Diff. significative
Test
unilatral
Diff. significative
Diff. significative
Consquences
Un rsultat NS en bilatral peut tre significatif en unilatral
pas de choix a posteriori
Rptitions des tests statistiques
Rptition des tests

Plusieurs tests raliss pour rpondre une mme
question
par exemple plusieurs critre de jugement
Conclusion un effet partir du moment o il existe au
moins un test significatif

Le risque de la conclusion est bien suprieure 5%
Inflation du risque alpha
Rappel, avec un ttt. sans effet,
sur 100 tests, il y en aura 5 significatifs (en moyenne)
1 test
Conclusion
Contrle parfait du
risque alpha (5%)
Conclusion
Le risque de conclure
tort est > 5%
(seuil de 5%)
Test 1
Test 2
Test 3
Test 4
A partir du moment o
au moins 1 test est
significatif
Comparaisons multiples
Aux ds, la probabilit d obtenir un six est
plus forte avec 3 ds qu avec un seul
Test 1
Risque de
conclure tort
une diffrence
= 5%
Test 2
Risque de
conclure tort
une diffrence
= 5%
Test 3
Risque de
conclure tort
une diffrence
= 5%
Globalement, le risque de
conclure tort une diffrence
lors de ces 4 comparaisons est
bien plus important que 5%.
Test 4
Risque de
conclure tort
une diffrence
= 5%
Comparaisons multiples
Avec un traitement sans efficacit
en faisant 10 tests statistiques (p.e. 10 essais)
nous avons 40% de risque de faire au moins une
conclusion ( tort)
global 1 1
Nb de tests
Risque alpha
global
0.23
10
0.40
20
0.64
50
0.92
Critres de jugement
Aspirine pour la prvention des vnements
cardiovasculaires
Critres de jugement
mortalit totale
vnements cardiovasculaires mortels ou non mortels
DC cardiovasculaires
Mort subite
Infarctus
Accident vasculaire crbraux
Interventions de revascularisation
Risque alpha de conclure tort l'efficacit ?
Critre de jugement principal

Dcs de toute cause
Dcs cardiovasculaire
Mort subite
Critre principal
Dcs de toute cause
Critres secondaires
Infarctus
Dcs cardiovasculaire
Mort subite
Chirurgie
Infarctus
Chirurgie
Pas de dfinition
de critre principal
7 tests statistiques
Risque
Risquede
deconclure
conclure
tort
tortl lefficacit
efficacitdu
du
traitement
traitement==30%
30%
Dfinition a priori
d un critre principal
Un seul test statistique
Risque
Risquede
deconclure
conclure
tort
tortl lefficacit
efficacitdu
du
traitement
=
5%
traitement = 5%
Critre principal
Conclusion que si le critre principal est significatif
Critres secondaires : explicatifs
Multiplicit des critres de

jugement - Exemple
In women, however (Table 2), a positive effect

on BMD was observed at several sites (mostly
trabecular bone zones), namely the femoral
neck and the Wards
triangle in the 6069 y group, and upper and
total radius in the 7079 y group.
Autres situations de rptition des

tests
mesures rptes au cours du temps
Analyse en sous-groupes - Essai

non concluant
Essai
0.92
NS
1 Age<75
2 Age>75
0.92
0.95
NS
NS
3 Hommes
4 Femmes
0.92
0.99
NS
NS
5 Antcdents d'infarctus
6 Pas d'antcdents d'infarctus
0.87
1.03
NS
NS
7 Prise d'aspirine
8 Pas d'aspirine
0.78
1.09
p<0.05
NS
Limites- Multiplicit des tests

1 Age<75
2 Age>75
test 1
test 2
risque erreur 5%
risque erreur 5%
3 Hommes
4 Femmes
test 3
test 4
risque erreur 5%
risque erreur 5%
5 Antcdents d'infarctus
6 Pas d'ATCD d'infarctus
test 5
test 6
risque erreur 5%
risque erreur 5%
7 Prise d'aspirine
8 Pas d'aspirine
test 7
test 8
risque erreur 5%
risque erreur 5%
Analyses en sous groupes - Essai

concluant
Essai
0.78
p<0.05
1 Age<75
2 Age>75
0.65
0.90
p<0.01
NS
3 Hommes
4 Femmes
0.76
0.78
p<0.05
p<0.05
5 Antcdent d'infarctus
0.97
6 Pas d'antcdent d'infarctus 0.70
NS
p<0.01
7 Diabtique
8 Non diabtique
p<0.001
p<0.05
0.50
0.91
Analyses intermdiaires
en cours dessai, avant que tous les patients prvus aient
t recruts
et/ou avant la fin de la priode de suivi initialement prvue
But arrter prmaturment
pour efficacit
pour toxicit
pour futilit
Ajustement du seuil de
signification
Mthode de Bonferroni
Pour k comparaisons, le seuil ajust est :
Pour k=3, saj = 5% / 3 = 1.67%
saj
k
Quand est petit,

k
1 1k
1 1 k
Donc pour conserver un risque alpha global de 5% :
k
k 0.05
0.05
Inconvnient : fait lhypothse dune stricte indpendance des

variables testes mthode conservatrice
Ajustement du seuil de
signification - 2
Mthode de Tukey
saj
k
Pour k=3, saj = 5% / 1.73 = 2.89%
Cas 1
Analyse intermdiaire
1
p = 0.10
p = 0.011
Analyse
finale
3 analyses intermdiaires + 1 analyse finale = 4
comparaisons
saj 5% / 4 1.25%
Arrt prmatur de lessai
Cas 2
1
Analyse
finale
p = 0.25
p = 0.08
p = 0.04
p = 0.01
Pas darrt prmatur mais conclusion lefficacit
Cas 3
1
Analyse
finale
p = 0.42
p = 0.28
p = 0.12
p = 0.04
Pas darrt prmatur et rsultat non significatif (p=4%>saj)
Cas 4
1
Analyse
finale
P = 0.89
p = 0.48
p = 0.25
p = 0.10
Rsultat non significatif
Essai 1
Essai 2
Infarctus mortels et non mortels
p=0.03
p=0.001
infarctus non mortels
p=0.05
p=0.010
dcs par infarctus
p=0.02
p=0.010
dcs de toute cause
p=0.06
p=0.03
Conclusion essai 1
pas de dmonstration de l'efficacit
Conclusion essai 2
dmonstration de l'efficacit de manire statistiquement significative
(p<0.05)
sur les 3 premiers critres de jugement
Catalogue des tests statistiques
Taille de lchantillon
Avec les chantillons de grandes tailles
les distributions des
moyennes
proportions
diffrence de moyenne
diffrence de proportions
sont des distributions normales

--> calcul simple de p et des IC
Avec les chantillons de petites tailles (n<30)

ces distributions ne sont pas normales (en gnral)
(en gnral inconnues)
techniques spciales dites "non paramtriques"
Variable continue
Donnes : distribution normale
moyenne : distribution normale qq soit n
Donnes : distribution quelconque symtrique

moyenne : distribution normale qq n>30
Donnes : distribution quelconque

moyenne : distribution normale qq n>100
Variable binaire
proportion : distribution normale qd n>30
Sries statistiques apparies

2 sries statistiques provenant de l'observation des mmes
sujets (units statistiques)

2 mthodes de dosage de la glycmie A et B
les 2 mthodes sont appliques aux mmes sujets
pour chaque patient : 2 valeurs, une avec chaque mthode
= 2 sries apparies
2 groupes de patients diffrents

mthode A utilise avec le 1er grp
mthode B utilise avec le 2e grp
= 2 sries non apparies
Catalogue des tests statistiques

Le test utilis doit tre prcis avec le rsultat
Un test pour chaque situation dfinie par :
type de la variable (continue, binaire)
petit ou grand effectif
sries apparies ou non
Var. continues (comparaison des moyennes)

Sries non apparies
grand effectif
test t (test de Student), Test z
test non paramtrique

Test de Wilcoxon
(Mann-Whitney)
Sries apparies
grand effectif
test t pour sries apparies (Student pour sries apparies)

Test de Wilcoxon pour sries apparies
Var. binaires (comparaison des proportions)

Sries non apparies
grand effectif
Chi 2 (
)2

Test exact de Fisher
Sries apparies
test de McNemar
Var. qualitative plusieurs modalits

idem var. binaires

Test Statistique

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Test Statistique

Transféré par

Droits d'auteur :

Formats disponibles

Risques derreur statistique et test

Obtenir pile pile ou face

Mme type de patients

Consquences pour la comparaison de 2 chantillons

les FAE sont susceptibles de fausser les comparaisons

Consquences des fluctuations

Vrai risque = 10%

Risque observ = 12%

Diffrence observe = -6%

Problmatique des comparaisons

la diffrence observe de -6% est-elle ?

Comment dpartager ces 2 possibilits ?

But des comparaisons

La conclusion doit tre conforme la ralit

Effets des fluctuations dans une

Risques derreur statistique

Risques de conclusions errones

Erreur statistique alpha

ralit : faux positif

Erreur statistique bta

ralit : faux ngatif

Risques d'erreur statistiques

qui ne lest pas

Quantification du risque d'erreur alpha

(Risque de commettre une erreur alpha = risque alpha)

Quelle est la probabilit de commettre une erreur

l'existence d'une relle diffrence

Conclure l'existence d'une diffrence que si le

Dmarche du test statistique

Seuil de signification statistique

Le test statistique est un moyen

Contrle du risque alpha

une erreur alpha = p

p<5% conclusion l'existence

p>5% impossible de conclure

faire une conclusion errone

Disparition du risque d'erreur

une conclusion d'absence de diffrence

Diffrence non significative

OBJECTIF : Evaluer lefficacit dune injection unique de tobramycine

Dualit entre test et intervalle de

l'intervalle (prob de 95%)

Ensemble des valeurs non statistiquement diffrentes du

Relation entre IC et test

IC de la diffrence des risques incluant 0

Rduction de mortalit de 25% 12%, p<0.05

Rduction de mortalit de 2.3% 2.1%, p<0.05

Thorie des tests d'hypothses

(le traitement n'a pas d'effet)

(le traitement un effet)

Risques d'erreur alpha et bta

importante que ce que l'on a observ alors que H0 est

Principe du test : calculer la probabilit d'observer dans ce cas une

p = surface sous la courbe

p quantifie le degr de dsaccord entre l'hypothse nulle et

Rejet de l'hypothse nulle H0

L est dtermin par le seuil choisi (5%)

L dfini les diffrences qui ont une probabilit faible d'tre

observes sous l'hypothse nulle

Loi normale N(0,)

diff. observe z = 12%

diff. observe z = -4%

Possibilit de diff. significative aussi bien en cas de :

Comparaison des 2 approches