Vous êtes sur la page 1sur 54

Comprendre les résultats

statistiques
Michel Cucherat
Fluctuations aléatoires
Échantillon
1
48%
Échantillon
2
Obtenir pile à pile ou face 52%
(Probabilité = 50%) Échantillon
3
50%
Échantillon
4
45%
Fluctuations aléatoires
Échantillon
1
9%
Échantillon
2
Même type de patients 12%
(Probabilité d'AVC = 12%) Échantillon
3
16%
Échantillon
4
26%
 Conséquences pour la comparaison de 2 échantillons

– les proportions observées dans 2 échantillons peuvent être


différentes
– uniquement du fait du hasard
– même si dans ces 2 échantillons la vraie probabilité était la même

 les FAE sont susceptibles de fausser les comparaisons


Conséquences des fluctuations
Effet du traitement = 0

Vrai risque = 10% Vrai risque = 10%


Groupe T+ Groupe T-

Risque observé = 6% Risque observé = 12%

Différence observée = -6%


Problématique des comparaisons

 Quand on ignore la réalité,


la différence observée de -6% est-elle ?

– une manifestation des fluctuations aléatoires,


donc due uniquement au hasard

– la traduction d’une réelle différence entre les deux groupes,


donc d’un effet non nul du traitement

 Comment départager ces 2 possibilités ?

 Solution : test statistique .


But des comparaisons

 Quel est le but des comparaisons ?

Grp T
Conclure à Décider d'utiliser
diff -6% l'existence d'une le nouveau
différence traitement
Grp C

La conclusion doit être conforme à la réalité


mais elle se base uniquement sur l’observé
Effets des fluctuations dans une
comparaison
 Le hasard peut faire apparaître une différence qui n'existe
pas en réalité

 Inversement, le hasard peut réduire une différence qui


existe réellement

 donc 2 façons de fausser la conclusion


Erreur statistique alpha

 Conclure à l'existence d'une différence qui n'existe pas en


réalité : faux positif

Échantillon 1
7.5%
Différence
Vrai valeur
non réelle
12%
Échantillon 2
15%
Erreur statistique bêta

 Ne pas conclure à une différence qui existe pourtant en


réalité : faux négatif

Vrai valeur Échantillon 1


12% 15%
Fausse absence
de différence

Vrai valeur Échantillon 2


19% 15%
Tests statistiques

 Outils d'aide à la décision

 Principe
– conclure à une différence
– que si le risque de faire une erreur (de première espèce) est faible

 Quantification du risque d'erreur alpha


– à partir des données disponibles

 (Risque de commettre une erreur alpha = risque alpha)


Démarche du test statistique

 Calcul de la probabilité p
– p : probabilité que "la différence observée soit due uniquement au
hasard"
 p représente le risque de faire une conclusion erronée si
l'on décidait de conclure
 p est une quantification du risque alpha
 On ne conclut que si ce risque d'erreur est suffisamment
petit
5% ?

 Un risque de 5% est-il acceptable pour décider de


l'utilisation d'un traitement ?

 Exigence réglementaire de 2 essais significatifs


– alpha de la décision 5%*5%=2.5/1000
Différence non significative

Absence
Absenceréelle
réelle
d'effet
d'effet
Résultat
Résultat
non
nonsignificatif
significatif ?
Manque
Manquedede
puissance
puissance

 Impossible de conclure
 Ne pas conclure à l’absence de différence
 «L’absence de preuve n’est pas la preuve de l’absence»
OBJECTIF : Evaluer l’efficacité d’une injection unique de tobramycine
(T) chez des patientes traitées pour une pyélonéphrite aiguë
noncompliquée par de la ciprofloxacine (CIP) (500 mg 2 fois par jour per
os)

RÉSULTATS : Cent dix huit patientes ont été inclues, 60 dans le


groupe tobramycine et 58 dans le groupe placebo. E. coli a été isolé de
façon prédominante et tous les germes isolés étaient sensibles à la
ciprofloxacine et à la tobramycine. Deux échecs sont survenus dans le
groupe CIP + T et 4 dans le groupe CIP + P (non significatif).

CONCLUSION : L’administration d’une dose de tobramycine


n’améliore aucun paramètre clinique dans le traitement des
pyélonéphrites aiguës non compliquées traitées par de la ciprofloxacine
par voie orale.
Répétitions des tests statistiques
Répétition des tests

 Plusieurs tests réalisés pour répondre à une même


question
– par exemple plusieurs critère de jugement
 Conclusion à un effet à partir du moment où il existe au
moins un test significatif
 Le risque α de la conclusion est bien supérieure à 5%
= Inflation du risque alpha

 Rappel, avec un ttt. sans effet,


– sur 100 tests, il y en aura 5 significatifs (en moyenne)
1 test Conclusion Contrôle parfait du
(seuil de 5%)
risque alpha (5%)

Test 1
Test 2 Le risque de conclure à
Conclusion
Test 3 tort est > à 5%
A partir du moment où
Test 4
au moins 1 test est
significatif
Comparaisons multiples
Aux dés, la probabilité d ’obtenir un six est
plus forte avec 3 dés qu ’avec un seul

Test 1 Test 2 Test 3 Test 4


Risque de Risque de Risque de Risque de
conclure à tort à conclure à tort à conclure à tort à conclure à tort à
une différence une différence une différence une différence
= 5% = 5% = 5% = 5%

Globalement, le risque de
conclure à tort à une différence
lors de ces 4 comparaisons est
bien plus important que 5%.
Comparaisons multiples

 Avec un traitement sans efficacité


 en faisant 10 tests statistiques (p.e. 10 essais)
 nous avons 40% de risque de faire au moins une
conclusion (à tort)

Nb de tests Risque alpha


global

α global = 1 − ( 1 − α )
k 5 0.23
10 0.40
20 0.64
50 0.92
Inflation risque alpha

 Situations d’inflation du risque α par répétition des


comparaisons :
– Absence de critère principal
– Analyses en sous groupes
– Recherche de l’effet répété dans le temps
– Analyses intermédiaires « non protégées »
Critère de jugement principal
• Décès de toute cause Critère principal
• Décès cardiovasculaire • Décès de toute cause
• Mort subite Critères secondaires
• Infarctus • Décès cardiovasculaire
• Accident vasculaire cérébraux • Mort subite
• Chirurgie • Infarctus
• Accident vasculaire cérébraux
• Chirurgie Définition a priori
Pas de définition d ’un critère principal
de critère principal
Un seul test statistique
6 tests statistiques

Risque Risque
Risquede deconclure
conclureàà
Risquede deconclure
conclureàà tort
tort
tortààl l’efficacité
’efficacitédu
du tortààl l’efficacité
’efficacitédu
du
traitement traitement =
traitement = 5% 5%
traitement==30% 30%
Critère principal

 Conclusion que si le critère principal est significatif


 Critères secondaires : explicatifs
Multiplicité des comparaisons -
Exemple

In women, however (Table 2), a positive effect


on BMD was observed at several sites (mostly
trabecular bone zones), namely the femoral
neck and the Ward’s triangle in the 60–69 y
group, and upper and total radius in the 70–79
y group.
Autres situations de répétition des
tests
 mesures répétées au cours du temps
Sous groupe
On a comparé sur 2 groupes de 120 malades un oxygénateur
cérébral à un placebo.
Le critère d’évaluation principal était évalué par l’échelle
d’appréciation clinique en gériatrie (EACG).
Globalement les résultats ne montraient pas de différence
significative.
Cependant, si l’on éliminait les gens trop anxieux (score
d’Hamilton >18), en ne prenant en compte que les femmes (les
hommes semblent moins répondeurs), la différence devient
hautement significative sur la tranche d’âge 70 à 80 ans, ce qui
montre bien l’activité du produit chez les gens âgés.
Analyse en sous-groupes - Essai
non concluant
Essai 0.92 NS

1 Age<75 0.92 NS
2 Age>75 0.95 NS

3 Hommes 0.92 NS
4 Femmes 0.99 NS

5 Antécédents d'infarctus 0.87 NS


6 Pas d'antécédents d'infarctus 1.03 NS

7 Prise d'aspirine 0.78 p<0.05


8 Pas d'aspirine 1.09 NS
Limites- Multiplicité des tests

1 Age<75 test 1 risque erreur 5%


2 Age>75 test 2 risque erreur 5%

3 Hommes test 3 risque erreur 5%


4 Femmes test 4 risque erreur 5%

5 Antécédents d'infarctus test 5 risque erreur 5%


6 Pas d'ATCD d'infarctus test 6 risque erreur 5%

7 Prise d'aspirine test 7 risque erreur 5%


8 Pas d'aspirine test 8 risque erreur 5%
Analyses en sous groupes - Essai
concluant
Essai 0.78 p<0.05

1 Age<75 0.65 p<0.01


2 Age>75 0.90 NS

3 Hommes 0.76 p<0.05


4 Femmes 0.78 p<0.05

5 Antécédent d'infarctus 0.97 NS


6 Pas d'antécédent d'infarctus 0.70 p<0.01

7 Diabétique 0.50 p<0.001


8 Non diabétique 0.91 p<0.05
Lancet 2005; 365: 176–86
Analyses en sous groupes

 Résultat de nature exploratoire


– hypothèse non formulée a priori
– aucune conclusion définitive possible
– inflation risque alpha et bêta
Sous groupes (suite)

 Résultat global négatif


– recherche du sous groupe dans lequel le traitement marche
– comparaisons multiples : inflation du risque alpha
– approche post hoc
• l'hypothèse est testée sur les données qui ont permis de la générer

 Résultats global positif


– recherche des patients chez lequel le traitement ne marche pas
– inflation risque bêta
– hypothèse d'absence d'effet
• donc limite de non infériorité
Hétérogénéité

 Utilisation des sous groupes pour vérifier la stabilité de


l'effet
 Test d'interaction
– RRsg1<>RRsg2
 Aspect cognitif (non décisionnel)
 Génération de nouvelles hypothèses
Analyses intermédiaires
Analyses intermédiaires

 en cours d’essai, avant que tous les patients prévus aient


été recrutés
 et/ou avant la fin de la période de suivi initialement prévue

 But arrêter prématurément


– pour efficacité
– pour toxicité
– pour futilité
Ajustement du seuil de
signification
 Méthode de Bonferroni
α
– Pour k comparaisons, le seuil ajusté est : saj =
– Pour k=3, saj = 5% / 3 = 1.67% k
– Quand α est petit,
( ) ≈ 1 −αk
k
1 − α
1− (1−α ) ≈ αk
k

– Donc pour conserver un risque alpha global de 5% :


α k = 0.05
0.05
α=
k
– Inconvénient : fait l’hypothèse d’une stricte indépendance des variables
testées  méthode conservatrice
Ajustement du seuil de
signification - 2
 Méthode de Tukey
α
saj =
k
– Pour k=3, saj = 5% / 1.73 = 2.89%
Cas 1

Analyse intermédiaire Analyse


1 2 3 finale
p = 0.10 p = 0.011

 3 analyses intermédiaires + 1 analyse finale = 4


comparaisons
saj = 5% / 4 = 1.25%
 Arrêt prématuré de l’essai
Cas 2

Analyse intermédiaire Analyse


1 2 3 finale
p = 0.25 p = 0.08 p = 0.04 p = 0.01

 Pas d’arrêt prématuré mais conclusion à l’efficacité


Cas 3

Analyse intermédiaire Analyse


1 2 3 finale
p = 0.42 p = 0.28 p = 0.12 p = 0.04

 Pas d’arrêt prématuré et résultat non significatif (p=4%>saj)


Cas 4

Analyse intermédiaire Analyse


1 2 3 finale
P = 0.89 p = 0.48 p = 0.25 p = 0.10

 Résultat non significatif


Autres méthodes
Méthode Analyses intermédiaires Analyse
1 2 3 4 finale
Pocock 0.017 0.017 0.017 0.017 0.017
O’Brien et
0.00005 0.004 0.012 0.025 0.04
Flemming
Lan et
0.015 0.016 0.017 0.018 0.019
Demets 1
Lan et
0.00001 0.002 0.011 0.025 0.041
Demets 2
Peto 0.001 0.001 0.001 0.001 0.05

 Fonctions de dépenses du risque alpha


P ajusté

paj = pk
 Problème : différents p donnés par les tests
– exemple : 0.01, 0.02, 0.20

 Problème de l'intervalle de confiance


Méthode séquentielle

 Analyse en continue
 Test triangulaire
CARDS

 interim analysis when 25%, 50%, and 75% of the total


anticipated primary endpoints had accrued.
 The interim analyses used an asymmetric (Peto-Haybittle)
type rule and we prespecified that the board might advise
termination if a significant difference emerged
– in favour of atorvastatin (at p<0·0005 one-sided, p<0·001
twosided at any analysis) or
– in favour of placebo (at p<0·005, 0·1, and 0·2 one-sided, for the
three interim analyses, respectively).
 At the second interim analysis a significant difference was
reported in favour of atorvastatin at p<0·001 (two-sided)
CARDS
Ajustement pour les critères
secondaires
Essai 1 Essai 2
Infarctus mortels et non mortels p=0.03 p=0.001
infarctus non mortels p=0.05 p=0.010
décès par infarctus p=0.02 p=0.010
décès de toute cause p=0.06 p=0.03

 Conclusion essai 1
– pas de démonstration de l'efficacité
 Conclusion essai 2
– démonstration de l'efficacité de manière statistiquement significative
(p<0.05)
– sur les 3 premiers critères de jugement