Rappel de Biostatistiques: Brice Leclère Dfasm2

Rappel de
biostatistiques
Brice Leclère
DFASM2
Les types de variables
▪ V. quantitative valeur numérique

– Continue toutes les valeurs possibles d’un intervalle
ex : tension artérielle 12,1 cm Hg – 14,8 cm Hg − 9,78 cm Hg − etc.
– Discrète certaines valeurs d’un intervalle
ex : nb de grossesse 1 − 2 − 3 − 4 − 5 − etc.
▪ V. qualitative valeur non numérique

– Nominale pas de hiérarchie entre les catégories
ex : groupe ABO A − B − AB − O
– Ordinale catégories ordonnées
ex : niveau de sévérité d’une maladie léger − modéré − sévère
– Cas particulier : v. qualitative à 2 catégories : binaire ou dichotomique

Échelle de likert v. qualitative ordinale
Tout-à-fait d’accord, d’accord, neutre, pas d’accord, pas du tout d’accord
Survie en mois v. quantitative discrète

1 mois, 2 mois, 4 mois, 12 mois, 36 mois, 120 mois, 248 mois, etc.
Âge quinquennal v. qualitative ordinale

0-4 ans, 5-9 ans, 10-14 ans, 15-19 ans, 20-24 ans, etc.
Statut Exposé/Non-exposé v. binaire
Échelle visuelle analogique v. quantitative discrète

Résumer l’information
▪ V. qualitative
ex : Statut par rapport à une maladie dans une population sur 6 mois
Malade, Non-malade, N, M, M, N, N, M, N, N, N, N, N, M, M, M, N, N, M, N, M
– Comptage : 8 malades
– Pourcentage : 40 % de malades
– Ratio : 8 malades pour 12 non-malades, ou 2 pour 3, ou 0,67
– Taux : 8 malades pour 6 mois ou 1,3 malade par mois
▪ V. quantitative
ex : âge d’une population d’étude
18, 22, 24, 26, 29, 30, 31, 50, 55, 95
– Moyenne : 38 ans
– Médiane : 29,5 ans
– Étendue : 18-95 ans
– Ne pas oublier les mesures de dispersion !
nb d'observations
Distribution symétrique
Moyenne
Écart-type
variable X
Nb d'observations
Distribution asymétrique
Plutôt médiane
Écart interquartile
Variable X
Mesures d’occurrence d’une
maladie
▪ Prévalence
Plus adaptée aux maladies chroniques
Proportion, Pourcentage, Poids de la maladie
Nb de cas / Population totale
▪ Incidence
Plus adaptée aux maladies aigües
Deux mesures :
– Incidence cumulée = risque
Nb de nouveaux cas / population à risque
– Taux d’incidence ou densité d’incidence = vitesse
Nb de nouveaux cas / personnes-temps à risque
Fréquence d’une maladie dans une population fictive
Première année, 5
personnes atteintes
Année 2, 7 personnes
de plus atteintes
Année 3, 4 personnes
de plus atteintes
La baignoire de
l’épidémiologiste
Comparer des variables
binaires
▪ Ex :
Rapport de risque ou risque relatif :

Incidence (risque)
80 % / 50 % = 1,6
exposés : 8/10 = 80 %
non-exposés : 5/10 = 50 %
Différence de risque :
80 % - 50 % = 30 %
binaires
▪ Ex :
Ratio de la maladie (cote)

exposés : 8/2 = 4 Rapport de cotes ou odds-ratio :
non-exposés : 5/5 = 1 4/ 1 = 4
binaires
▪ Ex :
Ratio (cote) de l’exposition

malades : 8/5 Rapport de cotes ou odds-ratio :
non-malades : 2/5 (8/5) / (2/5)= 8 / 2 = 4
Interprétations
▪ Un risque relatif (RR) égal à X signifie que le risque de la maladie

est multiplié par X chez les exposés par rapport aux non-exposés
▪ Une différence de risque de X signifie qu’il y aura X cas en plus
dans une population de 100 exposés par rapport à une
population de 100 non-exposés
▪ Un odds-ratio (OR) à X signifie que le rapport malades/non-
malades est multiplié par X chez les exposés par rapport aux
non-exposés
▪ OU que le rapport exposés/non-exposés est multiplié par X chez
les malades par rapport aux non-malades
▪ Un OR > 1 signe une augmentation du risque, mais l’OR sera
toujours une surestimation du RR
▪ Cette surestimation diminue avec la fréquence de la maladie et
la grandeur du risque
quantitatives
Coefficient de corrélation :
▪ Varie entre -1 et 1
▪ Entre 0 et 1, association positive
▪ Entre -1 et 0, association négative
▪ Si égal à 1 (ou -1), corrélation
parfaite entre les deux variables
▪ Si égal à 0, aucune association
valeur observée
« vraie » valeur
erreur
Précision - validité
Validité + Précision - Validité – Précision +
Validité - Précision - Validité + Précision +

Fluctuation d’échantillonnage
n=5
Population source
Prévalence = 40 %
Prévalence = 0 %
Prévalence = 40 %
Prévalence = 80 %
Fluctuation d’échantillonnage
n=8
Prévalence = 37,5 %
Prévalence = 25 %
Prévalence = 40 %
Prévalence = 50 %
Intervalle de confiance à 95
%
Si les valeurs observées sont vraies,

cet intervalle contiendra les
valeurs de 95% des échantillons
distribution d'échantillonnage
Plus d’IC est petit, plus la précision supposée est grande

Interprétations pour les
mesures d’association
Risque relatif = 1,5 [IC95: 1,2 ; 1,8] significatif
Risque relatif = 3,4 [IC95: 0,8 ; 7,9]
Si l’IC95 comprend la valeur 1, pas assez précis pour dire de

façon confiante que la vraie valeur n’est pas 1. résultat non
significatif.
Différence de moyenne = + 2,57 [IC95: 1,75 ; 3,40] significatif
Différence de moyenne = + 2,57 [IC95 : -0,8 ; 7,77]

Si l’IC95 comprend la valeur 0, pas assez précis pour dire de
façon confiante que la vraie valeur n’es pas 0. Résultat non
significatif.
Cadre du test d’hypothèse
Choix d’une hypothèse nulle

Ex : différence d’efficacité entre
traitement A et B = 0
0
Choix d’un delta

Ex : la plus petite différence
observable doit être de 2
0 2
En fonction de la taille de
l’échantillon et de la variance
attendue de la mesure, on
peut estimer les distributions
des statistiques de test
0 2
Région de rejet de
l’hypothèse nulle
risque alpha
0 2
Région d’acceptation de
l’hypothèse nulle
Risque bêta
0 2
Statistique observée
Valeur p
0 2
Test uni ou bilatéral
α=5%
H0 : A < ou = à B H0 : A = B
H1 : A > B H1 : A > B ou A < B
Test unilatéral Test bilatéral
Vrai ou faux ?
Le petit p correspond à la probabilité de l’hypothèse nulle.

FAUX le petit p est calculé en considérant que l’hypothèse
nulle est vraie
Le petit p correspond à la probabilité que les résultats

obtenus soient dus au hasard
FAUX l’hypothèse nulle étant considéré comme vraie, on
considère de toute façon que les différences sont dues au
hasard
Le petit p correspond à la probabilité de se tromper
lorsqu’on conclut à une différence significative
FAUX
Le petit p correspond à la probabilité d’observer
une différence au moins aussi importance que
celle observée si l’hypothèse nulle est vraie
Différence Pas de différence
Test + Vrais positifs Erreurs de type I
Test - Erreurs de type II Vrais négatifs
Risque α
probabilité d’avoir un test positif sachant qu’il n’existe pas de différence
Erreurs de type I / (Erreurs de type I + vrais négatifs)
Risque β
probabilité d’avoir un test négatif sachant qu’il existe une différence
Erreurs de type II / (Erreurs de type II + vrais positifs)
Puissance
probabilité d’avoir un test positif sachant qu’il existe bien une différence
1 – risque β
IC 95 % et petit p avec α = 5 % sont
équivalents
+
Maladie -
exposition
+ 80 20
- 50 50
RR = 1,6 (IC95 : 1,29 – 1,98)
Test du Khi2
χ²=18,5 p=2×10-5 seuil α = 5 %
3 grands types de biais
▪ Biais de sélection
au moment de la constitution et du suivi de la
population d’étude
▪ Biais d’information ou de classement ou de

mesure
au moment des mesures de variables
▪ Biais de confusion
au moment de l’interprétation des résultats
Biais de sélection :
hiérarchie des populations
Population cible
Population éligible
Population source
Population d’étude
(échantillon)
Biais de sélection :
hiérarchie des populations
Population cible
Population éligible
Si ces deux populations sont
différentes = biais de
Population source
sélection
Population d’étude
(échantillon)
Exemple 1
▪ On cherche à mener une étude sur le lien entre

l’utilisation de cabines de bronzage et la survenue de
mélanomes. On réalise pour cela une étude cas-
témoins hospitalière : les cas sont issus des patients
atteints de mélanomes traités dans cet hôpital et les
témoins sont des patients hospitalisés pour une autre
raison dans ce même hôpital. Cet établissement est un
centre de référence pour le traitement des mélanomes,
ce qui permet d’avoir un recrutement suffisant. Il s’agit
d’un hôpital publique, situé dans une région en
difficulté socio-économique.
Exemple 2
▪ On cherche à étudier l’efficacité de cours de

sensibilisation au collège pour lutter contre la
consommation de drogue. On étudie donc deux
groupes, l’un ayant reçu ces cours, l’autre ne les ayant
pas reçu. Les deux groupes sont comparables au début
de l’étude. On les suit ensuite pendant 10 ans et on
compare l’incidence de la consommation de drogue
dans les deux groupes.
Quelques sources de biais de
sélection
▪ Sélection des populations

– Mauvais taux de réponses
– Biais de volontariat
– Mauvaise population source
– Mauvaise sélection des témoins (cas-témoins)
▪ Mauvaise dissimulation des répartitions (essais randomisés)

▪ Attrition
– Perdus de vue
– Retrait de consentement
– Risques compétitifs
– …
▪ Non réponses, données manquantes

– Si non lié aux variables d’intérêt  erreur aléatoire
– Sinon  biais de sélection
Exemple 3
▪ Aux USA, on veut faire une étude cas-témoins chez

les accidentés de la route afin d’estimer le lien entre
accidents mortels et consommation d’alcool au volant.
Dans les accidents mortels (cas), l’alcoolémie est
toujours mesurée par les services médico-légaux.
L’exposition chez les témoins sera estimée via un
entretien.
Types d’erreurs de mesure
▪ Erreurs de mesure aléatoire et systématique
▪ Erreurs de mesure survenant indépendamment des

variables d’intérêt (exposition, maladie,…)
erreurs de mesure non-différentielles
si variables binaires, biais vers l’hypothèse nulle
▪ Erreurs de mesure liées à une variable d’intérêt

erreurs de mesure différentielles
Sens du biais imprévisible
Pour éviter les biais de
mesure
▪ Utiliser des outils performants et validés

▪ Limiter les mesures subjectives ou difficiles à
mesurer
▪ Faire appel à des enquêteurs formés
▪ Utiliser l’aveugle
▪ Croiser les sources d’information
▪ Corriger les mesures en fonction des sensibilités et
spécificitésu des outils de mesure
Biais de confusion
?
Café Cancer du poumon
Biais de confusion
Café Cancer du poumon
Tabagisme
Facteur de confusion
Comment prendre en compte les
biais de confusion ?
▪ Randomisation de la variable d’intérêt (essais)

▪ Exclusion d’une partie de la population
▪ Appariement
▪ Ajustement :
– Analyse en sous-groupe ou stratification
– Standardisation
– Analyse multivariée
Analyse en sous-groupe
Maladie
+ -
50 160
+
Café
-
25 120
Risque relatif = 1,38

Analyse en sous-groupe
Tabac +
Maladie
+ -
30 80
+
Café
RR = 1
-
15 40
Maladie Tabac -
+ -
20 80
+
Café
RR = 1
-
20 80
Analyse multivariée
Exemple
Étude observationnelle sur durée d’une opération
chirurgicale
2 procédures :
Procédure A : 189,8 min [IC95: 180,5 ; 198,1]
Procédure B : 181,3 min [IC95: 174,9 ; 187,6]
Non significatif
Ancienneté par procédure :

Procédure A : 9,4 ans [IC95: 8,1 ; 10,6]
Procédure B : 6,3 ans [IC95: 5,3 ; 7,2]
Significatif
Exemple
Durée par ancienneté

durée = ordonnée à l’origine + a × ancienneté
La régression linéaire permet

d’estimer les paramètres de la
droite avec un intervalle de
confiance :
- Ordonnée à l’origine :
219 [IC95: 211 ; 227]
- Pente (effet de l’ancienneté) :

- 4,3 [IC95: -5,2 ; -3,4]
Exemple
Procédure Durée d’intervention
Ancienneté
Facteur de confusion
Exemple
Durée = ordonnée à l’origine + a1 × ancienneté + a2 × procédure (A=0, B=1
Paramètres du plan :
- Ordonnée à l’origine :
245 [IC95: 236 ; 253]
- effet de l’ancienneté :
- 5,7 [IC95: -6,5 ; -5,0]
- Effet lié à la procédure B :

-32,2 [IC95: -38,8 ; -25,6]
L’effet propre de la procédure B est

significatif (32 min de moins en
moyenne)
Régression logistique
Adaptée à la modélisation des risques - Effet de l’âge (pour chaque tranches de

5 ans)
Les paramètres de la courbes OR = 1,58 [IC95: 1,32 ; 1,99]
permettent d’estimer les odds-ratios - Effet x1
ajustés (biais de confusion minimisé). OR = 1,22 [IC95: 0,71 ; 2,17]
Autres modélisations
▪ Modèle de Poisson
pour les variables de comptage (nb de cas, etc.)
▪ Modèle de Cox
pour les données censurées à droite (survie, etc.)
voir cours études pronostiques

Rappel de Biostatistiques: Brice Leclère Dfasm2

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Rappel de Biostatistiques: Brice Leclère Dfasm2

Transféré par

Droits d'auteur :

Formats disponibles

Rappel de

▪ V. quantitative valeur numérique

▪ V. qualitative valeur non numérique

– Cas particulier : v. qualitative à 2 catégories : binaire ou dichotomique

Survie en mois v. quantitative discrète

Âge quinquennal v. qualitative ordinale

Statut Exposé/Non-exposé v. binaire

Échelle visuelle analogique v. quantitative discrète

Rapport de risque ou risque relatif :

Ratio de la maladie (cote)

Ratio (cote) de l’exposition

▪ Un risque relatif (RR) égal à X signifie que le risque de la maladie

Validité + Précision - Validité – Précision +

Validité - Précision - Validité + Précision +

Si les valeurs observées sont vraies,

Plus d’IC est petit, plus la précision supposée est grande

Risque relatif = 3,4 [IC95: 0,8 ; 7,9]

Si l’IC95 comprend la valeur 1, pas assez précis pour dire de

Diﬀérence de moyenne = + 2,57 [IC95: 1,75 ; 3,40] signiﬁcatif

Diﬀérence de moyenne = + 2,57 [IC95 : -0,8 ; 7,77]

Choix d’une hypothèse nulle

Choix d’un delta

Le petit p correspond à la probabilité de l’hypothèse nulle.

Le petit p correspond à la probabilité que les résultats

Test + Vrais positifs Erreurs de type I

Test - Erreurs de type II Vrais négatifs

RR = 1,6 (IC95 : 1,29 – 1,98)

▪ Biais d’information ou de classement ou de

▪ On cherche à mener une étude sur le lien entre

▪ On cherche à étudier l’efficacité de cours de

▪ Sélection des populations

▪ Mauvaise dissimulation des répartitions (essais randomisés)

▪ Non réponses, données manquantes

▪ Aux USA, on veut faire une étude cas-témoins chez

▪ Erreurs de mesure aléatoire et systématique

▪ Erreurs de mesure survenant indépendamment des

▪ Erreurs de mesure liées à une variable d’intérêt

▪ Utiliser des outils performants et validés

Café Cancer du poumon

▪ Randomisation de la variable d’intérêt (essais)

Risque relatif = 1,38

Ancienneté par procédure :

Durée par ancienneté

La régression linéaire permet

- Pente (effet de l’ancienneté) :

Procédure Durée d’intervention

Durée = ordonnée à l’origine + a1 × ancienneté + a2 × procédure (A=0, B=1

- Effet lié à la procédure B :

L’effet propre de la procédure B est

Adaptée à la modélisation des risques - Effet de l’âge (pour chaque tranches de

Vous aimerez peut-être aussi