QCM Supprimée
QCM 2. Vous disposez de données sur un échantillon suivi pendant 5 ans, composées de plusieurs
variables décrivant des caractéristiques sociodémographiques et de santé de chaque individu. Quelles
sont les affirmations vraies ?
a) Le sexe, codé en 0 pour les hommes et 1 pour les femmes, peut être aussi bien considéré comme
une variable qualitative que quantitative.
b) La taille mesurée en centimètres et arrondie au centimètre est une variable continue.
c) Le statut tabagique codé en 4 modalités : « non fumeur », « ex fumeur », « fumeur, moins de 1
paquet par jour », « fumeur, plus de 1 paquet par jour » est une variable qualitative ordonnée.
d) La variable binaire « décès à 5 ans de suivi » (OUI/NON) est une variable censurée.
e) La variable « profession et catégorie socioprofessionnelle » (PCS) est une variable nominale.
Réponse
On remarque une ambiguïté entre « non fumeur », « ex fumeur » puisque les ex fumeurs sont aussi des
non fumeurs. On se demande aussi où sont les personnes qui fument exactement 1 paquet par jour!
a) VRAI : c'est un choix que doit faire le statisticien en fonction des méthodes statistiques qu'il veut
utiliser.
b) VRAI : c’est une variable quantitative continue car la précision en centimètre (pas de chiffre après
la virgule) lui confère un nombre important de valeurs possibles.
Il serait plus précis de dire "peut-être considéré comme".
c) FAUX : c’est une variable qualitative non ordonnée (nominale) car en présence des « ex fumeurs »
on ne peut pas considérer qu’il existe un ordre entre les différentes classes. S’il n’y avait pas eu la
classe « ex fumeur », on aurait par contre pu considérer le statut tabagique comme qualitatif ordonné
(ordinale).
d) FAUX : c’est une variable qualitative binaire. Une variable censurée aurait été le temps entre le
début du suivi et la survenue du décès au cours des 5 ans de suivi, à la condition que l'on ait des
censures donc que tous ne soient pas décédés.
e) VRAI : les catégories professionnelles sont des classes, mais on ne peut pas considérer qu’elles sont
ordonnée, donc la variable est qualitative nominale.
1
QCM 3. Vous cherchez à décrire de la manière la plus synthétique possible la variable « âge en
années » d’un échantillon de 100 sujets. Quelles sont les affirmations vraies ?
a) Pour la représentation graphique, vous utiliserez un histogramme
b) Pour la représentation graphique, vous utiliserez un diagramme en barres verticales
c) L’écart type de l’âge a pour unité l'année
d) Si la fonction de répartition vaut 0 pour un âge de 13 ans et 1 pour un âge de 15 ans, alors la
médiane vaut 14 ans
e) Si le mode vaut 15 ans alors la fonction de répartition est maximum à cet âge
Réponse :
a) VRAI : l’âge en années est une variable quantitative, donc on utilise un histogramme pour les
représentations graphiques.
b) FAUX : cf. réponse a).
c) VRAI : l’écart type a la même unité que les valeurs de la variable quantitative.
d) FAUX : on n’a pas assez de données pour pouvoir répondre, cela dépend de la distribution des
valeurs d’âges entre 13 et 15 ans. D'après l'énoncé on sait simplement que les sujets ont entre ]13 ...
15] ans
e) FAUX : c’est l’effectif des sujets qui est au maximum à cet âge.
2
QCM 4. Dans un échantillon de taille 30, on étudie les valeurs de la variable « âge » notées x1, …,
x30. Après calcul on obtient Var(âge)=0. Quelles sont les affirmations correctes ?
a) La variable âge est centrée
b) Autant de sujets ont un âge supérieur à la moyenne que de sujets ont un âge inférieur à la
moyenne
c) L'écart type est nul
d) Si l’on disposait de la moyenne de l'âge dans l'échantillon on pourrait déterminer l'âge de
chacun des sujets
e) Si l'on tire un sous échantillon dans cet échantillon, alors il serait possible d'obtenir une variance
>0.
Réponse :
a) FAUX : une variable centrée est une variable qui a pour moyenne 0. Ce n’est pas le cas ici pour
cette variable d’âge.
b) VRAI : Var(âge)=0 ce qui signifie que les 30 sujets ont tous le même âge, qui est donc égal aussi à
l’âge moyen. Donc autant de sujets ont un âge inférieur à la moyenne que de sujets ont un âge
supérieur à la moyenne c'est à dire aucun.
c) VRAI : car variance=0
d) VRAI : car tous les sujets de l’échantillon ont le même âge étant donné que Var(âge)=0.
e) FAUX : les sujets de ce sous échantillon ont tous le même âge, Var(âge)=0 quel que soit la taille du
sous échantillon.
3
QCM 5. Dans une population P l’âge suit une distribution normale et est en moyenne de 31 ans. 95%
des sujets ont entre 27 et 35 ans.
a) La probabilité d’être dans l’intervalle d’âge [25-37 ans] est plus grande ou égale à 89%
b) L’âge médian est supérieur à l’âge moyen
c) La probabilité d’être dans l’intervalle d’âge [25-37 ans] est plus grande ou égale à 95%
d) L’âge médian est inférieur à l’âge moyen
e) Aucun sujet n’a plus de 80 ans
Réponse :
a) VRAI : d’après les données de l’énoncé, l’intervalle [27…35] comprend 95% des sujets et
correspond donc à l’intervalle [m–2s … m+2s] car il est symétrique autour de 31 ans. Donc l’écart
type s vaut (31-27)/2=2 ans. L’intervalle [25-37 ans] correspond donc à [m–3s…m+3s]. Il correspond
donc à une probabilité supérieure à 95%.
En utilisant le théorème de Bienaymé-Tchebychef, on trouve une probabilité supérieure ou égale à 1-
1/9=0.89, ce qui permettait aussi de répondre à la question.
L'utilisation du fait que ici la loi est normale permet de donner un intervalle plus précis que l'utilisation
du théorème de Bienaymé-Tchebychef qui s'applique à toutes les distributions, normales ou non.
b) FAUX : âge médian = âge moyen puisque l’âge suit une distribution normale.
c) VRAI : car l'intervalle est plus large que [m–2s … m+2s].
d) FAUX : âge médian = âge moyen puisque l’âge suit une distribution normale.
e) FAUX : Car c'est une loi normale donc en théorie on peut avoir toute valeur de moins l'infini à plus
l'infini.
4
QCM 6. Dans un échantillon de 200 patients, la moyenne de la concentration d'hémoglobine (Hb)
dans le sang est de 11 g/dL et la médiane est de 11 g/dL. On considère que la distribution est continue.
Quelles sont les affirmations correctes ?
a) La variable Hb a une distribution unimodale
b) La variable Hb a une distribution symétrique
c) Il y a autant de patients avec une Hb inférieure à la moyenne que de patients avec une Hb
supérieure à la médiane
d) Il y a autant de patients avec une Hb inférieure à la médiane moins un écart-type que de
patients avec une Hb supérieure à la médiane plus un écart-type
e) On constate qu'un patient avait une valeur aberrante d'Hb à 100 g/dL. En la remplaçant par la
valeur 12 g/dL, la valeur de la médiane reste inchangée
Réponse :
a) FAUX : on n’a pas assez d’informations pour pouvoir répondre. Il manque des informations sur la
loi empirique suivie par la variable (histogramme) ou sur la loi théorique suivie par la variable
(densité, fonction de répartition).
b) FAUX : on n’a pas assez d’informations pour pouvoir répondre. Il manque des informations sur la
loi empirique suivie par la variable (histogramme) ou sur la loi théorique suivie par la variable
(densité, fonction de répartition). (Par contre si on sait qu’une variable a une distribution symétrique,
alors moyenne = médiane).
c) VRAI : car la moyenne est égale à la médiane.
d) FAUX : on n’a pas assez d’informations pour pouvoir répondre. Il manque des informations sur la
loi empirique suivie par la variable (histogramme) ou sur la loi théorique suivie par la variable
(densité, fonction de répartition).
e) VRAI : car cette nouvelle valeur (12 g/dL) reste supérieure à la médiane initiale (11 d/dL).
5
QCM 7. Soit X une variable aléatoire telle que moy(X)= 3 et var(X)=1. On définit la variable aléatoire
Y=3 X - 1. Quelles sont les affirmations correctes ?
a) var(Y/2) = 7/4
b) moy(Y) = 8
c) var(Y) = 9
d) moy(X-Y) est positive
e) moy(X-moy(X²))=0
Réponse :
a) FAUX : var(Y/2)=var(Y)/4=9/4
b) VRAI : moy(Y)=3 moy(X) - 1 =3*3-1=8
c) VRAI : var(Y)=3² var(X)=9
d) FAUX : moy(X-Y)= moy(X)-moy(Y)=3-8= - 5
e) FAUX : moy(X-moy(X²))=moy(X)-moy(X²)
or moy(X)=3
et var(X)= moy(X²)-moy(X)² --> moy(X²)=var(X)+ moy(X)²=1+9=10
donc c'est 3-10=-7
6
QCM 8. Parmi des sujets épileptiques, le nombre de crises d’épilepsie au cours d’un an est une
variable aléatoire X distribuée suivant la loi suivante : P(X=0)=0,2 ; P(X=1)=0,35 ; P(X=2) = 0,25 ;
P(X=3)=0,2. Parmi les propositions suivantes laquelle (lesquelles) est (sont) vraie(s) ?
a) X est une variable qualitative ordinale
b) X est une variable aléatoire censurée
c) Le nombre moyen de crises d’épilepsie vaut 2,0
d) Le nombre moyen de crises d’épilepsie vaut 1,0
e) Soit F la fonction de répartition de X, on a F(2)=0,80
Réponse :
7
QCM 9. QCM Supprimée
Réponse :
8
QCM 11. QCM Supprimée
QCM 13. Une étude chez des sujets ayant un cancer du poumon et portant sur leur risque de décès à 5
ans en fonction du stade de ce cancer en 3 classes (Débutant, Intermédiaire, Avancé) fournit les
résultats suivants : RR(Avancé/Débutant)=3.5 et RR(Intermédiaire/Débutant)=2.2, où RR(x/y)
correspond au risque relatif de décès chez les sujets du groupe x par rapport aux sujets du groupe y.
a) La variable stade du cancer est une variable quantitative ordinale
b) RR(Débutant/Avancé) > RR(Débutant/Intermédiaire)
c) RR(Avancé/Intermédiaire) ne peut pas être calculé
d) RR(Débutant/Avancé) > RR(Intermédiaire/Avancé)
e) RR(Débutant/Avancé) < RR(Débutant/Intermédiaire)
Réponse :
On utilise RR(x/y)=1/RR(y/x) et RR(x/y)=RR(x/z)/RR(y/z)
(même règle que les fractions)
0 OR RR 1 RR OR
Cas 1 Cas 2
ou OR=RR=1
9
QCM 14. Soit RR Le risque relatif. Quelles sont les affirmations correctes ?
a) Habituellement, le RR est le rapport entre le risque chez les personnes exposées et le risque
chez les personnes non-exposées
b) le RR peut toujours être approché par l'odds-ratio
c) Si RR <1 alors OR >RR
d) Si RR < OR alors RR > 1
e) RR permet de mettre en évidence un éventuel lien entre deux facteurs de risque d’une maladie
Réponse :
a) VRAI
b) FAUX (sauf si événement rare dans les 2 catégories)
c) FAUX. dans ce cas OR < RR
d) VRAI. c'est le cas où RR > 1
e) VRAI. C'est utilisé d'habitude pour l'étude du lien entre une maladie et un facteur de risque. Mais
on peut utiliser le RR pour calculer le lien entre 2 facteurs de risques à partir du moment où ils sont
tous les deux dichotomiques.
0 OR RR 1 RR OR
Cas 1 Cas 2
ou OR=RR=1
10
QCM 15. QCM Supprimée
QCM 16. Dans un échantillon de 5 000 fumeurs, l’odds-ratio d’infarctus du myocarde associé au
nombre de cigarettes fumées par jour est de 1,01. On sait que dans cet échantillon l'infarctus du
myocarde est rare quelle que soit la quantité de tabac fumée. Que pouvez-vous conclure d’après les
données de cet échantillon ?
a) Les non fumeurs ont moins de risque d’infarctus du myocarde que les fumeurs
b) Le tabagisme augmente de 1% le risque d’infarctus du myocarde
c) Fumer 20 cigarettes par jour au lieu de 10 augmente le risque d’infarctus du myocarde d’environ
9,4%
d) Fumer 10 cigarettes par jour au lieu de 0 augmente le risque d’infarctus du myocarde d’environ
9,4%
e) Fumer 20 cigarettes par jour au lieu de 1 multiplie le risque d’infarctus du myocarde par 1,21
11
QCM 17. Dans un échantillon, une régression logistique univariée de la variable binaire « accident
vasculaire cérébral » (OUI=1 / NON=0) expliquée par la variable sexe (Homme=1, Femme=0), aboutit
à un coefficient a de 0.69. Après analyse multivariée ajoutant la variable quantitative pression
artérielle, ce même coefficient a passe à -0.10.
a) Dans cet échantillon, en analyse univariée, le sexe masculin est un facteur protecteur car a est
inférieur à 1
b) Dans cet échantillon, le sexe joue un rôle intrinsèque sur le risque d’accident vasculaire
cérébral
c) Dans cet échantillon, en analyse multivariée, l’odds-ratio d’accident vasculaire cérébral
associé au sexe féminin est de 1.1
d) Dans cet échantillon, la pression artérielle joue un rôle intrinsèque sur le risque d’accident
vasculaire cérébral
e) Dans cet échantillon, en analyse univariée, l’odds-ratio d’accident vasculaire cérébral associé
au sexe masculin est de 2.0
Valeur numérique éventuellement utile e0.69=2.0 e-0.1=0.90
Réponse :
a) FAUX : en analyse univariée OR(AVC des hommes % femmes) = e0.69 = 2.0. Le sexe masculin est
donc un facteur de risque aggravant d’après l’analyse univariée.
La frontière est OR=1, donc a=0.
b) VRAI : en analyse multivariée, le coefficient a n’est pas nul. Dans cet échantillon, le sexe garde
donc un rôle intrinsèque sur le risque d’accident vasculaire cérébral.
c) VRAI : en analyse multivariée, OR(AVC des hommes % femmes) = e-0.10 = 0.90
OR(AVC des femmes % hommes)=1/OR(AVC des hommes % femmes)=1/0.90
= 1.11111=1.1
d) VRAI : car en ajoutant la variable pression artérielle, cela a modifié le coefficient a entre AVC et
sexe. Le sens et la force de l’association entre AVC et sexe a été modifié suite à l’ajout de la variable
pression artérielle, c’est donc que cette dernière variable joue un rôle intrinsèque.
e) VRAI : cf. réponse a)
Remarque. Pour généraliser les résultats ci-dessus à la population dont l'échantillon provient, il
faudrait connaître les intervalles de confiance des OR et que l'échantillon soit représentatif de la
population, donc soit tiré au sort.
12
QCM 18. Médecin généraliste à Paris, vous avez observé que la prévalence d’angine bactérienne
parmi les enfants de votre consultation est de 20% durant l’hiver. Pour vous aider dans votre
diagnostic, vous utilisez un test de dépistage rapide (TDR) de l’angine dont vous savez que la
sensibilité est de 90% et que la spécificité est de 95% pour l’angine bactérienne. Quelles sont les
affirmations vraies ?
a) La probabilité que le TDR soit négatif sachant que l’enfant a bien une angine bactérienne est
de 10%
b) La probabilité que l’enfant ait une angine bactérienne alors que le TDR est positif est de 90%
c) Vous tirez au sort plusieurs échantillons de 100 enfants de votre consultation. En moyenne,
ces échantillons de 100 personnes comporteront 5 enfants ayant un test positif sachant qu’ils
n’ont pas d’angine bactérienne
d) La probabilité que le TDR soit positif sachant que l’enfant a bien une angine bactérienne
augmenterait si la prévalence de l’angine bactérienne passait de 20% à 40%
e) Dans un échantillon de 100 enfants, 15 en moyenne seront mal évalués par le TDR
Réponse :
En prenant un échantillon de 100 enfants de la consultation :
Pas d'angine Angine
Total
bactérienne bactérienne
TDR – 0.95*80=76
TDR + 0.9*20=18
Total 0.80*100=80 0.20*100=20 100
On obtient alors
Pas d'angine Angine
Total
bactérienne bactérienne
TDR – 76 2 78
TDR + 4 18 22
Total 80 20 100
a) VRAI : 2/20=0.10
b) FAUX : 18/22=0.82 (=VPP)
c) FAUX : c'est 4 (voir le tableau)
d) FAUX : P(TDR+/Angine bactérienne) = Se. La sensibilité est une caractéristique propre au test et
n’est pas modifiée par la prévalence de l’angine.
e) FAUX : c'est 4+2=6 (voir la tableau)
Remarque :
Le NOMBRE d'enfants ayant un test positif
SACHANT qu'ils n'ont pas d'angine bactérienne =4
Le NOMBRE d'enfants ayant un test positif
ET qui n'ont pas d'angine bactérienne =4
La PROPORTION d'enfants ayant un test positif
SACHANT qu'ils n'ont pas d'angine bactérienne =4/80
Le PROPORTION d'enfants ayant un test positif
ET qui n'ont pas d'angine bactérienne =4/100
Le nombre est le même, mais la proportion change car le dénominateur n'est pas le même.
13
QCM 19. Suite du QCM précédent, prévalence (20%), sensibilité (90%) et spécificité (95%) sont
inchangées.
a) La probabilité qu’un enfant de votre consultation ait bien une angine bactérienne sachant que
le TDR est positif est supérieure à 75%
b) La valeur prédictive négative du TDR pour l’angine bactérienne dans votre consultation est
supérieure à 90%
c) La valeur prédictive négative du TDR pour l’angine bactérienne augmenterait si la prévalence
de l’angine augmentait dans votre consultation
d) On vous propose un nouveau TDR dont la sensibilité reste de 90% et dont la spécificité est de
80% : dans ce cas la valeur prédictive positive avec ce nouveau TDR augmentera
e) On vous propose un nouveau TDR dont la sensibilité est de 99% et la spécificité de 95% :
dans ce cas la valeur prédictive négative avec ce nouveau TDR augmentera
Réponse :
Pas d'angine Angine
Total
bactérienne bactérienne
TDR – 76 2 78
TDR + 4 18 22
Total 80 20 100
a) VRAI : 18/22=0.82 (c'est la VPP)
b) VRAI : proba(Pas d'angine|TDR-)=76/78=0,97
c) FAUX : Exemple: avec une prévalence de 40%:
Angine
Pas d'angine Total
bactérienne
TDR – 57 4 61
TDR + 3 36 39
Total 60 40 100
VPN=57/61=0.93 donc diminue (la VPN valait 76/78=0.97).
Résultat général (voir la formule de la VPN dans le polycopié) : quand la prévalence croît, la VPN
décroît (et la VPP croît)
d) FAUX :
Angine
Pas d'angine Total
bactérienne
TDR – 0.80*80=64 2 66
TDR + 16 18 34
Total 80 20 100
VPP=18/34=0.53 (elle valait 18/22=0.82)
e) VRAI
Angine
Pas d'angine Total
bactérienne
TDR – 76 0.2 76.2
TDR + 4 0.99*20=19.8 23.8
Total 80 20 100
VPN=76/76.2=0.996 (elle valait 76/78=0.97)
14
QCM 20. 10% d'une population est atteinte de la maladie M pour laquelle on dispose de 2 tests
diagnostiques T1 et T2. Parmi les sujets malades, 80% ont un résultat positif à T1, et
indépendamment, 90 % ont un résultat positif à T2. Parmi les sujets qui n'ont pas la maladie M, 20%
ont un résultat positif à T1, et de façon indépendante, 10% ont un résultat positif à T2.
a) Si les 2 tests sont positifs, la probabilité qu'un sujet testé ait la maladie est 0,6
b) Si les 2 tests sont négatifs, la probabilité qu'un sujet testé ait la maladie est exactement 0
c) Si les 2 tests sont positifs, la probabilité qu'un sujet testé ait la maladie est 0,8
d) Si les 2 tests sont négatifs, la probabilité qu'un sujet testé ait la maladie est inférieure à 5%
e) Il manque la prévalence de la maladie pour pouvoir répondre
Réponse :
La probabilité d'être T1+ et T2+ parmi les M+, est de 0.8*0.9, donc le nombre est 0.8*0.9*100
Et ainsi de suite pour les 8 cases.
T1 T2 M+ M- Total
++ 0.8*0.9*100=72 0.2*0.1*900=18 90
+- 0.8*0.1*100=8 0.2*0.9*900=162 170
-+ 0.2*0.9*100=18 0.8*0.1*900=72 90
-- 0.2*0.1*100=2 0.8*0.9*900=648 650
Total 100 900 1000
15
QCM 21. Soit un test diagnostique T pour une maladie M.
a) Si la sensibilité de T est proche de 100%, alors la proportion de faux négatifs est proche de 0
b) Si la sensibilité de T est proche de 0%, alors la proportion de faux négatifs est proche de 0
c) Si la spécificité de T est proche de 100%, alors la proportion de faux positifs est proche de 0
d) Si la spécificité de T est proche de 0%, alors la proportion de faux positifs est proche de 0
e) Si la spécificité de T est proche de 100%, alors la proportion de faux négatifs est proche de 0
Réponse :
On sait que
Se=P(T+ | M+) FN= P(T- | M+)=1- Se
Sp=P(T- | M-) FP= P(T+ | M-)=1- Sp
Donc
Se=1-FN et Sp=1-FP
16
QCM 22. Vous lancez un dé classique à 6 faces 100 fois d’affilée. Quelles sont les affirmations vraies
concernant la variable « nombre de fois où l’on obtient un chiffre pair » ?
a) La distribution de cette variable suit une loi binomiale B(100, 0.5)
b) La distribution de cette variable suit une loi normale N de moyenne 0.5
c) La probabilité d’obtenir entre 35 et 65 fois un chiffre pair est supérieure à 90%
d) La variance de cette variable est égale à 25
e) La probabilité d’obtenir 99 chiffres pairs est exactement égale à la probabilité d’obtenir 1
chiffre pair
Réponse :
a) VRAI :
b) FAUX : On considère que c'est une loi normale car n=100 et p=1/2 donc np=50 et nq=50. La
moyenne est np=50.
c) VRAI : var(X)=100*0.5*0.5=25 donc s(X)=5
50-35=15=3s donc P(35<X<65)= P(m-3 s <X< m + 3 s) qui est > 95% car 95%= P(m-2 s <X< m + 2
s).
Remarque: cette probabilité vaut 1-0.0027=0.9973 (car écart réduit pour 3 =0.0027)
d) VRAI cf c)
e) VRAI :
n!
P(X = x) = p x q n−x
x!(n − x)!
100! 1 99
P(X = 1) = 0.5 0.5
1!99!
100!
P(X = 99) = 0.5 99 0.51
99!1!
17
QCM 23. Soit une variable aléatoire X suivant une loi normale telle que moy(X)=3 et s(X)=2. Quelles
sont les affirmations correctes ?
a) P(|X|< 3) < 0,60
b) P(|X|=3) = 0,60
c) P(|X|=3) > P(X=3)
d) P(2 <2X< 6) > 0,20
e) P(X<1,96)=0,975
Extrait de la loi N(0, 1):
Loi normale Fonction
x centrée réduite de répartition Ecart réduit
0,0 0,39894 0,50000 1,00000
0,5 0,35207 0,69146 0,61708
0,6 0,33322 0,72575 0,54851
1,0 0,24197 0,84134 0,31731
2,0 0,05399 0,97725 0,04550
3,0 0,00443 0,99865 0,00270
Réponse :
Y=(X-3)/2 ~ N(0,1)
a) VRAI : P( |X| < 3)= P( -3<X<3)=P(-3<Y<0)=P(Y<0)-P(Y<-3)
=P(Y<0)-P(Y>3)=0,5– (1-0,99865)==0,5-0,00135 < 0,60
b) FAUX : c'est 0
c) FAUX car les 2 valent 0
d) VRAI : C'est P( 1< X < 3) = P(-1<Y < 0)=P(Y<0) -P(Y<-1)
=P(Y<0)-P(Y>1)=0,5-(1-0,84134)=0,34 > 0,20
e) FAUX : P(X<1,96)=P( Y < (1,96-3)/2)=P(Y<-0,52)=P(Y>0,52) ce qui est voisin de 1-0,69146 soit
proche de 0,31
On peut aussi dire que P(X<1,96) c'est P(X< un nombre inférieur à la moyenne), donc P(X<1,96)<0,5
donc ne peut pas être =0.975, donc FAUX
18
QCM 24. Soit X une variable aléatoire discrète qui prend les valeurs 1, 2, 3, 4, 5 telle que
P(X=1)=0.1, P(X=2)=0.2, P(X=3)=0.3 et P(X=5)= 0.1.
a) Moy(X)= 3.1
b) P(X<4)=0.6
c) Var(X)=1.29
d) s(X) < Var(X)
e) La fonction de répartition de X est une fonction décroissante en escalier
Réponse :
On calcule: P(X=4)=1-(0.1+0.2+0.3+0.1)=0.3
Total
Valeur 1 2 3 4 5
Proba 0.1 0.2 0.3 0.3 0.1 1
Valeur*Proba 0.1 0.4 0.9 1.2 0.5 3.1
Valeur2 1 4 9 16 25
Valeur2 *Proba 0.1 0.8 2.7 4.8 2.5 10.9
19
QCM 25. On admet que l'on peut modéliser la taille (X) arrondit au centimètre d'un étudiant masculin
en PACES par une loi normale de moyenne 178 cm et de variance s²=16 cm2.
a) On peut considérer que la loi Y de la taille moyenne de 122 étudiants masculins en PACES est
une loi de Poisson
b) La probabilité pour qu'un étudiant mesure 178 cm est strictement positive
c) La loi Y de la taille moyenne de 122 étudiants masculins en PACES est une loi Normale
d) Moy(Y)=Moy(X)
e) Var(Y)=Var(X)
Réponse :
Il s'agit d'une loi normale discrète (ou échantillonnée).
On considère les tailles indépendantes car les étudiants de PACES peuvent être considérés comme
indépendants.
a) FAUX. C'est une loi N(178, 16/122) d'après la loi des grands nombres. Une loi P(λ) a une variance
qui est égale à la moyenne. Ici on ne peut pas considérer que 178 est voisin de 16/122.
b) VRAI. Les tailles sont réparties entre les valeurs entières disons de 140 et 210. Donc probabilité
non nulle d'avoir la valeur 178 cm. C'est la probabilité d'être entre 177,50000... et 178,500000.
c) VRAI (voir a)
d) VRAI d'après la loi des grands nombres. De plus vrai car
Y=moyenne( (X1+… X122)/122= 122 * moyenne(X) / 122= moyenne(X)
e) FAUX : Var(Y)= var(X)/ 122
Polycopié :
Approximation normale de la loi binomiale :
B(n, p) est peu différent de la loi N(np, npq) lorsque np ≥ 5 et nq ≥ 5.
Approximation normale de la loi de Poisson :
P(λ) est peu différent de la loi N(λ, λ) lorsque λ >15.
Approximation de la loi binomiale par une loi de Poisson
En pratique si 1 ≤ np ≤ 10 et si p ≤ 0,1 alors B(n, p) ≈ P(np)
20
QCM 26.
a) La loi de Poisson est une bonne approximation de la loi binomiale pour n petit et p grand
b) La loi Normale est une bonne approximation de la loi binomiale pour 5/n<p<1-5/n
c) La loi Normale est une bonne approximation d’une loi de Student dont le nombre de degrés de
liberté est grand
d) La somme de variables binomiales suit une loi binomiale
e) La somme de variables binomiales suit une loi normale
Réponse :
a) FAUX La loi binomiale s'approche de la loi de Poisson quand np est entre 1 et 10, et p est inférieur
à 0.1
b) VRAI np>5 s'écrit p>5/n et nq>5 s'écrit 1-p>5/n donc np et nq>5 est équivalent à 5/n< p <1-5/n
c) VRAI
d) FAUX
e) FAUX
Polycopié :
Approximation normale de la loi binomiale :
B(n, p) est peu différent de la loi N(np, npq) lorsque np ≥ 5 et nq ≥ 5.
Approximation normale de la loi de Poisson :
P(λ) est peu différent de la loi N(λ, λ) lorsque λ >15.
Approximation de la loi binomiale par une loi de Poisson
En pratique si 1 ≤ np ≤ 10 et si p ≤ 0,1 alors B(n, p) ≈ P(np)
21
QCM 27. Soit X et Y deux variables aléatoires.
a) Si X et Y sont indépendantes alors Var(X+Y)=0
b) Si Cov(X,Y)=0 alors X et Y sont indépendantes
c) Si X et Y sont indépendantes alors Cov(X,Y)=0
d) Si X et Y sont Normales alors m(X)=m(X+Y)-m(Y)
e) Si X et Y sont positives alors Cov(X,Y) est positif
Réponse :
On sait que
Moy(a+b)=moy(a)+moy(b)
Si a et b sont indépendantes alors covar(a, b)=0. (la réciproque est fausse).
La pente de la régression linéaire est du signe de la covariance car pente=covar(a, b)/s2(a).
c) VRAI
d) FAUX. car l'hypothèse de normalité n'est pas nécessaire. m(X+Y) vaut toujours m(X)+m(Y)
e) FAUX car la pente de la régression peut être négative or la pente est du signe de la covariance car
pente=covar(X, Y)/s2(X).
22
QCM 28. Soit X suivant une loi de Bernoulli de paramètre p.
a) Moy(X)=1-p
b) P(X=1)=1-p
c) Var(X+X)=2var(X)
d) La somme de n variables de Bernoulli suit une loi Binomiale
e) Var(X)=moy(X).(1-p)
Réponse :
X ~B(1, p)
X vaut 1 avec le probabilité p et 0 avec la probabilité 1-p
Moyenne=np=1*p=p et variance=npq=pq=p(1-p)=pq
a) FAUX: Moyenne=p
b) FAUX: C'est p
c) FAUX: Var(X+X)=Var(2X)=4Var(X)
d) FAUX: uniquement si elles sont indépendantes. Ici l'indépendance est une hypothèse forte que l'on
ne peut pas supposer vraie d'après l'énoncé.
Si on vous dit "on prend au hasard 100 personnes", on peut alors supposer l'indépendance entre les
personnes.
e) VRAI:
Var(X)=p(1-p)
et moy(X).(1-p)=p.(1-p)
23
QCM 29. Vous faites une enquête sur le niveau de revenus des franciliens. Vous avez besoin d’un
échantillon représentatif de cette population. Est-ce que les échantillons suivants conviennent?
a) Vous interrogez 10 personnes sur le marché de Versailles
b) Vous interrogez 1 000 personnes sur l’ensemble des marchés des Yvelines
c) Vous tirez au sort 100 numéros de téléphone fixe par millions d'habitants dans l’annuaire de
chacun des départements d’Ile-de-France et vous contactez les personnes correspondantes.
d) Vous interrogez 100 personnes qui se présentent consécutivement aux urgences de l’hôpital
Tenon à Paris 20ème et 100 personnes qui se présentent consécutivement aux urgences de
l’hôpital Ambroise Paré à Boulogne
e) Vous tirez au sort 10 000 numéros de téléphone dans l’annuaire de Paris et vous contactez les
personnes correspondantes
f) Former un échantillon représentatif est difficile
Réponse :
Les échantillons a) à e) seront biaisés. Ils vont conduire à une estimation fausse.
Un échantillon représentatif donnera une bonne estimation (= non biaisé), c'est à dire que l'écart
par rapport à la valeur dans la population ne sera dû qu'aux fluctuations d'échantillonnage.
Un échantillon non représentatif donnera une mauvaise estimation (=biaisé), c'est à dire que
l'écart par rapport à la valeur dans la population sera dû aux fluctuations d'échantillonnage et à
la méthode utilisée pour obtenir l'échantillon.
24
QCM 30. On souhaite déterminer la fréquence de la drépanocytose en France chez les femmes de 25 à
40 ans.
a) Un échantillon peut être constitué par tirage au sort d'individus féminins de 25 à 40 ans
travaillant à l'université de Versailles à la date de l'enquête
b) Les employées d'une grande entreprise implantée en France peuvent constituer un échantillon
de la population d'enquête
c) Les employées de 25 à 40 ans travaillant dans la confection en France peuvent constituer un
échantillon de la population d'enquête
d) Un échantillon pourrait comprendre toutes les femmes de 25 à 40 ans et vivant en France
e) L'ensemble des femmes vivant en France pourrait constituer un échantillon de la population
d'enquête
Réponse :
La drépanocytose (du grec drepanon, faucille), également appelée hémoglobinose S, sicklémie ou
anémie à cellules falciformes, est une maladie héréditaire qui se caractérise par l'altération de
l'hémoglobine, la protéine assurant le transport de l'oxygène dans le sang.
On obtiendra un échantillon si l'on part d'une population ne comportant que des femmes vivant
en France et de 25 à 40 ans. Cet échantillon ne sera pas nécessairement représentatif.
L'idée est de former un échantillon des femmes de 25 à 40 ans, puis de déterminer la
prévalence de la drépanocytose dans cet échantillon. Cette prévalence sera une bonne estimation si
l'échantillon est représentatif.
Les échantillons a) à c) seront biaisés. Ils vont conduire à une estimation fausse.
25
QCM 31. Vous savez qu’au sein d’une population A, la variable « indice de masse corporelle » (IMC,
en kg/m²) suit une loi normale de moyenne égale à 25 kg/m2 et de variance égale à 9 kg2/m4. Vous
tirez au sort un échantillon de 100 sujets au sein de A et vous vous intéressez à la moyenne observée
dans cet échantillon.
a) Vous allez calculer un intervalle de confiance
b) Vous allez calculer un intervalle de pari
c) L’échantillon est représentatif de la population A
d) On peut affirmer avec une confiance de 95% que la moyenne de l’IMC y sera comprise dans
l’intervalle [25 - 1,96*3/10 … 25 + 1,96*3/10]
e) On peut affirmer avec une confiance de 95% que la moyenne de l’IMC dans cet échantillon
sera comprise dans l’intervalle [25 - 1,96*3 … 25 + 1,96*3]
Réponse :
Ici "suit une loi normale" veut dire "on peut considérer que cette loi est une loi normale .."
La moyenne ~N(25, 9/100)
Ceci ce démontre
- soit en appliquant la loi des grands nombres, donc moyenne ~N(25, 9/100)
- soit en disant que
la moyenne=somme(lois normales)/100 donc moyenne = 100*25/100
et variance = variance[(x1+...+x100)/100]=100 variance(x)/1002=variance(x)/100
et combinaison linéaire de loi normale indépendante est une loi normale
a) FAUX : on est dans une situation d’échantillonnage. On connaît la distribution de la variable dans
la population et on cherche à prédire le résultat que l’on obtiendrait dans un échantillon. On calcule
donc un intervalle de pari.
b) VRAI : cf. réponse a)
c) VRAI : car il y a eu un tirage au sort au sein de la population A.
d) VRAI :
On a m=25, 1- alpha =95% donc u =1,96, s²=9 donc s=3, √(n)=10, donc intervalle de pari de la
moyenne = [m - u*s/(√(n) … m + u*s/(√(n)] = [25 - 1,96*3/10… 25 + 1,96*3/10]
e) FAUX d'après e)
26
QCM 32. Vous disposez d’un échantillon de 100 sujets représentatifs de la population A. Dans cet
échantillon, les sujets pèsent en moyenne 70 kg avec une variance de 16 kg2. Vous voulez faire une
estimation de la moyenne théorique du poids dans la population A.
a) Vous allez calculer un intervalle de confiance
b) Vous allez calculer un intervalle de pari
c) On peut affirmer avec une confiance de 95% que la moyenne théorique du poids y sera
comprise dans l’intervalle [70 - 1,96*4/10 … 70 + 1,96*4/10]
d) On peut affirmer avec une confiance de 95% que la moyenne empirique du poids dans cet
échantillon sera comprise dans l’intervalle [25 - 1,96*4 … 25 + 1,96*4]
e) L’estimation de la variance théorique sera légèrement inférieure à la variance observée dans
l’échantillon
On admettra pour c) et d) que racine(16*100/99)=4
Réponse :
Si on connaît la loi dans la population caractérisée par m et s², alors dans un échantillon représentatif
de taille n on observera une moyenne m0= N(m, s2/n) si n≥30 et indépendance. Cette moyenne est une
variable aléatoire.
Si on observe m0 et s02 dans un échantillon de taille n≥30, alors la moyenne dans la population peut
être estimé par un IC : m0 */- U racine(s2/n), avec s² = s0²*n/(n-1). Cette moyenne dans la population
n'est pas une variable aléatoire, ni la variance d'ailleurs. C'est son estimation qui est une variable
aléatoire : estimation de m = N(m0, s2/n), avec s² = s0²*n/(n-1)
Ici l'estimation de m dans A ~ N(70, s2/100) avec s2=16*100/99, donc ici s=4 et donc N(70, 16/100)
a) VRAI : on est dans une situation d’estimation. On connaît les informations dans un échantillon et
on cherche à estimer ces valeurs dans la population dont l’échantillon est représentatif. On calcule
donc un intervalle de confiance.
b) FAUX : cf. réponse a)
c) VRAI : avec u=1,96, intervalle de confiance = [70 - 1,96*4/10 … 70 + 1,96*4/10]
d) FAUX : cf. réponse c). De plus l’intervalle de confiance est utilisé pour l’estimation de la moyenne
théorique dans la population, et non pour la moyenne empirique qui est la moyenne observée dans
l'échantillon
e) FAUX : variance théorique s² = s0²*n/(n-1), donc s² > s0²
27
QCM 33. Vous disposez d’un échantillon de 100 sujets représentatifs de la population A. Dans cet
échantillon, la proportion de sujets présentant un diabète est de 20%. Vous voulez faire une
estimation de la prévalence du diabète dans la population A. Quelles sont les affirmations vraies ?
a) Vous allez calculer un intervalle de confiance
b) Vous allez calculer un intervalle de pari
c) On peut affirmer avec une confiance de 95% que la prévalence du diabète dans la population A est
comprise dans l’intervalle [0,20 - 1,96*0,04 … 0,20 + 1,96*0,04]
d) On peut affirmer avec une confiance de 95% que la prévalence du diabète dans la population A est
comprise dans l’intervalle [0,20 - 1,96*0,0016 … 0,20 + 1,96*0,0016]
e) Si l’échantillon n’est pas représentatif de la population A, on ne peut pas calculer d’intervalle de
confiance pour A
Réponse :
Si on connaît la loi dans la population caractérisée par p, alors dans un échantillon représentatif de
taille n on observera n0= B(n, p). si np et nq sont >5, alors n0= N(np, npq). Donc p0= N(p, pq/n). p0 et
n0 sont des variables aléatoires.
Si on observe p0 dans un échantillon de taille n, alors la proportion dans la population sera estimée par
p= N(p0, p0q0/n) si np0 et nq0 sont >5.
a) VRAI : on est dans une situation d’estimation. On connaît les informations dans un échantillon et
on cherche à estimer ces valeurs dans la population dont l’échantillon est représentatif. On calcule
donc un intervalle de confiance.
b) FAUX : cf. réponse a).
c) VRAI : on a p0=0,20, 1-alpha=95% donc u=1,96, n=100 donc intervalle de confiance
= [ p0 - u*racine(p0*(1-p0)/n) … p0 + u*racine(p0*(1-p0)/n) ]
= [0,20 - 1,96*racine(0,2*0,8/100) … 0,20 + 1,96*racine(0,2*0,8/100)]
= [0,20 - 1,96*0,04 … 0,20 + 1,96*0,04]
d) FAUX : cf. réponse c).
e) VRAI : en fait on peut toujours calculer un intervalle, mais, l'échantillon n'étant pas représentatif,
on ne pourra pas considérer que c’est un intervalle de confiance de A.
28
QCM 34. Le poids d'une certaine population d'étudiants masculins peut être supposé distribué selon
une loi Normale de moyenne 70 kg et d'écart type 3000 g.
a) La probabilité pour que le poids d'un étudiant soit compris entre 67 et 73 kg est de 0,71
b) On peut considérer que dans cette population 95% des individus ont un poids compris entre 64
kg et 76 kg
c) On peut considérer que dans cette population 95% des individus ont un poids compris entre
64.8 kg et 77 kg
d) On peut considérer que dans cette population 95% des individus ont un poids inférieur à 75 kg
e) On peut considérer que dans cette population 2.5% des individus ont un poids supérieur à 76
kg
Valeurs éventuellement utiles de la fonction de répartition de la loi normale centrée réduite:
F(1)=0,84134 F(1,33)= 0,9082 F(1,43)= 0,9236 F(1,66)= 0,9515
F(1,73)= 0,9582 F(2)=0.9725 F(2.33)= 0,9901 F(64)= 1,0000 F(76)= 1,0000
Réponse :
29
QCM 35. QCM supprimée
QCM 39. Vous étudiez les facteurs associés à la survenue d’une intoxication au monoxyde de carbone
au domicile. En particulier, dans un échantillon de 87 sujets, vous observez les résultats suivants :
Echantillon total Intoxiqués Non intoxiqués P*
Analyse univariée (n=87) (n1=31) (n2=56)
Hommes n=32 n=10 n=22 P1= ?
Femmes n=55 n=21 n=34
Age m= ? ans m1=17.2 ans m2=23.1 ans P2<0,0001
s=3.0 ans s1=1,1 an s2=1,1 an
Vit dans un pavillon n=8 n=7 n=1 P3=0,003
Vit dans un appartement n=79 n=24 n=55
* valeur petit P du test statistique évaluant une différence entre les personnes intoxiquées et les personnes non
intoxiquées
a) Le test statistique employé pour déterminer P1 pourrait être un test du Chi-2 à 2 ddl
b) P1 est compris entre 0,50 et 0,90
c) Il existe un lien intrinsèque entre l’âge et la survenue d’une intoxication
d) Le test statistique employé pour déterminer P3 est un test de Fisher
e) L’intervalle de confiance à 95% de l’OR d’intoxication des hommes par rapport aux femmes
comprend la valeur 1
Calculette autorisée pour cet exercice (ou mieux: Excel)
Réponse :
a) FAUX : Test comparant 2 proportions observées dans un échantillon avec effectifs théoriques ≥5 :
Test du Chi2 d'indépendance à (2-1)*(2-1) = 1 degré de liberté (ddl). On peut aussi faire un test exact
de Fisher. ou une régression logistique univariée ou une régression de Poisson univariée.
b) VRAI : Voici le tableau de contingence :
30
QCM 40. On dit qu'une pression (ou tension) artérielle est "équilibrée" lorsque cette pression, qui était
anormale, est devenue à peu près normale sous l'effet du traitement. On réalise une étude pour
comparer l’effet d’un nouvel antihypertenseur A à un antihypertenseur B sur l’équilibre de la pression
artérielle. On observe les résultats suivants : 5 des 10 malades recevant l’antihypertenseur A sont
équilibrés ; dans le groupe recevant l’antihypertenseur B, 3 malades sont équilibrés sur 10.
a) La conclusion du test de Student est qu’on ne rejette pas H0 au risque 5%
b) On peut effectuer un test du Chi2 mais pas un test de Student
c) On peut effectuer ces deux tests
d) Pour pouvoir faire un de ces deux tests, il faut toujours avoir au moins 30 sujets par groupe
e) On ne peut effectuer aucun de ces deux tests
Réponse :
a) FAUX : On fait un test comparant 2 proportions observées avec des effectifs théoriques <5 : Le test
de Student est utilisé pour des variables quantitatives. Ici il faut utiliser le Test "exact" de Fisher.
b) FAUX : cf. réponse a) : au moins un des effectifs théoriques est <5 donc les conditions
d’application du test du Chi-2 ne sont pas respectées.
c) FAUX : cf. réponses a) et b).
d) FAUX : On peut réaliser un test d’indépendance du Chi-2 si tous les effectifs théoriques sont ≥5.
e) VRAI : cf. réponses précédentes.
31
QCM 41. QCM supprimée
QCM 43. Un essai clinique vise à comparer l’apport de la radiothérapie après chirurgie d’un cancer.
On constitue 2 groupes de 100 patients. Tous les patients sont suivis la même durée. Dans le premier
groupe, on traite les patients par chirurgie seule et on observe 36 rechutes du cancer. Dans le deuxième
groupe, on traite les patients par chirurgie suivie de radiothérapie et on observe 18 rechutes du cancer.
a) Les proportions de rechutes entre les patients traités par chirurgie seule et ceux traités par
chirurgie suivie de radiothérapie diffèrent significativement au risque 5%
b) Les proportions de rechutes entre les patients traités par chirurgie seule et ceux traités par
chirurgie suivie de radiothérapie ne diffèrent pas significativement au risque 5%
c) On ne peut pas faire le test car les conditions de validité ne sont pas vérifiées
d) Le degré de signification est inférieur à 0,02
e) Le degré de signification est inférieur à 0,0001
Vous pouvez consulter les tables statistiques du polycopié pour ce QCM.
Réponse :
a) VRAI : On réalise le tableau de contingence suivant :
Chirurgie +
Chirurgie seule Total
Radiothérapie
32
QCM 44. Vous réalisez un essai clinique parmi 100 sujets répartis, de manière aléatoire et équilibrée*,
dans 2 groupes de traitement A et B cherchant à diminuer le cholestérol dans le sang. Vous voulez
comparer l’efficacité de ces 2 traitements. Les résultats sont les suivants : Groupe A : moyenne
mA=1580 mg/L, Groupe B : moyenne mB=1640 mg/L, résultat du test : P=0,55.
a) Le résultat du test pourrait être expliqué par un défaut de puissance statistique
b) L’écart entre mA et mB aurait été plus petit si la taille de l’échantillon avait été plus grande
c) L’hypothèse H0 que vous allez choisir est mA ≠ mB
d) Le traitement A est aussi efficace que le traitement B
e) On ne peut pas conclure à une différence d’efficacité entre les traitements A et B
*"Equilibré" signifie ici que les effectifs des 2 groupes sont identiques ou très proches.
Réponse :
a) VRAI : C'est possible mais bien sûr pas certain. Lorsque l’on a un résultat non significatif, il faut
toujours discuter l’éventualité d’un défaut de puissance statistique. En effet, en ayant travaillé sur des
effectifs plus importants (1000 sujets au lieu de 100 par groupe), le résultat du test de la différence
entre mA et mB aurait été plus significatif, en supposant que l'on ait observé les mêmes moyennes mA
et mB que celles de l'énoncé.
b) FAUX : Cet écart pourrait aussi devenir plus grand. Tout dépend de la réponse aux traitements des
sujets qui sont recrutés en plus.
c) FAUX : L’hypothèse nulle (H0) est l’absence de différence d’efficacité entre les 2 traitements. C'est
ce que l'on cherche à rejeter ou à exclure en évaluant sa probabilité. Donc sous H0, les écart entre mA
et mB ne sont dus qu'au fluctuations d'échantillonnage. On dit alors un peu abusivement que "mA=mB".
d) FAUX : P est supérieur à 0,05, donc on ne peut pas rejeter H0 : on ne peut pas mettre en évidence
de différence d’efficacité entre A et B. On ne peut pas non plus affirmer que A et B sont aussi
efficaces : peut-être avons-nous manqué de puissance statistique pour mettre en évidence une
différence qui existerait. On ne sait pas.
e) VRAI : P est supérieur à 0,05, donc on ne peut pas rejeter H0 : L'expérience ne met pas en évidence
de différence d’efficacité entre A et B. Cela ne veut pas dire que les 2 traitements sont identiques.
33
QCM 45. Vous réalisez un essai thérapeutique parmi 10 000 sujets répartis, de manière aléatoire et
équilibrée, dans 2 groupes de traitement A et B cherchant à diminuer le cholestérol dans le sang. Vous
voulez comparer l’efficacité de ces 2 traitements. Les résultats sont les suivants : Groupe A : moyenne
mA=1,63 g/L, Groupe B : moyenne mB=1,61 g/L, résultat du test : P=0,01.
a) Un jugement de causalité devrait pouvoir être porté car les sujets ont été répartis en nombres
équilibrés dans les 2 groupes de traitement
b) Un jugement de causalité devrait pouvoir être porté car les sujets ont été répartis aléatoirement
entre les 2 groupes de traitement
c) L’hypothèse H0 que vous allez choisir est mA = mB
d) Le traitement A est aussi efficace que le traitement B
e) On peut rejeter l’hypothèse H0
Réponse :
Un essai thérapeutique est un essai clinique dont l'objectif est d'améliorer une thérapeutique (donc un
traitement, car "thérapeutique" et "traitement" sont des synonymes)
Ici on a fait un test univarié car on fait d'ailleurs toujours (sauf cas exceptionnels) des tests univariées
dans l'analyse des essais cliniques randomisés. C'est l'exception à la règle qui dit que les analyses
multivariées sont préférables. Pourquoi ? Parce que alors les résultats d'une comparaison multivariée
pourraient dépendre des cofacteurs choisis et parce que le tirage au sort réparti les personnes entre les
2 groupes.
On peut faire des analyses multivariées en plus de l'analyse univariée dans l'analyse des essais
cliniques randomisés mais c'est accessoire. C'est quand même utile quand on peut suspecter que les
groupes ne sont pas maintenus comparables pendant l'essai.
34
QCM 46. La médiane de survie de patients atteints d'une pathologie est égale à 5 ans. On suppose par
ailleurs que la survie (X) des patients atteints suit une loi exponentielle.
La moyenne de survie est :
a) Comprise entre 0 et 2 ans
b) Comprise entre 2 et 5 ans
c) Egale à la médiane de survie
d) Comprise en 5 et 8 ans
e) Impossible à calculer
Valeur numérique éventuellement utile: 1/ln(2)=1,44 et ln(2)=0.69
Réponse :
Loi exponentielle: pas de censure à t=+∞ (si censure => pas de calcul de la moyenne) et
Nombre de vivants: N(t) = Ne -ht
Moyenne de la survie = 1/h Médiane de la survie = ln(2)/h.
On sait donc que le nombre de vivants est N(t) = Ne -ht (survie exponentielle).
N est le nombre à t=0.
Ici on sait médiane de la survie=5 ans. Donc h = ln(2)/5 donc moyenne de la survie = 5/ln(2) soit
5*1,44=7.2 ans
La moyenne est supérieure à la médiane.
a) FAUX
b) FAUX
c) FAUX
d) VRAI
e) FAUX
35
QCM 47. Soit la fonction de survie S(t) d'un groupe de patients.
a) S(t) est la probabilité de décéder à l'instant t
b) S(t) est la probabilité de ne pas être décédé avant l'instant t
c) Le test de Kaplan-Meier est un test paramétrique permettant de comparer la survie S(t) entre 2
groupes de patients
d) S(t) est le nombre de patients ayant décédé à l'instant t
e) Pour t grand, S(t)=1
Réponse :
C'est la probabilité d'être encore vivant à t.
a): FAUX
b): VRAI
c): FAUX La méthode de Kaplan-Meier est une méthode pour dessiner des courbes de survie. Le
polycopié ne parle que de la méthode de Cox pour comparer des survies.
d): FAUX
e) FAUX: En t=0 S(0)=1, pour t grand S(t)=0
Dans le modèle exponentiel, Nombre de vivants: N(t) = Ne -ht , donc S(t) = e -ht
36
QCM 48. On souhaite comparer les courbes de survie entre 0 et 5ans de suivi de patients en fonction
de leur traitement A ou B.
a) Pour savoir si les patients du groupe A survivent plus longtemps que ceux du groupe B, il suffit
de compter le nombre de personnes en vie
b) Pour savoir si les patients du groupe A survivent plus longtemps que ceux du groupe B, il suffit
de compter le nombre de personne décédées
c) Pour savoir si les patients du groupe A survivent plus longtemps que ceux du groupe B, il suffit
d'effectuer un test du Chi-2 entre les 2 variables « temps de survie » (Inférieur à 5 ans / Supérieur
à 5 ans) et « Traitement » (A / B)
d) Pour savoir si les patients du groupe A survivent significativement plus longtemps que ceux du
groupe B, il suffit d'effectuer une régression de Cox
e) Pour savoir si les patients du groupe A survivent plus longtemps que ceux du groupe B, il suffit
d'effectuer une régression logistique univariée entre la variable « statut vital à 5 ans » (Vivant /
Décédé) et « Traitement » (A / B)
Réponse :
a): FAUX
b): FAUX
c): FAUX
d): VRAI
e) FAUX: Le modèle logistique n'est pas adapté
Remarque 1 : Si tous les malades étaient décédés à 5 ans, on pourrait, de manière additionnelle, faire
d'autres études statistiques. Par exemple : durée de survie par régression linéaire.
37
QCM 49. On modélise, chez la souris, le délai de survie associé à une maladie par une loi
exponentielle de moyenne 10 jours.
a) Au bout de 10 jours, 50 % des souris seront décédées
b) La médiane de la survie est 7 jours
c) La probabilité de décéder le 10ème jour est de 20%
d) Au bout de 10 jours, 63% des souris seront décédées
e) Il manque le paramètre de la loi exponentielle pour pouvoir répondre aux questions
précédentes
Valeur numérique éventuellement utile: ln(2)=0,69; 1/e=0,37; exp(-0,9)-exp(-1)=0,039
Réponse :
Modèle exponentielle: pas de censure (si censure => pas de calcul de la moyenne) et
Nombre de vivants: N(t) = Ne -ht
Moyenne de la survie = 1/h Médiane de la survie = ln(2)/h.
Ici on indique que la moyenne vaut 10 jours, donc h=0,1 jour-1 et la médiane vaut 0,69/0.1=6,9 jours
38
QCM 50. Vous croisez les 2 variables qualitatives « sexe » et « statut tabagique » (en 3 classes : non-
fumeurs, ex-fumeurs, fumeurs). On suppose que les ex fumeurs ne sont jamais classés dans les non
fumeurs. Les effectifs théoriques sont tous supérieurs à 5. Le calcul montre que p=0,08.
a) Le test effectué est un test de Wilcoxon-Mann-Whitney
b) Le test effectué est un test du Chi-2 à 6 ddl
c) En utilisant la table appropriée, la valeur de la statistique du test est située entre 4,605 et 5,991
d) En utilisant la table appropriée, la valeur de la statistique du test est située entre 10,64 et 12,59
e) La proportion d’hommes diffère significativement selon le statut tabagique
On peut consulter les tables du polycopié pour ce QCM.
Réponse :
"Croiser 2 variables"= étudier le lien entre ces 2 variables
"Statistique du test"=paramètre du test
a) FAUX : Test comparant 2 proportions observées dans un échantillon avec effectifs théoriques ≥5 :
Test du Chi2 d'indépendance à (3-1)*(2-1) = 2 degrés de liberté (ddl).
b) FAUX : cf. réponse a).
c) VRAI : En consultant la Table du Chi-2, à la ligne 2 ddl, on voit que les 2 valeurs entourant une
probabilité p=0,08 sont 4.605 (pour p=0,10) et 5.991 (pour p=0,05).
d) FAUX : cf. réponse c).
e) FAUX : le résultat du test est p=0,08, supérieur à 0,05, donc l'expérience ne met pas en évidence de
différence significative de répartition des hommes selon le statut tabagique.
Probabilités
0,90 0,50 0,30 0,20 0,10 0,05 0,02 0,01 0,001
ddl
1 0,016 0,455 1,074 1,642 2,706 3,841 5,412 6,635 10,83
2 0,211 1,386 2,408 3,219 4,605 5,991 7,824 9,210 13,82
3 0,584 2,366 3,665 4,642 6,251 7,815 9,837 11,345 16,27
4 1,064 3,357 4,878 5,989 7,779 9,488 11,67 13,28 18,47
5 1,610 4,351 6,064 7,289 9,236 11,07 13,39 15,09 20,51
6 2,204 5,348 7,231 8,558 10,64 12,59 15,03 16,81 22,46
ddl : degré de liberté
39
QCM 51. Vous comparez la valeur moyenne du poids selon la pratique d'une activité sportive (en 2
classes : Régulière / Irrégulière ou absente). Les effectifs de ces 2 classes de pratique sportive sont de
42 et 39. Vous obtenez un degré de signification du test de comparaison de moyennes p=0,04.
a) Le poids est significativement plus élevé chez les sujets ne pratiquant pas régulièrement une
activité sportive
b) On aurait pu effectuer un test de Wilcoxon-Mann-Whitney
c) En utilisant la table N(0, 1), la valeur de la statistique du test est située entre 2,0 et 2,1
d) En utilisant la table N(0, 1), la valeur de la statistique du test est située entre 0,0 et 0,1
e) Il manque l'écart type du poids dans les 2 classes pour pouvoir répondre à c) et d)
On peut consulter les tables du polycopié pour ce QCM.
Réponse :
a) FAUX : Il existe bien une différence significative, mais d’après les données de l’énoncé on ne sait
pas laquelle des 2 classes présente en moyenne un poids plus élevé.
b) VRAI : Le test de Wilcoxon-Mann-Withney est un test non paramétrique qui s'utilise même pour
les petits effectifs
c) VRAI : Dans la situation où l’on compare 2 moyennes observées dans 2 classes présentant des
effectifs supérieurs à 10, on peut utiliser l’approximation normale et la table de la loi normale centrée
réduite. Pour un p=0,04, la valeur de la statistique est située entre 2.1 (p=0,03573) et 2.0 (p=0,04550).
d) FAUX : cf. réponse d).
e) FAUX : Il suffit de connaître la valeur de p (et d’être sûr que les conditions d’utilisation de la table
de la loi normale centrée réduite sont respectées) pour pouvoir utiliser cette table.
40
QCM 52. Voici le résumé d'un article paru dans Plos Medicine dont le titre est :
Is Food Insecurity Associated with HIV Risk? Cross-Sectional Evidence from Sexually Active
Women in Brazil
Pour le trouver : Google = Plos Medicine 1001203
http://www.plosmedicine.org/article/info%3Adoi%2F10.1371%2Fjournal.pmed.0040199
Background
....We used data from a national survey of Brazilian women to estimate the relationship
between food insecurity and HIV risk.
Methods and Findings
We used data on 12,684 sexually active women from a national survey conducted in Brazil in
2006–2007. ... The primary explanatory variable of interest was food insecurity, ... In
multivariable logistic regression models, severe food insecurity with hunger was associated
with a reduced odds of consistent condom use in the past 12 mo (adjusted odds ratio [AOR]
= 0.67; 95% CI, 0.48–0.92) and condom use at last sexual intercourse (AOR = 0.75; 95% CI,
0.57–0.98). ...
Conclusions
Severe food insecurity with hunger was associated with reduced odds of condom use ....
Interventions targeting food insecurity may have beneficial implications for HIV prevention in
resource-limited settings.
Réponse :
a) VRAI. Il n'y a cependant pas vraiment de seuil. C'est relatif à ce que l'on étudit.
b) VRAI: Seuls les résultats multivariés sont dans ce résumé
c) VRAI: car 1 n'est pas dans les 95% CI. On a pris ici le seuil habituel de 5%
d) FAUX: le "may" de la conclusion veut dire que c'est possible mais pas certain.
e) VRAI
f) VRAI
41
QCM 53. Voici le résumé d'un article paru dans Plos Medicine dont le titre est :
Leisure Physical Activity and the Risk of Fracture in Men
Pour le trouver : Google = Plos Medicine 0040199
http://www.plosmedicine.org/article/info%3Adoi%2F10.1371%2Fjournal.pmed.0040199
Background
Data from previous studies are inconsistent, and it is therefore uncertain whether, to what
extent, and at what level leisure physical activity influences the risk of osteoporotic fractures
in men.
Methods and Findings
A cohort of 2,205 men, 49–51 y of age, was enrolled in a longitudinal, population-based
study. Leisure physical activity and other lifestyle habits were established at baseline and at
ages 60, 70, 77, and 82 y. During 35 y of follow-up, 482 men had at least one fracture. Cox's
proportional hazards regression was used to determine hazard ratios (HRs) of fracture
associated with time-dependent physical activity habits and covariates. Men with a sedentary
lifestyle (HR 2.56, 95% confidence interval 1.55–4.24) or men who walked or bicycled only
for pleasure (HR 1.61, 95% confidence interval 1.10–2.36) had an increased adjusted risk of
hip fracture compared with men who participated in regular sports activities for at least 3
h/wk. .... According to the estimation of population-attributable risk, one third of all hip
fractures could be prevented by participation in regular sports activities. High activity also
conferred a reduced overall fracture risk.
Conclusions
Our data indicate that regular sports activities can reduce the risk of fractures in older men.
Réponse :
a) VRAI. 2 205.
b) VRAI: On a obtenu des risques relatif de fracture par unité de temps
c) VRAI: car 1 n'est pas dans les 95% CI. On a pris ici le seuil habituel de 5%
d) FAUX: le "can" de la conclusion veut dire que c'est possible mais pas certain.
e) VRAI
f) VRAI
42