Vous êtes sur la page 1sur 13

Corrigé de l’examen de méthodologie statistique du CESAM. Février 2010.

Partie A
(Sur 13,25) A1 : 0,75 A2 : 1,25 A3 : 0,75 A4 : 0,5 A6 : 0,75 A7 : 1,25 A8 : 2 A9 : 3 A10 : 1,5 A11 : 0,25

Question A1. i- Donner une estimation de la moyenne de la taille du reliquat tumoral quand la méthode
utilisée pour l’évaluer est l’IRM. ii-Donner l’intervalle de confiance à 95% de cette estimation.
Reponse A1. i- L’estimation de la moyenne de la taille du reliquat tumoral quand la méthode utilisée pour
l’évaluer est l’IRM est donnée par la formule habituelle (moyenne empirique) :
n

∑ X1 i
m= i =1 .
n
= 936, d’après la dernière ligne du tableau (1), colonne X1. D’où m ≅ 42,55.
n
On a n= 22 ; ∑ X1
i=1
i

ii- L’estimation de l’écart-type de la taille du reliquat tumoral IRM est :


n

∑ X1 2
i
− nm ²
s² = i =1 .
n −1
n
On a n=22 ; m= 42,55 et ∑ X1
i=1
2
i
= 43290, d’après la dernière ligne du tableau (1), colonne X1². D’où s²=

164,71. Ce résultat est approché, et basé sur le résultat approché précédent de m. Si on utilise, dans une
calculatrice la valeur exacte de m, précédente (c'est-à-dire 43290/22), on trouve s² ≅ 165,12.
L’ effectif étant inférieur à 30, l’intervalle de confiance de la moyenne moyenne de la taille du reliquat
s2
tumoral IRM sera donné par : m ± tn-1;α/2 n à condition que la distribution des tailles du reliquat
tumoral soit normale. On obtient donc, : tn-1;α/2= t21; 0,025 = 2,08.
42,55 ± 2,08 165,12 = [36,85 ;48,24]. Ce résultat est obtenu par mémorisation successive, dans la
21
calculatrice, des calculs intermédiaires. Si ces résultats intermédiaires sont tronqués (par exemple à une,
deux ou trois décimales), il se peut que l’on obtienne un résultat un peu différent.

Question A2. Même question, quand la méthode utilisée est la mammographie/ échographie

Réponse A2. i- On obtient m=50,91. ii- s² = 401,04 ; et IC=[42,03 ; 59,79].

Question A3. Peut on, au seul vu des réponses aux questions 1 et 2 précédentes, comparer les tailles
moyennes obtenues par chacune des deux méthodes ? Pourquoi ?

Réponse A3. La question est difficile. La réponse est non, car : les deux intervalles de confiances ont une
intersection commune. Dans tous les cas, il est conseillé, si on veut comparer ces deux moyennes, de faire le
test approprié.
De plus, ces deux échantillons ne sont pas indépendants. Il sont appariés. Il faudra faire un test de student
apparié.
On aurait pu conclure si les deux intervalles obtenus étaient disjoints (sans intersection). On aurait pu alors,
conclure à la différence significative des deux moyennes. En effet, on peut voir, ci-dessous.
Intervalle de confiances et test de comparaison de deux échantillons appariés :
Méthodologie Statistique - Examen de Février 2010

s1 s
m1 + t α ≤ m2 − t α 2
n −1, n n −1, n
2 2


s1 + s2 s12 + s22 − 2 s12
m2 − m1 ≥ t α ≥t α
n −1, n n −1, n
2 2


m2 − m1 m2 − m1
= ≥t α ;
s12 + s22 − 2 s12 sd2 n −1,
2

n n

s1 + s2 = s12 + s 22 ≥ s12 + s 22 − 2 s12 , car, en élevant au carré


⇔ s12 + s 22 + 2 s12s 22 ≥ s12 + s 22 − 2 s12
− s12
⇔ s12s 22 ≥ − s12 ⇔ s1 s 2 ≥ − s12 ⇔ 1 ≥ = − r12
s1 s 2
Les écart-types étant des quantités toujours positives,
s12 , et r12 sont les covariance et coefficient de corrélation
empiriques entre les 2 séries appariés.
Si les deux séries sont indépendantes, on retrouve le même résultat, plus facilement.

Question A4 Donner l’estimation de chacune des variances de la taille du reliquat tumoral selon qu’elle a
été évaluée par l’IRM ou par la MEC, ainsi que les intervalles de confiance de ces estimations.

Réponse A4. Les estimation de ces variances ont été donnés en A1 et A2. L’intervalle de confiance d’une
variance est donnée par la formule :
n-1 n-1
[ s²; s²]
b a

où a et b sont tels que Prob ( χn-1


2
< a ) = α/2 = 0,025 et donc Prob( χ n-1 > a)= 1-α/2 = 0,9750
2

2
Méthodologie Statistique - Examen de Février 2010

χ 2
et b = Prob ( n-1 > b) = α/2 = 0,0250. La lecture de la table du
2
, à la ligne 21, et aux colonnes χ
0,9750 et 0,0250, nous donne, a= 10,28 et b= 35,48.
D’où les résultats :
S²(x1) = 165,12; S(x1) = 12,85; IC(S²(X1)) = [ 97,73; 337,30].
S²(x2) = 401,04; S(X2) = 20,03;IC(S²(X2)) = [237,37; 819,24]. 

Question A5 Est-ce possible de comparer les variances précédentes au vu de ces intervalles de confiance ?
Sinon quel test effectuerez vous ? Indiquez la solution proposée sans develloper les calculs.

Réponse A5. Cette question est difficile. La réponse est non, car :
i- les deux intervalles de confiances ont une intersection commune.
ii- Les deux échantillons ne sont pas indépendants. Il sont appariés.
On aurait pu le faire si les deux échantillons étaient indépendants et si les deux intervalles obtenus étaient
disjoints (sans intersection). On aurait pu alors, conclure à la différence significative des deux variances.
Néanmoins, dans tous les cas, il est conseillé de faire le test adéquat, tenant compte ici de l’appariement.
Si on veut comparer ces deux variances, il faudra le faire par un test de comparaison des variances pour
séries appariées qui n’est pas au programme, mais dont la description se trouve dans le livre attaché au cours
du CESAM, chapitre 13, paragraphe 3, pages 237-239 . Sa mise en œuvre est simple. Elle consiste à
calculer la statistique F (=S²(X1)/S²(X2)) usuelle du test de Fisher pour comparer deux variances non
appariées, le coefficient de corrélation r des deux séries appariées et d’en déduire une statistique :
(F-1) n-2
T= ,
4F(1-r 2 )
qui suit sous H0 une loi de student à n-2 ddl. Le test consistera à comparer sa valeur t0 observée dans
l’échantillon, à la valeur seuil au risque α, tn-1;α/2.

Question A6. Les mesures de la taille du reliquat tumoral obtenues par le moyen de l’IREM et celles de la
MEC sont elles liés ?

Réponse A6.
Il s’agit de tester : H0 : ρ = 0 contre H1 : ρ # 0 où ρ est le coefficient de corrélation théorique. Si H0 est vraie,
on sait d'après le cours, en notant r, coefficient de corrélation empirique, que :
r n-2 ,
T=
1-r 2
suit une loi de Student à n-2 ddl, où n est la taille de l’échantillon. On rejettera H0 si │to│ ≥ tn-2, α/2. α = 5%.
t20, 0,025.= 2,086, où t0 est la valeur observée de t dans l’échantillon (r0, la valeur observée de r) ⇔ On
rejettera H0 si p < 0.05 (au niveau a=0.05) et on conclura que l’association est significative.
Conditions de validité : 1) Les distributions de Y conditionnelles aux variables X (ou les distributions de X
conditionnelles à Y) sont normales, et ces distributions sont de même variance. 2) La regression
correspondant à cette distribution conditionnelle (relation entre les moyennes conditionnelles de Y et x ou
de X en Y) est linéaire.
Application numérique : Le coefficient de corrélation empirique r entre deux variables X et Y, est donné par
l’une des deux formules suivantes :
∑X Y − n×m
i
i i X × mY
r= ,
(n − 1)s X s Y
ou
∑X ∑Y i i

∑X Y −
i
i i
i
n
i

r=
n
(∑ X i )² n
(∑ Yi )²
∑X
i =1
2
i
− i
n
∑Y
i =1
i
2
− i
n

3
Méthodologie Statistique - Examen de Février 2010

Les deux formules sont équivalentes, mais leur utilisation peut mener à des résultats numériques différents,
suivant la manière dont on gère les calculs intermédiaires.
La deuxième formule se calcule directement à l’aide des sommes qui sont données dans le tableau 1 en
dernière ligne. Son utilisation, avec une calculette à mémoire simple, est moins sujette à erreurs.
Si le calcul des moyennes et des écart-types de la première formule ont été éffectués dans une étape
préliminaire et arrondi à 2 ou 3 décimales, le résultat final est nécéssairement différent de celui obtenu par la
2ième formule.
Première formule : ΣX1X2= 49847 ; n=22 ; et en utilisant les valeurs estimées et tronquées précédentes
mX1= 42,55 ; mX2= 50,91 ; SX1=12,85 ; SX2=20,03 ; on trouve r(X1,X2) = 0,4052008 et t0= 1,98212439.
Deuxième formule : ΣX1X2= 49847 ; n=22 ; et en utilisant les valeurs exactes du tableau 1 : ΣX1= 936 ;
ΣX2 = 1120 ; ΣX1² = 43290 ; ΣX2² = 65440 ; et la 2ième formule, et en stockant en machine les calculs
intermédiaires, on trouve r ( X1, X2 ) = 0,4063890 et t0 = 2,1769558. 
Les deux calculs de r sont très proches. Si on les tronque à la 2ième décimale, on a la même valeur. Les
résultats de t0 sont eux très différents et donnent lieu à des décisions différentes : NS avec la 1ière formule,
significative avec la 2ième. C’est bien entendu la deuxième formule qu’il faut utiliser (ou la première sans
tronquer les valeurs des calculs intermédiaires). On rejette donc H0 et on conclut que les mesures de la taille
du reliquat tumoral obtenues par le moyen de l’IREM et celles de la MEC sont significativement
linéairement liés (1% < p < 5%).

Question A7. Les mesures de la taille du reliquat tumoral obtenues par le moyen de l’IRM et de la
MEC sont elles, en moyenne, identiques ?

Réponse A7. Il s’agit de comparer deux moyennes théoriques.


On teste l’hypothèse H0. : μX1= μ X2 contre H1 : μX1 # μ X2, mais au vu de deux échantillons appariés.
On va donc tester l’hypothèse H0. : μD= μX1 - μX2= 0 contre H1 :  μD# 0, au vu d’un échantillon D1, D2, …,
D21, avec Di= X1i – X2i. Le test consiste à calculer la statistique
md
t0 =
Sd
n
1
∑d i ∑d i
2
− (∑ di )²
n
md = i Sd2 = i
où n et n −1 .
T0, suit sous H0 une loi de Student à n-1 ddl, à condition que les variables Di soient distribués
normalement. On rejettera H0 ssi |t0| > tn-1; α/2. Pour α=0,05, on rejettera H0 ssi ssi |t0| > t21 ;0,025 = 2,081.
Remarque : au vu de l’énoncé de la question, il s’agit d’un test bilatéral.
Condition de validité : les différences de mesure de la taille di dont distribués normalement.
Remarque : cette condition est remplie car, si on suppose que les mesures X1i, X2i, sont distribués
normalement alors les différences de mesure Di=X1i- X2i le sont aussi, mais la réciproque n’est pas vrai !
Application numérique : le calcul de md est immédiat en utilisant le tableau (1) et le total de l’avant dernière
colonne (X1-X2). On trouve md= (184)/22 ≅ 8,36. Le calcul de la variance empiriques des différences S d2

nécéssite la connaissance préliminaire de la somme : ∑d .


i
i
2
Le tableau (1) ne contient pas cette colonne

(D²) ni sa somme. On peut bien entendu ajouter une colonne à ce tableau en y calculant les Di, et ensuite
leur somme. Une solution plus simple est d’utiliser la remarque donnée dans l’énoncé. En effet, en
conséquence de cette remarque, on aura Σ D² = Σ (X1−X2)² = Σ(X1²)+Σ(X2²)-2Σ(X1×X2) = 43290 + 69440
– 2 ×49847 = 9036, d’où le calcul de
1
9036 − (184)²
S d2 = 22 = 357 ⇒ S d = 18,89. .
21
D’où le test

4
Méthodologie Statistique - Examen de Février 2010

8,36
t0 = = 2,076 < 2,081 ⇒
18,89
22
Conclusion : on ne rejette pas H0 : les mesures de la taille du reliquat obtenues par les deux méthodes ne
sont pas significativement différentes.

Question A8. La mesure de la taille du reliquat tumoral obtenue par l’examen histologique (Anapath) après
chirurgie est considéré comme l’évaluation la plus précise que l’on puisse avoir. Estimez les paramètres (α1,
β1 ) et (α2 , β2) des régressions linéaires Y=α1+β1X1 et Y= α2+β2X2 de celle ci sur chacune des deux autres
évaluations (IRM et MEC). Les mesures obtenues par l’IRM et la MEC sont elles liés à celles de
l’Anapath ?

Réponse A8.
Les paramètres (α, β) d’une regression linéaire Y = α + β X sont estimés :

∑ XY − ∑ n∑
X Y
l
b=β = ; a = αl =
∑Y − b ∑ X .
∑X²− ∑
( X )² n n
n
Application numérique immédiate : en utilisant les sommes ci-dessous extraites du tableau 1 :

ΣY ΣX1 ΣX2 ΣY² ΣX1² ΣX2² ΣX1Y ΣX2Y


689  936 1120  25687 43290 65440 31492  37608

n=22 ; on obtient (en évitant de tronquer les résultats des calculs intermédiaires) :
1) Regression de la taille du reliquat tumoral obtenue par l’examen histologique (Anapath) après
chirurgie (Y) sur l’IRM (X1) : b1 = 0,63 et a1 = 4,59.
2) Regression de la taille du reliquat tumoral obtenue par l’examen histologique (Anapath) après
chirurgie (Y) sur la MEC (X2) : b2 = 0,30 et a2 = 16,01.
Les mesures obtenues par l’IRM et la MEC sont elles liés à celles de l’Anapath ?
On peut répondre à la question, en faisant soit (i) un test sur le coefficient de corrélation soit (ii) un test sur
la pente de la regression.
(i) Il s’agit de tester : H0 : ρ = 0 contre H1 : ρ # 0 où ρ est le coefficient de corrélation théorique. Si H0 est
vraie, et en notant r, coefficient de corrélation empirique,
r n-2
T=
1-r 2
suit une loi de Student à n-2 ddl, où n est la taille de l’échantillon. On rejettera H0 si │to│ ≥ tn-2, α/2. α = 5%.
t20, 0,025.= 2,086, où t0 est la valeur observée de t dans l’échantillon (r0, la valeur observée de r) ⇔ On
rejettera H0 si p < 0.05 (au niveau a=0.05) et on conclura que l’association est significative.
Conditions de validité : 1) Les distributions de Y conditionnelles aux variables X (ou les distributions de X
conditionnelles à Y) sont normales, et ces distributions sont de même variance. 2) La regression
correspondant à cette distribution conditionnelle (relation entre les moyennes conditionnelles de Y et x ou
de X en Y) est linéaire.
(ii) Il s’agit de tester : H0 : β = 0 contre H1 : β # 0 où β est la pente de la regression linéaire. La statistique et
la règle de décision du test sont les mêmes :
s 2y

b b s 2x r × n-2
= = = =T
s 2
s 2
s 2
s 2
1-r²
b y
2
− b² y
2
− r² × y
2
s x s x s x
n-2 n-2
mais les conditions de validité diffèrent : c’est, impérativement, les distributions de Y en x qui doivent être
normales et de même variance (et non celles de X en y), et c’est, impérativement, les régressions de Y en x
(et non celles de X en y) qui doivent être linéaires.
Application numérique : Association entre Anapath (Y) et IRM (X1) ou MEC (X2) :

5
Méthodologie Statistique - Examen de Février 2010

r b a sb² sb t0 décision degré


Y et X1 0,58 0,63 4,59 0,04 0,20 3,16 Significative 0,001 < p < 0,002
Y et X2 0,43 0,30 16,01 0,02 0,14 2,13 Significative 0,01 < p < 0,05

Question A9. Au risque d’erreur de 5%, donner un intervalle de confiance pour la taille (évaluée par
l’analyse histologique) moyenne des reliquats des patientes dont l’évaluation par l’IRM est de 40.
Réponse A9.
Il s’agit, à partir de la régression de Y en X1 estimée et testée en A8, d’évaluer l‘intervalle de confiance de
la moyenne conditionnelle de Y sachant X1. D’après le cours, on a :
l l (Y / X = x ) = a + bx et S 2 = n − 1 ( s 2 − b ² s 2 ) ;
y0 = E 0 0 Y/x
n−2
Y X

1 ( x − m X )² 1 ( x − m X )²
Li = y − tn −2,α SY2 / x ( + 0 ) ; Ls = y + tn−2,α SY2 / x ( + 0 )
2 n ( n − 1) s X2 2 n ( n − 1) s X2
On obtient
Yl0
SX² SY² sY/x² (Xo-mx)² Li Ls
29,719 165,117 195,656 137,024 6,479 24,407 35,031
Conditions de validité : ceux de la régression.

Question A10. La taille du reliquat tumoral d’une nouvelle patiente (qui ne fait pas partie des 22
précédentes) a été évaluée à 40 mm à l’aide de l’IRM. Dans quel intervalle, au risque d’erreur de 5%, se
trouvera sa vraie taille du reliquat tumoral (c'est-à-dire son évaluation par l’Anapath) ?

Réponse A10.
1 ( x0 − m X )² 1 ( x − m X )²
Y0 i = a + bx0 − zα SY2 / x (1 + + ); Y0 s = a + bx0 + zα SY2 / x (1 + + 0 )
2 n ( n − 1) s X
2
2 n ( n − 1) s X2

Yl0   (SX1)²  (SY)²  (sY/x1)²  (Xo‐mx1)²  Y0i  Y0s 


29,719  165,117  195,656  137,024  6,479  4,730  54,708 

Question A11. Quel sera cet intervalle si l’évaluation (de 40 mm) a été effectuée non pas par l’IRM, mais à
l’aide d’une Mammographie / Echographie ? Que concluez vous ?

Réponse A11.
La démarche est identique à celle de la question précédente.
Yl0   (SX2)²  (SY)²  (sY/x2)²  (Xo‐mx2)²  Y0i  Y0s 
28,039  401,039  195,656  167,388 119,008 0,258  55,820 

On remarque que la longueur de l’intervalle de prédiction correspondant à x0 = 40mm, quand la mesure est
faîte par l’IRM est plus petite que quand elle est faîte par la MEC : 49,978 (=54,708-4,730) contre 55,562
(=55,820-0,258). Les mesures de l’IRM prédisent de manière plus précise la vraie taille du reliquat.

Remarque : en utilisant les formules précédentes pour le calcul de l’intervalle de prédiction, il est possible
d’estimer la précision de cette prédiction par la demi longueur de l’intervalle de prédiction :
En effet, la longueur de l’intervalle est
1 ( x0 − m X )² n −1 2 S n −1 2 n −1 2
Y0 i − Y0 s = 2 × zα SY2 / x (1 + + ), avec SY2 / x = ( sY − b ² s X2 ) et b = Y ⇒ SY2 / x = ( sY − r ² sY2 ) = sY (1 − r ²)
2 n ( n − 1) s X
2
n−2 SX n−2 n−2

n −1 1 ( x − m X )²
⇒ Y0 i − Y0 s = 2 × zα sY (1 − r ²) (1 + + 0 )
2 n−2 n ( n − 1) s X2

6
Méthodologie Statistique - Examen de Février 2010

et la précision de la prédiction pour une valeur x0, obtenue par une méthode X est :
n −1 n + 1 ( x0 − m X )²
Pr ec (x 0 , X ) = zα sY (1 − r ²) ( + )
2 n−2 n ( n − 1) s X2

On en déduit :
n + 1 ( x0 − m X 1 )²
+
Pr ec(x 0 , X 1) 1− r 2
n ( n − 1) s X2 1
= × 1

Pr ec (x 0 , X 2) 1− r 2
n + 1 ( x0 − m X 2 )²
2 +
n ( n − 1) s X2 2
On en déduit, que, si les variances de X1 et de X2 sont égales (ce qui est, une des hypothèses du test de
student pour comparer les moyennes de X1 et de X2), et si leur moyennes le sont aussi (hypothèse nulle du
test de student), ce rapport est proche de :
1 − r12
1 − r22
D’où
1 − r12
Si, r1 > r2 ⇒ r12 > r22 ⇒ 1 − r12 < 1 − r22 ⇒ < 1 ⇒ Pr ec (x 0 , X 1) < Pr ec (x 0 , X 2) ⇒ X1 prédit mieux que X2.
1 − r22

Partie B
(sur 7,75) B1: 1,25 B2 : 2,5 : B3 : 0,5 : B4 : 2,5 : B5 : 0,5 B6 : 1,25 B7 0,5

Question B1. Donner les estimation et intervalle de confiance des sensibilités à détecter un reliquat tumoral
de chacune des trois méthodes (IRM, MEC et EXAC).
Réponse B1. La sensibilité est mesurée par
P =la probabilité que l’examen donne un résultat positif lorsque la condition est effectivement présente
= Probabilité que le diagnostic est positif lorsque l’Anapath est positive.

Anapath + Anapath -

Diagnostic + VP FP

Diagnostic - FN VN

Méthode d’évaluation du reliquat tumoral VP VN FP FN


1) Examen clinique 23 12 1 17
2) Imagerie par Rayonnance Magnétique 38 7 6 2
3) Mammographie /Echographie 36 6 7 4

Notons n la taille de l’échantillon des patientes pour lesquelles la maladie est réellement présente.
n = VP+VN. P est estimée par :
VP
P0 = ;
VP + FN
Notons Q0= 1-P0. L’intervalle de confiance de P est donné par :
P0 Q0
P0 ± z α = [ Pi ; Ps ]
2 n
Condition de validité : nP ≥ 5 et nQ.≥ 5, à vérifier à postériori, aux bornes de l’intervalle de confiance :
nPi ≥ 5 et nQs = n(1-Ps).≥ 5.
VP n Po Qo Spo Pi Ps Qi Qs nPi nPs nQi nQs
IRM 38 40 0,9500 0,0500 0,0345 0,8825 1,0175 0,1175 -0,0175 35,2983 40,7017 4,7017 -0,7017
MEC 36 40 0,9000 0,1000 0,0474 0,8070 0,9930 0,1930 0,0070 32,2812 39,7188 7,7188 0,2812

7
Méthodologie Statistique - Examen de Février 2010

EXAC 23 40 0,5750 0,4250 0,0782 0,4218 0,7282 0,5782 0,2718 3,3446 0,3970 23,1279 10,8721

Les conditions de validité ne sont pas remplies pour l’IRM et la MEC. En utilisant la table 5 (intervalle de confiance
exacte d’une proportion binomiale), pour n=40, on trouve :
N=40
VP Po Pi Ps
IRM 38 95,00 83,08 99,39
MEC 36 90,00 76,34 97,21
EXAC 23 57,50 40,89 72,96

Question B2. Peut on en déduire sans autre calcul une comparaison de ces sensibilités ?

Réponse B2.
Les intervalles de confiance des sensibilités de l’IRM et de la MEC ont une intersection commune.
L’intervalle de sonfiance de l’EXAC n’a pas d’intersection avec les deux précédents. Cela va dans le sens
d’une hypothèse PIRM = PMEC ≠ PEXAC
Néanmoins, il ne faut pas oublier que les trois proportions sont estimées sur des échantillons qui ne sont pas
indépendants. Il faudra impérativement faire le test en tenant compte de l’appariement (questions B3 et B4
suivantes).

Question B3. Les sensibilités de l’IRM et de la MEC sont elles différentes ?

Réponse B3. On veut tester H0 : PIRM = PMEC contre H1 : PIRM ≠ PMEC. Il s’agit d’un test de comparaison de
proportions, sur séries appariés. Le test se fait à l’aide des données suivantes extraites du tableau (1) :
  IRM 
  +  ‐ 
+  a  b  VP=36 
MEC 
‐  c  d  FN=4 
  VP=38  FN=2  40 
et de l’information suivante donnée dans l’énoncé : on sait de plus que, exactement 50% des faux négatifs
de l’IRM ont été correctement diagnostiqués par les deux autres méthodes. On en déduit que b=d=1 = (50%
de 2) et, par soustraction des marges, le reste du tableau :
IRM
+ -
+ 35 1 VP=36
MEC
- 3 1 FN=4
VP=38 FN=2 40
Le test est basé sur les paires discordantes à travers la statistique :
(b − c )²
χ 02 = ,
b+c
qui sous H0, suit une loi du Khi-deux à un ddl, à condition que (b+c)/2 ≥ 5. On rejettera H0, au niveau 5% si
χ 02 ≥ 3,84.
Application numérique :
(1 − 3)²
χ 02 = = 1;
1+ 3
Les conditions de validité ne sont pas réalisés, y compris pour la correction de Yates des petits effectifs.
b + c 1+ 3
= = 2 < 3.
2 2
Remarquons que la correction de Yates, si on l’appliquait aurait réduit la valeur du Khi-deux observé. Si on
disposait d’une correction pour des effectifs aussi petits, celle-ci aurait aussi réduit la valeur du khi-deux,
qui est non significative. Néanmoins, pour rester fidèles au cours, nous ne conclurons pas.

8
Méthodologie Statistique - Examen de Février 2010

Question B4. Les sensibilités de l’IRM et de l’EXAC (et non EXAM !) sont elles différentes ?

Réponse B4. On veut tester H0 : PIRM = PEXAC contre H1 : PIRM ≠ PEXAC. Il s’agit d’un test de comparaison
de proportions, sur séries appariés. Le test se fait à l’aide des données suivantes extraites du tableau (1) :
IRM
+ -
+ a b VP=23
EXAC
- c d FN=17
VP=38 FN=2 40
et de l’information suivante donnée dans l’énoncé : on sait de plus que, exactement 50% des faux négatifs
de l’IRM ont été correctement diagnostiqués par les deux autres méthodes. On en déduit que b=d=1 = (50%
de 2) et, par soustraction des marges, le reste du tableau :
IRM
+ -
+ 22 1 VP=23
EXAC
- 16 1 FN=17
VP=38 FN=2 40
Le test est basé sur les paires discordantes à travers la statistique :
(b − c )²
χ 02 = ,
b+c
qui sous H0, suit une loi du Khi-deux à un ddl, à condition que (b+c)/2 ≥ 5. On rejettera H0, au niveau 5% si
χ 02 ≥ 3,84.
Application numérique :
(1 − 16)²
χ 02 = = 13, 24;
1 + 16
Les conditions de validité sont satisfaites :
b + c 1 + 16
= = 8,5 > 5.
2 2
L’IRM est significativement plus sensible que l’examen clinique avec p < 0,001.

Question B5. Estimer le rapport des cotes (ods-ratio) mesurant l’association entre la détection du reliquat
tumoral par chacune des trois méthodes (IRM, MEC et EXAC) et sa présence effective établie par
l’Anapath.
Réponse B5. Le tableau décrivant cette association et donné dans l’énoncé est le suivant :
ANAPATH On en déduit immédiatement
+ - l’estimation de l’ods-ratio ψ :
VP×VN
Oui=+ VP FP OR =
DIAGNOSTIC=(détection) FN×FP
Non=- FN VN
Application numérique :

Méthode d’évaluation du reliquat tumoral VP VN FP FN OR


1) Examen clinique 23 12 1 17 16,24
2) Imagerie par Rayonnance Magnétique 38 7 6 2 22,17
3) Mammographie /Echographie 36 6 7 4 7,71

Question B6. Donner un intervalle de confiance de cette estimation dans le cas où cette détection est faite
par l’éxamen clinique

9
Méthodologie Statistique - Examen de Février 2010

Réponse B6. Toujours, en s’apuyant sur les données du tableau d’association précédent, d’après le cours,
l’intervalle de confiance à 95% de log (ψ) est donné par :
1 1 1 1
log(OR ) ± 1,96 ( + + + )
VP VN FP FN
Ce qui donnera dans le cas de l’examen clinique
1 1 1 1
= log(16, 24) ± 1,96 ( + + + )
23 12 1 17
= 2,787 ± 1,96 ×1,089 = 2,787 ± 2,134 = [0,653;4,921]
On en déduit, en passant par la fonction exponentielle, inverse de la fonction logarithme, l’intervalle de
confiance à 95% de ψ :
[ORi ; ORs ] = [exp(0,653);exp(4,921)] = [1,921;137,190].
Conditions de validités : les mêmes que celles du khi-deux d’association : effectifs calculés supérieurs à 5,
vérifiés.
ANAPATH
+ -
Oui=+ 23 (18,11) 1(5,89) 24
DIAGNOSTIC=(détection)
Non=- 17 (21,89) 12 (7,11) 29
40 13 53

10
Méthodologie Statistique - Examen de Février 2010

Moyenne des notes  Ecart‐type  Minimum Maximum 


11.31  4.37  1.00  20.00 

% de réussite : 64,81

Corrélation entre notes des questions partie A

A1  A2  A3  A4  A5  A6  A7  A8  A9  A10  A11 
A1  1,00  0,61 0,11  0,44 0,09 0,23 0,21 0,24 0,22  0,15 0,06
A2  0,61  1,00 0,16  0,52 0,12 0,27 0,25 0,24 0,24  0,22 0,12
A3  0,11  0,16 1,00  0,21 0,40 0,26 0,46 0,25 0,25  0,21 0,11
A4  0,44  0,52 0,21  1,00 0,21 0,38 0,34 0,33 0,32  0,32 0,22
A5  0,09  0,12 0,40  0,21 1,00 0,30 0,45 0,27 0,17  0,15 0,11
A6  0,23  0,27 0,26  0,38 0,30 1,00 0,43 0,46 0,37  0,39 0,32
A7  0,21  0,25 0,46  0,34 0,45 0,43 1,00 0,45 0,39  0,39 0,30
A8  0,24  0,24 0,25  0,33 0,27 0,46 0,45 1,00 0,56  0,49 0,41
A9  0,22  0,24 0,25  0,32 0,17 0,37 0,39 0,56 1,00  0,70 0,49
A10  0,15  0,22 0,21  0,32 0,15 0,39 0,39 0,49 0,70  1,00 0,74
A11  0,06  0,12 0,11  0,22 0,11 0,32 0,30 0,41 0,49  0,74 1,00

11
Méthodologie Statistique - Examen de Février 2010

Corrélation entre notes des questions partie B


B1  B2  B3  B4  B5  B6 
B1  1,00  0,30  0,38  0,34  0,35  0,31 
B2  0,30  1,00  0,39  0,36  0,26  0,27 
B3  0,38  0,39  1,00  0,92  0,26  0,24 
B4  0,34  0,36  0,92  1,00  0,26  0,27 
B5  0,35  0,26  0,26  0,26  1,00  0,69 
B6  0,31  0,27  0,24  0,27  0,69  1,00 

Corrélation entre notes des questions partie A et partie B

A1  A2  A3  A4  A5  A6  A7  A8  A9  A10  A11 
B1  0,04  0,13 0,16  0,15 0,14 0,18 0,27 0,33 0,21  0,33 0,30
B2  0,11  0,08 0,22  0,13 0,19 0,24 0,20 0,25 0,16  0,20 0,21
B3  ‐0,01  0,05 0,15  0,13 0,10 0,14 0,17 0,22 0,19  0,25 0,29
B4  ‐0,03  0,04 0,09  0,11 0,09 0,13 0,13 0,17 0,16  0,21 0,29
B5  ‐0,02  0,05 0,17  0,16 0,13 0,28 0,22 0,31 0,22  0,28 0,31
B6  0,02  0,07 0,20  0,15 0,08 0,23 0,25 0,33 0,32  0,37 0,37

Corrélation entre les notes à chaque question partie A ou B et le total des autres

A1  0,22 
A2  0,29 
A3  0,38 
A4  0,42 
A5  0,35 
A6  0,51 
A7  0,54 
A8  0,61 
A9  0,55 
A10  0,66 
A11  0,54 
B1  0,46 
B2  0,41 
B3  0,40 
B4  0,47 
B5  0,45 
B6  0,51 

12
Méthodologie Statistique - Examen de Février 2010

Courbe de fiabilité de l'examen, barême final


COL1
0.80

0.79 X2 X1
X4 X13
0.78 X15
X10
0.77 X5
X3
X14
0.76 X12
X17
X16
0.75

0.74

0.73 X11

0.72

0.71

0.70 X6

0.69

0.68

0.67 X7

0.66

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

A1=X1;A2=X2;A3=X3; A4=X4;A5=X5;A6=X6;A7=X7;A8=X8;A9=X9;A10=X10;A11=X11;
B1=X12;B2=X13;B3=X14;B4=X15;B5=X16;B6=X17;

Le fait que cette courbe soit croissante indique une une très bonne unidimensionnalité des notes aux
questions (cohérence).

13