Académique Documents
Professionnel Documents
Culture Documents
Essai
présenté
à la Faculté des études supérieures
de l’Université Laval
pour l’obtention
du grade de maı̂tre ès sciences (M. Sc.)
Décembre 2002
———————————————– ———————————————–
Jean-Marc Daigle, étudiant Louis-Paul Rivest, directeur
AVANT-PROPOS
Conformément à la tradition selon laquelle la recherche est affaire de
passion, ce travail a été vécu comme la participation à une aventure extra-
ordinaire et exaltante à bien des égards. Je tiens avant tout à remercier cha-
leureusement mon directeur de maı̂trise, M. Louis-Paul Rivest, professeur au
Département de mathématiques et de statistique de l’Université Laval, pour
m’avoir entraı̂né avec enthousiasme et dynamisme dans ses idées florissantes
et pour avoir encouragé les miennes. Sa disponibilité, sa confiance et son ou-
verture aux discussions argumentées m’ont permis de trouver tout le soutien
qui m’était nécessaire au cours de mes études supérieures.
Je remercie également le Dr Yves Lacasse de l’Hôpital Laval pour m’avoir
initié au domaine de la santé et m’avoir permis de joindre la statistique à la
recherche médicale grâce à l’étude de la pneumonite d’hypersensibilité.
J’adresse un remerciement tout particulier à l’équipe du Service de consul-
tation statistique qui m’a fait découvrir le monde merveilleux de la consul-
tation. Cela m’a apporté un enrichissement permanent dont on ne mesure
que rarement l’extraordinaire apport. Que tous les guides occasionnels que
j’ai pu rencontrer sur mon chemin reçoivent ici l’expression de ma gratitude.
Je pense entre autres à Jean-Pierre Carmichael, à Gaétan Daigle et à Hélène
Crépeau.
Derniers de la liste mais assurément pas dans mon cœur, mes parents ont
pris soin de me soutenir dans tous mes projets et je profite de l’occasion pour
les remercier du fond du cœur pour leur soutien moral et leurs encourage-
ments. Qu’ils soient assurés de ma profonde reconnaissance. Bien plus qu’un
remerciement, ce travail leur est dédié.
TABLE DES MATIÈRES
RÉSUMÉ ii
AVANT-PROPOS iii
INTRODUCTION 1
iv
v
CONCLUSION 50
BIBLIOGRAPHIE 53
vi
vii
LISTE DES TABLEAUX
viii
INTRODUCTION
Concepts de base
La scène médicale courante peut être perçue en partie comme une lutte
pour l’organisation des connaissances médicales de manière à ce que le mé-
decin puisse prendre une décision bien fondée quant aux lignes de conduite
régissant l’avenir de son patient. Le médecin, comme décideur, doit appréhender
l’incertitude car, tôt ou tard, il sera appelé à poser son diagnostic. La plupart
du temps, il se trouve submergé par un déluge d’informations médicales. Sans
laisser de côté aucune des informations qui lui sont fournies, le médecin doit
faire une synthèse des données disponibles tout en étant conscient qu’il peut
se retrouver dans une zone grise qui l’empêchera de prendre une décision
définitive. Ce dont il a réellement besoin, c’est des outils additionnels pour
l’aider à traiter cette situation d’incertitude face à la prise de décision.
Tab. 1.1 – Classement des valeurs observées du test par rapport à la mesure
étalon.
des mesures du test sont positives. La probabilité pour qu’un malade soit
correctement identifié comme vrai-positif est alors de 0.29 × 0.34 = 0.0986.
Le nombre prévu de vrais-positifs est donc 0.0986 × 100 = 9.86 %. La pro-
où FA (c) et FN (c) sont les fonctions de répartitions dans les populations A
et N respectivement.
L’indice prend la valeur zéro toutes les fois qu’un test diagnostique donne la
même proportion de positifs pour les groupes des atteints et des non atteints,
et ce, indépendamment de la proportion de ces groupes. L’indice prend sa
valeur maximale seulement si tous les cas de maladie et de contrôle sont
identifiés correctement.
CHAPITRE II
2.1 Définition
Une courbe ROC est tout simplement définie comme le graphique de la
sensibilité (1 − FA (c)) sur l’axe vertical en fonction de 1 - spécificité (1 −
FN (c)) sur l’axe horizontal pour des valeurs de c variant de −∞ à +∞. La
quantité 1 - spécificité est la probabilité de déclarer une personne atteinte
alors que c’est faux ou si l’on préfère, la probabilité de fausse alarme. La
sensibilité est la probabilité de déclarer une personne atteinte alors qu’elle
l’est réellement. Clairement, ces probabilités peuvent être perçues comme les
erreurs de première et de deuxième espèce rencontrées dans les tests d’hy-
pothèses. Si l’on confronte l’hypothèse nulle que le patient n’est pas atteint
II. Construction de la courbe ROC 12
ROC(t) = SA [SN
−1
(t)], t ∈ (0, 1) (1)
Fig. 2.2 – Trois scénarios possibles d’une courbe ROC. Un test idéal (A)
donne une séparation nette entre les deux populations offrant ainsi une courbe
ROC passant le coin supérieur gauche. Un test sans aucune discrimination
(c) donne une courbe allant du point de coordonnées (0,0) au point (1,1).
Habituellement, la courbe passe quelque part entre ces deux extrêmes (B).
II. Construction de la courbe ROC 14
1.0
0.8
0.8
0.6
0.6
Sensibilite
Sensibilite
0.4
0.4
0.2
0.2
0.0
0.0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
1-Specificite 1-Specificite
1.0
0.8
0.8
0.6
0.6
Sensibilite
Sensibilite
0.4
0.4
0.2
0.2
0.0
0.0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
1-Specificite 1-Specificite
Considérons maintenant le cas où les deux distributions n’ont pas la même
variabilité (b > 1). Encore une fois, plus la valeur de a augmente, plus la
courbe se rapproche du coin supérieur gauche donnant ainsi une meilleure
discrimination. Cependant, nous pouvons observer que la courbe à une allure
sigmoı̈dale, passant de concave à convexe et traversant même la droite à 45 ◦ .
II. Construction de la courbe ROC 17
1
Se = P (T ≥ c|A) = , (7)
1 + exp{(c − µA )/σA }
1
1 − Sp = P (T ≥ c|N ) = , (8)
1 + exp{(c − µN )/σN }
e a tb
ROC(t) = , t ∈ (0, 1) (9)
ea tb + (1 − t)b
ea ea − a − 1
1
ea t
Z
θ= dt = .
0 tea + (1 − t) (ea − 1)2
1.0
0.8
0.6
Sensibilite
0.4
Modele normal
0.2
Modele logistique
0.0
1-Specificite
Fig. 2.4 – Comparaison des courbes ROC basées sur les modèles normal et
logistique.
CHAPITRE III
Les courbes ROC sont employées pour évaluer l’exactitude des tests diagnos-
tiques. L’aire sous la courbe ROC est une indication de la capacité du test à
classer correctement les vrais-positifs et les vrais-négatifs. L’aire peut être es-
timée de façon paramétrique ou non paramétrique (Zweig et Campbell 1993).
La méthode la plus connue pour l’ajustement de courbe ROC paramétrique
est celle proposée par Dorfman et Alf (1969) utilisant le modèle normal. Une
alternative non paramétrique utilisant la théorie des U -statistiques a aussi
été envisagée (DeLong et coll., 1988).
Pour nous guider dans le choix de l’une ou l’autre de ces méthodes, il faut
prêter une attention particulière à la nature des données. Pour des données
de nature continue, l’approche non paramétrique est recommandée puisque
la courbe ROC passe par tous les points observés et l’estimation de l’aire est
alors non biaisée (Zweig et Campbell 1993). Aussi, il n’y a aucun besoin d’im-
poser un modèle, soit directement en sélectionnant une famille paramétrique
ou indirectement en ajustant une fonction aux points formant la courbe ROC.
Pour des données catégoriques, l’estimation de l’aire obtenue par l’approche
non paramétrique est souvent inférieure à celle de l’approche paramétrique
à cause de la discrétisation sous-jacente à l’approche non paramétrique.
III. Estimation de la courbe ROC et de l’aire sous cette courbe 23
Classement
Statut réel 1 2 3 4 5 Total
Atteint 3 2 2 11 33 nA = 51
Non atteint 33 6 6 11 2 nN = 58
Total 36 8 8 22 35 109
Tab. 3.4 – Classement des 109 images radiographiques selon une échelle
de 1 à 5. Définitivement normal (1), probablement normal (2), indécis (3),
probablement anormal (4) et définitivement anormal (5).
III. Estimation de la courbe ROC et de l’aire sous cette courbe 24
Green et Swets (1966) ont montré que l’aire sous une courbe ROC empi-
rique correspond à la probabilité qu’un patient de la population A obtienne
un résultat plus élevé qu’un patient de la population N . Posons X et Y , les
variables aléatoires représentant le résultat du test pour un patient atteint et
non atteint respectivement. En termes mathématiques, l’aire sous la courbe
s’écrit θ = P (X > Y ), si X et Y sont continues et satisfont P (X = Y ) = 0.
III. Estimation de la courbe ROC et de l’aire sous cette courbe 25
Si des égalités entre X et Y sont possibles, l’aire sous la courbe est définie
comme étant θ = E[ψ(X, Y )] où
1 X >Y
ψ(X, Y ) = 1
2
X =Y
0 X <Y.
En fait, la région sous la courbe ROC peut être divisée en plusieurs rectangles
comme le montre la figure 3.6.
L’estimation de l’aire sous la courbe revient donc à calculer la somme des
III. Estimation de la courbe ROC et de l’aire sous cette courbe 26
Fig. 3.6 – Estimation de l’aire sous la courbe à partir des aires de rectangles.
Avec une aire de 89.32 %, on peut donc penser que le diagnostic par la
radiographie permet de bien identifier les sujets atteints d’un problème neu-
rologique.
III. Estimation de la courbe ROC et de l’aire sous cette courbe 27
E[W ] = nA nN θ
et
XX XXXX
V ar(W ) = V ar(Uij ) + Cov(Uij , Ukl )
i j i j k l
où la quadruple somme est faite sur l’ensemble des quadruplets (i, j, k, l),
pour lesquels on a soit i 6= k ou j 6= l ou les deux à la fois. Puisque les
termes de variances sont tous égaux, leur contribution à la variance de W
se résume à nA nN V ar(Uij ). Les termes de covariances sont de trois types.
Premièrement, si i 6= k et j 6= l, alors Uij et Ukl sont indépendants car ils
n’ont aucun terme en commun et par conséquent leur covariance est nulle.
Ensuite, il y a des termes pour lesquels i 6= k et j = l. Ces termes sont
égaux et pour déterminer leur nombre, notons qu’il y a nA choix possibles
pour i, et une fois que i a été choisi, il reste nA − 1 choix possibles pour k.
Pour chacune de ces nA (nA − 1) valeurs de i et k, il y a nN choix possibles
pour j. Le nombre total de covariances de ce type est donc de (nA − 1)nA nN .
Le troisième type de covariance est lorsque i = k et j 6= l. En appliquant
la même logique, on trouve (nN − 1)nA nN termes de covariances identiques.
III. Estimation de la courbe ROC et de l’aire sous cette courbe 28
La variance de Uij est donnée par θ(1−θ). Pour trouver la covariance entre Uij
et Uil , on utilise la relation E[Uij Uil ] = P (Uij = Uil = 1). Ceci est équivalent
à :
Q10 = E[ψ(Xi , Yj ) ψ(Xi , Yl )] = P (Xi > Yj et Xi > Yl )
De la même façon, Q01 désigne la probabilité pour deux sujets atteints d’avoir
tous les deux un X plus grand qu’un sujet non atteint,
X
1
2 2
Q01 = P (Y = c) P (X > c) + P (X > c)P (X = c) + P (X = c) .
c
3
Définissons
Tab. 3.5 – Fréquences observées des patients atteints et non atteints selon
les différents classements possibles.
Supposons que les sujets avec un score T ≥ j soient classés comme atteints
tandis que ceux avec un score T < j soient classés comme non atteints. Les
probabilités cumulées divisent donc les catégories en deux ensembles avec
d’une part, les classes d’ordre inférieur (< j), et d’autre part, les classes
d’ordre supérieur (≥ j), comme le montre le tableau 3.7.
L’échelle de mesure utilisée sur les sujets atteints et non atteints corres-
pond à des mesures catégoriques provenant de deux variables aléatoires nor-
males, où les J catégories sont déterminées par J − 1 frontières c1 , c2 , ..., cJ−1
fixes, mais inconnues. Nous supposons donc que la réponse au test provient
de deux variables aléatoires normales, soit X ∼ N (µA , σA2 ) et Y ∼ N (µN , σN
2
)
pour les patients atteints et non atteints respectivement.
Le modèle de Dorfman et Alf est une cas spécial du modèle de régression
ordinale en prenant F = Φ, une fonction de répartition d’une normale stan-
dard, et en utilisant une fonction de lien probit, soit Φ−1 [γj (z)]. À l’aide
de cette fonction de lien et en utilisant la distribution de la variable U , les
probabilités de réponse cumulées peuvent s’écrire comme suit :
cj −µN = d si z = 0,
σN j
Φ [γj (z)] =
−1
(18)
c
j A = d ( σN ) − ( µA −µN ) si z = 1.
−µ
σA j σA σA
Comme pour le modèle normal, l’équation (19) fait intervenir les paramètres
a = (µA − µN )/σA et b = σN /σA qui s’écrivent en terme des paramètres
de localisation et d’échelle. L’équation (19) peut être écrite de façon plus
abrégée en utilisant la variable indicatrice z
H0 : αj = α, j = 1, . . . , J − 1
des patients ont été soumis à une biopsie pulmonaire, un geste assez invasif,
mais nécessaire pour la connaissance du “gold standard.”
R1 = Z 1 + Z 2 + Z 3 + · · · + Z p ,
R 2 = a 1 Z1 + a 2 Z2 + · · · + a p Zp
Fig. 3.7 – Répartition des patients atteints et non atteints selon les deux
règles de décision.
III. Estimation de la courbe ROC et de l’aire sous cette courbe 39
La figure 3.8 illustre les différences observées entre les aires selon la
méthode employée pour construire la courbe ROC. Pour l’échelle du nombre
de critères, l’estimation de l’aire calculée par la méthode du trapèze est de
90.25 % avec une erreur type de 0.0154. À titre de comparaison, l’aire obte-
nue pour la courbe ROC basée sur le modèle normal de Dorfman et Alf est
de 91.88 % avec une erreur type de 0.0149.
1.0
0.8
0.8
0.6
0.6
sensibilite
sensibilite
0.4
0.4
0.2
0.0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
1-specificite 1-specificite
Tab. 3.9 – Estimation des aires sous la courbe ROC selon les méthodes dia-
gnostiques employées pour l’estimation paramétrique et non paramétrique.
Un intervalle de confiance à 95 % est donné entre parenthèses.
Centor et Schwartz (1985) ont comparé les aires obtenues selon les deux
méthodes d’estimation et ils ont noté des différences entre les aires para-
métrique et non paramétrique, surtout lorsque le nombre de points utilisés
par la méthode non paramétrique est petit. En général, la méthode non pa-
ramétrique donne une estimation de l’aire légèrement inférieure relativement
à l’approche paramétrique, particulièrement lorsque les points de coupure ne
III. Estimation de la courbe ROC et de l’aire sous cette courbe 41
sont pas répartis uniformément sur l’espace possible. L’erreur type dépend
principalement du nombre de cas dans chaque groupe. L’approche non para-
métrique fonctionne essentiellement comme la règle du trapèze dans laquelle
les points sont reliés par un segment de droite. À mesure que le nombre de
points traversant l’espace ROC augmente et que la distance entre ces points
diminue, les segments de droites se confondent presque avec le modèle pa-
ramétrique lorsque celui-ci s’ajuste bien. Ceci explique le fait que la différence
entre les deux approches est plus marquée lorsque la règle du nombre de
critères est utilisée comparativement à celle du score total.
CHAPITRE IV
θˆ1 − θˆ2
z=q (23)
SE(θˆ1 )2 + SE(θˆ2 )2
où r représente la corrélation entre les deux aires dérivées à partir du même
groupe de patients. Avec la méthode de Hanley et McNeil, r est fonction de
rA et rN , correspondant à la corrélation des scores associés aux cas positifs et
négatifs respectivement. La corrélation de Pearson est utilisée dans le calcul
de rA et rN lorsque les données sont continues. Lorsqu’il s’agit de scores
catégoriques, le tau-b de Kendall est recommandé. Il s’agit d’une procédure
approximative car la valeur de r doit être obtenue grâce à une table utili-
sant la corrélation moyenne entre rA et rN ainsi que l’aire moyenne entre les
deux méthodes diagnostiques (voir annexe 1). Pour ce qui est de l’approche
paramétrique, le logiciel ROCKIT est utilisé pour le calcul des estimations
des paramètres du modèle normal. Les estimations de l’aire sous la courbe et
de l’erreur type pour chaque test diagnostique sont données par le programme
ainsi que la corrélation entre les aires.
1 1
S= S10 + S01 .
nN nA
0
En terme vectoriel, l’hypothèse d’égalité des aires s’écrit H0 : L θ = 0, où
0
L = (1, −1). La statistique utilisée est :
0
L θ̂
h i1/2 , (25)
0 1 1
L S
nN 10
+ S
nA 01
L
laquelle suit une distribution normale centrée réduite. Une macro SAS écrite
par D. M. Delong permettant de faire la comparaison de l’aire sous deux ou
plusieurs courbes ROC est présentée à l’annexe B.
IV. Comparaison de l’aire sous deux courbes ROC appariées 46
1
(V10 V10 − 116θˆ0 θ̂)
0
S10 =
115
et
1
(V01 V01 − 284θˆ0 θ̂).
0
S01 =
283
IV. Comparaison de l’aire sous deux courbes ROC appariées 47
Tab. 4.11 – Répartition des 400 patients selon un point de coupure équivalent
à un score total de 8 points.
Tab. 4.12 – Répartition des 400 patients selon un point de coupure équivalent
à 4 critères présents.
CONCLUSION
Les courbes ROC occupent un rôle central dans l’utilisation des outils
diagnostiques. Les radiologistes et les médecins savent que l’interprétation
des résultats des tests de laboratoires cliniques est primordiale. La gestion
et l’évaluation de ces aspects ne doivent pas se faire à la légère. Dans la
réalité, les choses ne sont pas toujours bien définies. La distinction entre po-
sitif et négatif dans un résultat d’essai est parfois artificielle alors qu’il n’est
pas toujours possible d’affirmer qu’une personne est atteinte d’une certaine
pathologie. La courbe ROC est un graphique de toutes les paires de sensibi-
lité-spécificité résultant de la variation d’un critère de décision par rapport à
l’éventail des valeurs du test. La sensibilité et la spécificité changent selon la
valeur du seuil choisi comme point de coupure pour décider si une observa-
tion représente un événement (présence de la maladie) ou un non-événement
(absence). L’objectif est d’avoir des valeurs élevées pour la sensibilité et la
spécificité pour pouvoir identifier à la fois les cas de maladie et les non-cas.
L’aire sous la courbe ROC est un indice permettant d’évaluer l’exactitude
prédictive d’un test diagnostique. La comparaison des aires sous les courbes
associées à plusieurs tests nous permet ainsi de déterminer de meilleurs outils
diagnostiques. Lorsque différents tests sont administrés au même ensemble de
sujets, la corrélation doit être pris en compte dans les analyses statistiques.
Pour ce faire, une correction approximative, proposée par Hanley et McNeil
(1982), utilise la corrélation moyenne entre le résultat du test pour les deux
CONCLUSION 51
groupes ainsi que les aires moyennes entre les deux courbes ROC. Delong et
coll. (1988) ont suggéré une méthode entièrement non paramétrique utilisant
la théorie asymptotique des U -statistiques.
L’estimation de la courbe ROC peut se faire selon l’approche non para-
métrique où un ensemble restreint de points sont reliés par des segments
de droite. L’aire sous la courbe est obtenue par la méthode du trapèze en
calculant la somme des aires de rectangles contigus, ce qui est équivalent
à la statistique de Mann-Whitney. Une option plus analytique emploie un
modèle paramétrique pour l’ajustement de la courbe. Un modèle populaire
est le modèle normal qui suppose que les distributions appartiennent à une
famille paramétrique de lois gaussiennes. D’autres distributions, telles que
la distribution logistique, sont aussi employées pour la modélisation de la
courbe. Les courbes ROC peuvent également être perçues sous forme de
modélisation par régression ordinale permettant d’évaluer l’effet d’un ou de
plusieurs facteurs sur la fiabilité du test.
L’exemple de la pneumonite d’hypersensibilité nous a permis de mettre
en application les concepts théoriques abordés dans ce travail. Un des critères
de décision de l’étude HP utilise le score total qui provient des poids accordés
à chaque variable explicative dans un modèle de régression logistique. Cette
analyse permet en fait de déterminer la combinaison linéaire des variables per-
mettant la meilleure discrimination entre les deux populations. Cette règle
nous sert ensuite à construire la courbe ROC et permet d’apprécier la per-
formance de ce score grâce à l’aire sous la courbe. La problématique de cette
approche est que les mêmes patients sont utilisés à la fois pour trouver le score
logistique et pour la construction de la courbe ROC grâce aux distributions
CONCLUSION 52
Bamber, D. (1975). The area above the ordinal dominance graph and the
area below the receiver operating characteristic graph. Journal of Ma-
thematical Psychology, 12, 387-415.
dels for the analysis of ordered categorical data. Applied Statistics, 40,
249-259.
NOTE : This program was provided by, and is supported by, the author
(see REFERENCES below).
PURPOSE :
Nonparametric comparison of areas under correlated ROC curves. Compute Mann-Whitney
statistics and component-based estimates of their variance covariance matrix.
DETAILS : The method is closely related to the jackknife. The method of components is
described in chapter 3 of Puri and Sen (1971).
REFERENCES :
USAGE : To use this program you must define the following macro variables using %LET
statements :
\***************************************************************************\
Exemple :
Afin d’établir un indice révélateur de la présence de la maladie HP, deux méthodes ont été
envisagées. Dans un premier temps, considérons simplement le nombre de critères présents
chez un sujet parmi la liste des critères possibles. Une alternative possible est d’attribuer
à chaque critère des poids égaux aux coefficients de la régression logistique associés aux
variables explicatives du modèle. Pour simplifier la règle, les coefficients de régression sont
arrondis à l’entier le plus près. Voici un exemple des résultats produits par la macro pour
la comparaison non paramétrique des aires sous deux courbes ROC. Le contraste compare
l’indice du nombre du nombre de critères et avec celui du score total.
Estimates of Contrast
LT
0.0217035
Variance Estimates of Contrast
LV
0.0000351
Chisq DF Prob>Chi
13.414861 1 0.0002496
ANNEXE 63
data roc ;
filename ”donnee” ;
input id atteint scoretot ncrit ;
run ;
proc iml ;
start mwcomp(psi,z) ;
* program to compute the man-whitney components ;
* z is (n by 2) ;
* z[,1] is the column of data values ;
* z[,2] is the column of indicator variables ;
* z[i,2]=1 if the observation is from the x population ;
* z[i,2]=0 if the observation is from the y population ;
* psi is the returned vector of u-statistic components ;
start mwvar(t,v,nx,ny,z) ;
* compute man-whitney statistics and variance ;
* input z, n by (k+1) ;
* z[,1 :k] are the different variables ;
* z[,k+1] are indicator values ;
* 1 if the observation is from population x and ;
* 0 if the observation is from population y ;
* t is the k by k vector of estimated statistics ;
* the (i,j) entry is the MannWhitney statistic for the i-th column when used with ;
* the j-th column. The only observations with nonmissing values in each column are ;
* used. The diagonal elements are, hence, based only on the single column of values. ;
* v is the k by k estimated variance matrix ;
* nx is the matrix of x population counts on a pairwise basis ;
* ny is the matrix of y population counts on a pairwise basis ;
k = ncol(z)-1 ;
ind = z[,k+1] ;
v = j(k,k,0) ; t=v ; nx=v ; ny=v ;
do i=1 to k ;
do j=1 to i ;
∧ ∧
who = loc( (z[,i] =.)#(z[,j] =.) ) ; * nonmissing pairs ;
run mwcomp(psii,(z[,i] || ind)[who,]) ; * components ;
run mwcomp(psij,(z[,j] || ind)[who,]) ;
inow = ind[who,] ; * x’s and y’s ;
m = inow[+] ; * current x’s ;
n = nrow(psii)-m ; * current y’s ;
nx[i,j] = m ; ny[i,j] = n ;
mi = (psii#inow)[+] / m ; * means ;
mj = (psij#inow)[+] / m ;
t[i,j] = mi ; t[j,i] = mj ;
psii = psii-mi ; psij = psij-mj ; * center ;
v[i,j] = (psii#psij#inow)[+] / (m#(m-1))
+ (psii#psij#(1-inow))[+] / (n#(n-1)) ;
v[j,i] = v[i,j] ;
end ;
end ;
free psii psij inow ind who ;
finish ;
l = &contrast ;
print ’Contrast of Interest’, l [colname=vname] ;
lt=l*manwhit ;
print ’Estimates of Contrast’, lt ;
lv=l*v*l‘ ;
print ’Variance Estimates of Contrast’, lv ;
c = ginv(lv) ;
chisq = lt‘*c*lt ;
df = trace(c*lv) ;
p = 1 - probchi( chisq, df ) ;
chiname = {’Chisq’ ’DF’ ’Prob<Chi’} ;
print (chisq || df || p) [colname=chiname] ;
quit ;
ANNEXE C
Category 1 2 3 4 5 6 7 8 9 10 11 12 13
Actually-Negative Cases 30 10 71 38 39 12 33 18 23 7 2 1 0
Actually-Positive Cases 0 0 2 0 1 1 6 12 34 32 11 11 6
Category 1 2 3 4 5 6 7
Actually-Negative Cases 30 87 105 48 12 2 0
Actually-Positive Cases 0 2 8 41 37 22 6
Maximum Likelihood Estimation of the Parameters of the Bivariate Binormal Model for
PAIRED Data
and
the Calculation of the Statistical Significance of the Difference between Binormal ROC
ANNEXE 68
Curve Estimates.
For Condition 1 :
FPF : .000 .000 .004 .011 .035 .116 .180 .296 .338 .475 .609 .859 .894 1.000
TPF : .000 .052 .147 .241 .517 .810 .914 .966 .974 .983 .983 1.000 1.000 1.000
For Condition 2 :
FPF : .000 .000 .007 .049 .218 .588 .894 1.000
TPF : .000 .052 .241 .560 .914 .983 1.000 1.000
Final Estimates of the Binormal ROC Parameters and the Inter-Condition Correlation
Coefficients :
Condition 1 : Condition 2 :
score total nombre critere
*** Wilcoxon area estimates are computed for continuous data only.
1 : z(k) = -1.294 -1.057 -.192 .123 .428 .522 .858 1.160 1.763 2.360 2.646 3.117
ANNEXE 71
Statistical Significance of the Difference between the Two CORRELATED ROC Curve
Estimates According to the Selected Test :