CT-MetPredictives - Exam Ennonce+sol

CT Méthodes Prédictives
Master 1 MIS (UFR SSI, Vannes)
Exercice 1.
a) Soit Yi , i = 1, ..., n une suite des observations indépendantes et Xi = (Xi,1 , ..., Xi,p ) , i =
1, ..., n une suite des covariables. Donner la définition du modèle linéaire généralisé.
Supposons que les observations Yi représentent les durées de vie de patients souffrant de leucémie
et xi représente la quantité des globules blanches dans le sang. Supposons que chaque Yi suit une
θi
loi exponentielle P (Yi ≤ y) = 1 − e−ye , y ≥ 0 où θi ∈ (−∞, ∞) est un paramètre inconnu.
b) Donner la densité de Yi . Est ce-que cette densité forme une famille exponentielle? Donner
l’espérance µi = EYi et la variance V ar (Yi ) .
c) Est-ce que les relations
θi = ηi , où ηi = β0 + β1 xi
définissent un modèle linéaire généralisé? Si oui, donner la fonction lien g respective. Utiliser la
définition du point a) pour justifier votre réponse.
∂
d) Calculer la fonction de log-vraisemblance l comme fonction de β0 et β1 . Calculer ∂β0 l et
∂
∂β1 l.
e) Rappelons
! que pour le modèle linéaire généralisé du point a) la fonction score U (β) =
U1
est donnée par
U2
n
X Yi − µi ∂µj
Uj = · · Xi,j , j = 1, ..., p,
i=1
V ar (Yi ) ∂ηj
∂µj
où µj = EYj et ηj = β0 + β1 xi . Calculer ∂ηj . A partir de cette équation, donner une expression
de Uj en fonction de β0 , β1 .
f) Rappelons que la matrice d’information est donnée par I (β) = (Ijk )j,k=1,...,p , où
n 2
X Xi,j Xi,k ∂µj
Ijk = · , j, k = 1, ..., p.
i=1
V ar (Yi ) ∂ηj
Donner une expression

2 de la matrice d’information pour le modèle considéré en fonction de
β0 , β1 . Calculer E ∂β 2 l (β0 , β1 ) , E ∂β0∂∂β1 l (β0 , β1 ) et E ∂β∂ 2 l (β0 , β1 ) .
∂
0 1
g) Donner l’algorithme de calcul du paramètre β = (β0 , β1 ) .
Exercice 2.
Le tableau de contingence Tab. 1 contient les données Yj,k concernant un étude de la mélanome
maligne. Les abréviations suivantes serons utilisées:
Pour le type de tumeur:
HMF: Hutchinson’s melanotic freckle (le freckle de Hutchinson).
SSM: superficial spreading melanoma (mélanome superficielle)
NOD: nodular melanoma (mélanome nodulaire)
IND: indeterminate (non déterminé)
Pour le site:
HNK: head and neck (la tête et le cou).
TNK: trunk (le corps)
EXT: extremities (extrémités)
a) Notons µj,k = EYj,k et θj,k = µj,k /n. Donner une formule pour la distribution conjointe des
observations Yj,k . Justifier. Quelle est l’interprétation du paramètre θj,k .
b) On souhaite déterminer si il existe une association entre le site k et le type de tumeur j. Pour
P P
cela on ajuste le modèle θj,k = θj· ×θ·k , où θj· = k θjk et θ·k = j θjk . A l’échelle logarithmique
on note µ = ln n et αj = ln θj· , βk = ln θ·k . Donnes le modèle linéaire généralisé respectif en
termes αk , βk et µ. A quelle hypothèse correspond ce modèle (dit additif)?
c) Donner le modèle saturé en termes de paramètres µ, αj , βk et (αβ)j,k en analogie avec
l’analyse de variance à deux facteurs. Combien des paramètres a le modèle saturé. Quelle est la
valeur de la déviance D et de la statistique X 2 de Pearson pour le modèle saturé.
d) Donner le modèle minimal en termes de paramètres µ, αj , βk et (αβ)j,k .

e) Donner la formule de calcul de fréquences prédites µjk pour la catégorie de référence. Trouver
les fréquence prédites µjk pour la catégorie de référence pour les modèles saturé, additif et minimal.
f) Donner la formule de calcul de fréquences prédites µjk pour une catégorie arbitraire (non
référentielle) pour les modèles saturé, additif et minimal. Trouver les fréquences prédites µjk pour
le type IND sur le site EXT pour les modèles saturé, additif et minimal.
g) Trouver les fréquences prédites µjk pour le type SSM sur le site HNK pour les modèles
saturé, additif et minimal.
h) Reconstituer les données manquantes du Tab. 1 à l’aide du Tab. 2. Justifier.
i) En comparant les fréquence prédites par le modèle additif (voir point g)) et celles de Tab.
1 que peut-on conclure sur l’indépendance de la tumeur de type SSM des sites. Justifier votre
réponse.
j) Donner la formule de calcul pour la déviance. Calculer la déviance du modèle additif. Quelle
lois limite suit la déviance. Déterminer le nombre des degrés de libertés.
k) Utiliser le Tab. 2 pour justifier le choix du modèle en faisant une comparaison des modèles.
Décrire les tests respectifs et spécifier le nombre de degrés de liberté associé.
Tab. 1
Type de tumeur HNK TNK EXT Total
HMF 22 2 10 34
SSM 16 54 115 185
NOD 19 33 73 125
IND 28 56
à compléter à compléter
Total 68 106 226 400
Tab. 2
Coefficient Modèle saturé Modèle additif Modèle minimal
Constant 3.091 1.754 3.507
SSM −0.318 1.694
NOD −0.147 1.302
IND −0.693 0.499
TNK −2.398 0.444
EXT −0.788 1.201
SSM × TNK 3.614
SSM × EXT 2.761
NOD × TNK 2.950
NOD × EXT 2.134
IND × TNK 2.833
IND × EXT 1.723
log -vraisemblance −29.556 −55.453 −177.16
X2 65.813
à compléter
∆D
CORRECTIONS
Exercice 1.
a) Soit Yi , i = 1, ..., n une suite des observations indépendantes et Xi = (Xi,1 , ..., Xi,p ) , i =
1, ..., n une suite des covariables. Donner la définition du modèle linéaire généralisé.
Correction: Voir TD
Supposons que les observations Yi représentent les durées de vie de patients souffrant de leucémie
et xi représente la quantité des globules blanches dans le sang. Supposons que chaque Yi suit une
θi
loi exponentielle P (Yi ≤ y) = 1 − e−ye , y ≥ 0 où θi ∈ (−∞, ∞) est un paramètre inconnu.
b) Donner la densité de Yi . Est ce-que cette densité forme une famille exponentielle? Donner
l’espérance µi = EYi et la variance V ar (Yi ) .
Correction b):
La densité de Yi est donnée par
θi θi
fθi (y) = eθi e−ye = eθi −ye , y ≥ 1.
C’est une densité de la famille exponentielle: pour y ≥ 0

θi
fθi (y) = eθi y −e y
= exp θi − eθi y .

1
µi = EYi = = e−θi
eθ i
1
V ar (Yi ) = 2 = e−2θi .
(eθi )
c) Est-ce que les relations

θi = ηi , où ηi = β0 + β1 xi
définissent un modèle linéaire généralisé? Si oui, donner la fonction lien g respective. Utiliser la
définition du point a) pour justifier votre réponse.
Correction c):
La relation
θ i = β0 + β1 x i
est équivalente à la relation
µi = e−θi = e−ηi = exp (− (β0 + β1 xi )) ,
ce qui défini un modèle linéaire généralisé avec la fonction de lien g (x) = − ln (x) :
g (µi ) = − log (µi ) = β0 + β1 xi .
∂
d) Calculer la fonction de log-vraisemblance l comme fonction de β0 et β1 . Calculer ∂β0 l et
∂
∂β1 l.
Correction:
La fonction de log-vraisemblance:
n n
X X θi
l = ln fθi (Yi ) = ln eθi −Yi e
i=1 i=1
n
X n
X n
X n
X n
X
θi
Yi eθi = Yi eηi ,

= θi − Yi e = θi − ηi −
i=1 i=1 i=1 i=1 i=1
où ηi = β0 + β1 xi . Donc
n
X n
X
l= (β0 + β1 xi ) − Yi e−β0 −β1 xi .
i=1 i=1
n
∂ X
1 + Yi e−β0 −β1 xi

l (β0 , β1 ) =
∂β0 i=1
n
∂ X
1 + Yi e−β0 −β1 xi xi

l (β0 , β1 ) =
∂β1 i=1
e) Rappelons
! que pour le modèle linéaire généralisé du point a) la fonction score U (β) =
U1
est donnée par
U2
n
X Yi − µi ∂µj
Uj = · · Xi,j , j = 1, ..., p,
i=1
V ar (Yi ) ∂ηj
∂µj
où µj = EYj et ηj = β0 + β1 xi . Calculer ∂ηj . A partir de cette equation, donner une expression
de Uj en fonction de β0 , β1 .
Correction:
∂µj
On a V ar (Yi ) = e−2ηi and µj = EYj = e−ηi . Alors ∂ηj = −e−ηj . La statistique du score:
n
X Yi − e−ηi
· −e−ηj · Xi,1

U1 =
i=1
e−2ηj
n
X
Yi − e−ηi eηi · 1

= −
i=1
n
X
= (1 − Yi eηi )
i=1
n
X
= (1 − Yi eηi ) ,
i=1
n
X Yi − e−ηi
· −e−ηj · xi

U2 =
i=1
e−2ηj
n
X
= (1 − Yi eηi ) xi .
i=1
f) Rappelons que la matrice d’information est donnée par I (β) = (Ijk )j,k=1,...,p , où
n 2
X Xi,j Xi,k ∂µj
Ijk = · , j, k = 1, ..., p.
i=1
V ar (Yi ) ∂ηj
Donner une expression
2 de la matrice d’information pour le modèle considéré en fonction de
β0 , β1 . Calculer E ∂β 2 l (β0 , β1 ) , E ∂β0∂∂β1 l (β0 , β1 ) et E ∂β∂ 2 l (β0 , β1 ) .
∂
0 1
Correction:
n 2 X n
X Xi,j Xi,k ∂µj 1 2
I11 (β) = · = −2ηi
· −e−ηi = n,
i=1
V ar (Yi ) ∂ηj i=1
e
n 2 X n
X Xi,j Xi,k ∂µj xi xi −ηi 2
X
x2i ,

I22 (β) = · = −2ηi
· −e =
i=1
e
n 2 X n
X Xi,j Xi,k ∂µj 1 · xi 2 X
I12 (β) = · = −2η
· −e−ηi = xi .
i=1
e i
g) Donner l’algorithme de calcul du paramètre β = (β0 , β1 ) .

Correction:
La procédure itérative est:
1. On démarre avec une valeur initiale β0 donnée.
2. On calcule par récurrence
−1
βb(m) = βb(m−1) + Ib β (m−1) U β (m−1) .
3. On s’arrête quand
b(m) b(m−1)
β −β ≤ ε,
où ε est une précision donnée.

Corrections Exercice 2.
Le tableau de contingence Tab 1 contient les données Yj,k concernant un étude de la mélanome
maligne. Les abréviations suivantes serons utilisées:
Pour le type de tumeur:
HMF: Hutchinson’s melanotic freckle (le freckle de Hutchinson).
SSM: superficial spreading melanoma (mélanome superficielle)
NOD: nodular melanoma (mélanome nodulaire)
IND: indeterminate (non déterminé)
Pour le site:
HNK: head and neck (la tête et le cou).
TNK: trunk (le corps)
EXT: extremities (extrémités)
a) Notons µj,k = EYj,k et θj,k = µj,k /n. Donner une formule pour la distribution conjointe des
observations Yj,k . Justifier. Quelle est l’interprétation du paramètre θj,k .
Correction:
Soit K = 3 et J = 4. Les lignes sont multinomiales (et indépendantes). Le modèle est:
J
Y n! y yj,K
f (y|n) = θ j,1 ...θj,K .
j=1
yj,1 !...yj,K j,1
Le paramètre θj,k est interprète comme la probabilité d’une observation de type j, k.
b) On souhaite déterminer si il existe une association entre le site k et le type de tumeur j. Pour
P P
cela on ajuste le modèle θj,k = θj· ×θ·k , où θj· = k θjk et θ·k = j θjk . A l’échelle logarithmique
on note µ = ln n et αj = ln θj· , βk = ln θ·k . Donnes le modèle linéaire généralisé respectif en
termes αk , βk et µ. A quelle hypothèse correspond ce modèle (dit additif).
Correction: Le modèle
µj,k = EYj,k , où ln µj,k = µ + αj + βk .
Ce modèle correspond a l’hypothese que le site k est le type j sont indépendantes.

c) Donner le modèle saturé en termes de paramètres µ, αj , βk et (αβ)j,k en analogie avec
l’analyse de variance à deux facteurs. Combien des paramètres a le modèle saturé. Quelle est la
valeur de la déviance D et de la statistique X 2 de Pearson pour le modèle saturé.
Correction:
Le modèle saturé est
ln E (Yj,k ) = µ + αj + βk + (αβ)j,k .
Le nombre des paramètres est 12 = (J − 1) (K − 1) . La déviance D = 0 et X 2 = 0.
d) Donner le modèle minimal en termes de paramètres µ, αj , βk et (αβ)j,k .

Correction:
ln E (Yj,k ) = µ.
Les résultats de l’estimation de µ, αj , βk , (αβ)j,k sont données dans le tableau Tab. 2 où comme
catégorie de référence on fixe le type HMC sur le site HNK.
e) Donner la formule de calcul de fréquences prédites µjk pour la catégorie de référence. Trouver
les fréquence prédites µjk pour la catégorie de référence pour les modèles saturé, additif et minimal.
Correction:
Les moyennes prédites sont µjk = exp µ + αj + βk + (αβ)jk . En particulier pour la catégorie
de référence on a µjk = exp (µ) et donc pour
le modèle saturé: exp (3.091) = 21.999 (égale à la fréquence observée)
le modèle additif: exp (1.754) = 5.777
le modèle minimal: exp (3.507) = 33.348
f) Donner la formule de calcul de fréquences prédites µjk pour une catégorie arbitraire (non
référentielle) pour les modèles saturé, additif et minimal. Trouver les fréquences prédites µjk pour
le type IND sur le site EXT pour les modèles saturé, additif et minimal.
Correction:
Les fréquences prédites sont µjk = exp µ + αj + βk + (αβ)jk . En particulier pour IND sur
EXT on a
modèle saturé: µjk = exp µ + αj + βk + (αβ)jk
modèle additif: µjk = exp (µ + αj + βk )
modèle minimal: µjk = exp (µ)
Le calcul numérique donne
modèle saturé: exp (3.091 − 0.693 − 0.788 + 1.723) = 28.022 (égale à la fréquence observée)
modèle additif: exp (1.754 + 0.499 + 1.201) = 31.627
modèle minimal: exp (3.507) = 33.348
g) Trouver les fréquences prédites µjk pour le type SSM sur le site HNK pour les modèles
saturé, additif et minimal.
Correction:
Les fréquences prédites sont µjk = exp (µ + αj ) car k = HNK est une catégorie de référence.
En particulier pour SSM sur TNK on a
modèle saturé: exp (3.091 − 0.318) = 16.007 (égale à la fréquence observée)
modèle additif: exp (1.754 + 1.694) = 31.437
modèle minimal: exp (3.507) = 33.348
h) Reconstituer les données manquantes du Tab. 1 à l’aide du Tab. 2. Justifier.

Correction:
Tab. 1
HMF 22 2 10 34
SSM 16 54 115 185
NOD 19 33 73 125
IND 11 17 28 56
Total 68 106 226 400
i) En comparant les fréquence prédites par le modèle additif (voir point g)) et celles de Tab.
1 que peut-on conclure sur l’indépendance de la tumeur de type SSM des sites. Justifier votre
réponse.
j) Donner la formule de calcul pour la déviance. Calculer la déviance du modèle additif. Quelle
lois limite suit la déviance. Déterminer le nombre des degrés de libertés.
k) Utiliser le Tab. 2 pour justifier le choix du modèle en faisant une comparaison des modèles
. Décrire les tests respectifs et spécifier le nombre de degrés de liberté associé.
Tab. 1
HMF 22 2 10 34
SSM 16 54 115 185
NOD 19 33 73 125
IND 28 56
Total 68 106 226 400
Tab. 2
Coefficient Modèle saturé Modèle additif Modèle minimal
Constant 3.091 1.754 3.507
SSM −0.318 1.694
NOD −0.147 1.302
IND −0.693 0.499
TNK −2.398 0.444
EXT −0.788 1.201
SSM × TNK 3.614
SSM × EXT 2.761
NOD × TNK 2.950
NOD × EXT 2.134
IND × TNK 2.833
IND × EXT 1.723
log -vraisemblance −29.556 −55.453 −177.16
X2 65.813
à compléter
∆D

CT-MetPredictives - Exam Ennonce+sol

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

CT-MetPredictives - Exam Ennonce+sol

Transféré par

Droits d'auteur :

Formats disponibles

CT Méthodes Prédictives

Master 1 MIS (UFR SSI, Vannes)

Donner une expression

d) Donner le modèle minimal en termes de paramètres µ, αj , βk et (αβ)j,k .

Total 68 106 226 400

C’est une densité de la famille exponentielle: pour y ≥ 0

c) Est-ce que les relations

est équivalente à la relation

µi = e−θi = e−ηi = exp (− (β0 + β1 xi )) ,

g (µi ) = − log (µi ) = β0 + β1 xi .

g) Donner l’algorithme de calcul du paramètre β = (β0 , β1 ) .

où ε est une précision donnée.

Le paramètre θj,k est interprète comme la probabilité d’une observation de type j, k.

µj,k = EYj,k , où ln µj,k = µ + αj + βk .

Ce modèle correspond a l’hypothese que le site k est le type j sont indépendantes.

Le nombre des paramètres est 12 = (J − 1) (K − 1) . La déviance D = 0 et X 2 = 0.

d) Donner le modèle minimal en termes de paramètres µ, αj , βk et (αβ)j,k .

h) Reconstituer les données manquantes du Tab. 1 à l’aide du Tab. 2. Justifier.

Total 68 106 226 400

Vous aimerez peut-être aussi