Académique Documents
Professionnel Documents
Culture Documents
Exercice 1.
a) Soit Yi , i = 1, ..., n une suite des observations indépendantes et Xi = (Xi,1 , ..., Xi,p ) , i =
1, ..., n une suite des covariables. Donner la définition du modèle linéaire généralisé.
Supposons que les observations Yi représentent les durées de vie de patients souffrant de leucémie
et xi représente la quantité des globules blanches dans le sang. Supposons que chaque Yi suit une
θi
loi exponentielle P (Yi ≤ y) = 1 − e−ye , y ≥ 0 où θi ∈ (−∞, ∞) est un paramètre inconnu.
b) Donner la densité de Yi . Est ce-que cette densité forme une famille exponentielle? Donner
l’espérance µi = EYi et la variance V ar (Yi ) .
c) Est-ce que les relations
θi = ηi , où ηi = β0 + β1 xi
définissent un modèle linéaire généralisé? Si oui, donner la fonction lien g respective. Utiliser la
définition du point a) pour justifier votre réponse.
∂
d) Calculer la fonction de log-vraisemblance l comme fonction de β0 et β1 . Calculer ∂β0 l et
∂
∂β1 l.
e) Rappelons
! que pour le modèle linéaire généralisé du point a) la fonction score U (β) =
U1
est donnée par
U2
n
X Yi − µi ∂µj
Uj = · · Xi,j , j = 1, ..., p,
i=1
V ar (Yi ) ∂ηj
∂µj
où µj = EYj et ηj = β0 + β1 xi . Calculer ∂ηj . A partir de cette équation, donner une expression
de Uj en fonction de β0 , β1 .
f) Rappelons que la matrice d’information est donnée par I (β) = (Ijk )j,k=1,...,p , où
n 2
X Xi,j Xi,k ∂µj
Ijk = · , j, k = 1, ..., p.
i=1
V ar (Yi ) ∂ηj
a) Notons µj,k = EYj,k et θj,k = µj,k /n. Donner une formule pour la distribution conjointe des
observations Yj,k . Justifier. Quelle est l’interprétation du paramètre θj,k .
b) On souhaite déterminer si il existe une association entre le site k et le type de tumeur j. Pour
P P
cela on ajuste le modèle θj,k = θj· ×θ·k , où θj· = k θjk et θ·k = j θjk . A l’échelle logarithmique
on note µ = ln n et αj = ln θj· , βk = ln θ·k . Donnes le modèle linéaire généralisé respectif en
termes αk , βk et µ. A quelle hypothèse correspond ce modèle (dit additif)?
c) Donner le modèle saturé en termes de paramètres µ, αj , βk et (αβ)j,k en analogie avec
l’analyse de variance à deux facteurs. Combien des paramètres a le modèle saturé. Quelle est la
valeur de la déviance D et de la statistique X 2 de Pearson pour le modèle saturé.
IND 28 56
à compléter à compléter
Tab. 2
Coefficient Modèle saturé Modèle additif Modèle minimal
Constant 3.091 1.754 3.507
SSM −0.318 1.694
NOD −0.147 1.302
IND −0.693 0.499
TNK −2.398 0.444
EXT −0.788 1.201
SSM × TNK 3.614
SSM × EXT 2.761
NOD × TNK 2.950
NOD × EXT 2.134
IND × TNK 2.833
IND × EXT 1.723
log -vraisemblance −29.556 −55.453 −177.16
X2 65.813
à compléter
∆D
à compléter à compléter
CORRECTIONS
Exercice 1.
a) Soit Yi , i = 1, ..., n une suite des observations indépendantes et Xi = (Xi,1 , ..., Xi,p ) , i =
1, ..., n une suite des covariables. Donner la définition du modèle linéaire généralisé.
Correction: Voir TD
Supposons que les observations Yi représentent les durées de vie de patients souffrant de leucémie
et xi représente la quantité des globules blanches dans le sang. Supposons que chaque Yi suit une
θi
loi exponentielle P (Yi ≤ y) = 1 − e−ye , y ≥ 0 où θi ∈ (−∞, ∞) est un paramètre inconnu.
b) Donner la densité de Yi . Est ce-que cette densité forme une famille exponentielle? Donner
l’espérance µi = EYi et la variance V ar (Yi ) .
Correction b):
La densité de Yi est donnée par
θi θi
fθi (y) = eθi e−ye = eθi −ye , y ≥ 1.
1
µi = EYi = = e−θi
eθ i
1
V ar (Yi ) = 2 = e−2θi .
(eθi )
définissent un modèle linéaire généralisé? Si oui, donner la fonction lien g respective. Utiliser la
définition du point a) pour justifier votre réponse.
Correction c):
La relation
θ i = β0 + β1 x i
ce qui défini un modèle linéaire généralisé avec la fonction de lien g (x) = − ln (x) :
∂
d) Calculer la fonction de log-vraisemblance l comme fonction de β0 et β1 . Calculer ∂β0 l et
∂
∂β1 l.
Correction:
La fonction de log-vraisemblance:
n n
X X θi
l = ln fθi (Yi ) = ln eθi −Yi e
i=1 i=1
n
X n
X n
X n
X n
X
θi
Yi eθi = Yi eηi ,
= θi − Yi e = θi − ηi −
i=1 i=1 i=1 i=1 i=1
où ηi = β0 + β1 xi . Donc
n
X n
X
l= (β0 + β1 xi ) − Yi e−β0 −β1 xi .
i=1 i=1
n
∂ X
1 + Yi e−β0 −β1 xi
l (β0 , β1 ) =
∂β0 i=1
n
∂ X
1 + Yi e−β0 −β1 xi xi
l (β0 , β1 ) =
∂β1 i=1
e) Rappelons
! que pour le modèle linéaire généralisé du point a) la fonction score U (β) =
U1
est donnée par
U2
n
X Yi − µi ∂µj
Uj = · · Xi,j , j = 1, ..., p,
i=1
V ar (Yi ) ∂ηj
∂µj
où µj = EYj et ηj = β0 + β1 xi . Calculer ∂ηj . A partir de cette equation, donner une expression
de Uj en fonction de β0 , β1 .
Correction:
∂µj
On a V ar (Yi ) = e−2ηi and µj = EYj = e−ηi . Alors ∂ηj = −e−ηj . La statistique du score:
n
X Yi − e−ηi
· −e−ηj · Xi,1
U1 =
i=1
e−2ηj
n
X
Yi − e−ηi eηi · 1
= −
i=1
n
X
= (1 − Yi eηi )
i=1
n
X
= (1 − Yi eηi ) ,
i=1
n
X Yi − e−ηi
· −e−ηj · xi
U2 =
i=1
e−2ηj
n
X
= (1 − Yi eηi ) xi .
i=1
f) Rappelons que la matrice d’information est donnée par I (β) = (Ijk )j,k=1,...,p , où
n 2
X Xi,j Xi,k ∂µj
Ijk = · , j, k = 1, ..., p.
i=1
V ar (Yi ) ∂ηj
Donner une expression
2 de la matrice d’information pour le modèle considéré en fonction de
β0 , β1 . Calculer E ∂β 2 l (β0 , β1 ) , E ∂β0∂∂β1 l (β0 , β1 ) et E ∂β∂ 2 l (β0 , β1 ) .
∂
0 1
Correction:
n 2 X n
X Xi,j Xi,k ∂µj 1 2
I11 (β) = · = −2ηi
· −e−ηi = n,
i=1
V ar (Yi ) ∂ηj i=1
e
n 2 X n
X Xi,j Xi,k ∂µj xi xi −ηi 2
X
x2i ,
I22 (β) = · = −2ηi
· −e =
i=1
V ar (Yi ) ∂ηj i=1
e
n 2 X n
X Xi,j Xi,k ∂µj 1 · xi 2 X
I12 (β) = · = −2η
· −e−ηi = xi .
i=1
V ar (Yi ) ∂ηj i=1
e i
3. On s’arrête quand
b(m) b(m−1)
β −β
≤ ε,
a) Notons µj,k = EYj,k et θj,k = µj,k /n. Donner une formule pour la distribution conjointe des
observations Yj,k . Justifier. Quelle est l’interprétation du paramètre θj,k .
Correction:
Soit K = 3 et J = 4. Les lignes sont multinomiales (et indépendantes). Le modèle est:
J
Y n! y yj,K
f (y|n) = θ j,1 ...θj,K .
j=1
yj,1 !...yj,K j,1
b) On souhaite déterminer si il existe une association entre le site k et le type de tumeur j. Pour
P P
cela on ajuste le modèle θj,k = θj· ×θ·k , où θj· = k θjk et θ·k = j θjk . A l’échelle logarithmique
on note µ = ln n et αj = ln θj· , βk = ln θ·k . Donnes le modèle linéaire généralisé respectif en
termes αk , βk et µ. A quelle hypothèse correspond ce modèle (dit additif).
Correction: Le modèle
e) Donner la formule de calcul de fréquences prédites µjk pour la catégorie de référence. Trouver
les fréquence prédites µjk pour la catégorie de référence pour les modèles saturé, additif et minimal.
Correction:
Les moyennes prédites sont µjk = exp µ + αj + βk + (αβ)jk . En particulier pour la catégorie
de référence on a µjk = exp (µ) et donc pour
le modèle saturé: exp (3.091) = 21.999 (égale à la fréquence observée)
le modèle additif: exp (1.754) = 5.777
le modèle minimal: exp (3.507) = 33.348
f) Donner la formule de calcul de fréquences prédites µjk pour une catégorie arbitraire (non
référentielle) pour les modèles saturé, additif et minimal. Trouver les fréquences prédites µjk pour
le type IND sur le site EXT pour les modèles saturé, additif et minimal.
Correction:
Les fréquences prédites sont µjk = exp µ + αj + βk + (αβ)jk . En particulier pour IND sur
EXT on a
modèle saturé: µjk = exp µ + αj + βk + (αβ)jk
modèle additif: µjk = exp (µ + αj + βk )
modèle minimal: µjk = exp (µ)
Le calcul numérique donne
modèle saturé: exp (3.091 − 0.693 − 0.788 + 1.723) = 28.022 (égale à la fréquence observée)
modèle additif: exp (1.754 + 0.499 + 1.201) = 31.627
modèle minimal: exp (3.507) = 33.348
g) Trouver les fréquences prédites µjk pour le type SSM sur le site HNK pour les modèles
saturé, additif et minimal.
Correction:
Les fréquences prédites sont µjk = exp (µ + αj ) car k = HNK est une catégorie de référence.
En particulier pour SSM sur TNK on a
modèle saturé: exp (3.091 − 0.318) = 16.007 (égale à la fréquence observée)
modèle additif: exp (1.754 + 1.694) = 31.437
modèle minimal: exp (3.507) = 33.348
i) En comparant les fréquence prédites par le modèle additif (voir point g)) et celles de Tab.
1 que peut-on conclure sur l’indépendance de la tumeur de type SSM des sites. Justifier votre
réponse.
j) Donner la formule de calcul pour la déviance. Calculer la déviance du modèle additif. Quelle
lois limite suit la déviance. Déterminer le nombre des degrés de libertés.
k) Utiliser le Tab. 2 pour justifier le choix du modèle en faisant une comparaison des modèles
. Décrire les tests respectifs et spécifier le nombre de degrés de liberté associé.
Tab. 1
Type de tumeur HNK TNK EXT Total
HMF 22 2 10 34
SSM 16 54 115 185
NOD 19 33 73 125
IND 28 56
à compléter à compléter
Tab. 2
Coefficient Modèle saturé Modèle additif Modèle minimal
Constant 3.091 1.754 3.507
SSM −0.318 1.694
NOD −0.147 1.302
IND −0.693 0.499
TNK −2.398 0.444
EXT −0.788 1.201
SSM × TNK 3.614
SSM × EXT 2.761
NOD × TNK 2.950
NOD × EXT 2.134
IND × TNK 2.833
IND × EXT 1.723
log -vraisemblance −29.556 −55.453 −177.16
X2 65.813
à compléter
∆D
à compléter à compléter