Académique Documents
Professionnel Documents
Culture Documents
Chapitre 4 Partie 1
Chapitre 4 Partie 1
Mahdi Louati
Définition
On définit la matrice design X comme suit:
1
x1 x12 . . . x1r
x1 x2 . . . xr
2 2 2 1 2 r
X = . .. .. .. = (X , X , . . . , X ),
. . . . .
xn1 xn2 . . . xnr
Définition
On définit la matrice design X comme suit:
1
x1 x12 . . . x1r
x1 x2 . . . xr
2 2 2 1 2 r
X = . .. .. .. = (X , X , . . . , X ),
. . . . .
xn1 xn2 . . . xnr
Nous avons vu dans les chapitres précédents que le modèle linéaire permet
de d’écrire une relation linéaire entre la variable d’intérêt Y et des
covariables X 1 , X 2 , . . . , X r . Cependant, utiliser le modèle linéaire requiert
le respect de postulats que nous avons décrit précédement.
Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 3 / 45
1 La relation linéaire entre y et les covariables ([P1] : E [Yi] = xi β)
implique que y puisse prendre ses valeurs dans R tout entier.
Yi = β0 + β1 xi + εi
Yi = β0 + β1 xi + εi
Yi = β0 + β1 xi + εi
Plan
Y ∼ N(X β; σ 2 In ).
Y ∼ N(X β; σ 2 In ).
Définition
Le modèle linéaire généralisé est la donnée d’une loi de probabilité pour les
Yi et d’une fonction g appelée fonction de lien telles que
Remarque
Comme dans le cas du modèle linéaire, les variables explicatives peuvent
être quantitatives (régression), qualitatives (anova) ou les deux (ancova).
Remarque
La famille exponentielle naturelle (FEN) est une famille de lois de
probabilité qui contient entre autres des lois aussi usuelles que la loi
normale, la loi de Bernoulli, la loi binomiale, la loi de Poisson, la loi
gamma... Ces lois ont en commun une écriture sous forme exponentielle
qui va permettre d’unifier la présentation des résultats.
Définition
Soit fY la densité de probabilité de la variable Y . On dit que fY appartient
à la famille exponenielle naturelle si elle s’écrit sous la forme
1
fy (y ) = exp (y θ − b(θ) + c(y , φ)) = fY (y , θ, φ) = fθ,b (y ). (1)
γ(φ)
Proposition
Si la densité fY appartient à la famille exponentielle naturelle, alors
et
V(Y ) = γ(φ)b”(θ). (3)
Démonstration
On note Y le support de la variable Y . On a
Z
fY (y , θ, φ)dy = 1.
Y
Proposition
Si la densité fY appartient à la famille exponentielle naturelle, alors
et
V(Y ) = γ(φ)b”(θ). (3)
Démonstration
On note Y le support de la variable Y . On a
Z
fY (y , θ, φ)dy = 1.
Y
Si on dérive cette expression par rapport à θ (on intervertit dérivée et
intégrale par régularité des fonctions considérées, sans démonstration). On
obtient
Z Z
∂ ∂
0 = fY (y , θ, φ)dy = fY (y , θ, φ)dy
∂θ Y Y ∂θ
Z
∂ 1
= exp (y θ − b(θ) + c(y , φ))
Y ∂θ γ(φ)
Z Z
∂ ∂
0 = fY (y , θ, φ)dy = fY (y , θ, φ)dy
∂θ Y Y ∂θ
Z
∂ 1
= exp (y θ − b(θ) + c(y , φ))
Y ∂θ γ(φ)
0
y − b (θ)
Z
1
= exp (y θ − b(θ) + c(y , φ)) dy
Y γ(φ) γ(φ)
Z Z
∂ ∂
0 = fY (y , θ, φ)dy = fY (y , θ, φ)dy
∂θ Y Y ∂θ
Z
∂ 1
= exp (y θ − b(θ) + c(y , φ))
Y ∂θ γ(φ)
0
y − b (θ)
Z
1
= exp (y θ − b(θ) + c(y , φ)) dy
Y γ(φ) γ(φ)
y − b 0 (θ)
Z
= fY (y ; θ, φ)dy
Y γ(φ)
Z Z
∂ ∂
0 = fY (y , θ, φ)dy = fY (y , θ, φ)dy
∂θ Y Y ∂θ
Z
∂ 1
= exp (y θ − b(θ) + c(y , φ))
Y ∂θ γ(φ)
0
y − b (θ)
Z
1
= exp (y θ − b(θ) + c(y , φ)) dy
Y γ(φ) γ(φ)
y − b 0 (θ)
Z
= fY (y ; θ, φ)dy
Y γ(φ)
Z
1 0
= E(Y ) − b (θ) fY (y ; θ, φ)dy .
γ(φ) Y
Z Z
∂ ∂
0 = fY (y , θ, φ)dy = fY (y , θ, φ)dy
∂θ Y Y ∂θ
Z
∂ 1
= exp (y θ − b(θ) + c(y , φ))
Y ∂θ γ(φ)
0
y − b (θ)
Z
1
= exp (y θ − b(θ) + c(y , φ)) dy
Y γ(φ) γ(φ)
y − b 0 (θ)
Z
= fY (y ; θ, φ)dy
Y γ(φ)
Z
1 0
= E(Y ) − b (θ) fY (y ; θ, φ)dy .
γ(φ) Y
On obtient ainsi
Z
0
E(Y ) = b (θ) fY (y ; θ, φ)dy = b 0 (θ).
|Y {z }
1
Exemple
On considère la loi exponentielle
fY (y ) = λe −λy 1{y >0} .
Exemple
On considère la loi exponentielle
fY (y ) = λe −λy 1{y >0} .
Pour tout y > 0, on peut écrire
fY (y ) = e y (−λ)+log(λ)
Exemple
On considère la loi exponentielle
fY (y ) = λe −λy 1{y >0} .
Pour tout y > 0, on peut écrire
1
fY (y ) = e y (−λ)+log(λ) = exp (y θ − b(θ) + c(y , φ)) .
γ(φ)
Par identification, on déduit que
θ = −λ et b(θ) = − log(λ) = − log(−θ), avec γ(φ) = 1.
Exemple
On considère la loi exponentielle
fY (y ) = λe −λy 1{y >0} .
Pour tout y > 0, on peut écrire
1
fY (y ) = e y (−λ)+log(λ) = exp (y θ − b(θ) + c(y , φ)) .
γ(φ)
Par identification, on déduit que
θ = −λ et b(θ) = − log(λ) = − log(−θ), avec γ(φ) = 1.
Par conséquent, on retrouve
1 1 1
E[Y ] = b 0 (θ) = = et V[Y ] = 2 .
−θ λ λ
Remarques
Ecrire un modèle linéaire généralisé requiert le choix de deux éléments.
Remarques
Ecrire un modèle linéaire généralisé requiert le choix de deux éléments.
D’abord choisir une loi de probabilité pour les variables aléatoires Yi
au sein de la famille exponentielle naturelle.
Remarques
Ecrire un modèle linéaire généralisé requiert le choix de deux éléments.
D’abord choisir une loi de probabilité pour les variables aléatoires Yi
au sein de la famille exponentielle naturelle. Ce choix est guidé par la
nature du problème.
Remarques
Ecrire un modèle linéaire généralisé requiert le choix de deux éléments.
D’abord choisir une loi de probabilité pour les variables aléatoires Yi
au sein de la famille exponentielle naturelle. Ce choix est guidé par la
nature du problème.
Ensuite, modéliser le lien entre l’espérance des Yi et les variables
explicatives au moyen d’une fonction g inversible. i.e.,
Remarques
Ecrire un modèle linéaire généralisé requiert le choix de deux éléments.
D’abord choisir une loi de probabilité pour les variables aléatoires Yi
au sein de la famille exponentielle naturelle. Ce choix est guidé par la
nature du problème.
Ensuite, modéliser le lien entre l’espérance des Yi et les variables
explicatives au moyen d’une fonction g inversible. i.e.,
g (E(Yi )) = xi β.
Remarque
En effet, comme g (E([Yi])) = xi β et E([Yi ]) = g −1 (xi β) = b 0 (θi ). Alors,
θi = (b 0 )−1 g −1 (xi β) = xi β.
1
g (µ) = .
µ
fy (y ) = p y (1 − p)1−y
eθ
0 µ
b (θ) = = p et g (µ) = (b 0 )−1 (µ) = log .
1 + eθ 1−µ
Remarques
Le choix de la fonction de lien est une liberté supplémentaire dans la
démarche de modélisation.
Remarques
Le choix de la fonction de lien est une liberté supplémentaire dans la
démarche de modélisation.
Comme nous le verrons plus tard, le choix spécifique de la fonction de
lien canonique (ou naturel) est motivé par des considérations
théoriques.
Remarques
Le choix de la fonction de lien est une liberté supplémentaire dans la
démarche de modélisation.
Comme nous le verrons plus tard, le choix spécifique de la fonction de
lien canonique (ou naturel) est motivé par des considérations
théoriques.
En effet, il permet d’assurer la convergence de l’algorithme
d’estimation utilisé classiquement (algorithme de Newton-Raphson)
vers le maximum de vraisemblance.
Remarques
Le choix de la fonction de lien est une liberté supplémentaire dans la
démarche de modélisation.
Comme nous le verrons plus tard, le choix spécifique de la fonction de
lien canonique (ou naturel) est motivé par des considérations
théoriques.
En effet, il permet d’assurer la convergence de l’algorithme
d’estimation utilisé classiquement (algorithme de Newton-Raphson)
vers le maximum de vraisemblance.
En pratique, si aucune raison de choisir une fonction de lien spécifique
ne s’impose, le choix par défaut consiste à choisir la fonction de lien
canonique.
La Table 4.1 présente quelques modèles linéaires usuels (les plus connus).
La Table 4.1 présente quelques modèles linéaires usuels (les plus connus).
A chaque choix de la loi de Y | X = x correspond une fonction de lien
canonique g (µ) qui donne son nom à la régression.
La Table 4.1 présente quelques modèles linéaires usuels (les plus connus).
A chaque choix de la loi de Y | X = x correspond une fonction de lien
canonique g (µ) qui donne son nom à la régression.
La Table 4.1 présente quelques modèles linéaires usuels (les plus connus).
A chaque choix de la loi de Y | X = x correspond une fonction de lien
canonique g (µ) qui donne son nom à la régression.
La Table 4.1 présente quelques modèles linéaires usuels (les plus connus).
A chaque choix de la loi de Y | X = x correspond une fonction de lien
canonique g (µ) qui donne son nom à la régression.
Plan
Ainsi
θi = (b 0 )−1 ◦ g −1 (xi β) = h(xi β) (4)
où
h = (b 0 )−1 ◦ g −1 .
Ainsi
θi = (b 0 )−1 ◦ g −1 (xi β) = h(xi β) (4)
où
h = (b 0 )−1 ◦ g −1 .
Ainsi h = id si on choisit pour fonction de lien la fonction de lien
canonique.
Yi θi − b(θi )
Li (β) = l(yi , θi , φ, β) = log(fθi ,β (Yi )) = + c(Yi , φ). (5)
γ(φ)
Yi θi − b(θi )
Li (β) = l(yi , θi , φ, β) = log(fθi ,β (Yi )) = + c(Yi , φ). (5)
γ(φ)
Yi θi − b(θi )
Li (β) = l(yi , θi , φ, β) = log(fθi ,β (Yi )) = + c(Yi , φ). (5)
γ(φ)
n
∂L(β) X Yi x j h0 (xi β) − x j (b ◦ h)0 (xi β)
i i
=
∂βj γ(φ)
i=1
n
X Yi x j h0 (xi β) − x j h0 (xi β)b 0 ◦ h(xi β)
i i
=
γ(φ)
i=1
n
∂L(β) X Yi x j h0 (xi β) − x j (b ◦ h)0 (xi β)
i i
=
∂βj γ(φ)
i=1
n
X Yi x j h0 (xi β) − x j h0 (xi β)b 0 ◦ h(xi β)
i i
=
γ(φ)
i=1
n
X Yi x j h0 (xi β) − x j h0 (xi β)g −1 (xi β)
= i i
(car g −1 = b 0 ◦ h)
γ(φ)
i=1
n
X xij h0 (xi β)(Yi − g −1 (xi β))
= .
γ(φ)
Mahdi LOUATI i=1 Analyse de la variance Université Paris-Dauphine | Tunis 26 / 45
Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Equation de vraisemblance
De plus, puisque
h = (b 0 )−1 ◦ g −1 et b 0 ◦ h = b 0 ◦ (b 0 )−1 ◦ g −1 = g −1 ,
alors
De plus, puisque
h = (b 0 )−1 ◦ g −1 et b 0 ◦ h = b 0 ◦ (b 0 )−1 ◦ g −1 = g −1 ,
alors
De plus, puisque
h = (b 0 )−1 ◦ g −1 et b 0 ◦ h = b 0 ◦ (b 0 )−1 ◦ g −1 = g −1 ,
alors
De plus, puisque
h = (b 0 )−1 ◦ g −1 et b 0 ◦ h = b 0 ◦ (b 0 )−1 ◦ g −1 = g −1 ,
alors
Ainsi
h0 (xi β) (g −1 )0 (xi β)
= . (7)
γ(φ) V(Yi )
Remarque
Dans le cas particulier où g −1 = b 0 (choix de la fonction de lien
canonique), alors les équations (8) se simplifient de la façon suivante
n
X xij (Yi − g −1 (xi β))
(g −1 )0 (xi β) = 0 pour tout j ∈ {1, 2, . . . , r }
V(Yi )
i=1
n
X xij (Yi − g −1 (xi β))
(g −1 )0 (xi β) = 0 pour tout j ∈ {1, 2, . . . , r }
V(Yi )
i=1
n
X xij (Yi − b 0 (xi β))
⇐⇒ b”(xi β) = 0 car |id {z
= h} = b 0−1 ◦ g −1 .
V(Yi )
i=1 cas canonique
n
X xij (Yi − g −1 (xi β))
(g −1 )0 (xi β) = 0 pour tout j ∈ {1, 2, . . . , r }
V(Yi )
i=1
n
X xij (Yi − b 0 (xi β))
⇐⇒ b”(xi β) = 0 car |id {z
= h} = b 0−1 ◦ g −1 .
V(Yi )
i=1 cas canonique
n
X xij (Yi − b 0 (xi β))
⇐⇒ b”(θi ) = 0 car θi = h(xi β) = xi β.
V(Yi )
i=1
n
X xij (Yi − g −1 (xi β))
(g −1 )0 (xi β) = 0 pour tout j ∈ {1, 2, . . . , r }
V(Yi )
i=1
n
X xij (Yi − b 0 (xi β))
⇐⇒ b”(xi β) = 0 car |id {z
= h} = b 0−1 ◦ g −1 .
V(Yi )
i=1 cas canonique
n
X xij (Yi − b 0 (xi β))
⇐⇒ b”(θi ) = 0 car θi = h(xi β) = xi β.
V(Yi )
i=1
n
X xij (Yi − b 0 (xi β))
⇐⇒ = 0 car V(Yi ) = γ(φ)b”(θi ).
γ(φ)
i=1
n
X xij (Yi − g −1 (xi β))
(g −1 )0 (xi β) = 0 pour tout j ∈ {1, 2, . . . , r }
V(Yi )
i=1
n
X xij (Yi − b 0 (xi β))
⇐⇒ b”(xi β) = 0 car |id {z
= h} = b 0−1 ◦ g −1 .
V(Yi )
i=1 cas canonique
n
X xij (Yi − b 0 (xi β))
⇐⇒ b”(θi ) = 0 car θi = h(xi β) = xi β.
V(Yi )
i=1
n
X xij (Yi − b 0 (xi β))
⇐⇒ = 0 car V(Yi ) = γ(φ)b”(θi ).
γ(φ)
i=1
n
xij (Yi − b 0 (xi β)) = 0
X
⇐⇒
i=1
n
X xij (Yi − g −1 (xi β))
(g −1 )0 (xi β) = 0 pour tout j ∈ {1, 2, . . . , r }
V(Yi )
i=1
n
X xij (Yi − b 0 (xi β))
⇐⇒ b”(xi β) = 0 car |id {z
= h} = b 0−1 ◦ g −1 .
V(Yi )
i=1 cas canonique
n
X xij (Yi − b 0 (xi β))
⇐⇒ b”(θi ) = 0 car θi = h(xi β) = xi β.
V(Yi )
i=1
n
X xij (Yi − b 0 (xi β))
⇐⇒ = 0 car V(Yi ) = γ(φ)b”(θi ).
γ(φ)
i=1
n
xij (Yi − b 0 (xi β)) = 0
X
⇐⇒
i=1
n
xij (Yi − E[Yi | xi ]) = 0 car E[Yi] = g −1 (Xi β) = b 0 (Xi β)
X
⇐⇒
i=1
Exemple
Supposons que Yi | xi ∼ Ber (pi ) et choisissons le lien ”logit”. Alors
e xi β
µi = pi = et φ = 1 (ref. Slides 66 et 74).
1 + e xi β
Ainsi les équations de vraisemblance sont
n
e xi β
xij
X
Yi − = 0, pour tout j ∈ {1, 2, . . . , r }.
1 + e xi β
i=1
Exemple
Supposons que Yi | xi ∼ Ber (pi ) et choisissons le lien ”logit”. Alors
e xi β
µi = pi = et φ = 1 (ref. Slides 66 et 74).
1 + e xi β
Ainsi les équations de vraisemblance sont
n
e xi β
xij
X
Yi − = 0, pour tout j ∈ {1, 2, . . . , r }.
1 + e xi β
i=1
Rappel
pi
Pour la loi Bernoulli Ber (pi ), fy (y ) = exp y log 1−p i
+ log(1 − pi ) .
pi
On pose xi β = θi = log( 1−p i
) et γ(φ) = 1. Donc
e θi
pi = 1+e θi
et b(θi ) = − log(1 − pi ) = log(1 + e θi ).
Remarques
Les équations de vraisemblance n’ont pas de solution explicite en
général, sauf dans le cas où b 0 (u) = u, ce qui correspond au modèle
linéaire gaussien.
On a donc recourt à des procédures d’optimisation itératives pour
approcher la solution que nous décrivons maintenant.
Algorithme de Newton-Raphson
Principe
Supposons qu’on veut trouver un zéro d’une fonction. L’idée de
l’algorithme est de
Approcher localement la fonction par sa tangente
T = ψ(x (0) ) + ψ 0 (x (0) )(x − x (0) ).
Principe
Supposons qu’on veut trouver un zéro d’une fonction. L’idée de
l’algorithme est de
Approcher localement la fonction par sa tangente
T = ψ(x (0) ) + ψ 0 (x (0) )(x − x (0) ).
Chercher l’endroit où la tangente croise l’axe des abscisses i.e.,
ψ(x (0) ) + ψ 0 (x (0) )(x − x (0) ) = 0.
Principe
Supposons qu’on veut trouver un zéro d’une fonction. L’idée de
l’algorithme est de
Approcher localement la fonction par sa tangente
T = ψ(x (0) ) + ψ 0 (x (0) )(x − x (0) ).
Chercher l’endroit où la tangente croise l’axe des abscisses i.e.,
ψ(x (0) ) + ψ 0 (x (0) )(x − x (0) ) = 0.
Ainsi
ψ(x (0) )
x (1) = x (0) − ψ 0 (x (0) )
.
Principe
Supposons qu’on veut trouver un zéro d’une fonction. L’idée de
l’algorithme est de
Approcher localement la fonction par sa tangente
T = ψ(x (0) ) + ψ 0 (x (0) )(x − x (0) ).
Chercher l’endroit où la tangente croise l’axe des abscisses i.e.,
ψ(x (0) ) + ψ 0 (x (0) )(x − x (0) ) = 0.
Ainsi
ψ(x (0) )
x (1) = x (0) − ψ 0 (x (0) )
.
On réitére, on obtient la suite définie par
ψ(x (k) )
x (k+1) = x (k) − ψ 0 (x (k) )
Reamrques
La correction δx est en principe la quantité que l’on doit ajouter à x0
pour annuler la fonction ψ.
Reamrques
La correction δx est en principe la quantité que l’on doit ajouter à x0
pour annuler la fonction ψ.
Puisqu’on a négligé les termes d’ordre supérieur ou égal à 2 dans le
développement de Taylor, cette correction n’est pas parfaite.
Reamrques
La correction δx est en principe la quantité que l’on doit ajouter à x0
pour annuler la fonction ψ.
Puisqu’on a négligé les termes d’ordre supérieur ou égal à 2 dans le
développement de Taylor, cette correction n’est pas parfaite.
On pose
ψ (x0 )
x1 = x0 + δx = x0 − .
ψ 0 (x0 )
Reamrques
La correction δx est en principe la quantité que l’on doit ajouter à x0
pour annuler la fonction ψ.
Puisqu’on a négligé les termes d’ordre supérieur ou égal à 2 dans le
développement de Taylor, cette correction n’est pas parfaite.
On pose
ψ (x0 )
x1 = x0 + δx = x0 − .
ψ 0 (x0 )
On recommence le processus en cherchant à corriger x1 avec une
nouvelle quantité δx. On obtient alors l’algorithme suivant.
Exemple
On cherche à résoudre l’équation f (x) = exp(−x) − x = 0.
L’algorithme de la méthode de Newton-Raphson se résume à
f (xn ) exp (−xn ) − xn
xn+1 = xn −
0
= xn − .
f (xn ) − exp (−xn ) − 1
Les résultats sont compilés dans le tableau suivant à partir de x0 = 0.
Exemple
On cherche à résoudre l’équation f (x) = exp(−x) − x = 0.
L’algorithme de la méthode de Newton-Raphson se résume à
f (xn ) exp (−xn ) − xn
xn+1 = xn −
0
= xn − .
f (xn ) − exp (−xn ) − 1
Les résultats sont compilés dans le tableau suivant à partir de x0 = 0.
n xn |en | = |xn − r |
0 0.0000000 0.5671×10+0
1 0.5000000 0.6714×10−1
2 0.5663110 0.8323×10−3
3 0.5671432 0.1250×10−6
4 0.5671433 0.4097×10−9
On prend
r = 0.5671
Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 37 / 45
Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Interprétation graphique
y = f (x0 ) + f 0 (x0 ) (x − x0 ) .
f (x0 ) + f 0 (x0 ) (x − x0 ) = 0.
y = f (x0 ) + f 0 (x0 ) (x − x0 ) .
f (x0 ) + f 0 (x0 ) (x − x0 ) = 0.
Autrement dit
f (x0 )
x1 = x0 − ,
f 0 (x0 )
qui devient la nouvelle valeur estimée de la solution.
y = f (x0 ) + f 0 (x0 ) (x − x0 ) .
f (x0 ) + f 0 (x0 ) (x − x0 ) = 0.
Autrement dit
f (x0 )
x1 = x0 − ,
f 0 (x0 )
qui devient la nouvelle valeur estimée de la solution.
On reprend ensuite le même raisonnement à partir du point (x1 , f (x1 )).
Algorithme de Newton-Raphson
1 Choisir un point de départ β (0) .
Algorithme de Newton-Raphson
1 Choisir un point de départ β (0) .
2 A l’itération (k + 1): calculer
Algorithme de Newton-Raphson
1 Choisir un point de départ β (0) .
2 A l’itération (k + 1): calculer
Remarque
L’algorithme IRLS (Iterative Reweighted Least Squares) est une autre
version de cet algorithme où on choisit pour Ak l’inverse de l’information
de Fisher h i−1
Ak = − E H(L)(β (k) ) . (10)
Remarque
L’algorithme IRLS (Iterative Reweighted Least Squares) est une autre
version de cet algorithme où on choisit pour Ak l’inverse de l’information
de Fisher h i−1
Ak = − E H(L)(β (k) ) . (10)
Information de Fisher
L’information de Fisher est une notion de statistique introduite par
Ronald Aylmer Fisher dans le but de quantifier l’information relative à
un paramètre contenue dans une distribution.
Remarque
L’algorithme IRLS (Iterative Reweighted Least Squares) est une autre
version de cet algorithme où on choisit pour Ak l’inverse de l’information
de Fisher h i−1
Ak = − E H(L)(β (k) ) . (10)
Information de Fisher
L’information de Fisher est une notion de statistique introduite par
Ronald Aylmer Fisher dans le but de quantifier l’information relative à
un paramètre contenue dans une distribution.
Elle est définie comme l’espérance de l’information observée, ou
encore comme la variance de la fonction de score.
Remarque
L’algorithme IRLS (Iterative Reweighted Least Squares) est une autre
version de cet algorithme où on choisit pour Ak l’inverse de l’information
de Fisher h i−1
Ak = − E H(L)(β (k) ) . (10)
Information de Fisher
L’information de Fisher est une notion de statistique introduite par
Ronald Aylmer Fisher dans le but de quantifier l’information relative à
un paramètre contenue dans une distribution.
Elle est définie comme l’espérance de l’information observée, ou
encore comme la variance de la fonction de score.
Dans le cas multi-paramétrique, on parle de matrice d’information de
Fisher.
Définition
On appelle fonction de score la dérivée partielle de la
log-vraisemblance par rapport au paramètre θ
∂ 1 ∂f (X ; θ)
log f (X ; θ) = .
∂θ f (X ; θ) ∂θ
Définition
On appelle fonction de score la dérivée partielle de la
log-vraisemblance par rapport au paramètre θ
∂ 1 ∂f (X ; θ)
log f (X ; θ) = .
∂θ f (X ; θ) ∂θ
L’information de Fisher est le moment d’ordre deux de la fonction de
score " 2 #
∂
I (θ) = E log f (X ; θ) θ .
∂θ
Propriétés
La fonction de score a une espérance nulle.
L’information de Fisher correspond à la variance de la fonction de
score.
Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 42 / 45
Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Interprétation graphique
g = (b 0 )−1 .
g = (b 0 )−1 .
b 0 (x1 β)
b 0 (x2 β)
µ(β) = .
..
.
b 0 (xn β)
Si on pose la matrice
W (β) = diag (b”(x1 β), b”(x2 β), . . . , b”(xn β)).
Si on pose la matrice
W (β) = diag (b”(x1 β), b”(x2 β), . . . , b”(xn β)).
Alors, on peut écrire
1
H(L)(β) = − X t W (β)X . (12)
γ(φ)
Si on pose la matrice
W (β) = diag (b”(x1 β), b”(x2 β), . . . , b”(xn β)).
Alors, on peut écrire
1
H(L)(β) = − X t W (β)X . (12)
γ(φ)
Nous pouvons ainsi injecter les nouvelles expressions du Gradient et de la
Hessienne de L dans l’algorithme d’optimisation. Nous obtenons alors la
suite suivante
Si on pose la matrice
W (β) = diag (b”(x1 β), b”(x2 β), . . . , b”(xn β)).
Alors, on peut écrire
1
H(L)(β) = − X t W (β)X . (12)
γ(φ)
Nous pouvons ainsi injecter les nouvelles expressions du Gradient et de la
Hessienne de L dans l’algorithme d’optimisation. Nous obtenons alors la
suite suivante
β (k+1) = β (k) − (H(L)(β (k) ))−1 ∇L(β (k) )
Si on pose la matrice
W (β) = diag (b”(x1 β), b”(x2 β), . . . , b”(xn β)).
Alors, on peut écrire
1
H(L)(β) = − X t W (β)X . (12)
γ(φ)
Nous pouvons ainsi injecter les nouvelles expressions du Gradient et de la
Hessienne de L dans l’algorithme d’optimisation. Nous obtenons alors la
suite suivante
β (k+1) = β (k) − (H(L)(β (k) ))−1 ∇L(β (k) )
1
= β (k) + γ(φ)[X t W (β (k) )X ]−1 X t (Y − µ(β))
γ(φ)
Si on pose la matrice
W (β) = diag (b”(x1 β), b”(x2 β), . . . , b”(xn β)).
Alors, on peut écrire
1
H(L)(β) = − X t W (β)X . (12)
γ(φ)
Nous pouvons ainsi injecter les nouvelles expressions du Gradient et de la
Hessienne de L dans l’algorithme d’optimisation. Nous obtenons alors la
suite suivante
β (k+1) = β (k) − (H(L)(β (k) ))−1 ∇L(β (k) )
1
= β (k) + γ(φ)[X t W (β (k) )X ]−1 X t (Y − µ(β))
γ(φ)
= [X t W (β (k) )X ]−1 X t W (β (k) ) X β (k) + W −1 (β (k) )(Y − µ(β (k) ))
Si on pose la matrice
W (β) = diag (b”(x1 β), b”(x2 β), . . . , b”(xn β)).
Alors, on peut écrire
1
H(L)(β) = − X t W (β)X . (12)
γ(φ)
Nous pouvons ainsi injecter les nouvelles expressions du Gradient et de la
Hessienne de L dans l’algorithme d’optimisation. Nous obtenons alors la
suite suivante
β (k+1) = β (k) − (H(L)(β (k) ))−1 ∇L(β (k) )
1
= β (k) + γ(φ)[X t W (β (k) )X ]−1 X t (Y − µ(β))
γ(φ)
= [X t W (β (k) )X ]−1 X t W (β (k) ) X β (k) + W −1 (β (k) )(Y − µ(β (k) ))
= [X t W (β (k) )X ]−1 X t W (β (k) )Z (k) ,
Si on pose la matrice
W (β) = diag (b”(x1 β), b”(x2 β), . . . , b”(xn β)).
Alors, on peut écrire
1
H(L)(β) = − X t W (β)X . (12)
γ(φ)
Nous pouvons ainsi injecter les nouvelles expressions du Gradient et de la
Hessienne de L dans l’algorithme d’optimisation. Nous obtenons alors la
suite suivante
β (k+1) = β (k) − (H(L)(β (k) ))−1 ∇L(β (k) )
1
= β (k) + γ(φ)[X t W (β (k) )X ]−1 X t (Y − µ(β))
γ(φ)
= [X t W (β (k) )X ]−1 X t W (β (k) ) X β (k) + W −1 (β (k) )(Y − µ(β (k) ))
= [X t W (β (k) )X ]−1 X t W (β (k) )Z (k) ,
avec Z (k) = X β (k) + W −1 (β (k) )(Y − µ(β (k) )).
Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 45 / 45