Chapitre 4 Partie 1

Chapitre 4: Modèles linéaires généralisés
Mahdi Louati
Université Paris-Dauphine | Tunis
Master 1 ”Actuariat & Big Data”

19 Novembre 2020
Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 1 / 45

Plan
1 Modèle linéaire généralisé

Famille exponentielle naturelle
Choix du modèle et de la fonction de lien
2 Estimation des paramètres d’un modèle linéaire généralisé par

maximum de vraisemblance
Equation de vraisemblance
Algorithme IRLS/Newton-Raphson
Interprétation graphique

On dispose de n observations indépendantes (yi , xi )i=1,2,...,n où xi ∈ Rr ,
yi ∈ Y ⊂ R pour tout i ∈ {1, 2, . . . , n}.

yi ∈ Y ⊂ R pour tout i ∈ {1, 2, . . . , n}.
Définition
On définit la matrice design X comme suit:
 1
x1 x12 . . . x1r

 x1 x2 . . . xr 
 2 2 2  1 2 r
X = . .. .. ..  = (X , X , . . . , X ),
 . . . . . 
xn1 xn2 . . . xnr
où pour tout k ∈ {1, 2, . . . , r }, X k sont les variables explicatives.

yi ∈ Y ⊂ R pour tout i ∈ {1, 2, . . . , n}.
Définition
On définit la matrice design X comme suit:
 1
x1 x12 . . . x1r

 x1 x2 . . . xr 
 2 2 2  1 2 r
X = . .. .. ..  = (X , X , . . . , X ),
 . . . . . 
xn1 xn2 . . . xnr
où pour tout k ∈ {1, 2, . . . , r }, X k sont les variables explicatives.
Nous avons vu dans les chapitres précédents que le modèle linéaire permet
de d’écrire une relation linéaire entre la variable d’intérêt Y et des
covariables X 1 , X 2 , . . . , X r . Cependant, utiliser le modèle linéaire requiert
le respect de postulats que nous avons décrit précédement.
1 La relation linéaire entre y et les covariables ([P1] : E [Yi] = xi β)
implique que y puisse prendre ses valeurs dans R tout entier.

Si, par exemple, la variable yi ∈ [0; 1] ou yi ∈ {0; 1} et que nous
utilisons le modèle linéaire classique alors nous prédirons des valeurs
dans R ce qui semble être aberrant.

2 Par ailleurs, nous avons supposé que les observations sont la
réalisation d’une variable gaussienne ([P4]). Cette hypothèse permet
d’écrire des tests et des intervalles de confiance de niveau exact.

Grace au théorème de la limite centrale, il est possible d’étendre les
résultats sur les tests au cas de résidus non-gaussien.

résultats sur les tests au cas de résidus non-gaussien. Cependant, si la
variable Y prend un nombre fini ou dénombrable de valeurs, cette
hypothèse de gaussianité n’est plus tenable.

3 Par ailleurs, ([P3]) supposait que les Yi étaient tous de même
variance,

3 Par ailleurs, ([P3]) supposait que les Yi étaient tous de même
variance, ce qui peut ne pas être le cas en général.

Exemples
Fourmis: On s’intéresse à l’influence d’une dose de poison sur la
mortalité des fourmis. Chaque observation i est décrite de la façon
suivante:

Exemples
suivante:
On observe xi la dose de poison, ni la taille du i ème groupe de fourmis
et Ni le nombre de fourmis mortes après application du poison. On
cherche à modéliser yi = Nnii en fonction de xi .

Exemples
suivante:
Comme, par construction, yi ∈ [0; 1] alors le modèle linéaire classique
Yi = β0 + β1 xi + εi
n’est pas adapté.

Exemples
suivante:

Seuil d’alerte pollution: On s’intéresse à la modélisation du
dépassement d’un seuil d’alerte à la pollution aux particules fines en
fonction des conditions climatiques.

Exemples
suivante:

Seuil d’alerte pollution: On s’intéresse à la modélisation du
dépassement d’un seuil d’alerte à la pollution aux particules fines en
fonction des conditions climatiques.
Pour cela, on note yi = 1 si le seuil est dépassé à l’observation i et 0
sinon. Dans ce cas yi ∈ {0; 1} et donc le modèle linéaire classique ne
s’applique pas.
Modèle linéaire généralisé
Plan



Le modèle linéaire généralisé (GLM) est une extension du modèle linéaire

permettant de s’affranchir des postulats [P1], [P2] et [P3] et de traiter
des observations dont la loi de probabilité appartient à une famille de lois
élargie.


élargie.
Plus précisément, soit y = (y1 , y2 , . . . , yn ) le vecteur des observations et X
la matrice des variables explicatives. Le modèle linéaire classique s’écrit
Y ∼ N(X β; σ 2 In ).


élargie.
Plus précisément, soit y = (y1 , y2 , . . . , yn ) le vecteur des observations et X
la matrice des variables explicatives. Le modèle linéaire classique s’écrit
Y ∼ N(X β; σ 2 In ).
Définition
Le modèle linéaire généralisé est la donnée d’une loi de probabilité pour les
Yi et d’une fonction g appelée fonction de lien telles que
g (E [Yi]) = xi β, pour tout i ∈ {1, 2, . . . , n}.

Cela permet d’établir une relation non linéaire entre l’espérance de la

variable à expliquer Y et les variables explicatives et d’envisager des
observations de nature variée comme des données de présence/absence, des
taux de succèes pour des traitements, des données de comptage d’espèces,
ou encore des durèes de vie ou autres variables positives dissymétriques.

Cela permet d’établir une relation non linéaire entre l’espérance de la

variable à expliquer Y et les variables explicatives et d’envisager des
observations de nature variée comme des données de présence/absence, des
taux de succèes pour des traitements, des données de comptage d’espèces,
ou encore des durèes de vie ou autres variables positives dissymétriques.
Remarque
Comme dans le cas du modèle linéaire, les variables explicatives peuvent
être quantitatives (régression), qualitatives (anova) ou les deux (ancova).

Exemple 1: loi de Bernoulli

Si pour tout i ∈ {1, 2, . . . , n}, yi ∈ {0; 1}, alors naturellement on va
utiliser la loi de Bernoulli pour modéliser yi :


Yi ∼ Ber (pi ) avec E[Yi ] = pi ∈ [0; 1].


Soit g : [0; 1] −→ R, bijective on pose g (E[Yi ]) = xi β. Ainsi


E[Yi ] = g −1 (xi β) ∈ [0; 1].


E[Yi ] = g −1 (xi β) ∈ [0; 1].
On peut choisir par exemple
eu
g −1 (u) =
1 + eu
i.e.,
p
g (p) = log( 1−p ) (p ∈ [0; 1]).


E[Yi ] = g −1 (xi β) ∈ [0; 1].
eu
g −1 (u) =
1 + eu
i.e.,
p
g (p) = log( 1−p ) (p ∈ [0; 1]).
N’importe quelle autre fonction g : [0; 1] −→ R peut être utilisée, par
exemple on peut choisir g telle que g −1 soit la fonction de répartition
d’une loi normale centrée réduite.
Exemple 2: loi de Poisson

Si pour tout i ∈ {1, 2, . . . , n}, yi ∈ N, alors on peut utiliser la loi de
Poisson pour modéliser yi :


Yi ∼ P(µi ) avec E[Yi ] = µi ∈ R+ .


On cherche g : R+ −→ R, bijective telle que


g (E[Yi ]) = xi β ⇐⇒ E[Yi ] = g −1 (xi β) ∈ R+ .


g (E[Yi ]) = xi β ⇐⇒ E[Yi ] = g −1 (xi β) ∈ R+ .
g −1 (u) = e u , i.e., g (µ) = log (µ) (µ ∈ R+ ).

Modèle linéaire généralisé Famille exponentielle naturelle
Remarque
La famille exponentielle naturelle (FEN) est une famille de lois de
probabilité qui contient entre autres des lois aussi usuelles que la loi
normale, la loi de Bernoulli, la loi binomiale, la loi de Poisson, la loi
gamma... Ces lois ont en commun une écriture sous forme exponentielle
qui va permettre d’unifier la présentation des résultats.

Définition
Soit fY la densité de probabilité de la variable Y . On dit que fY appartient
à la famille exponenielle naturelle si elle s’écrit sous la forme

1
fy (y ) = exp (y θ − b(θ) + c(y , φ)) = fY (y , θ, φ) = fθ,b (y ). (1)
γ(φ)
c est une fonction dérivable.

b est trois fois dérivable et sa dérivée première b 0 est inversible.
Le paramètre θ ∈ R est dit paramètre naturel de la loi.
φ est un paramètre dit paramètre de nuisance ou de dispersion.

Proposition
Si la densité fY appartient à la famille exponentielle naturelle, alors
E(Y ) = b 0 (θ). (2)
et
V(Y ) = γ(φ)b”(θ). (3)
Démonstration
On note Y le support de la variable Y . On a
Z
fY (y , θ, φ)dy = 1.
Y

Proposition
Si la densité fY appartient à la famille exponentielle naturelle, alors
E(Y ) = b 0 (θ). (2)
et
V(Y ) = γ(φ)b”(θ). (3)
Démonstration
On note Y le support de la variable Y . On a
Z
fY (y , θ, φ)dy = 1.
Y
Si on dérive cette expression par rapport à θ (on intervertit dérivée et
intégrale par régularité des fonctions considérées, sans démonstration). On
obtient

Z Z
∂ ∂
0 = fY (y , θ, φ)dy = fY (y , θ, φ)dy
∂θ Y Y ∂θ
Z
∂ 1
= exp (y θ − b(θ) + c(y , φ))
Y ∂θ γ(φ)

Z Z
∂ ∂
0 = fY (y , θ, φ)dy = fY (y , θ, φ)dy
∂θ Y Y ∂θ
Z
∂ 1
= exp (y θ − b(θ) + c(y , φ))
Y ∂θ γ(φ)
0

y − b (θ)
Z
1
= exp (y θ − b(θ) + c(y , φ)) dy
Y γ(φ) γ(φ)

Z Z
∂ ∂
0 = fY (y , θ, φ)dy = fY (y , θ, φ)dy
∂θ Y Y ∂θ
Z
∂ 1
= exp (y θ − b(θ) + c(y , φ))
Y ∂θ γ(φ)
0

y − b (θ)
Z
1
= exp (y θ − b(θ) + c(y , φ)) dy
Y γ(φ) γ(φ)
y − b 0 (θ)
Z
= fY (y ; θ, φ)dy
Y γ(φ)

Z Z
∂ ∂
0 = fY (y , θ, φ)dy = fY (y , θ, φ)dy
∂θ Y Y ∂θ
Z
∂ 1
= exp (y θ − b(θ) + c(y , φ))
Y ∂θ γ(φ)
0

y − b (θ)
Z
1
= exp (y θ − b(θ) + c(y , φ)) dy
Y γ(φ) γ(φ)
y − b 0 (θ)
Z
= fY (y ; θ, φ)dy
Y γ(φ)
Z
1 0
= E(Y ) − b (θ) fY (y ; θ, φ)dy .
γ(φ) Y

Z Z
∂ ∂
0 = fY (y , θ, φ)dy = fY (y , θ, φ)dy
∂θ Y Y ∂θ
Z
∂ 1
= exp (y θ − b(θ) + c(y , φ))
Y ∂θ γ(φ)
0

y − b (θ)
Z
1
= exp (y θ − b(θ) + c(y , φ)) dy
Y γ(φ) γ(φ)
y − b 0 (θ)
Z
= fY (y ; θ, φ)dy
Y γ(φ)
Z
1 0
= E(Y ) − b (θ) fY (y ; θ, φ)dy .
γ(φ) Y
On obtient ainsi
Z
0
E(Y ) = b (θ) fY (y ; θ, φ)dy = b 0 (θ).
|Y {z }
1

Dérivons une seconde fois par rapport à θ, on obtient

∂2 ∂2
Z Z
0 = fY (y , θ, φ)dy = f (y , θ, φ)dy
2 Y
∂θ2 Y Y ∂θ
∂ y − b 0 (θ)
Z
1
= exp (y θ − b(θ) + c(y , φ)) dy
Y ∂θ γ(φ) γ(φ)


∂2 ∂2
Z Z
0 = fY (y , θ, φ)dy = f (y , θ, φ)dy
2 Y
∂θ2 Y Y ∂θ
∂ y − b 0 (θ)
Z
1
= exp (y θ − b(θ) + c(y , φ)) dy
Z
1 1
= − b”(θ) exp (y θ − b(θ) + c(y , φ)) dy
γ(φ) Y γ(φ)
(y − b 0 (θ))2
Z
1
+ exp (y θ − b(θ) + c(y , φ)) dy
Y (γ(φ))2 γ(φ)


∂2 ∂2
Z Z
0 = fY (y , θ, φ)dy = f (y , θ, φ)dy
2 Y
∂θ2 Y Y ∂θ
∂ y − b 0 (θ)
Z
1
= exp (y θ − b(θ) + c(y , φ)) dy
Z
1 1
= − b”(θ) exp (y θ − b(θ) + c(y , φ)) dy
γ(φ) Y γ(φ)
(y − b 0 (θ))2
Z
1
+ exp (y θ − b(θ) + c(y , φ)) dy
Y (γ(φ))2 γ(φ)
Z
1 1
= − b”(θ) + 2
(y − E[Y ])2 fY (y , θ, φ)dy
γ(φ) (γ(φ)) Y
b”(θ) V[Y ]
= − + .
γ(φ) (γ(φ))2
D’où
V[Y ] = γ(φ)b”(θ).
Exemple
On considère la loi exponentielle
fY (y ) = λe −λy 1{y >0} .

Exemple
fY (y ) = λe −λy 1{y >0} .
Pour tout y > 0, on peut écrire
fY (y ) = e y (−λ)+log(λ)

Exemple
fY (y ) = λe −λy 1{y >0} .

1
fY (y ) = e y (−λ)+log(λ) = exp (y θ − b(θ) + c(y , φ)) .
γ(φ)
Par identification, on déduit que
θ = −λ et b(θ) = − log(λ) = − log(−θ), avec γ(φ) = 1.

Exemple
fY (y ) = λe −λy 1{y >0} .

1
fY (y ) = e y (−λ)+log(λ) = exp (y θ − b(θ) + c(y , φ)) .
γ(φ)
Par identification, on déduit que
θ = −λ et b(θ) = − log(λ) = − log(−θ), avec γ(φ) = 1.
Par conséquent, on retrouve
1 1 1
E[Y ] = b 0 (θ) = = et V[Y ] = 2 .
−θ λ λ

Modèle linéaire généralisé Choix du modèle et de la fonction de lien
Remarques
Ecrire un modèle linéaire généralisé requiert le choix de deux éléments.

Remarques
D’abord choisir une loi de probabilité pour les variables aléatoires Yi
au sein de la famille exponentielle naturelle.

Remarques
au sein de la famille exponentielle naturelle. Ce choix est guidé par la
nature du problème.

Remarques
Ensuite, modéliser le lien entre l’espérance des Yi et les variables
explicatives au moyen d’une fonction g inversible. i.e.,

Remarques
Ensuite, modéliser le lien entre l’espérance des Yi et les variables
explicatives au moyen d’une fonction g inversible. i.e.,
g (E(Yi )) = xi β.

Choix de la fonction de lien

Toute bijection de l’espace de E(Y ) dans R peut être choisie comme
fonction de lien.


fonction de lien.
Cependant, très souvent on choisit comme fonction de lien la fonction
qui transforme l’espérance E(Y ) en le paramètre naturel θ i.e.
g = (b 0 )−1 .


fonction de lien.
g = (b 0 )−1 . La fonction g ainsi définie est dite fonction de lien
canonique.


fonction de lien.
g = (b 0 )−1 . La fonction g ainsi définie est dite fonction de lien
canonique.
Remarque
En effet, comme g (E([Yi])) = xi β et E([Yi ]) = g −1 (xi β) = b 0 (θi ). Alors,
θi = (b 0 )−1 g −1 (xi β) = xi β.


Exemple 1: La loi Exponentielle
Pour la loi exponentielle, b(θ) = − log(−θ). Comme g = (b 0 )−1 et

b 0 (θ) = 1θ . Alors, on choisit
1
g (µ) = .
µ

Exemple 2: La loi de Bernoulli
Pour la loi Bernoulli, on a
fy (y ) = p y (1 − p)1−y

fy (y ) = p y (1 − p)1−y = exp(y log(p) + (1 − y ) log(1 − p))


p
= exp y log + log(1 − p) .
1−p


p
1−p
p
On pose θ = log( 1−p ) et γ(φ) = 1. Donc


p
1−p
p
eθ
p= 1+e θ
et b(θ) = − log(1 − p) = log(1 + e θ ).


p
1−p
p
eθ
p= 1+e θ
et b(θ) = − log(1 − p) = log(1 + e θ ).
Par conséquent,
eθ

0 µ
b (θ) = = p et g (µ) = (b 0 )−1 (µ) = log .
1 + eθ 1−µ

Remarques
Le choix de la fonction de lien est une liberté supplémentaire dans la
démarche de modélisation.

Remarques
Comme nous le verrons plus tard, le choix spécifique de la fonction de
lien canonique (ou naturel) est motivé par des considérations
théoriques.

Remarques
théoriques.
En effet, il permet d’assurer la convergence de l’algorithme
d’estimation utilisé classiquement (algorithme de Newton-Raphson)
vers le maximum de vraisemblance.

Remarques
théoriques.
En effet, il permet d’assurer la convergence de l’algorithme
d’estimation utilisé classiquement (algorithme de Newton-Raphson)
vers le maximum de vraisemblance.
En pratique, si aucune raison de choisir une fonction de lien spécifique
ne s’impose, le choix par défaut consiste à choisir la fonction de lien
canonique.

La Table 4.1 présente quelques modèles linéaires usuels (les plus connus).

A chaque choix de la loi de Y | X = x correspond une fonction de lien
canonique g (µ) qui donne son nom à la régression.

Loi de Y | x Bernoulli / Binomiale Poisson Gamma Gaussienne

µ
g (µ) log( 1−µ ) log(µ) − µ1 µ
Nom du lien logit log réciproque identité
Table 4.1: MLG usuels E[Y ] = µ


µ
D’autres fonctions de lien non canoniques sont utilisées en pratique.

Le lien probit: g (µ) = Φ−1 (µ) où Φ−1 (.) est la fonction de
répartition d’une gaussienne centrée réduite.


µ
D’autres fonctions de lien non canoniques sont utilisées en pratique.

Le lien probit: g (µ) = Φ−1 (µ) où Φ−1 (.) est la fonction de
répartition d’une gaussienne centrée réduite.
Le lien log − log: g (µ) = log(− log(1 − µ)) avec µ ∈]0; 1[.

Estimation des paramètres d’un modèle linéaire généralisé par
Plan



On suppose que yi est la réalisation de la variable Yi et que Yi | xi suit

une distribution dans la famille exponentielle. D’autre part, on note g la
fonction de lien utilisée
g (E[Yi ]) = xi β.


g (E[Yi ]) = xi β.
Par ailleurs on sait que,
E[Yi] = g −1 (xi β) = b 0 (θi ).
Ainsi
θi = (b 0 )−1 ◦ g −1 (xi β) = h(xi β) (4)
où
h = (b 0 )−1 ◦ g −1 .


g (E[Yi ]) = xi β.
Par ailleurs on sait que,
E[Yi] = g −1 (xi β) = b 0 (θi ).
Ainsi
θi = (b 0 )−1 ◦ g −1 (xi β) = h(xi β) (4)
où
h = (b 0 )−1 ◦ g −1 .
Ainsi h = id si on choisit pour fonction de lien la fonction de lien
canonique.

maximum de vraisemblance Equation de vraisemblance
Dans un premier temps, on va calculer la contribution de la i ème

observation (yi ; xi ), au log de la vraisemblance que l’on notera par Li (β).


Pour tout i = {1, 2, . . . , n} et par l’équation (1), il vient que
Yi θi − b(θi )
Li (β) = l(yi , θi , φ, β) = log(fθi ,β (Yi )) = + c(Yi , φ). (5)
γ(φ)
Comme les Yi sont indépendantes et θi = h(xi β), alors en utilisant (4)


Yi θi − b(θi )
γ(φ)

n
X n
X
L(β) = Li (β) = log(fθi ,β (Yi ))
i=1 i=1
n
X Yi θi − b(θi )
= + c(Yi , φ)
γ(φ)
i=1


Yi θi − b(θi )
γ(φ)

n
X n
X
L(β) = Li (β) = log(fθi ,β (Yi ))
i=1 i=1
n
X Yi θi − b(θi )
= + c(Yi , φ)
γ(φ)
i=1
n
X Yi h(xi β) − b(h(xi β))
= + c(Yi , φ). (6)
γ(φ)
i=1

Afin de trouver les équations de vraisemblance, il faut calculer

n
∂L(β) X ∂Li (β)
= pour tout j = {1, 2, . . . , r }.
∂βj ∂βj
i=1


n
= pour tout j = {1, 2, . . . , r }.
∂βj ∂βj
i=1
r
xij βj . Ainsi, en utilisant (6), on obtient
X
On rappelle que xi β =
j=1


n
= pour tout j = {1, 2, . . . , r }.
∂βj ∂βj
i=1
r
X
j=1
n
∂L(β) X Yi x j h0 (xi β) − x j (b ◦ h)0 (xi β)
i i
=
∂βj γ(φ)
i=1
n
X Yi x j h0 (xi β) − x j h0 (xi β)b 0 ◦ h(xi β)
i i
=
γ(φ)
i=1


n
= pour tout j = {1, 2, . . . , r }.
∂βj ∂βj
i=1
r
X
j=1
n
∂L(β) X Yi x j h0 (xi β) − x j (b ◦ h)0 (xi β)
i i
=
∂βj γ(φ)
i=1
n
X Yi x j h0 (xi β) − x j h0 (xi β)b 0 ◦ h(xi β)
i i
=
γ(φ)
i=1
n
X Yi x j h0 (xi β) − x j h0 (xi β)g −1 (xi β)
= i i
(car g −1 = b 0 ◦ h)
γ(φ)
i=1
n
X xij h0 (xi β)(Yi − g −1 (xi β))
= .
γ(φ)
Mahdi LOUATI i=1 Analyse de la variance Université Paris-Dauphine | Tunis 26 / 45
De plus, puisque
h = (b 0 )−1 ◦ g −1 et b 0 ◦ h = b 0 ◦ (b 0 )−1 ◦ g −1 = g −1 ,
alors
h0 (xi β) = ((b 0 )−1 ◦ g −1 )0 (xi β) = (g −1 )0 (xi β) × ((b 0 )−1 )0 ◦ g −1 (xi β)

De plus, puisque
h = (b 0 )−1 ◦ g −1 et b 0 ◦ h = b 0 ◦ (b 0 )−1 ◦ g −1 = g −1 ,
alors

(g −1 )0 (xi β)
=
b” ◦ (b 0 )−1 ◦ g −1 (xi β)

De plus, puisque
h = (b 0 )−1 ◦ g −1 et b 0 ◦ h = b 0 ◦ (b 0 )−1 ◦ g −1 = g −1 ,
alors

(g −1 )0 (xi β)
=
b” ◦ (b 0 )−1 ◦ g −1 (xi β)
(g −1 )0 (xi β) (g −1 )0 (xi β)
= = avec θi = h(xi β)
b”(h(xi β)) b”(θi )

De plus, puisque
h = (b 0 )−1 ◦ g −1 et b 0 ◦ h = b 0 ◦ (b 0 )−1 ◦ g −1 = g −1 ,
alors

(g −1 )0 (xi β)
=
b” ◦ (b 0 )−1 ◦ g −1 (xi β)
(g −1 )0 (xi β) (g −1 )0 (xi β)
= = avec θi = h(xi β)
b”(h(xi β)) b”(θi )
(g −1 )0 (xi β)
= car V(Yi ) = γ(φ)b”(θi ).
V(Yi )/γ(φ)
Ainsi
h0 (xi β) (g −1 )0 (xi β)
= . (7)
γ(φ) V(Yi )

En utilisant (7), on obtient les équations de vraisemblance suivantes

n
∂L(β) X xij h0 (xi β)(Yi − g −1 (xi β))
= , pour tout j ∈ {1, 2, . . . , r }
∂βj γ(φ)
i=1
n
X
−1 0 xij (Yi − g −1 (xi β))
= (g ) (xi β) = 0. (8)
V(Yi )
i=1

En utilisant (7), on obtient les équations de vraisemblance suivantes

n
∂L(β) X xij h0 (xi β)(Yi − g −1 (xi β))
= , pour tout j ∈ {1, 2, . . . , r }
∂βj γ(φ)
i=1
n
X
−1 0 xij (Yi − g −1 (xi β))
= (g ) (xi β) = 0. (8)
V(Yi )
i=1
Remarque
Dans le cas particulier où g −1 = b 0 (choix de la fonction de lien
canonique), alors les équations (8) se simplifient de la façon suivante

n
X xij (Yi − g −1 (xi β))
(g −1 )0 (xi β) = 0 pour tout j ∈ {1, 2, . . . , r }
V(Yi )
i=1

n
(g −1 )0 (xi β) = 0 pour tout j ∈ {1, 2, . . . , r }
V(Yi )
i=1
n
X xij (Yi − b 0 (xi β))
⇐⇒ b”(xi β) = 0 car |id {z
= h} = b 0−1 ◦ g −1 .
V(Yi )
i=1 cas canonique

n
(g −1 )0 (xi β) = 0 pour tout j ∈ {1, 2, . . . , r }
V(Yi )
i=1
n
⇐⇒ b”(xi β) = 0 car |id {z
= h} = b 0−1 ◦ g −1 .
V(Yi )
i=1 cas canonique
n
⇐⇒ b”(θi ) = 0 car θi = h(xi β) = xi β.
V(Yi )
i=1

n
(g −1 )0 (xi β) = 0 pour tout j ∈ {1, 2, . . . , r }
V(Yi )
i=1
n
⇐⇒ b”(xi β) = 0 car |id {z
= h} = b 0−1 ◦ g −1 .
V(Yi )
i=1 cas canonique
n
V(Yi )
i=1
n
⇐⇒ = 0 car V(Yi ) = γ(φ)b”(θi ).
γ(φ)
i=1

n
(g −1 )0 (xi β) = 0 pour tout j ∈ {1, 2, . . . , r }
V(Yi )
i=1
n
⇐⇒ b”(xi β) = 0 car |id {z
= h} = b 0−1 ◦ g −1 .
V(Yi )
i=1 cas canonique
n
V(Yi )
i=1
n
⇐⇒ = 0 car V(Yi ) = γ(φ)b”(θi ).
γ(φ)
i=1
n
xij (Yi − b 0 (xi β)) = 0
X
⇐⇒
i=1

n
(g −1 )0 (xi β) = 0 pour tout j ∈ {1, 2, . . . , r }
V(Yi )
i=1
n
⇐⇒ b”(xi β) = 0 car |id {z
= h} = b 0−1 ◦ g −1 .
V(Yi )
i=1 cas canonique
n
V(Yi )
i=1
n
⇐⇒ = 0 car V(Yi ) = γ(φ)b”(θi ).
γ(φ)
i=1
n
xij (Yi − b 0 (xi β)) = 0
X
⇐⇒
i=1
n
xij (Yi − E[Yi | xi ]) = 0 car E[Yi] = g −1 (Xi β) = b 0 (Xi β)
X
⇐⇒
i=1

Exemple
Supposons que Yi | xi ∼ Ber (pi ) et choisissons le lien ”logit”. Alors
e xi β
µi = pi = et φ = 1 (ref. Slides 66 et 74).
1 + e xi β
Ainsi les équations de vraisemblance sont
n
e xi β

xij
X
Yi − = 0, pour tout j ∈ {1, 2, . . . , r }.
1 + e xi β
i=1

Exemple
Supposons que Yi | xi ∼ Ber (pi ) et choisissons le lien ”logit”. Alors
e xi β
µi = pi = et φ = 1 (ref. Slides 66 et 74).
1 + e xi β
Ainsi les équations de vraisemblance sont
n
e xi β

xij
X
Yi − = 0, pour tout j ∈ {1, 2, . . . , r }.
1 + e xi β
i=1
Rappel

pi
Pour la loi Bernoulli Ber (pi ), fy (y ) = exp y log 1−p i
+ log(1 − pi ) .
pi
On pose xi β = θi = log( 1−p i
) et γ(φ) = 1. Donc
e θi
pi = 1+e θi
et b(θi ) = − log(1 − pi ) = log(1 + e θi ).

Remarques
Les équations de vraisemblance n’ont pas de solution explicite en
général, sauf dans le cas où b 0 (u) = u, ce qui correspond au modèle
linéaire gaussien.
On a donc recourt à des procédures d’optimisation itératives pour
approcher la solution que nous décrivons maintenant.

maximum de vraisemblance Algorithme IRLS/Newton-Raphson
Algorithme de Newton-Raphson
Les équations de vraisemblance sont en générales transcendantes, une

solution pour approcher l’Estimateur du Maximum de vraisemblance
(e.m.v.) est d’utiliser des procédures itératives d’optimisation.

Principe
Supposons qu’on veut trouver un zéro d’une fonction. L’idée de
l’algorithme est de
Approcher localement la fonction par sa tangente
T = ψ(x (0) ) + ψ 0 (x (0) )(x − x (0) ).

Principe
T = ψ(x (0) ) + ψ 0 (x (0) )(x − x (0) ).
Chercher l’endroit où la tangente croise l’axe des abscisses i.e.,
ψ(x (0) ) + ψ 0 (x (0) )(x − x (0) ) = 0.

Principe
T = ψ(x (0) ) + ψ 0 (x (0) )(x − x (0) ).
ψ(x (0) ) + ψ 0 (x (0) )(x − x (0) ) = 0.
Ainsi
ψ(x (0) )
x (1) = x (0) − ψ 0 (x (0) )
.

Principe
T = ψ(x (0) ) + ψ 0 (x (0) )(x − x (0) ).
ψ(x (0) ) + ψ 0 (x (0) )(x − x (0) ) = 0.
Ainsi
ψ(x (0) )
x (1) = x (0) − ψ 0 (x (0) )
.
On réitére, on obtient la suite définie par
ψ(x (k) )
x (k+1) = x (k) − ψ 0 (x (k) )
qui converge sous certaines conditions vers un zéro de la fonction.

La méthode de Newton-Raphson est l’une des méthodes les plus utilisées

pour la résolution des équations non linéaires. Elle est basée sur
l’utilisation du développement de Taylor.


Soit une équation à résoudre de la forme ψ(x) = 0.


À partir d’une valeur initiale x0 de la solution, on cherche une
correction δx telle que
ψ (x0 + δx) = 0.


ψ (x0 + δx) = 0.
En utilisant un développement de Taylor au voisinage de x = x0 ,
ψ 00 (x0 ) (δx)2 ψ (3) (x0 ) (δx)3
0 = ψ (x0 ) + ψ 0 (x0 ) δx + + + ...
2! 3!


ψ (x0 + δx) = 0.
En utilisant un développement de Taylor au voisinage de x = x0 ,
ψ 00 (x0 ) (δx)2 ψ (3) (x0 ) (δx)3
0 = ψ (x0 ) + ψ 0 (x0 ) δx + + + ...
2! 3!
Il suffit alors de négliger les termes d’ordre supérieur ou égal à 2 en δx
pour obtenir
ψ (x0 )
0 ≈ ψ (x0 ) + ψ 0 (x0 ) δx ⇔ δx = − 0 .
ψ (x0 )

Reamrques
La correction δx est en principe la quantité que l’on doit ajouter à x0
pour annuler la fonction ψ.

Reamrques
Puisqu’on a négligé les termes d’ordre supérieur ou égal à 2 dans le
développement de Taylor, cette correction n’est pas parfaite.

Reamrques
On pose
ψ (x0 )
x1 = x0 + δx = x0 − .
ψ 0 (x0 )

Reamrques
On pose
ψ (x0 )
x1 = x0 + δx = x0 − .
ψ 0 (x0 )
On recommence le processus en cherchant à corriger x1 avec une
nouvelle quantité δx. On obtient alors l’algorithme suivant.

Algorithme de la méthode Newton-Raphson

Étape 1 : Étant donné x0 une valeur estimée initiale de la solution.


Étape 2 : Étant donné , le critère d’arrêt, et N, le nombre maximal
d’itérations.


d’itérations.
f (x0 )
Étape 3 : Effectuer x1 = x0 − 0 .
f (x0 )


d’itérations.
f (x0 )
f (x0 )
Étape 4 : Si |x1 − x0 | ≤


d’itérations.
f (x0 )
f (x0 )
Étape 4 : Si |x1 − x0 | ≤
convergence atteinte.
écrire la racine est x1 .
arrêt.


d’itérations.
f (x0 )
f (x0 )
Étape 4 : Si |x1 − x0 | ≤
arrêt.
Étape 5 : Si le nombre maximal d’itérations N est atteint


d’itérations.
f (x0 )
f (x0 )
Étape 4 : Si |x1 − x0 | ≤
arrêt.
convergence non atteinte en N itérations.
arrêt.


d’itérations.
f (x0 )
f (x0 )
Étape 4 : Si |x1 − x0 | ≤
arrêt.
convergence non atteinte en N itérations.
arrêt.
Étape 6 : x0 ←− x1 et retour à l’étape 3.

Exemple
On cherche à résoudre l’équation f (x) = exp(−x) − x = 0.
L’algorithme de la méthode de Newton-Raphson se résume à
f (xn ) exp (−xn ) − xn
xn+1 = xn −
0
= xn − .
f (xn ) − exp (−xn ) − 1
Les résultats sont compilés dans le tableau suivant à partir de x0 = 0.

Exemple
On cherche à résoudre l’équation f (x) = exp(−x) − x = 0.
L’algorithme de la méthode de Newton-Raphson se résume à
f (xn ) exp (−xn ) − xn
xn+1 = xn −
0
= xn − .
f (xn ) − exp (−xn ) − 1
Les résultats sont compilés dans le tableau suivant à partir de x0 = 0.
n xn |en | = |xn − r |
0 0.0000000 0.5671×10+0
1 0.5000000 0.6714×10−1
2 0.5663110 0.8323×10−3
3 0.5671432 0.1250×10−6
4 0.5671433 0.4097×10−9
On prend
r = 0.5671
maximum de vraisemblance Interprétation graphique
Figure 1: Interprétation graphique de la méthode de Newton.

Sur cette figure, on a représenté la courbe de f , la valeur initiale x0 et la

tangente à la courbe au point (x0 , f (x0 )) qui a pour équation


y = f (x0 ) + f 0 (x0 ) (x − x0 ) .
Cette tangente coupe l’axe des x en y = 0, c’est-à-dire en
f (x0 ) + f 0 (x0 ) (x − x0 ) = 0.


y = f (x0 ) + f 0 (x0 ) (x − x0 ) .
f (x0 ) + f 0 (x0 ) (x − x0 ) = 0.
Autrement dit
f (x0 )
x1 = x0 − ,
f 0 (x0 )
qui devient la nouvelle valeur estimée de la solution.


y = f (x0 ) + f 0 (x0 ) (x − x0 ) .
f (x0 ) + f 0 (x0 ) (x − x0 ) = 0.
Autrement dit
f (x0 )
x1 = x0 − ,
f 0 (x0 )
qui devient la nouvelle valeur estimée de la solution.
On reprend ensuite le même raisonnement à partir du point (x1 , f (x1 )).

Application de Newton-Raphson: Estimation des paramètres β

On applique le principe précédent à la dérivée β 7−→ ∇L(β) (pour trouver
un maximum local), et l’algorithme de Newton-Raphson s’écrit de la façon
suivante:


suivante:
1 Choisir un point de départ β (0) .


suivante:
2 A l’itération (k + 1): calculer
β (k+1) = β (k) + Ak ∇L(β (k) ), (9)
avec Ak = −[H(β (k) )]−1 est la matrice Hessienne de L(β).


suivante:
2 A l’itération (k + 1): calculer
β (k+1) = β (k) + Ak ∇L(β (k) ), (9)
avec Ak = −[H(β (k) )]−1 est la matrice Hessienne de L(β).

3 On s’arrête lorsque
β (k+1) ≈ β (k)
ou bien
∇L(β (k+1) ) ≈ ∇L(β (k) ).
Remarque
L’algorithme IRLS (Iterative Reweighted Least Squares) est une autre
version de cet algorithme où on choisit pour Ak l’inverse de l’information
de Fisher h i−1
Ak = − E H(L)(β (k) ) . (10)

Remarque
de Fisher h i−1
Ak = − E H(L)(β (k) ) . (10)
Information de Fisher
L’information de Fisher est une notion de statistique introduite par
Ronald Aylmer Fisher dans le but de quantifier l’information relative à
un paramètre contenue dans une distribution.

Remarque
de Fisher h i−1
Ak = − E H(L)(β (k) ) . (10)
Elle est définie comme l’espérance de l’information observée, ou
encore comme la variance de la fonction de score.

Remarque
de Fisher h i−1
Ak = − E H(L)(β (k) ) . (10)
Elle est définie comme l’espérance de l’information observée, ou
encore comme la variance de la fonction de score.
Dans le cas multi-paramétrique, on parle de matrice d’information de
Fisher.

Soit f (x; θ) la distribution de vraisemblance d’une variable aléatoire X (qui

peut être multidimensionnelle), paramétrée par θ.
Définition
On appelle fonction de score la dérivée partielle de la
log-vraisemblance par rapport au paramètre θ
∂ 1 ∂f (X ; θ)
log f (X ; θ) = .
∂θ f (X ; θ) ∂θ

Soit f (x; θ) la distribution de vraisemblance d’une variable aléatoire X (qui

peut être multidimensionnelle), paramétrée par θ.
Définition
On appelle fonction de score la dérivée partielle de la
log-vraisemblance par rapport au paramètre θ
∂ 1 ∂f (X ; θ)
log f (X ; θ) = .
∂θ f (X ; θ) ∂θ
L’information de Fisher est le moment d’ordre deux de la fonction de
score " 2 #
∂
I (θ) = E log f (X ; θ) θ .
∂θ
Propriétés
La fonction de score a une espérance nulle.
L’information de Fisher correspond à la variance de la fonction de
score.
Expression de l’algorithme pour le GLM avec lien canonique

Etudions de plus près l’algorithme de Newton-Raphson lorsque la fonction
de lien choisie est la fonction de lien canonique
g = (b 0 )−1 .
On a montré que pour tout j ∈ {1, 2, . . . , r },

n
∂L(β)
(∇L(β))j = ∂βj = .
γ(φ)
i=1

Expression de l’algorithme pour le GLM avec lien canonique

Etudions de plus près l’algorithme de Newton-Raphson lorsque la fonction
de lien choisie est la fonction de lien canonique
g = (b 0 )−1 .
On a montré que pour tout j ∈ {1, 2, . . . , r },

n
∂L(β)
(∇L(β))j = ∂βj = .
γ(φ)
i=1
Par conséquent, si on pose
b 0 (x1 β)
 
 b 0 (x2 β) 
µ(β) =  .
 
..
 . 
b 0 (xn β)

Alors, on obtient l’écriture matricielle suivante

1 t
∇L(β) = γ(φ) X (Y − µ(β)).

Alors, on obtient l’écriture matricielle suivante

1 t
∇L(β) = γ(φ) X (Y − µ(β)).
Par ailleurs, soit H(L)(β) la matrice Hessienne du log de la fonction de
vraisemblance L(β), alors ses entrées sont pour tout j, k ∈ {1, 2, . . . , r },
" n #
j
∂ 2 L(β) ∂ X xi (Yi − b 0 (xi β))
[H(L)(β)]jk = =
∂βj ∂βk ∂βk γ(φ)
i=1
n
1 X
= − b”(xi β)xij xik . (11)
γ(φ)
i=1

Si on pose la matrice
W (β) = diag (b”(x1 β), b”(x2 β), . . . , b”(xn β)).

Alors, on peut écrire
1
H(L)(β) = − X t W (β)X . (12)
γ(φ)

1
H(L)(β) = − X t W (β)X . (12)
γ(φ)
Nous pouvons ainsi injecter les nouvelles expressions du Gradient et de la
Hessienne de L dans l’algorithme d’optimisation. Nous obtenons alors la
suite suivante

1
H(L)(β) = − X t W (β)X . (12)
γ(φ)
suite suivante
β (k+1) = β (k) − (H(L)(β (k) ))−1 ∇L(β (k) )

1
H(L)(β) = − X t W (β)X . (12)
γ(φ)
suite suivante
β (k+1) = β (k) − (H(L)(β (k) ))−1 ∇L(β (k) )
1
= β (k) + γ(φ)[X t W (β (k) )X ]−1 X t (Y − µ(β))
γ(φ)

1
H(L)(β) = − X t W (β)X . (12)
γ(φ)
suite suivante
β (k+1) = β (k) − (H(L)(β (k) ))−1 ∇L(β (k) )
1
γ(φ)

= [X t W (β (k) )X ]−1 X t W (β (k) ) X β (k) + W −1 (β (k) )(Y − µ(β (k) ))

1
H(L)(β) = − X t W (β)X . (12)
γ(φ)
suite suivante
β (k+1) = β (k) − (H(L)(β (k) ))−1 ∇L(β (k) )
1
γ(φ)

= [X t W (β (k) )X ]−1 X t W (β (k) )Z (k) ,

1
H(L)(β) = − X t W (β)X . (12)
γ(φ)
suite suivante
β (k+1) = β (k) − (H(L)(β (k) ))−1 ∇L(β (k) )
1
γ(φ)

= [X t W (β (k) )X ]−1 X t W (β (k) )Z (k) ,
avec Z (k) = X β (k) + W −1 (β (k) )(Y − µ(β (k) )).

Chapitre 4 Partie 1

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Chapitre 4 Partie 1

Transféré par

Droits d'auteur :

Formats disponibles

Chapitre 4: Modèles linéaires généralisés

Université Paris-Dauphine | Tunis

Master 1 ”Actuariat & Big Data”

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 1 / 45

1 Modèle linéaire généralisé

2 Estimation des paramètres d’un modèle linéaire généralisé par

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 2 / 45

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 3 / 45

où pour tout k ∈ {1, 2, . . . , r }, X k sont les variables explicatives.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 3 / 45

où pour tout k ∈ {1, 2, . . . , r }, X k sont les variables explicatives.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 4 / 45

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 4 / 45

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 4 / 45

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 4 / 45

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 4 / 45

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 4 / 45

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 4 / 45

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 5 / 45

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 5 / 45

n’est pas adapté.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 5 / 45

n’est pas adapté.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 5 / 45

n’est pas adapté.

1 Modèle linéaire généralisé

2 Estimation des paramètres d’un modèle linéaire généralisé par

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 6 / 45

Le modèle linéaire généralisé (GLM) est une extension du modèle linéaire

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 7 / 45

Le modèle linéaire généralisé (GLM) est une extension du modèle linéaire

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 7 / 45

Le modèle linéaire généralisé (GLM) est une extension du modèle linéaire

g (E [Yi]) = xi β, pour tout i ∈ {1, 2, . . . , n}.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 7 / 45

Cela permet d’établir une relation non linéaire entre l’espérance de la

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 8 / 45

Cela permet d’établir une relation non linéaire entre l’espérance de la

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 8 / 45

Exemple 1: loi de Bernoulli

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 9 / 45

Exemple 1: loi de Bernoulli

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 9 / 45

Exemple 1: loi de Bernoulli

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 9 / 45

Exemple 1: loi de Bernoulli

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 9 / 45

Exemple 1: loi de Bernoulli

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 9 / 45

Exemple 1: loi de Bernoulli

Exemple 2: loi de Poisson

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 10 / 45

Exemple 2: loi de Poisson

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 10 / 45

Exemple 2: loi de Poisson

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 10 / 45

Exemple 2: loi de Poisson

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 10 / 45

Exemple 2: loi de Poisson

g −1 (u) = e u , i.e., g (µ) = log (µ) (µ ∈ R+ ).

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 10 / 45

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 11 / 45

c est une fonction dérivable.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 12 / 45