Vous êtes sur la page 1sur 153

Chapitre 4: Modèles linéaires généralisés

Mahdi Louati

Université Paris-Dauphine | Tunis

Master 1 ”Actuariat & Big Data”


19 Novembre 2020

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 1 / 45


Plan

1 Modèle linéaire généralisé


Famille exponentielle naturelle
Choix du modèle et de la fonction de lien

2 Estimation des paramètres d’un modèle linéaire généralisé par


maximum de vraisemblance
Equation de vraisemblance
Algorithme IRLS/Newton-Raphson
Interprétation graphique

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 2 / 45


On dispose de n observations indépendantes (yi , xi )i=1,2,...,n où xi ∈ Rr ,
yi ∈ Y ⊂ R pour tout i ∈ {1, 2, . . . , n}.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 3 / 45


On dispose de n observations indépendantes (yi , xi )i=1,2,...,n où xi ∈ Rr ,
yi ∈ Y ⊂ R pour tout i ∈ {1, 2, . . . , n}.

Définition
On définit la matrice design X comme suit:
 1
x1 x12 . . . x1r

 x1 x2 . . . xr 
 2 2 2  1 2 r
X = . .. .. ..  = (X , X , . . . , X ),
 . . . . . 
xn1 xn2 . . . xnr

où pour tout k ∈ {1, 2, . . . , r }, X k sont les variables explicatives.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 3 / 45


On dispose de n observations indépendantes (yi , xi )i=1,2,...,n où xi ∈ Rr ,
yi ∈ Y ⊂ R pour tout i ∈ {1, 2, . . . , n}.

Définition
On définit la matrice design X comme suit:
 1
x1 x12 . . . x1r

 x1 x2 . . . xr 
 2 2 2  1 2 r
X = . .. .. ..  = (X , X , . . . , X ),
 . . . . . 
xn1 xn2 . . . xnr

où pour tout k ∈ {1, 2, . . . , r }, X k sont les variables explicatives.

Nous avons vu dans les chapitres précédents que le modèle linéaire permet
de d’écrire une relation linéaire entre la variable d’intérêt Y et des
covariables X 1 , X 2 , . . . , X r . Cependant, utiliser le modèle linéaire requiert
le respect de postulats que nous avons décrit précédement.
Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 3 / 45
1 La relation linéaire entre y et les covariables ([P1] : E [Yi] = xi β)
implique que y puisse prendre ses valeurs dans R tout entier.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 4 / 45


1 La relation linéaire entre y et les covariables ([P1] : E [Yi] = xi β)
implique que y puisse prendre ses valeurs dans R tout entier.
Si, par exemple, la variable yi ∈ [0; 1] ou yi ∈ {0; 1} et que nous
utilisons le modèle linéaire classique alors nous prédirons des valeurs
dans R ce qui semble être aberrant.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 4 / 45


1 La relation linéaire entre y et les covariables ([P1] : E [Yi] = xi β)
implique que y puisse prendre ses valeurs dans R tout entier.
Si, par exemple, la variable yi ∈ [0; 1] ou yi ∈ {0; 1} et que nous
utilisons le modèle linéaire classique alors nous prédirons des valeurs
dans R ce qui semble être aberrant.
2 Par ailleurs, nous avons supposé que les observations sont la
réalisation d’une variable gaussienne ([P4]). Cette hypothèse permet
d’écrire des tests et des intervalles de confiance de niveau exact.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 4 / 45


1 La relation linéaire entre y et les covariables ([P1] : E [Yi] = xi β)
implique que y puisse prendre ses valeurs dans R tout entier.
Si, par exemple, la variable yi ∈ [0; 1] ou yi ∈ {0; 1} et que nous
utilisons le modèle linéaire classique alors nous prédirons des valeurs
dans R ce qui semble être aberrant.
2 Par ailleurs, nous avons supposé que les observations sont la
réalisation d’une variable gaussienne ([P4]). Cette hypothèse permet
d’écrire des tests et des intervalles de confiance de niveau exact.
Grace au théorème de la limite centrale, il est possible d’étendre les
résultats sur les tests au cas de résidus non-gaussien.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 4 / 45


1 La relation linéaire entre y et les covariables ([P1] : E [Yi] = xi β)
implique que y puisse prendre ses valeurs dans R tout entier.
Si, par exemple, la variable yi ∈ [0; 1] ou yi ∈ {0; 1} et que nous
utilisons le modèle linéaire classique alors nous prédirons des valeurs
dans R ce qui semble être aberrant.
2 Par ailleurs, nous avons supposé que les observations sont la
réalisation d’une variable gaussienne ([P4]). Cette hypothèse permet
d’écrire des tests et des intervalles de confiance de niveau exact.
Grace au théorème de la limite centrale, il est possible d’étendre les
résultats sur les tests au cas de résidus non-gaussien. Cependant, si la
variable Y prend un nombre fini ou dénombrable de valeurs, cette
hypothèse de gaussianité n’est plus tenable.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 4 / 45


1 La relation linéaire entre y et les covariables ([P1] : E [Yi] = xi β)
implique que y puisse prendre ses valeurs dans R tout entier.
Si, par exemple, la variable yi ∈ [0; 1] ou yi ∈ {0; 1} et que nous
utilisons le modèle linéaire classique alors nous prédirons des valeurs
dans R ce qui semble être aberrant.
2 Par ailleurs, nous avons supposé que les observations sont la
réalisation d’une variable gaussienne ([P4]). Cette hypothèse permet
d’écrire des tests et des intervalles de confiance de niveau exact.
Grace au théorème de la limite centrale, il est possible d’étendre les
résultats sur les tests au cas de résidus non-gaussien. Cependant, si la
variable Y prend un nombre fini ou dénombrable de valeurs, cette
hypothèse de gaussianité n’est plus tenable.
3 Par ailleurs, ([P3]) supposait que les Yi étaient tous de même
variance,

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 4 / 45


1 La relation linéaire entre y et les covariables ([P1] : E [Yi] = xi β)
implique que y puisse prendre ses valeurs dans R tout entier.
Si, par exemple, la variable yi ∈ [0; 1] ou yi ∈ {0; 1} et que nous
utilisons le modèle linéaire classique alors nous prédirons des valeurs
dans R ce qui semble être aberrant.
2 Par ailleurs, nous avons supposé que les observations sont la
réalisation d’une variable gaussienne ([P4]). Cette hypothèse permet
d’écrire des tests et des intervalles de confiance de niveau exact.
Grace au théorème de la limite centrale, il est possible d’étendre les
résultats sur les tests au cas de résidus non-gaussien. Cependant, si la
variable Y prend un nombre fini ou dénombrable de valeurs, cette
hypothèse de gaussianité n’est plus tenable.
3 Par ailleurs, ([P3]) supposait que les Yi étaient tous de même
variance, ce qui peut ne pas être le cas en général.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 4 / 45


Exemples
Fourmis: On s’intéresse à l’influence d’une dose de poison sur la
mortalité des fourmis. Chaque observation i est décrite de la façon
suivante:

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 5 / 45


Exemples
Fourmis: On s’intéresse à l’influence d’une dose de poison sur la
mortalité des fourmis. Chaque observation i est décrite de la façon
suivante:
On observe xi la dose de poison, ni la taille du i ème groupe de fourmis
et Ni le nombre de fourmis mortes après application du poison. On
cherche à modéliser yi = Nnii en fonction de xi .

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 5 / 45


Exemples
Fourmis: On s’intéresse à l’influence d’une dose de poison sur la
mortalité des fourmis. Chaque observation i est décrite de la façon
suivante:
On observe xi la dose de poison, ni la taille du i ème groupe de fourmis
et Ni le nombre de fourmis mortes après application du poison. On
cherche à modéliser yi = Nnii en fonction de xi .
Comme, par construction, yi ∈ [0; 1] alors le modèle linéaire classique

Yi = β0 + β1 xi + εi

n’est pas adapté.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 5 / 45


Exemples
Fourmis: On s’intéresse à l’influence d’une dose de poison sur la
mortalité des fourmis. Chaque observation i est décrite de la façon
suivante:
On observe xi la dose de poison, ni la taille du i ème groupe de fourmis
et Ni le nombre de fourmis mortes après application du poison. On
cherche à modéliser yi = Nnii en fonction de xi .
Comme, par construction, yi ∈ [0; 1] alors le modèle linéaire classique

Yi = β0 + β1 xi + εi

n’est pas adapté.


Seuil d’alerte pollution: On s’intéresse à la modélisation du
dépassement d’un seuil d’alerte à la pollution aux particules fines en
fonction des conditions climatiques.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 5 / 45


Exemples
Fourmis: On s’intéresse à l’influence d’une dose de poison sur la
mortalité des fourmis. Chaque observation i est décrite de la façon
suivante:
On observe xi la dose de poison, ni la taille du i ème groupe de fourmis
et Ni le nombre de fourmis mortes après application du poison. On
cherche à modéliser yi = Nnii en fonction de xi .
Comme, par construction, yi ∈ [0; 1] alors le modèle linéaire classique

Yi = β0 + β1 xi + εi

n’est pas adapté.


Seuil d’alerte pollution: On s’intéresse à la modélisation du
dépassement d’un seuil d’alerte à la pollution aux particules fines en
fonction des conditions climatiques.
Pour cela, on note yi = 1 si le seuil est dépassé à l’observation i et 0
sinon. Dans ce cas yi ∈ {0; 1} et donc le modèle linéaire classique ne
s’applique pas.
Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 5 / 45
Modèle linéaire généralisé

Plan

1 Modèle linéaire généralisé


Famille exponentielle naturelle
Choix du modèle et de la fonction de lien

2 Estimation des paramètres d’un modèle linéaire généralisé par


maximum de vraisemblance
Equation de vraisemblance
Algorithme IRLS/Newton-Raphson
Interprétation graphique

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 6 / 45


Modèle linéaire généralisé

Le modèle linéaire généralisé (GLM) est une extension du modèle linéaire


permettant de s’affranchir des postulats [P1], [P2] et [P3] et de traiter
des observations dont la loi de probabilité appartient à une famille de lois
élargie.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 7 / 45


Modèle linéaire généralisé

Le modèle linéaire généralisé (GLM) est une extension du modèle linéaire


permettant de s’affranchir des postulats [P1], [P2] et [P3] et de traiter
des observations dont la loi de probabilité appartient à une famille de lois
élargie.
Plus précisément, soit y = (y1 , y2 , . . . , yn ) le vecteur des observations et X
la matrice des variables explicatives. Le modèle linéaire classique s’écrit

Y ∼ N(X β; σ 2 In ).

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 7 / 45


Modèle linéaire généralisé

Le modèle linéaire généralisé (GLM) est une extension du modèle linéaire


permettant de s’affranchir des postulats [P1], [P2] et [P3] et de traiter
des observations dont la loi de probabilité appartient à une famille de lois
élargie.
Plus précisément, soit y = (y1 , y2 , . . . , yn ) le vecteur des observations et X
la matrice des variables explicatives. Le modèle linéaire classique s’écrit

Y ∼ N(X β; σ 2 In ).

Définition
Le modèle linéaire généralisé est la donnée d’une loi de probabilité pour les
Yi et d’une fonction g appelée fonction de lien telles que

g (E [Yi]) = xi β, pour tout i ∈ {1, 2, . . . , n}.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 7 / 45


Modèle linéaire généralisé

Cela permet d’établir une relation non linéaire entre l’espérance de la


variable à expliquer Y et les variables explicatives et d’envisager des
observations de nature variée comme des données de présence/absence, des
taux de succèes pour des traitements, des données de comptage d’espèces,
ou encore des durèes de vie ou autres variables positives dissymétriques.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 8 / 45


Modèle linéaire généralisé

Cela permet d’établir une relation non linéaire entre l’espérance de la


variable à expliquer Y et les variables explicatives et d’envisager des
observations de nature variée comme des données de présence/absence, des
taux de succèes pour des traitements, des données de comptage d’espèces,
ou encore des durèes de vie ou autres variables positives dissymétriques.

Remarque
Comme dans le cas du modèle linéaire, les variables explicatives peuvent
être quantitatives (régression), qualitatives (anova) ou les deux (ancova).

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 8 / 45


Modèle linéaire généralisé

Exemple 1: loi de Bernoulli


Si pour tout i ∈ {1, 2, . . . , n}, yi ∈ {0; 1}, alors naturellement on va
utiliser la loi de Bernoulli pour modéliser yi :

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 9 / 45


Modèle linéaire généralisé

Exemple 1: loi de Bernoulli


Si pour tout i ∈ {1, 2, . . . , n}, yi ∈ {0; 1}, alors naturellement on va
utiliser la loi de Bernoulli pour modéliser yi :
Yi ∼ Ber (pi ) avec E[Yi ] = pi ∈ [0; 1].

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 9 / 45


Modèle linéaire généralisé

Exemple 1: loi de Bernoulli


Si pour tout i ∈ {1, 2, . . . , n}, yi ∈ {0; 1}, alors naturellement on va
utiliser la loi de Bernoulli pour modéliser yi :
Yi ∼ Ber (pi ) avec E[Yi ] = pi ∈ [0; 1].
Soit g : [0; 1] −→ R, bijective on pose g (E[Yi ]) = xi β. Ainsi

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 9 / 45


Modèle linéaire généralisé

Exemple 1: loi de Bernoulli


Si pour tout i ∈ {1, 2, . . . , n}, yi ∈ {0; 1}, alors naturellement on va
utiliser la loi de Bernoulli pour modéliser yi :
Yi ∼ Ber (pi ) avec E[Yi ] = pi ∈ [0; 1].
Soit g : [0; 1] −→ R, bijective on pose g (E[Yi ]) = xi β. Ainsi
E[Yi ] = g −1 (xi β) ∈ [0; 1].

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 9 / 45


Modèle linéaire généralisé

Exemple 1: loi de Bernoulli


Si pour tout i ∈ {1, 2, . . . , n}, yi ∈ {0; 1}, alors naturellement on va
utiliser la loi de Bernoulli pour modéliser yi :
Yi ∼ Ber (pi ) avec E[Yi ] = pi ∈ [0; 1].
Soit g : [0; 1] −→ R, bijective on pose g (E[Yi ]) = xi β. Ainsi
E[Yi ] = g −1 (xi β) ∈ [0; 1].
On peut choisir par exemple
eu
g −1 (u) =
1 + eu
i.e.,
p
g (p) = log( 1−p ) (p ∈ [0; 1]).

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 9 / 45


Modèle linéaire généralisé

Exemple 1: loi de Bernoulli


Si pour tout i ∈ {1, 2, . . . , n}, yi ∈ {0; 1}, alors naturellement on va
utiliser la loi de Bernoulli pour modéliser yi :
Yi ∼ Ber (pi ) avec E[Yi ] = pi ∈ [0; 1].
Soit g : [0; 1] −→ R, bijective on pose g (E[Yi ]) = xi β. Ainsi
E[Yi ] = g −1 (xi β) ∈ [0; 1].
On peut choisir par exemple
eu
g −1 (u) =
1 + eu
i.e.,
p
g (p) = log( 1−p ) (p ∈ [0; 1]).
N’importe quelle autre fonction g : [0; 1] −→ R peut être utilisée, par
exemple on peut choisir g telle que g −1 soit la fonction de répartition
d’une loi normale centrée réduite.
Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 9 / 45
Modèle linéaire généralisé

Exemple 2: loi de Poisson


Si pour tout i ∈ {1, 2, . . . , n}, yi ∈ N, alors on peut utiliser la loi de
Poisson pour modéliser yi :

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 10 / 45


Modèle linéaire généralisé

Exemple 2: loi de Poisson


Si pour tout i ∈ {1, 2, . . . , n}, yi ∈ N, alors on peut utiliser la loi de
Poisson pour modéliser yi :
Yi ∼ P(µi ) avec E[Yi ] = µi ∈ R+ .

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 10 / 45


Modèle linéaire généralisé

Exemple 2: loi de Poisson


Si pour tout i ∈ {1, 2, . . . , n}, yi ∈ N, alors on peut utiliser la loi de
Poisson pour modéliser yi :
Yi ∼ P(µi ) avec E[Yi ] = µi ∈ R+ .
On cherche g : R+ −→ R, bijective telle que

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 10 / 45


Modèle linéaire généralisé

Exemple 2: loi de Poisson


Si pour tout i ∈ {1, 2, . . . , n}, yi ∈ N, alors on peut utiliser la loi de
Poisson pour modéliser yi :
Yi ∼ P(µi ) avec E[Yi ] = µi ∈ R+ .
On cherche g : R+ −→ R, bijective telle que
g (E[Yi ]) = xi β ⇐⇒ E[Yi ] = g −1 (xi β) ∈ R+ .

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 10 / 45


Modèle linéaire généralisé

Exemple 2: loi de Poisson


Si pour tout i ∈ {1, 2, . . . , n}, yi ∈ N, alors on peut utiliser la loi de
Poisson pour modéliser yi :
Yi ∼ P(µi ) avec E[Yi ] = µi ∈ R+ .
On cherche g : R+ −→ R, bijective telle que
g (E[Yi ]) = xi β ⇐⇒ E[Yi ] = g −1 (xi β) ∈ R+ .
On peut choisir par exemple

g −1 (u) = e u , i.e., g (µ) = log (µ) (µ ∈ R+ ).

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 10 / 45


Modèle linéaire généralisé Famille exponentielle naturelle

Remarque
La famille exponentielle naturelle (FEN) est une famille de lois de
probabilité qui contient entre autres des lois aussi usuelles que la loi
normale, la loi de Bernoulli, la loi binomiale, la loi de Poisson, la loi
gamma... Ces lois ont en commun une écriture sous forme exponentielle
qui va permettre d’unifier la présentation des résultats.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 11 / 45


Modèle linéaire généralisé Famille exponentielle naturelle

Définition
Soit fY la densité de probabilité de la variable Y . On dit que fY appartient
à la famille exponenielle naturelle si elle s’écrit sous la forme
 
1
fy (y ) = exp (y θ − b(θ) + c(y , φ)) = fY (y , θ, φ) = fθ,b (y ). (1)
γ(φ)

c est une fonction dérivable.


b est trois fois dérivable et sa dérivée première b 0 est inversible.
Le paramètre θ ∈ R est dit paramètre naturel de la loi.
φ est un paramètre dit paramètre de nuisance ou de dispersion.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 12 / 45


Modèle linéaire généralisé Famille exponentielle naturelle

Proposition
Si la densité fY appartient à la famille exponentielle naturelle, alors

E(Y ) = b 0 (θ). (2)

et
V(Y ) = γ(φ)b”(θ). (3)

Démonstration
On note Y le support de la variable Y . On a
Z
fY (y , θ, φ)dy = 1.
Y

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 13 / 45


Modèle linéaire généralisé Famille exponentielle naturelle

Proposition
Si la densité fY appartient à la famille exponentielle naturelle, alors

E(Y ) = b 0 (θ). (2)

et
V(Y ) = γ(φ)b”(θ). (3)

Démonstration
On note Y le support de la variable Y . On a
Z
fY (y , θ, φ)dy = 1.
Y
Si on dérive cette expression par rapport à θ (on intervertit dérivée et
intégrale par régularité des fonctions considérées, sans démonstration). On
obtient

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 13 / 45


Modèle linéaire généralisé Famille exponentielle naturelle

Z Z
∂ ∂
0 = fY (y , θ, φ)dy = fY (y , θ, φ)dy
∂θ Y Y ∂θ
Z  
∂ 1
= exp (y θ − b(θ) + c(y , φ))
Y ∂θ γ(φ)

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 14 / 45


Modèle linéaire généralisé Famille exponentielle naturelle

Z Z
∂ ∂
0 = fY (y , θ, φ)dy = fY (y , θ, φ)dy
∂θ Y Y ∂θ
Z  
∂ 1
= exp (y θ − b(θ) + c(y , φ))
Y ∂θ γ(φ)
0
 
y − b (θ)
Z
1
= exp (y θ − b(θ) + c(y , φ)) dy
Y γ(φ) γ(φ)

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 14 / 45


Modèle linéaire généralisé Famille exponentielle naturelle

Z Z
∂ ∂
0 = fY (y , θ, φ)dy = fY (y , θ, φ)dy
∂θ Y Y ∂θ
Z  
∂ 1
= exp (y θ − b(θ) + c(y , φ))
Y ∂θ γ(φ)
0
 
y − b (θ)
Z
1
= exp (y θ − b(θ) + c(y , φ)) dy
Y γ(φ) γ(φ)
y − b 0 (θ)
Z
= fY (y ; θ, φ)dy
Y γ(φ)

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 14 / 45


Modèle linéaire généralisé Famille exponentielle naturelle

Z Z
∂ ∂
0 = fY (y , θ, φ)dy = fY (y , θ, φ)dy
∂θ Y Y ∂θ
Z  
∂ 1
= exp (y θ − b(θ) + c(y , φ))
Y ∂θ γ(φ)
0
 
y − b (θ)
Z
1
= exp (y θ − b(θ) + c(y , φ)) dy
Y γ(φ) γ(φ)
y − b 0 (θ)
Z
= fY (y ; θ, φ)dy
Y γ(φ)
 Z 
1 0
= E(Y ) − b (θ) fY (y ; θ, φ)dy .
γ(φ) Y

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 14 / 45


Modèle linéaire généralisé Famille exponentielle naturelle

Z Z
∂ ∂
0 = fY (y , θ, φ)dy = fY (y , θ, φ)dy
∂θ Y Y ∂θ
Z  
∂ 1
= exp (y θ − b(θ) + c(y , φ))
Y ∂θ γ(φ)
0
 
y − b (θ)
Z
1
= exp (y θ − b(θ) + c(y , φ)) dy
Y γ(φ) γ(φ)
y − b 0 (θ)
Z
= fY (y ; θ, φ)dy
Y γ(φ)
 Z 
1 0
= E(Y ) − b (θ) fY (y ; θ, φ)dy .
γ(φ) Y

On obtient ainsi
Z
0
E(Y ) = b (θ) fY (y ; θ, φ)dy = b 0 (θ).
|Y {z }
1

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 14 / 45


Modèle linéaire généralisé Famille exponentielle naturelle

Dérivons une seconde fois par rapport à θ, on obtient


∂2 ∂2
Z Z
0 = fY (y , θ, φ)dy = f (y , θ, φ)dy
2 Y
∂θ2 Y Y ∂θ
∂ y − b 0 (θ)
Z   
1
= exp (y θ − b(θ) + c(y , φ)) dy
Y ∂θ γ(φ) γ(φ)

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 15 / 45


Modèle linéaire généralisé Famille exponentielle naturelle

Dérivons une seconde fois par rapport à θ, on obtient


∂2 ∂2
Z Z
0 = fY (y , θ, φ)dy = f (y , θ, φ)dy
2 Y
∂θ2 Y Y ∂θ
∂ y − b 0 (θ)
Z   
1
= exp (y θ − b(θ) + c(y , φ)) dy
Y ∂θ γ(φ) γ(φ)
Z  
1 1
= − b”(θ) exp (y θ − b(θ) + c(y , φ)) dy
γ(φ) Y γ(φ)
(y − b 0 (θ))2
Z  
1
+ exp (y θ − b(θ) + c(y , φ)) dy
Y (γ(φ))2 γ(φ)

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 15 / 45


Modèle linéaire généralisé Famille exponentielle naturelle

Dérivons une seconde fois par rapport à θ, on obtient


∂2 ∂2
Z Z
0 = fY (y , θ, φ)dy = f (y , θ, φ)dy
2 Y
∂θ2 Y Y ∂θ
∂ y − b 0 (θ)
Z   
1
= exp (y θ − b(θ) + c(y , φ)) dy
Y ∂θ γ(φ) γ(φ)
Z  
1 1
= − b”(θ) exp (y θ − b(θ) + c(y , φ)) dy
γ(φ) Y γ(φ)
(y − b 0 (θ))2
Z  
1
+ exp (y θ − b(θ) + c(y , φ)) dy
Y (γ(φ))2 γ(φ)
Z
1 1
= − b”(θ) + 2
(y − E[Y ])2 fY (y , θ, φ)dy
γ(φ) (γ(φ)) Y
b”(θ) V[Y ]
= − + .
γ(φ) (γ(φ))2
D’où
V[Y ] = γ(φ)b”(θ).
Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 15 / 45
Modèle linéaire généralisé Famille exponentielle naturelle

Exemple
On considère la loi exponentielle
fY (y ) = λe −λy 1{y >0} .

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 16 / 45


Modèle linéaire généralisé Famille exponentielle naturelle

Exemple
On considère la loi exponentielle
fY (y ) = λe −λy 1{y >0} .
Pour tout y > 0, on peut écrire

fY (y ) = e y (−λ)+log(λ)

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 16 / 45


Modèle linéaire généralisé Famille exponentielle naturelle

Exemple
On considère la loi exponentielle
fY (y ) = λe −λy 1{y >0} .
Pour tout y > 0, on peut écrire
 
1
fY (y ) = e y (−λ)+log(λ) = exp (y θ − b(θ) + c(y , φ)) .
γ(φ)
Par identification, on déduit que
θ = −λ et b(θ) = − log(λ) = − log(−θ), avec γ(φ) = 1.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 16 / 45


Modèle linéaire généralisé Famille exponentielle naturelle

Exemple
On considère la loi exponentielle
fY (y ) = λe −λy 1{y >0} .
Pour tout y > 0, on peut écrire
 
1
fY (y ) = e y (−λ)+log(λ) = exp (y θ − b(θ) + c(y , φ)) .
γ(φ)
Par identification, on déduit que
θ = −λ et b(θ) = − log(λ) = − log(−θ), avec γ(φ) = 1.
Par conséquent, on retrouve
1 1 1
E[Y ] = b 0 (θ) = = et V[Y ] = 2 .
−θ λ λ

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 16 / 45


Modèle linéaire généralisé Choix du modèle et de la fonction de lien

Remarques
Ecrire un modèle linéaire généralisé requiert le choix de deux éléments.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 17 / 45


Modèle linéaire généralisé Choix du modèle et de la fonction de lien

Remarques
Ecrire un modèle linéaire généralisé requiert le choix de deux éléments.
D’abord choisir une loi de probabilité pour les variables aléatoires Yi
au sein de la famille exponentielle naturelle.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 17 / 45


Modèle linéaire généralisé Choix du modèle et de la fonction de lien

Remarques
Ecrire un modèle linéaire généralisé requiert le choix de deux éléments.
D’abord choisir une loi de probabilité pour les variables aléatoires Yi
au sein de la famille exponentielle naturelle. Ce choix est guidé par la
nature du problème.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 17 / 45


Modèle linéaire généralisé Choix du modèle et de la fonction de lien

Remarques
Ecrire un modèle linéaire généralisé requiert le choix de deux éléments.
D’abord choisir une loi de probabilité pour les variables aléatoires Yi
au sein de la famille exponentielle naturelle. Ce choix est guidé par la
nature du problème.
Ensuite, modéliser le lien entre l’espérance des Yi et les variables
explicatives au moyen d’une fonction g inversible. i.e.,

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 17 / 45


Modèle linéaire généralisé Choix du modèle et de la fonction de lien

Remarques
Ecrire un modèle linéaire généralisé requiert le choix de deux éléments.
D’abord choisir une loi de probabilité pour les variables aléatoires Yi
au sein de la famille exponentielle naturelle. Ce choix est guidé par la
nature du problème.
Ensuite, modéliser le lien entre l’espérance des Yi et les variables
explicatives au moyen d’une fonction g inversible. i.e.,

g (E(Yi )) = xi β.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 17 / 45


Modèle linéaire généralisé Choix du modèle et de la fonction de lien

Choix de la fonction de lien


Toute bijection de l’espace de E(Y ) dans R peut être choisie comme
fonction de lien.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 18 / 45


Modèle linéaire généralisé Choix du modèle et de la fonction de lien

Choix de la fonction de lien


Toute bijection de l’espace de E(Y ) dans R peut être choisie comme
fonction de lien.
Cependant, très souvent on choisit comme fonction de lien la fonction
qui transforme l’espérance E(Y ) en le paramètre naturel θ i.e.
g = (b 0 )−1 .

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 18 / 45


Modèle linéaire généralisé Choix du modèle et de la fonction de lien

Choix de la fonction de lien


Toute bijection de l’espace de E(Y ) dans R peut être choisie comme
fonction de lien.
Cependant, très souvent on choisit comme fonction de lien la fonction
qui transforme l’espérance E(Y ) en le paramètre naturel θ i.e.
g = (b 0 )−1 . La fonction g ainsi définie est dite fonction de lien
canonique.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 18 / 45


Modèle linéaire généralisé Choix du modèle et de la fonction de lien

Choix de la fonction de lien


Toute bijection de l’espace de E(Y ) dans R peut être choisie comme
fonction de lien.
Cependant, très souvent on choisit comme fonction de lien la fonction
qui transforme l’espérance E(Y ) en le paramètre naturel θ i.e.
g = (b 0 )−1 . La fonction g ainsi définie est dite fonction de lien
canonique.

Remarque
En effet, comme g (E([Yi])) = xi β et E([Yi ]) = g −1 (xi β) = b 0 (θi ). Alors,

θi = (b 0 )−1 g −1 (xi β) = xi β.


Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 18 / 45


Modèle linéaire généralisé Choix du modèle et de la fonction de lien

Exemple 1: La loi Exponentielle

Pour la loi exponentielle, b(θ) = − log(−θ). Comme g = (b 0 )−1 et


b 0 (θ) = 1θ . Alors, on choisit

1
g (µ) = .
µ

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 19 / 45


Modèle linéaire généralisé Choix du modèle et de la fonction de lien

Exemple 2: La loi de Bernoulli

Pour la loi Bernoulli, on a

fy (y ) = p y (1 − p)1−y

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 20 / 45


Modèle linéaire généralisé Choix du modèle et de la fonction de lien

Exemple 2: La loi de Bernoulli

Pour la loi Bernoulli, on a

fy (y ) = p y (1 − p)1−y = exp(y log(p) + (1 − y ) log(1 − p))

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 20 / 45


Modèle linéaire généralisé Choix du modèle et de la fonction de lien

Exemple 2: La loi de Bernoulli

Pour la loi Bernoulli, on a

fy (y ) = p y (1 − p)1−y = exp(y log(p) + (1 − y ) log(1 − p))


   
p
= exp y log + log(1 − p) .
1−p

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 20 / 45


Modèle linéaire généralisé Choix du modèle et de la fonction de lien

Exemple 2: La loi de Bernoulli

Pour la loi Bernoulli, on a

fy (y ) = p y (1 − p)1−y = exp(y log(p) + (1 − y ) log(1 − p))


   
p
= exp y log + log(1 − p) .
1−p
p
On pose θ = log( 1−p ) et γ(φ) = 1. Donc

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 20 / 45


Modèle linéaire généralisé Choix du modèle et de la fonction de lien

Exemple 2: La loi de Bernoulli

Pour la loi Bernoulli, on a

fy (y ) = p y (1 − p)1−y = exp(y log(p) + (1 − y ) log(1 − p))


   
p
= exp y log + log(1 − p) .
1−p
p
On pose θ = log( 1−p ) et γ(φ) = 1. Donc

p= 1+e θ
et b(θ) = − log(1 − p) = log(1 + e θ ).

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 20 / 45


Modèle linéaire généralisé Choix du modèle et de la fonction de lien

Exemple 2: La loi de Bernoulli

Pour la loi Bernoulli, on a

fy (y ) = p y (1 − p)1−y = exp(y log(p) + (1 − y ) log(1 − p))


   
p
= exp y log + log(1 − p) .
1−p
p
On pose θ = log( 1−p ) et γ(φ) = 1. Donc

p= 1+e θ
et b(θ) = − log(1 − p) = log(1 + e θ ).
Par conséquent,


 
0 µ
b (θ) = = p et g (µ) = (b 0 )−1 (µ) = log .
1 + eθ 1−µ

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 20 / 45


Modèle linéaire généralisé Choix du modèle et de la fonction de lien

Remarques
Le choix de la fonction de lien est une liberté supplémentaire dans la
démarche de modélisation.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 21 / 45


Modèle linéaire généralisé Choix du modèle et de la fonction de lien

Remarques
Le choix de la fonction de lien est une liberté supplémentaire dans la
démarche de modélisation.
Comme nous le verrons plus tard, le choix spécifique de la fonction de
lien canonique (ou naturel) est motivé par des considérations
théoriques.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 21 / 45


Modèle linéaire généralisé Choix du modèle et de la fonction de lien

Remarques
Le choix de la fonction de lien est une liberté supplémentaire dans la
démarche de modélisation.
Comme nous le verrons plus tard, le choix spécifique de la fonction de
lien canonique (ou naturel) est motivé par des considérations
théoriques.
En effet, il permet d’assurer la convergence de l’algorithme
d’estimation utilisé classiquement (algorithme de Newton-Raphson)
vers le maximum de vraisemblance.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 21 / 45


Modèle linéaire généralisé Choix du modèle et de la fonction de lien

Remarques
Le choix de la fonction de lien est une liberté supplémentaire dans la
démarche de modélisation.
Comme nous le verrons plus tard, le choix spécifique de la fonction de
lien canonique (ou naturel) est motivé par des considérations
théoriques.
En effet, il permet d’assurer la convergence de l’algorithme
d’estimation utilisé classiquement (algorithme de Newton-Raphson)
vers le maximum de vraisemblance.
En pratique, si aucune raison de choisir une fonction de lien spécifique
ne s’impose, le choix par défaut consiste à choisir la fonction de lien
canonique.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 21 / 45


Modèle linéaire généralisé Choix du modèle et de la fonction de lien

La Table 4.1 présente quelques modèles linéaires usuels (les plus connus).

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 22 / 45


Modèle linéaire généralisé Choix du modèle et de la fonction de lien

La Table 4.1 présente quelques modèles linéaires usuels (les plus connus).
A chaque choix de la loi de Y | X = x correspond une fonction de lien
canonique g (µ) qui donne son nom à la régression.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 22 / 45


Modèle linéaire généralisé Choix du modèle et de la fonction de lien

La Table 4.1 présente quelques modèles linéaires usuels (les plus connus).
A chaque choix de la loi de Y | X = x correspond une fonction de lien
canonique g (µ) qui donne son nom à la régression.

Loi de Y | x Bernoulli / Binomiale Poisson Gamma Gaussienne


µ
g (µ) log( 1−µ ) log(µ) − µ1 µ
Nom du lien logit log réciproque identité
Table 4.1: MLG usuels E[Y ] = µ

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 22 / 45


Modèle linéaire généralisé Choix du modèle et de la fonction de lien

La Table 4.1 présente quelques modèles linéaires usuels (les plus connus).
A chaque choix de la loi de Y | X = x correspond une fonction de lien
canonique g (µ) qui donne son nom à la régression.

Loi de Y | x Bernoulli / Binomiale Poisson Gamma Gaussienne


µ
g (µ) log( 1−µ ) log(µ) − µ1 µ
Nom du lien logit log réciproque identité
Table 4.1: MLG usuels E[Y ] = µ

D’autres fonctions de lien non canoniques sont utilisées en pratique.


Le lien probit: g (µ) = Φ−1 (µ) où Φ−1 (.) est la fonction de
répartition d’une gaussienne centrée réduite.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 22 / 45


Modèle linéaire généralisé Choix du modèle et de la fonction de lien

La Table 4.1 présente quelques modèles linéaires usuels (les plus connus).
A chaque choix de la loi de Y | X = x correspond une fonction de lien
canonique g (µ) qui donne son nom à la régression.

Loi de Y | x Bernoulli / Binomiale Poisson Gamma Gaussienne


µ
g (µ) log( 1−µ ) log(µ) − µ1 µ
Nom du lien logit log réciproque identité
Table 4.1: MLG usuels E[Y ] = µ

D’autres fonctions de lien non canoniques sont utilisées en pratique.


Le lien probit: g (µ) = Φ−1 (µ) où Φ−1 (.) est la fonction de
répartition d’une gaussienne centrée réduite.
Le lien log − log: g (µ) = log(− log(1 − µ)) avec µ ∈]0; 1[.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 22 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance

Plan

1 Modèle linéaire généralisé


Famille exponentielle naturelle
Choix du modèle et de la fonction de lien

2 Estimation des paramètres d’un modèle linéaire généralisé par


maximum de vraisemblance
Equation de vraisemblance
Algorithme IRLS/Newton-Raphson
Interprétation graphique

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 23 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance

On suppose que yi est la réalisation de la variable Yi et que Yi | xi suit


une distribution dans la famille exponentielle. D’autre part, on note g la
fonction de lien utilisée
g (E[Yi ]) = xi β.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 24 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance

On suppose que yi est la réalisation de la variable Yi et que Yi | xi suit


une distribution dans la famille exponentielle. D’autre part, on note g la
fonction de lien utilisée
g (E[Yi ]) = xi β.
Par ailleurs on sait que,

E[Yi] = g −1 (xi β) = b 0 (θi ).

Ainsi
θi = (b 0 )−1 ◦ g −1 (xi β) = h(xi β) (4)
où
h = (b 0 )−1 ◦ g −1 .

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 24 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance

On suppose que yi est la réalisation de la variable Yi et que Yi | xi suit


une distribution dans la famille exponentielle. D’autre part, on note g la
fonction de lien utilisée
g (E[Yi ]) = xi β.
Par ailleurs on sait que,

E[Yi] = g −1 (xi β) = b 0 (θi ).

Ainsi
θi = (b 0 )−1 ◦ g −1 (xi β) = h(xi β) (4)
où
h = (b 0 )−1 ◦ g −1 .
Ainsi h = id si on choisit pour fonction de lien la fonction de lien
canonique.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 24 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Equation de vraisemblance

Dans un premier temps, on va calculer la contribution de la i ème


observation (yi ; xi ), au log de la vraisemblance que l’on notera par Li (β).

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 25 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Equation de vraisemblance

Dans un premier temps, on va calculer la contribution de la i ème


observation (yi ; xi ), au log de la vraisemblance que l’on notera par Li (β).
Pour tout i = {1, 2, . . . , n} et par l’équation (1), il vient que

Yi θi − b(θi )
Li (β) = l(yi , θi , φ, β) = log(fθi ,β (Yi )) = + c(Yi , φ). (5)
γ(φ)

Comme les Yi sont indépendantes et θi = h(xi β), alors en utilisant (4)

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 25 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Equation de vraisemblance

Dans un premier temps, on va calculer la contribution de la i ème


observation (yi ; xi ), au log de la vraisemblance que l’on notera par Li (β).
Pour tout i = {1, 2, . . . , n} et par l’équation (1), il vient que

Yi θi − b(θi )
Li (β) = l(yi , θi , φ, β) = log(fθi ,β (Yi )) = + c(Yi , φ). (5)
γ(φ)

Comme les Yi sont indépendantes et θi = h(xi β), alors en utilisant (4)


n
X n
X
L(β) = Li (β) = log(fθi ,β (Yi ))
i=1 i=1
n
X Yi θi − b(θi )
= + c(Yi , φ)
γ(φ)
i=1

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 25 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Equation de vraisemblance

Dans un premier temps, on va calculer la contribution de la i ème


observation (yi ; xi ), au log de la vraisemblance que l’on notera par Li (β).
Pour tout i = {1, 2, . . . , n} et par l’équation (1), il vient que

Yi θi − b(θi )
Li (β) = l(yi , θi , φ, β) = log(fθi ,β (Yi )) = + c(Yi , φ). (5)
γ(φ)

Comme les Yi sont indépendantes et θi = h(xi β), alors en utilisant (4)


n
X n
X
L(β) = Li (β) = log(fθi ,β (Yi ))
i=1 i=1
n
X Yi θi − b(θi )
= + c(Yi , φ)
γ(φ)
i=1
n
X Yi h(xi β) − b(h(xi β))
= + c(Yi , φ). (6)
γ(φ)
i=1

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 25 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Equation de vraisemblance

Afin de trouver les équations de vraisemblance, il faut calculer


n
∂L(β) X ∂Li (β)
= pour tout j = {1, 2, . . . , r }.
∂βj ∂βj
i=1

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 26 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Equation de vraisemblance

Afin de trouver les équations de vraisemblance, il faut calculer


n
∂L(β) X ∂Li (β)
= pour tout j = {1, 2, . . . , r }.
∂βj ∂βj
i=1
r
xij βj . Ainsi, en utilisant (6), on obtient
X
On rappelle que xi β =
j=1

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 26 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Equation de vraisemblance

Afin de trouver les équations de vraisemblance, il faut calculer


n
∂L(β) X ∂Li (β)
= pour tout j = {1, 2, . . . , r }.
∂βj ∂βj
i=1
r
xij βj . Ainsi, en utilisant (6), on obtient
X
On rappelle que xi β =
j=1

n
∂L(β) X Yi x j h0 (xi β) − x j (b ◦ h)0 (xi β)
i i
=
∂βj γ(φ)
i=1
n
X Yi x j h0 (xi β) − x j h0 (xi β)b 0 ◦ h(xi β)
i i
=
γ(φ)
i=1

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 26 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Equation de vraisemblance

Afin de trouver les équations de vraisemblance, il faut calculer


n
∂L(β) X ∂Li (β)
= pour tout j = {1, 2, . . . , r }.
∂βj ∂βj
i=1
r
xij βj . Ainsi, en utilisant (6), on obtient
X
On rappelle que xi β =
j=1

n
∂L(β) X Yi x j h0 (xi β) − x j (b ◦ h)0 (xi β)
i i
=
∂βj γ(φ)
i=1
n
X Yi x j h0 (xi β) − x j h0 (xi β)b 0 ◦ h(xi β)
i i
=
γ(φ)
i=1
n
X Yi x j h0 (xi β) − x j h0 (xi β)g −1 (xi β)
= i i
(car g −1 = b 0 ◦ h)
γ(φ)
i=1
n
X xij h0 (xi β)(Yi − g −1 (xi β))
= .
γ(φ)
Mahdi LOUATI i=1 Analyse de la variance Université Paris-Dauphine | Tunis 26 / 45
Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Equation de vraisemblance

De plus, puisque
h = (b 0 )−1 ◦ g −1 et b 0 ◦ h = b 0 ◦ (b 0 )−1 ◦ g −1 = g −1 ,
alors

h0 (xi β) = ((b 0 )−1 ◦ g −1 )0 (xi β) = (g −1 )0 (xi β) × ((b 0 )−1 )0 ◦ g −1 (xi β)

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 27 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Equation de vraisemblance

De plus, puisque
h = (b 0 )−1 ◦ g −1 et b 0 ◦ h = b 0 ◦ (b 0 )−1 ◦ g −1 = g −1 ,
alors

h0 (xi β) = ((b 0 )−1 ◦ g −1 )0 (xi β) = (g −1 )0 (xi β) × ((b 0 )−1 )0 ◦ g −1 (xi β)


(g −1 )0 (xi β)
=
b” ◦ (b 0 )−1 ◦ g −1 (xi β)

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 27 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Equation de vraisemblance

De plus, puisque
h = (b 0 )−1 ◦ g −1 et b 0 ◦ h = b 0 ◦ (b 0 )−1 ◦ g −1 = g −1 ,
alors

h0 (xi β) = ((b 0 )−1 ◦ g −1 )0 (xi β) = (g −1 )0 (xi β) × ((b 0 )−1 )0 ◦ g −1 (xi β)


(g −1 )0 (xi β)
=
b” ◦ (b 0 )−1 ◦ g −1 (xi β)
(g −1 )0 (xi β) (g −1 )0 (xi β)
= = avec θi = h(xi β)
b”(h(xi β)) b”(θi )

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 27 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Equation de vraisemblance

De plus, puisque
h = (b 0 )−1 ◦ g −1 et b 0 ◦ h = b 0 ◦ (b 0 )−1 ◦ g −1 = g −1 ,
alors

h0 (xi β) = ((b 0 )−1 ◦ g −1 )0 (xi β) = (g −1 )0 (xi β) × ((b 0 )−1 )0 ◦ g −1 (xi β)


(g −1 )0 (xi β)
=
b” ◦ (b 0 )−1 ◦ g −1 (xi β)
(g −1 )0 (xi β) (g −1 )0 (xi β)
= = avec θi = h(xi β)
b”(h(xi β)) b”(θi )
(g −1 )0 (xi β)
= car V(Yi ) = γ(φ)b”(θi ).
V(Yi )/γ(φ)

Ainsi
h0 (xi β) (g −1 )0 (xi β)
= . (7)
γ(φ) V(Yi )

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 27 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Equation de vraisemblance

En utilisant (7), on obtient les équations de vraisemblance suivantes


n
∂L(β) X xij h0 (xi β)(Yi − g −1 (xi β))
= , pour tout j ∈ {1, 2, . . . , r }
∂βj γ(φ)
i=1
n
X
−1 0 xij (Yi − g −1 (xi β))
= (g ) (xi β) = 0. (8)
V(Yi )
i=1

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 28 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Equation de vraisemblance

En utilisant (7), on obtient les équations de vraisemblance suivantes


n
∂L(β) X xij h0 (xi β)(Yi − g −1 (xi β))
= , pour tout j ∈ {1, 2, . . . , r }
∂βj γ(φ)
i=1
n
X
−1 0 xij (Yi − g −1 (xi β))
= (g ) (xi β) = 0. (8)
V(Yi )
i=1

Remarque
Dans le cas particulier où g −1 = b 0 (choix de la fonction de lien
canonique), alors les équations (8) se simplifient de la façon suivante

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 28 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Equation de vraisemblance

n
X xij (Yi − g −1 (xi β))
(g −1 )0 (xi β) = 0 pour tout j ∈ {1, 2, . . . , r }
V(Yi )
i=1

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 29 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Equation de vraisemblance

n
X xij (Yi − g −1 (xi β))
(g −1 )0 (xi β) = 0 pour tout j ∈ {1, 2, . . . , r }
V(Yi )
i=1
n
X xij (Yi − b 0 (xi β))
⇐⇒ b”(xi β) = 0 car |id {z
= h} = b 0−1 ◦ g −1 .
V(Yi )
i=1 cas canonique

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 29 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Equation de vraisemblance

n
X xij (Yi − g −1 (xi β))
(g −1 )0 (xi β) = 0 pour tout j ∈ {1, 2, . . . , r }
V(Yi )
i=1
n
X xij (Yi − b 0 (xi β))
⇐⇒ b”(xi β) = 0 car |id {z
= h} = b 0−1 ◦ g −1 .
V(Yi )
i=1 cas canonique
n
X xij (Yi − b 0 (xi β))
⇐⇒ b”(θi ) = 0 car θi = h(xi β) = xi β.
V(Yi )
i=1

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 29 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Equation de vraisemblance

n
X xij (Yi − g −1 (xi β))
(g −1 )0 (xi β) = 0 pour tout j ∈ {1, 2, . . . , r }
V(Yi )
i=1
n
X xij (Yi − b 0 (xi β))
⇐⇒ b”(xi β) = 0 car |id {z
= h} = b 0−1 ◦ g −1 .
V(Yi )
i=1 cas canonique
n
X xij (Yi − b 0 (xi β))
⇐⇒ b”(θi ) = 0 car θi = h(xi β) = xi β.
V(Yi )
i=1
n
X xij (Yi − b 0 (xi β))
⇐⇒ = 0 car V(Yi ) = γ(φ)b”(θi ).
γ(φ)
i=1

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 29 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Equation de vraisemblance

n
X xij (Yi − g −1 (xi β))
(g −1 )0 (xi β) = 0 pour tout j ∈ {1, 2, . . . , r }
V(Yi )
i=1
n
X xij (Yi − b 0 (xi β))
⇐⇒ b”(xi β) = 0 car |id {z
= h} = b 0−1 ◦ g −1 .
V(Yi )
i=1 cas canonique
n
X xij (Yi − b 0 (xi β))
⇐⇒ b”(θi ) = 0 car θi = h(xi β) = xi β.
V(Yi )
i=1
n
X xij (Yi − b 0 (xi β))
⇐⇒ = 0 car V(Yi ) = γ(φ)b”(θi ).
γ(φ)
i=1
n
xij (Yi − b 0 (xi β)) = 0
X
⇐⇒
i=1

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 29 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Equation de vraisemblance

n
X xij (Yi − g −1 (xi β))
(g −1 )0 (xi β) = 0 pour tout j ∈ {1, 2, . . . , r }
V(Yi )
i=1
n
X xij (Yi − b 0 (xi β))
⇐⇒ b”(xi β) = 0 car |id {z
= h} = b 0−1 ◦ g −1 .
V(Yi )
i=1 cas canonique
n
X xij (Yi − b 0 (xi β))
⇐⇒ b”(θi ) = 0 car θi = h(xi β) = xi β.
V(Yi )
i=1
n
X xij (Yi − b 0 (xi β))
⇐⇒ = 0 car V(Yi ) = γ(φ)b”(θi ).
γ(φ)
i=1
n
xij (Yi − b 0 (xi β)) = 0
X
⇐⇒
i=1
n
xij (Yi − E[Yi | xi ]) = 0 car E[Yi] = g −1 (Xi β) = b 0 (Xi β)
X
⇐⇒
i=1

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 29 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Equation de vraisemblance

Exemple
Supposons que Yi | xi ∼ Ber (pi ) et choisissons le lien ”logit”. Alors

e xi β
µi = pi = et φ = 1 (ref. Slides 66 et 74).
1 + e xi β
Ainsi les équations de vraisemblance sont
n
e xi β
 
xij
X
Yi − = 0, pour tout j ∈ {1, 2, . . . , r }.
1 + e xi β
i=1

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 30 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Equation de vraisemblance

Exemple
Supposons que Yi | xi ∼ Ber (pi ) et choisissons le lien ”logit”. Alors

e xi β
µi = pi = et φ = 1 (ref. Slides 66 et 74).
1 + e xi β
Ainsi les équations de vraisemblance sont
n
e xi β
 
xij
X
Yi − = 0, pour tout j ∈ {1, 2, . . . , r }.
1 + e xi β
i=1

Rappel
   
pi
Pour la loi Bernoulli Ber (pi ), fy (y ) = exp y log 1−p i
+ log(1 − pi ) .
pi
On pose xi β = θi = log( 1−p i
) et γ(φ) = 1. Donc
e θi
pi = 1+e θi
et b(θi ) = − log(1 − pi ) = log(1 + e θi ).

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 30 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Equation de vraisemblance

Remarques
Les équations de vraisemblance n’ont pas de solution explicite en
général, sauf dans le cas où b 0 (u) = u, ce qui correspond au modèle
linéaire gaussien.
On a donc recourt à des procédures d’optimisation itératives pour
approcher la solution que nous décrivons maintenant.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 31 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Algorithme IRLS/Newton-Raphson

Algorithme de Newton-Raphson

Les équations de vraisemblance sont en générales transcendantes, une


solution pour approcher l’Estimateur du Maximum de vraisemblance
(e.m.v.) est d’utiliser des procédures itératives d’optimisation.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 32 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Algorithme IRLS/Newton-Raphson

Principe
Supposons qu’on veut trouver un zéro d’une fonction. L’idée de
l’algorithme est de
Approcher localement la fonction par sa tangente
T = ψ(x (0) ) + ψ 0 (x (0) )(x − x (0) ).

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 33 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Algorithme IRLS/Newton-Raphson

Principe
Supposons qu’on veut trouver un zéro d’une fonction. L’idée de
l’algorithme est de
Approcher localement la fonction par sa tangente
T = ψ(x (0) ) + ψ 0 (x (0) )(x − x (0) ).
Chercher l’endroit où la tangente croise l’axe des abscisses i.e.,
ψ(x (0) ) + ψ 0 (x (0) )(x − x (0) ) = 0.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 33 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Algorithme IRLS/Newton-Raphson

Principe
Supposons qu’on veut trouver un zéro d’une fonction. L’idée de
l’algorithme est de
Approcher localement la fonction par sa tangente
T = ψ(x (0) ) + ψ 0 (x (0) )(x − x (0) ).
Chercher l’endroit où la tangente croise l’axe des abscisses i.e.,
ψ(x (0) ) + ψ 0 (x (0) )(x − x (0) ) = 0.
Ainsi
ψ(x (0) )
x (1) = x (0) − ψ 0 (x (0) )
.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 33 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Algorithme IRLS/Newton-Raphson

Principe
Supposons qu’on veut trouver un zéro d’une fonction. L’idée de
l’algorithme est de
Approcher localement la fonction par sa tangente
T = ψ(x (0) ) + ψ 0 (x (0) )(x − x (0) ).
Chercher l’endroit où la tangente croise l’axe des abscisses i.e.,
ψ(x (0) ) + ψ 0 (x (0) )(x − x (0) ) = 0.
Ainsi
ψ(x (0) )
x (1) = x (0) − ψ 0 (x (0) )
.
On réitére, on obtient la suite définie par
ψ(x (k) )
x (k+1) = x (k) − ψ 0 (x (k) )

qui converge sous certaines conditions vers un zéro de la fonction.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 33 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Algorithme IRLS/Newton-Raphson

La méthode de Newton-Raphson est l’une des méthodes les plus utilisées


pour la résolution des équations non linéaires. Elle est basée sur
l’utilisation du développement de Taylor.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 34 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Algorithme IRLS/Newton-Raphson

La méthode de Newton-Raphson est l’une des méthodes les plus utilisées


pour la résolution des équations non linéaires. Elle est basée sur
l’utilisation du développement de Taylor.
Soit une équation à résoudre de la forme ψ(x) = 0.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 34 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Algorithme IRLS/Newton-Raphson

La méthode de Newton-Raphson est l’une des méthodes les plus utilisées


pour la résolution des équations non linéaires. Elle est basée sur
l’utilisation du développement de Taylor.
Soit une équation à résoudre de la forme ψ(x) = 0.
À partir d’une valeur initiale x0 de la solution, on cherche une
correction δx telle que
ψ (x0 + δx) = 0.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 34 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Algorithme IRLS/Newton-Raphson

La méthode de Newton-Raphson est l’une des méthodes les plus utilisées


pour la résolution des équations non linéaires. Elle est basée sur
l’utilisation du développement de Taylor.
Soit une équation à résoudre de la forme ψ(x) = 0.
À partir d’une valeur initiale x0 de la solution, on cherche une
correction δx telle que
ψ (x0 + δx) = 0.
En utilisant un développement de Taylor au voisinage de x = x0 ,
ψ 00 (x0 ) (δx)2 ψ (3) (x0 ) (δx)3
0 = ψ (x0 ) + ψ 0 (x0 ) δx + + + ...
2! 3!

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 34 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Algorithme IRLS/Newton-Raphson

La méthode de Newton-Raphson est l’une des méthodes les plus utilisées


pour la résolution des équations non linéaires. Elle est basée sur
l’utilisation du développement de Taylor.
Soit une équation à résoudre de la forme ψ(x) = 0.
À partir d’une valeur initiale x0 de la solution, on cherche une
correction δx telle que
ψ (x0 + δx) = 0.
En utilisant un développement de Taylor au voisinage de x = x0 ,
ψ 00 (x0 ) (δx)2 ψ (3) (x0 ) (δx)3
0 = ψ (x0 ) + ψ 0 (x0 ) δx + + + ...
2! 3!
Il suffit alors de négliger les termes d’ordre supérieur ou égal à 2 en δx
pour obtenir
ψ (x0 )
0 ≈ ψ (x0 ) + ψ 0 (x0 ) δx ⇔ δx = − 0 .
ψ (x0 )

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 34 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Algorithme IRLS/Newton-Raphson

Reamrques
La correction δx est en principe la quantité que l’on doit ajouter à x0
pour annuler la fonction ψ.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 35 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Algorithme IRLS/Newton-Raphson

Reamrques
La correction δx est en principe la quantité que l’on doit ajouter à x0
pour annuler la fonction ψ.
Puisqu’on a négligé les termes d’ordre supérieur ou égal à 2 dans le
développement de Taylor, cette correction n’est pas parfaite.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 35 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Algorithme IRLS/Newton-Raphson

Reamrques
La correction δx est en principe la quantité que l’on doit ajouter à x0
pour annuler la fonction ψ.
Puisqu’on a négligé les termes d’ordre supérieur ou égal à 2 dans le
développement de Taylor, cette correction n’est pas parfaite.
On pose
ψ (x0 )
x1 = x0 + δx = x0 − .
ψ 0 (x0 )

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 35 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Algorithme IRLS/Newton-Raphson

Reamrques
La correction δx est en principe la quantité que l’on doit ajouter à x0
pour annuler la fonction ψ.
Puisqu’on a négligé les termes d’ordre supérieur ou égal à 2 dans le
développement de Taylor, cette correction n’est pas parfaite.
On pose
ψ (x0 )
x1 = x0 + δx = x0 − .
ψ 0 (x0 )
On recommence le processus en cherchant à corriger x1 avec une
nouvelle quantité δx. On obtient alors l’algorithme suivant.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 35 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Algorithme IRLS/Newton-Raphson

Algorithme de la méthode Newton-Raphson


Étape 1 : Étant donné x0 une valeur estimée initiale de la solution.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 36 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Algorithme IRLS/Newton-Raphson

Algorithme de la méthode Newton-Raphson


Étape 1 : Étant donné x0 une valeur estimée initiale de la solution.
Étape 2 : Étant donné , le critère d’arrêt, et N, le nombre maximal
d’itérations.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 36 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Algorithme IRLS/Newton-Raphson

Algorithme de la méthode Newton-Raphson


Étape 1 : Étant donné x0 une valeur estimée initiale de la solution.
Étape 2 : Étant donné , le critère d’arrêt, et N, le nombre maximal
d’itérations.
f (x0 )
Étape 3 : Effectuer x1 = x0 − 0 .
f (x0 )

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 36 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Algorithme IRLS/Newton-Raphson

Algorithme de la méthode Newton-Raphson


Étape 1 : Étant donné x0 une valeur estimée initiale de la solution.
Étape 2 : Étant donné , le critère d’arrêt, et N, le nombre maximal
d’itérations.
f (x0 )
Étape 3 : Effectuer x1 = x0 − 0 .
f (x0 )
Étape 4 : Si |x1 − x0 | ≤ 

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 36 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Algorithme IRLS/Newton-Raphson

Algorithme de la méthode Newton-Raphson


Étape 1 : Étant donné x0 une valeur estimée initiale de la solution.
Étape 2 : Étant donné , le critère d’arrêt, et N, le nombre maximal
d’itérations.
f (x0 )
Étape 3 : Effectuer x1 = x0 − 0 .
f (x0 )
Étape 4 : Si |x1 − x0 | ≤ 
convergence atteinte.
écrire la racine est x1 .
arrêt.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 36 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Algorithme IRLS/Newton-Raphson

Algorithme de la méthode Newton-Raphson


Étape 1 : Étant donné x0 une valeur estimée initiale de la solution.
Étape 2 : Étant donné , le critère d’arrêt, et N, le nombre maximal
d’itérations.
f (x0 )
Étape 3 : Effectuer x1 = x0 − 0 .
f (x0 )
Étape 4 : Si |x1 − x0 | ≤ 
convergence atteinte.
écrire la racine est x1 .
arrêt.
Étape 5 : Si le nombre maximal d’itérations N est atteint

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 36 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Algorithme IRLS/Newton-Raphson

Algorithme de la méthode Newton-Raphson


Étape 1 : Étant donné x0 une valeur estimée initiale de la solution.
Étape 2 : Étant donné , le critère d’arrêt, et N, le nombre maximal
d’itérations.
f (x0 )
Étape 3 : Effectuer x1 = x0 − 0 .
f (x0 )
Étape 4 : Si |x1 − x0 | ≤ 
convergence atteinte.
écrire la racine est x1 .
arrêt.
Étape 5 : Si le nombre maximal d’itérations N est atteint
convergence non atteinte en N itérations.
arrêt.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 36 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Algorithme IRLS/Newton-Raphson

Algorithme de la méthode Newton-Raphson


Étape 1 : Étant donné x0 une valeur estimée initiale de la solution.
Étape 2 : Étant donné , le critère d’arrêt, et N, le nombre maximal
d’itérations.
f (x0 )
Étape 3 : Effectuer x1 = x0 − 0 .
f (x0 )
Étape 4 : Si |x1 − x0 | ≤ 
convergence atteinte.
écrire la racine est x1 .
arrêt.
Étape 5 : Si le nombre maximal d’itérations N est atteint
convergence non atteinte en N itérations.
arrêt.
Étape 6 : x0 ←− x1 et retour à l’étape 3.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 36 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Algorithme IRLS/Newton-Raphson

Exemple
On cherche à résoudre l’équation f (x) = exp(−x) − x = 0.
L’algorithme de la méthode de Newton-Raphson se résume à
f (xn ) exp (−xn ) − xn
xn+1 = xn −
0
= xn − .
f (xn ) − exp (−xn ) − 1
Les résultats sont compilés dans le tableau suivant à partir de x0 = 0.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 37 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Algorithme IRLS/Newton-Raphson

Exemple
On cherche à résoudre l’équation f (x) = exp(−x) − x = 0.
L’algorithme de la méthode de Newton-Raphson se résume à
f (xn ) exp (−xn ) − xn
xn+1 = xn −
0
= xn − .
f (xn ) − exp (−xn ) − 1
Les résultats sont compilés dans le tableau suivant à partir de x0 = 0.

n xn |en | = |xn − r |
0 0.0000000 0.5671×10+0
1 0.5000000 0.6714×10−1
2 0.5663110 0.8323×10−3
3 0.5671432 0.1250×10−6
4 0.5671433 0.4097×10−9

On prend
r = 0.5671
Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 37 / 45
Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Interprétation graphique

Figure 1: Interprétation graphique de la méthode de Newton.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 38 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Interprétation graphique

Sur cette figure, on a représenté la courbe de f , la valeur initiale x0 et la


tangente à la courbe au point (x0 , f (x0 )) qui a pour équation

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 39 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Interprétation graphique

Sur cette figure, on a représenté la courbe de f , la valeur initiale x0 et la


tangente à la courbe au point (x0 , f (x0 )) qui a pour équation

y = f (x0 ) + f 0 (x0 ) (x − x0 ) .

Cette tangente coupe l’axe des x en y = 0, c’est-à-dire en

f (x0 ) + f 0 (x0 ) (x − x0 ) = 0.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 39 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Interprétation graphique

Sur cette figure, on a représenté la courbe de f , la valeur initiale x0 et la


tangente à la courbe au point (x0 , f (x0 )) qui a pour équation

y = f (x0 ) + f 0 (x0 ) (x − x0 ) .

Cette tangente coupe l’axe des x en y = 0, c’est-à-dire en

f (x0 ) + f 0 (x0 ) (x − x0 ) = 0.

Autrement dit
f (x0 )
x1 = x0 − ,
f 0 (x0 )
qui devient la nouvelle valeur estimée de la solution.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 39 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Interprétation graphique

Sur cette figure, on a représenté la courbe de f , la valeur initiale x0 et la


tangente à la courbe au point (x0 , f (x0 )) qui a pour équation

y = f (x0 ) + f 0 (x0 ) (x − x0 ) .

Cette tangente coupe l’axe des x en y = 0, c’est-à-dire en

f (x0 ) + f 0 (x0 ) (x − x0 ) = 0.

Autrement dit
f (x0 )
x1 = x0 − ,
f 0 (x0 )
qui devient la nouvelle valeur estimée de la solution.
On reprend ensuite le même raisonnement à partir du point (x1 , f (x1 )).

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 39 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Interprétation graphique

Application de Newton-Raphson: Estimation des paramètres β


On applique le principe précédent à la dérivée β 7−→ ∇L(β) (pour trouver
un maximum local), et l’algorithme de Newton-Raphson s’écrit de la façon
suivante:

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 40 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Interprétation graphique

Application de Newton-Raphson: Estimation des paramètres β


On applique le principe précédent à la dérivée β 7−→ ∇L(β) (pour trouver
un maximum local), et l’algorithme de Newton-Raphson s’écrit de la façon
suivante:

Algorithme de Newton-Raphson
1 Choisir un point de départ β (0) .

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 40 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Interprétation graphique

Application de Newton-Raphson: Estimation des paramètres β


On applique le principe précédent à la dérivée β 7−→ ∇L(β) (pour trouver
un maximum local), et l’algorithme de Newton-Raphson s’écrit de la façon
suivante:

Algorithme de Newton-Raphson
1 Choisir un point de départ β (0) .
2 A l’itération (k + 1): calculer

β (k+1) = β (k) + Ak ∇L(β (k) ), (9)

avec Ak = −[H(β (k) )]−1 est la matrice Hessienne de L(β).

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 40 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Interprétation graphique

Application de Newton-Raphson: Estimation des paramètres β


On applique le principe précédent à la dérivée β 7−→ ∇L(β) (pour trouver
un maximum local), et l’algorithme de Newton-Raphson s’écrit de la façon
suivante:

Algorithme de Newton-Raphson
1 Choisir un point de départ β (0) .
2 A l’itération (k + 1): calculer

β (k+1) = β (k) + Ak ∇L(β (k) ), (9)

avec Ak = −[H(β (k) )]−1 est la matrice Hessienne de L(β).


3 On s’arrête lorsque
β (k+1) ≈ β (k)
ou bien
∇L(β (k+1) ) ≈ ∇L(β (k) ).
Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 40 / 45
Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Interprétation graphique

Remarque
L’algorithme IRLS (Iterative Reweighted Least Squares) est une autre
version de cet algorithme où on choisit pour Ak l’inverse de l’information
de Fisher h  i−1
Ak = − E H(L)(β (k) ) . (10)

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 41 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Interprétation graphique

Remarque
L’algorithme IRLS (Iterative Reweighted Least Squares) est une autre
version de cet algorithme où on choisit pour Ak l’inverse de l’information
de Fisher h  i−1
Ak = − E H(L)(β (k) ) . (10)

Information de Fisher
L’information de Fisher est une notion de statistique introduite par
Ronald Aylmer Fisher dans le but de quantifier l’information relative à
un paramètre contenue dans une distribution.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 41 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Interprétation graphique

Remarque
L’algorithme IRLS (Iterative Reweighted Least Squares) est une autre
version de cet algorithme où on choisit pour Ak l’inverse de l’information
de Fisher h  i−1
Ak = − E H(L)(β (k) ) . (10)

Information de Fisher
L’information de Fisher est une notion de statistique introduite par
Ronald Aylmer Fisher dans le but de quantifier l’information relative à
un paramètre contenue dans une distribution.
Elle est définie comme l’espérance de l’information observée, ou
encore comme la variance de la fonction de score.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 41 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Interprétation graphique

Remarque
L’algorithme IRLS (Iterative Reweighted Least Squares) est une autre
version de cet algorithme où on choisit pour Ak l’inverse de l’information
de Fisher h  i−1
Ak = − E H(L)(β (k) ) . (10)

Information de Fisher
L’information de Fisher est une notion de statistique introduite par
Ronald Aylmer Fisher dans le but de quantifier l’information relative à
un paramètre contenue dans une distribution.
Elle est définie comme l’espérance de l’information observée, ou
encore comme la variance de la fonction de score.
Dans le cas multi-paramétrique, on parle de matrice d’information de
Fisher.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 41 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Interprétation graphique

Soit f (x; θ) la distribution de vraisemblance d’une variable aléatoire X (qui


peut être multidimensionnelle), paramétrée par θ.

Définition
On appelle fonction de score la dérivée partielle de la
log-vraisemblance par rapport au paramètre θ
∂ 1 ∂f (X ; θ)
log f (X ; θ) = .
∂θ f (X ; θ) ∂θ

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 42 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Interprétation graphique

Soit f (x; θ) la distribution de vraisemblance d’une variable aléatoire X (qui


peut être multidimensionnelle), paramétrée par θ.

Définition
On appelle fonction de score la dérivée partielle de la
log-vraisemblance par rapport au paramètre θ
∂ 1 ∂f (X ; θ)
log f (X ; θ) = .
∂θ f (X ; θ) ∂θ
L’information de Fisher est le moment d’ordre deux de la fonction de
score " 2 #

I (θ) = E log f (X ; θ) θ .
∂θ

Propriétés
La fonction de score a une espérance nulle.
L’information de Fisher correspond à la variance de la fonction de
score.
Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 42 / 45
Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Interprétation graphique

Expression de l’algorithme pour le GLM avec lien canonique


Etudions de plus près l’algorithme de Newton-Raphson lorsque la fonction
de lien choisie est la fonction de lien canonique

g = (b 0 )−1 .

On a montré que pour tout j ∈ {1, 2, . . . , r },


n
∂L(β)
X xij (Yi − b 0 (xi β))
(∇L(β))j = ∂βj = .
γ(φ)
i=1

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 43 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Interprétation graphique

Expression de l’algorithme pour le GLM avec lien canonique


Etudions de plus près l’algorithme de Newton-Raphson lorsque la fonction
de lien choisie est la fonction de lien canonique

g = (b 0 )−1 .

On a montré que pour tout j ∈ {1, 2, . . . , r },


n
∂L(β)
X xij (Yi − b 0 (xi β))
(∇L(β))j = ∂βj = .
γ(φ)
i=1
Par conséquent, si on pose

b 0 (x1 β)
 
 b 0 (x2 β) 
µ(β) =  .
 
..
 . 
b 0 (xn β)

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 43 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Interprétation graphique

Alors, on obtient l’écriture matricielle suivante


1 t
∇L(β) = γ(φ) X (Y − µ(β)).

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 44 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Interprétation graphique

Alors, on obtient l’écriture matricielle suivante


1 t
∇L(β) = γ(φ) X (Y − µ(β)).
Par ailleurs, soit H(L)(β) la matrice Hessienne du log de la fonction de
vraisemblance L(β), alors ses entrées sont pour tout j, k ∈ {1, 2, . . . , r },
" n #
j
∂ 2 L(β) ∂ X xi (Yi − b 0 (xi β))
[H(L)(β)]jk = =
∂βj ∂βk ∂βk γ(φ)
i=1
n
1 X
= − b”(xi β)xij xik . (11)
γ(φ)
i=1

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 44 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Interprétation graphique

Si on pose la matrice
W (β) = diag (b”(x1 β), b”(x2 β), . . . , b”(xn β)).

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 45 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Interprétation graphique

Si on pose la matrice
W (β) = diag (b”(x1 β), b”(x2 β), . . . , b”(xn β)).
Alors, on peut écrire
1
H(L)(β) = − X t W (β)X . (12)
γ(φ)

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 45 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Interprétation graphique

Si on pose la matrice
W (β) = diag (b”(x1 β), b”(x2 β), . . . , b”(xn β)).
Alors, on peut écrire
1
H(L)(β) = − X t W (β)X . (12)
γ(φ)
Nous pouvons ainsi injecter les nouvelles expressions du Gradient et de la
Hessienne de L dans l’algorithme d’optimisation. Nous obtenons alors la
suite suivante

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 45 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Interprétation graphique

Si on pose la matrice
W (β) = diag (b”(x1 β), b”(x2 β), . . . , b”(xn β)).
Alors, on peut écrire
1
H(L)(β) = − X t W (β)X . (12)
γ(φ)
Nous pouvons ainsi injecter les nouvelles expressions du Gradient et de la
Hessienne de L dans l’algorithme d’optimisation. Nous obtenons alors la
suite suivante
β (k+1) = β (k) − (H(L)(β (k) ))−1 ∇L(β (k) )

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 45 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Interprétation graphique

Si on pose la matrice
W (β) = diag (b”(x1 β), b”(x2 β), . . . , b”(xn β)).
Alors, on peut écrire
1
H(L)(β) = − X t W (β)X . (12)
γ(φ)
Nous pouvons ainsi injecter les nouvelles expressions du Gradient et de la
Hessienne de L dans l’algorithme d’optimisation. Nous obtenons alors la
suite suivante
β (k+1) = β (k) − (H(L)(β (k) ))−1 ∇L(β (k) )
1
= β (k) + γ(φ)[X t W (β (k) )X ]−1 X t (Y − µ(β))
γ(φ)

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 45 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Interprétation graphique

Si on pose la matrice
W (β) = diag (b”(x1 β), b”(x2 β), . . . , b”(xn β)).
Alors, on peut écrire
1
H(L)(β) = − X t W (β)X . (12)
γ(φ)
Nous pouvons ainsi injecter les nouvelles expressions du Gradient et de la
Hessienne de L dans l’algorithme d’optimisation. Nous obtenons alors la
suite suivante
β (k+1) = β (k) − (H(L)(β (k) ))−1 ∇L(β (k) )
1
= β (k) + γ(φ)[X t W (β (k) )X ]−1 X t (Y − µ(β))
γ(φ)

= [X t W (β (k) )X ]−1 X t W (β (k) ) X β (k) + W −1 (β (k) )(Y − µ(β (k) ))

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 45 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Interprétation graphique

Si on pose la matrice
W (β) = diag (b”(x1 β), b”(x2 β), . . . , b”(xn β)).
Alors, on peut écrire
1
H(L)(β) = − X t W (β)X . (12)
γ(φ)
Nous pouvons ainsi injecter les nouvelles expressions du Gradient et de la
Hessienne de L dans l’algorithme d’optimisation. Nous obtenons alors la
suite suivante
β (k+1) = β (k) − (H(L)(β (k) ))−1 ∇L(β (k) )
1
= β (k) + γ(φ)[X t W (β (k) )X ]−1 X t (Y − µ(β))
γ(φ)

= [X t W (β (k) )X ]−1 X t W (β (k) ) X β (k) + W −1 (β (k) )(Y − µ(β (k) ))
= [X t W (β (k) )X ]−1 X t W (β (k) )Z (k) ,

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 45 / 45


Estimation des paramètres d’un modèle linéaire généralisé par
maximum de vraisemblance Interprétation graphique

Si on pose la matrice
W (β) = diag (b”(x1 β), b”(x2 β), . . . , b”(xn β)).
Alors, on peut écrire
1
H(L)(β) = − X t W (β)X . (12)
γ(φ)
Nous pouvons ainsi injecter les nouvelles expressions du Gradient et de la
Hessienne de L dans l’algorithme d’optimisation. Nous obtenons alors la
suite suivante
β (k+1) = β (k) − (H(L)(β (k) ))−1 ∇L(β (k) )
1
= β (k) + γ(φ)[X t W (β (k) )X ]−1 X t (Y − µ(β))
γ(φ)

= [X t W (β (k) )X ]−1 X t W (β (k) ) X β (k) + W −1 (β (k) )(Y − µ(β (k) ))
= [X t W (β (k) )X ]−1 X t W (β (k) )Z (k) ,
avec Z (k) = X β (k) + W −1 (β (k) )(Y − µ(β (k) )).
Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 45 / 45

Vous aimerez peut-être aussi