Cours GLM Simple

Le Modèle Linéaire Gaussien simple
Antoine Godichon-Baggioni
INSA de Rouen – Génie Mathématique - 4ème Année
1 Introduction
1.1 Le modèle linéaire Gaussien
On dispose de n observations bidimensionnelles (x1 , y1 ), . . . , (xn , yn ) . On considère la si-
tuation particulière suivante : les données x1 , . . . , xn ne sont pas des réalisations de variables
aléatoires, mais sont contrôlées ou imposées par la nature des choses. En revanche, on suppose
que les données y1 , . . . , yn sont les réalisations de n variables aléatoires Y1 , . . . , Yn .
L’exemple typique est celui des séries chronologiques dans lequel on mesure une quantité Y
à différentes dates x1 , . . . , xn , l’aléatoire étant lié, par exemple, aux erreurs de mesure.
Plus précisément dans le cadre du Modèle Linéaire, les données x1 , . . . , xn ne sont pas des
réalisations de variables aléatoires et on suppose que les données y1 , . . . , yn sont les réalisations
de n variables aléatoires Y1 , . . . , Yn qui sont liées aux données x1 , . . . , xn de la manière suivante :
n o
∀ i ∈ 1, 2, . . . , n , Yi = α xi + β + εi
où α, β ∈ R et où ε1 , . . . , εn sont n variables aléatoires que l’on suppose centrées, indépendantes,
de même loi et de variance σ 2 . Les paramètres α, β et σ 2 sont inconnus. Notons que par construc-
tion, les variables aléatoires Y1 , . . . , Yn sont indépendantes.
Lorsque les variables ε1 , . . . , εn sont gaussiennes, on parle de Modèle Linéaire Gaussien et
c’est dans ce cadre que nous poursuivrons l’étude.
Exercice E.1 Donner, pour tout i = 1, . . . , n, la loi de Yi .
Remarque. Par construction, les variables aléatoires Y1 , . . . , Yn sont indépendantes.

n
1 X
Exercice E.2 Donner la loi de Y où Y = Yj .
n
j=1
1.2 Exemples de modélisation par un Modèle Linéaire Gaussien

1.2.1 Etude de l’allongement d’un ressort
1 Introduction 1
Une approche tant expérimentale que théorique tend à montrer que l’allongement d’un ressort
est directement proportionnnel à la force appliquée à ce ressort. Ceci peut s’exprimer par la
relation
A = kF
où l’on a noté A l’allongement du ressort, F la force appliquée et k le coefficient de raideur
du ressort.
Pour déterminer la raideur d’un ressort particulier, un étudiant pratique, lors d’un TP de
physique, 10 expériences, que l’on pourra considérer comme étant indépendantes, permettant
de noter les allongements du ressort obtenus pour des forces données. Il consigne les résultats
obtenus dans un tableau.
No 1 2 3 4 5 6 7 8 9 10
F 1 5 10 15 20 25 30 35 40 50
A 2 9.9 20 30.2 39.9 50 60.2 68.9 80.3 99.6
Après avoir représenté sur un graphique les différentes mesures et ajusté une droite au nuage de
points, il affirme que le coefficient de raideur du ressort est égal à 2.
Est-il possible de confirmer ou d’infirmer avac un risque de 5% cette valeur.
Pour répondre à cette question, l’idée va être de mettre en œuvre un test statistique. Pour
cela, on a besoin d’un modèle probabiliste et on pense tout naturellement au modèle linéaire
gaussien. La première étape consiste à voir si on peut envisager une liaison linéaire entre A et
F . On utilise pour cela une approche de type statistique descriptive.
Notons (xi )1≤i≤10 les différentes valeurs de F et (yi )1≤i≤10 les différentes valeurs de A obtenues.
A partir des informations suivantes :
(xi − x)2 (yi − y)2

P P P P P P
xi yi xi yi (xi − x) (yi − y)
231 461 2 264,9 15 162 8 993,46 4 512,9
on déduit facilement les cefficients de la droite des moindres carrés a et b, ainsi que la valeur du
coefficient de corrélation linéaire r :
a b r
1.9925 0.07236 0.99993
On peut alors représenter le nuage de points et ajuster la droite des moindres carrés Voici ce
que l’on obtient :
1 Introduction 2
Droite des Moindres Carrés d’équation Y = 1.9925 X + 0.072365 (r = 0.99993)

100
90
80
70
Allongement du ressort (en cm)
60
50
40
30
20
10
0
0 5 10 15 20 25 30 35 40 45 50
Force appliquée au ressort (en Newton)
On constate que les points sont pratiquement alignés sur la droite des moindres carrés. Le coef-
ficient de corrélation linéaire est presque égal à 1. Il est donc plus que raisonnable de considérer
que A et F sont liés linéairement, ce qui est la réalité physique. Cependant, on constate que
la relation A = kF n’est pas exactement vérifiée avec ces données, la liaison linéaire n’est pas
exacte. On observe en effet de petites fluctuations, dues certainement aux erreurs de mesure.
Nous allons donc modéliser ces fluctuation en considérant que les données y1 , . . . , y10 sont les
réalisations de variables aléatoires Y1 , . . . , Y10 liées aux données x1 , . . . , x10 (qui ont été fixés
par l’expérimentateur et qui donc ne sont pas des réalisations de variables aléatoires), par la
relation :
Yi = α xi + β + εi , i = 1, · · · , 10
où ε1 , . . . , ε10 sont des variables aléatoires centrées, indépendantes qu’on supposera de variance
commune σ 2 . Les variables (εi ) modélisent les erreurs de mesure. Si on suppose de plus que les
variables (εi ) sont gaussiennes, alors on sera dans le cadre du modèle linéaire gaussien simple,
et il sera possible de mettre en œuvre un test. Pour savoir si le coefficient de raideur du ressort
est bien égal à 2, on testera au risque 5%, l’hypothèse nulle
H0 : α = 2 et β = 0
contre l’hypothèse alternative

H1 : α 6= 2 ou β 6= 0
En cas d’acceptation de H0 , on pourra considérer que l’étudiant a raison.
1.2.2 Etude de l’influence de l’âge sur la valeur de la tension systolique

L’observation de la tension systolique T et de l’âge A chez 15 patientes de plus de 40 ans
fournit les données suivantes :
No 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
A 42 46 71 80 74 70 80 85 72 64 81 41 61 75 53
T 130 125 148 156 162 151 156 162 158 155 160 125 150 165 135
1 Introduction 3
On veut savoir, au risque 5% et dans la mesure où il est raisonnable d’envisager une relation
linéaire entre l’âge et la valeur de la tension systolique d’un individu, si l’âge influe effectivement
(ou de manière significative) sur la valeur de la tension systolique.
Pour répondre à cette question, il faut donc mettre en œuvre un test statistique. Pour cela, on a
besoin d’un modèle probabiliste et on pense là encore au modèle linéaire gaussien. Comme dans
l’exemple précédent, en utilisant les outils de statistique descriptive, on essaie de voir si on peut
envisager une liaison linéaire entre l’âge et la tension systolique.
A partir des informations suivantes :
(xi − x)2 (yi − y)2

P P P P P P
xi yi xi yi (xi − x) (yi − y)
995 2 238 2 997,33 151 067 2 644,40 2 613
où l’on a noté (xi )1≤i≤15 les différents âges A et (yi )1≤i≤15 les différentes valeurs de la tension
T obtenue, on déduit les cefficients de la droite des moindres carrés a et b, ainsi que la valeur
du coefficient de corrélation linéaire r :
a b r
0.8718 91.3723 0.9281
On peut alors représenter le nuage de points et ajuster la droite des moindres carrés Voici ce
que l’on obtient :
Nuage de points et DMC (r = 0.9281)
DMC : y = 0.8718 x + 91.3723 ●
● ●
160
●
●
●
●
Tension systolique
150
●
●
●
140
●
130
● ●
40 50 60 70 80
Age
On constate que le nuage de points a une forme allongée, la droite des moindres carrés ajuste et
résume bien le nuage de points. Par ailleurs, le coefficient de corrélation linéaire est bon, il est
proche de 1. Il est donc raisonnable de considérer que l’âge et la tension sont liés linéairement.
Cependant, cette liaison linéaire n’est pas exacte, les données fluctuent autour de la droite des
moindres carrés. Nous allons donc modéliser ces fluctuation en considérant que les données
2 Estimation des paramètres du modèle linéaire 4
y1 , . . . , y15 sont les réalisations de variables aléatoires Y1 , . . . , Y15 liées aux données x1 , . . . , x15
par la relation :
Yi = α xi + β + εi , i = 1, · · · , 15
où ε1 , . . . , ε15 sont des variables aléatoires centrées, indépendantes qu’on supposera de variance
commune σ 2 . Si on suppose de plus que les variables (εi ) sont gaussiennes, ce qui est raisonnable
dans ce contexte, alors on sera dans le cadre du modèle linéaire gaussien simple, et il sera possible
de mettre en œuvre un test. Pour savoir si l’âge influe de manière significative sur la tension, on
testera au risque 5%, l’hypothèse nulle
H0 : α = 0
contre l’hypothèse alternative

H1 : α 6= 0
En cas d’acceptation de H0 , on considérera que la liaison linéaire n’est pas significative, au-
trement dit que l’âge n’influe pas de manière significative sur la tension. En revanche, en cas
de rejet de H0 , on considérera que la liaison linéaire est significative, et donc que l’âge influe
réellement sur la valeur de la tension systolique.
2 Estimation des paramètres du modèle linéaire

On se place dans le cadre du Modèle Linéaire Gaussien (cf. Paragraph 1.1). On s’intéresse à
l’estimation des paramètres inconnus du modèle linéaire Gaussien que sont α, β et σ. On notera
respectivement A, B et S les estimateurs des paramètres α, β et σ.
2.1 Définition des estimateurs

• Estimation de α et β. La construction des estimateurs A et B des paramètres réels α et β
est basée sur une méthode de moindres carrés. On cherche les estimateurs A et B de sorte que
la quantité
n
X 2
f (A, B) = Yi − Axi − B
i=1
soit minimale. En procédant de la même manière que pour la détermination des coefficients a
et b de la droite des moindres carrés, on montre que les valeurs de A et de B qui minimisent
f (A, B) sont données par :
n
X
(xi − x) Yi − Y
i=1
A = n et B = Y − A x
X 2
(xi − x)
i=1
On dit alors que A et B sont les estimateurs des moindres carrés des paramètres α et β. Les
réalisations de A et B sur les données, qui sont aussi les estimations des paramètres α et β, sont
données par :
n
X
(xi − x) (yi − y)
i=1 dxy
a = n = et b = y − a x
X d2x
(xi − x)2
i=1
Les coefficients a et b sont bien évidemment les coefficients de la droite des moindres carrés.
• Estimation de σ 2 . Pour estimer le paramètre inconnu σ 2 , on prend un estimateur classique

de la variance, donné par :
n
2 1 X 2
S = Yi − Axi − B
n−2
i=1
Notons que n doit être supérieur ou égal à 3. L’estimateur de σ est alors donné par :
v
u n
u 1 X 2
S = t Yi − Axi − B
n−2
i=1
v
u n
u 1 X 2
On notera s la réalisation de S sur les données (xi , yi )1≤i≤n :s = t yi − axi − b
n−2
i=1
.
Exercice E.3 Montrer que A et Y ne sont pas corrélées. On commencera par montrer qu’on
peut réécrire A sous la forme
n n
1 X X
A = 2
2
(xi − x) Yi avec n dx = (xi − x)2
n dx
i=1 i=1
2.2 Propriétés et loi des estimateurs

Nous allons préciser dans cette partie la loi des différents estimateurs que nous avons intro-
duits précédemment. Les résultats énoncés seront utiles pour la construction des tests que nous
effectuerons dans le cadre du modèle linéaire Gaussien.
Théorème 2.1 Sous les hypothèses du modèle linéaire Gaussien, A et B sont des estimateurs
sans biais et convergents des paramètres α et β, et on a
p
σ σ d2x + x2
A ∼ N α, p et B ∼ N β , p
n d2x n d2x
Remarque. La variance σ 2 étant inconnue, les résultats du théorème 2.1 ne permettent pas
en l’état de construire des intervalles de confiance pour les paramètres α et β.
Exercice E.4 Calculer Cov(A, B). A quelle condition A et B ne sont pas corrélées ?
Remarque. Comme le montre le résultat de l’exercice E.4, les estimateurs A et B ne sont pas
des variables aléatoires indépendantes. En revanche, puisque A et Y sont des variables aléatoires
gaussiennes non corrélées (cf. exercices E.1 et E.3 et théorème 2.1), on déduit que A et Y sont
indépendantes.
Théorème 2.2 Sous les hypothèses du modèle linéaire Gaussien, S 2 est un estimateur sans
biais de σ 2 et on a
n
(n − 2) S 2 1 X 2
2
= 2
Yi − Axi − B ∼ χ2n−2
σ σ
i=1
De plus, S 2 est indépendant des variables aléatoires A, B et Y .
La démonstration de ce théorème repose sur la décomposition en somme de carrés suivante

n n n
X X 2 X 2
ε2i = Yi − Axi − B + (A − α)xi + (B − β) (1)
i=1 i=1 i=1
et sur l’utilisation du théorème de Cochran. En effet, puisque les (εi ) sont iid de loi N (0, σ), on
a
n
1 X 2
εi ∼ χ2n
σ2
i=1
Par ailleurs, on montre facilement que

n n
X 2 X 2
(A − α)xi + (B − β) = (A − α)(xi − x) + (Y − αx − β)
i=1 i=1
n n
X 2 X 2
= (A − α)(xi − x) + Y − αx − β
i=1 i=1
n
X 2
= (A − α)2 (xi − x)2 + n Y − αx − β
i=1
En utilisant alors la loi de A et de Y , et le fait que A et Y soient indépendantes, on déduit que

n
1 X 2
(A − α)x i + (B − β) ∼ χ22
σ2
i=1
On conclut à l’aide du théorème de Cochran.

2.3 Intervalles de confiance

2.3.1 Intervalles de confiance pour α et β
Puisque σ est inconnu, les résultats du théorème 2.1 ne suffisent pas pour bâtir des intervalles
de confiance pour les paramètres α et β. Cependant, en combinant les résultats des théorèmes
2.1 et 2.2 et en utilisant le principe de construction d’une loi de Student, on peut déduire le
corollaire suivant, qui permettra la construction de tels intervalles.
Corollaire 2.3 Sous les hypothèses du modèle linéaire Gaussien,

p p
(A − α) n d2x (B − β) n d2x
∼ Tn−2 et p ∼ Tn−2
S S d2x + x2
Exercice E.5 Montrer que, au niveau de confiance (1 − δ) (ou au risque δ), les intervalles de
confiance des paramètres α et β sont donnés par :
h s tn−2,δ/2 i
IC1−δ (α) = a ± p
n d2x
p
h x2 + d2x i
IC1−δ (β) = b ± s tn−2,δ/2 p
n d2x
h i
où tn−2,δ/2 est tel que Proba |Tn−2 | < tn−2,δ/2 = 1 − δ.
Exercice E.6 Reprendre l’exemple sur la tension systolique et donner, au niveau de confiance
95%, des intervalles de confiance pour α et β.
2.3.2 Intervalle de confiance pour σ 2

On sait d’après le Théorème 2.2 que
(n − 2) S 2
∼ χ2n−2
σ2
La loi du chi-deux étant tabulée, pour tout δ ∈]0, 1[, on peut trouver les réels kα1 et kα2 tels que
h (n − 2) S 2 i
Proba kα1 ≤ ≤ kα 2 = 1−δ
σ2
où kα désigne le fractile d’ordre α du chi-deux à (n − 2) ddl. On prend généralement, α1 = δ/2
et par conséquent α2 = 1 − δ/2. On obtient alors
h (n − 2) S 2 (n − 2) S 2 i
Proba ≤ σ2 ≤ = 1−δ
k1−δ/2 kδ/2
et on en déduit un intervalle de confiance au niveau (1 − δ) pour la variance σ 2 :

h (n − 2) s2 (n − 2) s2 i
IC1−δ (σ 2 ) = ;
k1−δ/2 kδ/2
3 Tests dans le modèle linéaire Gaussien 8
3 Tests dans le modèle linéaire Gaussien

3.1 Introduction
Rappel. Un test statistique est une procédure mathématique qui permet, grâce à un modèle
probabiliste, de conclure, avec un risque connu qu’on a fixé à l’avance, quant à l’acceptation ou
au rejet d’une hypothèse sur le modèle, posée au départ.
Dans le cadre du modèle linéaire gaussien, plusieurs hypothèses peuvent faire l’objet d’un test.
On peut en effet tester
1) l’hypothèse du Modèle Linéaire Gaussien, à savoir les données y1 , . . . , yn sont-elles les
réalisations de n variables aléatoires Y1 , . . . , Yn liées aux données x1 , . . . , xn de la manière
suivante : n o
∀ i ∈ 1, 2, . . . , n , Yi = α xi + β + εi
où α, β ∈ R et où ε1 , . . . , εn sont n variables aléatoires que l’on suppose indépendantes
et de même loi N (0 , σ). Plus précisément, on pourrait tester le caractère gaussien des
résidus εi ainsi que leur indépendance qui ici est équivalente à leur non corrélation.
2) l’hypothèse de lien linéaire significatif entre les données x1 , . . . , xn et y1 , . . . , yn : on testera
l’hypo- thèse H0 : α = 0 contre H1 : α 6= 0
3) l’hypothèse d’un modèle linéaire spécifique : on testera H0 : α = α0 et β = β0 contre
H1 : α 6= α0 ou β 6= β0 où α0 et β0 sont des réels donnés.
3.2 Test du caractère significatif du lien linéaire

On veut tester dans cette partie le caractère significatif du lien linéaire existant entre les
données xi et yi , et plus précisément, on veut tester si le paramètre α est nul ou non. On pose
l’hypothèse nulle
H0 : α = 0
que l’on va tester, au risque δ, contre l’hypothèse alternative
H1 : α 6= 0
L’acceptation de H0 signifiera que la liaison linéaire n’est pas significative, alors que le rejet de
H0 signifiera au contraire que la liaison linéaire est significative. Mais en aucun cas, nous ne
testons l’existence d’une liaison linéaire entre les données xi et yi .
L’idée de base du test est la suivante. On sait d’après le corollaire 2.3 que sous les hypothèses
du Modèle Linéaire Gaussien
p
(A − α) n d2x
∼ Tn−2
S
Par conséquent, puisque α = 0 sous l’hypothèse H0 , alors
p
A n d2x
Z= ∼ Tn−2
S H0
3 Tests dans le modèle linéaire Gaussien 9
Bien entendu, puisque

p p p
A n d2x (A − α) n d2x n d2x
= + α
S S S
et que sous H1 on a α 6= 0, la variable aléatoire Z ne suit plus, sous H1 , une loi Tn−2 . Ce résultat
est suffisant pour construire un test de H0 contre H1 (cf. Paragraphe 4.1). On a en effet une
statistique de test dont on connait la loi sous H0 et dont la loi sous H1 diffère de celle sous H0 .
3.3 Test d’un modèle linéaire spécifique

On veut tester simultanément les deux paramètres α et β. Un tel test est souvent utile
pour savoir si une droite des moindres carrés diffère significativement de la première bissectrice.
Comme les estimateurs A et B des paramètres α et β ne sont pas indépendants, il serait incorrect
de tester successivement α puis β. Soient α0 et β0 des réels donnés.
On pose l’hypothèse nulle
H0 : α = α0 et β = β0
que l’on va tester au risque δ contre l’hypothèse alternative
H1 : α 6= α0 ou β 6= β0
La construction du test repose sur le résultat suivant. A partir de la décomposition en somme

de carrés (1) et de l’utilisation du théorème de Cochran, on peut déduire que pour tout α et β
n
X 2 .
(A − α)xi + (B − β) 2
i=1
n ∼ F (2 ; n − 2)
X 2 .
Yi − A xi − B (n − 2)
i=1
Par conséquent, puisque α = α0 et β = β0 sous l’hypothèse H0 , alors
n
X 2 .
(A − α0 )xi + (B − β0 ) 2
i=1
Z= n ∼ F (2 ; n − 2)
X 2 . H0
Yi − A xi − B (n − 2)
i=1
Bien entendu, cette variable aléatoire Z ne suit plus, sous H1 , une loi F (2 ; n − 2). Ce résultat
est suffisant pour construire un test de H0 contre H1 cf. Paragraphe 4.2). On a en effet une
statistique de test dont on connait la loi sous H0 et dont la loi diffère sous H1 .
4 Construction des différents tests 10
4 Construction des différents tests

4.1 Test au risque δ de H0 : α = 0 contre H1 : α 6= 0
Hypothèses. Cadre du Modèle Linéaire Gaussien.
Statistique utilisée et loi. On utilise la statistique de test

p
A n d2x
Z =
S
qui, sous les hypothèses du Modèle Linéaire Gaussien et sous H0 , suit une loi de Student Tn−2 .
Construction de la zone de rejet. On fixe un risque δ et on calcule tn−2,δ/2 tel que

h i
P |Tn−2 | < tn−2,δ/2 = 1 − δ

La zone de rejet de H0 au risque δ est alors de la forme : |Z| > tn−2,δ/2 .
Stratégie. On calcule la valeur z de Z sur les données (xi , yi )1≤i≤n . On a

p
a n d2x r √
z = = √ n−2
s 1−r 2
où r désigne le coefficient de corrélation linéaire, et on adopte la stratégie suivante :

– si |z| ≤ tn−2,δ/2 alors on accepte H0 au risque δ et on considère que la liaison linéaire
n’est pas significative.
– si |z| > tn−2,δ/2 alors on rejette H0 au risque δ et on considère que la liaison linéaire est
significative.
p
a n d2x r √
Exercice E.7 Montrer que = √ n − 2. On pourra commencer par montrer
s 1 − r2
que
X n Xn X n
2 2
(yi − y) = (yi − axi − b) + (axi + b − y)2
i=1 i=1 i=1
puis en déduire que

n
X
(yi − axi − b)2 = n d2y − a2 n d2x
i=1
Exercice E.8 Reprendre l’étude de l’influence de l’âge sur la valeur de la tension systolique
d’un individu et conclure.
4 Construction des différents tests 11
4.2 Test au risque δ de l’hypothèse H0 : α = α0 et β = β0 contre H1 : α 6= α0

ou β 6= β0
Hypothèses. Cadre du Modèle Linéaire Gaussien.
Statistique utilisée et loi. On utilise la statistique de test

n
X 2 .
(A − α0 )xi + (B − β0 ) 2
i=1
Z = n
X 2 .
Yi − Axi − B (n − 2)
i=1
qui, sous les hypothèses du Modèle Linéaire Gaussien et sous H0 , suit une loi F (2 ; n − 2).
Construction de la zone d’acceptation. On fixe un risque δ et on calcule f2,n−2,δ tel que

h i
Proba F (2 ; n − 2) ≤ f2,n−2,δ = 1 − δ

La zone de rejet de H0 au risque δ est alors de la forme : Z > f2,n−2,δ .
n
X 2
(a − α0 )xi + (b − β0 )
(n − 2) i=1
z = n
2 X 2
yi − axi − b
i=1
n
X
n(b − β0 )2 + 2nx(a − α0 )(b − β0 ) + (a − α0 )2 x2i
(n − 2) i=1
= n n
2 X X
yi2 − n y 2 − a2 x2i − n x2

i=1 i=1
et on adopte la stratégie suivante :

– si z ≤ f2,n−2,δ alors on accepte H0 au risque δ.
– si z > f2,n−2,δ alors on rejette H0 au risque δ.
Exercice E.9 Reprendre l’étude de l’allongement d’un ressort et conclure.

5 Prévision d’une valeur 12
5 Prévision d’une valeur

Le cadre. On dispose des données (x1 , y1 ), . . . , (xn , yn ) et on suppose qu’on est dans le
cadre du modèle linéaire gaussien simple.
Le problème. Supposons que l’on s’intéresse à une donnée x0 pour laquelle on n’a pas observé
de y0 . On veut construire une prévision de ce y0 “non disponible”.
Comment, à partir des données (x1 , y1 ), . . . , (xn , yn ), construire cette prévision ?

Puisqu’on suppose que les (xi ) et les (yi ) sont ”liés linéairement”, on peut construire, en
utilisant l’équation de la droite des moindres carrés, une prévision “naturelle” de ce y0 , notée yb0
et donnée par :
yb0 = a x0 + b
où a et b sont les coefficients de la droite des moindres carrés.
Remarque. Dès qu’on dispose de la droite des moindres carrés, il est toujours possible de
construire cette prévision. En revanche, il n’est pas toujours possible de lui donner un sens ou
d’en apprécier la qualité.
Cependant, puisqu’on est dans le cadre du MLG, yb0 est une réalisation de la variable aléatoire
Y0 définie par
b
Yb0 = A x0 + B
où A et B sont les estimateurs des moindres carrés des paramètres α et β. De plus, puisque A
et B sont respectivement des estimateurs sans biais de α et β, Yb0 est un estimateur sans biais
du paramètre (α x0 + β). En outre, si y0 avait été disponible, on lui aurait associé une variable
aléatoire Y0 qui aurait été liée à x0 par la relation
Y0 = α x0 + β + ε0 avec ε0 ∼ N (0 , σ) et ε0 , ε1 , . . . , εn indépendantes
Ainsi, puisque E(Y0 ) = α x0 + β, Yb0 est un estimateur de E(Y0 ). Par conséquent, yb0 est à la fois
une estimation de l’espérance de Y0 et une prévision de y0 .
En étudiant les propriétés de Yb0 , on pourra construire un intervalle de confiance de l’espérance
de Y0 et un intervalle de prévision (ou intervalle de prédiction ou bien encore intervalle de Pari)
pour la valeur de Y0 .
5.1 Intervalle de confiance pour l’espérance de Y0

La construction d’un intervalle de confiance pour l’espérance de Y0 repose sur le théorème
suivant.
Théorème 5.1 Dans le cadre du modèle linéaire Gaussien,
Yb0 − E(Y0 )
s ∼ Tn−2
1 (x0 − x)2
S +
n nd2x
5 Prévision d’une valeur 13
A partir de ce résultat, on peut bâtir l’intervalle de confiance pour le paramètre inconnu E(Y0 ) =
α x0 + β. Au niveau de confiance (1 − δ%) ou au risque δ%, cet intervalle a pour expression :
" s #
1 (x0 − x)2
ICδ% (E(Y0 )) = yb0 ± tn−2,δ/2 s +
n nd2x
h i
où tn−2,δ/2 est tel que Proba |Tn−2 | ≤ tn−2,δ/2 = 1 − δ% .
Exercice E.10 Démontrer ce résultat.
Remarque. En faisant varier x0 , les intervalles de confiance définissent deux hyperboles qui
sont la bande de confiance de la droite de régression. On voit d’après les bornes de l’intervalle,
que plus on s’éloigne du point moyen (x, y), moins l’estimation sera précise.
5.2 Intervalle de prévision pour une observation Y0

On s’attache maintenant à prédire la valeur de Y0 et non son espérance. L’estimation ponc-
tuelle de la prévision de y0 pour un x0 donné est fournie par la droite des moindres carrés :
yb0 = ax0 + b
Le problème est de savoir quelle confiance on peut accorder à cette prévision. Pour cela, on
construit un intervalle de prévision de la variable aléatoire Y0 = αx0 + β + ε0 à un niveau
de confiance (1 − δ%) donné, c’est à dire que l’on cherche à encadrer les valeurs que l’on peut
observer pour Y sachant que x est égal à x0 . La construction de cet intervalle repose sur le
théorème suivant.
Théorème 5.2 Dans le cadre du modèle linéaire Gaussien,
Yb0 − Y0
s ∼ Tn−2
1 (x0 − x)2
S 1+ +
n nd2x
A partir de ce résultat, on peut bâtir un intervalle de Pari ou de Prévision pour la valeur inconnue
de Y0 . Au niveau de confiance (1 − δ%) ou au risque δ%, cet intervalle a pour expression :
" s #
1 (x0 − x)2
IPδ% (Y0 ) = yb0 ± tn−2,δ/2 s 1 + +
n nd2x
h i
où tn−2,δ/2 est tel que Proba |Tn−2 | ≤ tn−2,δ/2 = 1 − δ% .
Exercice E.11 Démontrer ce résultat.

6 Test du caractère significatif du lien linéaire : l’approche comparaison de modèles 14
Remarques. L’intervalle de prévision est toujours centré en yb0 mais cette fois le terme de
variance regroupe deux termes, l’un correspondant (comme précédemment) aux erreurs d’esti-
mation des coefficients de régression α et β (dues aux fluctuations d’échantillonnage), et l’autre
à l’erreur d’estimation due au fait qu’on estime une seule valeur Y avec ses fluctuations (et
non la moyenne de tous les Y possibles pour x0 ). Il y a donc un terme supplémentaire dans la
variance correspondant aux fluctuations de l’observation particulière Y0 (Var(ε0 ) = σ 2 ).
On vérifie en effet que ICδ% (E(Y0 )) ⊂ IPδ% (Y0 ). L’intervalle de prévision est plus gros que
l’intervalle de confiance car il en prend en compte l’erreur de modélisation (variance de ε0 ). Il
est bien sûr plus difficile de prédire une valeur particulière Y0 que l’espérance E(Y0 ) pour x = x0 .
Exercice E.12 Reprendre l’étude de l’influence de l’âge sur la valeur de la tension systolique
d’un individu et construire une prévision de la valeur de la tension systolique d’une personne
âgée de 50 ans, de 90 ans. Pour chacune des deux valeurs, construire les IC et IP au risque 5%.
6 Test du caractère significatif du lien linéaire : l’approche com-

paraison de modèles
On se propose maintenant de tester le caractère significatif de la liaison linéaire par compa-
raison de modèles. Tester l’hypothèse H0 : α = 0 contre l’hypothèse H1 : α 6= 0, revient
aussi à comparer les modèles M1 et M2 (respectivement à un et deux paramètres d’espérance)
définis par :
M1 : Yi = β + εi , (εi ) iid de loi N (0, σ 2 )

M2 : Yi = αxi + β + εi , (εi ) iid de loi N (0, σ 2 )
Le modèle M1 est un sous-modèle du modèle M2 , car il correspond au cas particulier α = 0.

Comparer les deux modèles, c’est tester, au risque δ% fixé, l’hypothèse nulle
H0 : modèle M1
contre l’alternative
H1 : modèle M2
La construction du test repose sur le théorème suivant.
Théorème 6.1 Sous les hypothèses du modèle linéaire Gaussien et sous H0 ,
n
X 2 .
Y − A xi − B 1
i=1
Z= n ∼ F (1 ; n − 2)
X 2 .
Yi − A xi − B (n − 2)
i=1
Bien entendu, la variable aléatoire Z ne suit plus, sous H1 , une loi F (1 ; n − 2). Ce résultat
est suffisant pour construire un test de H0 contre H1 (cf. Paragraphe 6.1). On a en effet une
statistique de test dont on connait la loi sous H0 et dont la loi diffère sous H1 .
Pn
La démonstration du théorème repose sur la décomposition de i=1 (Yi − Y )2 en somme des
carrés expliqués et somme des carrés résiduels, à savoir
n n n
X 2 X 2 X 2
Yi − Y = Y − A xi − B + Yi − A xi − B
i=1 i=1 i=1
et sur l’utilisation du théorème de Cochran. En effet, on a d’une part d’après le théorème 2.2,
n
1 X 2
2
Yi − A xi − B ∼ χ2n−2
σ
i=1
D’autre part, sous H0 , les variables aléatoires (Yi ) sont iid et de loi N (β, σ) et par conséquent
n
1 X 2
2
Yi − Y ∼ χ2n−1
σ
i=1
Le théorème de Cochran et le procédé de construction d’une Fisher nous permettent alors de
conclure.
6.1 Le test au risque δ de H0 : α = 0 contre H1 : α 6= 0
Hypothèses. Celles du Modèle Linéaire Gaussien.

Statistique utilisée et loi. On utilise la statistique
n
X 2 .
Y − A xi − B 1
i=1
Z = n
X 2 .
Yi − A xi − B (n − 2)
i=1
qui, sous les hypothèses du Modèle Linéaire Gaussien et sous H0 , suit une loi F (1 ; n − 2).
Construction de la zone de rejet. On fixe un risque δ% et on calcule f1,n−2,δ tel que

h i
Proba F (1 ; n − 2) ≤ f1,n−2,δ = 1 − δ%

La zone de rejet de H0 au risque δ% est de la forme : Z > f1,n−2,δ .

n
X 2
y − axi − b
i=1
z = (n − 2) n
X 2
yi − axi − b
i=1
et on adopte alors la stratégie suivante :

– si z ≤ f1,n−2,δ alors on accepte H0 au risque δ% : le modèle M1 suffit pour expliquer Y ,
autrement dit la liaison linéaire n’est pas significative.
– si z > f1,n−2,δ alors on rejette H0 au risque δ% : on conserve le modèle complet M2 et la
liaison linéaire est significative.
6.2 Interprétation de la comparaison de modèles par analyse de la variance

Nous avons en fait comparé le (sous-)modèle M1 : Yi = β + εi , (εi ) iid de loi N (0, σ 2 ), au
modèle complet M2 : Yi = αxi + β + εi , (εi ) iid de loi N (0, σ 2 ), en comparant les estimations
de la variance résiduelle σ 2 dans chacun des modèles M1 et M2 .
Dans le modèle M2 , nous avons estimé les paramètres (d’espérance) α et β par les estimateurs
des moindres carrés A et B, et la variance résiduelle σ 2 par
n
2 1 X SCR(M2 )
S(M2)
= (Yi − Axi − B)2 =
n−2 n−2
i=1
où SCR(M2 ) est la somme des carrés résiduels dans le modèle M2 .
Dans le modèle M1 , l’estimateur des moindres carrés du paramètre (d’espérance) βPest B = Y . Il

s’obtient comme réalisant le minimum (en β) de la fonction à une variable f (β) = ni=1 (Yi −β)2 .
Dans ce sous-modèle, on estime alors la variance résiduelle σ 2 par
n n
2 1 X 1 X SCR(M1 )
S(M1)
= (Yi − B)2 = (Yi − Y )2 =
n−1 n−1 n−1
i=1 i=1
Ainsi, la somme des carrés résiduels dans le modèle M1 , c’est à dire sous H0 , est égale à la
somme des carrés totale. La formule de décomposition de la variance se reécrit donc
SCR(M1 ) = SCM + SCR(M2 )
soit encore
SCM = SCR(M1 ) − SCR(M2 )
et la statistique de test est
SCM
Z =
SCR(M2 ) / (n − 2)
La quantité SCM représente la réduction d’erreurs quand on passe du modèle M1 au modèle M2 .
On a bien sûr SCR(M1 ) ≥ SCR(M2 ) ce qui traduit que plus on prend en compte d’information
(dans le modèle), plus on diminue les ”erreurs résiduelles” (la diminution du nombre de variables
explicatives contribue à augmenter les résidus). SCM est la partie de la somme des carrés
résiduels expliquée par le passage du petit modèle M1 au gros modèle M2 . Si SCM est grand,
la réduction d’erreurs est importante et le modèle M2 contribue mieux à expliquer Y (on rejette
le modèle M1 , c’est à dire, on rejette H0 ).
Le test fondé sur la statistique Z nous donne donc la significativité de la réduction d’erreurs
(et donc de la contribution du modèle). Il permet de répondre à la question : le gain du à
7 Rappel de probabilité 17
l’introduction de la pente α est-il significatif, cad la droite des moindres carrés y = ax + b

(modèle M2 ) explique t-elle mieux le nuage de point que la droite horizontale y = ȳ (modèle M1 ) ?
L’introduction de la pente (modèle M2 ) a permis d’expliquer SCM = SCR(M1 ) − SCR(M2 ) et
laisse inexpliquée SCR(M2 ).
La table d’analyse de la variance s’écrit de la manière suivante :
Source ddl Somme des carrés Carrés moyen Statistique de test

Expliqué par le SCM = CM M
2−1=1 CM M = SCM/1 z=
passage de M1 à M2 SCR(M1 ) − SCR(M2 ) CM R(M2 )
SCR(M2 )
modèle M2 n−2 SCR(M2 ) CM R(M2 ) =
(n − 2)
SCR(M1 )
modèle M1 n−1 SCR(M1 ) CM R(M1 ) =
(n − 1)
Pour comparer le modèle M1 au modèle M2 , on dit que l’on a analysé la variance de la

régression en comparant les estimations des variances résiduelles dans les modèles M1 et M2 .
Exercice E.13 Reprendre l’exemple sur l’étude de l’influence de l’âge sur la tension systolique
et conclure.
6.3 Lien entre les deux points de vue pour tester la significativité de la liaison
linéaire
p
A nd2x
Le test de la nullité de α a pour statistique de test Z1 = qui a pour loi sous H0 une
S
Student à (n − 2) degrés de liberté Tn−2 . Le point de vue comparaison de modèles conduit à la
CM M
statistique de test Z2 = qui a pour loi sous H0 , une Fisher F (1, n − 2).
CM R(M2 )
Les deux procédures sont bien entendu équivalentes. En effet, on peut montrer que Z12 = Z2
et que la loi du carré d’une variable aléatoire qui suit une de loi Student Tn−2 est une loi de
Fisher F (1, n − 2).
7 Rappel de probabilité
7.1 Covariance
Définition 1. Soit (X, Y ) un couple de variables aléatoires. On appelle covariance de (X, Y ),
notée Cov(X, Y ), le nombre réel, s’il existe, donné par
Cov(X, Y ) = E [(X − E [X])(Y − E [Y ])]
Remarque. On peut noter que cette définition est parfaitement symétrique par rapport aux
deux coordonnées X et Y . On a ainsi Cov(X, Y ) = Cov(Y, X). De plus, on peut généraliser le
théorème de Kœnig :
Cov(X, Y ) = E [XY ] − E [X] E [Y ]

7 Rappel de probabilité 18
Par conséquent, si X et Y sont deux variables aléatoires indépendantes alors Cov(X, Y ) = 0.

Notons que la réciproque est généralement fausse
Enfin, on a bien évidemment Cov(X, X) = Var(X).
Propriété. L’opérateur covariance étant linéaire par rapport à chacune de ses coordonnées, si
X1 , X2 , Y1 , Y2 sont quatre variables aléatoires et α1 , α2 , β1 , β2 quatre nombres réels alors
Cov(α1 X1 + α2 X2 , β1 Y1 + β2 Y2 ) = α1 β1 Cov(X1 , Y1 ) + α1 β2 Cov(X1 , Y2 )

+ α2 β1 Cov(X2 , Y1 ) + α2 β2 Cov(X2 , Y2 )
Corollaire. Soit (X, Y ) un couple de variables aléatoires et soient α, β deux nombres réels.
Alors,
Var(αX + βY ) = α2 Var(X) + β 2 Var(Y ) + 2αβ Cov(X, Y )
7.2 Khi-deux
Théorème. Pour n ≥ 1, soient Z1 , . . . , Zn n variables aléatoires indépendantes et de même
n
X
loi N (0, 1). Alors, Sn = Zk2 suit une loi du khi-deux à n degrés de liberté et on note :
k=1
Sn ∼ χ2 (n).
Corollaire. Si X suit une loi χ2 (n), alors E [X] = n et Var(X) = 2n.
Corollaire. Soit X et Y deux variables aléatoires indépendantes de loi respectives χ2 (n) et
χ2 (m). Alors,
Z = X +Y ∼ χ2 (n + m)
Conséquence (Théorème de Cochran). Soit X, Y et Z trois variables aléatoires positives

telles que Z = X + Y . Si Z ∼ χ2 (n) et X ∼ χ2 (p), alors Y ∼ χ2 (n − p) et on a l’indépendance
entre X et Y .
7.3 Student et Fisher

Soient U et V deux variables aléatoires indépendantes.
U
– si U ∼ N (0 , 1) et V ∼ χ2n alors p ∼ Tn
V
/ n
U /p
– si U ∼ χ2p et V ∼ χ2q alors ∼ F (p ; q)
V /q

Cours GLM Simple

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours GLM Simple

Transféré par

Droits d'auteur :

Formats disponibles

Le Modèle Linéaire Gaussien simple

INSA de Rouen – Génie Mathématique - 4ème Année

Exercice E.1 Donner, pour tout i = 1, . . . , n, la loi de Yi .

Remarque. Par construction, les variables aléatoires Y1 , . . . , Yn sont indépendantes.

1.2 Exemples de modélisation par un Modèle Linéaire Gaussien

(xi − x)2 (yi − y)2

Droite des Moindres Carrés d’équation Y = 1.9925 X + 0.072365 (r = 0.99993)

contre l’hypothèse alternative

1.2.2 Etude de l’influence de l’âge sur la valeur de la tension systolique

A partir des informations suivantes :

(xi − x)2 (yi − y)2

Nuage de points et DMC (r = 0.9281)

DMC : y = 0.8718 x + 91.3723 ●

contre l’hypothèse alternative

2 Estimation des paramètres du modèle linéaire

2.1 Définition des estimateurs

• Estimation de σ 2 . Pour estimer le paramètre inconnu σ 2 , on prend un estimateur classique

2.2 Propriétés et loi des estimateurs

De plus, S 2 est indépendant des variables aléatoires A, B et Y .

La démonstration de ce théorème repose sur la décomposition en somme de carrés suivante

Par ailleurs, on montre facilement que

En utilisant alors la loi de A et de Y , et le fait que A et Y soient indépendantes, on déduit que

On conclut à l’aide du théorème de Cochran.

2.3 Intervalles de confiance

Corollaire 2.3 Sous les hypothèses du modèle linéaire Gaussien,

2.3.2 Intervalle de confiance pour σ 2

et on en déduit un intervalle de confiance au niveau (1 − δ) pour la variance σ 2 :

3 Tests dans le modèle linéaire Gaussien

3.2 Test du caractère significatif du lien linéaire

Bien entendu, puisque

3.3 Test d’un modèle linéaire spécifique

La construction du test repose sur le résultat suivant. A partir de la décomposition en somme

Par conséquent, puisque α = α0 et β = β0 sous l’hypothèse H0 , alors

4 Construction des différents tests

Hypothèses. Cadre du Modèle Linéaire Gaussien.

Statistique utilisée et loi. On utilise la statistique de test

Construction de la zone de rejet. On fixe un risque δ et on calcule tn−2,δ/2 tel que

Stratégie. On calcule la valeur z de Z sur les données (xi , yi )1≤i≤n . On a

où r désigne le coefficient de corrélation linéaire, et on adopte la stratégie suivante :

puis en déduire que

4.2 Test au risque δ de l’hypothèse H0 : α = α0 et β = β0  contre H1 : α 6= α0

Hypothèses. Cadre du Modèle Linéaire Gaussien.

Statistique utilisée et loi. On utilise la statistique de test

Construction de la zone d’acceptation. On fixe un risque δ et on calcule f2,n−2,δ tel que

Stratégie. On calcule la valeur z de Z sur les données (xi , yi )1≤i≤n . On a

et on adopte la stratégie suivante :

Exercice E.9 Reprendre l’étude de l’allongement d’un ressort et conclure.

5 Prévision d’une valeur

Comment, à partir des données (x1 , y1 ), . . . , (xn , yn ), construire cette prévision ?

5.1 Intervalle de confiance pour l’espérance de Y0

Théorème 5.1 Dans le cadre du modèle linéaire Gaussien,

Exercice E.10 Démontrer ce résultat.

5.2 Intervalle de prévision pour une observation Y0

Théorème 5.2 Dans le cadre du modèle linéaire Gaussien,

Exercice E.11 Démontrer ce résultat.

6 Test du caractère significatif du lien linéaire : l’approche com-

M1 : Yi = β + εi , (εi ) iid de loi N (0, σ 2 )

Le modèle M1 est un sous-modèle du modèle M2 , car il correspond au cas particulier α = 0.

Théorème 6.1 Sous les hypothèses du modèle linéaire Gaussien et sous H0 ,

6.1 Le test au risque δ de H0 : α = 0 contre H1 : α 6= 0

Hypothèses. Celles du Modèle Linéaire Gaussien.

Construction de la zone de rejet. On fixe un risque δ% et on calcule f1,n−2,δ tel que

Stratégie. On calcule la valeur z de Z sur les données (xi , yi )1≤i≤n . On a

et on adopte alors la stratégie suivante :

4.2 Test au risque δ de l’hypothèse H0 : α = α0 et β = β0 contre H1 : α 6= α0

6.1 Le test au risque δ de H0 : α = 0 contre H1 : α 6= 0