Vous êtes sur la page 1sur 19

Le Modèle Linéaire Gaussien simple

Antoine Godichon-Baggioni

INSA de Rouen – Génie Mathématique - 4ème Année

1 Introduction
1.1 Le modèle linéaire Gaussien
On dispose de n observations bidimensionnelles (x1 , y1 ), . . . , (xn , yn ) . On considère la si-
tuation particulière suivante : les données x1 , . . . , xn ne sont pas des réalisations de variables
aléatoires, mais sont contrôlées ou imposées par la nature des choses. En revanche, on suppose
que les données y1 , . . . , yn sont les réalisations de n variables aléatoires Y1 , . . . , Yn .
L’exemple typique est celui des séries chronologiques dans lequel on mesure une quantité Y
à différentes dates x1 , . . . , xn , l’aléatoire étant lié, par exemple, aux erreurs de mesure.
Plus précisément dans le cadre du Modèle Linéaire, les données x1 , . . . , xn ne sont pas des
réalisations de variables aléatoires et on suppose que les données y1 , . . . , yn sont les réalisations
de n variables aléatoires Y1 , . . . , Yn qui sont liées aux données x1 , . . . , xn de la manière suivante :
n o
∀ i ∈ 1, 2, . . . , n , Yi = α xi + β + εi

où α, β ∈ R et où ε1 , . . . , εn sont n variables aléatoires que l’on suppose centrées, indépendantes,
de même loi et de variance σ 2 . Les paramètres α, β et σ 2 sont inconnus. Notons que par construc-
tion, les variables aléatoires Y1 , . . . , Yn sont indépendantes.
Lorsque les variables ε1 , . . . , εn sont gaussiennes, on parle de Modèle Linéaire Gaussien et
c’est dans ce cadre que nous poursuivrons l’étude.

Exercice E.1 Donner, pour tout i = 1, . . . , n, la loi de Yi .

Remarque. Par construction, les variables aléatoires Y1 , . . . , Yn sont indépendantes.


n
1 X
Exercice E.2 Donner la loi de Y où Y = Yj .
n
j=1

1.2 Exemples de modélisation par un Modèle Linéaire Gaussien


1.2.1 Etude de l’allongement d’un ressort
1 Introduction 1

Une approche tant expérimentale que théorique tend à montrer que l’allongement d’un ressort
est directement proportionnnel à la force appliquée à ce ressort. Ceci peut s’exprimer par la
relation
A = kF
où l’on a noté A l’allongement du ressort, F la force appliquée et k le coefficient de  raideur
du ressort.
Pour déterminer la raideur d’un ressort particulier, un étudiant pratique, lors d’un TP de
physique, 10 expériences, que l’on pourra considérer comme étant indépendantes, permettant
de noter les allongements du ressort obtenus pour des forces données. Il consigne les résultats
obtenus dans un tableau.

No 1 2 3 4 5 6 7 8 9 10
F 1 5 10 15 20 25 30 35 40 50
A 2 9.9 20 30.2 39.9 50 60.2 68.9 80.3 99.6
Après avoir représenté sur un graphique les différentes mesures et ajusté une droite au nuage de
points, il affirme que le coefficient de raideur du ressort est égal à 2.
Est-il possible de confirmer ou d’infirmer avac un risque de 5% cette valeur.

Pour répondre à cette question, l’idée va être de mettre en œuvre un test statistique. Pour
cela, on a besoin d’un modèle probabiliste et on pense tout naturellement au modèle linéaire
gaussien. La première étape consiste à voir si on peut envisager une liaison linéaire entre A et
F . On utilise pour cela une approche de type statistique descriptive.

Notons (xi )1≤i≤10 les différentes valeurs de F et (yi )1≤i≤10 les différentes valeurs de A obtenues.
A partir des informations suivantes :

(xi − x)2 (yi − y)2


P P P P P P
xi yi xi yi (xi − x) (yi − y)
231 461 2 264,9 15 162 8 993,46 4 512,9
on déduit facilement les cefficients de la droite des moindres carrés a et b, ainsi que la valeur du
coefficient de corrélation linéaire r :

a b r
1.9925 0.07236 0.99993
On peut alors représenter le nuage de points et ajuster la droite des moindres carrés Voici ce
que l’on obtient :
1 Introduction 2

Droite des Moindres Carrés d’équation Y = 1.9925 X + 0.072365 (r = 0.99993)


100

90

80

70
Allongement du ressort (en cm)

60

50

40

30

20

10

0
0 5 10 15 20 25 30 35 40 45 50
Force appliquée au ressort (en Newton)

On constate que les points sont pratiquement alignés sur la droite des moindres carrés. Le coef-
ficient de corrélation linéaire est presque égal à 1. Il est donc plus que raisonnable de considérer
que A et F sont liés linéairement, ce qui est la réalité physique. Cependant, on constate que
la relation A = kF n’est pas exactement vérifiée avec ces données, la liaison linéaire n’est pas
exacte. On observe en effet de petites fluctuations, dues certainement aux erreurs de mesure.
Nous allons donc modéliser ces fluctuation en considérant que les données y1 , . . . , y10 sont les
réalisations de variables aléatoires Y1 , . . . , Y10 liées aux données x1 , . . . , x10 (qui ont été fixés
par l’expérimentateur et qui donc ne sont pas des réalisations de variables aléatoires), par la
relation :
Yi = α xi + β + εi , i = 1, · · · , 10
où ε1 , . . . , ε10 sont des variables aléatoires centrées, indépendantes qu’on supposera de variance
commune σ 2 . Les variables (εi ) modélisent les erreurs de mesure. Si on suppose de plus que les
variables (εi ) sont gaussiennes, alors on sera dans le cadre du modèle linéaire gaussien simple,
et il sera possible de mettre en œuvre un test. Pour savoir si le coefficient de raideur du ressort
est bien égal à 2, on testera au risque 5%, l’hypothèse nulle

H0 :  α = 2 et β = 0

contre l’hypothèse alternative


H1 :  α 6= 2 ou β 6= 0
En cas d’acceptation de H0 , on pourra considérer que l’étudiant a raison.

1.2.2 Etude de l’influence de l’âge sur la valeur de la tension systolique


L’observation de la tension systolique T et de l’âge A chez 15 patientes de plus de 40 ans
fournit les données suivantes :

No 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
A 42 46 71 80 74 70 80 85 72 64 81 41 61 75 53
T 130 125 148 156 162 151 156 162 158 155 160 125 150 165 135
1 Introduction 3

On veut savoir, au risque 5% et dans la mesure où il est raisonnable d’envisager une relation
linéaire entre l’âge et la valeur de la tension systolique d’un individu, si l’âge influe effectivement
(ou de manière significative) sur la valeur de la tension systolique.

Pour répondre à cette question, il faut donc mettre en œuvre un test statistique. Pour cela, on a
besoin d’un modèle probabiliste et on pense là encore au modèle linéaire gaussien. Comme dans
l’exemple précédent, en utilisant les outils de statistique descriptive, on essaie de voir si on peut
envisager une liaison linéaire entre l’âge et la tension systolique.

A partir des informations suivantes :

(xi − x)2 (yi − y)2


P P P P P P
xi yi xi yi (xi − x) (yi − y)
995 2 238 2 997,33 151 067 2 644,40 2 613
où l’on a noté (xi )1≤i≤15 les différents âges A et (yi )1≤i≤15 les différentes valeurs de la tension
T obtenue, on déduit les cefficients de la droite des moindres carrés a et b, ainsi que la valeur
du coefficient de corrélation linéaire r :

a b r
0.8718 91.3723 0.9281
On peut alors représenter le nuage de points et ajuster la droite des moindres carrés Voici ce
que l’on obtient :

Nuage de points et DMC (r = 0.9281)

DMC : y = 0.8718 x + 91.3723 ●

● ●
160





Tension systolique
150




140


130

● ●

40 50 60 70 80
Age

On constate que le nuage de points a une forme allongée, la droite des moindres carrés ajuste et
résume bien le nuage de points. Par ailleurs, le coefficient de corrélation linéaire est bon, il est
proche de 1. Il est donc raisonnable de considérer que l’âge et la tension sont liés linéairement.
Cependant, cette liaison linéaire n’est pas exacte, les données fluctuent autour de la droite des
moindres carrés. Nous allons donc modéliser ces fluctuation en considérant que les données
2 Estimation des paramètres du modèle linéaire 4

y1 , . . . , y15 sont les réalisations de variables aléatoires Y1 , . . . , Y15 liées aux données x1 , . . . , x15
par la relation :
Yi = α xi + β + εi , i = 1, · · · , 15
où ε1 , . . . , ε15 sont des variables aléatoires centrées, indépendantes qu’on supposera de variance
commune σ 2 . Si on suppose de plus que les variables (εi ) sont gaussiennes, ce qui est raisonnable
dans ce contexte, alors on sera dans le cadre du modèle linéaire gaussien simple, et il sera possible
de mettre en œuvre un test. Pour savoir si l’âge influe de manière significative sur la tension, on
testera au risque 5%, l’hypothèse nulle

H0 :  α = 0

contre l’hypothèse alternative


H1 :  α 6= 0
En cas d’acceptation de H0 , on considérera que la liaison linéaire n’est pas significative, au-
trement dit que l’âge n’influe pas de manière significative sur la tension. En revanche, en cas
de rejet de H0 , on considérera que la liaison linéaire est significative, et donc que l’âge influe
réellement sur la valeur de la tension systolique.

2 Estimation des paramètres du modèle linéaire


On se place dans le cadre du Modèle Linéaire Gaussien (cf. Paragraph 1.1). On s’intéresse à
l’estimation des paramètres inconnus du modèle linéaire Gaussien que sont α, β et σ. On notera
respectivement A, B et S les estimateurs des paramètres α, β et σ.

2.1 Définition des estimateurs


• Estimation de α et β. La construction des estimateurs A et B des paramètres réels α et β
est basée sur une méthode de moindres carrés. On cherche les estimateurs A et B de sorte que
la quantité
n
X 2
f (A, B) = Yi − Axi − B
i=1

soit minimale. En procédant de la même manière que pour la détermination des coefficients a
et b de la droite des moindres carrés, on montre que les valeurs de A et de B qui minimisent
f (A, B) sont données par :
n
X 
(xi − x) Yi − Y
i=1
A = n et B = Y − A x
X 2
(xi − x)
i=1

On dit alors que A et B sont les estimateurs des moindres carrés des paramètres α et β. Les
réalisations de A et B sur les données, qui sont aussi les estimations des paramètres α et β, sont
2 Estimation des paramètres du modèle linéaire 5

données par :
n
X
(xi − x) (yi − y)
i=1 dxy
a = n = et b = y − a x
X d2x
(xi − x)2
i=1
Les coefficients a et b sont bien évidemment les coefficients de la droite des moindres carrés.

• Estimation de σ 2 . Pour estimer le paramètre inconnu σ 2 , on prend un estimateur classique


de la variance, donné par :
n
2 1 X 2
S = Yi − Axi − B
n−2
i=1

Notons que n doit être supérieur ou égal à 3. L’estimateur de σ est alors donné par :
v
u n
u 1 X 2
S = t Yi − Axi − B
n−2
i=1
v
u n
u 1 X 2
On notera s la réalisation de S sur les données (xi , yi )1≤i≤n :s = t yi − axi − b
n−2
i=1
.

Exercice E.3 Montrer que A et Y ne sont pas corrélées. On commencera par montrer qu’on
peut réécrire A sous la forme
n n
1 X X
A = 2
2
(xi − x) Yi avec n dx = (xi − x)2
n dx
i=1 i=1

2.2 Propriétés et loi des estimateurs


Nous allons préciser dans cette partie la loi des différents estimateurs que nous avons intro-
duits précédemment. Les résultats énoncés seront utiles pour la construction des tests que nous
effectuerons dans le cadre du modèle linéaire Gaussien.

Théorème 2.1 Sous les hypothèses du modèle linéaire Gaussien, A et B sont des estimateurs
sans biais et convergents des paramètres α et β, et on a
p
σ  σ d2x + x2 
A ∼ N α, p et B ∼ N β , p
n d2x n d2x

Remarque. La variance σ 2 étant inconnue, les résultats du théorème 2.1 ne permettent pas
en l’état de construire des intervalles de confiance pour les paramètres α et β.

Exercice E.4 Calculer Cov(A, B). A quelle condition A et B ne sont pas corrélées ?
2 Estimation des paramètres du modèle linéaire 6

Remarque. Comme le montre le résultat de l’exercice E.4, les estimateurs A et B ne sont pas
des variables aléatoires indépendantes. En revanche, puisque A et Y sont des variables aléatoires
gaussiennes non corrélées (cf. exercices E.1 et E.3 et théorème 2.1), on déduit que A et Y sont
indépendantes.

Théorème 2.2 Sous les hypothèses du modèle linéaire Gaussien, S 2 est un estimateur sans
biais de σ 2 et on a
n
(n − 2) S 2 1 X 2
2
= 2
Yi − Axi − B ∼ χ2n−2
σ σ
i=1

De plus, S 2 est indépendant des variables aléatoires A, B et Y .

La démonstration de ce théorème repose sur la décomposition en somme de carrés suivante


n n n
X X 2 X 2
ε2i = Yi − Axi − B + (A − α)xi + (B − β) (1)
i=1 i=1 i=1

et sur l’utilisation du théorème de Cochran. En effet, puisque les (εi ) sont iid de loi N (0, σ), on
a
n
1 X 2
εi ∼ χ2n
σ2
i=1

Par ailleurs, on montre facilement que


n n
X 2 X 2
(A − α)xi + (B − β) = (A − α)(xi − x) + (Y − αx − β)
i=1 i=1
n n
X 2 X 2
= (A − α)(xi − x) + Y − αx − β
i=1 i=1
n
X 2
= (A − α)2 (xi − x)2 + n Y − αx − β
i=1

En utilisant alors la loi de A et de Y , et le fait que A et Y soient indépendantes, on déduit que


n
1 X 2
(A − α)x i + (B − β) ∼ χ22
σ2
i=1

On conclut à l’aide du théorème de Cochran.


2 Estimation des paramètres du modèle linéaire 7

2.3 Intervalles de confiance


2.3.1 Intervalles de confiance pour α et β
Puisque σ est inconnu, les résultats du théorème 2.1 ne suffisent pas pour bâtir des intervalles
de confiance pour les paramètres α et β. Cependant, en combinant les résultats des théorèmes
2.1 et 2.2 et en utilisant le principe de construction d’une loi de Student, on peut déduire le
corollaire suivant, qui permettra la construction de tels intervalles.

Corollaire 2.3 Sous les hypothèses du modèle linéaire Gaussien,


p p
(A − α) n d2x (B − β) n d2x
∼ Tn−2 et p ∼ Tn−2
S S d2x + x2
Exercice E.5 Montrer que, au niveau de confiance (1 − δ) (ou au risque δ), les intervalles de
confiance des paramètres α et β sont donnés par :
h s tn−2,δ/2 i
IC1−δ (α) = a ± p
n d2x
p
h x2 + d2x i
IC1−δ (β) = b ± s tn−2,δ/2 p
n d2x
h i
où tn−2,δ/2 est tel que Proba |Tn−2 | < tn−2,δ/2 = 1 − δ.

Exercice E.6 Reprendre l’exemple sur la tension systolique et donner, au niveau de confiance
95%, des intervalles de confiance pour α et β.

2.3.2 Intervalle de confiance pour σ 2


On sait d’après le Théorème 2.2 que
(n − 2) S 2
∼ χ2n−2
σ2

La loi du chi-deux étant tabulée, pour tout δ ∈]0, 1[, on peut trouver les réels kα1 et kα2 tels que
h (n − 2) S 2 i
Proba kα1 ≤ ≤ kα 2 = 1−δ
σ2
où kα désigne le fractile d’ordre α du chi-deux à (n − 2) ddl. On prend généralement, α1 = δ/2
et par conséquent α2 = 1 − δ/2. On obtient alors
h (n − 2) S 2 (n − 2) S 2 i
Proba ≤ σ2 ≤ = 1−δ
k1−δ/2 kδ/2

et on en déduit un intervalle de confiance au niveau (1 − δ) pour la variance σ 2 :


h (n − 2) s2 (n − 2) s2 i
IC1−δ (σ 2 ) = ;
k1−δ/2 kδ/2
3 Tests dans le modèle linéaire Gaussien 8

3 Tests dans le modèle linéaire Gaussien


3.1 Introduction
Rappel. Un test statistique est une procédure mathématique qui permet, grâce à un modèle
probabiliste, de conclure, avec un risque connu qu’on a fixé à l’avance, quant à l’acceptation ou
au rejet d’une hypothèse sur le modèle, posée au départ.

Dans le cadre du modèle linéaire gaussien, plusieurs hypothèses peuvent faire l’objet d’un test.
On peut en effet tester
1) l’hypothèse du Modèle Linéaire Gaussien, à savoir les données y1 , . . . , yn sont-elles les
réalisations de n variables aléatoires Y1 , . . . , Yn liées aux données x1 , . . . , xn de la manière
suivante : n o
∀ i ∈ 1, 2, . . . , n , Yi = α xi + β + εi
où α, β ∈ R et où ε1 , . . . , εn sont n variables aléatoires que l’on suppose indépendantes
et de même loi N (0 , σ). Plus précisément, on pourrait tester le caractère gaussien des
résidus εi ainsi que leur indépendance qui ici est équivalente à leur non corrélation.
2) l’hypothèse de lien linéaire significatif entre les données x1 , . . . , xn et y1 , . . . , yn : on testera
l’hypo- thèse H0 : α = 0 contre H1 : α 6= 0
3) l’hypothèse d’un modèle linéaire spécifique : on testera H0 : α = α0 et β = β0  contre
H1 : α 6= α0 ou β 6= β0  où α0 et β0 sont des réels donnés.

3.2 Test du caractère significatif du lien linéaire


On veut tester dans cette partie le caractère significatif du lien linéaire existant entre les
données xi et yi , et plus précisément, on veut tester si le paramètre α est nul ou non. On pose
l’hypothèse nulle
H0 : α = 0
que l’on va tester, au risque δ, contre l’hypothèse alternative

H1 :  α 6= 0

L’acceptation de H0 signifiera que la liaison linéaire n’est pas significative, alors que le rejet de
H0 signifiera au contraire que la liaison linéaire est significative. Mais en aucun cas, nous ne
testons l’existence d’une liaison linéaire entre les données xi et yi .
L’idée de base du test est la suivante. On sait d’après le corollaire 2.3 que sous les hypothèses
du Modèle Linéaire Gaussien
p
(A − α) n d2x
∼ Tn−2
S
Par conséquent, puisque α = 0 sous l’hypothèse H0 , alors
p
A n d2x
Z= ∼ Tn−2
S H0
3 Tests dans le modèle linéaire Gaussien 9

Bien entendu, puisque


p p p
A n d2x (A − α) n d2x n d2x
= + α
S S S
et que sous H1 on a α 6= 0, la variable aléatoire Z ne suit plus, sous H1 , une loi Tn−2 . Ce résultat
est suffisant pour construire un test de H0 contre H1 (cf. Paragraphe 4.1). On a en effet une
statistique de test dont on connait la loi sous H0 et dont la loi sous H1 diffère de celle sous H0 .

3.3 Test d’un modèle linéaire spécifique


On veut tester simultanément les deux paramètres α et β. Un tel test est souvent utile
pour savoir si une droite des moindres carrés diffère significativement de la première bissectrice.
Comme les estimateurs A et B des paramètres α et β ne sont pas indépendants, il serait incorrect
de tester successivement α puis β. Soient α0 et β0 des réels donnés.
On pose l’hypothèse nulle
H0 : α = α0 et β = β0 
que l’on va tester au risque δ contre l’hypothèse alternative

H1 :  α 6= α0 ou β 6= β0 

La construction du test repose sur le résultat suivant. A partir de la décomposition en somme


de carrés (1) et de l’utilisation du théorème de Cochran, on peut déduire que pour tout α et β
n
X 2 .
(A − α)xi + (B − β) 2
i=1
n ∼ F (2 ; n − 2)
X 2 .
Yi − A xi − B (n − 2)
i=1

Par conséquent, puisque α = α0 et β = β0 sous l’hypothèse H0 , alors

n
X 2 .
(A − α0 )xi + (B − β0 ) 2
i=1
Z= n ∼ F (2 ; n − 2)
X 2 . H0
Yi − A xi − B (n − 2)
i=1

Bien entendu, cette variable aléatoire Z ne suit plus, sous H1 , une loi F (2 ; n − 2). Ce résultat
est suffisant pour construire un test de H0 contre H1 cf. Paragraphe 4.2). On a en effet une
statistique de test dont on connait la loi sous H0 et dont la loi diffère sous H1 .
4 Construction des différents tests 10

4 Construction des différents tests


4.1 Test au risque δ de H0 : α = 0 contre H1 : α 6= 0

Hypothèses. Cadre du Modèle Linéaire Gaussien.

Statistique utilisée et loi. On utilise la statistique de test


p
A n d2x
Z =
S
qui, sous les hypothèses du Modèle Linéaire Gaussien et sous H0 , suit une loi de Student Tn−2 .

Construction de la zone de rejet. On fixe un risque δ et on calcule tn−2,δ/2 tel que


h i
P |Tn−2 | < tn−2,δ/2 = 1 − δ

La zone de rejet de H0 au risque δ est alors de la forme : |Z| > tn−2,δ/2 .

Stratégie. On calcule la valeur z de Z sur les données (xi , yi )1≤i≤n . On a


p
a n d2x r √
z = = √ n−2
s 1−r 2

où r désigne le coefficient de corrélation linéaire, et on adopte la stratégie suivante :


– si |z| ≤ tn−2,δ/2 alors on accepte H0 au risque δ et on considère que la liaison linéaire
n’est pas significative.
– si |z| > tn−2,δ/2 alors on rejette H0 au risque δ et on considère que la liaison linéaire est
significative.
p
a n d2x r √
Exercice E.7 Montrer que = √ n − 2. On pourra commencer par montrer
s 1 − r2
que
X n Xn X n
2 2
(yi − y) = (yi − axi − b) + (axi + b − y)2
i=1 i=1 i=1

puis en déduire que


n
X
(yi − axi − b)2 = n d2y − a2 n d2x
i=1

Exercice E.8 Reprendre l’étude de l’influence de l’âge sur la valeur de la tension systolique
d’un individu et conclure.
4 Construction des différents tests 11

4.2 Test au risque δ de l’hypothèse H0 : α = α0 et β = β0  contre H1 : α 6= α0


ou β 6= β0 

Hypothèses. Cadre du Modèle Linéaire Gaussien.

Statistique utilisée et loi. On utilise la statistique de test


n
X 2 .
(A − α0 )xi + (B − β0 ) 2
i=1
Z = n
X 2 .
Yi − Axi − B (n − 2)
i=1

qui, sous les hypothèses du Modèle Linéaire Gaussien et sous H0 , suit une loi F (2 ; n − 2).

Construction de la zone d’acceptation. On fixe un risque δ et on calcule f2,n−2,δ tel que


h i
Proba F (2 ; n − 2) ≤ f2,n−2,δ = 1 − δ

La zone de rejet de H0 au risque δ est alors de la forme : Z > f2,n−2,δ .

Stratégie. On calcule la valeur z de Z sur les données (xi , yi )1≤i≤n . On a

n
X 2
(a − α0 )xi + (b − β0 )
(n − 2) i=1
z = n
2 X 2
yi − axi − b
i=1
n
X
n(b − β0 )2 + 2nx(a − α0 )(b − β0 ) + (a − α0 )2 x2i
(n − 2) i=1
= n n
2 X X
yi2 − n y 2 − a2 x2i − n x2
 

i=1 i=1

et on adopte la stratégie suivante :


– si z ≤ f2,n−2,δ alors on accepte H0 au risque δ.
– si z > f2,n−2,δ alors on rejette H0 au risque δ.

Exercice E.9 Reprendre l’étude de l’allongement d’un ressort et conclure.


5 Prévision d’une valeur 12

5 Prévision d’une valeur


Le cadre. On dispose des données (x1 , y1 ), . . . , (xn , yn ) et on suppose qu’on est dans le
cadre du modèle linéaire gaussien simple.

Le problème. Supposons que l’on s’intéresse à une donnée x0 pour laquelle on n’a pas observé
de y0 . On veut construire une prévision de ce y0 “non disponible”.

Comment, à partir des données (x1 , y1 ), . . . , (xn , yn ), construire cette prévision ?


Puisqu’on suppose que les (xi ) et les (yi ) sont ”liés linéairement”, on peut construire, en
utilisant l’équation de la droite des moindres carrés, une prévision “naturelle” de ce y0 , notée yb0
et donnée par :
yb0 = a x0 + b
où a et b sont les coefficients de la droite des moindres carrés.

Remarque. Dès qu’on dispose de la droite des moindres carrés, il est toujours possible de
construire cette prévision. En revanche, il n’est pas toujours possible de lui donner un sens ou
d’en apprécier la qualité.
Cependant, puisqu’on est dans le cadre du MLG, yb0 est une réalisation de la variable aléatoire
Y0 définie par
b
Yb0 = A x0 + B
où A et B sont les estimateurs des moindres carrés des paramètres α et β. De plus, puisque A
et B sont respectivement des estimateurs sans biais de α et β, Yb0 est un estimateur sans biais
du paramètre (α x0 + β). En outre, si y0 avait été disponible, on lui aurait associé une variable
aléatoire Y0 qui aurait été liée à x0 par la relation
Y0 = α x0 + β + ε0 avec ε0 ∼ N (0 , σ) et ε0 , ε1 , . . . , εn indépendantes
Ainsi, puisque E(Y0 ) = α x0 + β, Yb0 est un estimateur de E(Y0 ). Par conséquent, yb0 est à la fois
une estimation de l’espérance de Y0 et une prévision de y0 .
En étudiant les propriétés de Yb0 , on pourra construire un intervalle de confiance de l’espérance
de Y0 et un intervalle de prévision (ou intervalle de prédiction ou bien encore intervalle de Pari)
pour la valeur de Y0 .

5.1 Intervalle de confiance pour l’espérance de Y0


La construction d’un intervalle de confiance pour l’espérance de Y0 repose sur le théorème
suivant.

Théorème 5.1 Dans le cadre du modèle linéaire Gaussien,

Yb0 − E(Y0 )
s ∼ Tn−2
1 (x0 − x)2
S +
n nd2x
5 Prévision d’une valeur 13

A partir de ce résultat, on peut bâtir l’intervalle de confiance pour le paramètre inconnu E(Y0 ) =
α x0 + β. Au niveau de confiance (1 − δ%) ou au risque δ%, cet intervalle a pour expression :
" s #
1 (x0 − x)2
ICδ% (E(Y0 )) = yb0 ± tn−2,δ/2 s +
n nd2x
h i
où tn−2,δ/2 est tel que Proba |Tn−2 | ≤ tn−2,δ/2 = 1 − δ% .

Exercice E.10 Démontrer ce résultat.

Remarque. En faisant varier x0 , les intervalles de confiance définissent deux hyperboles qui
sont la bande de confiance de la droite de régression. On voit d’après les bornes de l’intervalle,
que plus on s’éloigne du point moyen (x, y), moins l’estimation sera précise.

5.2 Intervalle de prévision pour une observation Y0


On s’attache maintenant à prédire la valeur de Y0 et non son espérance. L’estimation ponc-
tuelle de la prévision de y0 pour un x0 donné est fournie par la droite des moindres carrés :

yb0 = ax0 + b

Le problème est de savoir quelle confiance on peut accorder à cette prévision. Pour cela, on
construit un intervalle de prévision de la variable aléatoire Y0 = αx0 + β + ε0 à un niveau
de confiance (1 − δ%) donné, c’est à dire que l’on cherche à encadrer les valeurs que l’on peut
observer pour Y sachant que x est égal à x0 . La construction de cet intervalle repose sur le
théorème suivant.

Théorème 5.2 Dans le cadre du modèle linéaire Gaussien,

Yb0 − Y0
s ∼ Tn−2
1 (x0 − x)2
S 1+ +
n nd2x

A partir de ce résultat, on peut bâtir un intervalle de Pari ou de Prévision pour la valeur inconnue
de Y0 . Au niveau de confiance (1 − δ%) ou au risque δ%, cet intervalle a pour expression :
" s #
1 (x0 − x)2
IPδ% (Y0 ) = yb0 ± tn−2,δ/2 s 1 + +
n nd2x
h i
où tn−2,δ/2 est tel que Proba |Tn−2 | ≤ tn−2,δ/2 = 1 − δ% .

Exercice E.11 Démontrer ce résultat.


6 Test du caractère significatif du lien linéaire : l’approche comparaison de modèles 14

Remarques. L’intervalle de prévision est toujours centré en yb0 mais cette fois le terme de
variance regroupe deux termes, l’un correspondant (comme précédemment) aux erreurs d’esti-
mation des coefficients de régression α et β (dues aux fluctuations d’échantillonnage), et l’autre
à l’erreur d’estimation due au fait qu’on estime une seule valeur Y avec ses fluctuations (et
non la moyenne de tous les Y possibles pour x0 ). Il y a donc un terme supplémentaire dans la
variance correspondant aux fluctuations de l’observation particulière Y0 (Var(ε0 ) = σ 2 ).
On vérifie en effet que ICδ% (E(Y0 )) ⊂ IPδ% (Y0 ). L’intervalle de prévision est plus gros que
l’intervalle de confiance car il en prend en compte l’erreur de modélisation (variance de ε0 ). Il
est bien sûr plus difficile de prédire une valeur particulière Y0 que l’espérance E(Y0 ) pour x = x0 .

Exercice E.12 Reprendre l’étude de l’influence de l’âge sur la valeur de la tension systolique
d’un individu et construire une prévision de la valeur de la tension systolique d’une personne
âgée de 50 ans, de 90 ans. Pour chacune des deux valeurs, construire les IC et IP au risque 5%.

6 Test du caractère significatif du lien linéaire : l’approche com-


paraison de modèles
On se propose maintenant de tester le caractère significatif de la liaison linéaire par compa-
raison de modèles. Tester l’hypothèse H0 : α = 0 contre l’hypothèse H1 : α 6= 0, revient
aussi à comparer les modèles M1 et M2 (respectivement à un et deux paramètres d’espérance)
définis par :

M1 : Yi = β + εi , (εi ) iid de loi N (0, σ 2 )


M2 : Yi = αxi + β + εi , (εi ) iid de loi N (0, σ 2 )

Le modèle M1 est un sous-modèle du modèle M2 , car il correspond au cas particulier α = 0.


Comparer les deux modèles, c’est tester, au risque δ% fixé, l’hypothèse nulle

H0 :  modèle M1 

contre l’alternative
H1 :  modèle M2 
La construction du test repose sur le théorème suivant.

Théorème 6.1 Sous les hypothèses du modèle linéaire Gaussien et sous H0 ,

n
X 2 .
Y − A xi − B 1
i=1
Z= n ∼ F (1 ; n − 2)
X 2 .
Yi − A xi − B (n − 2)
i=1
6 Test du caractère significatif du lien linéaire : l’approche comparaison de modèles 15

Bien entendu, la variable aléatoire Z ne suit plus, sous H1 , une loi F (1 ; n − 2). Ce résultat
est suffisant pour construire un test de H0 contre H1 (cf. Paragraphe 6.1). On a en effet une
statistique de test dont on connait la loi sous H0 et dont la loi diffère sous H1 .
Pn
La démonstration du théorème repose sur la décomposition de i=1 (Yi − Y )2 en somme des
carrés expliqués et somme des carrés résiduels, à savoir
n n n
X 2 X 2 X 2
Yi − Y = Y − A xi − B + Yi − A xi − B
i=1 i=1 i=1
et sur l’utilisation du théorème de Cochran. En effet, on a d’une part d’après le théorème 2.2,
n
1 X 2
2
Yi − A xi − B ∼ χ2n−2
σ
i=1

D’autre part, sous H0 , les variables aléatoires (Yi ) sont iid et de loi N (β, σ) et par conséquent
n
1 X 2
2
Yi − Y ∼ χ2n−1
σ
i=1
Le théorème de Cochran et le procédé de construction d’une Fisher nous permettent alors de
conclure.

6.1 Le test au risque δ de H0 : α = 0 contre H1 : α 6= 0

Hypothèses. Celles du Modèle Linéaire Gaussien.


Statistique utilisée et loi. On utilise la statistique
n
X 2 .
Y − A xi − B 1
i=1
Z = n
X 2 .
Yi − A xi − B (n − 2)
i=1

qui, sous les hypothèses du Modèle Linéaire Gaussien et sous H0 , suit une loi F (1 ; n − 2).

Construction de la zone de rejet. On fixe un risque δ% et on calcule f1,n−2,δ tel que


h i
Proba F (1 ; n − 2) ≤ f1,n−2,δ = 1 − δ%

La zone de rejet de H0 au risque δ% est de la forme : Z > f1,n−2,δ .

Stratégie. On calcule la valeur z de Z sur les données (xi , yi )1≤i≤n . On a


n
X 2
y − axi − b
i=1
z = (n − 2) n
X 2
yi − axi − b
i=1
6 Test du caractère significatif du lien linéaire : l’approche comparaison de modèles 16

et on adopte alors la stratégie suivante :


– si z ≤ f1,n−2,δ alors on accepte H0 au risque δ% : le modèle M1 suffit pour expliquer Y ,
autrement dit la liaison linéaire n’est pas significative.
– si z > f1,n−2,δ alors on rejette H0 au risque δ% : on conserve le modèle complet M2 et la
liaison linéaire est significative.

6.2 Interprétation de la comparaison de modèles par analyse de la variance


Nous avons en fait comparé le (sous-)modèle M1 : Yi = β + εi , (εi ) iid de loi N (0, σ 2 ), au
modèle complet M2 : Yi = αxi + β + εi , (εi ) iid de loi N (0, σ 2 ), en comparant les estimations
de la variance résiduelle σ 2 dans chacun des modèles M1 et M2 .

Dans le modèle M2 , nous avons estimé les paramètres (d’espérance) α et β par les estimateurs
des moindres carrés A et B, et la variance résiduelle σ 2 par
n
2 1 X SCR(M2 )
S(M2)
= (Yi − Axi − B)2 =
n−2 n−2
i=1

où SCR(M2 ) est la somme des carrés résiduels dans le modèle M2 .

Dans le modèle M1 , l’estimateur des moindres carrés du paramètre (d’espérance) βPest B = Y . Il


s’obtient comme réalisant le minimum (en β) de la fonction à une variable f (β) = ni=1 (Yi −β)2 .
Dans ce sous-modèle, on estime alors la variance résiduelle σ 2 par
n n
2 1 X 1 X SCR(M1 )
S(M1)
= (Yi − B)2 = (Yi − Y )2 =
n−1 n−1 n−1
i=1 i=1

Ainsi, la somme des carrés résiduels dans le modèle M1 , c’est à dire sous H0 , est égale à la
somme des carrés totale. La formule de décomposition de la variance se reécrit donc

SCR(M1 ) = SCM + SCR(M2 )

soit encore
SCM = SCR(M1 ) − SCR(M2 )
et la statistique de test est
SCM
Z =
SCR(M2 ) / (n − 2)
La quantité SCM représente la réduction d’erreurs quand on passe du modèle M1 au modèle M2 .
On a bien sûr SCR(M1 ) ≥ SCR(M2 ) ce qui traduit que plus on prend en compte d’information
(dans le modèle), plus on diminue les ”erreurs résiduelles” (la diminution du nombre de variables
explicatives contribue à augmenter les résidus). SCM est la partie de la somme des carrés
résiduels expliquée par le passage du petit modèle M1 au gros modèle M2 . Si SCM est grand,
la réduction d’erreurs est importante et le modèle M2 contribue mieux à expliquer Y (on rejette
le modèle M1 , c’est à dire, on rejette H0 ).
Le test fondé sur la statistique Z nous donne donc la significativité de la réduction d’erreurs
(et donc de la contribution du modèle). Il permet de répondre à la question : le gain du à
7 Rappel de probabilité 17

l’introduction de la pente α est-il significatif, cad la droite des moindres carrés y = ax + b


(modèle M2 ) explique t-elle mieux le nuage de point que la droite horizontale y = ȳ (modèle M1 ) ?
L’introduction de la pente (modèle M2 ) a permis d’expliquer SCM = SCR(M1 ) − SCR(M2 ) et
laisse inexpliquée SCR(M2 ).
La table d’analyse de la variance s’écrit de la manière suivante :

Source ddl Somme des carrés Carrés moyen Statistique de test


Expliqué par le SCM = CM M
2−1=1 CM M = SCM/1 z=
passage de M1 à M2 SCR(M1 ) − SCR(M2 ) CM R(M2 )
SCR(M2 )
modèle M2 n−2 SCR(M2 ) CM R(M2 ) =
(n − 2)
SCR(M1 )
modèle M1 n−1 SCR(M1 ) CM R(M1 ) =
(n − 1)

Pour comparer le modèle M1 au modèle M2 , on dit que l’on a analysé la variance de la


régression en comparant les estimations des variances résiduelles dans les modèles M1 et M2 .

Exercice E.13 Reprendre l’exemple sur l’étude de l’influence de l’âge sur la tension systolique
et conclure.

6.3 Lien entre les deux points de vue pour tester la significativité de la liaison
linéaire
p
A nd2x
Le test de la nullité de α a pour statistique de test Z1 = qui a pour loi sous H0 une
S
Student à (n − 2) degrés de liberté Tn−2 . Le point de vue comparaison de modèles conduit à la
CM M
statistique de test Z2 = qui a pour loi sous H0 , une Fisher F (1, n − 2).
CM R(M2 )
Les deux procédures sont bien entendu équivalentes. En effet, on peut montrer que Z12 = Z2
et que la loi du carré d’une variable aléatoire qui suit une de loi Student Tn−2 est une loi de
Fisher F (1, n − 2).

7 Rappel de probabilité
7.1 Covariance
Définition 1. Soit (X, Y ) un couple de variables aléatoires. On appelle covariance de (X, Y ),
notée Cov(X, Y ), le nombre réel, s’il existe, donné par

Cov(X, Y ) = E [(X − E [X])(Y − E [Y ])]

Remarque. On peut noter que cette définition est parfaitement symétrique par rapport aux
deux coordonnées X et Y . On a ainsi Cov(X, Y ) = Cov(Y, X). De plus, on peut généraliser le
théorème de Kœnig :

Cov(X, Y ) = E [XY ] − E [X] E [Y ]


7 Rappel de probabilité 18

Par conséquent, si X et Y sont deux variables aléatoires indépendantes alors Cov(X, Y ) = 0.


Notons que la réciproque est généralement fausse
Enfin, on a bien évidemment Cov(X, X) = Var(X).

Propriété. L’opérateur covariance étant linéaire par rapport à chacune de ses coordonnées, si
X1 , X2 , Y1 , Y2 sont quatre variables aléatoires et α1 , α2 , β1 , β2 quatre nombres réels alors

Cov(α1 X1 + α2 X2 , β1 Y1 + β2 Y2 ) = α1 β1 Cov(X1 , Y1 ) + α1 β2 Cov(X1 , Y2 )


+ α2 β1 Cov(X2 , Y1 ) + α2 β2 Cov(X2 , Y2 )

Corollaire. Soit (X, Y ) un couple de variables aléatoires et soient α, β deux nombres réels.
Alors,

Var(αX + βY ) = α2 Var(X) + β 2 Var(Y ) + 2αβ Cov(X, Y )

7.2 Khi-deux
Théorème. Pour n ≥ 1, soient Z1 , . . . , Zn n variables aléatoires indépendantes et de même
n
X
loi N (0, 1). Alors, Sn = Zk2 suit une loi du khi-deux à n degrés de liberté et on note :
k=1
Sn ∼ χ2 (n).
Corollaire. Si X suit une loi χ2 (n), alors E [X] = n et Var(X) = 2n.
Corollaire. Soit X et Y deux variables aléatoires indépendantes de loi respectives χ2 (n) et
χ2 (m). Alors,
Z = X +Y ∼ χ2 (n + m)

Conséquence (Théorème de Cochran). Soit X, Y et Z trois variables aléatoires positives


telles que Z = X + Y . Si Z ∼ χ2 (n) et X ∼ χ2 (p), alors Y ∼ χ2 (n − p) et on a l’indépendance
entre X et Y .

7.3 Student et Fisher


Soient U et V deux variables aléatoires indépendantes.
U
– si U ∼ N (0 , 1) et V ∼ χ2n alors p ∼ Tn
 V
 / n
U /p
– si U ∼ χ2p et V ∼ χ2q alors ∼ F (p ; q)
V /q

Vous aimerez peut-être aussi