Académique Documents
Professionnel Documents
Culture Documents
Antoine Godichon-Baggioni
1 Introduction
1.1 Le modèle linéaire Gaussien
On dispose de n observations bidimensionnelles (x1 , y1 ), . . . , (xn , yn ) . On considère la si-
tuation particulière suivante : les données x1 , . . . , xn ne sont pas des réalisations de variables
aléatoires, mais sont contrôlées ou imposées par la nature des choses. En revanche, on suppose
que les données y1 , . . . , yn sont les réalisations de n variables aléatoires Y1 , . . . , Yn .
L’exemple typique est celui des séries chronologiques dans lequel on mesure une quantité Y
à différentes dates x1 , . . . , xn , l’aléatoire étant lié, par exemple, aux erreurs de mesure.
Plus précisément dans le cadre du Modèle Linéaire, les données x1 , . . . , xn ne sont pas des
réalisations de variables aléatoires et on suppose que les données y1 , . . . , yn sont les réalisations
de n variables aléatoires Y1 , . . . , Yn qui sont liées aux données x1 , . . . , xn de la manière suivante :
n o
∀ i ∈ 1, 2, . . . , n , Yi = α xi + β + εi
où α, β ∈ R et où ε1 , . . . , εn sont n variables aléatoires que l’on suppose centrées, indépendantes,
de même loi et de variance σ 2 . Les paramètres α, β et σ 2 sont inconnus. Notons que par construc-
tion, les variables aléatoires Y1 , . . . , Yn sont indépendantes.
Lorsque les variables ε1 , . . . , εn sont gaussiennes, on parle de Modèle Linéaire Gaussien et
c’est dans ce cadre que nous poursuivrons l’étude.
Une approche tant expérimentale que théorique tend à montrer que l’allongement d’un ressort
est directement proportionnnel à la force appliquée à ce ressort. Ceci peut s’exprimer par la
relation
A = kF
où l’on a noté A l’allongement du ressort, F la force appliquée et k le coefficient de raideur
du ressort.
Pour déterminer la raideur d’un ressort particulier, un étudiant pratique, lors d’un TP de
physique, 10 expériences, que l’on pourra considérer comme étant indépendantes, permettant
de noter les allongements du ressort obtenus pour des forces données. Il consigne les résultats
obtenus dans un tableau.
No 1 2 3 4 5 6 7 8 9 10
F 1 5 10 15 20 25 30 35 40 50
A 2 9.9 20 30.2 39.9 50 60.2 68.9 80.3 99.6
Après avoir représenté sur un graphique les différentes mesures et ajusté une droite au nuage de
points, il affirme que le coefficient de raideur du ressort est égal à 2.
Est-il possible de confirmer ou d’infirmer avac un risque de 5% cette valeur.
Pour répondre à cette question, l’idée va être de mettre en œuvre un test statistique. Pour
cela, on a besoin d’un modèle probabiliste et on pense tout naturellement au modèle linéaire
gaussien. La première étape consiste à voir si on peut envisager une liaison linéaire entre A et
F . On utilise pour cela une approche de type statistique descriptive.
Notons (xi )1≤i≤10 les différentes valeurs de F et (yi )1≤i≤10 les différentes valeurs de A obtenues.
A partir des informations suivantes :
a b r
1.9925 0.07236 0.99993
On peut alors représenter le nuage de points et ajuster la droite des moindres carrés Voici ce
que l’on obtient :
1 Introduction 2
90
80
70
Allongement du ressort (en cm)
60
50
40
30
20
10
0
0 5 10 15 20 25 30 35 40 45 50
Force appliquée au ressort (en Newton)
On constate que les points sont pratiquement alignés sur la droite des moindres carrés. Le coef-
ficient de corrélation linéaire est presque égal à 1. Il est donc plus que raisonnable de considérer
que A et F sont liés linéairement, ce qui est la réalité physique. Cependant, on constate que
la relation A = kF n’est pas exactement vérifiée avec ces données, la liaison linéaire n’est pas
exacte. On observe en effet de petites fluctuations, dues certainement aux erreurs de mesure.
Nous allons donc modéliser ces fluctuation en considérant que les données y1 , . . . , y10 sont les
réalisations de variables aléatoires Y1 , . . . , Y10 liées aux données x1 , . . . , x10 (qui ont été fixés
par l’expérimentateur et qui donc ne sont pas des réalisations de variables aléatoires), par la
relation :
Yi = α xi + β + εi , i = 1, · · · , 10
où ε1 , . . . , ε10 sont des variables aléatoires centrées, indépendantes qu’on supposera de variance
commune σ 2 . Les variables (εi ) modélisent les erreurs de mesure. Si on suppose de plus que les
variables (εi ) sont gaussiennes, alors on sera dans le cadre du modèle linéaire gaussien simple,
et il sera possible de mettre en œuvre un test. Pour savoir si le coefficient de raideur du ressort
est bien égal à 2, on testera au risque 5%, l’hypothèse nulle
H0 : α = 2 et β = 0
No 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
A 42 46 71 80 74 70 80 85 72 64 81 41 61 75 53
T 130 125 148 156 162 151 156 162 158 155 160 125 150 165 135
1 Introduction 3
On veut savoir, au risque 5% et dans la mesure où il est raisonnable d’envisager une relation
linéaire entre l’âge et la valeur de la tension systolique d’un individu, si l’âge influe effectivement
(ou de manière significative) sur la valeur de la tension systolique.
Pour répondre à cette question, il faut donc mettre en œuvre un test statistique. Pour cela, on a
besoin d’un modèle probabiliste et on pense là encore au modèle linéaire gaussien. Comme dans
l’exemple précédent, en utilisant les outils de statistique descriptive, on essaie de voir si on peut
envisager une liaison linéaire entre l’âge et la tension systolique.
a b r
0.8718 91.3723 0.9281
On peut alors représenter le nuage de points et ajuster la droite des moindres carrés Voici ce
que l’on obtient :
● ●
160
●
●
●
●
Tension systolique
150
●
●
●
140
●
130
● ●
40 50 60 70 80
Age
On constate que le nuage de points a une forme allongée, la droite des moindres carrés ajuste et
résume bien le nuage de points. Par ailleurs, le coefficient de corrélation linéaire est bon, il est
proche de 1. Il est donc raisonnable de considérer que l’âge et la tension sont liés linéairement.
Cependant, cette liaison linéaire n’est pas exacte, les données fluctuent autour de la droite des
moindres carrés. Nous allons donc modéliser ces fluctuation en considérant que les données
2 Estimation des paramètres du modèle linéaire 4
y1 , . . . , y15 sont les réalisations de variables aléatoires Y1 , . . . , Y15 liées aux données x1 , . . . , x15
par la relation :
Yi = α xi + β + εi , i = 1, · · · , 15
où ε1 , . . . , ε15 sont des variables aléatoires centrées, indépendantes qu’on supposera de variance
commune σ 2 . Si on suppose de plus que les variables (εi ) sont gaussiennes, ce qui est raisonnable
dans ce contexte, alors on sera dans le cadre du modèle linéaire gaussien simple, et il sera possible
de mettre en œuvre un test. Pour savoir si l’âge influe de manière significative sur la tension, on
testera au risque 5%, l’hypothèse nulle
H0 : α = 0
soit minimale. En procédant de la même manière que pour la détermination des coefficients a
et b de la droite des moindres carrés, on montre que les valeurs de A et de B qui minimisent
f (A, B) sont données par :
n
X
(xi − x) Yi − Y
i=1
A = n et B = Y − A x
X 2
(xi − x)
i=1
On dit alors que A et B sont les estimateurs des moindres carrés des paramètres α et β. Les
réalisations de A et B sur les données, qui sont aussi les estimations des paramètres α et β, sont
2 Estimation des paramètres du modèle linéaire 5
données par :
n
X
(xi − x) (yi − y)
i=1 dxy
a = n = et b = y − a x
X d2x
(xi − x)2
i=1
Les coefficients a et b sont bien évidemment les coefficients de la droite des moindres carrés.
Notons que n doit être supérieur ou égal à 3. L’estimateur de σ est alors donné par :
v
u n
u 1 X 2
S = t Yi − Axi − B
n−2
i=1
v
u n
u 1 X 2
On notera s la réalisation de S sur les données (xi , yi )1≤i≤n :s = t yi − axi − b
n−2
i=1
.
Exercice E.3 Montrer que A et Y ne sont pas corrélées. On commencera par montrer qu’on
peut réécrire A sous la forme
n n
1 X X
A = 2
2
(xi − x) Yi avec n dx = (xi − x)2
n dx
i=1 i=1
Théorème 2.1 Sous les hypothèses du modèle linéaire Gaussien, A et B sont des estimateurs
sans biais et convergents des paramètres α et β, et on a
p
σ σ d2x + x2
A ∼ N α, p et B ∼ N β , p
n d2x n d2x
Remarque. La variance σ 2 étant inconnue, les résultats du théorème 2.1 ne permettent pas
en l’état de construire des intervalles de confiance pour les paramètres α et β.
Exercice E.4 Calculer Cov(A, B). A quelle condition A et B ne sont pas corrélées ?
2 Estimation des paramètres du modèle linéaire 6
Remarque. Comme le montre le résultat de l’exercice E.4, les estimateurs A et B ne sont pas
des variables aléatoires indépendantes. En revanche, puisque A et Y sont des variables aléatoires
gaussiennes non corrélées (cf. exercices E.1 et E.3 et théorème 2.1), on déduit que A et Y sont
indépendantes.
Théorème 2.2 Sous les hypothèses du modèle linéaire Gaussien, S 2 est un estimateur sans
biais de σ 2 et on a
n
(n − 2) S 2 1 X 2
2
= 2
Yi − Axi − B ∼ χ2n−2
σ σ
i=1
et sur l’utilisation du théorème de Cochran. En effet, puisque les (εi ) sont iid de loi N (0, σ), on
a
n
1 X 2
εi ∼ χ2n
σ2
i=1
Exercice E.6 Reprendre l’exemple sur la tension systolique et donner, au niveau de confiance
95%, des intervalles de confiance pour α et β.
La loi du chi-deux étant tabulée, pour tout δ ∈]0, 1[, on peut trouver les réels kα1 et kα2 tels que
h (n − 2) S 2 i
Proba kα1 ≤ ≤ kα 2 = 1−δ
σ2
où kα désigne le fractile d’ordre α du chi-deux à (n − 2) ddl. On prend généralement, α1 = δ/2
et par conséquent α2 = 1 − δ/2. On obtient alors
h (n − 2) S 2 (n − 2) S 2 i
Proba ≤ σ2 ≤ = 1−δ
k1−δ/2 kδ/2
Dans le cadre du modèle linéaire gaussien, plusieurs hypothèses peuvent faire l’objet d’un test.
On peut en effet tester
1) l’hypothèse du Modèle Linéaire Gaussien, à savoir les données y1 , . . . , yn sont-elles les
réalisations de n variables aléatoires Y1 , . . . , Yn liées aux données x1 , . . . , xn de la manière
suivante : n o
∀ i ∈ 1, 2, . . . , n , Yi = α xi + β + εi
où α, β ∈ R et où ε1 , . . . , εn sont n variables aléatoires que l’on suppose indépendantes
et de même loi N (0 , σ). Plus précisément, on pourrait tester le caractère gaussien des
résidus εi ainsi que leur indépendance qui ici est équivalente à leur non corrélation.
2) l’hypothèse de lien linéaire significatif entre les données x1 , . . . , xn et y1 , . . . , yn : on testera
l’hypo- thèse H0 : α = 0 contre H1 : α 6= 0
3) l’hypothèse d’un modèle linéaire spécifique : on testera H0 : α = α0 et β = β0 contre
H1 : α 6= α0 ou β 6= β0 où α0 et β0 sont des réels donnés.
H1 : α 6= 0
L’acceptation de H0 signifiera que la liaison linéaire n’est pas significative, alors que le rejet de
H0 signifiera au contraire que la liaison linéaire est significative. Mais en aucun cas, nous ne
testons l’existence d’une liaison linéaire entre les données xi et yi .
L’idée de base du test est la suivante. On sait d’après le corollaire 2.3 que sous les hypothèses
du Modèle Linéaire Gaussien
p
(A − α) n d2x
∼ Tn−2
S
Par conséquent, puisque α = 0 sous l’hypothèse H0 , alors
p
A n d2x
Z= ∼ Tn−2
S H0
3 Tests dans le modèle linéaire Gaussien 9
H1 : α 6= α0 ou β 6= β0
n
X 2 .
(A − α0 )xi + (B − β0 ) 2
i=1
Z= n ∼ F (2 ; n − 2)
X 2 . H0
Yi − A xi − B (n − 2)
i=1
Bien entendu, cette variable aléatoire Z ne suit plus, sous H1 , une loi F (2 ; n − 2). Ce résultat
est suffisant pour construire un test de H0 contre H1 cf. Paragraphe 4.2). On a en effet une
statistique de test dont on connait la loi sous H0 et dont la loi diffère sous H1 .
4 Construction des différents tests 10
Exercice E.8 Reprendre l’étude de l’influence de l’âge sur la valeur de la tension systolique
d’un individu et conclure.
4 Construction des différents tests 11
qui, sous les hypothèses du Modèle Linéaire Gaussien et sous H0 , suit une loi F (2 ; n − 2).
n
X 2
(a − α0 )xi + (b − β0 )
(n − 2) i=1
z = n
2 X 2
yi − axi − b
i=1
n
X
n(b − β0 )2 + 2nx(a − α0 )(b − β0 ) + (a − α0 )2 x2i
(n − 2) i=1
= n n
2 X X
yi2 − n y 2 − a2 x2i − n x2
i=1 i=1
Le problème. Supposons que l’on s’intéresse à une donnée x0 pour laquelle on n’a pas observé
de y0 . On veut construire une prévision de ce y0 “non disponible”.
Remarque. Dès qu’on dispose de la droite des moindres carrés, il est toujours possible de
construire cette prévision. En revanche, il n’est pas toujours possible de lui donner un sens ou
d’en apprécier la qualité.
Cependant, puisqu’on est dans le cadre du MLG, yb0 est une réalisation de la variable aléatoire
Y0 définie par
b
Yb0 = A x0 + B
où A et B sont les estimateurs des moindres carrés des paramètres α et β. De plus, puisque A
et B sont respectivement des estimateurs sans biais de α et β, Yb0 est un estimateur sans biais
du paramètre (α x0 + β). En outre, si y0 avait été disponible, on lui aurait associé une variable
aléatoire Y0 qui aurait été liée à x0 par la relation
Y0 = α x0 + β + ε0 avec ε0 ∼ N (0 , σ) et ε0 , ε1 , . . . , εn indépendantes
Ainsi, puisque E(Y0 ) = α x0 + β, Yb0 est un estimateur de E(Y0 ). Par conséquent, yb0 est à la fois
une estimation de l’espérance de Y0 et une prévision de y0 .
En étudiant les propriétés de Yb0 , on pourra construire un intervalle de confiance de l’espérance
de Y0 et un intervalle de prévision (ou intervalle de prédiction ou bien encore intervalle de Pari)
pour la valeur de Y0 .
Yb0 − E(Y0 )
s ∼ Tn−2
1 (x0 − x)2
S +
n nd2x
5 Prévision d’une valeur 13
A partir de ce résultat, on peut bâtir l’intervalle de confiance pour le paramètre inconnu E(Y0 ) =
α x0 + β. Au niveau de confiance (1 − δ%) ou au risque δ%, cet intervalle a pour expression :
" s #
1 (x0 − x)2
ICδ% (E(Y0 )) = yb0 ± tn−2,δ/2 s +
n nd2x
h i
où tn−2,δ/2 est tel que Proba |Tn−2 | ≤ tn−2,δ/2 = 1 − δ% .
Remarque. En faisant varier x0 , les intervalles de confiance définissent deux hyperboles qui
sont la bande de confiance de la droite de régression. On voit d’après les bornes de l’intervalle,
que plus on s’éloigne du point moyen (x, y), moins l’estimation sera précise.
yb0 = ax0 + b
Le problème est de savoir quelle confiance on peut accorder à cette prévision. Pour cela, on
construit un intervalle de prévision de la variable aléatoire Y0 = αx0 + β + ε0 à un niveau
de confiance (1 − δ%) donné, c’est à dire que l’on cherche à encadrer les valeurs que l’on peut
observer pour Y sachant que x est égal à x0 . La construction de cet intervalle repose sur le
théorème suivant.
Yb0 − Y0
s ∼ Tn−2
1 (x0 − x)2
S 1+ +
n nd2x
A partir de ce résultat, on peut bâtir un intervalle de Pari ou de Prévision pour la valeur inconnue
de Y0 . Au niveau de confiance (1 − δ%) ou au risque δ%, cet intervalle a pour expression :
" s #
1 (x0 − x)2
IPδ% (Y0 ) = yb0 ± tn−2,δ/2 s 1 + +
n nd2x
h i
où tn−2,δ/2 est tel que Proba |Tn−2 | ≤ tn−2,δ/2 = 1 − δ% .
Remarques. L’intervalle de prévision est toujours centré en yb0 mais cette fois le terme de
variance regroupe deux termes, l’un correspondant (comme précédemment) aux erreurs d’esti-
mation des coefficients de régression α et β (dues aux fluctuations d’échantillonnage), et l’autre
à l’erreur d’estimation due au fait qu’on estime une seule valeur Y avec ses fluctuations (et
non la moyenne de tous les Y possibles pour x0 ). Il y a donc un terme supplémentaire dans la
variance correspondant aux fluctuations de l’observation particulière Y0 (Var(ε0 ) = σ 2 ).
On vérifie en effet que ICδ% (E(Y0 )) ⊂ IPδ% (Y0 ). L’intervalle de prévision est plus gros que
l’intervalle de confiance car il en prend en compte l’erreur de modélisation (variance de ε0 ). Il
est bien sûr plus difficile de prédire une valeur particulière Y0 que l’espérance E(Y0 ) pour x = x0 .
Exercice E.12 Reprendre l’étude de l’influence de l’âge sur la valeur de la tension systolique
d’un individu et construire une prévision de la valeur de la tension systolique d’une personne
âgée de 50 ans, de 90 ans. Pour chacune des deux valeurs, construire les IC et IP au risque 5%.
H0 : modèle M1
contre l’alternative
H1 : modèle M2
La construction du test repose sur le théorème suivant.
n
X 2 .
Y − A xi − B 1
i=1
Z= n ∼ F (1 ; n − 2)
X 2 .
Yi − A xi − B (n − 2)
i=1
6 Test du caractère significatif du lien linéaire : l’approche comparaison de modèles 15
Bien entendu, la variable aléatoire Z ne suit plus, sous H1 , une loi F (1 ; n − 2). Ce résultat
est suffisant pour construire un test de H0 contre H1 (cf. Paragraphe 6.1). On a en effet une
statistique de test dont on connait la loi sous H0 et dont la loi diffère sous H1 .
Pn
La démonstration du théorème repose sur la décomposition de i=1 (Yi − Y )2 en somme des
carrés expliqués et somme des carrés résiduels, à savoir
n n n
X 2 X 2 X 2
Yi − Y = Y − A xi − B + Yi − A xi − B
i=1 i=1 i=1
et sur l’utilisation du théorème de Cochran. En effet, on a d’une part d’après le théorème 2.2,
n
1 X 2
2
Yi − A xi − B ∼ χ2n−2
σ
i=1
D’autre part, sous H0 , les variables aléatoires (Yi ) sont iid et de loi N (β, σ) et par conséquent
n
1 X 2
2
Yi − Y ∼ χ2n−1
σ
i=1
Le théorème de Cochran et le procédé de construction d’une Fisher nous permettent alors de
conclure.
qui, sous les hypothèses du Modèle Linéaire Gaussien et sous H0 , suit une loi F (1 ; n − 2).
Dans le modèle M2 , nous avons estimé les paramètres (d’espérance) α et β par les estimateurs
des moindres carrés A et B, et la variance résiduelle σ 2 par
n
2 1 X SCR(M2 )
S(M2)
= (Yi − Axi − B)2 =
n−2 n−2
i=1
Ainsi, la somme des carrés résiduels dans le modèle M1 , c’est à dire sous H0 , est égale à la
somme des carrés totale. La formule de décomposition de la variance se reécrit donc
soit encore
SCM = SCR(M1 ) − SCR(M2 )
et la statistique de test est
SCM
Z =
SCR(M2 ) / (n − 2)
La quantité SCM représente la réduction d’erreurs quand on passe du modèle M1 au modèle M2 .
On a bien sûr SCR(M1 ) ≥ SCR(M2 ) ce qui traduit que plus on prend en compte d’information
(dans le modèle), plus on diminue les ”erreurs résiduelles” (la diminution du nombre de variables
explicatives contribue à augmenter les résidus). SCM est la partie de la somme des carrés
résiduels expliquée par le passage du petit modèle M1 au gros modèle M2 . Si SCM est grand,
la réduction d’erreurs est importante et le modèle M2 contribue mieux à expliquer Y (on rejette
le modèle M1 , c’est à dire, on rejette H0 ).
Le test fondé sur la statistique Z nous donne donc la significativité de la réduction d’erreurs
(et donc de la contribution du modèle). Il permet de répondre à la question : le gain du à
7 Rappel de probabilité 17
Exercice E.13 Reprendre l’exemple sur l’étude de l’influence de l’âge sur la tension systolique
et conclure.
6.3 Lien entre les deux points de vue pour tester la significativité de la liaison
linéaire
p
A nd2x
Le test de la nullité de α a pour statistique de test Z1 = qui a pour loi sous H0 une
S
Student à (n − 2) degrés de liberté Tn−2 . Le point de vue comparaison de modèles conduit à la
CM M
statistique de test Z2 = qui a pour loi sous H0 , une Fisher F (1, n − 2).
CM R(M2 )
Les deux procédures sont bien entendu équivalentes. En effet, on peut montrer que Z12 = Z2
et que la loi du carré d’une variable aléatoire qui suit une de loi Student Tn−2 est une loi de
Fisher F (1, n − 2).
7 Rappel de probabilité
7.1 Covariance
Définition 1. Soit (X, Y ) un couple de variables aléatoires. On appelle covariance de (X, Y ),
notée Cov(X, Y ), le nombre réel, s’il existe, donné par
Remarque. On peut noter que cette définition est parfaitement symétrique par rapport aux
deux coordonnées X et Y . On a ainsi Cov(X, Y ) = Cov(Y, X). De plus, on peut généraliser le
théorème de Kœnig :
Propriété. L’opérateur covariance étant linéaire par rapport à chacune de ses coordonnées, si
X1 , X2 , Y1 , Y2 sont quatre variables aléatoires et α1 , α2 , β1 , β2 quatre nombres réels alors
Corollaire. Soit (X, Y ) un couple de variables aléatoires et soient α, β deux nombres réels.
Alors,
7.2 Khi-deux
Théorème. Pour n ≥ 1, soient Z1 , . . . , Zn n variables aléatoires indépendantes et de même
n
X
loi N (0, 1). Alors, Sn = Zk2 suit une loi du khi-deux à n degrés de liberté et on note :
k=1
Sn ∼ χ2 (n).
Corollaire. Si X suit une loi χ2 (n), alors E [X] = n et Var(X) = 2n.
Corollaire. Soit X et Y deux variables aléatoires indépendantes de loi respectives χ2 (n) et
χ2 (m). Alors,
Z = X +Y ∼ χ2 (n + m)