T4 Regression

Thème 4 : Régression linéaire Statistique pour ingénieur
Statistique pour ingénieur

Thème 4 : Régression linéaire
A. Badea, S. Mussard, F. Seyte & T. Verdel, 23 mars 2016
Édition révisée du 13 avril 2023
Table des matières

1 Introduction générale 2
2 Les estimateurs des Moindres Carrés Ordinaires (MCO) 4

2.1 Exemple numérique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.2 Les hypothèses de base du modèle . . . . . . . . . . . . . . . . . . . . . . . 5
2.3 Les estimateurs des moindres carrés ordinaires . . . . . . . . . . . . . . . . 5
2.4 Propriétés des estimateurs des moindres carrés ordinaires . . . . . . . . . . 8
3 Lois des estimateurs et tests des estimateurs 9

3.1 Estimation par intervalle de confiance de β0 , β1 et σ2 . . . . . . . . . . . . 10
3.1.1 Intervalle de confiance de β1 . . . . . . . . . . . . . . . . . . . . . . 10
3.1.2 Intervalle de confiance de β0 . . . . . . . . . . . . . . . . . . . . . . 11
3.1.3 Intervalle de confiance de σ 2 . . . . . . . . . . . . . . . . . . . . . . 12
3.2 Tests d’hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.2.1 Test sur β1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.2.2 Tests sur β0 et σ 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
4 Corrélation et analyse de la variance 15

4.1 Propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.2 Relation entre βb1 et ry/x . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.3 Analyse de la variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.4 Tableau de l’analyse de la variance . . . . . . . . . . . . . . . . . . . . . . 18
4.5 Test du coefficient de détermination . . . . . . . . . . . . . . . . . . . . . . 19
5 Utilisation du modèle de régression en prévision 20

5.1 Intervalle de confiance d’une valeur moyenne de Y connaissant une valeur
donnée de x . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
5.2 Prévision d’une valeur de Y pour une valeur non observée de X . . . . . . 23
6 Exercices 25
Exercice 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
Exercice 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
Exercice 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
Exercice 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
Exercice 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
Institut Mines-Télécom 1
Statistique pour ingénieur Thème 4 : Régression linéaire
1 Introduction générale
Un modèle est une représentation simplifiée, mais la plus exhaustive possible, d’une
entité donné, de nature biologique, industrielle, économique, médicale, etc. Sous sa forme
la plus courante, il est présenté comme un système d’équations, le plus souvent linéaires,
équations reliant entre elles deux types de variables que l’on appelle :
— variables expliquées (ou : endogènes) ;
— variables explicatives (ou : exogènes).
Un modèle s’écrit différemment selon la manière dont sont observées les variables du
modèle :
— lorsque les observations s’effectuent au cours du temps, les variables sont des séries
temporelles et le modèle porte le nom de modèle en séries temporelles ;
— lorsque les observations sont réalisées sur des échantillons d’individus, à un instant
donné, le modèle porte le nom de modèle en coupe instantanée ;
— lorsque les observations portent sur des échantillons au cours du temps, on parle de
modèle de panels.
Dans ce qui suit, nous considérons que la variable explicative X possède une forme
déterministe, ainsi X = x. Le Modèle Linéaire Général Simple (MLGS) à plusieurs variables
explicatives s’écrit :
Yi = β0 + β1 x1i + · · · + βk xki + εi , ∀i ∈ {1, . . . ,n},
avec n le nombre d’observations des variables, Yi la variable expliquée, β0 , . . . ,βk les

paramètres inconnus du modèle, x1 , . . . ,xk les k variables explicatives (en réalité k + 1,
puisqu’on considère que x0i = 1, ce qui permet de tenir compte d’une constante β0 ) et εi
l’aléa (ou terme d’erreur). En faisant varier i dans cette écriture, on obtient le MLGS sous
sa forme matricielle :
Y = X B + ε ,
(n,1) (n,k+1)(k+1,1) (n,1)
avec X la matrice comportant en colonne les k + 1 variables explicatives xk .

Dans ce cours, nous étudierons un cas particulier du MLGS, celui pour lequel une
variable expliquée Y est reliée linéairement à une seule variable explicative x et à un aléa
ε. On l’appelle le modèle de régression linéaire simple. Il s’écrit :
Yt = β0 + β1 xt + εt , ∀t ∈ {1, . . . ,T } pour le modèle en séries temporelles ;
Yi = β0 + β1 xi + εi , ∀i ∈ {1, . . . ,n} pour le modèle en coupe instantanée ;
Yit = β0 + β1 xit + εit , ∀i ∈ {1, . . . ,n}, ∀t ∈ {1, . . . ,T } pour le modèle de panels.
On retiendra par la suite la seule écriture en coupe instantanée et de ce fait i représente
l’individu i. Ce modèle se différencie de celui rencontré en statistique descriptive qui s’écrit
sous la forme exacte : Y = β0 + β1 x.
Il est rare qu’en statistique ce type de relation exacte existe. Dans la majorité des cas,
x ne fournit qu’une partie de l’explication de la variable Y . On contourne cette difficulté en
introduisant, dans le second membre de la relation, une nouvelle variable appelée aléa ou
erreur. Cet élément aléatoire va permettre de synthétiser l’ensemble des influences sur Y
que x ne peut expliquer. On suppose qu’il rassemble un nombre important de fluctuations
indépendantes, sans qu’aucune n’ait à elle seule une importance par rapport aux autres de
2 Institut Mines-Télécom
telle sorte que cet élément puisse être assimilé à une variable aléatoire obéissant à une loi
de probabilité définie sur un domaine.
Le modèle de régression linéaire simple rassemble plusieurs formes non linéaires que
l’on transforme linéairement par anamorphose.
— Le modèle semi-logarithmique :
Yi = β0 + β1 log xi ,
s’étudie sur les couples (zi = log xi ,Yi ), avec xi > 0 pour tout i ∈ {1, . . . ,n}.
— Le modèle doublement logarithmique :
log Yi = log β0 + β1 log xi ⇐⇒ zi = β0′ + β1 vi ,
s’étudie sur les couples (vi = log xi ,zi = log Yi ), avec xi > 0 et Yi > 0. Ce modèle a
pour paramètre de pente β1 , le coefficient d’élasticité instantanée entre Yi et xi qui
mesure la réponse, en pourcentage, de la variable Yi suite à une modification de 1%
de la variable explicative xi .
— Le modèle logistique :
K
Yi =
1 + exp(−axi + b)
s’écrit,
K

ln − 1 = Axi + b,
Yi
avec A= −a. Il s’étudie avec les couples :
K

vi = ln − 1 ,xi .
Yi
Ce modèle est souvent utilisé pour modéliser la pénétration des produits nouveaux
sur un marché ou encore pour calculer la part de marché K d’un produit. Il existe
par ailleurs d’autres formes de modèles non linéaires transformables linéairement
par anamorphose.
Le problème que nous devons résoudre dans le cadre de ce cours est celui du calcul
des paramètres inconnus β0 et β1 à partir des couples (xi ,Yi ) : il s’agit de l’estimation du
modèle. L’analyse et la pertinence du choix de ce modèle seront aussi analysées.
Si on appelle βb0 et βb1 les valeurs calculées du modèle à partir des Yi et xi pour tout
i ∈ {1, . . . ,n}, on peut alors obtenir une série de valeurs notées Ybi calculées à partir de la
relation :
Ybi = βb0 + βb1 xi .
Il existe une différence entre Yi et Ybi ; cet écart noté εbi est appelée résidu de la valeur Yi .
Il s’écrit :
εbi = Yi − Ybi ⇐⇒ Yi = εbi + Ybi ,
ou bien à partir des réalisations yi de la variable aléatoire Yi ,
εbi = yi − ybi ⇐⇒ yi = εbi + ybi .
Or,
Ybi = βb0 + βb1 xi ⇐⇒ Yi = βb0 + βb1 xi + εbi .
Il existe donc deux écritures du modèle :
— le modèle théorique :
Y i = β 0 + β 1 xi + εi ;
— le modèle empirique (ou calculé) :
yi = βb0 + βb1 xi + εbi .
Remarque 1
Il ne faut pas confondre εbi et εi . Le résidu εbi est connu, alors que l’erreur εi est inconnue.
Les informations dont on dispose concernant l’aléa εi sont dans εbi et le fait que εi suive
une loi normale.
2 Les estimateurs des Moindres Carrés Ordinaires

(MCO)
2.1 Exemple numérique
Nous allons illustrer les propos qui suivront par un exemple simple 1 qui servira de fil
conducteur pour illustrer les notions vues dans ce cours.
Exemple 1
Le jeu de données représente la croissance des chenilles et la quantité de tanin contenue
dans leurs aliments.
x tanin 0 1 2 3 4 5 6 7 8
y croissance 12 10 8 11 6 7 2 3 3
Ces données sont représentées graphiquement à la figure 1.
12 •
•
10 •
croissance
8 •
•
6 •
4
• •
2 •
0 2 4 6 8
tanin
Figure 1 – Représentation graphique des données de l’exemple 1
1. À partir du livre de Michael Crawley, Statistics : An introduction using R, Wiley (2005).
2.2 Les hypothèses de base du modèle

Le problème statistique à résoudre est le calcul des paramètres β0 et β1 , à partir des
observations de Y et de x.
Il existe, entre autres, deux méthodes bien connues permettant le calcul de β0 et
β1 : la méthode des moindres carrés ordinaires (MCO) et la méthode du maximum de
vraisemblance. L’utilisation de ces deux méthodes conduit à des valeurs calculées de β0 et
β1 qui possèdent des propriétés statistiques remarquables. Cela nécessite qu’un certain
nombre d’hypothèses de base soient vérifiées avant l’utilisation de ces méthodes.
Hypothèses
(1) Les erreurs εi sont des variables aléatoires indépendantes et identiquement distri-
buées (i.i.d.).
(2) De plus, on suppose ici que la distribution des erreurs est normale :
εi ∼ N (0,σ 2 ).
Par conséquent,
h i h i
E (εi ) = 0 et V (εi ) = E (εi − E (εi ))2 = E ε2i = σ 2 , ∀i ∈ {1, . . . ,n}
(il s’agit de l’hypothèse d’homoscédasticité : cela implique que la variance des εi est
constante quel que soit le sous-échantillon tiré dans l’ensemble {1, . . . ,n}).
Cov (εi ,εi′ ) = E ([εi − E (εi )] [εi′ − E (εi′ )]) = E [εi εi′ ] = 0, ∀i,i′ ∈ {1, . . . ,n} avec i ̸= i′
(hypothèse de non auto-corrélation des erreurs). On peut donc écrire :


σ 2 si i = i′
E [εi εi′ ] =
0 ̸ i′ .
si i =
Trois quantités sont donc inconnues dans ce modèle : β0 , β1 et σ 2 . L’objectif des

méthodes d’estimation est de trouver des estimateurs de ces paramètres inconnus qui
possèdent les propriétés requises par la théorie statistique.
2.3 Les estimateurs des moindres carrés ordinaires

La méthode des MCO consiste à minimiser la somme des carrés des écarts, écarts
entre la valeur observée de la variable expliquée (pour un point du nuage) et sa valeur
calculée par le modèle. Graphiquement (voir figure 2), il s’agit de la distance mesurée
parallèlement à l’axe des ordonnées entre ces deux points. Rappelons que l’écart entre une
valeur observée et une valeur calculée est appelé le résidu, noté εbi :
yi − ybi = εbi .
yi = β
b b0 +βb1 xi
yk
b
yk
y
Nuage de points
β
b0
x xk x
Figure 2 – Droite d’ajustement (ou : droite des MCO)
Formellement, la méthode des MCO est la suivante :

n n n 2
εb2i = min (yi − ybi )2 = min
X X X
min yi − βb0 − βb1 xi ≡ min ϕ(βb0 ,βb1 ).
i=1 i=1 i=1
Il s’agit de la minimisation d’une fonction ϕ de deux variables βb0 et βb1 . La solution, si elle
existe, est donnée par le système d’équations normales suivant :
∂ϕ

=0



 ∂ βb

0
 ∂ϕ
= 0.



∂β
 b
1
On obtient :
n
∂ϕ X
= 0 ⇐⇒ −2 y i − b − βb x = 0
β0 1 i
∂ βb0 i=1
⇐⇒ nȳ − nβb0 − nβb1 x̄ = 0

⇐⇒ βb0 = ȳ − x̄βb1 .
La droite passe donc par le centre de gravité (c’est-à-dire le point moyen G(x̄,ȳ)) du
nuage de points. De même :
n
∂ϕ X
= 0 ⇐⇒ −2 y i − b − βb x x = 0
β 0 1 i i
∂ βb1 i=1
n
X
⇐⇒ yi − (ȳ − x̄βb1 ) − βb1 xi xi = 0
i=1
n
yi xi − ȳxi + βb1 x̄xi − βb1 x2i = 0
X
⇐⇒
i=1
n n
yi xi − nȳx̄ + nβb1 x̄2 − βb1 x2i = 0
X X
⇐⇒
i=1 i=1
n n
!
x2i 2
X X
⇐⇒ yi xi − nȳx̄ − βb1 − nx̄ =0
i=1 i=1
n n
X 1X
yi xi − nȳx̄ yi xi − ȳx̄
n i=1 Cov (x,y)
⇐⇒ βb1 = i=1
n = n = ,
1X s2x
x2i − nx̄2 x2i − x̄2
X
i=1 n i=1
avec s2x la variance empirique de x. Ces valeurs constituent un point critique de la fonction
ϕ. On vérifie que c’est un minimum en utilisant les dérivées partielles secondes. En utilisant
les notations de Monge :
n n
∂ 2ϕ ∂ 2ϕ ∂ 2ϕ
x2i .
X X
r= = 2n s= = 2 xi t= = 2
∂ βb02 ∂ βb0 ∂ βb1 i=1 ∂ βb12 i=1
Alors
!2  !2 
n n n n
1X 1X
rt − s2 = 2n × 2 x2i − 2 = 4n2  x2i − = 4n2 s2x > 0.
X X
xi xi 
i=1 i=1 n i=1 n i=1
La hessienne est bien définie positive, donc le point critique (βb0 ,βb1 ) déterminé précédemment
par les dérivées partielles premières est bien un minimum. Les résultats finaux sont donc :
Cov (x,y)
βb0 = ȳ − x̄βb1 et βb1 = .
s2x
Exemple 2
En appliquant les formules précédentes au jeu de données de l’exemple 1, on obtient :



 x̄ = 4 , ȳ ≈ 6,89
s2x ≈ 6,67 , Cov (x,y) ≈ −8,11
 βb1 = Cov(x,y) ≈ −1,22 , βb0 = ȳ − x̄βb1 ≈ 11,75


s2 x
x 0 1 2 3 4 5 6 7 8
y 12 10 8 11 6 7 2 3 3
yb 11,76 10,54 9,32 8,11 6,89 5,67 4,46 3,24 2,02
La régression ainsi réalisée est représentée à la figure 3.
Il est aussi possible d’exprimer la relation entre y et x à l’aide des données centrées :
(
xci = xi − x̄ , ybic = ybi − ȳ
yic = yi − ȳ , εbi = yic − ybc .
On peut calculer βb0 et βb1 en fonction des données centrées par une démonstration analogue
à la précédente. La méthode des MCO s’écrit alors, a priori :
yic = βb0c + βb1c xci + εbi
12 •
•
10 • équation de la droite de régression :
y = 11,75 − 1,22x
croissance
8 •
•
6 •
4
• •
2 •
0 2 4 6 8
tanin
Figure 3 – Représentation graphique de la régression linéaire de l’exemple 2
et on veut minimiser n n
εb2i = (yic − ybic )2 .
X X
i=1 i=1
c c
Puisque x̄ = ȳ = 0, alors :



βb0c= ȳ c − βb1 x̄c = 0

 n n

 1X
xci yic
X
(xi − x̄)(yi − ȳ)


c i=1 n i=1 Cov (x,y)

β1 = X
b
n = n = 2 = βb1 .

 1 s
(xci )2 (xi − x̄)2
X


 x
n


i=1 i=1
Comme βb0c = 0, le modèle centré s’écrit :
ybic = βb1 xci .
Ce changement de variable consiste à changer d’axe dans le nuage de régression et à placer

l’origine au centre de gravité G(x̄,ȳ).
2.4 Propriétés des estimateurs des moindres carrés ordinaires

Proposition 1 (Propriétés de βb0 et βb1 )
(1) Les estimateurs des MCO sont des fonctions linéaires des yi .
(2) βb0 et βb1 sont des estimateurs sans biais de β0 et β1 :
h i h i
E βb0 = β0 , E βb1 = β1 .
(3) βb0 et βb1 sont des estimateurs à variance minimale de β0 et β1 :

n
!
σ2 X 1 x̄2 σ2
V βb0 = 2 2 x2i = σ 2 + 2 , V βb1 = 2 .
n sx i=1 n nsx nsx
Par ailleurs le lien entre les deux estimateurs est donné par :
2
σ x̄
Cov βb0 ,βb1 = − 2 .
nsx
Les estimateurs des moindres carrés βb0 et βb1 sont parmi tous les estimateurs linéaires
sans biais les meilleurs au sens de la variance minimale (Théorème de Gauss-Markov). Ils
sont dits estimateurs BLUE (Best Linear Unbiased Estimator).
Proposition 2 (Estimateur de la variance de l’erreur σ 2 )

Un estimateur de σ 2 = V (εi ) est donné par
n
1 X
σb ∗2 = εb2 .
n − 2 i=1 i
C’est un estimateur sans biais de σ 2 :

E σb ∗2 = σ 2 .
Exemple 3
Application au jeu de données : σb ∗2 ≈ 2,87.
x 0 1 2 3 4 5 6 7 8
y 12 10 8 11 6 7 2 3 3
yb 11,76 10,54 9,32 8,11 6,89 5,67 4,46 3,24 2,02
εb 0,24 −0,54 −1,32 2,89 −0,89 1,33 −2,46 −0,24 0,98
Remarque 2
Les estimateurs βb0 et βb1 correspondent à ceux obtenus par la méthode du maximum
de vraisemblance. Par ailleurs, cette méthode fournit pour σ 2 un estimateur moins
performant car biaisé. On se contentera donc, en pratique, des estimateurs des MCO
précédemment explicités.
3 Lois des estimateurs et tests des estimateurs

Les estimateurs sont des fonctions linéaires des Yi (qui dépendent des εi qui sont des
variables aléatoires suivant des lois normales). Par conséquent, les estimateurs βb0 et βb1
sont aussi des variables aléatoires obéissant à des lois normales :
!! !
2 1 x̄2 σ2
βb0 ∼ N β0 ; σ + 2 et βb
1 ∼ N β1 ; 2 .
n nsx nsx
Ces lois contiennent l’écart type σ de l’erreur. Or, puisque ce paramètre est inconnu, les
deux lois précédentes ne sont pas empiriquement utilisables. On a donc besoin d’une loi
qui contienne à la fois l’estimateur de la variance de l’aléa et la variance de l’aléa pour

pouvoir estimer par intervalle de confiance β0 et β1 . On utilise alors le théorème de Fisher :
σb ∗2
Z ≡ (n − 2) 2 ∼ χ2 (n − 2) .
σ
À partir de ce résultat nous pourrons construire, avec la loi de Student, des intervalles de
confiance de β0 , β1 et σ 2 avant de réaliser des tests d’hypothèses sur ces paramètres.
3.1 Estimation par intervalle de confiance de β0 , β1 et σ 2

3.1.1 Intervalle de confiance de β1
Le problème est le suivant : on cherche des variables aléatoires A et B telles que, pour
un risque d’erreur donné α :
1 − α = P (A ⩽ β1 ⩽ B) .
À partir de cette expression nous pourrons déduire un intervalle de confiance de β1 . On

sait que : !
σ2
β1 ∼ N β1 , 2 .
b
nsx
Comme σ 2 est inconnu, il faut utiliser une loi de Student. Soit deux variables aléatoires
U ∼ N (0; 1) et Z ∼ χ2 (d) indépendantes, alors la variable aléatoire T suivante obéit à
une loi de Student à d degrés de liberté :
U
T ≡ q ∼ T (d) .
Z
d
En utilisant la variable aléatoire normale βb1 , il vient :

b1 −β1
β
q q
σ2
ns2
x
(βb1 − β1 ) ns2x
Tβb1 = s = r ∼ T (n − 2) .
(n−2)σ ∗2
b σ ∗2
(n−2)b
σ2 (n−2)
n−2
Finalement : q
(βb1 − β1 ) ns2x
Tβb1 = ∼ T (n − 2) .
σb ∗
Afin de comprendre la construction des intervalles de confiance, commençons par représenter
la loi de probabilité de la variable aléatoire Tβb1 suivant cette loi de Student. Si la variable
aléatoire Tβb1 est comprise entre deux valeurs, les fractiles symétriques −tα/2 et tα/2 (voir
la figure ci-dessous), alors l’intervalle de probabilité bilatéral symétrique de Tβb1 s’écrit :
 q 
(βb1 − β1 ) ns2x
1 − α = P −tα/2 ⩽ Tβb1 ⩽ tα/2 = P −tα/2 ⩽ ⩽ tα/2  .
σb ∗
1−α
−tα/2 tα/2 t
Figure 4 – Utilisation de la loi T (n − 2) pour construire un intervalle de confiance
On en déduit alors :
 
σb ∗ σb ∗ 
1 − α = P −tα/2 · q ⩽ βb1 − β1 ⩽ tα/2 · q
ns2x ns2x
 
σb ∗ σb ∗ 
= P βb1 − tα/2 · q ⩽ β1 ⩽ βb1 + tα/2 · q .
ns2x ns2x
On obtient finalement la proposition suivante.

Proposition 3
Si le risque α est réparti à hauteur de α2 dans les queues de la distribution de Tβb1 (voir
la figure 4 précédente), alors l’intervalle de confiance bilatéral de β1 est symétrique en
βb1 . On peut l’écrire :  
∗
σ
b
Ic1−α (β1 ) = βb1 ± tα/2 · q .
nsx 2
Exemple 4
Application au jeu de données : construction d’un intervalle de confiance pour β1 , pour
un niveau de confiance de 1 − α = 95% (c’est-à-dire un risque d’erreur de α = 5%).
Tβ1 ∼ T (7) , tqα/2 = t0,025 ≈ 2,36

(
σb ∗ ≈ 1,69 , ns2x ≈ 7,75

" #
1,69 1,69
Ic0,95 (β1 ) = −1,22 − 2,36 × ; −1,22 + 2,36 × ≈ [−1,73 ; −0,71]
7,75 7,75
3.1.2 Intervalle de confiance de β0

Le problème est similaire à celui exposé précédemment. On souhaite déterminer un
intervalle de confiance pour β0 en déterminant les variables aléatoires A et B telles que,
pour un risque d’erreur donné α :
1 − α = P (A ⩽ β0 ⩽ B) .
Le principe est le même qu’à la section 3.1.1 : la variable aléatoire

βb0 − β0
Tβb0 ≡ q
1 x̄2
σb ∗ n
+ ns2x
suit la loi de Student T (n − 2) et cela permet à partir d’un intervalle de probabilité de

Tβb0 de construire un intervalle de confiance pour β0 .
Proposition 4
Soit tα/2 le fractile d’ordre 1 − α2 de la loi T (n − 2). Alors l’intervalle de confiance
bilatéral symétrique de β0 s’écrit :
 v v 
∗t 1 x̄2 u1 x̄2
u u
+ 2 , βb0 + tα/2 · σb ∗ t + 2 
u
Ic1−α (β0 ) = βb0 − tα/2 · σb
n nsx n nsx
 v 
∗t 1 x̄2
u
u
= βb0 ± tα/2 · σb + 2.
n nsx
Exemple 5
Application au jeu de données : construction d’un intervalle de confiance pour β0 , pour
un niveau de confiance de 1 − α = 95% (c’est-à-dire un risque d’erreur de α = 5%).

 Tβb0 ∼ T (7) , tα/2 = t0,025 ≈ 2,36
q
b∗ 1 x̄2
 σ ≈ 1,69 , n
+ ns2x
≈ 0,61
Ic0,95 (β0 ) = [11,75 − 2,36 × 1,69 × 0,61 ; 11,75 + 2,36 × 1,69 × 0,61] ≈ [9,32 ; 14,18] .
3.1.3 Intervalle de confiance de σ 2

Le problème est le suivant. On cherche un encadrement de σ 2 , en déterminant les
variables aléatoires A et B telles que :

1 − α = P A ⩽ σ2 ⩽ B .
D’après le théorème de Fisher, on sait que la variable aléatoire :
σb ∗2
Z ≡ (n − 2)
σ2
suit la loi χ2 (n − 2), dont la densité est représentée à la figure 5.
En considérant les fractiles χ21 et χ22 d’ordre α2 et 1 − α2 respectivement, on peut alors en
déduire un intervalle de confiance par un raisonnement similaire à celui de la section 3.1.1.
Proposition 5
L’intervalle de confiance bilatéral de σ 2 s’écrit :
(n − 2)σb ∗2 (n − 2)σb ∗2
" #
2
Ic1−α (σ ) = , .
χ22 χ21
α/2 α/2
1−α
χ21 χ22
Figure 5 – Utilisation de la loi du χ2 pour un intervalle de confiance
Exemple 6
Application au jeu de données : intervalle de confiance pour σ 2 , pour un niveau de
confiance de 1 − α = 95% (c’est à dire un risque d’erreur de α = 5%).
(
Z ∼ χ2 (7) , σb ∗2 ≈ 2,86
χ21 ≈ 1,69 , χ22 ≈ 16,01
" #
2 7 × 2,86 7 × 2,86
Ic0,95 (σ ) = ; ≈ [1,25; 11,85] .
16,01 1,69
3.2 Tests d’hypothèses

3.2.1 Test sur β1
On souhaite savoir si β1 se rapproche d’une valeur hypothétique, fixée a priori, notée
β10 :
H0 : β1 = β10
H1 : β1 ̸= β10 .
Afin de tester la validité du modèle, c’est-à-dire le caractère significatif de la régression
linéaire, on teste β1 = 0. En effet, si l’hypothèse nulle β1 = 0 est acceptée, cela signifie que
qu’il n’existe aucune relation (linéaire) entre y et x. Au contraire, si l’hypothèse nulle H0
est rejetée, le modèle est valide puisqu’une relation linéaire existe entre y et x (la qualité
de cette relation sera discutée dans la section suivante).
Sous l’hypothèse H0 :
q
(βb1 − β10 ) ns2x
Tβb1 = ∼ T (n − 2) .
σb ∗
D’où :  q 
(βb1 − β10 ) ns2x
1 − α = P −tα/2 ⩽ ⩽ tα/2  = P Tβb1 ⩽ tα/2 .
σb ∗
On a alors :
 
σb ∗ σb ∗ 
1 − α = P Tβb1 ⩽ tα/2 = P β10 − tα/2 · q ⩽ βb1 ⩽ β10 + tα/2 · q .
ns2x ns2x
Ceci définit la région d’acceptation de l’hypothèse H0 .
Règle de décision
— L’hypothèse H0 est acceptée au risque de première espèce α si :
 
σb ∗ 
βb1 ∈ β10 ± tα/2 · q ou Tβb1 ⩽ tα/2 .
ns2x
— L’hypothèse H0 est rejetée au risque de première espèce α si :

 
β 0
σb ∗ 
βb1 ∈
/ 1 ± tα/2 · q ou Tβb1 > tα/2 .
ns2x
Lorsque la validité du modèle est testée, autrement dit H0 : β1 = β10 = 0, l’intervalle

d’acceptation de l’hypothèse H0 se réécrit :
 
σb ∗ 
βb1 ∈ ±tα/2 · q .
ns2x
L’hypothèse H0 doit être rejetée, au risque α, afin de conserver une relation linéaire
entre les variables y et x.
Proposition 6
On peut tester β1 en passant par la p-valeur (pval ) basée sur la région critique. En
notant tβb1 la valeur calculée de la variable aléatoire Tβb1 :

pval = PH0 Tβb1 > tβb1 .
L’hypothèse H0 est rejetée au risque α lorsque pval ⩽ α.
Remarque 3
La notation PH0 représente la probabilité calculée sous l’hypothèse H0 .
Exemple 7
Application au jeu de données : test de validité du modèle (test sur β1 ), pour un risque
de première espèce α = 5%.
H0 : β1 = 0
H1 : β1 ̸= 0.

 Tβb1 ∼ T (7) , tα/2 = t0,025 ≈ 2,36
q
b∗
 σ ≈ 1,69 , ns2x ≈ 7,75
h i
L’intervalle d’acceptation est ±2,36 × 1,697,75
= [−0,51 ; 0,51] . Comme βb1 = −1,22
n’appartient pas à l’intervalle d’acceptation, l’hypothèse H0 doit être rejetée, au risque
α = 5%.

De manière alternative, en calculant la p-valeur, on obtient pval = PH0
Tβb1 > tβb1 =

PH0 Tβb1 > |−5,6| ≈ 0,0008 (la valeur de tβb1 étant calculée, sous H0 , selon la formule
q
tβb1 = βb1 ns2x /σb ∗ ). Comme 0,0008 < 5%, on rejette l’hypothèse H0 au risque α = 5%.
3.2.2 Tests sur β0 et σ 2

Il est parfois nécessaire de tester des hypothèses concernant les paramètres inconnus
β0 et σ 2 , et plus précisément leur conformité à des valeurs données β00 et σ02 (hypothèse
nulle H0 ). On utilise alors les statistiques suivantes :
— pour β0 :
βb0 − β 0
Tβb0 = q 1 0x̄2 ∼ T (n − 2) ;
σb ∗ n + ns2
x
2
— pour σ :
σb ∗2
Z = (n − 2) ∼ χ2 (n − 2) .
σ02
De façon similaire au test sur β1 (cf. section 3.2.1), on peut alors construire une région
d’acceptation et une règle de décision de ces tests.
Exemple 8
Application au jeu de données : test sur la nullité de la constante β0 , pour un risque
de première espèce α = 5%.
H0 : β0 = 0
H1 : β0 ̸= 0.

 Tβb0 ∼ T (7) , tα/2 = t0,025 ≈ 2,36
q
b∗ 1 x̄2
 σ ≈ 1,69 , n
+ ns2x
≈ 0,61
L’intervalle d’acceptation est [±2,36 × 1,69 · 0,61] = [−2,43 ; 2,43] . Comme βb0 = 11,75
n’appartient pas à l’intervalle d’acceptation, l’hypothèse H0 doit être rejetée, au risque
α = 5%.
Exemple 9
Application au jeu de données : test pour une valeur particulière de la variance de
l’aléa, pour un risque de première espèce α = 5%. Prenons σ02 = 3, par exemple.
H0 : σ 2 = 3
H1 : σ 2 ̸= 3.
(
Z ∼ χ2 (7) , σb ∗2 ≈ 2,86
χ21 ≈ 1,69 , χ22 ≈ 16,01
h i
L’intervalle d’acceptation est 3×1,697
; 3×16,01
7
= [0,72 ; 6,86] . Comme σb ∗2 = 2,86
appartient à l’intervalle d’acceptation, l’hypothèse H0 ne peut pas être rejetée, au risque
α = 5%.
4 Corrélation et analyse de la variance

Le coefficient de corrélation linéaire ry/x mesure le degré de covariation linéaire entre
deux variables, c’est-à-dire l’intensité avec laquelle les deux variables y et x vont varier
conjointement :
n
1X
yi xi − ȳx̄
Cov (x,y) n i=1
ry/x = =v v .
sy sx u1 X
u n u1 X
u n
t y 2 − ȳ 2 t x2 − x̄2
n i=1 i n i=1 i
4.1 Propriétés
(1) ry/x ∈ [−1; 1] :
,→ plus ry/x se rapproche de 1 (ou −1), plus l’intensité de la covariation linéaire est
forte ;
,→ plus ry/x s’éloigne de 1 (ou −1), plus l’intensité de la covariation linéaire est faible.
(2) ry/x est sans dimension.
(3) ry/x est symétrique : ry/x = rx/y .
(4) ry/x n’est pas affecté par un changement de variable :
,→ ry/x = ryc /xc ;
,→ ∀k,k ′ ∈ R \ {0}, rky/k′ x = ry/x .
4.2 Relation entre βb1 et ry/x

Puisque
n
1X
(yi − ȳ)(xi − x̄)
Cov (x,y) n i=1 Cov (x,y)
ry/x = ryc /xc = q = q et βb1 = ,
s2y s2x s2y s2x s2x
alors :
ns2 ( n y c xc ) ns2x
P
sx
ry/x = ryc /xc = x2 qi=1 i i = βb1 q q = βb1 .
nsx ns2x ns2y ns2x ns2y sy
Exemple 10
Application au jeu de données : calcul de ry/x .
sx 2,58
sx = 2,58 , sy = 3,48 , ry/x = βb1 = −1,22 × ≈ −0,9.
sy 3,48
Il existe une forte corrélation négative entre y et x.
4.3 Analyse de la variance

L’analyse de la variance permet de décomposer la variance totale en variance expliquée
et variance résiduelle afin de mesurer la qualité du modèle de régression. Par définition,
nous avons εbi = yi − ybi ⇐⇒ yic = εbi + ybic avec ybic = βb1 xci , d’où :
n n n n
(yic )2 = (ybic )2 + εb2i + 2 ybic εbi .
X X X X
i=1 i=1 i=1 i=1
Or :
n n
εbi ybic = (yic − ybic ) ybic
X X
i=1 i=1
n
(yic − ybic ) βb1 xci
X
=
i=1
n
!

yic c
xci
X
= βb 1 − βb 1 xi
i=1
n
!
yic xci 2
X
= βb 1 − βb 1 nsx .
i=1
Aussi, Pn n n
i=1 xci yic c c b ns2 = 0 =⇒ εbi ybic = 0.
X X
βb1 = =⇒ x y
i i − β1 x
ns2x i=1 i=1
Donc : n n n
(yic )2 (ybic )2 εb2i .
X X X
= + (ANOVA)
i=1 i=1 i=1
Il s’agit de l’équation de l’analyse de la variance qui décrit la décomposition de la variabilité

totale du nuage de points en variations expliquées et variations résiduelles. En effet :
n n
(yic )2 (yi − ȳ)2
X X
SCT = = variance de y (à n près)
i=1 i=1
n n
(ybic )2 = (ybi − ȳ)2
X X
SCE = variance de yb (à n près)
i=1 i=1
n n
εb2i (yi − ybi )2
X X
SCR = = variance de εb (à n près),
i=1 i=1
avec SCT la somme des carrés totaux, SCE la somme des carrés expliqués (par la droite
de régression), et SCR la somme des carrés résiduels. On écrit l’analyse de la variance :
SCT = SCE + SCR.

n
(yic )2 on a :
X
En divisant les deux membres de l’équation (ANOVA) par
i=1
Pn c 2 Pn Pn
i=1 (yi ) bic )2
i=1 (y b2i
i=1 ε
Pn c 2
= Pn c 2
+ Pn c 2
i=1 (yi ) i=1 (yi ) i=1 (yi )
Pn Pn
bic )2
i=1 (y b2i
i=1 ε
1= Pn c 2
+ Pn c 2
.
i=1 (yi ) i=1 (yi )
On appelle coefficient de détermination, noté R2 , le rapport de la somme expliquée à

la somme totale :
Pn Pn
bic )2
i=1 (y εb2
2
R = Pn = 1 − Pn i=1 ci 2 .
c 2
i=1 (yi ) i=1 (yi )
SCE SCR
= =1− .
SCT SCT
Ce coefficient de détermination s’interprète comme un pourcentage. En effet, par construc-

tion :
R2 ∈ [0 ; 1].
Par exemple, R2 = 80% signifie que 80% de la variance totale (la variance de y) est
expliquée par la droite de régression.
Dans le cas de la régression linéaire, on peut montrer que :
2
R2 = ry/x .
En effet :
Pn Pn !2
bic )2
i=1 (y βb12 c 2
i=1 (xi ) ns2 sx 2
R2 = = = βb12 x2 = βb1 = ry/x .
ns2y ns2y nsy sy
Exemple 11
Application au jeu de données : calcul du coefficient de détermination R2 .
SCT = 108,88 , SCE = 88,81 , SCR = 20,07
On peut vérifier qu’en effet SCT = SCE + SCR.

SCE 88,81
R2 = = ≈ 0,81
SCT 108,88
2
ry/x = (−0,9)2 = 0,81
4.4 Tableau de l’analyse de la variance

ANOVA
Variations Somme des carrés des écarts Degré(s) de liberté Variance ou carrés moyens
n n
X X SCE
Expliquée SCE = (ybic )2 = βb12 (xci )2 1 = βb12 ns2x
i=1 i=1
1
n Pn
SCR εb2
= i=1 i = σ b ∗2
X
Résiduelle SCR = εb2i n−2
i=1
n−2 n−2
Totale SCT = ns2y n−1 ×
Rappelons que la loi de Student se construit de la manière suivante :

U
T = q ∼ T (d) ,
Z
d
où U et Z sont deux variables aléatoires indépendantes avec U ∼ N (0; 1), Z ∼ χ2 (d). On

sait par ailleurs qu’il existe une relation entre la loi de Fisher et la loi de Student : la loi
de Fisher se construit à partir du carré de la loi de Student. Si T ∼ T (n − 2) alors la
variable aléatoire
F = T2
suit la loi F (1; n − 2). À partir de ce résultat, on peut en déduire le test du coefficient de
détermination.
Exemple 12
Application au jeu de données : tableau ANOVA.
Variations Somme des carrés des écarts Degré(s) de liberté Variance ou carrés moyens
SCE
Expliquée SCE = 88,81 1 1 = 88,81
Résiduelle SCR = 20,07 7 SCR
7 =
b ∗2 = 2,86
σ
Totale SCT = 108,88 8 ×
4.5 Test du coefficient de détermination

On a vu que, en supposant β1 = 0 :
q √
ns2x n − 2 ry/x √
βb
1 qP =√ n − 2 ∼ T (n − 2) .
n b2i
i=1 ε
1 − R2
D’où :
2 n bic )2
nsx (n − 2) R2
P
i=1 (y
βb12 P n = (n − 2) = n (n − 2) ∼ F (1; n − 2) .
b2i 1 − R2 b2i
P
i=1 ε i=1 ε
Pour tester la validité du modèle à l’aide du coefficient de détermination, on utilise la

statistique de test suivante :
R2
F = (n − 2) ∼ F (1; n − 2) .
1 − R2
Le test est spécifié de la manière suivante :
H0 : β1 = 0
H1 : β1 ̸= 0.
Pour un risque donné α, il est possible de construire un intervalle unilatéral représentant

la région d’acceptation de H0 (cf. figure 6) :
1 − α = P (F ⩽ f1−α ) .
Règle de décision
— L’hypothèse H0 est acceptée au risque de première espèce α (modèle non valide)
si :
R2
(n − 2) = F ⩽ f1−α .
1 − R2
— L’hypothèse H0 est rejetée au risque de première espèce α (modèle valide) si :
R2
(n − 2) = F > f1−α .
1 − R2
1−α
f1−α
valeurs en faveur de H0 valeurs en faveur de H1

région d’acceptation du test région critique du test
Figure 6 – Utilisation de la loi F(1,n − 2) pour déterminer la région d’acceptation
Proposition 7
En notant f la valeur calculée de la variable aléatoire F , l’hypothèse H0 est rejetée au
risque α lorsque pval ⩽ α, avec :
pval = PH0 (F > f ) .
Exemple 13
Application au jeu de données : test du coefficient de détermination, pour un risque de
première espèce α = 5%
H0 : β1 = 0
H1 : β1 ̸= 0.
(
F ∼ F (1; 7) , f1−α = f0,95 ≈ 5,59
R2 = 0,81
R2 0,81
Calculons 1−R 2 (n − 2) = 1−0,81 × 7 = 29,84. Cette valeur étant supérieure au fractile
5,59, on rejette l’hypothèse H0 et on conclut que le modèle est valide.
5 Utilisation du modèle de régression en prévision

On peut utiliser le modèle estimé en prévision de deux façons.
— Prévoir la valeur moyenne de la variable expliquée pour une valeur donnée de la
variable explicative au point i. Cette valeur moyenne est l’espérance mathématique
des valeurs possibles de Y0 (yi à prévoir) associées à x0 (valeur donnée de xi )
c’est-à-dire E (Y0 |x0 ). Cette espérance conditionnelle est estimée par intervalle de
confiance.
— Vérifier qu’une prévision ponctuelle donnée (Y0 ,x0 ) est compatible avec la relation
linéaire estimée. Il s’agit d’un test.
5.1 Intervalle de confiance d’une valeur moyenne de Y connais-

sant une valeur donnée de x
Soit x0 la valeur donnée de x. Soit la valeur x0 correspond à une observation appartenant
à l’ensemble {1, . . . ,n}, soit la valeur x0 correspond à une observation provenant de
l’ensemble {n + 1, . . . ,n + h} où h représente l’horizon de la prévision.
— Le modèle théorique s’écrit :
Y0 = β0 + β1 x0 + ε0 .
— Le modèle estimé s’écrit :

Yb0 = βb0 + βb1 x0 .
La valeur moyenne de Y connaissant une valeur donnée de x est notée :
E [Y0 |x0 ] = β0 + β1 x0 .
La statistique Yb0 est l’estimateur linéaire sans biais de E [Y0 |x0 ] (cf. démonstration ci-
dessous). Comme βb0 et βb1 suivent une loi normale, alors Yb0 suit une loi normale :
h i h i
Yb0 ∼ N E Yb0 ; V Yb0 .
On montre que :
1 (x0 − x̄)2
!
h i h i
2
E Yb 0 = β 0 + β 1 x0 et V Yb 0 =σ + .
n ns2x
Preuve.
h i h i
E Yb0 = E βb0 + βb1 x0 = β0 + β1 x0 = E [Y0 |x0 ] .
h i h i h i
V Yb0 = V βb0 + βb1 x0 = V βb0 + x20 V [β1 ] + 2x0 Cov βb0 ,βb1 .
Or, on a vu que
Pn !
h i σ2 h i
2 i=1 xi
2
2 1 x̄2
V βb 1 = 2 et V βb
0 =σ =σ + 2 .
nsx n2 s2x n nsx
En effet, par définition :

n n n n n
ns2x = (xi − x̄)2 = x2i + x̄2 − 2 x2i − nx̄2 .
X X X X X
xi x̄ =
i=1 i=1 i=1 i=1 i=1
D’où : Pn
i=1 x2i ns2x + nx̄2 1 x̄2
= = + .
nns2x nns2x n ns2x
Par ailleurs,
−x̄
Cov βb0 ,βb1 = 2 σ 2
nsx
d’où :
! !
h i
2 1 x̄2 σ2 x̄ 2 1 x̄2 + x20 − 2x0 x̄
V Yb0 = σ + 2 + x20 − 2x 0 σ = σ 2
+
n nsx ns2x ns2x n ns2x
1 (x0 − x̄)2
!
2
=σ + .
n ns2x
Par conséquent :
1 (x0 − x̄)2
!!
2
Yb0 ∼ N β0 + β1 x0 ; σ + .
n ns2x
□
On peut également démontrer que l’estimateur trouvé est un estimateur sans biais
et de variance minimale. L’intervalle de confiance de la valeur moyenne de Y |x peut se
construire en posant le problème suivant. On cherche les réels a et b tels que, pour un
risque donné α :
1 − α = P (a ⩽ E [Y0 |x0 ] ⩽ b) = P (a ⩽ β0 + β1 x0 ⩽ b) .
Autrement dit, on veut déterminer un intervalle de confiance de la valeur moyenne de Y |x.

On a :
σb ∗2
(n − 2) 2 ∼ χ2 (n − 2) .
σ
Comme σ est inconnu, on utilise la loi de Student :
b0 −(β0 +β1 x0 )
Yq
1 (x −x̄)2
σ n
+ 0 2 Yb0 − (β0 + β1 x0 )
nsx
TYb0 ≡ s = r ∼ T (n − 2) .
σ ∗2 1 (x0 −x̄)2
(n−2) b
σ2 σb ∗ n
+ ns2x
n−2
L’intervalle de confiance de TYb0 , pour un risque donné α est :

1 − α = P −tα/2 ⩽ TYb0 ⩽ tα/2 ,
Proposition 8
L’intervalle de confiance bilatéral symétrique de E[Y0 |x0 ] est :
 v 
u 2
∗t 1
u (x0 − x̄) 
Ic1−α (E [Y0 |x0 ]) = Yb0 ± tα/2 σ + .

b
n ns2x
Exemple 14
Application au jeu de données : construction de l’intervalle de confiance de la valeur
moyenne de Y en sachant une valeur de x, disons x0 = 4,5, pour un niveau de confiance
de 1 − α = 95%.
(
yb0 = 11,75 − 1,22 ∗ 4,5 = 6,26 , tα/2 = t0,025 ≈ 2,36
σb ∗ = 1,69
Ic0,95 (E [Y0 |4,5]) = [6,26 ± 1,35] = [4,91 ; 7,61] .

En faisant le même calcul pour toutes les valeurs x0 appartenant à l’intervalle [0 ; 8], on
obtient une bande de confiance autour de la droite de régression, bande représentée
à la figure 7.
14
droite de régression
12 • bande de confiance 95%
•
10 •
croissance
8 •
•
6 •
4
• •
2 •
0
0 2 4 6 8
tanin
Figure 7 – Bande de confiance déterminée à l’exemple 14
5.2 Prévision d’une valeur de Y pour une valeur non observée

de X
Supposons maintenant que l’on désire prévoir, à l’aide du modèle linéaire, la valeur de
Y pour une valeur non observée x0 de X. La prévision «naturelle» est Yb0 = βb0 + βb1 x0 . On
a vu que cette variable aléatoire Yb0 est distribuée selon la loi
" #!
2 1 (x0 − x)2
N β0 + β1 x0 ; σ + .
n n s2x
D’autre part, on sait que Y0 = β0 + β1 x0 + ε0 suit la loi N (β0 + β1 x0 ; σ 2 ). En admettant

l’indépendance de Y0 et Yb0 , on obtient que εb0 = Y0 − Yb0 suit la loi
" #!
2 1 (x0 − x)2
N 0; σ 1+ +
n n s2x
et donc la variable aléatoire
Y0 − Yb0
Tbε0 = r
(x0 −x)2
h i
1
σb ∗2 1 + n
+ n s2x
suit la loi de Student T (n − 2).

En remplaçant x0 par sa valeur et Yb0 par βb0 + βb1 x0 , on est alors en mesure de construire
un intervalle de prévision pour y0 . Cet intervalle sera d’autant plus grand que x0 sera
éloigné de x :
Proposition 9
L’intervalle de prévision de y0 pour une valeur donnée de x0 au niveau de confiance
1 − α est  v 
1 (x − x)2
u
0
Ic1−α (y0 ) = yb0 ± tα/2 σb ∗ t1 + +
u

n n s2x
Exemple 15
Application au jeu de données : construction de l’intervalle de prévision d’une nouvelle
valeur de Y pour une valeur de x, disons x0 = 4,5, pour un niveau de confiance de
1 − α = 95%.
(
yb0 = 11,75 − 1,22 · 4,5 = 6,26 , tα/2 = t0,025 ≈ 2,36
σb ∗ = 1,69
 v 
1 (x0 − x̄)2 
u
u
∗t
yb0 ± tα/2
Ic0,95 (y0 ) =  σb 1 + +  = [6,26 ± 4,21] = [2,05 ; 10,47] .
n ns2x
En faisant le même calcul pour toutes les valeurs x0 appartenant à l’intervalle [0 ; 8], on
obtient une bande de prévision autour de la droite de régression, bande qui se rajoute à
celle de confiance. Les deux bandes, ainsi que la droite de régression sont représentées à
la figure 8.
15 droite de régression
bande de confiance 95%
intervalle de prévision 95%
•
•
10 •
croissance
•
•
•
5
• •
•
0 2 4 6 8
tanin
Figure 8 – Intervalle de prévision déterminé à l’exemple 15
Le sujet de la régression linéaire en statistique est vaste et n’a été qu’introduit dans ce
poly. Notamment, ce modèle est basé sur des hypothèses admises concernant les erreurs
(normalité, indépendance, homoscédasticité) qu’il est bon de vérifier sur des exemples.
Ceci est abordé dans la dernière vidéo disponible dans le cadre de ce MOOC, consacrée à
l’analyse des résidus.
6 Exercices
Exercice 1
Quand des anthropologues étudient des ossements humains, l’un des points importants
est de déterminer la taille des individus. Comme les squelettes sont souvent incomplets,
on estime cette taille à partir de mesures sur des petits os. Dans un article intitulé The
Estimation of Adult Stature from Metacarpal Bone Length, une équipe de chercheurs a
ainsi présenté une méthode permettant d’estimer la taille d’un individu en fonction de la
longueur des métacarpes, les os de la paume de main, validée sur les données suivantes où
x est la longueur de l’os metacarpal du pouce et y la taille de l’individu.
x (mm) 45 51 39 41 52 48 49 46 43 47
y (cm) 171 178 157 163 183 172 183 172 175 173
On a représenté à la figure 9 les données et la droite des moindres carrés reliant y à x.
185 −
• •
180 −
•
175 − •
• • •
170 −
•
165 −
•
160 −
•
155 −
| | | | |
35 40 45 50 55
Figure 9 – Données de l’exercice 1
1. Calculer les coefficients de la droite des moindres carrés. Vérifiez avec le graphique.
2. Pour quel risque minimal peut-on considérer que la relation entre x et y est significative ?
3. Donner l’intervalle de confiance à 95% de la hauteur moyenne des individus dont l’os
métacarpal du pouce serait long de 50mm.
4. Des éléments anthropologiques complémentaires ont permis d’estimer à 1m90 la taille
d’un individu dont l’os metacarpal du pouce est de 50mm. Que penser de cet individu ?
5. Tracer les résidus. Qu’est-ce qu’il faut faire pour vérifier s’il s’agit de réalisations de
variables aléatoires normales ?
Exercice 2
La figure 10 suivante indique, pour les 21 régions françaises de province et de métropole
N°4
dans la haute technologie,

Profils
(en vigueur jusqu’en 2015), le PIB (y) par région en fonction du nombre d’emplois (x)
pour l’année 2000 (source : INSEE Nord-Pas-de-Calais). Le
NORD-PAS-DE-CALAIS
nuage de points, de forme allongée, suggère l’existence d’une relation linéaire (figurée par
ets déposés placent LES EMPLOIS DANS
la droite des moindres LES ACTIVITÉS DE HAUTE TECHNOLOGIE, VECTEUR DE LA CROISSANCE ÉCONOMIQUE
carrées) entre ces deux variables.
mie, la fabrication Nombre d’emplois dans la haute technologie et PIB en valeur par région de province
s médicochirurgicaux Millions d'euros
trie pharmaceutique 160 000
des activités de haute

140 000
ologie régionales
Rhône-Alpes
120 000
élaboration ne suive pas la
rche, car la nomenclature 100 000
Provence-Alpes-Côte d'Azur
férente, les brevets fournis-
eignements importants sur 80 000
Pays de la Loire
Nord-Pas-de-Calais
nir des industries de haute 60 000
Aquitaine
Bretagne Midi-Pyrénées
ans le Nord-Pas-de-Calais. Languedoc-Roussillon
Lorraine Alsace Centre
echerche et développement 40 000 Picardie Bourgogne Haute-Normandie
Champagne-Ardennes
de fournir aux entreprises Poitou-Charentes
Basse-Normandie
20 000 Auvergne Franche-Comté
x produits. Ces derniers Limousin
par leurs caractéristiques 0
Corse
es avantages considérables 0 10 000 20 000 30 000 40 000 50 000 60 000 70 000 80 000 90 000
Nombre de salariés
ffrir à l’extrême une position
ue, par le dépôt de brevets, Source : Insee - Comptes nationaux 2000, Unedic 2000
é. Figure 10 – Données de l’exercice 2

GUIDE DE LECTURE AFIN DE DÉCELER LE LIEN EXISTANT ENTRE LE NOMBRE D'EMPLOIS RELEVANT DE LA HAUTE TECHNOLOGIE ET LE
essus de dépôt de brevets, PIB DÉGAGÉ DANS UNE RÉGION, LA MÉTHODE DE LA RÉGRESSION LINÉAIRE A ÉTÉ EMPLOYÉE. ELLE PERMET EN EFFET DE RECHERCHER
région Île-de-France On est donne
ET D'ESTIMER L'ADÉQUATION D'UNE MODÉLISATION DU TYPE : Y=aX+b. LES RÉSULTATS PERMETTENT BIEN DE CONCLURE À UNE RELATION
par ailleurs les résultats intermédiaires suivants :
LINÉAIRE ENTRE LE NOMBRE D'EMPLOIS DES SECTEURS DE LA HAUTE TECHNOLOGIE ET LE PIB RÉGIONAL. L'ÉQUATION FINALE S'ÉCRIT :
effet, en raison de cabinets
PIB = 1,44 (EMPLOIS HT)+17 781 (EN MILLIONS D'EUROS).
tués dans cette région et SP P ENREGISTRENT DESPPIB TRÈS
I DE NOMBREUSES RÉGIONS PROCHES DE CEUX, "THÉORIQUES ", QUI SERAIENT OBTENUS
P À L'AIDE DE LA
x2i SUR LA DROITE DE RÉGRESSIONy),i2 D'AUTRES, AU CONTRAIRE, Sx'ENi yÉLOIGNENT
P
tion des sièges sociaux, la xi LINÉAIRE (LES POINTS
RELATION yi SERAIENT ALORS SITUÉS i .
demandes de dépôt de C'EST PARTICULIÈREMENT LE CAS DES RÉGIONS NORD-PAS-DE-CALAIS ET PROVENCE-ALPES-CÔTE D'AZUR : CES DEUX RÉGIONS
431 200 992 600 15 078 020 000 64 038 160 000 29 144 300 000
PRODUISENT EN EFFET UN PIB SENSIBLEMENT SUPÉRIEUR À CELUI QU'ELLES DEVRAIENT THÉORIQUEMENT DÉGAGER SI LE MODÈLE
ffectuent. Ainsi, les faibles LINÉAIRE DÉCRIVAIT PARFAITEMENT LA RÉALITÉ. AVEC QUELQUE 12 000 EMPLOIS DÉDIÉS À LA HAUTE TECHNOLOGIE, LA RÉGION
es aux régions de province NORD-PAS-DE-CALAIS POURRAIT EN THÉORIE DÉGAGER UN PIB BEAUCOUP PLUS FAIBLE ALORS QU'IL SE SITUE À 76 MILLIARDS D'EUROS.
e avec précaution.1. CalculerCELA SEMBLE INDIQUER QU'IL S'AGIT
les coefficients
DE RÉGIONS QUI TIRENT UNE PARTIE IMPORTANTE DE LEUR RICHESSE, D'ACTIVITÉS AU CARACTÈRE
et βb1 , ,estimations des paramètres β0 et
TECHNOLOGIQUE MOINS PRONONCÉ βb.0EFFECTIVEMENT LE NORD-PAS-DE-CALAIS SE CARACTÉRISE DEPUIS LONGTEMPS PAR LA 1 de la relation
βPRODUCTION
uatre domaines technolo- D'UNE VALEUR AJOUTÉE FORTE DANS LES INDUSTRIES DE L'AUTOMOBILE, DES BIENS INTERMÉDIAIRES ET DE L'AGRO-ALIMENTAIRE. LA RÉGION
linéaire y =PACA,
objet de dépôts significatifs + β1ÀxELLEqu’on
β0 QUANT cherche à mettre en évidence.
, ENREGISTRE UNE VALEUR AJOUTÉE CONSÉQUENTE DANS LE SECTEUR TERTIAIRE (ACTIVITÉS IMMOBILIÈRES,
ans la région Nord-Pas-de- , ).
2. La relation obtenue est-elle significative au risque 5% ?
ADMINISTRATION TRANSPORTS
technologie qui représente

dépôts de l’ensemble 3. Pour
des 12(33,7%)
000 emplois et l’industriede haute chimique technologie,
de haute quelle plus élevéestpourl’espérance
les activités mathématique
de haute techno- du PIB
et son intervalle
ovince, l’ingénierie médicale technologie de confiance
(29,6%). à 95% ? logie que pour l’ensemble des activités,
mie organique fine (2,9%) Dans une moindre mesure, deux secteurs 30,8% contre 23,7% pour l’ensemble des
4. Dans cette
macromoléculaire (2,9%). étude, àlalarégion
contribuent production Nord-Pas-de-Calais
de la valeur (cliente
activités, ce quidetendrait
l’étude) afficheque
à montrer unlesPIB de 76
onfirment donc les Milliards
résultats d’euros
ajoutée dans pourla régionenviron 12de000
: l’activité emplois activités
production de haute technologie.
de haute technologie Que pensez
créent plus de cette
ui placent la chimie,régionla par de matériel aux
rapport électrique autres ? technologie de richesse.
de haute
d’appareils médicochirur- (8,7%) et celle de production de matériel En 1999, le chiffre d’affaires total des
dustrie pharmaceutique5. Laaurégion Nord-Pas-de-Calais
médicochirurgical (9,0%). ainsi Enfin, que il estla régionindustries Provence-Alpes-Côte
de haute technologie représente d’Azur sont en
vités de haute technologie
effet assez intéressant
éloignées de dunoter modèle que obtenu.
le ratio “valeur Selon vous, 1,5% quelles
du chiffre d’affaires
raisons cumulé depropres à
structurelles
ajoutée / chiffre d’affaires” est en moyenne l’ensemble des industries de la région, soit
ces régions pourraient expliquer cet écart ?
6. Quel défaut présente le modèle de régression choisi ici et comment aurait-on pu le
OLOGIE EST EMPLOYÉ corriger ? UNE INDUSTRIE RÉGIONALE DE HAUTE TECHNOLOGIE AXÉE SUR QUATRE SECTEURS D’ACTIVITÉ
UE
Répartition des effectifs salariés dans les industries de haute technologie
gie dans le Nord-Pas-de-Calais dans le Nord-Pas-de-Calais et dans la France de province
Exercice 3
Effectif salarié Unité : %
Effectif
total salarié
Les
moyen données ci-dessous sont relatives
Secteur d’activité à l’étalonnage d’une méthode
Nord-Pas-de-Calais gravimétrique
France de province pour
Nombre % le dosage de la chaux en présence de magnésium. La variable en x est la teneur vraie et la
3 687 31,8 46 Industrie électrique de haute technologie 31,8 21,2
variable en y est laIndustrie
teneur mesurée (en mg).
médicale de haute technologie 16,9 6,8
1 956 16,9 6
1 840 15,9 63 Industrie chimique de haute technologie 15,9 6,6
1 761 15,2 77 Industrie pharmaceutique 15,2 13,4
26 Fabrication d’instrumentation scientifique
Institut Mines-Télécom
523 4,5 8 et technique 4,5 5,4
1 820 15,7 13 Autres 15,7 46,7
11 587 100,0 18 Ensemble 100,0 100,0
Vraie (x) 20 22,5 25 28,5 31 35,5 33,5 37 38 40

Mesurée (y) 19,8 22,8 24,5 27,3 31 35 35,1 37,1 38,5 39
On donne
x2i = 10 100 yi2 = 10 055,09

X X X X X
xi = 311 yi = 310,1 xi yi = 10 074,8
1. Estimer par la méthode des moindres carrés les paramètres β0 et β1 de la relation

linéaire y = β0 + β1 x qu’on cherche à mettre en évidence.
2. Caractériser la précision de la méthode gravimétrique.
3. Tester l’hypothèse β0 = 0 de telle façon que la probabilité d’accepter l’hypothèse si elle
est vraie soit égale à 90%.
4. Tester l’hypothèse β1 = 1 de telle façon que la probabilité d’accepter l’hypothèse si elle
est vraie soit égale à 90%.
5. Bâtir et mettre en œuvre un test permettant de tester simultanément que β0 = 0 et
que β1 = 1, la probabilité d’accepter l’hypothèse si elle est vraie étant encore égale à 90%.
Exercice 4
Le tableau ci-après donne les résultats d’un certain nombre de déterminations de la
distance nécessaire (y en mètres) à l’arrêt par freinage d’une automobile lancée à différentes
vitesses (x en km/h). Une étude graphique montre que la courbe représentant y en fonction
de x est manifestement concave vers les y positifs, mais que si l’on utilise x2 au lieu de
x, la liaison apparaît sensiblement linéaire. Peut-on justifier ce fait par une loi physique ?
Admettant la validité de ce type de liaison entre y et x2 , on suppose de plus que la vitesse
x peut être déterminée avec une grande précision et que les écarts constatés sont dus à des
fluctuations aléatoires de y autour d’une vraie valeur correspondant à une liaison linéaire
représentée par l’équation y = β1 x2 + β0 .
Vitesse (x) 33 49 65 33 79 49 93
Distance (y) 5,3 14,45 20,26 6,5 38,45 11,23 50,42
x2 1 089 2 401 4 225 1 089 6 241 2 401 8 649
x2i = 26,095
X X
yi = 146,61
yi2 = 4 836,3019 x4i = 145 507 351 x2i yi = 836 155,41
X X X
1. Quelle est la meilleure estimation de β0 et β1 ? Quelle hypothèse supplémentaire suppose

cette estimation ?
2. Déterminer les limites de confiance à 95% pour les estimations précédentes.
3. Considérant le cas d’une voiture dont la vitesse est de 85km/h, estimer la valeur
moyenne correspondante de y. En donner une limite supérieure au seuil de confiance 99%.
4. On suppose que pour une voiture se déplaçant à 85km/h, on observe une distance
de freinage y = 55 mètres. Cette valeur peut-elle être considérée comme étant, à des
fluctuations aléatoires admissibles près, d’accord avec l’équation d’estimation trouvée ?
Exercice 5
Il y a des situations où la droite de régression passe par l’origine. Le modèle devient
alors Yi = β1 xi + εi .
1. En utilisant la méthode des moindres carrés, donner les expressions de :
(a) βb1 ,

(b) E βb1 , V βb1 , V Ybi .
2. Montrer algébriquement que εbi ̸= 0.
P

T4 Regression

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

T4 Regression

Transféré par

Droits d'auteur :

Formats disponibles

Thème 4 : Régression linéaire Statistique pour ingénieur

Statistique pour ingénieur

Édition révisée du 13 avril 2023

Table des matières

2 Les estimateurs des Moindres Carrés Ordinaires (MCO) 4

3 Lois des estimateurs et tests des estimateurs 9

4 Corrélation et analyse de la variance 15

5 Utilisation du modèle de régression en prévision 20

Yi = β0 + β1 x1i + · · · + βk xki + εi , ∀i ∈ {1, . . . ,n},

avec n le nombre d’observations des variables, Yi la variable expliquée, β0 , . . . ,βk les

avec X la matrice comportant en colonne les k + 1 variables explicatives xk .

— le modèle empirique (ou calculé) :

yi = βb0 + βb1 xi + εbi .

2 Les estimateurs des Moindres Carrés Ordinaires

Ces données sont représentées graphiquement à la figure 1.

Figure 1 – Représentation graphique des données de l’exemple 1

1. À partir du livre de Michael Crawley, Statistics : An introduction using R, Wiley (2005).

2.2 Les hypothèses de base du modèle

(hypothèse de non auto-corrélation des erreurs). On peut donc écrire :

Trois quantités sont donc inconnues dans ce modèle : β0 , β1 et σ 2 . L’objectif des

2.3 Les estimateurs des moindres carrés ordinaires

Figure 2 – Droite d’ajustement (ou : droite des MCO)

Formellement, la méthode des MCO est la suivante :

⇐⇒ nȳ − nβb0 − nβb1 x̄ = 0

yic = βb0c + βb1c xci + εbi

Figure 3 – Représentation graphique de la régression linéaire de l’exemple 2

Comme βb0c = 0, le modèle centré s’écrit :

ybic = βb1 xci .

Ce changement de variable consiste à changer d’axe dans le nuage de régression et à placer

2.4 Propriétés des estimateurs des moindres carrés ordinaires

(3) βb0 et βb1 sont des estimateurs à variance minimale de β0 et β1 :

Proposition 2 (Estimateur de la variance de l’erreur σ 2 )

C’est un estimateur sans biais de σ 2 :

3 Lois des estimateurs et tests des estimateurs

qui contienne à la fois l’estimateur de la variance de l’aléa et la variance de l’aléa pour

3.1 Estimation par intervalle de confiance de β0 , β1 et σ 2

À partir de cette expression nous pourrons déduire un intervalle de confiance de β1 . On

En utilisant la variable aléatoire normale βb1 , il vient :

Figure 4 – Utilisation de la loi T (n − 2) pour construire un intervalle de confiance

On obtient finalement la proposition suivante.

Tβ1 ∼ T (7) , tqα/2 = t0,025 ≈ 2,36

σb ∗ ≈ 1,69 , ns2x ≈ 7,75

3.1.2 Intervalle de confiance de β0

Le principe est le même qu’à la section 3.1.1 : la variable aléatoire

suit la loi de Student T (n − 2) et cela permet à partir d’un intervalle de probabilité de

3.1.3 Intervalle de confiance de σ 2

Figure 5 – Utilisation de la loi du χ2 pour un intervalle de confiance

3.2 Tests d’hypothèses

Ceci définit la région d’acceptation de l’hypothèse H0 .

— L’hypothèse H0 est rejetée au risque de première espèce α si :

Lorsque la validité du modèle est testée, autrement dit H0 : β1 = β10 = 0, l’intervalle

L’hypothèse H0 est rejetée au risque α lorsque pval ⩽ α.

3.2.2 Tests sur β0 et σ 2

4 Corrélation et analyse de la variance

4.2 Relation entre βb1 et ry/x

Il existe une forte corrélation négative entre y et x.

4.3 Analyse de la variance

i=1 i=1 i=1 i=1

Il s’agit de l’équation de l’analyse de la variance qui décrit la décomposition de la variabilité

SCT = SCE + SCR.

On appelle coefficient de détermination, noté R2 , le rapport de la somme expliquée à

Ce coefficient de détermination s’interprète comme un pourcentage. En effet, par construc-

SCT = 108,88 , SCE = 88,81 , SCR = 20,07

On peut vérifier qu’en effet SCT = SCE + SCR.