Académique Documents
Professionnel Documents
Culture Documents
Mounir JERRY
Année universitaire 2021-2022
USTV
Master G.R.F.
Mounir Jerry
Master G.R.F.
Linéaire : y = ax + b
Log-linéaire : y = bxa
Exponentiel : y = eax+b
Logarithmique : y = aln(x) + b
a
Hyperbolique : y = + y0
x − x0
ymax − ymin
Logistique : y = ymin +
1 + eax+b
2
Parabolique : y = ax + bx + c
— Linéarisation
Mounir Jerry
Master G.R.F.
Hypothèses
Permettent de déterminer les propriétés des estimateurs, et de mettre en place les outils
de statistique inférentielle (tests d’hypothèses, intervalle de confiance).
1. H1 x et y sont des grandeurs numériques mesurées sans erreur. x est une donnée
(exogène) dans le modèle, y est aléatoire par l’intermédiare de ε (c-à-d, la seule erreur
que l’on a sur y provient des insuffisances de x à expliquer ses valeurs dans le modèle).
2. H2 Les εi sont i.i.d.
(a) H21 En moyenne les erreurs s’annulent, le modèle est bien spécifié : E(εi ) = 0
(b) H22 La variance de l’erreur est constante et ne dépend pas de l’observation :
homoscédasticité V (εi ) = σε2
(c) H23 En particulier, l’erreur est indépendante de la variable exogène : Cov(xi , εi ) =
0
(d) H24 Indépendance des erreurs, les erreurs relatives à deux observations sont in-
dépendantes : Cov(εi , εj ) = 0
(e) H25 εi ∼ N (0, σε )
Mounir Jerry
Master G.R.F.
n
X n
X
min ε2i = min [yi − (β0 + β1 xi )]2
β0 ,β1 β0 ,β1
i=1 i=1
Xn
= min [yi − β0 − β1 xi ]2 = min φ(β0 , β1 )
β0 ,β1 β0 ,β1
i=1
n
∂φ(β0 , β1 )
X
−2 [yi − β̂0 − β̂1 xi ] = 0
=0
∂β0 =⇒ i=1
n
∂φ(β0 , β1 ) = 0
X
−2 [xi (yi − β̂0 − β̂1 xi )] = 0
∂β1
i=1
β̂0 = ȳ − β̂1 x̄
n
=⇒ X
−2
[xi (yi − ȳ + β̂1 x̄ − β̂1 xi )] = 0
i=1
β̂0 = ȳ − β̂1 x̄
X n X n
xi (yi − ȳ) = β̂1 xi (xi − x̄)
=⇒ |i=1 {z } |i=1 {z }
X n Xn
(xi − x̄)(yi − ȳ) (xi − x̄)2
i=1 i=1
Mounir Jerry
Master G.R.F.
Propriétés
n
∂φ(β0 , β1 ) X
1. = ε̂i = 0
∂β0 i=1
n
∂φ(β0 , β1 ) X
2. = xi ε̂i = 0
∂β1 i=1
3. (x̄, ȳ) est toujours sur la droite de régression, car on a : ȳ = β̂0 + β̂1 x̄
y i = β 0 + β 1 xi + εi
Les MCO décomposent chaque yi en deux parties : une valeur prédite + un résidu (valeur
non prédite).
n n n n
1X 1X 1X 1X
yi = β0 + β1 xi + εi
n i=1 n i=1 n i=1 n i=1
ȳ = β0 + β1 x̄ + ε̄
Comme on a
n n
1X 1X 2
Sx2 = (xi − x̄)2 = x − x̄2
n i=1 n i=1 i
n n
1X 1X 2
Sy2 = (yi − ȳ)2 = y − ȳ 2
n i=1 n i=1 i
n n
1X 1X
Cov(x, y) = Sxy = (xi − x̄)(yi − ȳ) = xi yi − x̄ȳ
n i=1 n i=1
Mounir Jerry
Master G.R.F.
Mounir Jerry
Master G.R.F.
Or on a
ŷi = β̂0 + β̂1 xi = ȳ − β̂1 x̄ + β̂1 xi
D’où
ŷi − ȳ = β̂1 (xi − x̄)
Alors
n
X n
X
(yi − ŷi )(ŷi − ȳ) = ε̂i (ŷi − ȳ)
i=1 i=1
Xn
= ε̂i β̂1 (xi − x̄)
i=1
Xn n
X
= β̂1 ( ε̂i xi − ε̂i x̄)
i=1 i=1
Xn X n
= β̂1 ( ε̂i xi − x̄ ε̂i )
i=1 i=1
| {z } | {z }
=0 =0
Alors on a
n
X n
X n
X
2 2
(yi − ȳ) = (yi − ŷi ) + (ŷi − ȳ)2
i=1 i=1 i=1
SCT = SCR + SCE
Coefficient de détermination
SCE SCR
R2 = =1−
SCT SCT
2
— R est la proportion de la variance de y expliqué par x.
— Il est toujours compris entre 0 et 1.
— Il est un instrument de mesure de la qualité de l’ajustement, par le modèle linéaire et
des données observées. Plus il est proche de 1, mieux cela vaut.
— Plus le R2 est proche de 0, l’ajustement est mauvais, x n’apporte pas d’informations
utiles sur y.
Mounir Jerry
Master G.R.F.
— Il faut tout de même faire attention quant au crédit à accorder au R2 , il doit toujours
être accompagné d’autres tests (Student et Fisher essentiellement) avant de trancher
sur la bonté d’un modèle, mais il reste un critère non négligeable pour la prévision.
En plus
SCE
R2 =
SCT
Xn
(ŷi − ȳ)2
i=1
= n
X
(yi − ȳ)2
i=1
n
X
(xi − x̄)2
= β̂12 i=1
n
X
(yi − ȳ)2
i=1
2
Sy2 Sx2
= rxy 2 ·
Sx Sy2
2
= rxy
Mounir Jerry
Master G.R.F.
n
X
n
(xi − x̄)2
X i=1 1
— wi2 = !2 = X
n
n
i=1
(xj − x̄)2
X
(xj − x̄)2
j=1 j=1
n
X
n
(xi − x̄)2
X i=1
— wi (xi − x̄) = n =1
X
i=1
(xj − x̄)2
j=1
n
X n
X n
X n
X
— wi (xi − x̄) = wi xi − x̄ wi = wi x i = 1
i=1 i=1 i=1 i=1
n n n
1
X X X 1
— β̂0 = ȳ − β̂1 x̄ = n
yi − x̄ wi yi = ( − x̄wi )yi
i=1 i=1 i=1
n
xi n’est pas aléatoire par hypothèse, donc wi ne l’est pas.
n
!
X
E(β̂1 ) = E wi (β0 + β1 xi + εi )
i=1
X n X n n
X
= E β0 wi +β1 w i xi + w i εi
i=1
| {z } |i=1{z } i=1
=0
n
! =1
X
E(β̂1 ) = E β1 + w i εi
i=1
Xn
= E(β1 ) + wi E(εi )
| {z }
i=1 =0
= β1
Mounir Jerry
Master G.R.F.
n
!
X 1
E(β̂0 ) = E ( − x̄wi )yi
i=1
n
n
!
X 1
= E ( − x̄wi )(β0 + β1 xi + εi )
n
i=1
n n n n n n
X 1 1 X 1X X X X
= E β0 + β1 xi + εi − x̄β0 wi −x̄β1 wi xi −x̄ w i εi
i=1 n n i=1 n i=1
|i=1{z } |i=1{z } i=1
n n
!=0 =1
1X X
= E β0 + β1 x̄ + + εi − β1 x̄ − x̄ w i εi
n i=1 i=1
n
!
X 1
E(β̂0 ) = E β0 + ( − x̄wi )εi
i=1
n
n n
1X X
= β0 + E(εi ) −x̄ wi E(εi )
n i=1 | {z } i=1
| {z }
=0 =0
= β0
V (β̂1 ) = E (β̂1 − E(β̂1 ))2
2
= E (β̂1 − β1 )
n
!
X
= E ( wi εi )2
i=1
n n
!
X X
= E wi2 ε2i + 2 w i w j εi εj
i=1 i<j
n
X n
X
= wi2 × E(ε2i ) +2 wi wj × E(εi εj )
| {z } | {z }
i=1 i<j
=E((εi −E(εi ))2 )=σε2 =E(εi )·E(εj )=0
σε2
= n
X
(xi − x̄)2
i=1
Mounir Jerry
Master G.R.F.
2
V (β̂0 ) = E (β̂0 − E(β̂0 ))
= E (β̂0 − β0 )2
n
!
X 1
= E ( ( − x̄wi )εi )2
i=1
n
n
!
X 1 2 1
= E 2
εi + x̄2 wi2 ε2i − 2 x̄wi ε2i
i=1
n n
n n
1 X 2 2
X
2 2 1 X
= E(ε i ) + x̄ wi E(ε i ) − 2 x̄ wi E(ε2i )
n2 i=1 i=1
n i=1
2
1 x̄
= σε2 +
n Xn
2
(xi − x̄)
i=1
σε2
V (β̂1 ) = n
X
(xi − x̄)2
i=1
Or on a σε2
est une valeur qui ne dépend pas des effectifs (variance de l’erreur théorique) et
Xn
(xi − x̄)2 −→ +∞, alors
n→+∞
i=1
V (β̂1 ) −→ 0
n→+∞
On a aussi
x̄2
1
V (β̂0 ) = σε2 +
n Xn
−→ 0
n→+∞
2
(xi − x̄)
i=1
Mounir Jerry
Master G.R.F.
Or d’après l’expression
n
X n
X n
X n
X
β̂1 = β1 + wi εi = β1 + wi εi − ε̄ w i = β1 + wi (εi − ε̄)
i=1 i=1 i=1 i=1
| {z }
=0
Mounir Jerry
Master G.R.F.
i=1 i=1
n n n
!
X X X
= E ε2i − 2ε̄ εi + ε̄ 2
i=1
n
! n n
!
X X X
= E ε2i − nε̄ 2
=E ε2i − ε̄ εi
i=1 i=1 i=1
n n
!
X 1 X 2
= E ε2i − ( εi )
i=1
n i=1
n n
X 1 X
= E(ε2i ) − E(( εi )2 )
i=1
n i=1
Donc n
X
E( ε̂2i ) = (n − 1)σε2 − σε2 = (n − 2)σε2
i=1
L’estimateur sans biais de la variance de l’erreur σε2 noté σ̂ε2 est donc égal à :
n
1 X 2 SCR
σ̂ε2 = ε̂i =
n − 2 i=1 n−2
En remplaçant la variance des erreurs par son estimateur sans biais, on définit les estimateurs
empiriques de la variance de chacun des coefficients
Mounir Jerry
Master G.R.F.
σ̂ε2
σ̂β̂2 = n
1 X
(xi − x̄)2
i=1
2
1 x̄
σ̂β̂2 = σ̂ε2 +
n n
0 X
(xi − x̄)2
i=1
x̄2
1
V (β̂0 ) = σβ̂2 = σε2 +
n Xn
0
2
(xi − x̄)
i=1
L’hypoyhèse de normalité des erreurs implique que
β̂0 − β0 β̂1 − β1
et
σβ̂0 σβ̂1
i=1
σε σε
X
xi ε̂i = 0
i=1
σ̂ 2
⇒ (n − 2) ε2 ∼ χ2 (n − 2)
σε
On vérifie facilement
σε σβ̂ σβ̂
1 0
Mounir Jerry
Master G.R.F.
β̂0 − β0 β̂1 − β1
Il en résulte que et (l’écart-type théorique est remplacé par l’écart-type
σ̂β̂0 σ̂β̂1
empirique) suivent une loi de Student à n − 2 degrés de liberté. En effet
β̂0 − β0
β̂0 − β0 σβ̂0
=v
σ̂β̂0 u
u σ̂β̂2 1
0
(n − 2)
t
2
σβ̂ n − 2
0
β̂1 − β1
β̂1 − β1 σβ̂1
= v
σ̂β̂1
σ̂β̂2 1
u
u
t(n − 2) 1
σ2 n − 2
β̂1
est le rapport d’une loi normale centrée réduite à la racine carrée d’un chi-deux divisé par
son degré de liberté.
Il est donc possible maintenant de mettre en place des tests statistiques afin d’apporter
des réponses à des problèmes tels que :
• comparaison d’un coefficient de régression par rapport à une valeur fixée.
• comparaison de deux coefficient de régression provenant de deux échantillons différents.
• détermination d’un intervalle de confiance pour un coefficient.
Le test de Student
−→ A partir de ces éléments, on peut mettre en place l’inférence statistique. Si x et y sont
linéairement liés, nous devons avoir β1 6= 0.
−→ Le but du test de Student est d’utiliser les données de l’échantillon pour conclure si
β1 6= 0 : H0 : β1 = 0 contre H1 : β1 6= 0
−→ Le test de signification de Student est basé sur le fait que la statistique de test T =
β̂1 − β1
suit une loi de Student à n − 2 degrés de liberté. Si l’hypothèse nulle est vraie,
σ̂β̂1
β̂1
alors β1 = 0 et T = .
σ̂β̂1
−→ On calcule alors pour les valeurs de l’échantillon T et on accepte ou on rejette H0
suivant la valeur trouvée, au risque α.
−→ On calcule la valeur de la v.a. T,
∗ Si T ∈ [−t1− α2 , t1− α2 ], alors on accepte H0 .
∗ Si T ∈
/ [−t1− α2 , t1− α2 ], alors on rejette H0 .
Mounir Jerry
Master G.R.F.
α
Avec t1− α2 le quantile d’ordre 1 − 2
de la loi de Student à n − 2 degrés de liberté.
Intervalle de confiance pour β1
En se basant sur le paramètre estimé β̂1 et en assumant un risque donné α. La forme de
l’intervalle de confiance pour β1 est
Le test de Fisher
Un autre test consiste à tester la significativité conjointe de tous les paramètres estimés
du modèle. C’est le test basé sur la statistique de Fisher, appelé aussi test d’analyse de la
variance ANOVA. La statistique du test est donnée par le rapport suivant :
SCE
F = 1
SCR
n−2
Comme on a
SCE = R2 · SCT et SCR = (1 − R2 )SCT
Alors
R2
F = 1
1 − R2
n−2
Dans le cas d’une régression linéaire simple, le test F est confondu au test de signifi-
cativité individuelle de la pente (test de Student). Les deux tests sont basés sur les mêmes
hypothèses, et on démontre dans ce cas que :
β̂12
F = T2 =
σ̂β̂2
1
Preuve :
n
X
SCE β̂12 (xi − x̄)2
1 = i=1 β̂12
F = n =
SCR X σ̂ε2
n−2 ε̂2i n
X
i=1 (xi − x̄)2
n−2 i=1
β̂12
=
σ̂β̂2
1
Remarque
Mounir Jerry
Master G.R.F.
La statistique F est le rapport de la somme des carrés expliqués xi sur la somme des carrés
des résidus, chacune de ces sommes étant divisée par son degré de liberté respectif. Ainsi, si
la variance expliquée est significativement supérieure à la variance résiduelle, la variable xi ,
est considérée comme étant une variable réellement explicative.
I Test de signification de Fisher
H0 : β1 = 0
H1 : β1 6= 0
I Statistique de test
SCE
F = 1
SCR
n−2
I Règle de rejet
Les degrés de liberté correspondent au nombre de valeurs que nous pouvons choisir arbi-
trairement (par exemple, pour la variabilité totale, connaissant n − 1 valeurs, nous pourrons
en déduire la n-ième, puisque nous connaissons la moyenne ȳ).
Mounir Jerry
Master G.R.F.
Montrons que cette prévision est sans biais. L’erreur de prévision est définie par
Dans la pratique, il n’est que de peu d’utilité de connaître la prévision si nous ne savons
pas quel degré de confiance nous pouvons lui accorder. Nous allons donc calculer la variance
de l’erreur de prévision qui nous permet de déterminer un intervalle de confiance bornant la
prévision.
V (ε̂0 ) = V (β0 − β̂0 ) + (β1 − β̂1 )x0 + ε0
2
= E (β0 − β̂0 ) + (β1 − β̂1 )x0 + ε0
= E (β0 − β̂0 )2 + E (β1 − β̂1 )2 x20 + E(ε20 ) + E 2x0 (β0 − β̂0 )(β1 − β̂1 ) +
E 2(β0 − β̂0 )ε0 + E 2x0 (β1 − β̂1 )ε0
= V (β̂0 ) + x20 V (β̂1 ) + σε2 + 2x0 E (β0 − β̂0 )(β1 − β̂1 ) +
2 E( (β0 − β̂0 ) ε0 ) +2x0 E( (β1 − β̂1 ) ε0 )
| {z } | {z }
n n
X 1 X
=− ( − x̄wi )εi =− w i εi
i=1
n i=1
| {z } | {z }
=0 =0
Mounir Jerry
Master G.R.F.
n
! n
!!
σ2 X 1 X
V (ε̂0 ) = ε + x̄2 V (β̂1 ) + x20 V (β̂1 ) + σε2 + 2x0 E ( − x̄wi )εi w i εi
n i=1
n i=1
n
!
σε2 X 1
= + x̄2 V (β̂1 ) + x20 V (β̂1 ) + σε2 + 2x0 E ( − x̄wi )wi ε2i
n i=1
n
n
!
σε2 X wi
= + x̄2 V (β̂1 ) + x20 V (β̂1 ) + σε2 + 2x0 E ( − x̄wi2 )ε2i
n i=1
n
n n
σε2 2 2 2 2x0 σε2 X X
= + x̄ V (β̂1 ) + x0 V (β̂1 ) + σε + wi −2x0 x̄σε2 wi2
n n i=1
| {z } |i=1{z }
=0 1
= n
X
(xi − x̄)2
i=1
σε2 σε2 σε2 σε2
= + x̄2 n + x20 n + σε2 − 2x0 x̄ n
n X X X
(xi − x̄)2 (xi − x̄)2 (xi − x̄)2
i=1 i=1 i=1
2
+ (x0 − x̄) + 1
1
= σε2 n Xn
(xi − x̄)2
i=1
Alors
2
2 1 (x 0 − x̄)
ε̂0 = y0 − ŷ0 ∼ N 0, σ
ε n X + n + 1
(xi − x̄)2
i=1
On en déduit que
y0 − ŷ0
v
u ∼ N (0, 1)
u
u
(x0 − x̄)2
u 2 1
u
uσε + n + 1
u n X
(xi − x̄)2
t
i=1
σε étant inconnu, or
σ̂ε2
(n − 2) 2
∼ χ2 (n − 2)
σε
Mounir Jerry
Master G.R.F.
D’où
y0 − ŷ0
v
u
u
u
(x0 − x̄)2
u 2 1
u
uσε + n + 1
u n X 2
(xi − x̄)
t
i=1 y0 − ŷ0
s = v ∼ T(n − 2)
(n − 2)σ̂ε2
u
u
(n − 2)σε2
u
(x0 − x̄)2
u 1
u
σ̂ε u + n + 1
u n X
(xi − x̄)2
t
i=1
On utilise ce résultat pour construire un intervalle de prédiction pour y0 , c’est à dire l’inter-
valle [A, B] tel que
P (A ≤ y0 ≤ B) = 1 − α
Ici, y0 est une variable aléatoire et non pas un paramètre. L’intervalle de prédiction est donc
un intervalle dans lequel une future observation y0 va tomber avec une certaine probabilité
(différent d’un intervalle de confiance).
On en déduit l’intervalle de prédiction pour y0 au niveau de confiance 1 − α suivant :
v v
u u
u u
u u
2 2
u 1 (x0 − x̄) 1 (x − x̄)
u u
0
ŷ0 − t1− 2 σ̂ε u + n + 1, ŷ0 + t1− 2 σ̂ε u + n + 1
u
α α
u n X u n X
2 2
(xi − x̄) (xi − x̄)
t t
i=1 i=1
E(y0 ) = β0 + β1 x0
qui est cette fois un paramètre. On va donc chercher l’intervalle aléatoire [A, B] tel que
P (A ≤ E(y0 ) ≤ B) = 1 − α
E(ŷ0 ) = β0 + β1 x0
V (ŷ0 ) = V (β̂0 + β̂1 x0 )
= V (β̂0 ) + x20 V (β̂1 ) + 2Cov(β̂0 , β̂1 x0 )
Mounir Jerry
Master G.R.F.
Or
σε2 σε2
V (β̂0 ) = + x̄2 n
n X
(xi − x̄)2
i=1
σε2
V (β̂1 ) = n
X
(xi − x̄)2
i=1
Cov(β̂0 , β̂1 x0 ) = x0 E (β0 − β̂0 )(β1 − β̂1 )
σε2
= −x0 x̄ n
X
(xi − x̄)2
i=1
Alors
2
+ (x0 − x̄)
1
V (ŷ0 ) = σε2 n Xn
2
(xi − x̄)
i=1
D’où
(x0 − x̄)2
2 1
ŷ0 ∼ N β0 + β1 x0 , σε + n
n X
2
(xi − x̄)
i=1
α
Avec t1− α2 le quantile d’ordre 1 − 2
de la loi de Student à n − 2 degrés de liberté.
Mounir Jerry
Master G.R.F.
1.7 Exemples
Exemple 1
Les données suivantes correspondent au pourcentage de femmes employées dans cinq en-
treprises dans le secteur de commerce de détail. Le pourcentage de postes à responsabilités
détenus par des femmes dans chaque entreprise est également indiqué.
% de femmes employées 67 45 73 54 61
% de femmes responsables 49 21 65 47 33
1) Représenter le nuage de points associé à ces données en utilisant le pourcentage de femmes
travaillant dans l’entreprise comme variable indépendante.
2) Quelle relation entre les deux variables le nuage de points indique-t-il ?
3) Développer l’équation estimée de la régression en calculant les valeurs de β̂0 et β̂1 .
4) Prédire le pourcentage de postes à responsabilité confiés à des femmes dans une entreprise
employant 60% de femmes.
Solution :
1)
Mounir Jerry
Master G.R.F.
Les données suivantes indiquent les dépenses publicitaires annuelles en millions de dollars
et la part de marché de six sociétés automobiles (Advertising Age, 23 juin 2006).
Mounir Jerry
Master G.R.F.
Alors :
ŷ = 0, 0084x + 1, 8904
3) On a :
n
X
SCT = (yi − ȳ)2 = 257, 215
i=1
n
X
SCE = (ŷi − ȳ)2 = 218, 597985
i=1
n
X
SCR = (yi − ŷi )2 = SCT − SCE = 38, 617015
i=1
4)
SCE
R2 = = 0, 8498
SCT
5)
√
rxy = signe(β̂1 ) R2 = 0, 9218
6)
0, 0084 · 1200 + 1, 8904 = 11, 9704%
Exemple 3
Le tableau ci-dessous représente l’évolution du revenu disponible brut et de la consommation
des ménages en euros pour un pays donné sur la période 1992-2001.
1) On cherche à expliquer la consommation des ménages (C) par le revenu (R). Tracer le
nuage de points et commenter.
2) Utiliser la méthode des moindres carrés pour développer l’équation de régression estimée.
3) En déduire les valeurs estimées.
Mounir Jerry
Master G.R.F.
4) Calculer les résidus et vérifier la propriété selon laquelle la moyenne des résidus est nulle.
5) Calculer l’estimateur de la variance de l’erreur.
6) Tester la significativité de la pente au risque de 5%.
7) Construire l’intervalle de confiance au niveau de confiance de 95% pour le parametre β1 .
8) Calculer le coefficient de détermination et effectuer le test de Fisher permettant de déter-
miner si la régression est significative dans son ensemble.
9) Ecrire et vérifier l’équation d’analyse de la variance.
10) Après un travail minutieux, un étudiant trouve le coefficient de corrélation linéaire sui-
vant rxy = 0, 99789619. Sans le moindre calcul, tester la significativité de ce coefficient.
Argumenter.
11) En 2002 et 2003, on prévoit respectivement 16800 et 17000 euros pour la valeur du re-
venu. Déterminer les valeurs prévues de la consommation pour ces deux années, ainsi que
l’intervalle de prévision au niveau de confiance de 95%.
Solution :
1)
x̄ = 11280; ȳ = 9985, 605; Sx2 = 6415600; Sy2 = 3929500, 871; Cov(x, y) = 5010404, 5
Cov(x, y)
β̂1 = = 0, 7809; β̂0 = ȳ − β̂1 x̄ = 1177, 053
Sx2
Alors :
ŷ = 0, 7809x + 1177, 053
3) Les valeurs estimées et les résidus sont
Mounir Jerry
Master G.R.F.
Mounir Jerry
Master G.R.F.
10) Nous savons que dans un modèle linéaire simple, accepter la significativité de la pente
revient à accepter celle du coefficient de corrélation linéaire. La pente étant significative, le
rxy l’est aussi naturellement.
11) La prévision ponctuelle ne pose aucun problème. La prévision par intervalle requiert
l’estimation de l’écart-type de l’erreur de prévision. Il est donné par :
v v
u u
u u
u u
(x0 − x̄)2 2
u 1 1 (x − x̄)
u u
0
ŷ0 − t1− α2 σ̂ε u + n + 1 , ŷ + t α σ̂ u + + 1
u
0 1− ε n
u n X 2 u n X
2 2
(xi − x̄) (xi − x̄)
t t
i=1 i=1
Exemple 5
Le tableau suivant donne l’âge et la tension artérielle y de 12 femmes :
Individu 1 2 3 4 5 6 7 8 9 10 11 12
Age 56 42 72 36 63 47 55 49 38 42 68 60
Tension artérielle 136 132 136 130 138 132 136 130 142 134 136 140
1) Déterminer l’équation de la droite de régression.
2) Tester la significativité de la pente au seuil de 5%. Quelle conclusion peut-on tirer ?
3) Estimer la tension artérielle d’une femme âgée de 50 ans.
Solution :
1) D’après les calculs on a :
x̄ = 52, 3333; ȳ = 135, 1666; Sx2 = 129, 2222; Sy2 = 12, 9722; Cov(x, y) = 13, 9444
Mounir Jerry
Master G.R.F.
Cov(x, y)
β̂1 = = 0, 1079; β̂0 = ȳ − β̂1 x̄ = 129, 5198
Sx2
Alors :
ŷ = 0, 1079x + 129, 5198
2) Le test de la significativité de la pente est le test de sgnification de Student, dans ce
cas on calcule :
σ̂ε2 13, 7609
σ̂β̂21 = n = = 0, 0088 =⇒ σ̂β̂1 = 0, 0938
X 129, 2222 · 12
(xi − x̄)2
i=1
Mounir Jerry
Master G.R.F.
avec :
k = le nombre des variables explicatives
yi = variable à expliquer
xij = variable explicative
β0 , β1 , β2 , · · · , βk = paramètre du modèle
εi = erreur de spécification, une variable
aléatoire inconnue
n = nombre d’observations
Forme matricielle
Afin d’en alléger l’écriture et de faciliter l’expression de certains résultats, on a habituel-
lement recours aux notations matricielles.
β0
y1 1 x11 x12 · · · x1k ε 1
β1
y2 1 x21 x22 · · · x2k ε2
β2 + ..
. = . .. .. ..
. .
. . . . · · · . .. .
.
yn 1 xn1 xn2 · · · xnk εn
βk
Sous forme compacte : Y = Xβ + ε où :
— Y est un vecteur aléatoire de dimension n,
— X est une matrice de taille n × k + 1 connue, appelée matrice du plan d’expérience,
— β est le vecteur de dimension k + 1 des paramètres inconnus du modèle,
— ε est le vecteur de dimension n des erreurs.
Mounir Jerry
Master G.R.F.
On passe de nouveau par les dérivées partielles que l’on annule pour obtenir les k + 1 équa-
tions normales.
X n
−2 εi = 0
∂S
= 0
∂β0 i=1
n
∂S
X
=0 −2
xi1 εi = 0
∂β1 ⇔ i=1
.. ..
.
.
∂S
n
=0
X
−2 xik εi = 0
∂βk
i=1
Mounir Jerry
Master G.R.F.
S = εt ε
= (Y − Xβ)t (Y − Xβ) = Y t Y − Y t Xβ − (Xβ)t Y + (Xβ)t Xβ
= Y t Y − Y t Xβ − β t X t Y + β t X t Xβ
= Y t Y − 2β t X t Y + β t X t Xβ
ê La transposée de A notée A t
est d’ordre (p, n) :
a11 a21 · · · an1
a12 a22 · · · an2
t
A = .. .. . . .
. . . ..
a1p a2p · · · anp
Mounir Jerry
Master G.R.F.
a11
a12 a13 + a11 − a12 + a13
det(A) = a21 a22 a23 = a21 a22 a23
a31 a32 a33 a31 a32 a33
a22 a23 a
21 a23
a
21 a22
= a11 − a12 + a13
a32 a33 a31 a33 a31 a32
Mounir Jerry
Master G.R.F.
t
a a23 a a23 a21 a22
22 21
−
a32 a33 a31 a33 a 31 a32
a12 a13
1 a a13 a a12
11 11
A−1 = − −
det(A) a32
a33 a31
a33 a31 a32
a a13 a a13 a11 a12
12 11
−
a22 a23 a21 a23 a21 a22
∂(v t Av)
= 2Av
∂v
Expression de β̂
Pour déterminer le minimum de S, nous réalisons la dérivation matricielle :
∂S
On doit résoudre =0
∂β
Þ ∂S
∂β
= −2X t Y + 2X t X β̂ = 0
Þ X t X β̂ = X t Y
Þ β̂ = (X t X)−1 (X t Y )
Mounir Jerry
Master G.R.F.
Le modèle sous forme matricielle peut s’écrire, comme pour le modèle de régression
simple, de différentes manières :
Y = Xβ + ε
Þ
Y = X β̂ + ε̂ ε̂ = Y − Ŷ (ε̂ = résidu)
Ŷ = X β̂
β̂ = (X t X)−1 (X t Y )
= (X t X)−1 (X t (Xβ + ε))
= (X t X)−1 (X t X)β + (X t X)−1 (X t ε)
= β + (X t X)−1 (X t ε)
Or on a :
β̂0 −β0
β̂1 −β1
(β̂−β)(β̂−β)t = .. × β̂0 −β0 β̂1 −β1 ··· β̂k −βk
.
β̂k −βk
(β̂0 −β0 )2 (β̂0 −β0 )(β̂1 −β1 ) ··· (β̂0 −β0 )(β̂k −βk )
(β̂1 −β1 )(β̂0 −β0 ) (β̂1 −β1 )2 ··· (β̂1 −β1 )(β̂k −βk )
= .. .. ... ..
. . .
(β̂k −βk )(β̂0 −β0 ) (β̂k −βk )(β̂1 −β1 ) ··· (β̂k −βk )2
Alors :
V (β̂0 ) Cov(β̂0 , β̂1 ) · · · Cov(β̂0 , β̂k )
Cov(β̂0 , β̂1 ) V (β̂1 ) · · · Cov(β̂1 , β̂k )
V (β̂) = Ωβ̂ = .. .. .. ..
. . . .
Cov(β̂0 , β̂k ) Cov(β̂1 , β̂k ) ··· V (β̂k )
Mounir Jerry
Master G.R.F.
β̂ − β = (X t X)−1 (X t ε)
(β̂ − β)t = ((X t X)−1 (X t ε))t
= εt X((X t X)−1 )t ←Parce que (AB)t = B t At et (ABC)t = C t B t At
= εt X(X t X)−1 ← Parce que (At )−1 = (A−1 )t et X t X est symétrique
Ü
(β̂ − β)(β̂ − β)t = (X t X)−1 X t εεt X(X t X)−1
Ü
Alors :
E(εεt) = σε2In
Ü
Mounir Jerry
Master G.R.F.
Ü
Ωβ̂ = σε2(X tX)−1(X tX)(X tX)−1
Ü
Ωβ̂ = σε2(X tX)−1
CX = 0
Mounir Jerry
Master G.R.F.
Ü
β̃ = β + Aε
t
E (β̃ − β)(β̃ − β) = E(Aεεt At )
= σε2 AAt
= σε2 (X t X)−1 X t + C X(X t X)−1 + C t
= σε2 (X t X)−1 + CC t
← Puisque CX = 0
= V (β̂) + σε2 CC t
Alors les éléments de la diagonale de CC t sont des sommes de carrés, donc non néga-
tives. Les variances des composantes de β̃ sont donc supérieures ou égales aux variances des
composantes de β̂
Y X 1 X2
1 2 4
1 3 2
2 5 2
3 7 1
3 8 1
Donner une estimation des paramètres de l’équation suivante :
Y = β0 + β1 X1 + β2 X2 + ε
Solution :
Nous allons donc déterminer les paramètres de l’équation estimée
Mounir Jerry
Master G.R.F.
β̂ = (X t X)−1 (X t Y )
Alors
1 2 4
1 1 1 1 1 1 3 2 5 25 10
t
X X = 2 3 5 7 8 · 1 5 2 = 25 151 39
4 2 2 1 1 1 7 1 10 39 26
1 8 1
481 −52 −107
35 35 35
(X t X)−1 = −52 6 11
35 35 35
−107 11 26
35 35 35
et
1
1 1 1 1 1 1 10
t
X Y = 2 3 5 7 8 · 2 = 60
4 2 2 1 1 3 16
3
Donc
β̂ = (X t X)−1 (X t Y )
481 −52 −107
35 35 35
10
−52 6 11
= · 60
35 35 35
−107 11 26
35 35 35
16
−22
35
β̂0
16
= = β̂1
35
6
35
β̂2
Ceci signifie qu’il existe une relation positive assez forte entre le taux de criminalité ju-
vénile et la densité urbaine, l’augmentation de l’indicateur de la densité urbaine d’une
unité entraine l’augmentation de la criminalité juvénile de 45, 7142%.
Exemple 2
On veut exprimer l’évolution de l’indice du revenu nominal moyen Y d’un ménage de sala-
riés en fonction de l’indice général des prix X1 et de l’indice du produit intérieur brut réel
X2 . On se limite à 9 observations :
Y X1 X2
100 100 100
106 104 99
107 106 110
120 111 126
111 111 113
116 115 103
123 120 102
133 124 103
137 126 98
Donner une estimation des paramètres de l’équation suivante :
Y = β0 + β1 X1 + β2 X2 + ε
Solution :
Nous allons donc déterminer les paramètres de l’équation estimée
β̂ = (X t X)−1 (X t Y )
Mounir Jerry
Master G.R.F.
Alors
1 100 100
1 104 99
1 106 110
1 1 1 1 1 1 1 1 1 1 111 126
t
X X= 100 104 106 111 111 115 120 124 126 · 1 111 113
100 99 110 126 113 103 102 103 98 1 115 103
1 120 102
1 124 103
1 126 98
9 1017 954
= 1017 115571 107690
D’où
10297232 −10637 −20389
229869 51082 102164
(X t X)−1 = −10637 81 7
51082 51082 25541
−20389 7 325
102164 25541 204328
et
100
106
107
1 1 1 1 1 1 1 1 1 120
t
X Y = 100 104 106 111 111 115 120 124 126 · 111
100 99 110 126 113 103 102 103 98 116
123
133
137
1053
= 119861
111546
Mounir Jerry
Master G.R.F.
Donc
β̂ = (X t X)−1 (X t Y )
10297232 −10637 −20389
229869 51082 102164
1053
−10637 81 7
= · 119861
51082 51082 25541
−20389 7 325
102164 25541 204328
111546
−1282433
25541
β̂0
34812
= = β̂1
25541
3179
25541
β̂2
ε̂ = Y − Ŷ
= Xβ + ε − X β̂
= Xβ + ε − X β + (X t X)−1 (X t ε)
= I − X(X t X)−1 X t ε
= Mε
Mounir Jerry
Master G.R.F.
Alors
ε̂t ε̂ = (M ε)t M ε
= εt M t M ε
= εt M M ε
= εt M 2 ε
= εt M ε
εt M ε est un scalaire
La trace d’une matrice
Ô Si A est une matrice carrée d’ordre n, on définit la trace de A comme la somme des
éléments de la diagonale principale :
n
X
tr(A) = aii
i=1
2 0 −1
Ô Soit A =
0 6 4 , alors tr(A) = 2 + 6 − 5 = 3
9 8 −5
Ô tr(At) = tr(A)
Ô tr(A + B) = tr(A) + tr(B)
Ô tr(A · B) = tr(B · A)
Ô tr(In) = n
Ô Si A est un scalaire, alors tr(A) = A
Mounir Jerry
Master G.R.F.
Donc
E(ε̂t ε̂) = E(εt M ε)
= E tr(εt M ε)
← Puisque εt M ε est un scalaire
= E tr(M εεt )
= tr E(M εεt )
← Puisque la trace est une somme
= tr M E(εεt )
← Puisque M est non aléatoire
= tr M σε2 In
= σε2 tr(M In )
= σε2 tr(M )
Si on remplace M par sa valeur, on a
E(ε̂t ε̂) = σε2 tr(In − X(X t X)−1 X t )
= σε2 tr(In ) − tr(X(X t X)−1 X t )
= σε2 [n − tr(Ik+1 )]
= σε2 · (n − k − 1)
|{z} | {z }
Variance de l’erreur Degrés de liberté
Donc si on pose
n
X
ε̂2i
t
ε̂ ε̂
σ̂ε2 = = i=1
n−k−1 n−k−1
est un estimateur sans biais de la variance de l’erreur. ε̂i est le résidu de la régression pour
l’observation i.
Mounir Jerry
Master G.R.F.
Preuve
n
X n
X n
X
2 2
(Yi − Ȳ ) = (Yi − Ŷi ) + (Ŷi − Ȳ )2
i=1 i=1 i=1
t 2
Y Y −
nȲ
= ε̂t ε̂ + Ŷ t Ŷ −
nȲ
2
β t t
β t t
εt
Xβ + εt ε = εt M ε + Xβ + εt X(X t X)−1 X t ε +
εt β t t
β t t
X Xβ + X ε + X Xβ + X ε
X)−1 −1 t
(
εt ε = εt (I − ( t ( ( t
εt ( t ((
(( (
X(X X )ε +( X(X
((X) Xε
(
(((
εt ε = εt ε
La part de variance de Y expliquée par le modèle est toujours traduit par le coefficient de
détermination
SCE SCR
R2 = =1−
SCT SCT
2
Bien évidemment (0 ≤ R ≤ 1), plus il tend vers 1 meilleur sera le modèle. Lorsqu’il est
proche de 0, cela veut dire que les exogènes Xi n’expliquent en rien les valeurs prises par Y .
R2 corrigé ou ajusté
Problème
Le R2 est un indicateur de qualité, mais il présente un défaut ennuyeux : plus nous augmen-
tons le nombre de variables explicatives, même non pertinentes, n’ayant aucun rapport avec
le problème que l’on cherche à résoudre, plus grande sera sa valeur, mécaniquement.
Une augmentation de variables explicatives implique une diminution de degré de liberté.
La mesure alternative, plus robuste à l’ajout des variables, qui corrige ce problème associé
aux degrés de liberté est le R2 ajusté de Henry Theil, appelé aussi R2 corrigé. Elle se définit
comme suit :
SCR
n−1
R̄2 = 1 − n − k − 1 = 1 − (1 − R2 )
SCT n−k−1
n−1
Note importatnte
il faut faire attention de ne pas interpréter le R̄2 en termes de part de variance expliquée. Son
seul avantage est qu’il permet de comparer plusieurs modèles. De plus, le R̄2 peut prendre
des valeurs négatives. Dans ce dernier cas, il faut l’assimiler à zéro, on a aussi : R̄2 < R2 et
si n est grand R̄2 ' R2 .
Nous pouvons maintenant construire une nouvelle version du tableau d’analyse de va-
riance.
Mounir Jerry
Master G.R.F.
Mounir Jerry
Master G.R.F.
Test de Student
Test de significativité Si nous désirons savoir si une variable explicative figurant dans un
modèle est réellement-significativement- contributive pour expliquer la variable endogène, il
convient de tester si son coefficient de régression est significativement différent de 0 pour un
seuil choisi, en général α = 5%.
Comme pour le cas linéaire simple, le test de significativité individuelle, qui porte sur
chaque paramètre, est mené en calculant les ratios de Student. Pour un test bilatéral, les
hypothèses du test sont : (
H0 : βj = 0
H1 : βj 6= 0
Le ratio de Student est calculé comme suit :
β̂j − βj
tβ̂j =
σ̂β̂j
β̂j − β̄
tβ̂j =
σ̂β̂j
Mounir Jerry
Master G.R.F.
a Dans la littérature anglophone, ce test est parfois considéré comme un test de signifi-
cativité du R2 , dans le sens où il évaluerait le pouvoir explicatif des exogènes, pris dans leur
globalité, sur l’endogène. Les hypothèses du test sont :
(
H0 : β1 = β2 = · · · = βk = 0
H1 : ∃ au moins un βj 6= 0
a Le cas où l’hypothèse H0 est acceptée signifie qu’il n’existe aucune relation linéaire
significative entre la variable à expliquer et les variables explicatives (ou encore que la
somme des carrés expliqués n’est pas significativement différente de 0). La statistique de
test est extraite du tableau d’analyse de variance
SCE R2
CM E k k
F = = =
CM R SCR (1 − R2 )
n−k−1 n−k−1
a L’hypothèse de normalité des erreurs implique que sous l’hypothèse H0, F suit une loi
de Fisher (rapport de deux chi-deux) F(k, n − k − 1).
où F1−α (k, n−k−1) est le quantile d’ordre 1−α de la loi de Fisher-Snedecor F(k, n−k−1)
à k et n − k − 1 degrés de liberté.
a Les hypothèses s’écrivent (en toute généralité, on teste q (avec q ≤ k) coefficients, pas
nécessairement les q premières, nous adoptons cette écriture pour simplifier les notations) :
(
H0 : β1 = β2 = · · · = βq = 0
H1 : ∃ au moins un βj 6= 0
Mounir Jerry
Master G.R.F.
a Pour résoudre ce problème, nous confrontons deux régressions : celle sous hypothèse
nulle, avec (k − q) variables explicatives, nous obtenons un premier coefficient de détermi-
nation R02 ; et celle avec les k variables, nous obtenons R2 . Les deux modèles sont imbriqués
et, forcément, R2 ≥ R02 .
a Nous posons alors la question suivante : est-ce que l’adjonction des q exogènes sup-
plémentaires dans la régression induit une augmentation significative du R2 au risque α ?
Formons la statistique de test F
a Sous H0, elle suit une loi de Fisher à (q, n − k − 1) degrés de liberté.
Rejet de H0 au risque α si F > F1−α (q, n − k − 1)
a Les cj représentent les standards auxquels nous comparons nos coefficients. Attention, la
notation ne doit pas nous induire en erreur : on teste bien q paramètres quelconques parmi
les k.
a La statistique de test est
1 t
−1
F = β̂(q) − c(q) Ω̂β̂ β̂(q) − c(q)
q (q)
β̂(q) représente le sous-vecteur des coefficients estimés mis a contribution dans le test ; Ω̂β̂(q)
est la matrice de variance covariance réduite aux coefficients
SousH0 , la quantité F
testés.
t
suit une loi de Fisher F(q, n−k −1). En effet : a β̂ − β Ω−1 β̂
β̂ − β suit une loi du χ2
(chi-deux) à k + 1 degrés de liberté (somme au carré de k + 1 variables aléatoires normales
Mounir Jerry
Master G.R.F.
où F1−α (q, n−k−1) est le quantile d’ordre 1−α de la loi de Fisher-Snedecor F(q, n−k−1)
à q et n − k − 1 degrés de liberté.
a Sous H0, elle suit une loi de Fisher à (q, n − k − 1) degrés de liberté.
Rejet de H0 au risque α si F > F1−α (q, n − k − 1)
où F1−α (q, n−k−1) est le quantile d’ordre 1−α de la loi de Fisher-Snedecor F(q, n−k−1)
à q et n − k − 1 degrés de liberté.
Mounir Jerry
Master G.R.F.
valeurs prises par les exogènes (xi∗,1 , xi∗,2 , · · · , xi∗,k ). La prédiction ponctuelle est obtenue
en appliquant les coefficients estimés sur la description de l’individu à traiter
Et
t
E(ε̂i∗ ) = Xi∗ E(β − β̂) + E(εi∗ ) = 0
_ Par conséquent, la prédiction ponctuelle est sans biais :
E(ŷi∗ ) = yi∗
Intervalle de prédiction
_ Pour construire l’intervalle de prédiction (la fourchette), nous devons connaître la
variance estimée de l’erreur de prédiction et la distribution de cette dernière. L’esprit de
l’approche a déjà été développée lors de la présentation de la régression simple. Calculons
la variance de l’erreur de prédiction :
t
V (ε̂i∗ ) = V (Xi∗ (β − β̂) + εi∗ )
t
= V (εi∗ ) + V (Xi∗ (β − β̂)) + 2Cov(Xi∗ (β − β̂), εi∗ )
= E(ε2i∗ ) + E((Xi∗
t
(β − β̂))2 ) + 2Cov(Xi∗ (β − β̂), εi∗ )
_ Or l’erreur de prévision ε̂i∗ = yi∗ −ŷi∗ est distribué suivant une loi normale N (0, σε̂2 i∗
),
en remplaçant la variance théorique σε2 par la variance empirique σ̂ε2 , nous pouvons en déduire
que :
yi∗ − ŷi∗
p
t
∼ T (n − k − 1)
σ̂ε 1 + Xi∗ (X t X)−1 Xi∗
Mounir Jerry
Master G.R.F.
α
où t1− α2 est le quantile d’ordre 1 − 2
de la loi de Student à n − k − 1 degrés de liberté.
Mounir Jerry
Master G.R.F.
2.7 Exemples
Exemple 1
On examine l’évolution d’une variable Yt en fonction de deux exogènes X1t et X2t . On
dispose de n observations de ces variables. On note X = [1 X1 X2 ] où 1 est le vecteur
constant et X1 et X2 sont les vecteurs des variables explicatives.
1) On a obtenu les résultats suivants :
25 0 0 0, 04 0 0
X t X = ? 9, 3 5, 4 et (X t X)−1 = 0 0, 1428 −0, 0607
Calculer la somme des carrés expliqués SCE, la somme des carrés totaux SCT , le R2 et le
R2 ajusté
Solution :
1) Les 3 valeurs manquantes se déduisent de la symétrie de la matrice X t X, la valeur de
n = (X t X)11 = 25.
2) La régression linéaire de Y sur (1, X1 , X2 ) est
25
X
Yt = −1, 61 + 0, 61X1t + 0, 46X2t + ε̂t et SCR = ε̂2t = 0, 3
t=1
Mounir Jerry
Master G.R.F.
Alors
SCT = SCR + SCE = 9, 48
Le coefficient de détermination et le R2 ajusté
SCE 25 − 1
R2 = = 0, 9683 et R̄2 = 1 − (1 − R2 ) = 0, 9654
SCT 25 − 2 − 1
Exemple 2
On souhaite expliquer la hauteur Y (en mètres) d’un arbre en fonction de sa circonférence
X (en centimètres) à 1m30 du sol et de la racine carrée de celle-ci. On a relevé n = 1429
couples (xi , yi ).
√
y i = β 0 + β 1 xi + β 2 xi + εi
Les εi sont des variables aléatoires indépendantes, de loi normale centrée admettant la même
variance σ 2 . En posant :
√
1 x1 x1 y1
. . .. ..
X = .. .. . et Y =
.
√
1 xn xn yn
on a observé :
? ? 9792 30310
X t X = ? 3306000 ? , X t Y = 1462000 et Y t Y = 651900
2) Le calcul donne
4, 646 0, 101 −1, 379 −16, 8
(X t X)−1 = 0, 101 0, 002 −0, 03 et (X t X)−1 X t Y = −0, 3
Calculer l’estimateur de σε2 pour les moindres carrés et pour β2 un intervalle de confiance à
95%.
3) Tester l’hypothese β1 = 0 au niveau de risque 10%. Que vaut la hauteur moyenne empi-
rique Ȳ ? En deduire le coefficient de détermination ajusté R̄2 .
4) Construire un intervalle de prévision à 95% de yn+1 connaissant xn+1 = 49.
5) Construire un intervalle de prévision à 95% de yn+1 connaissant xn+1 = 25.
6) Des deux intervalles précédents, lequel est le plus grand ? Pouvait-on s’y attendre ?
Mounir Jerry
Master G.R.F.
Solution :
1) La matrice X t X se complète comme suit :
1429 67660 9792
X t X = 67660 3306000 471200
(Y − X β̂)t (Y − X β̂)
σ̂ε2=
n−k−1
1 h t i
= Y Y − Y t X β̂ − β̂ t X t Y + β̂ t X t X β̂
1426
1 t
Y Y − Y t X(X t X)−1 X t Y − Y t X(X t X)−1 X t Y + Y t X(X t X)−1 X t X(X t X)−1 X t Y
=
1426
1 h t i
= Y Y − β̂ t X t Y
1426
651900 − 650106
=
1426
=1, 258
p
où β̂2 = 7, 62 et σ̂β̂2 = σ̂ε2 ((X t X)−1 )33 = 0, 719. Puisque la taille de l’échantillon est
assez grande, alors on utilise la loi normale centrée réduite : t1− α2 = 1, 96, donc l’intervalle
de confiance
β̂1 −0, 3
tβ̂1 = =p = −6
σ̂β̂1 σ̂ε ((X t X)−1 )22
2
Il nous suffit donc de comparer la valeur absolue de la statistique de test obtenue ici au
quantile d’ordre 0.95 d’une loi normale centrée réduite, c’est-à-dire à 1, 645. Or
Mounir Jerry
Master G.R.F.
Alors
1428 · 1, 258
R̄2 = 1 − = 0, 8005
651900 − 1429 · 21, 21062
t
4) En notant Xn+1 = (1 49 7), la valeur prédite de yn+1 est
t
ŷn+1 = Xn+1 · β̂ = 21, 84
t
5) En notant Xn+1 = (1 25 5), la valeur prédite de yn+1 est
t
ŷn+1 = Xn+1 · β̂ = 13, 8
6) On constate que c’est le second intervalle de prévision qui est le plus grand : ceci est dû
au fait que le second point est plus éloigné du centre de gravité. On prévoit donc moins bien
sa valeur.
Exemple 3
Mounir Jerry
Master G.R.F.
Nous nous intéressons au modèle Y = Xβ + ε sous les hypothèses classiques. Nous avons
obtenu sur 21 données :
où, pour chaque coefficient, le nombre entre parenthèses représente la valeur absolue de la
statistique de test.
1) Tester la nullité de β1 au seuil de 5%.
2) Pouvez-vous tester H0 : β3 = 1 contre H1 : β3 6= 1 ?
3) Tester la nullité simultanée des paramètres associés aux variables X1 , · · · , X4 au seuil de
5%.
Solution :
β̂1 − β1
1) Nous savons que tβ̂1 = suit une loi de Student à 16 degrés de liberté. Sous
σ̂β̂1
l’hypothèse β1 = 0, et d’après l’énoncé, nous avons donc
β̂
1
|tβ̂1 | = = 2, 32 > t0,975 = 2, 119
σ̂β̂1
Donc, au seuil de 5%, on rejette l’hypothese
selon laquelle β1 serait nul.
β̂
3
2) Par le même raisonnement |tβ̂3 | = = 2, 09 suit une loi de Student à 16 degrés de
σ̂β̂3
liberté. D’après l’énoncé β̂3 = 0, 171, alors σ̂β̂3 = 0, 0818. Or la statistique de test dans ce
cas est
β̂ − β 0, 171 − 1
3 3
= = 10, 1344 > 2, 12
σ̂β̂3 0, 0818
yi = β0 + β1 xi1 + β2 xi2 + εi
Mounir Jerry
Master G.R.F.
On a observé :
30 20 0 15
X t X = 20 20 0 , X t Y = 20 et Y t Y = 59, 5
0 0 10 10
1) Déterminer la valeur de n, la moyenne des xi2 .
2) Estimer β0 , β1 , β2 et σ̂ε2 par la méthode des moindres carrés ordinaires.
3) Calculer pour β1 un intervalle de confiance à 95% et tester l’hypothèse β2 = 0, 8 au niveau
10%.
4) Tester β1 + β2 = 3 contre β1 + β2 6= 3, au niveau 5%.
5) Que vaut Ȳ , moyenne empirique des yi ? En déduire le coefficient de détermination ajusté
R̄2 .
6) Construire un intervalle de prévision à 95% de yn+1 connaissant : xn+1,1 = 3 et xn+1,2 =
0, 5.
Solution :
1)
(X t X)13
n = (X t X)11 = 30, et X̄2 = =0
30
2) Grâce à la méthode des moindres carrés ordinaires, on a :
β̂0 0, 1 −0, 1 0 15 −0, 5
t −1 t
β̂1 = (X X) X Y = −0, 1 0, 15 0 20 = 1, 5
β̂2 0 0 0, 1 10 1
et
1 h t i
σ̂ε2 = t t
Y Y − β̂ X Y
27
1
= [59, 5 − 32, 5] = 1
27
3) L’intervalle de confiance pour β1 à 95% est
h i
β̂1 − t1− α2 σ̂β̂1 , β̂1 + t1− α2 σ̂β̂1
p
où β̂1 = 1, 5 et σ̂β̂1 = σ̂ε2 ((X t X)−1 )22 = 0, 3872. Avec : t1− α2 = 2, 051, donc l’intervalle
de confiance
β̂2 − β2 1
tβ̂2 = =p = 0, 6324
σ̂β̂2 σ̂ε ((X t X)−1 )33
2
Mounir Jerry
Master G.R.F.
Il nous suffit donc de comparer la valeur absolue de la statistique de test obtenue ici au
quantile d’ordre 0.95 de la loi de Student à 27 degrés de liberté, c’est-à-dire à 1, 703. Or
1
et
0, 1 −0, 1 0 0
t −1 t
R(X X) R = 0 1 1 −0, 1 0, 15 0 1 = 0, 25
0 0 0, 1 1
Alors
(−0, 5)t [0, 25]−1 (−0, 5)
F = =1
1
D’où
F = 1 < F0,05 (1, 27) = 4, 21
Par conséquent, au niveau 5%, on accepte H0 .
5) La moyenne empirique des yi se déduit de la première composante du vecteur X t Y , donc
15
Ȳ = = 0, 5. Par définition, le coefficient de détermination ajusté R̄2 vaut :
30
n−1 n−1 SCR
R̄2 = 1 − (1 − R2 ) = 1 − ·
n−k−1 n − k − 1 SCT
Or n
SCR X
σ̂ε2 = = 1 et SCT = (yi − Ȳ )2 = Y t Y − nȲ 2 = 52
n−k−1 i=1
Mounir Jerry
Master G.R.F.
Alors
29
R̄2 = 1 − = 0, 4423
52
t
6) En notant Xn+1 = 1 3 0, 5 , la valeur prédite de yn+1 est
t
ŷn+1 = Xn+1 · β̂ = 4, 5
Mounir Jerry
Master G.R.F.
A présent, en posant :
On retrouve ainsi le modèle linéaire bien connu, qu’on peut écrire de la sorte :
Y ∗ = β0 + β1 X ∗ + ε
Mounir Jerry
Master G.R.F.
ln(Y ) = β0 + β1 X + ε
Y ∗ = β0∗ + β1∗ X ∗ + ε
Y = β0 + β1 ln(X) + ε
Avantage Ce modèle permet l’estimation des modèles d’Engle : « La dépense totale consacrée
à la nourriture tend à croître selon une progression arithmétique lorsque la dépense
totale augmente en progression géométrique.
Mounir Jerry
Master G.R.F.
Forme 2
1
= β0 + β1 X + ε
Y
En posant Y ∗ = 1
Y
, il vient :
Y ∗ = β0 + β1 X + ε
Y ∗ = β0 + β1 X ∗ + ε
Le modèle polynomial
Forme
Y = β0 + β1 X + β2 X 2 + · · · + βk X k + ε
Une manipulation simple permet d’écrire ce modèle sous la forme :
Y = β0 + β1 X1 + β2 X2 + · · · + βk Xk + ε
Y = β0 + β1 t2 + β2 t3 + ε → où t représente le temps
Mounir Jerry
Master G.R.F.
Le modèle logistique
Le modèle logistique est aussi connu sous le nom de modèle (ou courbe) de Verhulst, du
nom de son auteur Pierre-François Verhulst, qui le proposa en 1838.
Forme
Ymax
Y =
1 + brt
Où Ymax représente le seuil de saturation et r la vitesse de diffusion. Une manipulation
triviale permet d’écrire :
Ymax
− 1 = brt
Y
Après application de la transformation logarithmique, il vient :
Y ∗ = β0 + β1 t + ε
Ymax
Où Y ∗ = ln( − 1) ; β0 = ln(b) et β1 = ln(r).
Y
Le modèle de Gompertz
Le modèle de Gompertz, du nom du mathématicien anglais Benjamin Gompertz, a été
introduit en 1825.
Forme
t
Y = ebr +a
Où ea est le seuil de saturation et r la vitesse de diffusion. Deux transformations lo-
garithmiques sont nécessaires pour linéariser ce type de modèles. Dans un premier
temps, la transformation logarithmique du modèle donne :
ln(Y ) = brt + a
Y ∗ = β0 + β1 t + ε
Mounir Jerry
Master G.R.F.
Algorithme de Gauss-Newton
Soit le modèle non linéaire :
Y = f (X, β) + ε
Où X est la matrice des observations des variables explicatives (de dimension n, k + 1) et β
est le vecteur (de dimension k + 1) des paramètres à estimer. Sous les hypothèses classiques
concernant ε, l’estimateur des moindres carrés est la valeur de β qui minimise la somme des
carrés des résidus :
∂S f (X, β)
= −2 [Y − f (X, β)] = 0
∂β ∂β
Le modèle est non linéaire, on ne peut pas trouver l’expression analytique des estimateurs.
Mounir Jerry
Master G.R.F.
Avec :
∂f (x1 , β) ∂f (x1 , β)
···
∂β0 ∂βk
∂S .. . .
= Z(β) = . .. ..
∂β ∂f (x , β)
n ∂f (x n , β)
···
∂β0 ∂βk
On définit une valeur initiale β 1 , qu’on appelle aussi valeur particulière de β. Puis, à l’aide
d’un développement limité de Taylor au voisinage de β 1 , nous pouvons approximer la i-ième
observation.
1 ∂f (xi , β) ∂f (xi , β)
f (xi , β) ' f (xi , β ) + |β=β 1 · · · |β=β 1 (β − β 1 )
∂β0 ∂βk | {z }
| {z } vecteur colonne
i-ième ligne de la matrice Z(β 1 )
Ou encore, en notation matricielle :
Soit
Y = f (X, β 1 ) + Z(β 1 )(β − β 1 ) + ε
Ou encore
Y = f (X, β 1 ) + Z(β 1 )β − Z(β 1 )β 1 + ε
En posant Ȳ (β 1 ) = Y − f (X, β 1 ) + Z(β 1 )β 1 , nous pouvons alors construire un pseudo-
modèle linéaire qui est égal à :
Ȳ (β 1 ) = Z(β 1 )β + ε
Mounir Jerry
Master G.R.F.
3.3 Exemples
Exemple 1
Soit le modèle log-linéaire suivant : Y = Y0 (1 + r)t . Connaissant les valeurs du tableau
ci-après qui montre l’évolution des ventes d’une entreprise au cours de 15 mois, on demande
d’ajuster cette fonction et de trouver Y0 et r.
Y 10 15 20 18 20 22 24 21 27 26 33 29 34 38 37
t 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Solution :
En linéarisant le modèle, on trouve que :
Y ∗ = β0∗ + β1∗ X ∗ + ε
Y∗ 2,3025 2,708 2,9957 2,8903 2,9957 3,091 3,178 3,0445 3,2958 3,258 3,4965 3,3672 3,5263 3,6375 3,6109
t 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
D’où
ln(Ŷ0 ) = 2, 5527 et ln(1 + r̂) = 0, 0758
Alors
Ŷ0 = 12, 8417 et r̂ = 0, 0787
Donc
Ŷ = 12, 8417 · (1, 0787)t̂
Exemple 2
En considérant les données du tableau ci-dessous qui renseigne sur les quantités produites,
pendant dix jours, moyennant les facteurs travail (L) et capital (K), on demande d’estimer
le modèle ci-après :
Q = ALβ1 K β2 eε
Q 25 28 32 35 39 37
K 12 13 10 15 22 17
L 3 5 9 8 12 13
Mounir Jerry
Master G.R.F.
Solution :
En linéarisant le modèle, on trouve que :
Q∗ = β0 + β1 L∗ + β2 K ∗ + ε
Mounir Jerry