Vous êtes sur la page 1sur 5

1

Séance du 01/04/2020

6. Les variations expliquée et inexpliquée par le modèle

La variation de toute variable est généralement mesurée par la variance. Le but d’un

modèle de régression linéaire est d’expliquer une partie de la variation de la variable

expliquée Y du fait qu’elle est dépendante de la variable explicative X.

La variation expliquée de Y : si X varie, alors Y varie en conséquence.

La variation inexpliquée de Y : si X est fixe, Y varie toujours.

La variation totale de Y = La variation expliquée par le modèle + La variation


inexpliquée par le modèle.

On a :

𝒚𝒊 = (𝒚𝒕 − 𝒚
̂𝒕 ) + (𝒚 ̅) + 𝒚
̂𝒕 − 𝒚 ̅) = (𝒚
̅ ⇒ (𝒚𝒕 − 𝒚 ̅) + (𝒚𝒕 − 𝒚
̂𝒕 − 𝒚 ̂𝒕 )

(𝑦̂𝑡 − 𝑦̅) ∶ 𝑟𝑒𝑝𝑟é𝑠𝑒𝑛𝑡𝑒 𝑙𝑎 𝑑𝑖𝑓𝑓é𝑟𝑒𝑛𝑐𝑒 𝑒𝑥𝑝𝑙𝑖𝑞𝑢é𝑒 𝑝𝑎𝑟 𝑙𝑒 𝑚𝑜𝑑è𝑙𝑒

𝑒𝑡 = (𝑦𝑡 − 𝑦̂𝑡 ) ∶ 𝑟𝑒𝑝𝑟é𝑠𝑒𝑛𝑡𝑒 𝑙𝑎 𝑑𝑖𝑓𝑓é𝑟𝑒𝑛𝑐𝑒 𝑖𝑛𝑒𝑥𝑝𝑙𝑖𝑞𝑢é𝑒 𝑝𝑎𝑟 𝑙𝑒 𝑚𝑜𝑑è𝑙𝑒 (𝑜𝑢 𝑙𝑒 𝑟é𝑠𝑖𝑑𝑢)

∑(𝑦̂𝑡 − 𝑦̅)2 = ∑ 𝑦̂𝑡2 − 2 𝑦̅ ∑ 𝑦̂𝑡 + 𝑛𝑦̅ 2 = ∑ 𝑦̂𝑡2 − 2 𝑦̅ ∑ 𝑦𝑡 + 𝑛𝑦̅ 2

= ∑ 𝑦̂𝑡2 − 2 𝑛 𝑦̅ 2 + 𝑛𝑦̅ 2 = = ∑ 𝑦̂𝑡2 − 𝑛𝑦̅ 2

∑ 𝑦̂𝑡2 = ∑(𝑦̅ + 𝑎̂1 (𝑥𝑡 − 𝑥̅ )2 ) = 𝑛𝑦̅ 2 + 2 𝑦̅ 𝑎̂1 ∑(𝑥𝑡 − 𝑥̅ ) + 𝑎̂12 ∑(𝑥𝑡 − 𝑥̅ )2

= 𝑦̅ 𝑛𝑦̅ + 0 + 𝑎̂1 𝑎̂1 ∑(𝑥𝑡 − 𝑥̅ )2 = 𝑦̅ ∑ 𝑦𝑡 + 𝑎̂1 ∑(𝑥𝑡 − 𝑥̅ ) 𝑦𝑡

= ∑(𝑦̅ + 𝑎̂1 (𝑥𝑡 − 𝑥̅ ))𝑦𝑡 = = ∑ 𝑦̂𝑡 𝑦𝑡

1
2

7. ∑ 𝑒𝑡 2 = ∑(𝑦𝑡 − 𝑦̂𝑡 )2 = ∑ 𝑦𝑡2 − 2 ∑ 𝑦𝑡 𝑦̂𝑡 + ∑ 𝑦̂𝑡2

= ∑ 𝑦𝑡2 − 2 ∑ 𝑦̂𝑡2 + ∑ 𝑦̂𝑡2

= ∑ 𝑦𝑡2 − ∑ 𝑦̂𝑡2

Donc : ∑(𝑦̂𝑡 − 𝑦̅)2 + ∑(𝑦𝑡 − 𝑦̂𝑡 )2 = (∑ 𝑦̂𝑡2 − 𝑛𝑦̅ 2 ) + ( ∑ 𝑦𝑡2 − ∑ 𝑦̂𝑡2 )

= ∑ 𝑦𝑡2 − 𝑛 𝑦̅ 2

Et on a aussi : ∑(𝑦𝑡 − 𝑦̅)2 = ∑ 𝑦𝑡2 − 2 ∑ 𝑦𝑡 𝑦̅ + ∑ 𝑦̅ 2

= ∑ 𝑦𝑡2 − 2𝑦̅ ∑ 𝑦𝑡 + 𝑛 𝑦̅ 2

= ∑ 𝑦𝑡2 − 𝑛 𝑦̅ 2

D’où : ∑(𝑦𝑡 − 𝑦̅)2 = ∑(𝑦̂𝑡 − 𝑦̅)2 + ∑(𝑦𝑡 − 𝑦̂𝑡 )2

2
∑(𝑦𝑡 − 𝑦̅)2 = ∑(𝑦̂𝑡 − 𝑦̅̂ ) + ∑(𝑦𝑡 − 𝑦̂𝑡 )2

SC T = SCE + SCR

Avec :

∑(𝑦𝑡 − 𝑦̅)2 : 𝑆𝑜𝑚𝑚𝑒 𝑑𝑒𝑠 𝐶𝑎𝑟𝑟é𝑠 𝑇𝑜𝑡𝑎𝑙𝑒𝑠 (𝑺𝑪𝑻) 𝑜𝑢 𝑣𝑎𝑟𝑖𝑎𝑡𝑖𝑜𝑛 𝑡𝑜𝑡𝑎𝑙𝑒

∑(𝑦̂𝑡 − 𝑦̅)2 ∶ 𝑆𝑜𝑚𝑚𝑒 𝑑𝑒𝑠 𝐶𝑎𝑟𝑟é𝑠 𝐸𝑥𝑝𝑙𝑖𝑞𝑢é𝑒𝑠 (𝑺𝑪𝑬) 𝑜𝑢 𝑣𝑎𝑟𝑖𝑎𝑡𝑖𝑜𝑛 𝑒𝑥𝑝𝑙𝑖𝑞𝑢é𝑒

∑(𝑦𝑡 − 𝑦̂𝑡 )2 : 𝑆𝑜𝑚𝑚𝑒 𝑑𝑒𝑠 𝐶𝑎𝑟𝑟é𝑠 𝑅é𝑠𝑖𝑑𝑢𝑒𝑙𝑙𝑒𝑠 (𝑺𝑪𝑹) 𝑜𝑢 𝑣𝑎𝑟𝑖𝑎𝑡𝑖𝑜𝑛 𝑖𝑛𝑒𝑥𝑝𝑙𝑖𝑞𝑢é𝑒

Pour évaluer Le niveau de qualité de l’ajustement du modèle de régression, on doit

mesurer la part de la variation expliquée par le modèle dans la variation totale, défini par le

coefficient de détermination 𝑹𝟐 suivant :

2
3

𝟐
𝑺𝑪𝑬 ∑(𝒚̂ 𝒕 − 𝒚̅ )
𝑹𝟐 = = 𝟐
𝑺𝑪𝑻 ∑(𝒚𝒕 − 𝒚̅ )

Le coefficient de détermination 𝑅 2 peut s’écrire aussi sous la forme :

𝟐
𝑺𝑪𝑬 𝑺𝑪𝑻 − 𝑺𝑪𝑹 𝑺𝑪𝑹 ∑ 𝒆𝒕 𝟐 ̂ 𝒕 )𝟐
∑(𝒚𝒕 − 𝒚
𝑹 = = =𝟏− =𝟏− 𝟐 = 𝟏− 𝟐
𝑺𝑪𝑻 𝑺𝑪𝑻 𝑺𝑪𝑻 ∑(𝒚𝒕 − 𝒚̅ ) ∑(𝒚𝒕 − 𝒚̅ )

Par définition, 𝟎 ≤ 𝑹𝟐 ≤ 𝟏 , car 𝑺𝑪𝑬 ≤ 𝑺𝑪𝑻.

Plus 𝑅 2 est proche de 1, et plus les données sont alignées sur la droite de régression :

la qualité d’ajustement est très bonne lorsque 𝑹𝟐 est très proche de 1.

Lorsque 𝑹𝟐 = 𝟏 , çàd : SCT = SCE (SCR = 0), alors les données sont parfaitement

̂𝒕 coïncident tout à
alignées et toute la variation est expliquée par la droite de régression (les 𝒚

̂𝒕 = 𝒚𝒕 ).
fait avec les 𝒚𝒕 : 𝒚

Lorsque 𝑹𝟐 = 𝟎 , c’est à dire SCE = 0 (SCR = SCT), alors les données ne sont pas du tout

alignés ; et dans ce cas, la variation de Y n’est pas due à la variation de X.

7. L’analyse de la variance (ANOVA)

Le tableau d’analyse de variance (tableau ANOVA) prend la forme générale suivante :

Source de Degré de Moyenne des Statistique de Fisher


Somme des carrés
variation liberté carrés calculée Fc

Régression 𝟏 𝑺𝑪𝑬⁄𝟏 𝑺𝑪𝑬⁄𝟏


𝑺𝑪𝑬 = ∑(𝒚 ̅ )𝟐
̂𝒕 − 𝒚 𝑭𝒄 =
𝑺𝑪𝑹⁄(𝒏 − 𝟐)
Résidu 𝒏−𝟐 𝑺𝑪𝑹⁄(𝒏 − 𝟐)
̂𝒕
𝑺𝑪𝑹 = ∑(𝒚𝒕 − 𝒚 )𝟐

3
4

Total 𝒏– 𝟏 ̅ )𝟐
𝑺𝑪𝑻 = ∑(𝒚𝒕 − 𝒚

Avec le degré de liberté (ddl) correspond au nombre de valeurs qu’on peut choisir

arbitrairement.

Dans le cas de la régression simple, le test 𝑯𝟎 ∶ 𝒂𝟏 = 𝟎 est équivalent au test

d’hypothèse 𝑯𝟎 ∶ 𝑺𝑪𝑬 = 𝟎 (çàd que la variable 𝒙𝒕 ne permet d’expliquer le modèle).

Soit le test d’hypothèses suivant :

𝑯𝟎 ∶ 𝒂𝟏 = 𝟎 (𝒊𝒆 𝑺𝑪𝑬 = 𝟎)

Contre 𝑯𝟏 ∶ 𝒂𝟏 ≠ 𝟎 (𝒊𝒆 𝑺𝑪𝑬 ≠ 𝟎)

La statistique du test est la suivante :

𝟐
𝑺𝑪𝑬⁄𝟏 ∑(𝒚̂ 𝒕 − 𝒚̅ ) ⁄𝟏 𝑹𝟐 ⁄𝟏 𝑹𝟐
𝑭𝒄 = = = = (𝒏 − 𝟐)
𝑺𝑪𝑹⁄(𝒏 − 𝟐) ∑ 𝒆𝒕 𝟐 ⁄(𝒏 − 𝟐) (𝟏 − 𝑹𝟐 )⁄(𝒏 − 𝟐) (𝟏 − 𝑹𝟐 )

En effet :

𝑎̂1 −𝐸(𝑎̂1 ) 𝑎̂1 −𝑎1


On a : = ↝ 𝑁(0,1)
√𝑉(𝑎̂1 ) √𝜎𝜀 2 ⁄∑𝑡=𝑛 2
𝑡=1 (𝑥𝑡 −𝑥̅ )

(𝑎̂1 −𝑎1 )2
Donc : ↝ 𝜒 2 (1) : le carré d’une loi normale centrée réduite.
𝜎𝜀 2 ⁄∑𝑡=𝑛
𝑡=1 (𝑥𝑡 −𝑥̅ )
2

∑(yt −𝑦̂𝑡 )2 ∑ 𝑒𝑡 2
̂𝜀2
On a aussi : 𝜎 = (𝑛−2)
= (𝑛−2) ⇒ ∑ 𝑒𝑡 2 = (𝑛 − 2)𝜎̂𝜀2

∑ 𝑒𝑡2 𝜎̂𝜀2 𝜎̂𝑎2̂ 1


⇒ = (𝑛 − 2) 2 = (𝑛 − 2) 2 ↝ 𝜒 2 (𝑛 − 2)
𝜎𝜀2 𝜎𝜀 𝜎𝑎̂1

4
5

(𝐚̂𝟏 −𝐚𝟏 )𝟐
𝛔𝛆 𝟐 ⁄∑(𝐱 𝐭 −𝐱̅)𝟐
𝟏 (𝐚̂𝟏 −𝐚𝟏 )𝟐 ∑(𝐱𝐭 −𝐱̅)𝟐
Ainsi, le rapport
∑ 𝐞𝟐
= ∑ 𝐞𝟐
↝ 𝐅(𝟏;𝐧−𝟐)
𝐭 𝐭
𝛔𝟐
𝛆 (𝐧−𝟐)
(𝐧−𝟐)

Sous l’hypothèse 𝐻0 (𝑎1 = 0):

SCE⁄
â 12 ∑(xt − x̅ )2 1 ↝F
𝑜𝑛 𝑎 ∶ = (1;n−2)
2
∑ et SCR⁄
(n − 2) (n − 2)

On remarque que :

2
𝑎̂1 𝑎̂1 2 ̅ )2
𝑎̂1 2 ∑(xt − x ̅ )2
𝑎̂1 2 ∑(xt − x
𝑡𝑐2 =( ) = = = 2
= 𝐹𝑐
𝜎̂𝑎̂1 2 2 et
𝜎
̂𝜀
⁄ 𝜎
̂𝜀 ∑
∑(xt − x̅) 2 (n − 2)
En conclusion, on peut dire :

𝑆𝑖 𝑭𝒄 > 𝑭𝜶(𝟏;𝒏−𝟐) 𝑎𝑙𝑜𝑟𝑠 𝑜𝑛 𝑟𝑒𝑗𝑒𝑡𝑡𝑒 𝑎𝑢 𝑠𝑒𝑢𝑖𝑙 𝑑𝑒 𝛼 𝑙 ′ ℎ𝑦𝑝𝑜𝑡ℎè𝑠𝑒 𝐻0

𝑆𝑖 𝑭𝒄 ≤ 𝑭𝜶(𝟏;𝒏−𝟐) 𝑎𝑙𝑜𝑟𝑠 𝑜𝑛 𝑎𝑐𝑐𝑒𝑝𝑡𝑒 𝑎𝑢 𝑠𝑒𝑢𝑖𝑙 𝑑𝑒 𝛼 𝑙 ′ ℎ𝑦𝑝𝑜𝑡ℎè𝑠𝑒 𝐻0