Vous êtes sur la page 1sur 60

Méthode linéaire

Gaussienne simple
Introduction
• Le 1 janvier 1801 Giuseppe Piazzi découvre l'astéroïde Cérès et réussi
à l’observer jusqu’au 14 février 1801.
• Carl Friedrich Gauss propose une estimation de la trajectoire de Cérès

• Localisation à nouveau de Cérès à la fin de l'année.


Une ellipse
La situation
La réponse
Cas d’une droite
La question
Modélisation linéaire gaussien simple
Un modèle de régression linéaire gaussien simple est défini par une équation de la forme :

Avec les erreurs (ou bruits) supposées suivre une loi normale centrées, de même variance
(homoscédasticité) et non corrélées entre elles.
Plus précisément on pose
Introduction droite de régression avec EXCEL
La plupart des tableurs permettent de déterminer la droite de
régression par la méthode des MCO.
Equation de la droite de régression par la
MCO
• Exemple
Graphique
Ligne de tendance
Droite de régression : MCO
MCO
Nous avons vu que :
On appelle estimateurs des Moindres Carrés Ordinaires (en abrégé MCO) β1 et β2 les valeurs
minimisant la quantité :

Qui s’écrivent
Exemple de droite de régression
Faisons le calcul des estimateurs
Prévision
Un modèle de régression est construit dans le but d’expliquer à partir des
observations dans quelles conditions se détermine Y, mais aussi de
prévoir les valeurs futures de cette variable.
Calculs
Cas de deux variables
Le tableau ci-après donne les ventes mensuelles et le prix unitaire correspondant. Ces
valeurs représentent les observations qui vont servir à l'estimation de la fonction de
demande.

Quantité qi (milliers d'unités)


Dates Prix pi (euros)
Janvier 5 14

Février 15 6

Mars 9 10

Avril 14 9

Mai 3 11

Juin 9 13

Juillet 10 9

Août 17 6

Septembre 11 5

Octobre 16 3

Novembre 7 11

Décembre 3 15
Nuage de points
16
Dans la théorie traditionnelle le prix
14
est une fonction de la demande.

12 prix=a*demande+b.

10
Mais on peut se poser la question
réciproque, en agissant sur le prix
8
puis-je modifier la demande?
6
demande= m*prix+c
4 y = -0,6426x + 15,706

0
0 2 4 6 8 10 12 14 16 18
Qualité de l ajustement
Deux questions se pose à nous:
Dans quelle mesure le phénomène est-il bien représenté par la droite?
Peut-on faire confiance aux coefficients du modèle?
Validité globale du modèle
Pour construire le modèle de régression linéaire nous avons supposé
que Y dépend de X. Comparons ce modèle avec celui où Y est
indépendant de X (hypothèse 𝐻0 ).

La loi des écart permet comparer l’erreur associée à l’hypothèse 𝐻0 et


l’erreur associée au modèle linéaire.
L’erreur attachée à l’hypothèse 𝐻0 est :
2
La dispersion totale = 𝑌𝑖 − 𝑌

L’erreur attachée à l’hypothèse de dépendance est:


2
La dispersion résiduelle= 𝑌𝑖 − 𝑌𝑖

La différence entre la dispersion totale et la dispersion résiduelle est la


dispersion expliquée.
2 2 2
On a 𝑌𝑖 − 𝑌 = 𝑌𝑖 − 𝑌 + 𝑌𝑖 − 𝑌𝑖
Coefficient de détermination R²
Un premier indicateur de la qualité de la représentation consiste a mettre en
relation la dispersion expliquée et la dispersion totale.
Le coefficient de détermination R² est défini par :

2
𝑌𝑖 −𝑌 𝑌𝑖 −𝑌𝑖 2
R² = 2 = 1- 2
𝑌𝑖 −𝑌 𝑌𝑖 −𝑌
Interprétation
• Si R² = 1, le modèle explique tout, c’est-à-dire que les points de l’échantillon sont
parfaitement alignés sur la droite des moindres carrés
• Si R² = 0 ou proche de 0, cela veut dire que Le modèle de régression linéaire est
inadapté
Le coefficient de corrélation est la racine carré du coefficient de
détermination. C’est l’indicateur le plus couramment employé.

2
𝑌𝑖 −𝑌
R= 2
𝑌𝑖 −𝑌

Rappel, nous connaissions déjà la formule:


𝑐𝑜𝑣(𝑋,𝑌)
R=
σ𝑋 σ𝑌
Le signe du coefficient de corrélation linéaire indique le sens de la
relation entre X et Y.
R est positif (covariance ou coefficient de régression positif)
Causalité ou corrélation?

Image tirée du site Hygiène mentale


Image tirée du site Hygiène mentale
Un coefficient de corrélation R très élevé obtenu à partir de peu de
données est moins significatif qu’un coefficient plus faible mais
déterminé à partir d’un très grand nombre de données.

A la limite, si nous n’avions que deux observation R serait égal à 1 mais


aucune conclusion ne pourrait en être déduite.
Exemple
Les ventes d’un nouveau journal ont été, pendant les 7 dernières semaines les
suivantes :
Semaines Vente en milliers
1 6
2 4
3 6
4 8
5 10
6 10
7 12

Nous tentons ici d’expliquer les ventes en fonction du temps, c’est une série
temporelle
La représentation graphique nous montre qu’une régression linéaire est envisageable
Par la méthode des moindres carrés nous obtenons
Y=1,2143 X + 3,1429
Il suffit de remplacer X par la variable temps, par exemple X=8, dans cette formule pour obtenir une
prévision des vente pour la 8ième semaine.
Vente de la semaine 8: 12,84
semaine vente vente-moyenne (vente -moy)^2 estimation y vente-estimation (vente-estimation)^2

1 6 -2 4 4,3572 1,6428 2,69879184

2 4 -4 16 5,5715 -1,5715 2,46961225

3 6 -2 4 6,7858 -0,7858 0,61748164

4 8 0 0 8,0001 -1E-04 1E-08

5 10 2 4 9,2144 0,7856 0,61716736

6 10 2 4 10,4287 -0,4287 0,18378369

7 12 4 16 11,643 0,357 0,127449


28 56 48 6,71428579

moyenne 8

R^2 0,86011905

Nous pouvons calculer R² et l interpréter comme le modèle de


régression linéaire permet d’expliquer 86% de la variance totale
des données.
Analyse de la variance pour la régression
L’analyse de la variance permet d’intégrer la taille de l’échantillon dans
l’appréciation de la qualité du modèle.

2 2
Nous pouvons démontrer que 𝑌𝑖 − 𝑌 𝑒𝑡 𝑌𝑖 − 𝑌𝑖 suivent des
loi du χ²
D’où
2
𝑌𝑖 −𝑌
1
2 suit une loi de Fisher (1, n-2)
𝑌𝑖 −𝑌𝑖
𝑛−2

Nous allons pouvoir déterminer la probabilité de vraisemblance de


l’hypothèse 𝐻0 .
Retour à l’exemple
Les ventes d’un nouveau journal ont été, pendant les 7 dernières semaines les
suivantes :
Semaines Vente en milliers
1 6
2 4
3 6
4 8
5 10
6 10
7 12

Dans notre exemple: F=30,76. Cette valeur doit être comparée à celle qui est lue
dans la table de Fisher (1;5) pour un seuil de confiance que l’on se fixe.
Pour un seuil de confiance fixé à 1 pour cent, la valeur du 𝐹théorique
lue dans le tableau est de 16,26.

C’est-à-dire que sous l’hypothèse 𝐻0 (c’est-à-dire que les ventes et le


temps sont indépendants), il y a moins une chance sur cent que le
nombre 𝐹𝑜𝑏𝑠𝑒𝑟𝑣é soit supérieur à 16,26.

Ici nous avons 𝐹𝑜𝑏𝑠𝑒𝑟𝑣é =30,76, nous allons donc rejeter l’hypothèse 𝐻0
avec un risque d’erreur de première espèce inférieur à 1 pour cent.
Ecart type de l’erreur
Nous pouvons calculer la vraisemblance de l’échantillon et les estimateurs qui
maximisent cette vraisemblance.
Nous avons une estimation de la variance de l’erreur

2
𝑌𝑖 − 𝑌𝑖
σε ² =
𝑛−2
Nous pouvons démontrer que:
Exemple

Nous avons une estimation de la variance de l’erreur

=1,34296
Nous avons vu que la méthode que l’on utilise pour estimer les
paramètres d’un modèle de régression est la méthode des moindres
carrés ordinaires.

Le modèle théorique est : 𝑌𝑖 = 𝑎𝑋𝑖 + 𝑏 + ε

Le modèle estimé à partir des n observations est


𝑌𝑖 =𝑎 𝑋𝑖 + 𝑏
Estimation des coefficients

On a
𝐸(𝑎) = 𝑎 et 𝐸 𝑏 = 𝑏
Et

σ²ε 1 𝑋²
Var(𝑎)= (𝑥𝑖 −𝑋)² et Var(𝑏)=𝜎 2 ε (𝑛 + )
(𝑥𝑖 −𝑋)²
Avec 𝜎 2 ε variance des erreurs

On peut remarquer que la variance de l’estimateur de 𝑏 varie en fonction de l’inverse du nombre


d’observations ( plus on a observation plus on est précis)
Les estimateurs 𝑎 𝑒𝑡 𝑏 suivent une loi normale en tant que
combinaisons linéaires d’ observations 𝑦𝑖 suivant une loi normale.

On désire connaitre le comportement pour chacun des paramètres 𝑎 et


𝑏 en estimant le 𝜎 2 ε par σε ² .
Validité du modèle global
(linéaire vs constante)
Les tests précédents permettent d’avoir une idée de la validité de la
régression dans son ensemble.
On veut connaitre la validité des coefficients du modèle en comparant
avec l’hypothèse 𝐻0 ( coefficient nulle).

Nous pouvons démontrer que


𝑎 1
𝑡= avec σ𝑎 = σε
𝑥𝑖 −𝑋 2
σ𝑎
est une statistique qui suit une loi de Student à (n-2) degrés de liberté.
x y x-4 (X-4)² estmation erreur erreur²

Exemple 1 6 -3 9 4,3572 -1,6428 2,69879184

2 4 -2 4 5,5715 1,5715 2,46961225

3 6 -1 1 6,7858 0,7858 0,61748164

4 8 0 0 8,0001 0 0

5 10 1 1 9,2144 -0,7856 0,61716736

6 10 2 4 10,4287 0,4287 0,18378369

7 12 3 9 11,643 -0,357 0,127449

28 56 0 28 6,71428578

Nous avons une estimation de l’écart type de l’erreur σε =1,1588 ,


𝑥𝑖 − 𝑋 2 =28
Donc σ𝑎 = 1,1588 5,2915=0,2190
1,2143
Nous avons donc 𝑡𝑜𝑏𝑠𝑒𝑟𝑣é = = 5,5447. Ce qui comparé à la table
0,2190
de Student pour un α=1%, 𝑡𝑡ℎé𝑜𝑟𝑖𝑞𝑢𝑒 = 3,365, parait bien significatif.
Les estimateurs
𝑏−𝑏 𝑎−𝑎
et
σ𝑏 σ𝑎
avec

1 𝑋² 1
σ𝑏 = σε + et σ𝑎 = σε
𝑛 (𝑥𝑖 −𝑋)² (𝑥𝑖 −𝑋)²
sont des statistiques qui suivent des lois de Student à (n-2) degrés de
liberté.
Les intervalles de confiance à un seuil α sont donnés par

𝑎−𝑡 α σ𝑎 ; 𝑎 + 𝑡 α σ𝑎
1− ;𝑛−2
2 1− ;𝑛−2
2
et

𝑏−𝑡 α σ ;𝑏 + 𝑡 α σ
1− ;𝑛−2 𝑏 1− ;𝑛−2 𝑏
2 2
Dans notre exemple

Semaines Vente en
milliers
1 6
2 4
3 6
4 8
5 10
6 10
7 12

Nous allons chercher un intervalle de confiance pour a au seuil de 1%.


Nous nous reportons à la table statistique de Student pour un DDL 5
Nous obtenons 𝑡0,975;5 = 2,015
Nous avons déterminé 𝑎 = 1,2143, σ𝑎 =0,2190
Ce qui donne
𝑎 ∈ 1,2143 − 2,015 ∗ 0,2190; 1,2143 + 2,015 ∗ 0,2190

𝑎 ∈ 0,7730; 1,6556
De même, nous avons 𝑏 = 3,1429, σ𝑏 =0,9794

𝑏 ∈ 3,1429 − 2,015 ∗ 0,9794; 3,1429 + 2,015 ∗ 0,9794

b∈ 1,1694; 5,1164
Prévision à l’aide du modèle
Le modèle de régression est construit afin d’expliquer à partir
d’observations données dans quelles conditions se détermine la valeur
de la variable.
En prenant en compte que le modèle a été construit à partir d’un
certain échantillon de données , ce qui entraine un certain aléa, nous
pouvons estimer les valeurs futures de cette variable
Soit 𝑥𝑛+1 une nouvelle valeur, pour laquelle nous voulons prédire
𝑦𝑛+1 .
Le modèle est toujours le même
𝑌𝑛+1 = 𝑎𝑋𝑛+1 + 𝑏 + 𝜀𝑛+1
Avec 𝜀𝑛+1 indépendants des autres ε𝑖 et 𝜀𝑛+1 ~𝒩(0, σε )

Il est naturel de prédire la valeur correspondante via le modèle ajusté


𝑌𝑛+1 =𝑎 𝑋𝑛+1 + 𝑏

Deux types d’erreurs vont entacher notre prévision : la première est


due à la non-connaissance de 𝜀𝑛+1 , la seconde à l’incertitude sur les
estimateurs 𝑎 et 𝑏 .
Erreur de prévision
L’erreur de prévision 𝜀𝑛+1 = (yn+1 − yn+1 ) satisfait les propriétés
suivantes :
𝐸(𝜀𝑛+1 )=0

2
1 (𝑋n+1 −𝑋)²
σ²𝜀𝑛+1 = 𝜎ε (1 + + )
𝑛 (𝑥𝑖 − 𝑋)²

A nouveau on ne connaît pas σε et on l’estime donc par σε


Exemple:

2
1 (𝑋n+1 −𝑋)²
σ²𝜀𝑛+1 = 𝜎ε (1 + + )
𝑛 (𝑥𝑖 − 𝑋)²
𝜎ε 2 est estimé par σ²ε =1,3430
Donc

1 (8−4)²
σ²𝜀8 =1,3430*(1+ + )=2,3023
7 28
Et donc
σ𝜀8 =1,5173
Remarque
Ainsi la variance augmente lorsque xn+1 s’éloigne du centre de gravité
du nuage. Autrement dit, faire de la prévision lorsque xn+1 est “loin” de
𝑥 est périlleux, puisque la variance de l’erreur de prévision peut être
très grande !
Ceci s’explique intuitivement par le fait que plus une observation xn+1
est éloignée de la moyenne 𝑥 et moins on a d’information sur elle.
Intervalle de confiance pour la prédiction
Avec les notations et hypothèses précédentes, on a

𝜀𝑛+1
~𝑡𝑛−2
σ𝜀𝑛+1
d’où pour un α donné, on déduit l’intervalle de confiance suivant pour
yn+1 :
yn+1 − 𝑡 α σ𝜀𝑛+1 ; yn+1 + 𝑡 α σ𝜀𝑛+1
1− ;𝑛−2 1− ;𝑛−2
2 2
Exemple

Nous avons
σ𝜀8 =1,5173, yn+1 =12,84, 𝑡0,975;5 =2,015
donc
yn+1 − 𝑡 α σ𝜀𝑛+1 ; yn+1 + 𝑡 α σ𝜀𝑛+1
1− ;𝑛−2
2 1− ;𝑛−2
2
Donne
12,84 − 2,015 ∗ 1,5173; 12,84 + 2,015 ∗ 1,5173
On a
𝑦8 𝑎 𝑢𝑛𝑒 𝑝𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑡é 𝑑𝑒 95% 𝑑′ 𝑎𝑝𝑝𝑎𝑟𝑡𝑒𝑛𝑖𝑟 à 9,7826; 15,8973

Vous aimerez peut-être aussi