Académique Documents
Professionnel Documents
Culture Documents
Ricco Rakotomalala
Université Lumière Lyon 2
Variable à prédire
Attribut classe Variables prédictive
Variable endogène Descripteur
Quantitative Variable exogène
Quantitative ou binaire
N° de parcelle Y X
Identifiant 1 16 20
2 18 24
(Pas utilisé pour les calculs, mais peut
3 23 28
être utilisé pour les commentaires : 4 24 22
points atypiques, etc.) 5 28 32
6 29 28
7 26 32
8 31 36
9 32 41
10 34 41
Nous disposons donc d’un échantillon de n couples de points (xi,yi) i.i.d (indépendants et identiquement
distribués), et on veut expliquer (prédire) les valeurs de Y en fonction des valeurs prises par X.
Le terme aléatoire permet de résumer toute l’information qui n’est pas prise en compte dans la
relation linéaire entre Y et X (problèmes de spécifications, approximation de la linéarité, résumer les
variables qui sont absentes, etc.)
H1 : Hypothèses sur X et Y. Ce sont des grandeurs numériques mesurées sans erreur. X est une donnée
(exogène) dans le modèle, Y est aléatoire par l’intermédiaire de (c.-à-d. la seule erreur que l’on a sur Y
provient des insuffisances de X à expliquer ses valeurs dans le modèle).
H2 : Hypothèses sur le terme aléatoire. Les i sont i.i.d. (indépendants et identiquement distribués)
(H2.d) Indépendance des erreurs, les erreurs relatives à 2 observations sont indépendantes (on dit aussi que
S
a 0 xi yi a xi 2 b xi 0
SOLUTION i i i
Equations normales
S 0 y ax b 0
b
yi y xi x
aˆ i
i xi x
2
Estimateurs des moindres carrés
bˆ y aˆx Voir détail des calculs…
Tutoriels Tanagra pour la Data Science
http://tutoriels-data-mining.blogspot.fr/ 6
Exemple des rendements agricoles
351 .6
aˆ 0.714
492 .4
bˆ 26.1 0.714 30.4 4.39
35
y = 0.7141x + 4.3928
33
31
29
27
25
23
21
19
17
15
15 20 25 30 35 40 45
ˆ V ( X ,Y )
CO ˆ Y Relation entre la pente et le
Autre écriture de la pente « a » ˆ
a ˆ
r coefficient de corrélation
ˆ X2 ˆ X linéaire !!!
Pour la régression
ˆ
i
i 0 avec constante !
Voir détail des calculs…
aˆx ( y aˆx ) 31
passe forcément par le 29
25
23
21
19
17
15
15 20 25 30 35 40 45
Tutoriels Tanagra pour la Data Science
http://tutoriels-data-mining.blogspot.fr/ 8
3. Evaluation : Analyse de variance et coefficient de détermination
y y yi yˆ i yˆ i y
2 2
i
i i
Somme des écarts à la moyenne
yi yˆ i yˆ i y 2 y i yˆ i yˆ i y
2 2
i i i
=0
Voir détail des calculs…
iy y 2
i i i
y ˆ
y 2
ˆ
y y 2
Décomposition i i i
de la variance SCT SCR SCE
yˆ y
SCE
2
i
R2 i
SCT y y
2
Coefficient de détermination. i
i
y y
2
i
i
Coefficient de corrélation
linéaire multiple R R R2
yˆ i aˆxi bˆ
0.714 xi 4.39 ˆi yi yˆi
ˆi2
ESTIMATION
a 0.714053615
b 4.392770106 SCE = SCT - SCR 251.061251
R² 0.79727295
R 0.89290142
Eaˆ a
Les estimateurs sont sans biais si…
E bˆ b
â a i i i
xi x
x x
Etape 1 : Exprimer â en fonction de a Où 2
j
Voir détail des calculs… i j
Etape 2 : Déterminer E(â) en fonction de a E â a E i i
i
Pour « b » bˆ b aˆ a x
Avec les mêmes hypothèses, on aboutit à
E bˆ b
V aˆ E[aˆ a ]
2
puisque
2
â a i i
E i i i
i
E i2 i2 2 ii ' i i '
i i i '
i2 E i2 2 ii ' E i i '
i i i '
V ( i ) E i2 2 E i i ' 0
Homoscédasticité Non-autocorrélation des résidus
avec
2
xi x V aˆ
i
x x
i
2 2
j
j x x
i
Est une valeur qui ne dépend pas des effectifs (variance de l’erreur
2
2 théorique)
V aˆ
ix x 2
ix x 2
n
i i
1
2
x
De même, pour « b » V bˆ 2
n xi x 2
i
V bˆ n 0
o o
o o
o
o o o
o
o o
o
(1) o o
o
o o
o o o o
o o o
E i
2 2
est faible
E i
2 2
est élevé
V (aˆ ) est faible, modèle «stable » V (aˆ ) est moyennement élevée
Cette élévation est compensée par xi x 2
la valeur élevée de i
Parmi les estimateurs sans biais, ils sont à variance minimale c.-à-d. il est
impossible de trouver un autre estimateur sans biais à plus petite variance
ˆi yi yˆ i axi b i aˆxi bˆ
Le résidu est tel que
i aˆ a xi bˆ b
On montre que E ˆi2 n 2 2
Giraud & Chaix (1994), page 31 i
On en déduit un ˆ i
2
SCR
estimateur sans biais
ˆ 2 i
n2 n2
xi ˆi 0
Parce 2 contraintes avec les i
équations normale ˆi 0
i
Remarque : A propos du degré
de liberté (n-2)
Parce que (simplement), on estimé 2 paramètres « a » et « b »
dans le modèle pour obtenir les prédictions, et donc les résidus
sigma²(epsilon) 7.979843623
ESTIMATION
a 0.714053615 sigma²(a^) 0.01620602 sigma(a^) 0.127302862
b 4.392770106 sigma²(b^) 15.7749386 sigma(b^) 3.971767696
ˆ 2 SCR n 2
Vˆ (aˆ ) ˆ a2ˆ
x x
2
i
492 .4
i ˆ aˆ ˆ a2ˆ 0.0162 0.127
7.9798
0.0162
492 .4
y y x x
i i
X est non aléatoire
aˆ i
x x i
2 Y l’est par l’entremise de
i
N 0,
aˆ a
N 0,1
Et « â » est issue d’une
combinaison linéaire de Y aˆ
2 ˆ 2
aˆ
2
ˆ aˆ
2
on a besoin de connaître la distribution de ˆ 2
x x x x
2 2
i i
i i
Par hypothèse
Le résidu étant une réalisation de , ˆi
N 0, elle suit aussi une loi normale
N (0,1)
2
ˆi ˆi
2
i 2 2 n 2
i
ˆ 2
n 2 2 2 n 2
Tutoriels Tanagra pour la Data Science
http://tutoriels-data-mining.blogspot.fr/ 23
Distribution de « â » – Variance de l’erreur estimée
ˆ aˆ 2 ˆ 2 ˆ aˆ 2
On vérifie n 2 2 n 2 2 n 2 2 2 n 2
facilement aˆ aˆ
De la même
aˆ a bˆ b
On en déduit n 2 manière, on n 2
dès lors que ˆ aˆ montre
ˆ bˆ
H 0 : a a0
A partir de ces éléments, Tests d’hypothèses au risque α
H1 : a a0
on peut mettre en place
l’inférence statistique
Avec, en particulier le test de H 0 : a 0
significativité (mesurer l’impact de X
dans l’explication de Y via le modèle) H1 : a 0
sigma²(epsilon) 7.979843623
ESTIMATION
a 0.714053615 sigma²(a^) 0.016206019 sigma(a^) 0.127302862
b 4.392770106 sigma²(b^) 15.77493863 sigma(b^) 3.971767696
ddl 8
aˆ 0.714
taˆ 5.609
ˆ aˆ 0.127
Puisque t aˆ t1 2
t1 / 2 (8) t10.05/ 2 (8) t0.975 (8) 2.306
Rejet de H0 : a = 0
Tableau d’analyse
de variance
DDL1 1
DDL2 8
F théorique (à 5%) 5.317655063
SCE
Rejet de H0 c.-à-d. on conclut que le
F 1
251 .06
31.4619 Puisque F F1
SCR 7.9798 modèle est globalement significatif
n2
Remarque :
F1 (1, 8) F0.95 (1, 8) 5.37655
F 31.4619 5.609 taˆ
Y X
16 20
18 24
23 28
24 22
28 32 DROITEREG
29 28 â 0.71405361 4.392770106 b̂
26
31
32
36
ˆ â 0.12730286 3.971767696 ˆ b̂
32 41
R2 0.79727295 2.8248617 ˆ
34 41
F 31.4619262 8 n2
SCE 251.061251 63.83874898 SCR
Intervalle de confiance à 5%
t théorique 2.30600413 2.306004133
Borne basse 0.42049269 -4.76614262
Borne haute 1.00761454 13.55168283
yˆ i* yˆ ( xi* ) aˆxi* bˆ
Pour un individu i*, la
prédiction ponctuelle s’écrit
aˆ a x bˆ b
i*
x E aˆ a E bˆ b E i*
i* i*
0
0 L’erreur du modèle est
Les EMCO sont sans biais nulle par hypothèse
On montre
V ˆi* E ˆi2* 2 1
1 xi* x 2
2ˆi*
2
Giraud & Chaix (1994), page 30 n xi x
i
Remarque :
x x 2
D’où la variance estimée
ˆ 2ˆ 2 1
ˆ 1
xi* x
2 1
hi* i*
n xi x 2
de l’erreur de prévision i*
n xi x 2
i
i
est le LEVIER de l’observation i*
(Il joue un rôle très important dans la
régression. Cf. points atypiques).
SCR
(1) ˆ 2 est petit c.-à-d. la droite ajuste bien le nuage de points .
n2
(2) xi* x
2
La variance de est petit c.-à-d. le point est proche du centre de gravité du nuage.
l’erreur sera d’autant
plus faible que :
x x
2
(3) i est grand c.-à-d. la dispersion des points est grande.
i
(4) n est grand c.-à-d. le nombre d’observations ayant servi à la construction du modèle est élevé.
Puisque… N 0,
ˆi* yˆ i* yi* N 0, 1 hi*
n 2 2 2 n 2
ˆ2
yˆ i* yi*
n 2 Rapport d’une loi normale avec un KHI-2 normalisé
ˆ ˆi*
i
1 57 .76 35
y = 0.7141x + 4.3928
7.9798 1
10 492 .4
9.71389 30
25
Y bX
6000
a
Modèle log-linéaire Log-linéaire
5000
4000
Y 3000
2000
1000
0
a = 3; b = 5
0 2 4 6 8 10 12
X
aX b
Y e
160000
(géométrique) Exponentiel
140000
120000
100000
Y
80000
60000
40000
20000
0 2 4 6 a =8 0.7; 10
b = 5 12
X
Modèle logarithmique
12
Logarithmique
Y a ln( X ) b
10
Y 6
2
a = 2; b = 5
0
0 2 4 6 8 10 12
X
ymax ymin
Equation y ymin
1 e ax b
ymax y
Linéarisation ln( ) a xb
Tutoriels Tanagra pour la Data Science
y ymin
http://tutoriels-data-mining.blogspot.fr/ 37
8. Régression sans constante
Y X (Y-YB) (X-XB) 10
16 20 -10.1 -10.4
18 24 -8.1 -6.4 y = 0.7141x - 2E-15 5
R² = 0.7973
23 28 -3.1 -2.4
24 22 -2.1 -8.4 0
28 32 1.9 1.6 -15 -10 -5 0 5 10 15
29 28 2.9 -2.4 -5
26 32 -0.1 1.6
31 36 4.9 5.6 -10
32 41 5.9 10.6
34 41 7.9 10.6 -15
Moyenne 26.1 30.4
x
i
a
2
i i i
i
Y X Y^.1 Y^.2
45
16 20 18.6738424 17.0248613
18 24 21.5300569 20.4298336 40
23 28 24.3862713 23.8348058
24 22 20.1019496 18.7273474 35
28 32 27.2424858 27.2397781
29 28 24.3862713 23.8348058 30
26 32 27.2424858 27.2397781
31 36 30.0987002 30.6447504 25
32 41 33.6689683 34.9009657
34 41 33.6689683 34.9009657 20
0 4.39277011 0
50 40.0954509 42.5621533 15
A propos du R² Le coefficient de détermination R² n’a plus de sens parce que : SCT ≠ SCE + SCR
Ca ne sert à rien de le calculer
ˆ 2
ˆ aˆ
2
H 0 : a 1
10 7.28 7.47
11 7.53 7.51 Test d’hypothèses
12 8.40 8.07
H1 : a 1
13 7.48 7.25 (Attention : test unilatéral ) !
14 7.46 6.79
15 7.33 7.14
16 7.80 7.38
17 7.57 7.53
18 6.02 6.03
19 7.28 7.05
20 8.42 8.01 a^ 1.021323921 0
21 7.42 7.25 sigma(a) 0.006821202 #N/A
22 7.47 7.59 0.998708093 0.27418841
23 7.14 7.20 22418.42983 29 ddl
24 7.29 6.93 1685.401501 2.18019923
25 8.28 7.85
26 6.98 7.29 a^-1 0.021323921
27 8.03 7.94
aˆ 1 1.0213 1
28 7.69 7.11
t
aˆ
t calculé 3.126123666
29
30
6.67
7.92
6.76
7.72
ˆ 0.00682
t-théorique (95%) 1.699126996
En moyenne, l’homme a-t-il un salaire plus Conclusion Rejet de H0
élevé que sa conjointe dans les ménages
(lorsque les deux sont salariés ?) t 3.126 t1 (n 1) t0.95 (29) 1.699