Vous êtes sur la page 1sur 18

Prof.

Mohamed Aly LOULY

Data Science et Machine Learning

1 Le modèle général de la régression


linéaire multiple avec les tests
statistiques correspondants
2
LA RÉGRESSION LINÉAIRE

Objectif : expliquer une variable quantitative dépendante Y par des


variables quantitatives indépendantes X1, X2, …, Xp.

Mois Coût de production Qté P1 Qté P2 Qté P3


1 1 733 67 20 52
2 2 144 36 80 36
… … … … …
12 1 540 17 31 36

Exemple : expliquer le coût de production mensuel par les


quantités fabriquées de 3 produits.
3
LE MODÈLE THÉORIQUE DE
LA RÉGRESSION LINÉAIRE

Une variable quantitative Y est expliquée par plusieurs variables


quantitatives X1, X2, …, Xp selon le modèle linéaire suivant :

𝑌 = 𝑋𝑎 +ε
4
ESTIMATEUR DES MOINDRE
CARRÉES DES COEFFICIENTS

Les paramètres du modèles sont fixés de manière à minimiser la


sommes des carrés résiduels :
𝑛 𝑛
min ∑
𝑎 0 , … , 𝑎 𝑝 𝑖= 1
ε 𝑖 =∑ ¿ ¿ ¿ ¿
2

𝑖= 1

En supposant 𝑋 𝑇 𝑋 inversible, on obtient l’estimateur suivant :


^ =( 𝑋 𝑇 𝑋 )−1 𝑋 𝑇 𝑌
𝑎

L’estimateur permet de prédire la variable expliquée et on pose :


^=𝑋 𝑎
𝑌 ^
5
IMAGE D’UNE RÉGRESSION
LINÉAIRE MULTIPLE
6
L’ÉQUATION FONDAMENTALE
D’ANALYSE DE LA VARIANCE

La Somme des Carrés Totaux (SCT) = La Somme des Carrés


Expliqués (SCE) + La Somme des Carrés Résiduels (SCR)

∑ (𝑦𝑖 −𝑦) 2 =
∑ 𝑦𝑖 −𝑦)
( ^ 2 +
∑ 𝑖 𝑦𝑖)
(𝑦 − ^ 2

La variabilité totale (SCT) est égale à la somme de la variabilité


expliquée (SCE) et la variabilité résiduelle (SCR)
7
PREMIÈRES MESURES DE
PERTINENCE DU MODÈLE

Coefficient de corrélation multiple :

Coefficient de détermination :

𝑆𝐶𝑅
Variance empirique de l’erreur : ^ 2𝜀 =
𝜎
𝑛 − 𝑝 −1
TABLEAU D’ANALYSE DE LA
8
VARIANCE ET TEST DE FISHER

Degrés Observation Seuil critique


Source Somme des des Variance de la
carrés libertés Empirique statistique

Expliquée
∑ ( ^𝑦𝑖 − 𝑦)2 P
CME =

𝐹 =
𝐶𝑀𝐸
𝐶𝑀𝑅 𝐹 α𝑝,𝑛 −𝑝− 1

∑ (𝑦𝑖 − ^𝑦𝑖) 2
Résiduelle n–p–1
CMR =

Totale
∑ (𝑦𝑖 − 𝑦) 2 n–1
TEST DE FISHER POUR LA
9 SIGNIFICATION GLOBAL D’UNE
RÉGRESSION LINÉAIRE

il existe au moins un coefficient non nul

L’hypothèse H0 permet de calculer la réalisation suivante de la


loi de Fisher avec les degrés de liberté (p, n-p-1) :

Le modèle est jugé pertinent si la réalisation observée est


supérieure à un seuil critique :

𝐹 ∗ > 𝐹 α𝑝 , 𝑛 −𝑝 −1
TEST DE STUDENT POUR LA
10 COMPARAISON D’UN PARAMÈTRE AVEC
UNE VALEUR

Réalisation sous l’hypothèse H0 d’une loi de Student (n-p-1) :



^𝑖
𝑎
𝑡 =
^𝑎
𝜎 ^ 𝑖

Sachant que la matrice des variances et covariances empirique


des estimateurs des paramètres est la suivante :

^ =𝜎
∑ ^ 2𝜀 ( 𝑋 𝑇 𝑋 )−1
11
INTERVALLES DE CONFIANCE POUR
LES ESTIMATEURS DES PARAMÈTRES

La loi de Student permet de définir l’intervalle de


confiance pour une précision donnée 1-α :

^𝑖 ± 𝑡
𝑎 𝑖= 𝑎 𝛼/ 2
𝑛 −𝑝 − 1
^ 𝑎^
𝜎 𝑖
12
EXEMPLE D’UNE
RÉGRESSION LINÉAIRE

Mois Y X1 X2 X3
1 1 733 67 20 52
2 2 144 36 80 36
3 2 824 96 36 31
4 1 115 21 29 46
5 1 922 5 99 58
6 2 519 57 50 70
7 3 428 95 81 33
8 1 862 31 42 39
9 1 551 28 53 52
10 2 035 53 72 38
11 2 589 65 95 34
12 1 540 17 31 36
13
CALCUL MATRICIEL

𝑇 𝑇 −1
𝑋 𝑋 ( 𝑋 𝑋)
12 571 688 525
2,761 -0,01 -0,01 -0,04
571 36809 32629 23638 -0,01 1E-04 6E-06 1E-04
688 32629 47542 29761 -0,01 6E-06 1E-04 3E-05
525 23638 29761 24551 -0,04 1E-04 3E-05 7E-04
14
CALCUL MATRICIEL

𝑇 ^ =( 𝑋 𝑇 𝑋 )−1 𝑋 𝑇 𝑌
𝑎 ^=𝑋 𝑎
𝑌 ^
𝑋 𝑌
2 061
25262 521,9 2 129
1370137 17,89 2 707
1534697 11 1 323
1081130 2,32 1 835
2 254
3 189
1 629
1 726
2
𝑅 =0,86 𝑅=0 , 93 2 350
2 808
1 251
^ 𝜀 =278
𝜎
TABLEAU D’ANALYSE DE LA
15
VARIANCE ET TEST DE FISHER

Degrés Observation P-value Seuil


Source Somme des des Carrés de la critique
carrés libertés moyens statistique

Expliquée 3
3 900 210 1 300 070 16,88 0,0008 4,07

Résiduelle 616 315 8 77 039 Le modèle


est fiable
Totale 4 516 526 11
LA MATRICE DE VARIANCE
16 COVARIANCE EMPIRIQUE DES
ESTIMATEURS

^ ^ 2 𝑇
∑ =𝜎 𝜀 ( 𝑋 𝑋 )−1

2E+05 -800 -680 -2955


-800 9,086 0,449 7,81
-680 0,449 9,623 2,443
-2955 7,81 2,443 55,84

Les variances empiriques des estimateurs des paramètres


se trouvent sur la diagonale.
17
TEST DE STUDENT POUR
LES PARAMÈTRES

Borne inf à Borne sup à


  Coefficients Ecart-type T* P-value 95% 95%

X0 521,9 461,2 1,13 0,2906 -541,66 1585,51

X1 17,89 3,01 5,93 0,0003 10,93 24,84

X2 11 3,10 3,55 0,0076 3,85 18,15

X3 2,32 7,47 0,31 0,7641 -14,91 19,56

Y n’est pas linéairement dépendante de X3


18
PRÉDICTION AVEC LE MODÈLE
DE LA RÉGRESSION LINÉAIRE

La prédiction : 𝑥𝑇
𝑛𝑒𝑤 =(1 66 80 42)

La prédiction : ^ ^ =2680
𝑦 𝑛𝑒𝑤 =𝑥 𝑇𝑛𝑒𝑤 𝑎

L’écart-type de l’erreur : 𝜎^ 𝜀 = 𝜎^ 𝜀 √ 𝑥 ( 𝑋 𝑋 ) 𝑥 𝑛𝑒𝑤 +1=302


𝑛𝑒𝑤
𝑇
𝑛𝑒𝑤
𝑇 −1

L’intervalle de confiance : 𝑦 𝑛𝑒𝑤 = ^


𝑦 𝑛𝑒𝑤 ± 𝑡 𝛼/ 2
^
𝑛−𝑝 −1 𝜎 𝜀 𝑛𝑒𝑤

Borne inférieure à 95% Borne supérieure à 95%


1983 3377

Vous aimerez peut-être aussi