Corrigé TD2 Statistique Appliquée

RAKINI Salma
Section 2, groupe 11
Corrigé TD statistique appliquée
Régression multiple
Exercice 1 :
On a : Yt = a + bX1t + cX2t + Ɛt
1- Tableau ANOVA :
Source de Somme des Degré de Carrés

variation carrés liberté moyens
Régression 1504,4 2 ESS/2 = 752,2
Résiduelle 104,4 N-3 19,6
Totale 1680,8 N-1
RSS=TSS-ESS=1680,8-1504,4=104,4
Interprétation : on constate que la variation expliquée par le modèle est

largement supérieur à la variation non expliquée, donc le modèle peut être
valable.
2- Calculons Test de Fisher :

ESS/2 1504,4/2
𝐹𝑒 = = = 38,37
RSS/N − 3 19,6
On compare le test de Fisher calculé ave F de la table à (2, N-2) degré de
liberté.
On a F théorique = 5,14
On constate que 𝐹𝑒 > 𝐹𝑡 ce qui signifie qu’il y a au moins une variable qui
explique significativement Y.
RSS 104,4
3- Coefficient de détermination : 𝑅2 = 1 − =1− = 0,93
TSS 1680,8
𝑅𝑆𝑆/𝑁−3 19,6
Coefficient de détermination ajusté : 𝑅̅² = 1 − =1− = 0,91
𝑇𝑆𝑆/𝑁−1 229,61
91% de la variation de Y est expliquée par le modèle par rapport à la variation
totale.
On constate que le coefficient de détermination est supérieur au coefficient de

détermination ajustée car il est impacté par le nombre de variables explicatives.
RAKINI Salma
4- Estimation de la valeur résiduelle :
𝑅𝑆𝑆
𝜎Ɛ2 = = 19,6
𝑁−𝑃
Exercice 2 :
On a : ∑ 𝑋1𝑡 = ∑ 𝑋2𝑡 = ∑ 𝑋1𝑋2 = 0 ; N=10
∑ 𝑋1² = 20 ; ∑ 𝑋2² = 40 ; ∑ 𝑌𝑡 = 10 ; ∑ 𝑌² = 165 ; ∑ 𝑋1𝑌 = ∑ 𝑋2𝑌 = 40
1- Calcul des estimateurs des moindres carrés des paramètres de régression.

𝑁 ∑ 𝑋1 ∑ 𝑋2
10 0 0
𝑋𝑇 𝑋 = ∑ 𝑋1 ∑ 𝑋1² ∑ 𝑋2𝑋1 =(0 20 0)
0 0 40
(∑ 𝑋2 ∑ 𝑋1𝑋2 ∑ 𝑋2² )
20 0 0 0 0 20
 𝐷é𝑡 = 10 × | | − 0| |+0×| | = 8000
0 40 0 40 0 0
20 0
-1er terme : (−1)1+1 × | |
0 40
800 0 0
0 0
 𝑀𝑐𝑜𝑓 = ( 0 400 0 ) -2eme terme : (−1)1+2 × | |
0 40
0 0 200 0 20
-3eme terme : (−1)1+3 × | |
0 0
 𝑀𝑎𝑑𝑗 = 𝑀𝑐𝑜𝑓 (car la matrice est symétrique)
1
 𝑀𝑎𝑡𝑟𝑖𝑐𝑒 𝑖𝑛𝑣𝑒𝑟𝑠𝑒 = 𝑀𝑎𝑑𝑗 ×
𝑑é𝑡
800
0 0
8000 10 ∑ 𝑌
𝑡 −1 400 𝑡
(𝑥 𝑥) = 0 0 Et : 𝑥 𝑦 = (40) ∑ 𝑌𝑋1
8000
200 40 ∑ 𝑌𝑋2
0 0
( 8000)
Â = (𝑿𝑻 𝑿)−𝟏 . 𝑿𝑻 𝒀
800 × 10
+ (0 × 40) + (0 × 40) = 1
8000
400 × 40
Â = (0 × 10) + + (0 × 40) = 2
8000
200 × 40
(0 × 10) + (0 × 40) + = 1)
( 8000
RAKINI Salma
Donc le modèle estimé est comme suit : Ŷ = 1 + 2𝑋₁ + 𝑋₂
2- L’estimation de la variance résiduelle de Ɛ :

𝑅𝑆𝑆 35
𝜎Ɛ2 = = =5
𝑁 − 𝑃 10 − 3
𝑅𝑆𝑆 = ∑ 𝑌 2 − â0 ∑ 𝑌𝑡 − â1 ∑ 𝑋1 𝑌 − â2 ∑ 𝑋2 𝑌
= 165 − 1 × 10 − 2 × 40 − 1 × 40 = 35
3- La matrice de variance covariance Â : 𝑴𝒗𝒂𝒓.𝒄𝒐𝒗(Â) = 𝝈𝟐Ɛ (𝑿𝒕 𝑿)−𝟏
800
×5 0 0
8000 0,5 0 0
400
𝑀𝑣𝑎𝑟.𝑐𝑜𝑣(Â) = 0 ×5 0 = ( 0 0,25 0 )
8000 0 0 0,125
200
( 0 0 × 5)
8000
4- L’intervalle de confiance :
𝐻 : â=0
On pose : { 0
𝐻1 : â ≠ 0
 𝑃(â0 − 𝑇𝛼 × 𝜎â0 ) ≤ 𝑎0 ≤ 𝑃(â0 + 𝑇𝛼 × 𝜎â0 )

D’après la matrice de variance covariances :
On a : 𝜎â0 = √𝑉(â0 ) = √0,5 = 0,70 et d’après la table student on a :𝑇𝛼 = 2,262
Donc : 𝑃(â0 − 𝑇𝛼 × 𝜎â0 ) = 1 − 2,262 × 0,70 = −0,59
𝑃(â0 + 𝑇𝛼 × 𝜎â0 ) = 1 + 2,262 × 0,70 = 2,58
On constate que 0 appartient à l’intervalle de confiance [-0,59 ; 2,58], on accepte
donc 𝐻0 càd le paramètre n’est pas significativement différent de 0.
 𝑃(â1 − 𝑇𝛼 × 𝜎â1 ) ≤ 𝑎1 ≤ 𝑃(â1 + 𝑇𝛼 × 𝜎â1 )
𝜎â1 = √𝑉(â1 ) = √0,25 = 0,5
𝑃(â1 − 𝑇𝛼 × 𝜎â1 ) = 2 − 2,262 × 0,5 = 0,869
𝑃(â1 + 𝑇𝛼 × 𝜎â1 ) = 2 + 2,262 × 0,5 = 3,131
On constate que 0 n’appartient à l’intervalle de confiance [0,869 ; 3,131], on
accepte donc 𝐻1 càd le paramètre est significativement différent de 0.
RAKINI Salma
 𝑃(â2 − 𝑇𝛼 × 𝜎â2 ) ≤ 𝑎2 ≤ 𝑃(â2 + 𝑇𝛼 × 𝜎â2 )

𝜎â2 = √𝑉(â2 ) = √0,125 = 0,35
𝑃(â2 − 𝑇𝛼 × 𝜎â2 ) = 1 − 2,262 × 0,35 = 0,20
𝑃(â2 + 𝑇𝛼 × 𝜎â2 ) = 1 + 2,262 × 0,35 = 1,79
On constate que 0 appartient à l’intervalle de confiance [0,20 ; 2,58], on accepte
donc 𝐻1 càd le paramètre est significativement différent de 0.
5- Test de Fisher : Selon ce test, le modèle est valable s’il y a au moins une variable
qui explique Y.
Exercice 3: Y X1 X2 X3 (𝑌𝑡 − 𝑌̅)2 Ŷ (𝑌𝑡 − Ŷ)2

3 -3 5 -1 1 2,49 0,2601
1 -2 0 1 1 1,77 0,5929
1 -1 -3 1 1 1,97 0,9409
1 0 -4 0 1 1,2 0,04
2 1 -3 -1 0 2,17 0,0289
3 2 0 -1 1 2,34 0,4356
3 3 5 1 1 3,51 0,2601
1- La régression linéaire consiste à expliquer un phénomène (variable endogène)

par une ou plusieurs variables explicatives (variable exogène).
2- La démarche statistique :
 Formulation du modèle de régression
 Estimation des paramètres du modèle
 L’étude de validité du modèle de régression
3- On a : Y = b + aX1 + cX2 + E
RAKINI Salma
𝑁 ∑ 𝑋1 ∑ 𝑋2
7 0 0
𝑇
𝑋 𝑋= ∑ 𝑋1 ∑ 𝑋1² ∑ 𝑋2𝑋1 = (0 28 0 )
0 0 84
(∑ 𝑋2 ∑ 𝑋1𝑋2 ∑ 𝑋2² )
28 0 0 0 0 28
 𝐷é𝑡 = 7 × | |− 0| |+0×| | = 16464
0 84 0 84 0 0
2352 0 0
 𝑀𝑐𝑜𝑓 = ( 0 588 0 )
0 0 196
 𝑀𝑎𝑑𝑗 = 𝑀𝑐𝑜𝑓 (car la matrice est symétrique)
1
 𝑀𝑎𝑡𝑟𝑖𝑐𝑒 𝑖𝑛𝑣𝑒𝑟𝑠𝑒 = 𝑀𝑎𝑑𝑗 ×
𝑑é𝑡
2352
0 0
16464 14 ∑ 𝑌
588
 (𝑥 𝑥)
𝑡 −1
= 0
16464
0 Et : 𝑡
𝑥 𝑦 = ( 5 ) ∑ 𝑌𝑋1
196 17 ∑ 𝑌𝑋2
0 0
( 16464)
Â = (𝑿𝑻 𝑿)−𝟏 . 𝑿𝑻 𝒀
2352 × 14
+ (0 × 5) + (0 × 17) = 2
16464
588 × 5
Â = (0 × 14) + + (0 × 17) = 0,17
16464
196 × 17
(0 × 14) + (0 × 5) + = 0,20)
( 16464
Donc le modèle estimé est comme suit : Ŷ = 2 + 0,17𝑋1 + 0,2𝑋₂
RAKINI Salma
4- Tableau d’analyse de la variance :
Source de Somme des Degré de Carrés
variation carrés liberté moyens
Régression 3,441 2 1,72
Résiduelle 2,558 N-3=4 0,63
Total ̅ )𝟐 = 𝟔
∑(𝒀𝒕 − 𝒀 N-1=6
ESS=TSS-RSS=6−2,558=3,441
On constate que la variation expliquée par le modèle est largement supérieur

à la variation non expliquée, donc le modèle peut être valable.
𝑅𝑆𝑆/𝑁−3 0,041
5- 𝑅̅2 = 1 − =1− = 0,959
𝑇𝑆𝑆/𝑁−1 1
95,9% de la variation de Y est expliquée par le modèle par rapport à la
variation totale.
6- Pour calculer le test de student, il faut calculer la matrice de variance,
covariance : 𝑴𝒗𝒂𝒓.𝒄𝒐𝒗(Â) = 𝝈𝟐Ɛ (𝑿𝒕 𝑿)−𝟏
2352 41
× 0,041 0 0 0 0
16464 7000
588 41
𝑀𝑣𝑎𝑟.𝑐𝑜𝑣(Â) = 0 × 0,041 0 = 0 0
16464 28000
196 41
( 0 0
16464
× 0,041) ( 0 0
84000)
𝐻 : ĉ=0
On pose : { 0
𝐻1 : ĉ ≠ 0
ĉ 41
Calculons 𝑇𝑒 = et 𝜎ĉ = √𝑉(ĉ) = √ = 0,022
𝜎ĉ 84000
ĉ 0,2
Donc 𝑇𝑒 = = = 9,09 et on a d’après la table : 𝑇𝑡 = 2,571
𝜎ĉ 0,022
On constate que 𝑇𝑒 > 𝑇𝑐 , on rejette 𝐻0 et on accepte 𝐻1 , càd ĉ ≠ 0 donc la variable 𝑋2

explique significativement Y.
RAKINI Salma
7- 𝑃(𝑏̂ − 𝑇𝛼 × 𝜎𝑏̂ ) ≤ 𝑏̂ ≤ 𝑃(𝑏̂ + 𝑇𝛼 × 𝜎𝑏̂ )
D’après la matrice de variance covariances :
41
On a : 𝜎â0 = √𝑉(𝑏̂̂) = √ = 0,076 et d’après la table student on a : 𝑇𝛼 = 2,571
7000
Donc : 𝑃(𝑏̂ − 𝑇𝛼 × 𝜎𝑏̂ ) = 2 − 2,571 × 0,076 = 1,80
𝑃(𝑏̂̂ + 𝑇𝛼 × 𝜎𝑏̂̂ ) = 2 + 2,571 × 0,076 = 2,19
On constate que 0 n’appartient pas à l’intervalle [1,80 ; 2,19], on accepte 𝐻1 donc la

constante est significativement différente de 0.
8- En utilisant les trois variables X1, X2 et X3, le logiciel SPSS a donné les résultats
suivants :
𝑅𝑆𝑆/𝑁−4 0,083
a. 𝑅̅2 = 1 − =1− = 0,91
𝑇𝑆𝑆/𝑁−1 1,01
91 % de la variation de Y est expliquée par le modèle par rapport à la variation

totale.
b. Dans le cas de la régression multiple, le coefficient de détermination n’est
pas significatif car il est impacté par le nombre de variables explicatives.
c.
ANOVA
Modèle Somme des Degré de liberté Carré moyen

carrés
Régression 5,833 3 1,94
Résidu 0,25 N-4= 3 0,083
TOTAL 6,083 6
𝑅𝑆𝑆 = ∑ 𝑌 2 − â0 ∑ 𝑌𝑡 − â1 ∑ 𝑋1 𝑌 − â2 ∑ 𝑋2 𝑌 − â3 ∑ 𝑋3 𝑌
= 34 − 2 × 14 − 0,17 × 5 − 0,2 × 17 + 0,5 × (−3) = 0,25
On constate que la variation expliquée par le modèle est largement supérieur à la
variation non expliquée, donc le modèle peut être valable.
RAKINI Salma
Coefficients
Coefficient Estimation Ecart-type T student de l’échant
(constante) 2 0,089 22,450
X1 0,17 0,045 4,009
X2 0,20 0,026 7,869
X3 -0,5 0,096 -5,196
𝐻 : â=0
d. On pose : { 0
𝐻1 : â ≠ 0
𝐸𝑆𝑆/3 1,94
𝐹𝑒 = = = 23,37 et 𝐹𝑡 = 6,59
𝑅𝑆𝑆/4 0,083
On constate que 𝐹𝑒 > 𝐹𝑡 , on rejette 𝐻0 et on accepte 𝐻1 , X explique donc

significativement Y. (le modèle est valable s’il y a au moins une variable qui
explique Y). Le modèle est donc valable.
e. On a d’après le tableau ANOVA :
 Pour 𝑋1 : 𝑇𝑒 =4,009 et 𝑇𝑡 = 2,776
𝑇𝑒 > 𝑇𝑡 donc 𝑋1 explique significativement Y.
 Pour 𝑋2 : 𝑇𝑒 =7,869 et 𝑇𝑡 = 2,776
𝑇𝑒 > 𝑇𝑡 donc 𝑋2 explique significativement Y.
 Pour 𝑋3 : 𝑇𝑒 = −5,196 et 𝑇𝑡 = 2,776
𝑇𝑒 < 𝑇𝑡 donc 𝑋3 n’explique pas significativement Y.
Donc le modèle définitif est : 𝑌 = 2 + 0,17𝑋1 + 0,2𝑋₂
Exercice 4:
1-
RAKINI Salma

Corrigé TD2 Statistique Appliquée

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Corrigé TD2 Statistique Appliquée

Transféré par

Droits d'auteur :

Formats disponibles

RAKINI Salma

Source de Somme des Degré de Carrés

Régression 1504,4 2 ESS/2 = 752,2

Résiduelle 104,4 N-3 19,6

Totale 1680,8 N-1

Interprétation : on constate que la variation expliquée par le modèle est

2- Calculons Test de Fisher :

On constate que le coefficient de détermination est supérieur au coefficient de

On a : ∑ 𝑋1𝑡 = ∑ 𝑋2𝑡 = ∑ 𝑋1𝑋2 = 0 ; N=10

∑ 𝑋1² = 20 ; ∑ 𝑋2² = 40 ; ∑ 𝑌𝑡 = 10 ; ∑ 𝑌² = 165 ; ∑ 𝑋1𝑌 = ∑ 𝑋2𝑌 = 40

1- Calcul des estimateurs des moindres carrés des paramètres de régression.

Donc le modèle estimé est comme suit : Ŷ = 1 + 2𝑋₁ + 𝑋₂

2- L’estimation de la variance résiduelle de Ɛ :

3- La matrice de variance covariance Â : 𝑴𝒗𝒂𝒓.𝒄𝒐𝒗(Â) = 𝝈𝟐Ɛ (𝑿𝒕 𝑿)−𝟏

 𝑃(â0 − 𝑇𝛼 × 𝜎â0 ) ≤ 𝑎0 ≤ 𝑃(â0 + 𝑇𝛼 × 𝜎â0 )

 𝑃(â2 − 𝑇𝛼 × 𝜎â2 ) ≤ 𝑎2 ≤ 𝑃(â2 + 𝑇𝛼 × 𝜎â2 )

Exercice 3: Y X1 X2 X3 (𝑌𝑡 − 𝑌̅)2 Ŷ (𝑌𝑡 − Ŷ)2

1- La régression linéaire consiste à expliquer un phénomène (variable endogène)

 𝑀𝑎𝑑𝑗 = 𝑀𝑐𝑜𝑓 (car la matrice est symétrique)

Régression 3,441 2 1,72

Résiduelle 2,558 N-3=4 0,63

On constate que la variation expliquée par le modèle est largement supérieur

On constate que 𝑇𝑒 > 𝑇𝑐 , on rejette 𝐻0 et on accepte 𝐻1 , càd ĉ ≠ 0 donc la variable 𝑋2

On constate que 0 n’appartient pas à l’intervalle [1,80 ; 2,19], on accepte 𝐻1 donc la

91 % de la variation de Y est expliquée par le modèle par rapport à la variation

Modèle Somme des Degré de liberté Carré moyen

Régression 5,833 3 1,94

Résidu 0,25 N-4= 3 0,083

Coefficient Estimation Ecart-type T student de l’échant

(constante) 2 0,089 22,450

X1 0,17 0,045 4,009

X2 0,20 0,026 7,869

X3 -0,5 0,096 -5,196

On constate que 𝐹𝑒 > 𝐹𝑡 , on rejette 𝐻0 et on accepte 𝐻1 , X explique donc

Vous aimerez peut-être aussi