Académique Documents
Professionnel Documents
Culture Documents
Exercices :
Modèle de régression linéaire simple et multiple
Exercice 1 On a relevé pour différents pays le PIB par habitant en 2004 X (en dollars) et le
taux brut de scolarisation des moins de 24 ans la même année Y (en pourcentage). Les résultats
sont les suivants
yi = β0 + β1 xi + εi , pour tout i = 1, . . . , n.
1
1. Que représentent respectivement les termes β0 + β1 xi et εi dans l’équation ci-dessous ?
2. Quelle est la méthode qui permet d’estimer les coefficients β0 et β1 ? Expliquer très
brièvement le principe de cette méthode (motiver également ce problème à l’aide d’un
graphique).
3. Nous avons ajusté un modèle de régression linéaire simple pour expliquer le prix en fonction
de la surface.
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -29.466 41.245 -0.714 0.481
surface 5.353 0.414 12.931 7.86e-13
---
4. Expliquer comment on obtient les deux derniers lignes du tableau ci-dessous (prix prédit
et Résidus).
1 2 3 4 5 6 7 8
prix observée 130.00 280.00 650.00 800.00 268.00 790.00 500.00 320.00
prix prédit 120.42 238.19 537.97 1019.75 264.96 987.64 559.38 291.72
Résidus 9.58 41.81 112.03 -219.75 3.04 -197.64 -59.38 28.28
Exercice 3 Cet exercice porte sur les données observées sur un échantillon de 474 employés
tirés au sort dans une entreprise canadienne. Les variables étudiées ici sont les suivantes :
On souhaite expliquer la variable salary en fonction de toutes les autres variables (salbegin,
jobtime, prevexp, educ et sex) à l’aide de la régression linéaire.
2
1. Nous avons déterminé la matrice de corrélation.
(a) Indiquer pour quels couples de variables la corrélation linéaire observée est la plus
forte, la plus faible. Que peut-on dire de la corrélation linéaire entre le salaire de
départ et le salaire actuel ?
(b) Pourquoi n’y a-t-il pas la variable sex dans le matrice de corrélation ?
2. Nous avons ajusté un modèle de régression linéaire multiple expliquant salary en fonction
de toutes les autres (salbegin, jobtime, prevexp, educ et sex).
Modèle 1 :
3
Modèle 1 Modèle 1
21818 18
218
274 5.0 274
Standardized residuals
25000
2.5
Residuals
0 0.0
−2.5
−25000
3. Nous avons appliqué une transformation logarithmique aux variables salary et salbegin
et nous avons ajusté un modèle de régression linéaire multiple en remplaçant ces variables
par les variables transformées.
Modèle 2 :
4
Modèle 2 Modèle 2
218 5.0 218
Standardized residuals
111 274 274
111
0.5
2.5
Residuals
0.0 0.0
−2.5
−0.5
10.0 10.5 11.0 11.5 12.0 −2 0 2
Fitted values Theoretical Quantiles
4. Lequel des deux modèles de régression multiple considérés préférez vous ? Appuyez votre
réponse sur les graphes pertinents.
Exercice 4 Cet exercice porte sur les données de la mortalité routière en Europe. Nous dis-
posons d’un échantillon de taille 27. Les variables étudiées ici sont les suivantes :
• MortsPM: Mortalité sur les routes par million selon les données de l’UE.
Il est important remarquer que le terme Transparence utilisé dans la variable Transp corre-
spond à un indice de perception de la corruption. Cet indice est construit à partir de plusieurs
sondages d’opinion d’experts qui procèdent à une série d’évaluations pour plusieurs secteurs
gouvernementaux, pays par pays.
1. Relever : la valeur de la mortalité sur les routes par million d’habitants en dessous duquel
se situent 50% des pays de l’échantillon et la valeur de la mortalité sur les routes par
million d’habitats au-dessus duquel se situent 25% des pays de l’échantillon.
5
2. Nous avons déterminé la matrice de corrélation.
(a) Pourquoi n’y a-t-il pas la variable NvDemo dans le matrice de corrélation ?
(b) Que peut-on dire de la corrélation linéaire entre MortsPM et Transp ? On pourra
également s’appuyer sur le graphique suivant qui représente le nuage de points entre
la mortalité et la transparence.
GRC
ROU
BGR POL
100
LVA
LTU PRT
CZE
HUN CYP BEL
MortsPM
75
MLT
GBR NLD
SWE
25
4 6 8
Transp
3. On souhaite expliquer la variable MortsPM en fonction des autres variables. Nous com-
mençons par ajuster un modèle de régression linéaire simple pour expliquer MortsPM en
fonction de Alcool.
Modèle 1 :
6
Modèle 2 :
Modèle 3 :
(a) Les coefficients de la régression, pour chaque modèle considéré, sont-ils significatifs
au seuil 5 %? Justifier.
(b) Commenter brièvement le graphique ci-dessous.
GRC
ROU
BGR POL
100
LVA
LTU PRT
CZE
HUN CYP BEL
MortsPM
75
MLT
GBR NLD
SWE
25
4 6 8
Transp
5. Nous avons finalement ajusté un modèle de régression linéaire multiple expliquant Morts2PM
en fonction de Transp2, Alcool et NvDemo.
7
Modèle 4 :
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 118.226 19.141 6.177 2.66e-06 ***
Transp -8.717 2.172 -4.013 0.000544 ***
Alcool 3.365 16.946 0.199 0.844329
NvDemoNouvelle 7.924 11.031 0.718 0.479775
6. Lequel des quatre modèles de régression considérés préférez vous ? Justifier. Donner
l’équation du modèle ajusté que vous avez choisi et préciser l’interprétation des coefficients
estimés.