Académique Documents
Professionnel Documents
Culture Documents
Exercice 1
À environnement (quartier ou ville) donné, une idée généralement partagée est que la surface d’un appartement
détermine assez largement son prix. Sans aucun doute, la surface d’un appartement et son prix sont très fortement
liés. Nous souhaitons donc expliquer le prix en kilo euros en fonction de la surface en m2 .
Nous disposons d’un échantillon (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ) de taille n = 28 où xi représente la surface de l’appar-
tement i et yi son prix.
Pour modéliser la dépendance entre le prix d’un appartement et la surface, nous choisissons le modèle de la régression
linéaire simple
yi = β0 + β1 xi + εi , pour tout i = 1, . . . , n.
1. Que représentent respectivement les termes β0 + β1 xi et εi dans l’équation ci-dessous ?
2. Quelle est la méthode qui permet d’estimer les coefficients β0 et β1 ? Expliquer très brièvement le principe de
cette méthode.
3. Nous avons ajusté un modèle de régression linéaire simple pour expliquer le prix en fonction de la surface.
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -29.466 41.245 -0.714 0.481
surface 5.353 0.414 12.931 7.86e-13
---
Exercice 2
Cet exercice porte sur les données de l’élection au Canada Anglais en mai 2011.
Une question se pose avec ces données : estimer le pourcentage de vote du PCC (Partie Conservateur du CANADA)
à partir des quelques variables explicatives comme par exemple : religion, revenu, statut.
Exercice 3
Cet exercice porte sur les données de la mortalité routière en Europe. Nous disposons d’un échantillon de taille 27.
Les variables étudiées ici sont les suivantes :
— MortsPM : Mortalité sur les routes par million selon les données de l’UE.
— Transp : Transparence selon Heritage Foundation.
1
— Alcool : Taux d’alcoolémie permis par la loi.
— Nvdemo : Nouvelle démocratie, Ancienne démocratie.
Il est important remarquer que le terme Transparence utilisé dans la variable Transp correspond à un indice de
perception de la corruption. Cet indice est construit à partir de plusieurs sondages d’opinion d’experts qui procèdent à
une série d’évaluations pour plusieurs secteurs gouvernementaux, pays par pays.
1. Relever : la valeur de la mortalité sur les routes par million d’habitants en dessous duquel se situent 50% des
pays de l’échantillon et la valeur de la mortalité sur les routes par million d’habitats au-dessus duquel se situent
25% des pays de l’échantillon.
2. Commenter brièvement le graphique ci-dessous.
Mortalité sur les routes par million d'habitants
100
75
50
25
1
factor(1)
2
GRC
ROU
BGR POL
100
LVA
LTU PRT
CZE
HUN CYP BEL
MortsPM
75
MLT
GBR NLD
SWE
25
4 6 8
Transp
4. On souhaite expliquer la variable MortsPM en fonction des autres variables. Nous commençons par ajuster un
modèle de régression linéaire simple pour expliquer MortsPM en fonction de Alcool.
Modèle 1 :
lm(formula = MortsPM ~ Alcool, data = base)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 80.890 8.105 9.980 3.34e-10 ***
Alcool -31.319 16.080 -1.948 0.0628 .
3
(Intercept) 57.765 5.026 11.492 1.8e-11 ***
NvDemoNouvelle 26.735 8.259 3.237 0.00339 **
GRC
ROU
BGR POL
100
LVA
LTU PRT
CZE
HUN CYP BEL
MortsPM
75
MLT
GBR NLD
SWE
25
4 6 8
Transp
6. Nous avons finalement ajusté un modèle de régression linéaire multiple expliquant Morts2PM en fonction de
Transp2, Alcool et NvDemo.
Modèle 4 :
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 118.226 19.141 6.177 2.66e-06 ***
Transp -8.717 2.172 -4.013 0.000544 ***
Alcool 3.365 16.946 0.199 0.844329
NvDemoNouvelle 7.924 11.031 0.718 0.479775
(a) Tester la significativité globale du modèle à un niveau de risque de 5% en n’oubliant pas de donner les
hypothèses nulles et alternatives du test. Que peut-on conclure ?
(b) Quelles sont les variables significatives au seuil de signification de 5% ?
(c) Comment expliquer que la variable NvDemo n’est plus utile ? On pourra s’appuyer sur le graphique suivant
qui représente la mortalité en fonction de la transparence pour chacune des modalités de NvDemo.
4
Ancienne Nouvelle
GRC ROU
BGR POL
100
LVA
PRT LTU
CZE
MortsPM CYP BEL HUN
75
MLT
GBR NLD
SWE
25
4 6 8 4 6 8
Transp
7. Lequel des quatre modèles de régression considérés préférez vous ? Justifier. Donner l’équation du modèle ajusté
que vous avez choisi et préciser l’interprétation des coefficients estimés.
Exercice 4
Rappel : dans le modèle logistique, nous cherchons à expliquer une variable Y , qui vaut 0 ou 1, à partir d’une
variable explicative X (ou d’un vecteur de variables explicatives également noté X). Nous modélisons pour cela
π(x) = P(Y = 1|X = x) par
exp(β0 + hβ, xi)
π(x) =
1 + exp(β0 + hβ, xi)
où hβ, xi = β1 x si X est une variable simple et hβ, xi = β1 x1 + β2 x2 si X est un vecteur à deux composantes. Ce
π(x)
modèle est équivalent à log( 1−π(x) ) = β0 + hβ, xi avec β0 et β inconnus. Enfin, dans le cas où X prend également
les valeur 0 ou 1, on montre que β̂0 = log(n21 /n11 ) et β̂1 = log((n11 n22 )/(n12 n21 )) où nij représente l’effectif observé
pour i = 1, 2 et j = 1, 2 du tableau de contingence correspondant :
X=0 X=1
Y=0 n11 n12
Y=1 n21 n22
Nous traitons un problème de défaut bancaire. La variable default est la variable à expliquer. Nous disposons ici d’un
échantillon de taille 10000 et deux variables explicatives student et balance.
— default : Yes (ou 1) si le client fait défaut sur sa dette et No (ou 0) sinon.
— student : Yes (ou 1) si le client est un étudiant et No (ou 0) sinon
— balance : montant moyen mensuel d’utilisation de la carte de crédit
income : revenu du client.
1. A quoi correspond le terme P(Y = 1|X = 0)/P(Y = 0|X = 0) et P(Y = 1|X = 1)/P(Y = 0|X = 1) ?
2. On considère pour commencer un modèle de régression logistique simple où on cherche à expliquer default en
fonction de student.
(a) À l’aide du tableau de contingence ci dessous, donner les coefficients estimés du modèle logistique.
student No Yes
default
No 6850 2817
Yes 206 127
5
(b) Nous avons utilisé le logiciel R pour calculer la valeur estimée du rapport de rapport de chances (odds ratio)
et nous avons obtenue une valeur de 1.499. Que peut-on en conclure ? Quel est le lien entre l’odds-ratio
obtenue et le coefficient β̂1 ?
(c) Nous avons utilisé le logiciel R pour ajuster ce même modèle logistique simple. Donner l’équation du modèle
logistique ajusté.
Modèle 0 :
> Modele0 = glm(formula = default~student,
family = binomial(link = "logit"), data = Default)
> Modele0$coeff
(Intercept) balance
-3.50413 0.40489
3. Nous avons ajusté un autre modèle logistique simple où on cherche à expliquer default en fonction de balance
> Modele1 = glm(formula = default~student,
family = binomial(link = "logit"), data = Default)
> Modele1$coeff
(Intercept) balance
-10.651330614 0.005498917
(a) Donner l’équation du modèle logistique ajusté
(b) Nous avons relevé les valeurs estimées de la proportion de default pour un balance de 1000 et de 2000. À
quelle classe appartient xnew=1000 et xnew=2000 ?
> xnew=data.frame(balance=c(1000,2000))
> predict.glm(Modele1,xnew,type="response")
1 2
0.005752145 0.585769370
4. Nous avons ajusté un modèle logistique multiple où on cherche à expliquer default en fonction de student et
de balance.
Modèle 2 :
> Modele2 = glm(formula = default ~ student + balance,
family = binomial(link = "logit"), data = Default)
> Modele2$coeff
(Intercept) student balance
-10.749496 -0.714878 0.005738
(a) Donner l’équation du modèle logistique ajusté avec les coefficients estimés pour les "student=Yes" et pour
les "student=No".
(b) Nous avons relevé les valeurs estimées de la proportion de default selon les caractéristiques de trois clients
au hasard. Est-ce qu’on peut dire si les clients 1, 137 et 9999 feront default ? Justifier.
predict(Modele2,newdata=Default[c(1,137,9999),c("student","balance")],
type="response")
1 137 9999
0.001409096 0.050602655 0.148507089
(c) Nous avons calculé la matrice de confusion avec R. Rélever la valeur de l’erreur empirique.
> table(Default$default,pred.glm)
pred.glm
0 1
0 9628 39
1 228 105
> mean(Default$default!=pred.glm)
[1] 0.0267
6
(d) Commenter brièvement la figure ci-dessous.
1.0
0.8
student
no student
0.6
π (x)
0.4
0.2
0.0
balance
5. Nous avons ajusté un modèle logistique complet avec toutes les variables explicatives.
> Modele3=glm(default~.,family = binomial(link = "logit"),
data = Default)
> Modele3$coeff
(Intercept) student balance income
-1.087e+01 -6.468e-01 5.737e-03 3.033e-06
Donner l’équation du modèle logistique ajusté avec les coefficients estimés.
6. Nous voulons faire la sélection de modèles à l’aide du critère de AIC et de la validation croisée. Les résultats
obtenus sont les suivants
#glm_KFold fonction qui a été programé pour faire K-Folf validation croisée
> source(‘glm_KFold_CV.R’)
> CV1=glm_KFold_CV(Default,10);
> CV2=glm_KFold_CV(Default,10);
> CV3=glm_KFold_CV(Default,10)
> cbind(CV1,CV2,CV3)
[1,] 0.0274 0.0261 0.0269
> AIC1=Modele1$deviance+4; AIC2=Modele2$deviance+6; AIC3=Modele33$deviance+8
> cbind(AIC1,AIC2,AIC3)
[1,] 1600.452 1577.682 1579.545
(a) Expliquer brièvement que fait la commande Modele2$deviance + 6. D’où vient la valeur 6 ?
Expliquer brièvement que fait la commande glm_KFold_CV(Default,10). Expliquer brievement le principe
de K-Fold Validation croisée.
(b) Quel modèle choisir parmi les trois modèles Modele1, Modele2 et Modele3 ?
(c) Utiliser le critère AIC pour choisir un modèle. Lequel choisissez-vous ? Justifier
(d) Quel modèle choisir parmi les trois modèles proposés ?
7
Exercice 5
Les dépôts mensuels sur l’ensemble des Livrets A pour deux agences differentes ont été relevés durant 30 mois, de
décembre 2005 à juin 2007, et ont été enregistrés dans les variables X et Y.
— Résumés numériques correspondant à la variable X
| Min.| 1st Qu.| Median| 3rd Qu.| Mean| S.d.| Var.| Max.|
|-------:|--------:|--------:|--------:|--------:|--------:|--------:|--------:|
| 105.943| 117.0406| 121.1688| 124.0626| 120.7447| 6.049363| 36.59479| 136.1087|
— Résumés numériques correspondant à la variable Y
| Min.| 1st Qu.| Median| 3rd Qu.| Mean| S.d.| Var.| Max.|
|--------:|--------:|--------:|--------:|--------:|--------:|--------:|--------:|
| 111.3594| 117.9111| 121.9248| 125.8842| 121.7276| 5.788741| 33.50953| 132.6256|
1. Indiquer les données disponibles et modéliser le problème.
2
2. Donner une estimation ponctuelle de µX , σX , µY , σY2 et µX − µY .
3. On souhaite savoir si les dépôts mensuels moyens µX et µY sont différents. Le logiciel R donne :
t = -0.64298, p-value = 0.5228
alternative hypothesis: true difference in means is not equal to 0
a. Poser les hypothèses à tester.
b. Relever la valeur observée de la statistique du test. Que peut-on en conclure au risque α = 5% ?
Exercice 6
Les fonctionnaires se plaignent d’une perte de pouvoir d’achat collective dans les dix dernières années, tandis que le
gouvernement rétorque qu’individuellement chaque fonctionnaire gagne plus. L’État ne disposant pas de service de
ressources humaines, les syndicats réalisent alors un sondage téléphonique pour en avoir le coeur net. Ils obtiennent,
sur 345 fonctionnaires sondés, un salaire moyen mensuel net de 2193 euros en 2008, avec un écart-type mesuré de 573
euros sur l’échantillon. Le dernier grand recensement de 2004 donnait un salaire moyen (en euros constants, on tient
donc compte de l’inflation dans la chiffre suivant) de 2245 euros.
Les syndicalistes se demandent si le pouvoir d’achat a baissé (conclure au risque α = 5%).
1. Indiquer les données disponibles et modéliser le problème.
2. Poser les hypothèses à tester.
3. Donner la statistique du test (formule). Quel est la loi de la statistique du test ? Donner la formule de la p-valeur
correspondante.
4. Le logiciel R donne une p-valeur de 0.046. Que peut-on en conclure au risque α = 5% ?
Exercice 7
Nous allons étudier l’influence du sexe sur les accidents de la route. Nous disposons pour cela d’un fichier comportant
un échantillon de taille 500 des assurés d’une mutuelle. Le tableau, dont les premières lignes sont visibles dans la
table 1, comporte deux colonnes : pour chaque assuré, la première colonne indique le sexe (Homme ou Femme) et la
seconde l’existence d’au moins un accident sur les cinq dernières années. La table 2 contient les effectifs des différentes
catégories : Homme n’ayant pas eu d’accident, Femme n’ayant pas eu d’accident, Homme ayant eu au moins un
accident, Femme ayant eu au moins un accident. On souhaite savoir si la proportion de femmes ayant eu au moins un
accident est plus petite que la proportion d’hommes ayant eu au moins un accident.
8
Table 1 – Table des effectifs
Sexe
Existence Homme Femme
Pas accident 46 76
Au moins un accident 204 174
Exercice 8
La association HEC Sondages avait organisé, début 2007, un sondage pour les élections présidentielles. 286 étudiants
de première, deuxième et troisième année on été interrogés et le tableau obtenu est le suivant :
1. Définir la population étudiée. Quelles sont les variables étudiées et quelle est leur nature ?
2. Préciser les hypothèses nulle et alternative du test.
3. Donner les conditions d’application du test.
4. Calculer à la main les effectifs théoriques e51 , e52 et e53 du tableau ci-dessus. Est-ce qu’on peut appliquer le
test d’indépendance du chi 2 entre les deux variables ? Justifier votre réponse.
5. Nous avons procédé à un regroupement. Nous avons regroupé ceux qui ne se prononcent pas avec les indécis et
le tableau obtenu est le suivante :
(a) Les conditions d’application du test d’indépendance du chi 2 sont-elles vérifiées ?
(b) Donner la statistique du Chi2 et sa loi sous l’hypothèse nulle.
9
Table 4 – Table des valeurs observées
Année
Intention de vote 1A 2A 3A
Royal 9 8 6
Sarkozy 38 36 76
Autre 14 22 0
Indécis ou NSPP 32 31 14
(c) Nous avons utilisé le logiciel R pour calculer avec les données le tableau des effectifs théoriques et pour
effectuer le test d’indépendance du chi 2 entre les deux variables (voir les sorties de R ci-dessous). Combien
vaut la réalisation de la statistique sur les données ? Que pouvez-vous conclure au seuil α = 5% ?
1A 2A 3A
Royal 7.479 7.801 7.720
Sarkozy 48.776 50.874 50.350
Autre 11.706 12.210 12.084
Indécis ou NSPP 25.038 26.115 25.846
data: nij
X-squared = 49.157, df = 6, p-value = 6.936e-09
10