Académique Documents
Professionnel Documents
Culture Documents
d’Economie Appliquée
(CTPEA)
● Exercice 1
L’équation de régression estimée est :
REVENUᵢ=17,46+1,53SECTᵢ
1) Calcul des moyennes des revenus des secteurs à partir de cette estimation
o Industrie : SECTᵢ=3
REVENU=17,46+1,53*3=22,05
o Service : SECTᵢ=1
REVENU=17,46+1,53*1=18,99
o Transport : SECTᵢ=2
REVENU=17,46+1,53*2=20,52
o Autres : SECTᵢ=0
REVENU=17,46+1,53*0=17,46
Nous constatons qu’il y a un écart considérable entre les valeurs calculées à partir de
l’équation de régression estimée et les valeurs fournies dans le tableau des données.
2) Pour réaliser la régression l’analyste aurait dû :
Tout d’abord codée 3 des 4 modalités de la variable Secteur. Ici en codant les
modalités Industrie, Service, Transport. Nous aurions eu dans ce cas :
o Industrie (1,0) : 1 si l’individu provient du secteur Industrie. 0 Sinon
o Service (1,0) : 1 si l’individu provient du secteur Service. 0 Sinon
o Transport (1,0) : 1 si l’individu provient du secteur Transport. 0 Sinon
Matrice X’X=
3304 582 333 1165
582 582 0 0
333 0 333 0
1165 0 0 1165
Ybar=
16,64
19,51
22,65
Sum XIYI=
64989,6
8
9684,48
6496,83
26387,2
5
● Exercice 2
Yᵢ est un indicateur de consommation excessive
Yᵢ= {1si QVOD>1, 0 Sinon
1) L’équation de la régression estimée par MCO est :
Yᵢ=0,2461+0,5009REVENUᵢ-0,1289*PVOD
○ Calcul de la probabilité prédite associée à la moyenne des régresseurs
Ỹᵢ=0,2461+0,5009*0,0326-0,1289*0,3727
Ỹᵢ=0,21438
Ỹᵢ=0,2461+0,5009*0,001-0,1289*0,12
Ỹᵢ=0,231
Ỹᵢ=0,2461+0,5009*0,2866-0,1289*5,4
Ỹᵢ=-0,3064
○ Constat
L’une des probabilité est négative.
Or une probabilité ne peut pas être négative. Donc le modèle n’est pas adapté.
Ỹᵢ=-0,1721+5,9483REVENU-4,7353PVOD
● La probabilité que le ménage décrit en 1.5 achète plus d’un litre de vodka
Ỹᵢ=-0,1721+5,9483*47,62-4,7353*0,44
Ỹᵢ= 281
Prob(Yi)=[1/(1+exp(-281)]
Prob(Yi)= 1
● Calcul de l'effet marginal du revenu pour l’individu avec les caractéristiques 2.2
EMrevenu=5,9483*f(Yi)
EMREVENU=5,9483*[exp(281)/(1+exp(281))^2]
EMREVENU= (pas de résultat)
● Exercice 3
EM REVENU=1,158715*0,07486
EM REVENU= 0,08674
Pour l’individu moyen la probabilité d'installer une climatisation va augmenter de 8,67 point
suite à une augmentation du revenu moyen d’une unité.
D’où
EMPORTABLE=0.0995-0.4025= -0.3029
La différence de probabilité entre posseder un climatiseur portable et ne pas le posséder est
0,3029.
La probabilité d’installer un climatiseur diminue de 30% lorsque l’individu possède un
climatiseur portable.
❖ Partie 2 : Thème 1 : Les modèles binaires (Logit et
Probit)
Une société interroge 200 personnes afin de connaitre si elles sont prêts a s’abonner a un
nouveau journal.
1.1- Calcul de la moyenne, l’écart type, le minimum et le maximum pour l’ensemble des
variables continues de la base de données
Variable Moyenne Ecart Type Minimum Maximum
Age 42,52 8,6698 18 59
Sal 18615 7082,492 3678 35972
1.2- Calcul de la moyenne, l’écart type, le minimum et le maximum pour l’ensemble des
variables continues de la base de données selon le type d’abonnement
a) abo=0
Variable Moyenne Ecart Type Minimum Maximum
age 40,27 6,7528 31 51
Sal 17654 7150,625 3678 35374
b) abo=1
Variable Moyenne Ecart Type Minimum Maximum
age 44,39 9,6282 38 59
Sal 19418 6956,164 6296 35972
b) abo
abo n %
Accep:(1) 109 54.5
Pas Accep:(0) 91 45.5
Total 200 100
c) sitfam
sitfam n %
Marié:(1) 101 50.5
Célibataire:
(2) 72 36
Divorcé:(3) 27 13.5
Total 200 100
d) soc
sitfam n %
Ouvrier 32 16
Employé 88 44
Cadre 80 40
Total 200 100
D’après ce tableau, Seulement 46% des femmes veulent s’abonner alors qu’environ 68%
des hommes veulent s’abonner.
Test autocorrelation:
Test Chi-deux
a) Hypothèses
H₀: sex et abo sont indépendants
H₁ : sex et abo sont dépendants
b) Règle de décision
X-squared=8,6958
P-value=0,003189
p-value<0,05 alors on rejette H₀.
Donc, au risque de 5%, on peut affirmer qu’il y a corrélation entre les variables sex
et abo
(Se référer au fichier Excel pour voir la base de données complète: anciennes et
nouvelles variables)
2.2) Vérification, à l’aide de statistiques descriptives, que les nouvelles variables ont été
créé correctement
moyenn
Variable Min Max
e
nabo 0.455 0 1
femcod 0.6119 0 1
homcod 0.3781 0 1
mariecod 0.505 0 1
celibacod 0.36 0 1
divcod 0.135 0 1
ouvcod 0.398 0 1
emplcod 0.4378 0 1
cadcod 0.1592 0 1
saldiv 18.615 3.678 35.972
salcar 3964.4 135.3 12939.8
agecar 1883 324 3481
logage 3.720 2.890 4.078
urbcod 0.655 0 1
croisUF 0.415 0 1
croisUH 0.24 0 1
Estimatio
Variable Ecart type t-student p-value
n
Intercept -0.1616 0.1802 -0.897 0.36969
sex 0.9348 0.3056 3.059 0.00222
Estimatio Ecart
Variable t-student p-value
n type
intercept 0.7732 0.2468 3.133 0.00173
femcod -0.9348 0.3056 -3.059 0.00222
Estimatio Ecart
Variable t-student p-value
n type
intercept -0.1616 0.10802 -0.897 0.36969
homcod 0.9348 0.3056 3.056 0.0022
La variable sex est significatif et seul le coefficient associé au paramètres de cette variable est
significatif et la valeur du paramètre est positive; autrement dit les individus qui sont de sexe
masculin ont une probabilité plus grande de s’abonner (car la régression sur le logiciel a
considéré directement la modalité homme comme étant égal à 1).
Il s’agit de la même idée qui se véhicule dans les 3 modèles : une femme a une probabilité
moins grande de s’abonner et un homme une probabilité plus grande de s’abonner.
abo= -0.1616+0.9348*0.3781
abo=0.1918
p(abo)=ᴧ(0.1918)=[1/[1+exp(-0.1918)]]= 0.548
abo= -0.1616+0.9348*0.6119
abo=0.41040
p(abo)=ᴧ(0.41040)=[1/[1+exp(-0.41040]]= 0.60
On constate que ces 2 derniers résultats diffèrent nettement des résultats de 1.4.
La probabilité moyenne estimée pour une femme de s’abonner dépasse celle pour un homme de
s’abonner. Alors qu’en 1.4 c’est l’inverse. De plus il y a de grands écarts entre les probabilités estimés
et les fréquences. Cela pourrait s’expliquer par une mauvaise spécification du modèle, peut-être qu’il
faudrait intégrer d’autres variables dans le modèle ou par le fait qu’il y a plus de femme que
d’hommes.
EMsex=-0,052
c) Plusieurs variables
cas1 :
➢ avec les variables explicatives suivantes : sex, mariecod, divcod, ouvcod, emplcod,
urbcod, age, sal
Estimatio
Variable Ecart type t student p-value
n
0.08602
Intercept 2.124e+00 1.237e+00 -1.717 4
0.00280
sexe 1.141e+00 3.816e-01 2.989 1
0.01416
mariecod 1.209e+00 4.929e-01 2.453 8
0.36156
celibacod -4.820e-01 5.283e-01 -0.912 2
0.00651
ouvcod -1.753e+00 6.443e-01 -2.721 7
0.00025
emplcod -2.265e+00 6.186e-01 -3.662 1
0.68363
urbcode -1.486e-01 3.648e-01 -0.408 1
9.55e-
age 8.629e-02 2.211e-02 3.902 05
0.50044
sal -1.855e-05 2.753e-05 0.674 5
Les variables qui ont leurs paramètres significatifs sont: sex, mariecod, ouvrcod, emplcod,
age
cas2 :
Estimatio
Variable Ecart type t student p-value
n
Intercept -2.12358 1.23697 -1.717 0.086024
sex 1.14055 0.38161 2.989 0.002801
mariecod 1.20914 0.49293 2.453 0.014168
celibacod -0.48205 0.52833 -0.912 0.361562
ouvcod -1.75291 0.64432 -2.721 0.006517
emplcod -2.26516 0.61862 -3.662 0.000251
urbcod -0.14865 0.36477 -0.408 0.683631
age 0.08629 0.02211 3.902 9.55e-05
saldiv -0.01855 0.02753 -0.674 0.500445
Les variables qui ont leurs paramètres significatifs sont: sex, mariecod, ouvrcod, emplcod, age
La probabilité de s’abonner augmente lorsque l’individu est un homme, marié, n’est pas un
ouvrier, n’est pas un employé et est plus âgé
cas3 :
Estimatio
Variable Ecart type t student p-value
n
16.973334
intercept 9 6.4097118 2.648 0.008095
sex 1.0203878 0.4067757 2.508 0.012125
mariecod 0.9201744 0.5174169 1.778 0.075338
celibacod -0.7646153 0.5815115 -1.315 0.188552
ouvcod -1.5893378 0.6846792 -2.321 0.020271
emplcod -2.2798889 0.6403991 -3.560 0.000371
urbcod -0.1508788 0.3894397 -0.387 0.698441
age -0.9119657 0.3134578 -2.909 0.003622
agecar 0.0120903 0.0038443 3.145 0.001661
saldiv 0.0878204 0.1356691 0.647 0.517429
salcar -0.0002430 0.0003136 -0.775 0.438270
Les variables qui ont leurs paramètres significatifs sont : sex, ouvcod, empl, age, agecar,
La probabilité de s’abonner augmente lorsque l’individu est un homme, n’est pas un ouvrier,
est moins âgé et a le carre de l’âge plus élevé.
cas4 :
➢ avec les variables explicatives suivantes : sex, mariecod, celibacod, ouvcod, cadcod,
urbcod, logage, log(sal)
Estimatio
Variable Ecart type t student p-value
n
intercept -10.5524 5.2733 -2.001 0.045381
sex 1.1393 0.3831 2.974 0.002940
mariecod 1.7211 0.4105 4.192 2.76e-05
divcod 0.4824 0.5223 0.924 0.355692
emplcod -0.4704 0.3888 -1.210 0.226252
cadcod 1.6911 0.6395 2.644 0.008182
urbcode -0.1317 0.3596 -0.366 0.714158
logage 3.0719 0.8607 3.569 0.000358
Log(sal) -0.2027 0.4904 -0.413 0.679370
Les variables qui ont leurs paramètres significatifs sont sex, mariecod, cad, logage
La probabilité de s’abonner augmente lorsque l’individu est un homme, marié, n’est , est un
cadre et a le logarithme de l’âge plus élevé.
o Analyser les résultats associés aux variables âge et salaire: la variable âge est toujours
significatif, cependant le signe d’estimation lié au paramètre varie suivant le modèle;
En ce qui concerne la variable salaire ses paramètres ne sont jamais significatifs quel
que soit l’un des 4 modèles considéré, il en est de même pour les transformations de la
variable salaire. Nous allons essayer de trouver une nouvelle façon d’introduire ces
deux variables dans un modèle
D'où le modèle suivant:
Aboᵢ= β₀+β₁age+β₂sal+Uᵢ
Le logiciel R fournit l’estimation du modèle logit :
À 5% seul la variable age est significatif, à 10% toutes les variables sont significatifs
Seulement les variables suivantes ont leurs paramètres significatifs : age, femcod,
cadcod.
Aboᵢ=0,281
Prob(Aboᵢ) =[1/(1+exp(-0,281)]
Prob(Aboᵢ)=0,569
o Un homme marie, cadre, age de 50 ans, vivant dans une zone rurale et percevant un
salaire de 30000 euro
Pour traiter cette question, nous allons considérer ce petit model logit estimé sur R
Aboᵢ=2,3694
Prob(Aboᵢ) =[1/(1+exp(-2,3694)]
Prob(Aboᵢ) =0,914
Pour répondre à cette question nous allons nous baser sur les résultats des signes des
paramètres estimés pour les différentes variables considérées dans l’étude. Pour les différentes
modèles estimées les variables ayant les paramètres significatives ont été : sex, age, sitfam et
soc. Suivant les signes des paramètres nous pouvons affirmer que :
L’individu est un homme marié, qui est un cadre et qui a un age plutôt élevé.
o La probabilité plus petite de s’abonner
L’individu est une femme célibataire ou divorcé, qui est un employé ou un ouvrier et qui n’est
pas trop âgé.
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.1012 0.1128 -0.898 0.36925
sexHomme 0.5808 0.1876 3.096 0.00196 **
Annexe
1) Codes R
getwd() #Identifier le repertoire de travail
dataf<-read.csv(file.choose(),header=T,sep=";",dec=",") #Importer la base de donnees depuis
le repertoire
View(dataf) #Voir la base importer
summary(dataf$age) #trouver moyenne,min,max de la variable age
summary(dataf$sal) #trouver moyenne,min,max de la variable sal
sd(dataf$age) #pour trouver ecart type age
sd(dataf$sal) # pour trouver ecart type sal
#Regression logistique
reglog<-glm(dat$abo~dat$sex,family=binomial(link="logit"))
summary(reglog)
Call:
glm(formula = abo ~ sex + mariecod + celibacod + ouvcod + emplcod +
urbcode + age + sal, family = binomial(link = "logit"), data = dat)