Devoir 1

Centre de Techniques de Planification et
d’Economie Appliquée
(CTPEA)
Devoir Econométrie des Variables Qualitatives
Préparé Par BERNARD Elauïne

❖ Partie 1 : Dossier 1 : Tarification non linéaire
● Exercice 1
L’équation de régression estimée est :
REVENUᵢ=17,46+1,53SECTᵢ
1) Calcul des moyennes des revenus des secteurs à partir de cette estimation
o Industrie : SECTᵢ=3
REVENU=17,46+1,53*3=22,05
o Service : SECTᵢ=1
REVENU=17,46+1,53*1=18,99
o Transport : SECTᵢ=2
REVENU=17,46+1,53*2=20,52
o Autres : SECTᵢ=0
REVENU=17,46+1,53*0=17,46
Nous constatons qu’il y a un écart considérable entre les valeurs calculées à partir de
l’équation de régression estimée et les valeurs fournies dans le tableau des données.
2) Pour réaliser la régression l’analyste aurait dû :
Tout d’abord codée 3 des 4 modalités de la variable Secteur. Ici en codant les
modalités Industrie, Service, Transport. Nous aurions eu dans ce cas :
o Industrie (1,0) : 1 si l’individu provient du secteur Industrie. 0 Sinon
o Service (1,0) : 1 si l’individu provient du secteur Service. 0 Sinon
o Transport (1,0) : 1 si l’individu provient du secteur Transport. 0 Sinon
Ensuite l’équation de la régression s’écrierait ainsi :

REVENUᵢ=β₀+β₁SERVICEᵢ +β₂TRANSPORTᵢ+ β₃INDUSTRIEᵢ+ + Uᵢ
Finalement en estimant l’équation de régression par la méthode suivant on trouve les
parametres
moy
des
revenu REVENU
Secteur Effectif s' E ecart
Industrie 1165 22,65 22,05 0,6
services 582 16,64 18,99 -2,35
Transport 333 19,51 20,52 -1,01
Autres 1224 18,31 17,46 0,85
Tous
Secteurs 3304 19,67
19,277
5
Matrice X’X=
3304 582 333 1165
582 582 0 0
333 0 333 0
1165 0 0 1165
Ybar=
16,64
19,51
22,65
Inverce matrice X’X=

-
0,00081 - 0,00081 -
7 0,000817 7 0,000817
-
0,00081 0,002535 0,00081
7 2 7 0,000817
-
0,00081
7 0,000817 0,00382 0,000817
-
0,00081 0,00081 0,001675
7 0,000817 7 4
Sum XIYI=
64989,6
8
9684,48
6496,83
26387,2
5
Les paramètres estimés=

18,31790
8
-
1,677908
1,192091
5
4,332091
5
● Exercice 2
Yᵢ est un indicateur de consommation excessive
Yᵢ= {1si QVOD>1, 0 Sinon
1) L’équation de la régression estimée par MCO est :
Yᵢ=0,2461+0,5009REVENUᵢ-0,1289*PVOD
○ Calcul de la probabilité prédite associée à la moyenne des régresseurs
Ỹᵢ=0,2461+0,5009*0,0326-0,1289*0,3727
Ỹᵢ=0,21438
○ La probabilité associée à Y la plus faible
Ỹᵢ=0,2461+0,5009*0,001-0,1289*0,12
Ỹᵢ=0,231
○ La probabilité associée à Y la plus forte
Ỹᵢ=0,2461+0,5009*0,2866-0,1289*5,4
Ỹᵢ=-0,3064
○ Constat
L’une des probabilité est négative.
Or une probabilité ne peut pas être négative. Donc le modèle n’est pas adapté.
○ Calcul de la probabilité qu’un ménage de 2 adultes avec un REVENU total égal à

10000 roubles achète plus d’un litre de vodka par jour au prix de 45 roubles par litre.
REVENU=47,62 (après transformation)
PVOD=0,44 (après transformation)
Ỹᵢ=0,2461+0,5009*47,62-0,1289*0,44
Ỹᵢ=24,036
Une probabilité est comprise entre 0 et 1 or celle-ci vaut 24, ce qui montre une fois de
plus que le modèle n’est pas adapté.
2) on estime probabilité (Y=1) par un modèle logit

● Le modèle estimé
Ỹᵢ=-0,1721+5,9483REVENU-4,7353PVOD
● La fonction de vraisemblance associée à ce modèle

∏
● La probabilité que le ménage décrit en 1.5 achète plus d’un litre de vodka
Ỹᵢ=-0,1721+5,9483*47,62-4,7353*0,44
Ỹᵢ= 281
Prob(Yi)=[1/(1+exp(-281)]
Prob(Yi)= 1
● Calcul de l'effet marginal du revenu pour l’individu avec les caractéristiques 2.2
EMrevenu=5,9483*f(Yi)
EMREVENU=5,9483*[exp(281)/(1+exp(281))^2]
EMREVENU= (pas de résultat)
● Exercice 3
1) Ecriture du modèle estimé :

Ỹᵢ=-12,04714-0,64585NBFOYER+0,001099TAILLE+1,158715REVENU-
0,494055MAISON-1,806437PORTABLE
2) Commentaire des résultats

D’après le tableau d’estimation des paramètres, 3 des 5 paramètres associés aux variables
sont significatifs. Ce sont ces paramètres significatifs que nous allons commenter.
- TAILLE
Le coefficient est significatif et positif
Toutes choses étant égales par ailleurs, la probabilité d’installer une climatisation augmente
avec la surface de l’habitation.
- REVENU
Le coefficient est significatif et positif
Toutes choses étant égales par ailleurs, la probabilité d’installer une climatisation augmente
avec le revenu.
- PORTABLE
Le coefficient est significatif et négatif
Toutes choses étant égales par ailleurs, les ménages qui sont équipés d’un climatiseur mobile
ont une probabilité moins grande d’installer une climatisation.
3) Calcul de la probabilité qu’un ménage de 3 personnes en maison individuelle de

revenu 10, de taille d’habitation 1360 et ne possédant pas de climatiseur potable
installe une climatisation.
NBFOYER=3, MAISON=1, REVENU=10, TAILLE=1360, PORTABLE=0
Ỹᵢ=-12,04714-0,064585*3+0,001099*1360+1,158715*10-0,494055*1-1,806437*0=0,34684
(Ỹᵢ)= ᴧ (0.34684)=0.585
4) Calcul de l’Effet Marginal associé à la variable REVENU, au point moyen de

l’échantillon à partir de l’estimation logit.
EM REVENU=β₃* f(Ỹᵢ)
Ỹᵢ=-12,04714-0,064585*3,1752+0,001099*1367,6788+1,158715*9,3176-0,494055*0,8967-
1,806437*0,3942=-1,1078
f(Ỹᵢ)= [exp(Yi)]/[(1+exp(Yi)) ^2]
f(Yi)= 0,07486
EM REVENU=1,158715*0,07486
EM REVENU= 0,08674
Pour l’individu moyen la probabilité d'installer une climatisation va augmenter de 8,67 point
suite à une augmentation du revenu moyen d’une unité.
5) Calcul de l’Effet Marginal associé à la variable PORTABLE, au point moyen de

l’échantillon
EM PORTABLE= P(Yi/Xi=1)-P(Yi /Xi=0)

Avec Xi représentant la variable PORTABLE
Yi/Xi=1=-2,202=> P(Yi/Xi=1)=0,0995
Yi/Xi=0=-0,395=>P(Yi/Xi=0)=0,4025
D’où
EMPORTABLE=0.0995-0.4025= -0.3029
La différence de probabilité entre posseder un climatiseur portable et ne pas le posséder est
0,3029.
La probabilité d’installer un climatiseur diminue de 30% lorsque l’individu possède un
climatiseur portable.
❖ Partie 2 : Thème 1 : Les modèles binaires (Logit et
Probit)
Une société interroge 200 personnes afin de connaitre si elles sont prêts a s’abonner a un
nouveau journal.
1) Statistiques Descriptives sur la Base de Données
1.1- Calcul de la moyenne, l’écart type, le minimum et le maximum pour l’ensemble des
variables continues de la base de données
Variable Moyenne Ecart Type Minimum Maximum
Age 42,52 8,6698 18 59
Sal 18615 7082,492 3678 35972
1.2- Calcul de la moyenne, l’écart type, le minimum et le maximum pour l’ensemble des
variables continues de la base de données selon le type d’abonnement
a) abo=0
age 40,27 6,7528 31 51
Sal 17654 7150,625 3678 35374
b) abo=1
age 44,39 9,6282 38 59
Sal 19418 6956,164 6296 35972
1.3- Un Tri à plat pour l’ensemble des variables qualitatives

a) sex
Sex n %
Femme 124 62
Homme 76 38
Total 200 100
b) abo
abo n %
Accep:(1) 109 54.5
Pas Accep:(0) 91 45.5
Total 200 100
c) sitfam
sitfam n %
Marié:(1) 101 50.5
Célibataire:
(2) 72 36
Divorcé:(3) 27 13.5
Total 200 100
d) soc
sitfam n %
Ouvrier 32 16
Employé 88 44
Cadre 80 40
Total 200 100
1.4- Tableau croisé entre les variables abonnement et sexe

abo
sex 0 1
Femme 54% 46%
68,40
Homme 31,60% %
D’après ce tableau, Seulement 46% des femmes veulent s’abonner alors qu’environ 68%
des hommes veulent s’abonner.
Test autocorrelation:
Test Chi-deux
a) Hypothèses
H₀: sex et abo sont indépendants
H₁ : sex et abo sont dépendants
b) Règle de décision
X-squared=8,6958
P-value=0,003189
p-value<0,05 alors on rejette H₀.
Donc, au risque de 5%, on peut affirmer qu’il y a corrélation entre les variables sex
et abo
2) Création de nouvelles variables

2.1) Explication sur les nouvelles variables créées
- Nabo : variable codée (1,0) 1 si l’individu veut s’abonner 0 sinon

- Femcod : variable codée (0,1) 1 si l’individu est une femme 0 sinon
- Homcod : variable codée (0,1) 1 si l’individu est un homme 0 sinon
- Mariecod : variable codée (0,1) 1 si l’individu est marié 0 sinon
- Celibacod : variable codée (0,1) 1 si l’individu est célibataire 0 sinon
- Divcod : variable codée (0,1) 1 si l’individu est divorcé 0 sinon
- Ouvcod : variable codée (0,1) 1 si l’individu est un ouvrier 0 sinon
- Emplcod : variable codée (0,1) 1 si l’individu est un employé 0 sinon
- Cadcod : variable codée (0,1) 1 si l’individu est un cadre 0 sinon
- Saldiv : variable qui correspond à la variable sal divisé par 1000
- Salcar : variable qui correspond à la variable sal au carré divisé par 100000
- Agecar : variable qui correspond au carré de la variable âge
- Logage : variable qui correspond au logarithme de la variable âge
- Urbcode : variable codée (0,1) 1 si l’individu habite en zone urbaine 0 sinon
- CroisUF : variable codée (0,1) 1 si l’individu est une femme qui habite en zone
urbaine 0 sinon
- CroisUH : variable codée (0,1) 1 si l’individu est un homme qui habite en zone
urbaine 0 sinon
(Se référer au fichier Excel pour voir la base de données complète: anciennes et
nouvelles variables)
2.2) Vérification, à l’aide de statistiques descriptives, que les nouvelles variables ont été
créé correctement
moyenn
Variable Min Max
e
nabo 0.455 0 1
femcod 0.6119 0 1
homcod 0.3781 0 1
mariecod 0.505 0 1
celibacod 0.36 0 1
divcod 0.135 0 1
ouvcod 0.398 0 1
emplcod 0.4378 0 1
cadcod 0.1592 0 1
saldiv 18.615 3.678 35.972
salcar 3964.4 135.3 12939.8
agecar 1883 324 3481
logage 3.720 2.890 4.078
urbcod 0.655 0 1
croisUF 0.415 0 1
croisUH 0.24 0 1
3) Estimation d’un modèle LOGIT
3.1) Estimation sans variable explicative (avec la constante seulement)

a) Sur la variable caractérisant l’abonnement
Les documents consultés ne nous permettent pas de faire cette partie
b) Sur la variable caractérisant la non abornement
Les documents consultés ne nous permettent pas de faire cette partie
3.2) Estimation avec variable explicative

a) 1 seule variable explicative : le sexe
Estimatio
Variable Ecart type t-student p-value
n
Intercept -0.1616 0.1802 -0.897 0.36969
sex 0.9348 0.3056 3.059 0.00222
Estimatio Ecart
Variable t-student p-value
n type
intercept 0.7732 0.2468 3.133 0.00173
femcod -0.9348 0.3056 -3.059 0.00222
Estimatio Ecart
Variable t-student p-value
n type
intercept -0.1616 0.10802 -0.897 0.36969
homcod 0.9348 0.3056 3.056 0.0022
La variable sex est significatif et seul le coefficient associé au paramètres de cette variable est
significatif et la valeur du paramètre est positive; autrement dit les individus qui sont de sexe
masculin ont une probabilité plus grande de s’abonner (car la régression sur le logiciel a
considéré directement la modalité homme comme étant égal à 1).
Il s’agit de la même idée qui se véhicule dans les 3 modèles : une femme a une probabilité
moins grande de s’abonner et un homme une probabilité plus grande de s’abonner.
Calcul de la probabilité moyenne de s’abonner

a) Pour un homme
abo= -0.1616+0.9348*0.3781
abo=0.1918
p(abo)=ᴧ(0.1918)=[1/[1+exp(-0.1918)]]= 0.548
La probabilité pour un homme de s’abonner est de 54,8%.

b) Pour une femme
abo= -0.1616+0.9348*0.6119
abo=0.41040
p(abo)=ᴧ(0.41040)=[1/[1+exp(-0.41040]]= 0.60
La probabilité pour une femme de s'abonner est 60%.
On constate que ces 2 derniers résultats diffèrent nettement des résultats de 1.4.
La probabilité moyenne estimée pour une femme de s’abonner dépasse celle pour un homme de
s’abonner. Alors qu’en 1.4 c’est l’inverse. De plus il y a de grands écarts entre les probabilités estimés
et les fréquences. Cela pourrait s’expliquer par une mauvaise spécification du modèle, peut-être qu’il
faudrait intégrer d’autres variables dans le modèle ou par le fait qu’il y a plus de femme que
d’hommes.
Calcul de l’effet marginal lié au sexe:

EMsex= P(Yi/Xi=1)-P(Yi /Xi=0)
EMsex=0,548-0,6
EMsex=-0,052
La différence de probabilité entre un homme et une femme est de 0,052.
c) Plusieurs variables
cas1 :
➢ avec les variables explicatives suivantes : sex, mariecod, divcod, ouvcod, emplcod,
urbcod, age, sal
Estimatio
Variable Ecart type t student p-value
n
0.08602
Intercept 2.124e+00 1.237e+00 -1.717 4
0.00280
sexe 1.141e+00 3.816e-01 2.989 1
0.01416
mariecod 1.209e+00 4.929e-01 2.453 8
0.36156
celibacod -4.820e-01 5.283e-01 -0.912 2
0.00651
ouvcod -1.753e+00 6.443e-01 -2.721 7
0.00025
emplcod -2.265e+00 6.186e-01 -3.662 1
0.68363
urbcode -1.486e-01 3.648e-01 -0.408 1
9.55e-
age 8.629e-02 2.211e-02 3.902 05
0.50044
sal -1.855e-05 2.753e-05 0.674 5
Les variables qui ont leurs paramètres significatifs sont: sex, mariecod, ouvrcod, emplcod,
age
Suivant leurs signes nous pouvons les interpréter ainsi:

La probabilité de s’abonner augmente lorsque l’individu est un homme, marié, n’est pas un
ouvrier, n’est pas un employé et est plus âgé
cas2 :
➢ avec les variables explicatives suivantes : sex, mariecod, celibcod,ouvcod, emplcod,

urbcod, age, saldiv
Estimatio
n
Intercept -2.12358 1.23697 -1.717 0.086024
sex 1.14055 0.38161 2.989 0.002801
mariecod 1.20914 0.49293 2.453 0.014168
celibacod -0.48205 0.52833 -0.912 0.361562
ouvcod -1.75291 0.64432 -2.721 0.006517
emplcod -2.26516 0.61862 -3.662 0.000251
urbcod -0.14865 0.36477 -0.408 0.683631
age 0.08629 0.02211 3.902 9.55e-05
saldiv -0.01855 0.02753 -0.674 0.500445
Les variables qui ont leurs paramètres significatifs sont: sex, mariecod, ouvrcod, emplcod, age
La probabilité de s’abonner augmente lorsque l’individu est un homme, marié, n’est pas un
ouvrier, n’est pas un employé et est plus âgé
cas3 :
➢ avec les variables explicatives suivantes : sex, mariecod, celibcod,ouvcod, cadcod,

urbcod, age, agecar, saldiv, salcar
Estimatio
n
16.973334
intercept 9 6.4097118 2.648 0.008095
sex 1.0203878 0.4067757 2.508 0.012125
mariecod 0.9201744 0.5174169 1.778 0.075338
celibacod -0.7646153 0.5815115 -1.315 0.188552
ouvcod -1.5893378 0.6846792 -2.321 0.020271
emplcod -2.2798889 0.6403991 -3.560 0.000371
urbcod -0.1508788 0.3894397 -0.387 0.698441
age -0.9119657 0.3134578 -2.909 0.003622
agecar 0.0120903 0.0038443 3.145 0.001661
saldiv 0.0878204 0.1356691 0.647 0.517429
salcar -0.0002430 0.0003136 -0.775 0.438270
Les variables qui ont leurs paramètres significatifs sont : sex, ouvcod, empl, age, agecar,
La probabilité de s’abonner augmente lorsque l’individu est un homme, n’est pas un ouvrier,
est moins âgé et a le carre de l’âge plus élevé.
cas4 :
➢ avec les variables explicatives suivantes : sex, mariecod, celibacod, ouvcod, cadcod,
urbcod, logage, log(sal)
Estimatio
n
intercept -10.5524 5.2733 -2.001 0.045381
sex 1.1393 0.3831 2.974 0.002940
mariecod 1.7211 0.4105 4.192 2.76e-05
divcod 0.4824 0.5223 0.924 0.355692
emplcod -0.4704 0.3888 -1.210 0.226252
cadcod 1.6911 0.6395 2.644 0.008182
urbcode -0.1317 0.3596 -0.366 0.714158
logage 3.0719 0.8607 3.569 0.000358
Log(sal) -0.2027 0.4904 -0.413 0.679370
Les variables qui ont leurs paramètres significatifs sont sex, mariecod, cad, logage
La probabilité de s’abonner augmente lorsque l’individu est un homme, marié, n’est , est un
cadre et a le logarithme de l’âge plus élevé.
o Analyser les résultats associés aux variables âge et salaire: la variable âge est toujours
significatif, cependant le signe d’estimation lié au paramètre varie suivant le modèle;
En ce qui concerne la variable salaire ses paramètres ne sont jamais significatifs quel
que soit l’un des 4 modèles considéré, il en est de même pour les transformations de la
variable salaire. Nous allons essayer de trouver une nouvelle façon d’introduire ces
deux variables dans un modèle
D'où le modèle suivant:
Aboᵢ= β₀+β₁age+β₂sal+Uᵢ
Le logiciel R fournit l’estimation du modèle logit :
Estimate Std. Error z value Pr(>|z|)

(Intercept) -1.798e+00 5.234e-01 -3.434 0.000594 ***
age 3.559e-02 1.072e-02 3.319 0.000904 ***
sal 2.203e-05 1.302e-05 1.691 0.090776 .
À 5% seul la variable age est significatif, à 10% toutes les variables sont significatifs
Inclure les variables croisées associées au sexe et à la localisation

(Intercept) -1.554e+00 5.600e-01 -2.776 0.00551 **
age 5.178e-02 1.199e-02 4.317 1.58e-05 ***
sal -1.145e-05 1.528e-05 -0.749 0.45368
femcod -5.988e-01 2.652e-01 -2.258 0.02394 *
cadcod 9.672e-01 3.087e-01 3.133 0.00173 **
croisUF -1.675e-01 2.540e-01 -0.660 0.50957
Seulement les variables suivantes ont leurs paramètres significatifs : age, femcod,
cadcod.

La probabilité de s’abonner augmente lorsque l’individu n’est pas une femme, est plus agé et
est un cadre. On pourrait conclure qu’au risque de 5% de se tromper il est fort probable que la
variable salaire ne soit pas significatif pour expliquer l’abonnement. Il en est de même pour la
variable croisUF qui n’est pas significative.
c) Estimer La probabilité moyenne de s’abonner pour :

o L’individu moyen de référence (en précisant ses caractéristiques)
Nous allons considérer le modèle du cas 2
Aboᵢ= -2.12358+1.14055sex+ 1.20914mariecod-0.48205celibacod -1.75291 ouvcod -2.26516
emplcod -0.14865 urbcod+0.08629 age -0.01855 saldiv
Les caractéristiques de l’individu moyen

sexhom=0,3781
celibacod=0,36
ouvcod=0,398
marieecod=0,505
age=42,52
urbcod=0,655
saldiv=18,615
emplcod=0.4378
Aboᵢ=0,281
Prob(Aboᵢ) =[1/(1+exp(-0,281)]
Prob(Aboᵢ)=0,569
o Un homme marie, cadre, age de 50 ans, vivant dans une zone rurale et percevant un
salaire de 30000 euro
Pour traiter cette question, nous allons considérer ce petit model logit estimé sur R
Aboᵢ= -2.885e+00 +1.019e+00mariecod+5.473e-02 age-1.059e-05 sal+7.496e-01

homcod+1.067e+00 cadcod -9.063e-02urbcod
Aboᵢ=2,3694
Prob(Aboᵢ) =[1/(1+exp(-2,3694)]
Prob(Aboᵢ) =0,914
d) Déterminer le profil de l’individu qui a :

(Ces probabilités ne seront pas estimées)
Pour répondre à cette question nous allons nous baser sur les résultats des signes des
paramètres estimés pour les différentes variables considérées dans l’étude. Pour les différentes
modèles estimées les variables ayant les paramètres significatives ont été : sex, age, sitfam et
soc. Suivant les signes des paramètres nous pouvons affirmer que :
o La probabilité plus grande de s’abonner
L’individu est un homme marié, qui est un cadre et qui a un age plutôt élevé.
o La probabilité plus petite de s’abonner
L’individu est une femme célibataire ou divorcé, qui est un employé ou un ouvrier et qui n’est
pas trop âgé.
4) Estimation d’un modèle PROBIT
a) Avec sexe comme variable explicative
Coefficients:
(Intercept) -0.1012 0.1128 -0.898 0.36925
sexHomme 0.5808 0.1876 3.096 0.00196 **
Le modèle estimé s’écrit :

Aboᵢ= -0.1012 + 0.5808 sex
Le paramètre associé à la variable sexe est significatif. Selon le signe, la probabilité d’abonner
augmente lorsqu’il s’agit d’un homme.
o La probabilité d’observer 1 pour les hommes
Aboᵢ= -0.1012 + 0.5808*1
Aboᵢ=0,4789
P(Aboᵢ)=0,6808
o La probabilité d’observer 1 pour les femmes
Aboᵢ= -0.1012 + 0.5808*0
Aboᵢ= -0,1012
P(Aboᵢ)=0,4602
On constate qu’il ya de grande cohérence entre ces résultats et ceux de la
table de fréquences de 1.4
b) Pour le dernier modèle

(Intercept) -6.65699 3.09813 -2.149 0.0317 *
sexHomme 0.66063 0.22263 2.967 0.0030 **
mariecod 1.01108 0.23595 4.285 1.83e-05 ***
divcod 0.25983 0.31281 0.831 0.4062
emplcod -0.31704 0.23130 -1.371 0.1705
cadcod 0.89910 0.36414 2.469 0.0135 *
urbcode -0.07536 0.21144 -0.356 0.7215
logage 1.94972 0.50085 3.893 9.91e-05 ***
log(sal) -0.12526 0.28991 -0.432 0.6657
Les paramètres des variables significatives suivant ce modèle sont : sex,mariecod, cadcod et
logage.
Suivant les signes de ces paramètres nous pouvons dire que : la probabilité de s’abonner
augmente lorsque l’individu est un homme marié est un cadre et a le logarithme de l’âge plus
élevé. Il s’agit approximativement des mê mêmes résultats,en terme de décision, trouvés avec
l’estimation logit.
Annexe
1) Codes R
getwd() #Identifier le repertoire de travail
dataf<-read.csv(file.choose(),header=T,sep=";",dec=",") #Importer la base de donnees depuis
le repertoire
View(dataf) #Voir la base importer
summary(dataf$age) #trouver moyenne,min,max de la variable age
summary(dataf$sal) #trouver moyenne,min,max de la variable sal
sd(dataf$age) #pour trouver ecart type age
sd(dataf$sal) # pour trouver ecart type sal
dat1<-subset(dataf,abo==1) #base avec abo=1

dat0<-subset(dataf,abo==0) #base avec abo=0
# tableau croise entre sex et abo

a<-table(dataf$sex,dataf$abo)
b<-prop.table(a,1)
round(b*100,1)
chisq.test(table(dataf$sex,dataf$abo)) #test chi-deux
#creation de nouvelles variables

nabo<-ifelse(datf$abo==0,1,0)
femcod<-ifelse(datf$sex=="Femme",1,0)
homcod<-ifelse(datf$sex=="Homme",1,0)
mariecod<-ifelse(datf$sitfam==1,1,0)
celibacod<-ifelse(datf$sitfam==2,1,0)
divcod<-ifelse(datf$sitfam==3,1,0)
ouvcod<-ifelse(datf$soc=="Ouvrier",1,0)
emplcod<-ifelse(datf$soc=="Employe",1,0)
cadcod<-ifelse(datf$soc=="Cadre",1,0)
saldiv<-datf$sal/1000
salcar<-(datf$sal^2)/100000
agecar<-datf$age^2
logage<-log(datf$age)
datf<-
cbind(datf,nabo,femcod,homcod,mariecod,celibacod,divcod,ouvcod,emplcod,cadcod,saldiv,sa
lcar,agecar,logage)
#Regression logistique
glm(formula = dat$abo ~ dat$sex, family = binomial)
reglog<-glm(dat$abo~dat$sex,family=binomial(link="logit"))
summary(reglog)
Call:
glm(formula = abo ~ sex + mariecod + celibacod + ouvcod + emplcod +
urbcode + age + sal, family = binomial(link = "logit"), data = dat)
glm(formula = abo ~ sex + mariecod + divcod + croisUF + emplcod +

cadcod + urbcode + age, family = binomial(link = "probit"),
data = dat)

Devoir 1

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Devoir 1

Transféré par

Droits d'auteur :

Formats disponibles

Centre de Techniques de Planification et

Devoir Econométrie des Variables Qualitatives

Préparé Par BERNARD Elauïne

Ensuite l’équation de la régression s’écrierait ainsi :

Inverce matrice X’X=

Les paramètres estimés=

○ La probabilité associée à Y la plus faible

○ La probabilité associée à Y la plus forte

○ Calcul de la probabilité qu’un ménage de 2 adultes avec un REVENU total égal à

2) on estime probabilité (Y=1) par un modèle logit

● La fonction de vraisemblance associée à ce modèle

1) Ecriture du modèle estimé :

2) Commentaire des résultats

3) Calcul de la probabilité qu’un ménage de 3 personnes en maison individuelle de

4) Calcul de l’Effet Marginal associé à la variable REVENU, au point moyen de

5) Calcul de l’Effet Marginal associé à la variable PORTABLE, au point moyen de

EM PORTABLE= P(Yi/Xi=1)-P(Yi /Xi=0)

1) Statistiques Descriptives sur la Base de Données

1.3- Un Tri à plat pour l’ensemble des variables qualitatives

1.4- Tableau croisé entre les variables abonnement et sexe

2) Création de nouvelles variables

- Nabo : variable codée (1,0) 1 si l’individu veut s’abonner 0 sinon

3) Estimation d’un modèle LOGIT

3.1) Estimation sans variable explicative (avec la constante seulement)

Les documents consultés ne nous permettent pas de faire cette partie

b) Sur la variable caractérisant la non abornement

Les documents consultés ne nous permettent pas de faire cette partie

3.2) Estimation avec variable explicative

Calcul de la probabilité moyenne de s’abonner

La probabilité pour un homme de s’abonner est de 54,8%.

La probabilité pour une femme de s'abonner est 60%.

Calcul de l’effet marginal lié au sexe:

La différence de probabilité entre un homme et une femme est de 0,052.

Suivant leurs signes nous pouvons les interpréter ainsi:

➢ avec les variables explicatives suivantes : sex, mariecod, celibcod,ouvcod, emplcod,

Suivant leurs signes nous pouvons les interpréter ainsi:

➢ avec les variables explicatives suivantes : sex, mariecod, celibcod,ouvcod, cadcod,

Suivant leurs signes nous pouvons les interpréter ainsi:

Suivant leurs signes nous pouvons les interpréter ainsi:

Estimate Std. Error z value Pr(>|z|)

Inclure les variables croisées associées au sexe et à la localisation

Estimate Std. Error z value Pr(>|z|)

Suivant leurs signes nous pouvons les interpréter ainsi:

c) Estimer La probabilité moyenne de s’abonner pour :

Les caractéristiques de l’individu moyen

Aboᵢ= -2.885e+00 +1.019e+00mariecod+5.473e-02 age-1.059e-05 sal+7.496e-01

d) Déterminer le profil de l’individu qui a :

o La probabilité plus grande de s’abonner

4) Estimation d’un modèle PROBIT

a) Avec sexe comme variable explicative

Le modèle estimé s’écrit :

Estimate Std. Error z value Pr(>|z|)

dat1<-subset(dataf,abo==1) #base avec abo=1

# tableau croise entre sex et abo

chisq.test(table(dataf$sex,dataf$abo)) #test chi-deux

#creation de nouvelles variables

glm(formula = dat$abo ~ dat$sex, family = binomial)

glm(formula = abo ~ sex + mariecod + divcod + croisUF + emplcod +

Vous aimerez peut-être aussi