Vous êtes sur la page 1sur 21

Centre de Techniques de Planification et

d’Economie Appliquée
(CTPEA)

Devoir Econométrie des Variables Qualitatives

Préparé Par BERNARD Elauïne


❖ Partie 1 : Dossier 1 : Tarification non linéaire

● Exercice 1
L’équation de régression estimée est :
REVENUᵢ=17,46+1,53SECTᵢ

1) Calcul des moyennes des revenus des secteurs à partir de cette estimation
o Industrie : SECTᵢ=3
REVENU=17,46+1,53*3=22,05
o Service : SECTᵢ=1
REVENU=17,46+1,53*1=18,99
o Transport : SECTᵢ=2
REVENU=17,46+1,53*2=20,52
o Autres : SECTᵢ=0
REVENU=17,46+1,53*0=17,46
Nous constatons qu’il y a un écart considérable entre les valeurs calculées à partir de
l’équation de régression estimée et les valeurs fournies dans le tableau des données.
2) Pour réaliser la régression l’analyste aurait dû :
Tout d’abord codée 3 des 4 modalités de la variable Secteur. Ici en codant les
modalités Industrie, Service, Transport. Nous aurions eu dans ce cas :
o Industrie (1,0) : 1 si l’individu provient du secteur Industrie. 0 Sinon
o Service (1,0) : 1 si l’individu provient du secteur Service. 0 Sinon
o Transport (1,0) : 1 si l’individu provient du secteur Transport. 0 Sinon

Ensuite l’équation de la régression s’écrierait ainsi :


REVENUᵢ=β₀+β₁SERVICEᵢ +β₂TRANSPORTᵢ+ β₃INDUSTRIEᵢ+ + Uᵢ
Finalement en estimant l’équation de régression par la méthode suivant on trouve les
parametres
moy
des
revenu REVENU
Secteur Effectif s' E ecart
Industrie 1165 22,65 22,05 0,6
services 582 16,64 18,99 -2,35
Transport 333 19,51 20,52 -1,01
Autres 1224 18,31 17,46 0,85
Tous
Secteurs 3304 19,67
19,277
5

Matrice X’X=
3304 582 333 1165
582 582 0 0
333 0 333 0
1165 0 0 1165

Ybar=
16,64
19,51
22,65

Inverce matrice X’X=


-
0,00081 - 0,00081 -
7 0,000817 7 0,000817
-
0,00081 0,002535 0,00081
7 2 7 0,000817
-
0,00081
7 0,000817 0,00382 0,000817
-
0,00081 0,00081 0,001675
7 0,000817 7 4

Sum XIYI=
64989,6
8
9684,48
6496,83
26387,2
5

Les paramètres estimés=


18,31790
8
-
1,677908
1,192091
5
4,332091
5

● Exercice 2
Yᵢ est un indicateur de consommation excessive
Yᵢ= {1si QVOD>1, 0 Sinon
1) L’équation de la régression estimée par MCO est :
Yᵢ=0,2461+0,5009REVENUᵢ-0,1289*PVOD
○ Calcul de la probabilité prédite associée à la moyenne des régresseurs
Ỹᵢ=0,2461+0,5009*0,0326-0,1289*0,3727
Ỹᵢ=0,21438

○ La probabilité associée à Y la plus faible

Ỹᵢ=0,2461+0,5009*0,001-0,1289*0,12
Ỹᵢ=0,231

○ La probabilité associée à Y la plus forte

Ỹᵢ=0,2461+0,5009*0,2866-0,1289*5,4
Ỹᵢ=-0,3064

○ Constat
L’une des probabilité est négative.
Or une probabilité ne peut pas être négative. Donc le modèle n’est pas adapté.

○ Calcul de la probabilité qu’un ménage de 2 adultes avec un REVENU total égal à


10000 roubles achète plus d’un litre de vodka par jour au prix de 45 roubles par litre.
REVENU=47,62 (après transformation)
PVOD=0,44 (après transformation)
Ỹᵢ=0,2461+0,5009*47,62-0,1289*0,44
Ỹᵢ=24,036
Une probabilité est comprise entre 0 et 1 or celle-ci vaut 24, ce qui montre une fois de
plus que le modèle n’est pas adapté.

2) on estime probabilité (Y=1) par un modèle logit


● Le modèle estimé

Ỹᵢ=-0,1721+5,9483REVENU-4,7353PVOD

● La fonction de vraisemblance associée à ce modèle


● La probabilité que le ménage décrit en 1.5 achète plus d’un litre de vodka

Ỹᵢ=-0,1721+5,9483*47,62-4,7353*0,44
Ỹᵢ= 281
Prob(Yi)=[1/(1+exp(-281)]
Prob(Yi)= 1

● Calcul de l'effet marginal du revenu pour l’individu avec les caractéristiques 2.2
EMrevenu=5,9483*f(Yi)
EMREVENU=5,9483*[exp(281)/(1+exp(281))^2]
EMREVENU= (pas de résultat)

● Exercice 3

1) Ecriture du modèle estimé :


Ỹᵢ=-12,04714-0,64585NBFOYER+0,001099TAILLE+1,158715REVENU-
0,494055MAISON-1,806437PORTABLE

2) Commentaire des résultats


D’après le tableau d’estimation des paramètres, 3 des 5 paramètres associés aux variables
sont significatifs. Ce sont ces paramètres significatifs que nous allons commenter.
- TAILLE
Le coefficient est significatif et positif
Toutes choses étant égales par ailleurs, la probabilité d’installer une climatisation augmente
avec la surface de l’habitation.
- REVENU
Le coefficient est significatif et positif
Toutes choses étant égales par ailleurs, la probabilité d’installer une climatisation augmente
avec le revenu.
- PORTABLE
Le coefficient est significatif et négatif
Toutes choses étant égales par ailleurs, les ménages qui sont équipés d’un climatiseur mobile
ont une probabilité moins grande d’installer une climatisation.

3) Calcul de la probabilité qu’un ménage de 3 personnes en maison individuelle de


revenu 10, de taille d’habitation 1360 et ne possédant pas de climatiseur potable
installe une climatisation.
NBFOYER=3, MAISON=1, REVENU=10, TAILLE=1360, PORTABLE=0
Ỹᵢ=-12,04714-0,064585*3+0,001099*1360+1,158715*10-0,494055*1-1,806437*0=0,34684
(Ỹᵢ)= ᴧ (0.34684)=0.585

4) Calcul de l’Effet Marginal associé à la variable REVENU, au point moyen de


l’échantillon à partir de l’estimation logit.
EM REVENU=β₃* f(Ỹᵢ)
Ỹᵢ=-12,04714-0,064585*3,1752+0,001099*1367,6788+1,158715*9,3176-0,494055*0,8967-
1,806437*0,3942=-1,1078
f(Ỹᵢ)= [exp(Yi)]/[(1+exp(Yi)) ^2]
f(Yi)= 0,07486

EM REVENU=1,158715*0,07486
EM REVENU= 0,08674
Pour l’individu moyen la probabilité d'installer une climatisation va augmenter de 8,67 point
suite à une augmentation du revenu moyen d’une unité.

5) Calcul de l’Effet Marginal associé à la variable PORTABLE, au point moyen de


l’échantillon

EM PORTABLE= P(Yi/Xi=1)-P(Yi /Xi=0)


Avec Xi représentant la variable PORTABLE
Yi/Xi=1=-2,202=> P(Yi/Xi=1)=0,0995
Yi/Xi=0=-0,395=>P(Yi/Xi=0)=0,4025

D’où
EMPORTABLE=0.0995-0.4025= -0.3029
La différence de probabilité entre posseder un climatiseur portable et ne pas le posséder est
0,3029.
La probabilité d’installer un climatiseur diminue de 30% lorsque l’individu possède un
climatiseur portable.
❖ Partie 2 : Thème 1 : Les modèles binaires (Logit et
Probit)
Une société interroge 200 personnes afin de connaitre si elles sont prêts a s’abonner a un
nouveau journal.

1) Statistiques Descriptives sur la Base de Données

1.1- Calcul de la moyenne, l’écart type, le minimum et le maximum pour l’ensemble des
variables continues de la base de données
Variable Moyenne Ecart Type Minimum Maximum
Age 42,52 8,6698 18 59
Sal 18615 7082,492 3678 35972

1.2- Calcul de la moyenne, l’écart type, le minimum et le maximum pour l’ensemble des
variables continues de la base de données selon le type d’abonnement

a) abo=0
Variable Moyenne Ecart Type Minimum Maximum
age 40,27 6,7528 31 51
Sal 17654 7150,625 3678 35374

b) abo=1
Variable Moyenne Ecart Type Minimum Maximum
age 44,39 9,6282 38 59
Sal 19418 6956,164 6296 35972

1.3- Un Tri à plat pour l’ensemble des variables qualitatives


a) sex
Sex n %
Femme 124 62
Homme 76 38
Total 200 100

b) abo
abo n %
Accep:(1) 109 54.5
Pas Accep:(0) 91 45.5
Total 200 100

c) sitfam
sitfam n %
Marié:(1) 101 50.5
Célibataire:
(2) 72 36
Divorcé:(3) 27 13.5
Total 200 100

d) soc
sitfam n %
Ouvrier 32 16
Employé 88 44
Cadre 80 40
Total 200 100

1.4- Tableau croisé entre les variables abonnement et sexe


abo
sex 0 1
Femme 54% 46%
68,40
Homme 31,60% %

D’après ce tableau, Seulement 46% des femmes veulent s’abonner alors qu’environ 68%
des hommes veulent s’abonner.

Test autocorrelation:
Test Chi-deux
a) Hypothèses
H₀: sex et abo sont indépendants
H₁ : sex et abo sont dépendants

b) Règle de décision

X-squared=8,6958
P-value=0,003189
p-value<0,05 alors on rejette H₀.
Donc, au risque de 5%, on peut affirmer qu’il y a corrélation entre les variables sex
et abo

2) Création de nouvelles variables


2.1) Explication sur les nouvelles variables créées

- Nabo : variable codée (1,0) 1 si l’individu veut s’abonner 0 sinon


- Femcod : variable codée (0,1) 1 si l’individu est une femme 0 sinon
- Homcod : variable codée (0,1) 1 si l’individu est un homme 0 sinon
- Mariecod : variable codée (0,1) 1 si l’individu est marié 0 sinon
- Celibacod : variable codée (0,1) 1 si l’individu est célibataire 0 sinon
- Divcod : variable codée (0,1) 1 si l’individu est divorcé 0 sinon
- Ouvcod : variable codée (0,1) 1 si l’individu est un ouvrier 0 sinon
- Emplcod : variable codée (0,1) 1 si l’individu est un employé 0 sinon
- Cadcod : variable codée (0,1) 1 si l’individu est un cadre 0 sinon
- Saldiv : variable qui correspond à la variable sal divisé par 1000
- Salcar : variable qui correspond à la variable sal au carré divisé par 100000
- Agecar : variable qui correspond au carré de la variable âge
- Logage : variable qui correspond au logarithme de la variable âge
- Urbcode : variable codée (0,1) 1 si l’individu habite en zone urbaine 0 sinon
- CroisUF : variable codée (0,1) 1 si l’individu est une femme qui habite en zone
urbaine 0 sinon
- CroisUH : variable codée (0,1) 1 si l’individu est un homme qui habite en zone
urbaine 0 sinon

(Se référer au fichier Excel pour voir la base de données complète: anciennes et
nouvelles variables)

2.2) Vérification, à l’aide de statistiques descriptives, que les nouvelles variables ont été
créé correctement

moyenn
Variable Min Max
e
nabo 0.455 0 1
femcod 0.6119 0 1
homcod 0.3781 0 1
mariecod 0.505 0 1
celibacod 0.36 0 1
divcod 0.135 0 1
ouvcod 0.398 0 1
emplcod 0.4378 0 1
cadcod 0.1592 0 1
saldiv 18.615 3.678 35.972
salcar 3964.4 135.3 12939.8
agecar 1883 324 3481
logage 3.720 2.890 4.078
urbcod 0.655 0 1
croisUF 0.415 0 1
croisUH 0.24 0 1

3) Estimation d’un modèle LOGIT

3.1) Estimation sans variable explicative (avec la constante seulement)


a) Sur la variable caractérisant l’abonnement

Les documents consultés ne nous permettent pas de faire cette partie

b) Sur la variable caractérisant la non abornement

Les documents consultés ne nous permettent pas de faire cette partie

3.2) Estimation avec variable explicative


a) 1 seule variable explicative : le sexe

Estimatio
Variable Ecart type t-student p-value
n
Intercept -0.1616 0.1802 -0.897 0.36969
sex 0.9348 0.3056 3.059 0.00222
Estimatio Ecart
Variable t-student p-value
n type
intercept 0.7732 0.2468 3.133 0.00173
femcod -0.9348 0.3056 -3.059 0.00222

Estimatio Ecart
Variable t-student p-value
n type
intercept -0.1616 0.10802 -0.897 0.36969
homcod 0.9348 0.3056 3.056 0.0022

La variable sex est significatif et seul le coefficient associé au paramètres de cette variable est
significatif et la valeur du paramètre est positive; autrement dit les individus qui sont de sexe
masculin ont une probabilité plus grande de s’abonner (car la régression sur le logiciel a
considéré directement la modalité homme comme étant égal à 1).

Il s’agit de la même idée qui se véhicule dans les 3 modèles : une femme a une probabilité
moins grande de s’abonner et un homme une probabilité plus grande de s’abonner.

Calcul de la probabilité moyenne de s’abonner


a) Pour un homme

abo= -0.1616+0.9348*0.3781

abo=0.1918

p(abo)=ᴧ(0.1918)=[1/[1+exp(-0.1918)]]= 0.548

La probabilité pour un homme de s’abonner est de 54,8%.


b) Pour une femme

abo= -0.1616+0.9348*0.6119

abo=0.41040

p(abo)=ᴧ(0.41040)=[1/[1+exp(-0.41040]]= 0.60

La probabilité pour une femme de s'abonner est 60%.

On constate que ces 2 derniers résultats diffèrent nettement des résultats de 1.4.

La probabilité moyenne estimée pour une femme de s’abonner dépasse celle pour un homme de
s’abonner. Alors qu’en 1.4 c’est l’inverse. De plus il y a de grands écarts entre les probabilités estimés
et les fréquences. Cela pourrait s’expliquer par une mauvaise spécification du modèle, peut-être qu’il
faudrait intégrer d’autres variables dans le modèle ou par le fait qu’il y a plus de femme que
d’hommes.

Calcul de l’effet marginal lié au sexe:


EMsex= P(Yi/Xi=1)-P(Yi /Xi=0)
EMsex=0,548-0,6

EMsex=-0,052

La différence de probabilité entre un homme et une femme est de 0,052.

c) Plusieurs variables

cas1 :

➢ avec les variables explicatives suivantes : sex, mariecod, divcod, ouvcod, emplcod,
urbcod, age, sal

Estimatio
Variable Ecart type t student p-value
n
0.08602
Intercept 2.124e+00 1.237e+00 -1.717 4
0.00280
sexe 1.141e+00 3.816e-01 2.989 1
0.01416
mariecod 1.209e+00 4.929e-01 2.453 8
0.36156
celibacod -4.820e-01 5.283e-01 -0.912 2
0.00651
ouvcod -1.753e+00 6.443e-01 -2.721 7
0.00025
emplcod -2.265e+00 6.186e-01 -3.662 1
0.68363
urbcode -1.486e-01 3.648e-01 -0.408 1
9.55e-
age 8.629e-02 2.211e-02 3.902 05
0.50044
sal -1.855e-05 2.753e-05 0.674 5

Les variables qui ont leurs paramètres significatifs sont: sex, mariecod, ouvrcod, emplcod,
age

Suivant leurs signes nous pouvons les interpréter ainsi:


La probabilité de s’abonner augmente lorsque l’individu est un homme, marié, n’est pas un
ouvrier, n’est pas un employé et est plus âgé

cas2 :

➢ avec les variables explicatives suivantes : sex, mariecod, celibcod,ouvcod, emplcod,


urbcod, age, saldiv

Estimatio
Variable Ecart type t student p-value
n
Intercept -2.12358 1.23697 -1.717 0.086024
sex 1.14055 0.38161 2.989 0.002801
mariecod 1.20914 0.49293 2.453 0.014168
celibacod -0.48205 0.52833 -0.912 0.361562
ouvcod -1.75291 0.64432 -2.721 0.006517
emplcod -2.26516 0.61862 -3.662 0.000251
urbcod -0.14865 0.36477 -0.408 0.683631
age 0.08629 0.02211 3.902 9.55e-05
saldiv -0.01855 0.02753 -0.674 0.500445

Les variables qui ont leurs paramètres significatifs sont: sex, mariecod, ouvrcod, emplcod, age

Suivant leurs signes nous pouvons les interpréter ainsi:

La probabilité de s’abonner augmente lorsque l’individu est un homme, marié, n’est pas un
ouvrier, n’est pas un employé et est plus âgé

cas3 :

➢ avec les variables explicatives suivantes : sex, mariecod, celibcod,ouvcod, cadcod,


urbcod, age, agecar, saldiv, salcar

Estimatio
Variable Ecart type t student p-value
n
16.973334
intercept 9 6.4097118 2.648 0.008095
sex 1.0203878 0.4067757 2.508 0.012125
mariecod 0.9201744 0.5174169 1.778 0.075338
celibacod -0.7646153 0.5815115 -1.315 0.188552
ouvcod -1.5893378 0.6846792 -2.321 0.020271
emplcod -2.2798889 0.6403991 -3.560 0.000371
urbcod -0.1508788 0.3894397 -0.387 0.698441
age -0.9119657 0.3134578 -2.909 0.003622
agecar 0.0120903 0.0038443 3.145 0.001661
saldiv 0.0878204 0.1356691 0.647 0.517429
salcar -0.0002430 0.0003136 -0.775 0.438270

Les variables qui ont leurs paramètres significatifs sont : sex, ouvcod, empl, age, agecar,

Suivant leurs signes nous pouvons les interpréter ainsi:

La probabilité de s’abonner augmente lorsque l’individu est un homme, n’est pas un ouvrier,
est moins âgé et a le carre de l’âge plus élevé.

cas4 :

➢ avec les variables explicatives suivantes : sex, mariecod, celibacod, ouvcod, cadcod,
urbcod, logage, log(sal)

Estimatio
Variable Ecart type t student p-value
n
intercept -10.5524 5.2733 -2.001 0.045381
sex 1.1393 0.3831 2.974 0.002940
mariecod 1.7211 0.4105 4.192 2.76e-05
divcod 0.4824 0.5223 0.924 0.355692
emplcod -0.4704 0.3888 -1.210 0.226252
cadcod 1.6911 0.6395 2.644 0.008182
urbcode -0.1317 0.3596 -0.366 0.714158
logage 3.0719 0.8607 3.569 0.000358
Log(sal) -0.2027 0.4904 -0.413 0.679370

Les variables qui ont leurs paramètres significatifs sont sex, mariecod, cad, logage

Suivant leurs signes nous pouvons les interpréter ainsi:

La probabilité de s’abonner augmente lorsque l’individu est un homme, marié, n’est , est un
cadre et a le logarithme de l’âge plus élevé.

o Analyser les résultats associés aux variables âge et salaire: la variable âge est toujours
significatif, cependant le signe d’estimation lié au paramètre varie suivant le modèle;
En ce qui concerne la variable salaire ses paramètres ne sont jamais significatifs quel
que soit l’un des 4 modèles considéré, il en est de même pour les transformations de la
variable salaire. Nous allons essayer de trouver une nouvelle façon d’introduire ces
deux variables dans un modèle
D'où le modèle suivant:
Aboᵢ= β₀+β₁age+β₂sal+Uᵢ
Le logiciel R fournit l’estimation du modèle logit :

Estimate Std. Error z value Pr(>|z|)


(Intercept) -1.798e+00 5.234e-01 -3.434 0.000594 ***
age 3.559e-02 1.072e-02 3.319 0.000904 ***
sal 2.203e-05 1.302e-05 1.691 0.090776 .

À 5% seul la variable age est significatif, à 10% toutes les variables sont significatifs

Inclure les variables croisées associées au sexe et à la localisation

Estimate Std. Error z value Pr(>|z|)


(Intercept) -1.554e+00 5.600e-01 -2.776 0.00551 **
age 5.178e-02 1.199e-02 4.317 1.58e-05 ***
sal -1.145e-05 1.528e-05 -0.749 0.45368
femcod -5.988e-01 2.652e-01 -2.258 0.02394 *
cadcod 9.672e-01 3.087e-01 3.133 0.00173 **
croisUF -1.675e-01 2.540e-01 -0.660 0.50957

Seulement les variables suivantes ont leurs paramètres significatifs : age, femcod,
cadcod.

Suivant leurs signes nous pouvons les interpréter ainsi:


La probabilité de s’abonner augmente lorsque l’individu n’est pas une femme, est plus agé et
est un cadre. On pourrait conclure qu’au risque de 5% de se tromper il est fort probable que la
variable salaire ne soit pas significatif pour expliquer l’abonnement. Il en est de même pour la
variable croisUF qui n’est pas significative.

c) Estimer La probabilité moyenne de s’abonner pour :


o L’individu moyen de référence (en précisant ses caractéristiques)
Nous allons considérer le modèle du cas 2
Aboᵢ= -2.12358+1.14055sex+ 1.20914mariecod-0.48205celibacod -1.75291 ouvcod -2.26516
emplcod -0.14865 urbcod+0.08629 age -0.01855 saldiv

Les caractéristiques de l’individu moyen


sexhom=0,3781
celibacod=0,36
ouvcod=0,398
marieecod=0,505
age=42,52
urbcod=0,655
saldiv=18,615
emplcod=0.4378

Aboᵢ=0,281

Prob(Aboᵢ) =[1/(1+exp(-0,281)]

Prob(Aboᵢ)=0,569
o Un homme marie, cadre, age de 50 ans, vivant dans une zone rurale et percevant un
salaire de 30000 euro

Pour traiter cette question, nous allons considérer ce petit model logit estimé sur R

Aboᵢ= -2.885e+00 +1.019e+00mariecod+5.473e-02 age-1.059e-05 sal+7.496e-01


homcod+1.067e+00 cadcod -9.063e-02urbcod

Aboᵢ=2,3694

Prob(Aboᵢ) =[1/(1+exp(-2,3694)]

Prob(Aboᵢ) =0,914

d) Déterminer le profil de l’individu qui a :


(Ces probabilités ne seront pas estimées)

Pour répondre à cette question nous allons nous baser sur les résultats des signes des
paramètres estimés pour les différentes variables considérées dans l’étude. Pour les différentes
modèles estimées les variables ayant les paramètres significatives ont été : sex, age, sitfam et
soc. Suivant les signes des paramètres nous pouvons affirmer que :

o La probabilité plus grande de s’abonner

L’individu est un homme marié, qui est un cadre et qui a un age plutôt élevé.
o La probabilité plus petite de s’abonner

L’individu est une femme célibataire ou divorcé, qui est un employé ou un ouvrier et qui n’est
pas trop âgé.

4) Estimation d’un modèle PROBIT

a) Avec sexe comme variable explicative

Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.1012 0.1128 -0.898 0.36925
sexHomme 0.5808 0.1876 3.096 0.00196 **

Le modèle estimé s’écrit :


Aboᵢ= -0.1012 + 0.5808 sex
Le paramètre associé à la variable sexe est significatif. Selon le signe, la probabilité d’abonner
augmente lorsqu’il s’agit d’un homme.
o La probabilité d’observer 1 pour les hommes
Aboᵢ= -0.1012 + 0.5808*1
Aboᵢ=0,4789
P(Aboᵢ)=0,6808
o La probabilité d’observer 1 pour les femmes
Aboᵢ= -0.1012 + 0.5808*0
Aboᵢ= -0,1012
P(Aboᵢ)=0,4602
On constate qu’il ya de grande cohérence entre ces résultats et ceux de la
table de fréquences de 1.4
b) Pour le dernier modèle

Estimate Std. Error z value Pr(>|z|)


(Intercept) -6.65699 3.09813 -2.149 0.0317 *
sexHomme 0.66063 0.22263 2.967 0.0030 **
mariecod 1.01108 0.23595 4.285 1.83e-05 ***
divcod 0.25983 0.31281 0.831 0.4062
emplcod -0.31704 0.23130 -1.371 0.1705
cadcod 0.89910 0.36414 2.469 0.0135 *
urbcode -0.07536 0.21144 -0.356 0.7215
logage 1.94972 0.50085 3.893 9.91e-05 ***
log(sal) -0.12526 0.28991 -0.432 0.6657
Les paramètres des variables significatives suivant ce modèle sont : sex,mariecod, cadcod et
logage.
Suivant les signes de ces paramètres nous pouvons dire que : la probabilité de s’abonner
augmente lorsque l’individu est un homme marié est un cadre et a le logarithme de l’âge plus
élevé. Il s’agit approximativement des mê mêmes résultats,en terme de décision, trouvés avec
l’estimation logit.

Annexe
1) Codes R
getwd() #Identifier le repertoire de travail
dataf<-read.csv(file.choose(),header=T,sep=";",dec=",") #Importer la base de donnees depuis
le repertoire
View(dataf) #Voir la base importer
summary(dataf$age) #trouver moyenne,min,max de la variable age
summary(dataf$sal) #trouver moyenne,min,max de la variable sal
sd(dataf$age) #pour trouver ecart type age
sd(dataf$sal) # pour trouver ecart type sal

dat1<-subset(dataf,abo==1) #base avec abo=1


dat0<-subset(dataf,abo==0) #base avec abo=0

# tableau croise entre sex et abo


a<-table(dataf$sex,dataf$abo)
b<-prop.table(a,1)
round(b*100,1)

chisq.test(table(dataf$sex,dataf$abo)) #test chi-deux

#creation de nouvelles variables


nabo<-ifelse(datf$abo==0,1,0)
femcod<-ifelse(datf$sex=="Femme",1,0)
homcod<-ifelse(datf$sex=="Homme",1,0)
mariecod<-ifelse(datf$sitfam==1,1,0)
celibacod<-ifelse(datf$sitfam==2,1,0)
divcod<-ifelse(datf$sitfam==3,1,0)
ouvcod<-ifelse(datf$soc=="Ouvrier",1,0)
emplcod<-ifelse(datf$soc=="Employe",1,0)
cadcod<-ifelse(datf$soc=="Cadre",1,0)
saldiv<-datf$sal/1000
salcar<-(datf$sal^2)/100000
agecar<-datf$age^2
logage<-log(datf$age)
datf<-
cbind(datf,nabo,femcod,homcod,mariecod,celibacod,divcod,ouvcod,emplcod,cadcod,saldiv,sa
lcar,agecar,logage)

#Regression logistique

glm(formula = dat$abo ~ dat$sex, family = binomial)

reglog<-glm(dat$abo~dat$sex,family=binomial(link="logit"))
summary(reglog)
Call:
glm(formula = abo ~ sex + mariecod + celibacod + ouvcod + emplcod +
urbcode + age + sal, family = binomial(link = "logit"), data = dat)

glm(formula = abo ~ sex + mariecod + divcod + croisUF + emplcod +


cadcod + urbcode + age, family = binomial(link = "probit"),
data = dat)

Vous aimerez peut-être aussi