Vous êtes sur la page 1sur 27

CENTRE DE TECHNIQUES DE

PLANIFICATION
ET D’ECONOMIE APPLIQUEE
CTPEA

COURS : ECONOMETRIE DES VARIABLES


QUALITATIVES

Devoir 1

Classe : 4ème Année

Rédigé par : Wisnel MATHURIN

Professeur : Septimus Wilner PIERRE

Le 13/09/2020
PREMIERE PARTIE
Exercice 1 : On s'intéresse à la distribution des revenus salariaux dans la population, en fonction
des secteurs d'activité. Les travailleurs sont répartis en 4 secteurs :
Secteur Effectif Moyenne des revenus
Industrie 1165 22.65
Services 582 16.64
Transport 333 19.51
Autres 1224 18.31
Tous secteurs 3304 19.67

La variable « secteur d’activité » est une variable explicative du revenu. D’où :


REVENUEi = 𝛽0+ 𝛽1SECTi +𝜀𝑖 , i=1,2,…N où la variable de secteur est multinomiale et codée
comme suit :
1 𝑠𝑖 𝑠𝑒𝑟𝑣𝑖𝑐𝑒𝑠;
2 𝑠𝑖 𝑡𝑟𝑎𝑛𝑠𝑝𝑜𝑟𝑡;
SECTi={
3 𝑠𝑖 𝐼𝑛𝑑𝑢𝑠𝑡𝑟𝑖𝑒;
0 𝑠𝑖 𝑎𝑢𝑡𝑟𝑒𝑠;
L'équation de régression estimée est: REVENUi=17.46+1.53SECTi

1. Calculons les moyennes des revenus par secteur à partir de cette estimation et comparons avec
les données fournies :
1.1. Pour i=1 (secteur services) :
REVENU1=17.46+1.53SECT1 ⟹ REVENU1=17.46+1.53∗1 ⟹REVENU1= 18.99

1.2. Pour i=2 (secteur transport) :


REVENU2=17.46+1.53SECT2 ⟹ REVENU2=17.46+1.53∗2 ⟹REVENU2= 20.52

1.3. Pour i=3 (secteur industrie) :


REVENU3=17.46+1.53SECT3 ⟹ REVENU3=17.46+1.53∗3 ⟹REVENU3= 22.05

1.4. Pour i=0 (autres secteurs):


REVENU0=17.46+1.53SECT0 ⟹ REVENU0=17.46+1.53∗3 ⟹REVENU0= 17.46
Il y a un grand écart entre les valeurs fournies et celles estimées des moyennes. On constate que
la valeur d’une moyenne ne dépend que du codage qui était au départ arbitraire, car on attribue
des scores aux modalités sans aucune justification sérieuse.

1
2) Il aurait dû recoder les modalités de la variable « Secteur d’activité » en les attribuant les
valeurs de 0 et de 1 et faire une estimation par la méthode MCO des coefficients du modèle
linéaire en excluant l’une des modalités afin d’éviter des problèmes de multicolinéarité. Dans ce
qui suit, on choisit d’exclure la modalité « autres » :
Ainsi, REVENUi = 𝛽0 + 𝛽1 SECT1i + 𝛽2 SECT2i + 𝛽3 SECT3i + 𝑢𝑖
Avec :

1 𝑠𝑖 𝑠𝑒𝑟𝑣𝑖𝑐𝑒𝑠; 1 𝑠𝑖 𝑡𝑟𝑎𝑛𝑠𝑝𝑜𝑟𝑡;
SECT1i = { SECT2i = {
0 𝑠𝑖𝑛𝑜𝑛; 0 𝑠𝑖𝑛𝑜𝑛;
1 𝑠𝑖 𝑖𝑛𝑑𝑢𝑠𝑡𝑟𝑖𝑒;
SECT3i = {
0 𝑠𝑖𝑛𝑜𝑛;

𝛽 = (𝑋′𝑋)−1 𝑋′𝑌
En faisant les calculs sur Excel, on obtient :
18.318
−1.678
𝛽 = 1.192
4.332
( )
L’équation estimée est donc :
̂ 𝑖 = 18.318 − 1.678SECT1i + 1.192SECT2i + 4.332SECT3i
REVENU

Exercice 2 :
QVOD : quantité de vodka consommée par personne et par jour, en litres ;
REVENU : revenu mensuel du ménage ramené au nombre de personnes adultes du ménage, en
105 roubles ;
PVOD : prix du litre de vodka au détail, en 102 roubles

1 𝑠𝑖 𝑄𝑉𝑂𝐷𝑖 > 1
Le modèle s’écrit :Yi = {
0 𝑠𝑖𝑛𝑜𝑛
1 𝑠𝑖 𝑌 ∗ > 0
Y= { avec 𝑌𝑖∗ = 𝑄𝑉𝑂𝐷𝑖 - 1
0 𝑠𝑖𝑛𝑜𝑛

2
1)- Un modèle à probabilité linéaire est estimé et l’équation de régression estimée est :
𝑌 ∗ 𝑖 = 0.2461 + 0.5009REVENUi - 0.1289PVODi
1.1- Calculons la probabilité prédite associée à Y avec la moyenne des régresseurs

P(Yi=1/Xi)= E(Yi/Xi)=Xi𝛽̂
D’où : P(Yi=1/Xi)=0.2461+0.5009 × 0.0326 – 0.1289 × 0.3727
⇒ P(Yi=1/Xi) = 0.2144

1.2- Calculons la probabilité prédite associée à Y la plus faible :

Sur Excel, on calcule toutes les valeurs possibles de Xi𝛽̂ pour les questions 1.2 et 2.2

P(Yi=1/Xi)= min[E(Yi/Xi)]=min(Xi𝛽̂ ) ⇒ P(Yi=1/Xi) = -0.4499


1.3- Calculons la probabilité prédite associe à Y la plus forte :

P(Yi=1/Xi)= max[E(Yi/Xi)] =max(Xi𝛽̂ ) ⇒ P(Yi=1/Xi) =0.3742


1.4- Nous pouvons constater que la probabilité associée à Y la plus faible est négative
(P(Yi=1/Xi) = -0.4499). Ce qui parait absurde. C’est d’ailleurs l’une des principales
limites du modèle à probabilité linéaire.

1.5- Calculons la probabilité qu'un ménage de 2 adultes avec un revenu total égal à 10 000
roubles achète plus de 1 litre de vodka par jour au prix de 45 roubles par litre :
REVENU= 10000/(2× 105)
REVENU = 0.05
PVOD= 45/102
PVOD=0.45

P(Yi=1/Xi)= E(Yi/Xi)=Xi𝛽̂
D’où P(Yi=1|Xi)= 0.2461+0.5009 × 0.05– 0.1289 × 0.45
P(Yi=1|Xi) = 0.21314

3
2. La probabilité que Y = 1 est estimée par un modèle Logit, dont les résultats sont :
Variable Estimation Ecart-type t de Student p-value
Constante -0.1721 0.2334 -0.73 0.4609
REVENU 5.9483 2.6182 2.27 0.0231
PVOD -4.7353 0.8899 -5.32 0.0001

Le modèle peut donc s’écrire sous la forme :


1 𝑠𝑖 𝑄𝑉𝑂𝐷 > 1
Y= {
0 𝑠𝑖𝑛𝑜𝑛
𝑠𝑖 𝑌 ∗ > 0
Y= { avec 𝑌 ∗ = QVOD -1
0 𝑠𝑖𝑛𝑜𝑛

2.1) - Ecrivons avec précision le modèle estimé ainsi que la fonction de vraisemblance associée à
ce modèle :
𝑌𝑖 ∗ = -0.1721 + 5.9389REVENUi – 4.7353PVODi

La fonction de vraisemblance peut s’écrire sous la forme de :


𝑁

ℒ(𝛽) = ∏[1 − Λ(𝑋𝑖 𝛽)]1−𝑌𝑖 [(Λ(𝑋𝑖 𝛽)]𝑌𝑖


𝑖=1

1 exp(𝑋 𝛽)
ℒ(𝛽)= ∏𝑁
𝑖=1[1+exp(𝑋 𝛽)]
1−𝑌𝑖
[1+exp(𝑋𝑖 𝛽)]𝑌𝑖
𝑖 𝑖

ℒ(𝛽)=
1 exp(−𝑜.1721+5.9389𝑅𝐸𝑉𝐸𝑁𝑈 −4.7353𝑃𝑉𝑂𝐷 ))
∏1078
𝑖=1 [ ]1−𝑌𝑖 [1+exp(−𝑜.1721+5.9389𝑅𝐸𝑉𝐸𝑁𝑈𝑖 −4.7353𝑃𝑉𝑂𝐷𝑖 ))]𝑌𝑖
1+exp(−𝑜.1721+5.9389𝑅𝐸𝑉𝐸𝑁𝑈𝑖 −4.7353𝑃𝑉𝑂𝐷𝑖 ) 𝑖 𝑖

2.2) - Calculons la probabilité que le ménage décrit à la question 1.5 achète plus de 1 litre de
vodka.

P(Yi=1/Xi)= E(Yi/Xi)=Λ(Xi𝛽̂ )

Trouvons Xi𝛽̂ :

Xi𝛽̂ = -0.1721 + 5.9389REVENUi – 4.7353PVODi

Xi𝛽̂ = -0.1721 + 5.9389× 0.05 – 4.7353× 0.45

4
Xi𝛽̂ = -2.0060

D’où, P(Yi=1/Xi)= E(Yi/Xi)=Λ(Xi𝛽̂ ) ⇒ P(Yi=1\Xi)= Λ(−2.0060)


1
Puisque par définition, on a : Λ(Z) = 1+exp(−𝑍)

1
P(Yi=1/Xi) = 1+exp(2.0060) ⇒ P(Yi=1/Xi)= 0.11857

2.3) - Calculons l'effet marginal associé à la variable revenu pour un ménage vérifiant les
caractéristiques définies en 1.5 ou 2.2.
Pour le modèle avec probabilité linéaire, on calcule l’effet marginal associé à la variable
« revenu » de la manière suivante :

𝜕𝑌̂
EM=𝜕𝑋𝑖 = 𝛽̂𝑗
𝑗𝑖

𝜕(0.2461 + 0.5009REVENU − 0.1289PVOD)


EM= = 0.5009
𝜕𝑅𝐸𝑉𝐸𝑁𝑈

Pour le modèle Logit, on calcule l’effet marginal associé à la variable « revenu » de la manière
suivante :

EM= 𝛽̂𝑗 × f(Xi𝛽̂ ) avec f(Xi𝛽̂ ) =λ(Xi𝛽̂ )

Trouvons f(Xi𝛽̂ )
exp(𝑧)
f(Xi𝛽̂ ) =λ(Xi𝛽̂ ) = (1+exp(𝑍))2

f(Xi𝛽̂ ) =λ(−2.0060)= 0.10145


D’où : EM= 0.5009 × 0.10145
EM = 0.05082

Exercice 3 :
CENTRAL : indicatrice égale à 1 si le ménage est équipé d'une climatisation.
PORTABLE : indicatrice égale à 1 si le ménage est équipé d'un climatiseur mobile.
REVENU : revenu annuel du ménage exprimé en logarithme.
NBFOYER : nombre de personnes du ménage.

5
TAILLE : surface de l'habitation.
MAISON : indicatrice égale à 1 si le ménage réside en logement individuel.

L'objectif de cette étude est d'étudier l'impact des variables socioéconomiques relatives au
ménage sur la probabilité d'installer une climatisation (CENTRAL) :

Ecrivons le modèle estimé :


Le modèle peut s’écrire de la forme suivante :
1 𝑠𝑖 𝑌 ∗ 𝑖 > 0
CENTRALi= {
0 𝑠𝑖𝑛𝑜𝑛
𝑌𝑖∗ = 𝛽0+ 𝛽1PORTABLEi + 𝛽2REVENUi + 𝛽3 NBFOYERi + 𝛽4 TAILLEi + 𝛽5MAISONi + 𝜀𝑖
,i=1,2,…N
A partir des données du tableau, l’équation de régression estimée par le modèle Logit est :

𝑌̂𝑖∗ = - 12,04714 - 1,806437PORTABLEi + 1,158715REVENUi - 0,064585NBFOYERi +


0,001099TAILLEi - 0,494055MAISONi

2) - Commentons avec précision les résultats obtenus :


A partir du tableau des résultats, on peut constater que les variables : TAILLE, REVENU,
PORTABLE et même la constante sont statistiquement significatifs avec 𝛼 = 5%. Ce qui veut dire
que ces trois variables peuvent expliquer la variable CENTRAL. Les variables MAISON et
NBFOYER ne sont pas statistiquement significatifs. De plus, les paramètres associés aux variables
TAILLE et REVENU sont positifs et les autres négatifs. Ce qui montre que les variables TAILLE
et REVENU ont une corrélation positive avec 𝑌𝑖∗ et les autres ont une corrélation négative avec 𝑌𝑖∗
.
3) - Calculons la probabilité qu'un ménage de 3 personnes en maison individuelle de revenu 10,
de taille d'habitation 1360 et ne possédant pas de climatiseur portable installe une climatisation :
NBFOYER=3 ; REVENU=10 ; TAILLE= 1360 ; PORTABLE=0

P(Yi=1/Xi)=E(Yi/Xi)= Λ(Xi𝛽̂ )

Trouvons Xi𝛽̂ :

Xi𝛽̂ = - 12.04714 – 1.806437PORTABLEi + 1.158715REVENUi – 0.064585NBFOYERi +


0.001099TAILLEi - 0.494055MAISONi

Xi𝛽̂ = - 12.04714 – 1.806437× 0 + 1.158715 × 10 – 0.064585 × 3 + 0.001099 × 1360 -


0.494055× 1.
6
Xi𝛽̂ = 0.34684
1
D’où P(Yi=1/Xi)= Λ(0.34684) ⇒ P(Yi=1/Xi)= ⇒ P(Yi=1/Xi)= 0.58585
1+exp(−0.34684)

Pour un ménage de 3 personnes en maison individuelle possédant un revenu 10, de taille


d’habitation 1360 et ne possédant pas de climatiseur portable, la probabilité d’installer une
climatisation est de 0.58585

4) Calculons l'effet marginal associé à la variable « revenu », au point moyen de


l'échantillon, à partir de l'estimation Logit

EM= 𝛽̂𝑗 × f(Xi𝛽̂ ) avec f(Xi𝛽̂ ) =λ(Xi𝛽̂ )

Trouvons f(Xi𝛽̂ )
exp(𝑧)
f(Xi𝛽̂ ) =λ(Xi𝛽̂ ) = (1+exp(𝑍))2

trouvons Xi𝛽̂

Xi𝛽̂ = - 12.04714 – 1.806437× 0.3942 + 1.158715× 9.3176 - 0.064585× 3.1752 + 0.001099×


1367.6788 - 0.494055 × 0.8467

Xi𝛽̂ = -1.0831
f(Xi𝛽̂ )= λ(−1.0831)
f(Xi𝛽̂ )= 0.18895
EM= 1.158715 × 0.18895
EM= 0.21893

Pour l’individu en question, la probabilité d’installer une climatisation va augmenter de 21.893


point de %) suite à une augmentation du revenu moyen d’une unité.

5) Calculons l'effet marginal associé à la variable PORTABLE, au point moyen de


l'échantillon.
EM=𝑃(𝐶𝐸𝑁𝑇𝑅𝐴𝐿 = 1/ PORTABLE = 1,REVENU=R0
NBFOYER=N0,TAILLE=T0,MAISON=M0) – 𝑃(𝐶𝐸𝑁𝑇𝑅𝐴𝐿 = 0/ PORTABLE =
1,REVENU=R0 NBFOYER=N0,TAILLE=T0,MAISON=M0) , les valeurs R0, N0, T0, M0 étant
fixées
EM= Λ( - 12.04714 – 1.806437× 1 + 1.158715× 9.3176 - 0.064585× 3.1752 + 0.001099×
1367.6788 - 0.494055 × 0.8467) - Λ( - 12.04714 – 1.806437× 0 + 1.158715× 9.3176 -
0.064585× 3.1752 + 0.001099× 1367.6788 - 0.494055 × 0.8467)

7
EM = Λ(-2.17744178)- Λ(1.449189994)
EM = 0.10179- 0.40829
EM= -0.3065
Cela indique que le fait qu’un ménage possède un climatiseur mobile, à lui seul, diminue la
probabilité d’installer un climatiseur fixe de 30.65%.

DEUXIEME PARTIE
Une société interroge 200 personnes afin de connaître s'ils sont prêts à s'abonner à un nouveau
journal.
Les variables sont les suivantes:

8
 sex : est une chaîne de caractères prenant les valeurs Homme ou Femme
 age : l’âge exprimé en année est une variable quantitative.
 abo : est qualitative binaire, elle prend la valeur 1 si la personne accepte de s'abonner 0
sinon. C’est notre variable d’intérêt (variable à expliquer).
 sitfam : caractérise la situation familiale elle est qualitative et prend 3 modalités (1,2,3),
respectivement marié, célibataire, divorcé
 soc : l'appartenance à une classe sociale (ouvrier, employé, cadre) est elle aussi
qualitative à 3 modalités mais est définie comme une chaîne de caractères.
 zau : codée de 1 à 7 caractérise la localisation géographique des individus (les valeurs de
1 à 3 caractérisent des pôles de localisation urbaine tandis que les valeurs comprises entre
4 et 7 caractérisent des pôles de localisation plutôt ruraux). Le degré de codage dépend de
la densité de population et de la migration travail-domicile.
 sal : le salaire annuel exprimé en euros.

1)- Statistiques descriptives sur la base de données


Pour cette deuxième partie, on a utilisé le logiciel R.
Pour importer la base de donnée sur R et la rendre disponible pour l’exploiter, on a utilisé les
lignes de code suivantes :

1.1) Calculons la moyenne, l’écart-type, le minimum et le maximum pour l’ensemble des


variables continues du fichier de la base :

La moyenne, l’écart-type, le minimum et le maximum pour l’ensemble des variables continue sont
donnés en utilisant les fonctions summary et sd. Aussi, les résultats sont présentés dans le tableau
suivant :

variables moyenne Ecart-type minimum maximum

age 44 8.6698 18 59
sal 18615.19 7082.49 3678 35972

9
1.2) Calculer la moyenne, l’écart-type, le minimum et le maximum pour les variables continues
selon le type d’abonnement :

variables Type moyenne Ecart- minimum maximum


d’abonnements type
(abo)
age 1 44.394 9.6282 18 59
0 40.274 6.7528 31 51
sal 1 19418.06 6956.164 6296 35972
0 17653.52 7150.625 3678 35374

1.3- Après avoir donné les principales statistiques descriptives, réalisons un tri à plat pour
l’ensemble des variables qualitatives.
a) Pour la variable sexe on a :

10
b) Pour la variable classe sociale on a :

c) Pour la variable abo on a :

d) Pour la variable situation familiale on a :

e) Pour la variable zau on a :

11
1.4- Faisons un tableau croisé (avec un test de corrélation) entre les variables d’abonnement et le
sexe. En déduire le pourcentage d’hommes et de femmes prêts à s’abonner.

D’après le tableau croisé réalisé, environ 54% de femmes n’ont pas accepter de s’abonner
contre 46% qui ont accepté de s’abonner. De plus, 31.58% des hommes n’ont pas accepté de
s’abonner contre 68.42% qui ont accepté de s’abonner.

Réalisation du test de corrélation


Avant le test, on a transformé la variable sexe en variable binaire (0,1).

Puisque le p-value associé au test est inférieur à 5%, on conclut qu’il existe une liaison entre la
variable sexe et la variable abo. Avec une faible corrélation entre les 2 variables. (r =0.2188).

12
2)-Création de nouvelles variables
2.1)- Compléter la base de données initiale par les variables suivantes :
une variable prenant la valeur 1 lorsque l’individu ne désire pas s’abonner,
des variables dichotomiques associées à la variable caractérisant le sexe,
des variables dichotomiques associées à la variable caractérisant la situation familiale,

13
des variables dichotomiques associées à la variable caractérisant la CSP,
une variable prenant la valeur 1 lorsque l’individu vie en zone urbaine,
des variables caractérisant le croisement entre la zone géographique (zone urbaine) et le
sexe,
une variable égale au salaire divisé par 1000,
une variable égale au salaire au carré divisé par 100000,
une variable égale au carré de l’âge,
une variable égale au logarithme de l’âge.

Les nouvelles variables sont créées à l’aide des lignes de code suivantes :

Vérifions que ces variables ont été correctement créées :

14
D’où toutes les nouvelles variables ont été créées.

3.)- Estimation d’un modèle Logit


3.1-Estimation sans variable explicative (avec la constante seulement)
Sur la variable caractérisant l’abonnement (variable d’origine)
En considérant la variable abo comme variable à expliquer, sans variable explicative, le
modèle peut s’écrire comme suit :

abo={ 1 𝑠𝑖 𝑌𝑖 > 0 avec Yi*= b+ 𝜀 i où Yi* est : le seuil de tolérance, b étant une constante
0 𝑠𝑖𝑛𝑜𝑛
Sur la variable caractérisant le non abonnement
En considérant la variable nabo comme variable à expliquer, sans variable explicative, le
modèle peut s’écrire comme suit :


nabo={ 1 𝑠𝑖 𝑌𝑖 > 0 avec Yi*= b+ 𝜀 i: le seuil de tolérance, b étant une constante
0 𝑠𝑖𝑛𝑜𝑛

Précisons les hypothèses retenues :


Les deux modèles étant des modèles Logit, alors on gardera comme hypothèses :
1-E(𝜀 i)=0
𝜋
2-V(𝜀 i)=3
3- 𝜀 i iid

Estimons le modèle Logit en considérant la variable abo, variable dépendante et sans variable
explicative :

15
L’équation de régression estimée s’écrit comme suit :𝑌̂𝑖 *=0.1805.

Calculons la probabilité moyenne estimée de s’abonner :


La probabilité de s’abonner est donc : P(abo= 1/ 𝑌𝑖 ∗ > 0)= 0.545

Estimons le modèle Logit en considérant la variable nabo, variable dépendante et sans variable
explicative :

16
L’équation de régression estimée s’écrit comme suit :𝑌̂𝑖 *=-0.1805.
Calculons la probabilité moyenne estimée de s’abonner :
La probabilité de s’abonner est donc : P(nabo= 1/ 𝑌𝑖 ∗ > 0)= 0.455

3.2- Estimation avec variables explicatives


Une seule variable explicative : le sexe
Le modèle s’écrit sous la forme suivante :


abo={1 𝑠𝑖 𝑌𝑖 > 0 avec, Yi*=𝛽0 + 𝛽1 𝑠𝑒𝑥𝑓𝑒𝑚 + 𝜀 i , Yi* : le seuil de tolérance
0 𝑠𝑖𝑛𝑜𝑛
Les résultats de l’estimation sur R sont :

17
L’équation estimée s’écrit donc :𝑌̂*=0.7732-0.9348sexfem. La variable « sexfem » ainsi que la
constante sont statistiquement significatifs. Puisque le paramètre associé à la variable « sexfem »
est négatif, on peut dire que lorsque l’individu i est une femme, sa chance d’accepter de s’abonner
diminue. En outre, la probabilité moyenne pour une femme de s’abonner est 0.4597 alors que la
probabilité moyenne pour un homme de s’abonner est de 0.6842. En comparant ces probabilités
aux proportions de femmes et d’hommes qui ont acceptés de s’abonner à la question 1.4, 0n
constate qu’elles sont respectivement égales.

La probabilité qu’un homme accepte de s’abonner est 2.1667 fois plus grande que celle de ne pas
s’abonner alors que pour les femmes, la probabilité de s’abonner est 0.8507 fois plus petite que
celle de ne pas s’abonner.

18
- Plusieurs variables
Inclure dans la modélisation les variables associées au sexe, à la situation familiale, à la
situation professionnelle, à la zone d’habitation et
Premier cas : à l’age et au salaire :

Le modèle s’écrit sous la forme suivante :


1 𝑠𝑖 𝑌 ∗ 𝑖 > 0
abo={ avec, Yi*=𝛽0 + 𝛽1 𝑠𝑒𝑥𝑓𝑒𝑚 + 𝛽2 𝑚𝑎𝑟𝑖𝑒𝑖 + 𝛽3 𝑐𝑒𝑙𝑖𝑏𝑖 + 𝛽4 𝑐𝑎𝑑𝑟𝑒𝑖 +
0 𝑠𝑖𝑛𝑜𝑛
𝛽5 𝑒𝑚𝑝𝑙𝑜𝑦𝑒𝑖 + 𝛽6 𝑢𝑟𝑏𝑎𝑖𝑛𝑖 + 𝛽7 𝑎𝑔𝑒𝑖 + 𝛽8 𝑠𝑎𝑙𝑖 + 𝜀i , Y* : le seuil de tolérance

Les variables sexfem, marie, cadre et la constante sont statistiquement significatifs avec un seuil
de significativité 𝛼 =5%. Puisque les paramètres associés aux variables age, marie, cadre sont
positifs, on peut dire que lorsque l’âge de l’individu est élevé ou/et l’individu est un cadre ou/et
marié la probabilité que l’individu s’abonne s’élève.

Deuxième cas : l’âge et le salaire divisés par 1000

Le modèle s’écrit sous la forme suivante :

19
1 𝑠𝑖 𝑌 ∗ 𝑖 > 0
abo={ avec, Yi*=𝛽0 + 𝛽1 𝑠𝑒𝑥𝑓𝑒𝑚 + 𝛽2 𝑚𝑎𝑟𝑖𝑒𝑖 + 𝛽3 𝑐𝑒𝑙𝑖𝑏𝑖 + 𝛽4 𝑐𝑎𝑑𝑟𝑒𝑖 +
0 𝑠𝑖𝑛𝑜𝑛
𝛽5 𝑒𝑚𝑝𝑙𝑜𝑦𝑒𝑖 + 𝛽6 𝑢𝑟𝑏𝑎𝑖𝑛𝑖 + 𝛽7 𝑎𝑔𝑒𝑖 + 𝛽8 𝑠𝑎𝑙𝑖 + 𝜀i , Y* : le seuil de tolérance

Troisieme cas : à l’âge, l’âge au carré, au salaire divisé par 1000 et au salaire au carré divisé
par 100000
Le modèle s’écrit sous la forme suivante :
1 𝑠𝑖 𝑌 ∗ 𝑖 > 0
abo={ avec, Yi*=𝛽0 + 𝛽1 𝑠𝑒𝑥𝑓𝑒𝑚 + 𝛽2 𝑚𝑎𝑟𝑖𝑒𝑖 + 𝛽3 𝑐𝑒𝑙𝑖𝑏𝑖 + 𝛽4 𝑐𝑎𝑑𝑟𝑒𝑖 +
0 𝑠𝑖𝑛𝑜𝑛
𝛽5 𝑒𝑚𝑝𝑙𝑜𝑦𝑒𝑖 + 𝛽6 𝑢𝑟𝑏𝑎𝑖𝑛𝑖 + 𝛽7 𝑎𝑔𝑒𝑖 + 𝛽8 𝑎𝑔𝑒𝑐𝑎𝑟𝑖 + 𝛽9 𝑠𝑎𝑙𝑚𝑖 + 𝛽10 𝑠𝑎𝑙𝑐𝑎𝑟𝑖 + 𝜀i , Y* : le
seuil de tolérance

Quatrième cas : au logarithme de l’âge et au logarithme du salaire

Le modèle s’écrit sous la forme suivante :

20
1 𝑠𝑖 𝑌 ∗ 𝑖 > 0
abo={ avec, Yi*=𝛽0 + 𝛽1 𝑠𝑒𝑥𝑓𝑒𝑚 + 𝛽2 𝑚𝑎𝑟𝑖𝑒𝑖 + 𝛽3 𝑐𝑒𝑙𝑖𝑏𝑖 + 𝛽4 𝑐𝑎𝑑𝑟𝑒𝑖 +
0 𝑠𝑖𝑛𝑜𝑛
𝛽5 𝑒𝑚𝑝𝑙𝑜𝑦𝑒𝑖 + 𝛽6 𝑢𝑟𝑏𝑎𝑖𝑛𝑖 + 𝛽7 𝑎𝑔𝑒𝑙𝑜𝑔𝑖 + 𝛽8 𝑙𝑜𝑔𝑠𝑎𝑙𝑖 + 𝜀 i , Y* : le seuil de tolérance

Après avoir analyser les résultats associés aux variables âge et salaire, trouvons une nouvelle façon
d’introduire ces variables dans la modélisation :

Nous avons analysé les résultats associés à ces variables dans le 3eme cas. Essayons de trouver une
nouvelle façon d’introduire ces variables dans la modélisation.
Pour ce faire, nous avons créé 3 variables à partir de la variable âge et 4 variables à partir de la
variable salaire en considérant les quantiles.

21
1- Estimation du nouveau modèle

Le modèle s’écrit sous la forme suivante :


1 𝑠𝑖 𝑌 ∗ 𝑖 > 0
abo={ avec, Yi*=𝛽0 + 𝛽1 𝑠𝑒𝑥𝑓𝑒𝑚 + 𝛽2 𝑚𝑎𝑟𝑖𝑒𝑖 + 𝛽3 𝑐𝑒𝑙𝑖𝑏𝑖 + 𝛽4 𝑐𝑎𝑑𝑟𝑒𝑖 +
0 𝑠𝑖𝑛𝑜𝑛
𝛽5 𝑒𝑚𝑝𝑙𝑜𝑦𝑒𝑖 + 𝛽6 𝑢𝑟𝑏𝑎𝑖𝑛𝑖 + 𝛽7 𝑎𝑔𝑒45𝑖 + 𝛽8 𝑎𝑔𝑒60𝑖 + 𝛽9 𝑠𝑎𝑙21𝑖 + 𝛽10 𝑠𝑎𝑙28𝑖 +
𝛽11 𝑠𝑎𝑙𝑠𝑢𝑝𝑖 + 𝜀 i , Y* : le seuil de tolérance

Les lignes de code utilisees pour l’estimation :

22
2- Incluons les variables croisées associées au sexe et à la localisation :

Testons la significativité des paramètres associés à la variable Cadre et l’égalité des


paramètres associés à la variable être une femme :

D’après les résultats ci-dessus, on conclut que les paramètres associés aux variables être une femme sont
égales (p-value=0.43599 > 0.05 et le paramètre associé à la variable cadre est statistiquement non nul (p-
value = 0.01837<0.05).

23
c) Estimons (sous R) la probabilité moyenne de s’abonner pour :
1. L’individu « moyen » de référence (en précisant ses caractéristiques)

Considérons le modèle estimé pour le 3 eme cas :

Pour un homme âgé de 42.5 ans non marié, ni célibataire, ni cadre, ni employé, vivant dans
la zone urbaine ayant un salaire de 18615, la probabilité moyenne de s’abonner est de
0.5314.
Pour un homme, marié, cadre, âgé de 50 ans, vivant dans une zone rurale et percevant un
salaire annuel de 30000 € la probabilité moyenne de s’abonner est de 0.9818.

Trouvons le profil de l’individu qui a :


 la probabilité la plus grande de s’abonner
 la probabilité la plus faible de s’abonner

Un homme cadre et marié âgé de 18 ans ayant un salaire divisé par 1000 de 24.204 a la
plus grande probabilité moyenne de s’abonner (p=0.9992)
Une femme employée, célibataire âgée de 35 ans ayant un salaire divisé par 1000 de 3.678
a la plus faible probabilité moyenne de s’abonner (p=0.526)

24
4.- Estimation du modèle Probit

Pour le modèle avec le sexe seulement, calculons les probabilités d’observer 1 pour les hommes
et pour les femmes à partir :

Le modèle s’écrit sous la forme suivante :


1 𝑠𝑖 𝑌𝑖 ∗ > 0
abo ={ avec, Yi*=𝛽0 + 𝛽1 𝑠𝑒𝑥𝑓𝑒𝑚 + 𝜀 i , Yi* :le seuil de tolérance
0 𝑠𝑖𝑛𝑜𝑛
Les résultats de l’estimation sur R sont :

La probabilité d’observer 1 pour les hommes est de 0.6842 alors que la probabilité d’observer 1
pour les femmes est de 0.4597.

√3
Vérifions la relation 𝛽𝑝𝑟𝑜𝑏𝑖𝑡 ≈ 𝛽𝑙𝑜𝑔𝑖𝑡 entre le modèle probit et le modèle Logit :
𝜋

𝜋 √3
𝛽̂ 𝑙𝑜𝑔𝑖𝑡 3 = (0.7732
0.9348
)× 𝜋

25
𝜋
𝛽̂ 𝑙𝑜𝑔𝑖𝑡 3 = (0.4265
0.5156
)
0.4795
𝛽̂ 𝑝𝑟𝑜𝑏𝑖𝑡= ( 0.5808
)
𝜋
D’où : 𝛽̂ 𝑝𝑟𝑜𝑏𝑖𝑡 ≈ 𝛽̂ 𝑙𝑜𝑔𝑖𝑡 3 au dixième près.

Estimation du modèle probit en considérant le 3 eme cas :

Le modèle s’écrit sous la forme suivante :

1 𝑠𝑖 𝑌 ∗ 𝑖 > 0
abo={ avec, Yi*=𝛽0 + 𝛽1 𝑠𝑒𝑥𝑓𝑒𝑚 + 𝛽2 𝑚𝑎𝑟𝑖𝑒𝑖 + 𝛽3 𝑐𝑒𝑙𝑖𝑏𝑖 + 𝛽4 𝑐𝑎𝑑𝑟𝑒𝑖 +
0 𝑠𝑖𝑛𝑜𝑛
𝛽5 𝑒𝑚𝑝𝑙𝑜𝑦𝑒𝑖 + 𝛽6 𝑢𝑟𝑏𝑎𝑖𝑛𝑖 + 𝛽7 𝑎𝑔𝑒𝑖 + 𝛽8 𝑎𝑔𝑒𝑐𝑎𝑟𝑖 + 𝛽9 𝑠𝑎𝑙𝑚𝑖 + 𝛽10 𝑠𝑎𝑙𝑐𝑎𝑟𝑖 + 𝜀i , Y* : le
seuil de tolérance

Les paramètres associées aux variables sexfem , age, agecar, cadre, sont statistiquement
significatifs avec 𝛼 = 5%. Puisque les paramètres associés aux variables agecar, marie, salm sont
positifs, on conclut que les variables agecar, marie, salm ont une corrélation positive avec la
variable abo. Ainsi, si l’individu i est marié, a un âge au carré élevé, un salaire sur 1000 élevé, la
probabilité qu’il accepte augmente. Par contre, le fait qu’il soit une femme diminue la probabilité
d’abonnement.

26

Vous aimerez peut-être aussi