Vous êtes sur la page 1sur 3

UNIVERSITE NATIONALE DES SCIENCES, TECHNOLOGIES, INGENIERIE ET

MATHEMATIQUES (UNSTIM)
ECOLE NATIONALE SUPERIEURE DE GENIE MATHEMATIQUE ET MODELISATION
(ENSGMM)

DEVOIR DE MODELISATION
STATISTIQUE
Niveau: Génie Mathématique et Modélisation 2
Année académique: 2020-2021
Durée: 3h
Il sera tenu compte de la qualité de la rédaction.
NB: Le corrigé-type sera disponible après la composition à l’adresse:
sites.google.com/view/nicodemeatchade/
Enseignant: Dr ATCHADE Nicodème

1 Compréhension du cours. (60 min)


1. Construire l’estimateur du coefficient θ pour les observations (X1 , Y1 ), ..., (Xn , Yn ) en con-
sidérant le modèle Yi = θ − θXi + i .

2. Après avoir donné la fonction de vraisemblance du modèle de régression de Poisson,


montrer que l’estimation du modèle est donnée par:
n  
X 1
s(α, β) = (yi − λi ) .
i=1
xi

3. L’estimation de l’équation Yi = β1 + β2 Xi + i par moindres carrés ordinaires a donné βˆ1


and βˆ2 . Trouver les estimateurs par moindres carrés ordinaires des coefficients γ1 and γ2
du modèle (Yi − Ȳ ) = γ1 + γ2 (Xi − X̄) + i .

4. La régression d’une variable aléatoire sur le numéro d’ordre des observations pour un
échantillon a été estimée: Yi = β1 + β2 i + i , i = 1, ..., n. Les i sont indépendantes,
E(i ) = 0, V (i ) = σ2 .

4.1. Est-ce vrai que βˆ2 = Yn −Y1


n−1
est un estimateur sans biais du paramètre β2 ? Trouver
var(βˆ2 ).
4.2. Pour quelle(s) valeur(s) de α, βˆ1 = αY2 − Y1 est un estimateur sans biais de β1 ?
Trouver var(βˆ1 ).

5. Quelles sont les hypothèses si violées conduisent à l’utilisation de la méthode des moindres
carrés généralisés ?

6. Expliquer brièvement par des formules la différence principale entre les modèles de régression
Ridge et LASSO.

7. Citer tout en distinguant les hypothèses stochastiques faibles des hypothèses fortes du
modèle linéaire.

8. Comment peut-on utiliser le VIF (Variance Inflation Factor) pour détecter un problème
et le résoudre dans un modèle de régression linéaire?

1
9. Soit le modèle Yi = θ0 + θ1 X1,i + θ2 X2,i + i . Les hypothèses classiques du modèle de
régression linéaire sont supposées vérifiées. var(2 ) = 6. Trouver:

9.1. var(5 ), cov(5 , 6 ), E(4 ), cov(5 , X2 );


9.2. les valeurs possibles du coefficient de détermination R2 du modèle X1,i = α1 +
α2 X2,i + νi ;
9.3. la fonction de densité de 4 .

10. Soit le modèle:


y = β1 x1 + β2 x2 + ε.
Un économètre estime que le coefficient β1 peut être estimé en appliquant la méthode des
moindres carrés ordinaires au modèle:

y = β1 x1 + ν.

Montrer que l’estimateur ainsi obtenu est sans biais dans les deux cas suivants:
- si β
P2 = 0;
- si i x1,i x2,i = 0.

11. Soit le modèle:


yi = βi xi + ui .
Montrer que pour ce modèle la relation suivante est vérifiée:
n
X n
X n
X
yi2 = ŷi2 + ε2i .
i=1 i=1 i=1

12. On a estimé le modèle de régresion du salaire (w) en fonction du nombre d’années de


scolarisation (sch), de l’ancienneté au travail (ten), de l’âge (age) et de son carré:

ˆ i = 2.13 + 0.07sch + 0.01teni + 0.05agei − 0.0005age2 + 0.1sexi .


lnw i

12.1. De combien de % le salaire des hommes excède celui des femmes toutes choses étant
égales par ailleurs ?
12.2. Déterminer l’âge auquel pour des caractéristiques données (sch, ten, sex), l’individu
peut espérer son salaire maximal.

2 Exercice 1. (45 min)


On considère le modèle de régression :

yi = θ0 + θ1 xi,1 + θ2 xi,2 + εi , 1 ≤ i ≤ n,

les xi,j étant des variables explicatives observées du modèle et les εi des v.a. i.i.d. de loi
2
N (0; σ
 ). On note eton calcule:
 
1 x1,1 x1,2 y1    
. . .  . 30 20 0 15
   
X = . . . , Y =  . ,⇒ X X = 20 20 0 , X Y = 20, Y 0 Y = 59.5.
   0   0 
. . .  . 0 0 10 10
1 xn,1 xn,2 yn

1. Déterminer n, la moyenne de (xi,2 )i , le coeffcient de corrélation des (xi,1 )i et des (xi,2 )i .

2
2. Calculer numériquement les estimateurs par moindres carrés ordinaires θb et σb2 de θ =
(θ0 , θ1 , θ2 )’ et de σ 2 . On montrera que kY − Xθk2 = kY k2 − kXθk2 .

3. Donner pour θ1 un intervalle de confiance à 95%. Tester également l’hypothèse


θ2 = 0.8 au niveau 10%. On utilisera des valeurs approchées des quantiles d’une loi de
Student q27 (0.975) = 2 et q27 (0.95) = 1.65.

4. Déterminer la moyenne empirique des yi et en déduire le coeffcient de détermination.

3 Exercice 2. (50 min)


Soit (Yi )1≤i≤n une famille de variables aléatoires définie par:
p
X (k)
Yi = θ0 + θk Zi + εi (1)
k=1

pour tout i ∈ {1, ..., n}, où:


0 (j)
θ = (θ0 , θ1 , ..., θp ) est un vecteur composé de p + 1 réels inconnus, pour 1 ≤ j ≤ p, les (Zi )1≤i≤n
(j) (0)
sont p familles de réels connues et la matrice X = (Zi )1≤i≤n,0≤j≤p , avec par définition Zi = 1
pour tout i = 1, ..., n. On suppose que X est de rang p + 1 ≤ n. La suite (εi )i est une suite de
v.a. i.i.d. de loi centrée et de variance σ 2 > 0. On note H = (Hij )ij = X(X 0 X)−1 X 0 .

1. On note Y = (Yi )1≤i≤n et ε = (εi )1≤i≤n . Ecrire le modèle (1) sous une forme vectorielle.

2. Rappeler l’expression de l’estimateur θ̂ de θ par moindres carrés ordinaires en fonction de


X et Y .
1
Pn 2
3. On note Ŷ = X θ̂, ε̂ = Y − Ŷ et ε̂2 = n−p−1 i=1 εˆi . Ecrire ε̂ en fonction de H et de ε.
En déduire E(ε̂) et cov(ε̂) en fonction de H et de σ 2 .
0
4. Soit le vecteur colonne Ji tel que Ji = (0, ..., 0, 1, 0, ..., 0) , le 1 se situant en i−ème
0
position. Calculer Ji ε̂. Ecrire var(ε̂i ) en fonction de Ji , H et σ 2 . En déduire que
var(ε̂i ) = (1 − Hii )σ 2 (on pourra utiliser la trace).

4 Exercice 3. (25 min)


1. On considère le modèle LPM (Linear Probability Model) suivant:
ˆ = 0.37 + 0.02Educ − 0.1City,
Sexe

n = 700; σ̂(0.02) = 0.011; σ̂(−0.1) = 0.046.


Le modèle exprime la dépendance du sexe (1-Male, 0-Female) du niveau d’éducation (en
années) et du milieu de résidence (1-urbain, 0-rural). Tester la significativité des variables
explicatives du modèle.

2. Prédire la variable dépendante pour un citadin ayant 15 ans d’éducation.

3. Interpréter les résultats.

Fin

Vous aimerez peut-être aussi