MATHEMATIQUES (UNSTIM)
ECOLE NATIONALE SUPERIEURE DE GENIE MATHEMATIQUE ET MODELISATION
(ENSGMM)
EXAMEN DE MODELISATION
STATISTIQUE
Niveau: Génie Mathématique et Modélisation 2
Année académique: 2020-2021
Durée: 3h
Il sera tenu compte de la qualité de la rédaction.
NB: Le corrigé-type sera disponible après la composition à l’adresse:
sites.google.com/view/nicodemeatchade/
Enseignant: Dr ATCHADE Nicodème
1 Exercice 1.
Soit (Yi )1≤i≤n une famille de variables aléatoires définie par:
p
X (k)
Yi = θ 0 + θk Zi + εi (1)
k=1
1. On note Y = (Yi )1≤i≤n et ε = (εi )1≤i≤n . Ecrire le modèle (1) sous une forme vectorielle
en précisant la loi de l’erreur ε et Σ = cov(ε).
2. Donner l’expression de la log-vraisemblance de (Y1 , ..., Yn ). En supposant σ12 et σ22 con-
nus, déterminer sous forme matricielle l’estimateur θ̂ par maximum de vraisemblance. En
supposant θ connu, déterminer explicitement les estimateurs σˆ12 et σˆ22 de σ12 et σ22 (respec-
tivement) par maximum de vraisemblance. Expliquer pourquoi une expression explicite
de l’estimateur par maximum de vraisemblance de θ, σ12 et σ22 n’est pas possible à obtenir
dans le cas général où θ, σ12 et σ22 sont inconnus.
3. On va estimer ces paramètres en 2 temps. On commence par estimer θ par moindres carrés
ordinaires, et on note θ̂ cet estimateur. Rappeler son expression, donner son espérance et
sa matrice de covariance.
4. On note Z1 (respectivement Z2 ) la matrice de taille (n, p + 1) dont les lignes de 1 à n1
(respectivement, de n1 +1 à n) sont celles de X, et les lignes de n1 +1 à n (respectivement,
de 1 à n1 ) sont constituées de 0. Montrer que pour tout U ∈ Rn , kX 0 XU k2 = kZ10 Z1 U k2 +
kZ20 Z2 U k2 . En déduire que max (kZ10 Z1 k, kZ20 Z2 k) ≤ kX 0 Xk.
1
5. Exprimer X 0 ΣX en fonction de σ1 , σ2 , Z1 et Z2 . En utilisant la question précédente
montrer que kcov(θ̂)k ≤ (σ12 + σ22 )k(X 0 X)−1 k et donner une condition pour que θ̂ →Pn→+∞
θ.
2 Exercice 2.
1. On considère le modèle LPM (Linear Probability Model) suivant:
ˆ = 0.37 + 0.02Educ − 0.1City,
Sexe
2. Une régression multiple à base des données des 39 pays a été réalisée avec R. Les résultats
numériques sont les suivants:
> summary(MLModel)
Call:
lm(formula = HDI ~ Health + Services, data = MR)
Residuals:
Min 1Q Median 3Q Max
2
-5.2868 -1.9177 0.5024 1.7812 4.4184
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 64.3123 ? ? 5.94e-16 ***
Health 0.6300 ? ? 0.000678 ***
Services 0.2538 ? 3.739 0.000641 ***
---
Signif. codes:
0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 2.625 on 36 degrees of freedom
Multiple R-squared: 0.5194,Adjusted R-squared: 0.4927
F-statistic: ? on 2 and 36 DF, p-value: 1.873e-06
Retrouver toutes les données manquantes sachant que la matrice (X 0 X)−1 est donnée par:
Fin