Vous êtes sur la page 1sur 3

UNIVERSITE NATIONALE DES SCIENCES, TECHNOLOGIES, INGENIERIE ET

MATHEMATIQUES (UNSTIM)
ECOLE NATIONALE SUPERIEURE DE GENIE MATHEMATIQUE ET MODELISATION
(ENSGMM)

EXAMEN DE MODELISATION
STATISTIQUE
Niveau: Génie Mathématique et Modélisation 2
Année académique: 2020-2021
Durée: 3h
Il sera tenu compte de la qualité de la rédaction.
NB: Le corrigé-type sera disponible après la composition à l’adresse:
sites.google.com/view/nicodemeatchade/
Enseignant: Dr ATCHADE Nicodème

1 Exercice 1.
Soit (Yi )1≤i≤n une famille de variables aléatoires définie par:
p
X (k)
Yi = θ 0 + θk Zi + εi (1)
k=1

pour tout i ∈ {1, ..., n}, où:


0 (j)
θ = (θ0 , θ1 , ..., θp ) est un vecteur composé de p + 1 réels inconnus, pour 1 ≤ j ≤ p, les (Zi )1≤i≤n
(j) (0)
sont p familles de réels connues et la matrice X = (Zi )1≤i≤n,0≤j≤p , avec par définition Zi = 1
pour tout i = 1, ..., n. On suppose que X est de rang p + 1 avec p ≤ n. Pour 0 < τ < 1, connu,
et n1 = [nτ ] (partie entière de nτ ) avec (ξi )i∈N une suite de v.a. i.i.d. de loi gaussienne centrée
réduite, εi = σ1 ξi pour 1 ≤ i ≤ n1 et εi = σ2 ξi pour n1 + 1 ≤ i ≤ n avec 0 < σ1 6= σ2 > 0.
Par ailleurs, pour tout k ∈ N∗ , et pour M une matrice carrée de taille k, on note kM k =
supU ∈(Rk )∗ kM Uk
kU k
, où pour V ∈ Rk , kV k2 = V 0 V . On rappelle que pour A et B deux matrices
carrées de taille k, kABk ≤ kAkkBk.

1. On note Y = (Yi )1≤i≤n et ε = (εi )1≤i≤n . Ecrire le modèle (1) sous une forme vectorielle
en précisant la loi de l’erreur ε et Σ = cov(ε).
2. Donner l’expression de la log-vraisemblance de (Y1 , ..., Yn ). En supposant σ12 et σ22 con-
nus, déterminer sous forme matricielle l’estimateur θ̂ par maximum de vraisemblance. En
supposant θ connu, déterminer explicitement les estimateurs σˆ12 et σˆ22 de σ12 et σ22 (respec-
tivement) par maximum de vraisemblance. Expliquer pourquoi une expression explicite
de l’estimateur par maximum de vraisemblance de θ, σ12 et σ22 n’est pas possible à obtenir
dans le cas général où θ, σ12 et σ22 sont inconnus.
3. On va estimer ces paramètres en 2 temps. On commence par estimer θ par moindres carrés
ordinaires, et on note θ̂ cet estimateur. Rappeler son expression, donner son espérance et
sa matrice de covariance.
4. On note Z1 (respectivement Z2 ) la matrice de taille (n, p + 1) dont les lignes de 1 à n1
(respectivement, de n1 +1 à n) sont celles de X, et les lignes de n1 +1 à n (respectivement,
de 1 à n1 ) sont constituées de 0. Montrer que pour tout U ∈ Rn , kX 0 XU k2 = kZ10 Z1 U k2 +
kZ20 Z2 U k2 . En déduire que max (kZ10 Z1 k, kZ20 Z2 k) ≤ kX 0 Xk.

1
5. Exprimer X 0 ΣX en fonction de σ1 , σ2 , Z1 et Z2 . En utilisant la question précédente
montrer que kcov(θ̂)k ≤ (σ12 + σ22 )k(X 0 X)−1 k et donner une condition pour que θ̂ →Pn→+∞
θ.

2 Exercice 2.
1. On considère le modèle LPM (Linear Probability Model) suivant:
ˆ = 0.37 + 0.02Educ − 0.1City,
Sexe

n = 700; σ̂(0.02) = 0.011; σ̂(−0.1) = 0.046.


Le modèle exprime la dépendance du sexe (1-Male, 0-Female) du niveau d’éducation (en
années) et du milieu de résidence (1-urbain, 0-rural). Tester la significativité des variables
explicatives du modèle.

2. Prédire la variable dépendante pour un citadin ayant 15 ans d’éducation.

3. Interpréter les résultats.

3 Exercice 3. Et si on réfléchissait encore ?


Les résultats ci-après présentent une matrice de corrélation de variables. La base de données
publiées par la banque mondiale comporte 39 pays. La variable dépendante est l’indice de
développement humain (HDI, %). Les variables indépendantes (% du PIB) représentent la
part des dépenses par secteur dans le PIB de chaque pays.

1. Procéder au choix raisonné de deux variables explicatives sur analyse de la matrice de


corrélation pour la construction d’un modèle de régression linéaire multiple.

> MR <- data.frame(HDI, Research, Health, Services, Agriculture, Education)


> options(digits=3)
> cor(MR)
HDI Research Health Services Agriculture Education
HDI 1.000 0.664 0.577 0.578 -0.534 0.320
Research 0.664 1.000 0.463 0.311 -0.370 0.215
Health 0.577 0.463 1.000 0.285 -0.239 0.321
Services 0.578 0.311 0.285 1.000 -0.637 0.417
Agriculture -0.534 -0.370 -0.239 -0.637 1.000 -0.264
Education 0.320 0.215 0.321 0.417 -0.264 1.000

2. Une régression multiple à base des données des 39 pays a été réalisée avec R. Les résultats
numériques sont les suivants:

> summary(MLModel)

Call:
lm(formula = HDI ~ Health + Services, data = MR)

Residuals:
Min 1Q Median 3Q Max

2
-5.2868 -1.9177 0.5024 1.7812 4.4184

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 64.3123 ? ? 5.94e-16 ***
Health 0.6300 ? ? 0.000678 ***
Services 0.2538 ? 3.739 0.000641 ***
---
Signif. codes:
0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 2.625 on 36 degrees of freedom
Multiple R-squared: 0.5194,Adjusted R-squared: 0.4927
F-statistic: ? on 2 and 36 DF, p-value: 1.873e-06

Retrouver toutes les données manquantes sachant que la matrice (X 0 X)−1 est donnée par:

3.1495 -0.0028 -0.0435


-0.0028 0.0042 -0.0005
-0.0435 -0.0005 0.0007

Fin

Vous aimerez peut-être aussi