Gmm2 - Mod Stat 2020

UNIVERSITE NATIONALE DES SCIENCES, TECHNOLOGIES, INGENIERIE ET
MATHEMATIQUES
ECOLE NATIONALE SUPERIEURE DE GENIE MATHEMATIQUE ET MODELISATION
(ENSGMM UNSTIM )
EXAMEN DE MODELISATION STATISTIQUE

Niveau: Génie Mathématique et Modélisation 2
Année académique: 2019-2020
Durée: 3h
Calculatrice interdite.
Langage R exigé. Les syntaxes utilisées doivent être présentées.
Il sera tenu compte de la qualité de la rédaction.
NB: Le corrigé-type sera disponible après la composition à l’adresse:
sites.google.com/view/nicodemeatchade/
Enseignant: Dr ATCHADE Nicodème
1 Notions de base en modélisation statistique.

0
Pour n et p deux entiers tels que n ≥ p + 1, on observe Y = (Yi )1≤i≤n défini par:
(1) (p)
Yi = θ0 + θ1 Xi + ... + θp Xi+ εi , i = 1, ..., n, (1)
1 X11 X1p
 
. . . 
(j)
 
avec une famille connue de réels (Xi )1≤i≤n,1≤j≤p telle que X =  . .  . 
 soit une matrice
. . . 
1 Xn Xnp1
0 0
de rang p + 1, θ = (θj )0≤j≤p un vecteur de nombres réels inconnus et ε = (εi )1≤i≤n où les εi sont
des v.a.i.i.d. centrées non observées, avec var(ε1 ) = σ 2 > 0, inconnue.
Notations: Pour m ∈ N*, Im est la matrice identité de taille m. Pour M une matrice réelle
0
quelconque, M est la transposée de M . Pour u un vecteur colonne quelconque dans Rm , kuk2 =
0
u u.
L’exercice propose la méthode de Andrey Tikhonov (ou régression ridge) pour estimer θ , en
déterminant pour λ ≥ 0 fixé:
p
X
b = arg min kY − Xθ)k2 + λ
θ(λ) θi2 (2)
p+1 θ∈R
i=0
1. Déterminer θ(0)
b en fonction de X et de Y .
2. Que peut-on dire de limλ→∞ θ(λ)?

b
3. Montrer que (X 0 X) est une matrice définie positive (on pourra considérer une forme quadra-
tique). En déduire que pour tout λ ≥ 0, X 0 X + λIp+1 est inversible.
4. En utilisant la différentiation, démontrer que pour tout λ ≥ 0 fixé, θ(λ) b = (X 0 X +

λIp+1 )−1 X 0 Y (on vérifiera que θ(λ)
b est bien un minimum et qu’il est unique).
1
2 Exercice 1. Modèles linéarisables et ANCOVA.
1. Après avoir rappelé la formule de la transformation de Box-Cox, donner son expression pour
λ → 0.
2. La dépendance de la production y des facteurs x1 , x2 et x3 est donnée par le modèle:
lnb
y = 4.912 + 0.362x1 + 1.7lnx2 + 0.442x3
Ecrire le modèle sous sa forme initiale (non linéarisée) et interpréter les coefficients.
3. Quelle est l’utilité du test de Chow ?
4. Soit le modèle:
yb = 4200.9 + 0.185x + 0.126xz + 5970.5z
Les statistiques de Student sont respectivement 3.80; 4.50; 2.45 et 2.75.
y- impôts des microentreprises (millions de f.u.); x- production (millions de f.u.); z- dummy
variable prenant la valeur 1 si l’entreprise est située à Bohicon et 0 sinon.
On notera n = 48.
Interpréter les coefficients du modèle.
3 Exercice 2. Et si on réfléchissait encore ?

Les résultats ci-après présentent une matrice de corrélation de variables. La base de données
publiées par la banque mondiale comporte 39 pays. La variable dépendante est l’indice de
développement humain (HDI, %). Les variables indépendantes (% du PIB) représentent la part
des dépenses par secteur dans le PIB de chaque pays.
1. Procéder au choix raisonné de deux variables explicatives sur analyse de la matrice de

corrélation pour la construction d’un modèle de régression linéaire multiple.
> MR <- data.frame(HDI, Research, Health, Services, Agriculture, Education)

> options(digits=3)
> cor(MR)
HDI Research Health Services Agriculture Education
HDI 1.000 0.664 0.577 0.578 -0.534 0.320
Research 0.664 1.000 0.463 0.311 -0.370 0.215
Health 0.577 0.463 1.000 0.285 -0.239 0.321
Services 0.578 0.311 0.285 1.000 -0.637 0.417
Agriculture -0.534 -0.370 -0.239 -0.637 1.000 -0.264
Education 0.320 0.215 0.321 0.417 -0.264 1.000
2. Une régression multiple à base des données des 39 pays a été réalisée avec R. Les résultats
numériques sont les suivants:
2
> summary(MLModel)
Call:
lm(formula = HDI ~ Health + Services, data = MR)
Residuals:
Min 1Q Median 3Q Max
-5.2868 -1.9177 0.5024 1.7812 4.4184
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 64.3123 ? ? 5.94e-16 ***
Health 0.6300 ? ? 0.000678 ***
Services 0.2538 ? 3.739 0.000641 ***
---
Signif. codes:
0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 2.625 on 36 degrees of freedom
Multiple R-squared: 0.5194,Adjusted R-squared: 0.4927
F-statistic: ? on 2 and 36 DF, p-value: 1.873e-06
Retrouver toutes les données manquantes sachant que la matrice (X 0 X)−1 est donnée par:
3.1495 -0.0028 -0.0435

-0.0028 0.0042 -0.0005
-0.0435 -0.0005 0.0007
Tableau. Matrice (X 0 X)−1

Gmm2 - Mod Stat 2020

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Gmm2 - Mod Stat 2020

Transféré par

Droits d'auteur :

Formats disponibles

UNIVERSITE NATIONALE DES SCIENCES, TECHNOLOGIES, INGENIERIE ET

EXAMEN DE MODELISATION STATISTIQUE

1 Notions de base en modélisation statistique.

2. Que peut-on dire de limλ→∞ θ(λ)?

4. En utilisant la différentiation, démontrer que pour tout λ ≥ 0 fixé, θ(λ) b = (X 0 X +

2. La dépendance de la production y des facteurs x1 , x2 et x3 est donnée par le modèle:

3. Quelle est l’utilité du test de Chow ?

3 Exercice 2. Et si on réfléchissait encore ?

1. Procéder au choix raisonné de deux variables explicatives sur analyse de la matrice de

> MR <- data.frame(HDI, Research, Health, Services, Agriculture, Education)

3.1495 -0.0028 -0.0435

Tableau. Matrice (X 0 X)−1

Vous aimerez peut-être aussi