Vous êtes sur la page 1sur 3

UNIVERSITE NATIONALE DES SCIENCES, TECHNOLOGIES, INGENIERIE ET

MATHEMATIQUES
ECOLE NATIONALE SUPERIEURE DE GENIE MATHEMATIQUE ET MODELISATION
(ENSGMM UNSTIM )

EXAMEN DE MODELISATION STATISTIQUE


Niveau: Génie Mathématique et Modélisation 2
Année académique: 2019-2020
Durée: 3h
Calculatrice interdite.
Langage R exigé. Les syntaxes utilisées doivent être présentées.
Il sera tenu compte de la qualité de la rédaction.
NB: Le corrigé-type sera disponible après la composition à l’adresse:
sites.google.com/view/nicodemeatchade/
Enseignant: Dr ATCHADE Nicodème

1 Notions de base en modélisation statistique.


0
Pour n et p deux entiers tels que n ≥ p + 1, on observe Y = (Yi )1≤i≤n défini par:

(1) (p)
Yi = θ0 + θ1 Xi + ... + θp Xi+ εi , i = 1, ..., n, (1)
1 X11 X1p
 
. . . 
(j)
 
avec une famille connue de réels (Xi )1≤i≤n,1≤j≤p telle que X =  . .  . 
 soit une matrice
. . . 
1 Xn Xnp1
0 0
de rang p + 1, θ = (θj )0≤j≤p un vecteur de nombres réels inconnus et ε = (εi )1≤i≤n où les εi sont
des v.a.i.i.d. centrées non observées, avec var(ε1 ) = σ 2 > 0, inconnue.
Notations: Pour m ∈ N*, Im est la matrice identité de taille m. Pour M une matrice réelle
0
quelconque, M est la transposée de M . Pour u un vecteur colonne quelconque dans Rm , kuk2 =
0
u u.
L’exercice propose la méthode de Andrey Tikhonov (ou régression ridge) pour estimer θ , en
déterminant pour λ ≥ 0 fixé:

p
X
b = arg min kY − Xθ)k2 + λ
θ(λ) θi2 (2)
p+1 θ∈R
i=0

1. Déterminer θ(0)
b en fonction de X et de Y .

2. Que peut-on dire de limλ→∞ θ(λ)?


b

3. Montrer que (X 0 X) est une matrice définie positive (on pourra considérer une forme quadra-
tique). En déduire que pour tout λ ≥ 0, X 0 X + λIp+1 est inversible.

4. En utilisant la différentiation, démontrer que pour tout λ ≥ 0 fixé, θ(λ) b = (X 0 X +


λIp+1 )−1 X 0 Y (on vérifiera que θ(λ)
b est bien un minimum et qu’il est unique).

1
2 Exercice 1. Modèles linéarisables et ANCOVA.
1. Après avoir rappelé la formule de la transformation de Box-Cox, donner son expression pour
λ → 0.

2. La dépendance de la production y des facteurs x1 , x2 et x3 est donnée par le modèle:

lnb
y = 4.912 + 0.362x1 + 1.7lnx2 + 0.442x3

Ecrire le modèle sous sa forme initiale (non linéarisée) et interpréter les coefficients.

3. Quelle est l’utilité du test de Chow ?

4. Soit le modèle:
yb = 4200.9 + 0.185x + 0.126xz + 5970.5z
Les statistiques de Student sont respectivement 3.80; 4.50; 2.45 et 2.75.
y- impôts des microentreprises (millions de f.u.); x- production (millions de f.u.); z- dummy
variable prenant la valeur 1 si l’entreprise est située à Bohicon et 0 sinon.
On notera n = 48.
Interpréter les coefficients du modèle.

3 Exercice 2. Et si on réfléchissait encore ?


Les résultats ci-après présentent une matrice de corrélation de variables. La base de données
publiées par la banque mondiale comporte 39 pays. La variable dépendante est l’indice de
développement humain (HDI, %). Les variables indépendantes (% du PIB) représentent la part
des dépenses par secteur dans le PIB de chaque pays.

1. Procéder au choix raisonné de deux variables explicatives sur analyse de la matrice de


corrélation pour la construction d’un modèle de régression linéaire multiple.

> MR <- data.frame(HDI, Research, Health, Services, Agriculture, Education)


> options(digits=3)
> cor(MR)
HDI Research Health Services Agriculture Education
HDI 1.000 0.664 0.577 0.578 -0.534 0.320
Research 0.664 1.000 0.463 0.311 -0.370 0.215
Health 0.577 0.463 1.000 0.285 -0.239 0.321
Services 0.578 0.311 0.285 1.000 -0.637 0.417
Agriculture -0.534 -0.370 -0.239 -0.637 1.000 -0.264
Education 0.320 0.215 0.321 0.417 -0.264 1.000

2. Une régression multiple à base des données des 39 pays a été réalisée avec R. Les résultats
numériques sont les suivants:

2
> summary(MLModel)

Call:
lm(formula = HDI ~ Health + Services, data = MR)

Residuals:
Min 1Q Median 3Q Max
-5.2868 -1.9177 0.5024 1.7812 4.4184

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 64.3123 ? ? 5.94e-16 ***
Health 0.6300 ? ? 0.000678 ***
Services 0.2538 ? 3.739 0.000641 ***
---
Signif. codes:
0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 2.625 on 36 degrees of freedom
Multiple R-squared: 0.5194,Adjusted R-squared: 0.4927
F-statistic: ? on 2 and 36 DF, p-value: 1.873e-06

Retrouver toutes les données manquantes sachant que la matrice (X 0 X)−1 est donnée par:

3.1495 -0.0028 -0.0435


-0.0028 0.0042 -0.0005
-0.0435 -0.0005 0.0007

Tableau. Matrice (X 0 X)−1

Vous aimerez peut-être aussi