Vous êtes sur la page 1sur 4

Université Paris Dauphine A.

U: 2022-2023
Département MIDO M1 - BIG DATA

Examen : Modèle linéaire et ses généralisations

Durée: 2H
Documents interdits.
Les réponses doivent être justifiées.
La qualité de la rédaction sera prise en compte.

Exercice 1
On considère n observations y1 , . . . , yn réalisations de variables aléatoires indépendantes
Y1 , . . . , Yn telles que Yi est distribué suivant une loi binomiale négative de paramètres (h, πi ).
Nous supposons que h est fixé. De manière générique, la loi binomiale négative modélise,
dans le contexte d’une suite d’épreuves de Bernoulli indépendantes, le nombre d’échecs
nécessaires pour obtenir h succès, π représentant la probabilité de succès :
y
f (y; π) = Ch+y−1 π h (1 − π)y 1N (y).

1. (0.5 pt) Montrer que la loi binomiale négative appartient à la famille exponentielle.
2. (2 pt) Mettre cette loi sous sa forme canonique et déduire E (Yi ) et V (Yi ).
Pour tout i = 1, . . . , n, on suppose que log (1 − πi ) = β1 + β2 xi .
3. (1 pt) Montrer qu’il s’agit d’un modèle linéaire généralisé.
4. (1 pt) La fonction de lien canonique a-t-elle été utilisée?
5. (1 pt) Montrer que la log-vraisemblance des observations (notée LV ) peut s’écrire sous la
forme suivante :

n
X n
X
β1 +β2 xi
LV (β1 , β2 ) = h log(1 − e )+ yi (β1 + β2 xi ) + Φ(h, y1 , . . . , yn )
i=1 i=1

Où Φ(h, y1 , . . . , yn ) est une fonction à déterminer.

6. (1 pt) En déduire les équations de vraisemblance. Est-il possible de calculer (de manière
générale) les expressions analytiques des estimateurs du maximum de vraisemblance de β1
et β2 ?
7. (1 pt) Proposer un algorithme itératif de résolution des équations de vraisemblance. Ex-
pliquer ces étapes.
8. (0.5 pt) Expliquer comment l’on peut construire un intervalle (en utilisant la matrice
d’information de Fisher) de confiance asymptotique sur β1 .
9. (0.5 pt) Donner la commande R permettant d’estimer le modèle.

1
Exercice 2
On considère le modèle de régression suivant:

yi = β0 + β1 xi,1 + β2 xi,2 + β3 xi,3 + ϵi

pour 1 ≤ i ≤ n, les vecteurs des xi sont déterministes et le vecteur des ϵi est un vecteur
gaussien centré de matrice de variance covariance σ 2 In . On pose y = (y1 , . . . , yn ) et
 
1 x1,1 . . . x1,3
X =  ... .. .. .. 

. . . 
1 xn,1 . . . xn,3

Nous avons
 
50 0 0 0
 0 20 15 4 
XT X = 
 0 15 30 10  ,
 X T y = (100, 50, 40, 80), y T y = 640
0 4 10 40

On admet que  −1  


20 15 4 1100 −560 30
1  −560
 15 30 10  = 784 −140 
13720
4 10 40 30 −140 375
1. (1 pt) Donner la valeur de n.
2. (0.5 pt) Interpréter les 0 de la matrice X T X.
3. (0.5 pt) Montrer que :
 
0.02 0 0 0
0 0.080175 −0.04082 0.002187
(X T X)−1 = 
 

 0 −0.04082 0.057143 −0.0102 
0 0.002187 −0.0102 0.027332

3. (1 pt) Rappeler l’expression de l’estimateur des moindres carrés de (β0 , β1 , β2 , β3 ), Donner


une estimation des paramètres du modèle utilisant les données fournies.
4. (0.5 pt) Donner la commande R permettant de réaliser l’estimation de notre modèle.
5. (0.5 pt) Donner la loi de probabilité de β̂3 .

Dans la suite, on vous rappelle que l’estimateur sans biais de σ 2 est donné par :
(y − ŷ)T (y − ŷ)
σ̂ 2 =
n−4
.
h −1 T i
6. (0.5 pt) Montrer que : (y − ŷ) = In − X X T X X y.
7. (1 pt) Montrer alors que :
 −1 T
(y − ŷ) (y − ŷ) = y y − y X X T X
T T T
X y

2
En déduire une estimation de σ 2 .
8. (1 pt) Donner un intervalle de confiance de niveau de confiance à 95% pour β3 . On vous
−1 −1
donne FT(46ddl) (0.025) = −FT(46ddl) (0.975) ≃ −2.013

9. (0.5 pt) En déduire alors un test de niveau 5% de l’hypothèse H0 : β3 = 0 contre


H1 : β3 ̸= 0.

10. (1.5 pts) Dans la suite on a augmenté le nombre de lignes de notre base de données
et on a réalisé l’estimation du modèle. Afin de vérifier la validité de notre modèle on vous
présente les graphiques ci-dessous :

Figure 1: Analyse du résidu

Rappeler l’utilité de chacun des 4 graphiques et commenter les résultats obtenus.

On s’intéresse maintenant à l’estimation d’un modèle dans lequel on explique la


variable d’interêt y à l’aide d’une seule variable qualitative à trois modalités (L1 ,
L2 , L3 ).

La sortie obtenue par R de l’estimation du modèle sur notre base de données contenant
n = 50 observations est donnée dans le tableau ci-dessus :

3
> model <- lm( y ~ L)
> summary(model)
Call:
lm(formula = y ~ L)
Residuals:
Min 1Q Median 3Q Max
-14.750 -6.579 -1.161 5.250 16.400
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) ? 3.498 2.164 0.04497 *
$L_2$ 1.029 ? 0.190 0.85173
$L_3$ 16.179 4.790 ? 0.00358 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 9.256 on ? degrees of freedom
Multiple R-squared: 0.4505,Adjusted R-squared: 0.3858
F-statistic: 6.967 on ? and ? DF, p-value: 0.006167
Monbet,

11. (0.5 pt) Donner l’équation associée à la sortie R présentée ci-dessus.


12 (0.5 pt) Compléter le tableau de la sortie R.
13. (1 pt) ¨Pourquoi la modalité L1 n’est pas présente dans la sortie R.
14. (1 pt) Si on veut tester le modèle global quelle sera la décision de ce test ?

Vous aimerez peut-être aussi