Académique Documents
Professionnel Documents
Culture Documents
U: 2022-2023
Département MIDO M1 - BIG DATA
Durée: 2H
Documents interdits.
Les réponses doivent être justifiées.
La qualité de la rédaction sera prise en compte.
Exercice 1
On considère n observations y1 , . . . , yn réalisations de variables aléatoires indépendantes
Y1 , . . . , Yn telles que Yi est distribué suivant une loi binomiale négative de paramètres (h, πi ).
Nous supposons que h est fixé. De manière générique, la loi binomiale négative modélise,
dans le contexte d’une suite d’épreuves de Bernoulli indépendantes, le nombre d’échecs
nécessaires pour obtenir h succès, π représentant la probabilité de succès :
y
f (y; π) = Ch+y−1 π h (1 − π)y 1N (y).
1. (0.5 pt) Montrer que la loi binomiale négative appartient à la famille exponentielle.
2. (2 pt) Mettre cette loi sous sa forme canonique et déduire E (Yi ) et V (Yi ).
Pour tout i = 1, . . . , n, on suppose que log (1 − πi ) = β1 + β2 xi .
3. (1 pt) Montrer qu’il s’agit d’un modèle linéaire généralisé.
4. (1 pt) La fonction de lien canonique a-t-elle été utilisée?
5. (1 pt) Montrer que la log-vraisemblance des observations (notée LV ) peut s’écrire sous la
forme suivante :
n
X n
X
β1 +β2 xi
LV (β1 , β2 ) = h log(1 − e )+ yi (β1 + β2 xi ) + Φ(h, y1 , . . . , yn )
i=1 i=1
6. (1 pt) En déduire les équations de vraisemblance. Est-il possible de calculer (de manière
générale) les expressions analytiques des estimateurs du maximum de vraisemblance de β1
et β2 ?
7. (1 pt) Proposer un algorithme itératif de résolution des équations de vraisemblance. Ex-
pliquer ces étapes.
8. (0.5 pt) Expliquer comment l’on peut construire un intervalle (en utilisant la matrice
d’information de Fisher) de confiance asymptotique sur β1 .
9. (0.5 pt) Donner la commande R permettant d’estimer le modèle.
1
Exercice 2
On considère le modèle de régression suivant:
pour 1 ≤ i ≤ n, les vecteurs des xi sont déterministes et le vecteur des ϵi est un vecteur
gaussien centré de matrice de variance covariance σ 2 In . On pose y = (y1 , . . . , yn ) et
1 x1,1 . . . x1,3
X = ... .. .. ..
. . .
1 xn,1 . . . xn,3
Nous avons
50 0 0 0
0 20 15 4
XT X =
0 15 30 10 ,
X T y = (100, 50, 40, 80), y T y = 640
0 4 10 40
Dans la suite, on vous rappelle que l’estimateur sans biais de σ 2 est donné par :
(y − ŷ)T (y − ŷ)
σ̂ 2 =
n−4
.
h −1 T i
6. (0.5 pt) Montrer que : (y − ŷ) = In − X X T X X y.
7. (1 pt) Montrer alors que :
−1 T
(y − ŷ) (y − ŷ) = y y − y X X T X
T T T
X y
2
En déduire une estimation de σ 2 .
8. (1 pt) Donner un intervalle de confiance de niveau de confiance à 95% pour β3 . On vous
−1 −1
donne FT(46ddl) (0.025) = −FT(46ddl) (0.975) ≃ −2.013
10. (1.5 pts) Dans la suite on a augmenté le nombre de lignes de notre base de données
et on a réalisé l’estimation du modèle. Afin de vérifier la validité de notre modèle on vous
présente les graphiques ci-dessous :
La sortie obtenue par R de l’estimation du modèle sur notre base de données contenant
n = 50 observations est donnée dans le tableau ci-dessus :
3
> model <- lm( y ~ L)
> summary(model)
Call:
lm(formula = y ~ L)
Residuals:
Min 1Q Median 3Q Max
-14.750 -6.579 -1.161 5.250 16.400
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) ? 3.498 2.164 0.04497 *
$L_2$ 1.029 ? 0.190 0.85173
$L_3$ 16.179 4.790 ? 0.00358 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 9.256 on ? degrees of freedom
Multiple R-squared: 0.4505,Adjusted R-squared: 0.3858
F-statistic: 6.967 on ? and ? DF, p-value: 0.006167
Monbet,