Académique Documents
Professionnel Documents
Culture Documents
Numéro 1 (6 points)
Pierre, Jean et Jacques sont au Pub. Chacun d’eux commande une bière différente
(blonde, rousse et blanche). Le serveur oublie de noter à qui correspond chacune des bières et
décide de remettre les trois bières au hasard. Répondez aux questions suivantes en utilisant
les événements suivants :
A : Pierre reçoit la bière qu’il a commandée.
B : Jean reçoit la bière qu’il a commandée.
C : Jacques reçoit la bière qu’il a commandée.
a) Quelle est la probabilité que Pierre reçoive la bière qu’il a commandée ?
b) Sachant que Jacques a reçu la bière qu’il a commandée, quelle est la probabilité que
Pierre reçoive la bière qu’il a commandée ? Justifiez votre réponse.
c) Sachant que Jacques n’a pas reçu la bière qu’il a commandée, quelle est la probabilité
que Pierre reçoive la bière qu’il a commandée ? Justifiez votre réponse.
d) Les événements A, B et C sont-ils indépendants ? Justifiez votre réponse.
Numéro 2 (9 points)
On souhaite déterminer s’il est possible de prédire le pourcentage de gras Y d’une
personne en fonction de son épaisseur du pli de la peau du triceps x1 (en mm). On recueille
un échantillon aléatoire de n = 20 personnes. Les paramètres du modèle de régression
linéaire sont estimés avec Julia et on obtient les résultats suivants :
avec
2 2 > −1 1.38 −0.05
σ̂ = 7.95, R = 0.71 et (X X) =
−0.05 0.002
Le tableau suivant compile les quantiles d’ordre 97, 5% des lois de probabilités usuelles :
1
Loi N (0, 1) t17 (0, 1) t18 (0, 1) F(1,19)
Quantile 1, 96 2.11 2.10 5, 92
avec
σ̂ 2 = 6.11 et R2 = 0.78.
Les valeurs propres de la matrice X > X sont les suivantes λ1 = 66074, 3, λ2 = 119, 8 et
λ3 = 0, 092.
Numéro 3 (8 points)
On utilise le modèle de régression logistique avec la fonction de lien logit pour déterminer
si la personne i empruntera le transport en commun pour son prochain déplacement :
(
0 si la personne i n’emprunte pas le transport en commun ;
Yi =
1 si la personne i emprunte le transport en commun.
2
La variable explicative xi correspond à la distance (en mètres) entre le lieu de résidence de
la personne i et l’arrêt de transport en commun le plus près.
Avec un échantillon aléatoire de taille n, on obtient les estimations suivantes des para-
mètres de régression :
β̂0 = 1, 4 et β̂1 = −0, 02.
a) Quelle est la probabilité qu’une personne habitant à 100 m d’un arrêt de transport
en commun emprunte le transport en commun pour son prochain déplacement ?
b) Que représente l’ordonnée à l’origine β0 dans ce modèle ?
c) On souhaite incorporer le statut de la personne (étudiant, travailleur, retraité, autre)
dans le modèle de régression logistique. Détaillez toutes les variables explicatives qui
seront nécessaires et écrivez l’équation du nouveau modèle.
d) Selon votre modèle défini à la question (c), que représente maintenant l’ordonnée à
l’origine β0 de votre modèle ?
Numéro 4 (6 points)
On modélise le nombre d’accidents par année Y à une intersection par la loi de Poisson
de paramètre θ > 0 inconnu :
Y ∼ Poisson(θ).
On recense le nombre d’accidents à cette intersection depuis les n dernières années. On a
donc un échantillon aléatoire de taille n : (Y1 , . . . , Yn ).
a) Quel est l’estimateur du maximum de la vraisemblance de θ ?
b) Comment s’interprète θ physiquement ?
c) Supposons que l’on souhaite déterminer s’il existe une tendance en fonction des
années du nombres d’accidents, quelle serait la variable explicative appropriée pour
vérifier cette affirmation avec un modèle de régression ?
d) Pour une valeur de la variable explicative x donnée, comment s’exprime l’espérance
de la variable Y ? Autrement dit, comment s’exprime E(Y |X = x) pour le modèle
de régression du numéro (c) ?
Numéro 5 (6 points)
Pour chacune des questions, identifiez tous les énoncés qui sont vrais.
a) Si l’on souhaite réduire la dimension d’un jeu de données avec l’analyse en compo-
santes principales, qu’arrivera-t-il si les valeurs propres sont presque égales ?
(i) Il sera possible de réduire le nombre de dimensions en limitant la perte d’infor-
mation.
3
(ii) Il sera impossible de réduire le nombre de dimensions en limitant la perte d’in-
formation.
(iii) Impossible d’affirmer quoi que ce soit.
b) Les composantes principales d’un jeu de données
(i) s’interprètent facilement.
(ii) s’interprètent difficilement.
c) Les k premières composantes principales correspondent
(i) Aux k variables explicatives les plus informatives.
(ii) Aux k combinaisons linéaires les plus informatives de toutes les variables expli-
catives.
(iii) Aux k combinaisons linéaires les plus informatives des k variables explicatives.
d) En présence de multicolinéarité,
(i) L’analyse en composantes principales est impossible.
(ii) La matrice X > X est diagonalisable, où X est la matrice des variables explica-
tives.
(iii) Le déterminant de la matrice X > X est presque nul, où X est la matrice des
variables explicatives.
Jonathan Jalbert,
Hiver 2019.
4
Table 1 – Lois discrètes classiques.
5
β α −(α+1) −β/y β β2
Y ∼ InvGamma(α, β) f (y) = Γ(α) y e si y > 0 α > 0, β > 0 α−1 si α > 1 (α−1)2 (α−2)
si α>2
Γ(α+β) α−1 α αβ
Y ∼ Beta(α, β) f (y) = Γ(α)Γ(β) y (1 − y)
β−1 si y ∈ (0, 1) α > 0, β > 0 α+β (α+β)2 (α+β+1)
Y ∼ N (µ, σ 2 ) f (y) = √ 1 µ ∈ R, σ 2 > 0 µ σ2
2
exp − 2σ1 2 (y − µ)2
2πσ
n o− ν+1
Γ((ν+1)/2) 1 (y−µ)2 2 ν 2
Y ∼ tν (µ, σ 2 ) f (y) = √ 1 + ν > 0, µ ∈ R, σ 2 > 0 µ si ν > 1, si ν > 2
Γ(ν/2) νπσ 2 ν σ2 ν−2 σ