Vous êtes sur la page 1sur 4

Année Universitaire 2018-2019

LÉcTo - 3e Année

Statistiques et Analyse de Données 3


Nom de l’enseignant : Scholler Julie

Contrôle continu 2
Calculatrice autorisée. Documents interdits. Soigner la rédaction.

Exercice 1 (6 points).
Un site, disposant d’une newsletter dont des liens redirigent vers le site, souhaite améliorer le taux de clics
sur les liens de la newsletter. Habituellement le taux de clics est de 0.15.
Pour cela, ils ont testé un nouveau format de newsletter, censé augmenter le taux de clics. Sur un échantillon
de 250 abonnés, 50 abonnés ont cliqué sur un lien dans la newsletter.
On note θ le taux de clics du nouveau format de newsletter, T la variable aléatoire qui le représente et X la
variable aléatoire représentant le nombre de personnes cliquant sur un lien de la newsletter parmi n personnes
recevant la newsletter (on suppose que les actions des personnes sont indépendantes entre elles).
On souhaite décider entre les deux hypothèses

H1 : le taux de clics n’a pas changé et H2 : le taux de clics a augmenté.

On simplifie ces hypothèses en fixant

H1 : θ = 0.15 et H2 : θ = 0.25.

1. Calculer le facteur de Bayes associé à cette situation et à ces hypothèses.


n x n−x
15 x 85
n−x  50  200
x0.15 0.85 3 17
  
BF (H1 ; H2 ) = n x n−x
= = ' 0.60
x 0.25 0.75 25 75 5 15
Les données sont en faveur de l’hypothèse H2 .

2. Que concluez-vous si vous pensez a priori que le nouveau format a 2 chances sur 5 d’améliorer le taux de
clics à 0.25 ?
2
Cela signifie que la probabilité a priori P(H2 ) = . On a donc le ratio des probabilités a posteriori
5
suivant :
P{X=50} (H1 )
 50  200 3  50  200
P(H1 ) 3 17 3 17 3
= BF (H1 ; H2 ) × = × 52 = × ' 0.90 < 1
P{X=50} (H2 ) P(H2 ) 5 15 5
5 15 2
Donc l’hypothèse H2 est plus probable a posteriori que l’hypothèse H1 . On conclut donc que le nouveau
format de newsletter à augmenter le taux de clics.

3. On note p la probabilité a priori de l’hypothèse H2 . Pour quelles valeurs de p concluons-nous en faveur


de H2 ?
P{X=50} (H1 ) 1−p BF (H1 ; H2 )
< 1 ⇔ BF (H1 ; H2 ) × <1⇔p> (' 0.376)
P{X=50} (H2 ) p 1 + BF (H1 ; H2 )
Dès que l’on pense a priori que le nouveau format a plus de 37.6% de chance d’améliorer le taux de clics
à 0.25, on conclura en faveur de H2 . Par contre si on pense a priori qu’il a plus de 62.4% de chance que
le nouveau format ne change rien, on conclura en faveur de H1 .

4. Finalement le coût de la mise en place du nouveau format de newsletter n’est pas négligeable. On juge
que le coût de mise en place du nouveau format de newsletter sans effet (à tort) est 3 fois plus important
que le coût de ne pas changer de format bien qu’il soit meilleur.

L3 Économie 1 Université de Tours - 2018-2019


Dans ce contexte, pour quelles valeurs de p, concluons nous en faveur de H2 ? Avec notre a priori de la
question 2, quelle est alors la décision ?
On décidera en faveur de H2 si
P{X=50} (H1 ) 1 1−p 1 BF (H1 ; H2 )
< ⇔ BF (H1 ; H2 ) × < ⇔p> 1 (' 0.643)
P{X=50} (H2 ) 3 p 3 3 + BF (H1 ; H2 )
Avec le coût de mise en place du nouveau format, on ne conclura en faveur de H2 que si a priori le
nouveau format a plus de 64.3% de chance d’améliorer le taux de clics.
Or on pense a priori qu’il n’y a que 40% de chance que le nouveau format améliore le taux de clics donc
on conclura en faveur de H1 .

Exercice 2 (7 points).
On souhaite étudier le nombre de pépites de chocolat dans un cookie. Ce nombre X suit une loi de Poisson
de paramètre θ inconnu.
On part avec comme a priori une loi Gamma de paramètre α et β.
1. On réalise une première observation en dégustant un premier cookie attentivement.
On a observé 8 pépites. Donner une estimation de θ en fonction des paramètres de la loi a priori.
On note X la variable aléatoire représentant le nombre de pépites de chocolat par cookie et T la variable
aléatoire représentant la valeur inconnue du paramètre de la loi de Poisson suivie par X. On a
• A priori : T ∼ Γ(α; β) ;
• Vraisemblance : X|T = θ ∼ P(θ).
fT |X=x (θ) ∝ e−θ θx θα−1 e−βθ 1R+ (θ)
∝ θα+x−1 e−(β+1)θ 1R+ (θ)
On obtient comme loi a posteriori T |X = x ∼ Γ(α + x; β + 1).
α+8
Une estimation est fournie par l’espérance de la loi a posteriori : E(T |X = 8) = .
β+1
2. Soit n > 2. On réalise n observations : x1 , . . . , xn .
(a) Exprimer la loi a posteriori suite à une série d’observations X1 = x1 , . . . , Xn = xn .
n
!
X
En itérant, on obtient T |X1 = x1 , . . . , Xn = xn ∼ Γ α + xi ; β + n .
i=1

(b) Donner l’estimatEUR de θ obtenu via l’espérance conditionnelle.


estimation est fournie par l’espérance de la loi a posteriori : E(T |X1 = x1 , . . . , Xn = xn ) =
Une P
α + ni=1 xi α + nx
= .
β+n β+n
α + nX
On en déduit l’estimateur suivant : θb = .
β+n
(c) Déduire de l’expression de l’estimateur la taille effective de l’échantillon a priori (prior effective
sample size).
α + ni=1 xi
P
α + nx β α n
E(T |X1 = x1 , . . . , Xn = xn ) = = = × + ×x
β+n β+n β+n β β+n
Dans ce contexte, la taille effective de l’échantillon a priori correspond au paramètre β.

3. Au vu de votre travail (théorique) à la question précédente, proposer en justifiant une loi a priori
informative synthétisant votre croyance d’avoir observé une moyenne d’environ 10 pépites par cookie sur
20 cookies.
Notre croyance :
• taille effective de l’échantillon a priori : β = 20 ;
α
• valeur moyenne : E(T ) = = 10.
β

L3 Économie 2 Université de Tours - 2018-2019


On obtient α = 200 et β = 10, d’où la loi a priori T ∼ Γ(10; 200).

4. Effectuer à nouveau une estimation de θ dans le cadre de la question 1 avec la loi a priori construite à la
question précédente.
208
E(T |X = 8) = ' 9.905
21
5. Vous vous intéressez à de nouveaux cookies. Vous n’avez aucun a priori.
Essayer de proposer une ou plusieurs lois a priori peu informatives.
Pour prendre la loi peu informative, on peut penser à une loi de type uniforme sur R+ (qui est donc
impropre) : fT (θ) ∝ 1R+ (θ). Une autre idée est de conservée une loi Gamma et de diminuer la taille
effective de l’échantillon a priori. On peut prendre β très petit et choisir α pour conserver notre a priori
sur l’espérance.
1
Le cas limite nous donne une loi Γ(0; 0) qui est impropre et correspond à fT (θ) ∝ 1R+ (θ).
θ

Exercice 3 (7 points).
Dans la population générale, la valeur du QI standard suit une loi normale d’espérance 100 et d’écart type
15. Les tests de QI sont supposés non biaisés mais l’écart type est de 5, c’est-à-dire que lorsqu’une personne
passe un test de QI, le QI mesuré diffère de son véritable QI selon une loi normale d’espérance 0 et d’écart
type 5.
M. Paix et Mme Haisse, deux fantastiques statisticiens, souhaitent comparer leurs QI. Ils passent donc un
test. M. Paix obtient 95 et Mme Haisse 130.
Très humble, Mme Haisse ne commente pas les résultats. M. Paix s’empresse de préciser que les résultats
des tests de QI ayant un écart type de 10, les deux intervalles de confiance à 95% pour leurs véritables
QI s’intersectent et que, du coup, on ne peut rien dire. Mme Haisse sait bien qu’en prenant en compte
notre connaissance a priori de la répartition du QI d’une personne choisie au hasard, les intervalles de
crédibilité pour les valeurs de leurs QI respectifs ne s’intersectent pas au même seuil de 95 % mais elle préfère
silencieusement sourire et acquiescer.
1. Point de vue fréquentiste de M. Paix
Construire les intervalles de confiance auxquels fait référence M. Paix
On note XP , resp. XS , la variable aléatoire représentant le résultat au test de QI de M. Paix, resp. de
Mme Haisse
On note θP , resp. θS , la véritable valeur du QI de M. Paix, resp. de Mme Haisse
On a QP ∼ N (θP ; 10) et QS ∼ N (θS ; 10).
On obtient comme intervalle de confiance pour θP et θS :
• IConf 0.95 (θP ) = [95 ± 1.96 × 10] = [75.4 ; 114.6] ;
• IConf 0.95 (θS ) = [130 ± 1.96 × 10] = [110.4 ; 149.6].

2. Point de vue bayésien de Mme Haisse


• Formaliser le contexte bayésien : loi a priori, basée sur la population générale, et vraisemblance.
Formalisation :
– A priori : T ∼ N (100; 15) ;
– Vraisemblance : X|T = θ ∼ N (θ; 5).

• Déterminer les deux lois a posteriori des QI de M. Paix et de Mme Haisse


On a comme loi a posteriori : T |X = x ∼ N (µpost ; σpost ) avec
100
152
+ 5x2 100 + 9x 9
µpost = 1 1 = = 10 + x
152
+ 52 10 10

L3 Économie 3 Université de Tours - 2018-2019



1 3 10
σpost = q = (' 4.74).
1
+ 512 2
152
On obtient donc
√ ! √ !
3 10 3 10
TP |X = 95 ∼ N 95.5; et TS |X = 130 ∼ N 127;
2 2

• Construire les intervalles de crédibilité auxquels fait référence Mme Haisse


On obtient comme intervalle de crédibilité pour θP et θS :
– ICred0.95 (θP ) = [86.20 ; 104.79] ;
– ICred0.95 (θS ) = [117.70 ; 136.30].

• Commenter.
No comment.

3. Hors barème. Seulement si vous avez du temps à perdre.


Avez-vous un autre a priori ? Comment cela change les intervalles de crédibilité des QI de M. Paix et de
Mme Haisse ?

L3 Économie 4 Université de Tours - 2018-2019

Vous aimerez peut-être aussi