Vous êtes sur la page 1sur 8

AC04/P19 - MEDIAN - 02 Avril 2019–Correction

(Durée : 2 heures–Documents autorisés : tables de loi + une feuille recto)


Le barême est donné à titre indicatif.

Quelques résultats qui pourront être utiles :


1. Primitive puissance négative. Pour tout entier m > 0,
1 1 −m+1 1 1
Z Z
dx = x−m dx = − x +K = − +K, Kconstante quelconque.
xm m−1 m − 1 xm−1
2. Inégalité de Jensen. Si g est une fonction strictement concave (c’est vérifié en particulier
si sa dérivée seconde g(2) est strictement négative), alors, si les espérances existent,

E(g(X)) < g(E(X)).

Exercice 1. Cours. (4 points)


Soit X le nombre de fautes de frappe par page d’un manuscrit de n pages. On suppose que la
loi de X est la loi de Poisson P(λ ) avec λ = 0.75. Pour tout i = 1 . . . , n, la variable aléatoire Xi
iid
désigne le nombre de fautes de frappe de la page i. On suppose que X1 , . . . , Xn ∼ X.
1 n
1. Enoncer le Théorème Central Limite pour X̄ = ∑ Xi .
n i=1
Correction : La variable aléatoire X admet une espérance et une variance égale à 0.75 ;
X1 , . . . , Xn étant iid et de même loi que X, les conditions d’application du Théorème
Central Limite sont satisfaites ; nous obtenons donc
√ (X̄ − 0.75) L
n √ −→ N (0, 1), n → +∞
0.75

2. Une maison d’édition décide de rejeter les manuscrits qui contiennent trop de fautes de
frappe et décide d’en rejeter au plus 20%. On cherche à déterminer ` le nombre minimal
de fautes de frappe d’un manuscrit de 30 pages qui impliquerait son rejet par la maison
d’édition.
(a) Déterminer ` de manière approchée.
30
Correction : En posant Y = ∑ Xi , on peut utiliser la question précédente pour appro-
i=1
cher la loi de Y comme suit,
(Y − 30 ∗ 0.75) L
√ −→ N (0, 1), n → +∞.
30 ∗ 0.75

1
Il s’agit ensuite de déterminer le plus petit entier ` tel que
 √ √ 
P(Y ≥ `) < 0.2 ⇔ P (Y − 30 ∗ 0.75)/ 30 ∗ 0.75 < (` − 30 ∗ 0.75)/ 30 ∗ 0.75 > 0.8
≈ √
⇔ φ ((` − 30 ∗ 0.75)/ 30 ∗ 0.75) > 0.8

⇔ (` − 30 ∗ 0.75)/ 30 ∗ 0.75 > 0.8416

⇔ ` > 30 ∗ 0.75 ∗ 0.8416 + 30 ∗ 0.75 = 26.49;
donc ` ≥ 27.
On aurait pu faire une correction de continuité et dans ce cas, on cherche le plus petit
entier ` tel que

 √ √ 
P(Y ≥ `) < 0.2 ⇔ P (Y − 30 ∗ 0.75)/ 30 ∗ 0.75 < (` − 30 ∗ 0.75 − 0.5)/ 30 ∗ 0.75 > 0.8
≈ √
⇔ φ ((` − 30 ∗ 0.75 − 0.5)/ 30 ∗ 0.75) > 0.8

⇔ (` − 30 ∗ 0.75)/ 30 ∗ 0.75 > 0.8416

⇔ ` > 30 ∗ 0.75 ∗ 0.8416 + 30 ∗ 0.75 + 0.5 = 26.99;
donc on aurait également ` ≥ 27.
30
iid
(b) D’après un résultat vu TD, si X1 , . . . , X30 ∼ X avec X ∼ P(0.75) alors ∑ Xi ∼
i=1
P(30 ∗ 0.75). A partir de la table de loi d’un Poisson, déterminer ` de manière
exacte.
30
Correction : Comme ∑ Xi ∼ P(22.5), il s’agit de déterminer dans la table d’une loi
i=1
de Poisson avec λ = 22.5 le plus petit entier ` tel que
P(Y ≥ `) < 0.2 ⇔ P(Y < `) > 0.8) = FY (` − 1) > 0.8 ⇒ ` − 1 = 26 ⇔ ` = 27.

3. Déterminer de manière approchée la probabilité qu’un manuscrit de 30 pages contienne


au plus 20 fautes de frappe.
Correction : En utilisant la question 1 et en effectuant une correction de continuité, on
cherche
 √ √ 
P(Y ≤ 20) = P (Y − 30 ∗ 0.75)/( 30 ∗ 0.75 ≤ (−2.5 + 0.5)/ 30 ∗ 0.75
≈ √
⇔ φ (−2/ 30 ∗ 0.75) ≈ φ (−0.42) = 1 − φ (0.42) = 1 − 0.6628 = 0.3372

Sans la correction de continuité, on obtient,


 √ √ 
P(Y ≤ 20) = P (Y − 30 ∗ 0.75)/ 30 ∗ 0.75 ≤ −2.5/ 30 ∗ 0.75
≈ √
⇔ φ (−2.5/ 30 ∗ 0.75) ≈ φ (−0.53) = 1 − φ (0.53) = 1 − 0.7019 = 0.2981

2
On peut comparer ces deux valeurs à la valeur exacte 0.3474 de le fonction de répartition
d’une Poisson P(22.5) calculée en 20 et fournie par la table de loi d’une v.a. de Poisson.

Exercice 2. Loi de Pareto. (16 points + 2 points bonus)


La loi de Pareto est une loi de probabilité uselle qui est utilisée pour modéliser les montants de
sinistre (assurance) ou la répartition des revenus d’un pays (économie).
Soit f la fonction à valeurs réelles définie par
(
0 si x < a
f (x) = k , avec a > 0, k ∈ N∗ et d > 0.
d k+1 si x ≥ a
x
1. Caractérisation de la loi. (3 points)
(a) Trouver la valeur de la constante d en fonction de a et k pour que f soit une densité de
probabilité. La fonction f ainsi définie est la densité de la loi de Pareto de paramètres
a > 0 et k ∈ N∗ notée L P(a, k).
Correction : Il s’agit de déterminer la valeur de d positive telle que,

Z +∞
k
d dx = 1 ⇔ d[−x−k ]∞ k
a =1⇔ d=a .
a xk+1
ak k
Donc f (x) = I (x).
xk+1 [a,+∞[
(b) Soit X une variable aléatoire de loi L P(a, k), a > 0 et k ∈ N∗ . Déterminer FX , sa
fonction de répartition.
Correction : La fonction de répartition FX est définie pour tout y réel ; ∀y ∈ R,

 0 si y < a
Z y k
FX (y) = P(X ≤ y) = ak a k
 k+1
= 1 − ( ) si y ≥ a
a x y
Elle est à valeurs dans [0, 1[.
(c) Soit X une variable aléatoire de loi L P(a, k), a > 0 et k ∈ N∗ . Déterminer FX−1 , la
fonction réciproque de FX (c’est la fonction quantile de X).
Correction : On cherche à déterminer la fonction FX−1 , fonction réciproque de FX ,
c’est à dire, celle qui vérifie FX−1 (α) = y ⇔ FX (y) = α pour tout α ∈ [0, 1[. On a
immédiatement que FX−1 (0) = a et pour tout α ∈]0, 1[, on a

a
FX−1 (α) = y ⇔ 1 − ( )k = α
y
a k
⇔ k = 1−α
y
a
⇔ y=
(1 − α)1/k

3
a
On en déduit que FX−1 (α) = , ∀α ∈ [0, 1[.
(1 − α)1/k

2. Estimation. (7 points)
Dans la suite de l’exercice, X suit la loi de Pareto L P(a, 3) avec a > 0 inconnu.
Nous disposons d’un n-échantillon iid X1 , . . . , Xn de variable aléatoire parente X. Dans
la suite nous nous intéressons à l’estimation du paramètre a > 0.
(a) Déterminer E(X) et en déduire par la méthode des moments un estimateur â1 de a.
Correction : Si elle existe, l’espérance de X est déterminée par
ak k
Z +∞
E(X) = x dx
a xk+1
Z +∞ k
ak
= dx
a xk
1 −k+1 ∞ k
= ak k[− x ]a = a
k−1 k−1
k−1 1 n
On en déduit l’estimateur des moments â1 = X̄, avec X̄ = ∑ Xi .
k n i=1
(b) Déterminer E(X 2 ) et en déduire par la méthode des moments un estimateur â2 de a.
Correction : Si elle existe, le moment d’ordre 2 de X est déterminé par
ak k
Z +∞
E(X 2 ) = x2 dx
a xk+1
Z +∞ k
ak
= dx
a xk−1
1 −k+2 ∞ k 2
= ak k[− x ]a = a
k−2 k−2
s
k−2 1 n 2
On en déduit l’estimateur des moments â2 = ∑ Xi .
k n i=1
(c) Montrer que â1 est un estimateur sans biais pour a. Déterminer la variance de X̄ =
1 n
∑ Xi et en déduire la variance de â1.
n i=1
k
Correction : Comme E(X̄) = E(X) = a, on montre en utilisant la linéarité de
k−1
l’espérance que â1 est sans biais pour a,
k−1 k−1
E(â1 ) = E( X̄) = E(X̄) = a.
k k
Var(X) k
Les Xi étant indépendantes, Var(X̄) = = a2 puisque
n n(k − 2)(k − 1)2
k k k
Var(X) = a2 − ( a)2 = a2 .
k−2 k−1 (k − 2)(k − 1)2

4
On en déduit la variance de â1 :

k−1 2 k 2 a2
Var(â1 ) = ( ) a = .
k n(k − 2)(k − 1)2 nk(k − 2)(k − 1)

(d) En utilisant l’inégalité de Jensen, montrer que â2 n’est pas un estimateur sans biais
pour a.
√ 1 1
Correction : Notons g : z ∈ R∗+ → z ; comme g0 (z) = √ et g(2) (z) = − 3/2 < 0
2 z 4z
k−2 1 n 2
pour tout z > 0, alors la fonction g est strictement concave ; en posant Z = ∑ Xi
k n i=1
on en déduit que l’estimateur â2 n’est pas sans biais pour le paramètre a puisque pour
tout a > 0,

k−2 1 n k−2
E(â2 ) = E(g(Z)) < g(E(Z)) = g( ∑ E(Xi2 )) = g( E(X 2 )) = g(a2 ) = a.
k n i=1 k

(e) Proposer un critère qui permettrait de comparer la performance des estimateurs â1
et â2 , tous deux estimateurs de a.
D’après le cours, la comparaison de la performance de deux estimateurs s’effectue à
partir de leur risque quadratique ; en effet â1 est meilleur que â2 si pour tout a > 0,

E((â1 − a)2 ) = Var(â1 ) ≤ E((â2 − a)2 ) = Var(â2 ) + (E(â2 ) − a)2 .

(f) Les estimateurs â1 et â2 sont-ils convergents pour le paramètre a ? (Justifier votre
réponse)
Ils le sont car la méthode des moments fournit des estimateurs convergents.
(g) L’estimateur â1 est-il asymptotiquement Gaussien ? (Justifier votre réponse). Si tel
est le cas, donner sa loi asymptotique.
â1 est asymptotiquement Gaussien car la méthode des moments fournit des estima-
teurs asymptotiquement Gaussiens. Comme â1 est sans biais et est convergent pour
a2
a et que Var(â1 ) = , alors
nk(k − 2)(k − 1)

a2
â1 ∼asymp. N (a, ).
nk(k − 2)(k − 1)

5
3. Simulation. (2 points bonus)
Si le logiciel R ne possédait pas de fonction pré-définie visant à simuler directement
des réalisations de variables aléatoires de Pareto, proposer une méthode alternative qui
permettrait de simuler avec le logiciel R, n = 20 variables aléatoires iid de loi de Pareto
L P(a, 3), avec a > 0.
Nous avons vu en TP que lorsque FX−1 , la fonction réciproque de FX , a une expression
analytique explicite, la variable aléatoire définie par Y = FX−1 (U) avec U ∼ U[0,1] a
la même loi de probabiltié que X, autrement dit, Y suit la loi L P(a, 3). Il suffit alors
de simuler n = 20 variables aléatoires de loi uniforme sur [0, 1] puis de définir Yi =
a
pour tout i = 1, . . . , n = 20.
(1 −Ui )1/3

4. Statistique descriptive et calcul de probabilté. (6 points)


On observe x1 , x2 , . . . , x20 les résultats numériques du montant du revenu de n = 20 ci-
toyens d’un pays voisin et on suppose que x1 , x2 , . . . , x20 sont les réalisations des va-
iid
riables aléatoires X1 , . . . , Xn ∼ X, avec X de loi L P(a, 3).

x1 = 1185.46 x2 =1238.95 x3 =2337.49 x4 =1465.81 x5 =1233.79

x6 =1413.86 x7 =1009.57 x8 =1157.17 x9 =1247.99 x10 = 1690.45

x11 = 1022.03 x12 =1406.41 x13 = 1268.29 x14 =1080.57 x15 =1725.88

x16 = 2800.41 x17 = 1097.52 x18 =1108.91 x19 =2187.93 x20 =1248.21

(a) En considérant les classes suivantes

C1 = [1000, 1250[, C2 = [1250, 1600[, C3 = [1600, 2200[, C4 = [2200, 3000]

représenter les données à l’aide d’un histogramme en précisant la hauteur de chaque


pavé.
Correction : Les hauteurs des quatre pavés sont 11/(20 ∗ 250) = 22 10−4 , 4/(20 ∗
350) = 5.7 10−4 , 3/(20 ∗ 600) = 2.5 10−4 et 2/(20 ∗ 800) = 1.25 10−4 .

6
Histogramme
0.0020
0.0015
densite d'effectif

0.0010
0.0005
0.0000

1000 1500 2000 2500 3000

Revenu

F IGURE 1 – Histogramme

(b) Représenter les données à l’aide d’un diagramme en tige et feuilles.


Correction : La tige est constituée de 1000, 1500, 2000 et 2500, répresentés res-
pectivement par "1", "1", "2" et "2" ; les feuilles sont les arrondies des centaines.
1 0 0 1 1 1 2 2 2 2 2 2 3 4 4
1 5 7 7
2 2 3
2 8
(c) Représenter les données à l’aide d’un boxplot (boîte à moustaches).
Correction : Premier quartile : 1108.91 ; médiane : 1247.99 ; troisième quartile :
1465.81 ; étendue interquartile : H = 356.9 ; borne inférieure de la moustache min(xi ) =
1009.57 ; borne supérieure de la moustache : 1725.88 plus grande valeur de la sé-
rie inférieure ou égale à 1465.81 + 1.5H = 2001.16 ; il reste trois valeurs aberantes :
2187.93, 2337.49 et 2800.41. Dans la graphe ci-dessous, il manque la représentation
d’une valeur aberrante.

7
2500
2000
1500
1000

F IGURE 2 – Boxplot

20 20
(d) Applications Numériques. On donne ∑ xi = 28 926.7 et ∑ xi2 = 46 246 364.
i=1 i=1
i. En utilisant la section Estimation (Partie 2) et à partir des réalisations x, . . . , x20
de X1 , . . . , X20 , donner deux estimations du paramètre a.
Correction : L’estimateur â1 fournit une estimation de a égale à 964.22 e ; l’es-
timateur â2 fournit une estimation de a égale à 877.93 e.
ii. En prenant pour a la valeur de son estimation fournie par l’estimateur â1 , dé-
terminer la proportion des individus ayant un revenu supérieur ou égal à 1590
e.
Il s’agit de d’estimer P(X ≥ 1590) = 1 − FX (1590) en utilisant la valeur 964.22
fournie par â1 et la question 1.(c) qui détermine FX , on en déduit que
P(X ≥ 1590) = 1 − Fx (1590) = (964.22/1590)3 = 0.223.
Il y a donc environ 22.3% d’individus dans cette population dontn le revenu est
supérieur à 1590 e.

Vous aimerez peut-être aussi