Median AC04 P19 Correction

AC04/P19 - MEDIAN - 02 Avril 2019–Correction
(Durée : 2 heures–Documents autorisés : tables de loi + une feuille recto)

Le barême est donné à titre indicatif.
Quelques résultats qui pourront être utiles :

1. Primitive puissance négative. Pour tout entier m > 0,
1 1 −m+1 1 1
Z Z
dx = x−m dx = − x +K = − +K, Kconstante quelconque.
xm m−1 m − 1 xm−1
2. Inégalité de Jensen. Si g est une fonction strictement concave (c’est vérifié en particulier
si sa dérivée seconde g(2) est strictement négative), alors, si les espérances existent,
E(g(X)) < g(E(X)).
Exercice 1. Cours. (4 points)

Soit X le nombre de fautes de frappe par page d’un manuscrit de n pages. On suppose que la
loi de X est la loi de Poisson P(λ ) avec λ = 0.75. Pour tout i = 1 . . . , n, la variable aléatoire Xi
iid
désigne le nombre de fautes de frappe de la page i. On suppose que X1 , . . . , Xn ∼ X.
1 n
1. Enoncer le Théorème Central Limite pour X̄ = ∑ Xi .
n i=1
Correction : La variable aléatoire X admet une espérance et une variance égale à 0.75 ;
X1 , . . . , Xn étant iid et de même loi que X, les conditions d’application du Théorème
Central Limite sont satisfaites ; nous obtenons donc
√ (X̄ − 0.75) L
n √ −→ N (0, 1), n → +∞
0.75
2. Une maison d’édition décide de rejeter les manuscrits qui contiennent trop de fautes de
frappe et décide d’en rejeter au plus 20%. On cherche à déterminer ` le nombre minimal
de fautes de frappe d’un manuscrit de 30 pages qui impliquerait son rejet par la maison
d’édition.
(a) Déterminer ` de manière approchée.
30
Correction : En posant Y = ∑ Xi , on peut utiliser la question précédente pour appro-
i=1
cher la loi de Y comme suit,
(Y − 30 ∗ 0.75) L
√ −→ N (0, 1), n → +∞.
30 ∗ 0.75
1
Il s’agit ensuite de déterminer le plus petit entier ` tel que
√ √
P(Y ≥ `) < 0.2 ⇔ P (Y − 30 ∗ 0.75)/ 30 ∗ 0.75 < (` − 30 ∗ 0.75)/ 30 ∗ 0.75 > 0.8
≈ √
⇔ φ ((` − 30 ∗ 0.75)/ 30 ∗ 0.75) > 0.8
√
⇔ (` − 30 ∗ 0.75)/ 30 ∗ 0.75 > 0.8416
√
⇔ ` > 30 ∗ 0.75 ∗ 0.8416 + 30 ∗ 0.75 = 26.49;
donc ` ≥ 27.
On aurait pu faire une correction de continuité et dans ce cas, on cherche le plus petit
entier ` tel que
√ √
P(Y ≥ `) < 0.2 ⇔ P (Y − 30 ∗ 0.75)/ 30 ∗ 0.75 < (` − 30 ∗ 0.75 − 0.5)/ 30 ∗ 0.75 > 0.8
≈ √
⇔ φ ((` − 30 ∗ 0.75 − 0.5)/ 30 ∗ 0.75) > 0.8
√
⇔ (` − 30 ∗ 0.75)/ 30 ∗ 0.75 > 0.8416
√
⇔ ` > 30 ∗ 0.75 ∗ 0.8416 + 30 ∗ 0.75 + 0.5 = 26.99;
donc on aurait également ` ≥ 27.
30
iid
(b) D’après un résultat vu TD, si X1 , . . . , X30 ∼ X avec X ∼ P(0.75) alors ∑ Xi ∼
i=1
P(30 ∗ 0.75). A partir de la table de loi d’un Poisson, déterminer ` de manière
exacte.
30
Correction : Comme ∑ Xi ∼ P(22.5), il s’agit de déterminer dans la table d’une loi
i=1
de Poisson avec λ = 22.5 le plus petit entier ` tel que
P(Y ≥ `) < 0.2 ⇔ P(Y < `) > 0.8) = FY (` − 1) > 0.8 ⇒ ` − 1 = 26 ⇔ ` = 27.
3. Déterminer de manière approchée la probabilité qu’un manuscrit de 30 pages contienne

au plus 20 fautes de frappe.
Correction : En utilisant la question 1 et en effectuant une correction de continuité, on
cherche
√ √
P(Y ≤ 20) = P (Y − 30 ∗ 0.75)/( 30 ∗ 0.75 ≤ (−2.5 + 0.5)/ 30 ∗ 0.75
≈ √
⇔ φ (−2/ 30 ∗ 0.75) ≈ φ (−0.42) = 1 − φ (0.42) = 1 − 0.6628 = 0.3372
Sans la correction de continuité, on obtient,

√ √
P(Y ≤ 20) = P (Y − 30 ∗ 0.75)/ 30 ∗ 0.75 ≤ −2.5/ 30 ∗ 0.75
≈ √
⇔ φ (−2.5/ 30 ∗ 0.75) ≈ φ (−0.53) = 1 − φ (0.53) = 1 − 0.7019 = 0.2981
2
On peut comparer ces deux valeurs à la valeur exacte 0.3474 de le fonction de répartition
d’une Poisson P(22.5) calculée en 20 et fournie par la table de loi d’une v.a. de Poisson.
Exercice 2. Loi de Pareto. (16 points + 2 points bonus)

La loi de Pareto est une loi de probabilité uselle qui est utilisée pour modéliser les montants de
sinistre (assurance) ou la répartition des revenus d’un pays (économie).
Soit f la fonction à valeurs réelles définie par
(
0 si x < a
f (x) = k , avec a > 0, k ∈ N∗ et d > 0.
d k+1 si x ≥ a
x
1. Caractérisation de la loi. (3 points)
(a) Trouver la valeur de la constante d en fonction de a et k pour que f soit une densité de
probabilité. La fonction f ainsi définie est la densité de la loi de Pareto de paramètres
a > 0 et k ∈ N∗ notée L P(a, k).
Correction : Il s’agit de déterminer la valeur de d positive telle que,
Z +∞
k
d dx = 1 ⇔ d[−x−k ]∞ k
a =1⇔ d=a .
a xk+1
ak k
Donc f (x) = I (x).
xk+1 [a,+∞[
(b) Soit X une variable aléatoire de loi L P(a, k), a > 0 et k ∈ N∗ . Déterminer FX , sa
fonction de répartition.
Correction : La fonction de répartition FX est définie pour tout y réel ; ∀y ∈ R,

 0 si y < a
Z y k
FX (y) = P(X ≤ y) = ak a k
 k+1
= 1 − ( ) si y ≥ a
a x y
Elle est à valeurs dans [0, 1[.
(c) Soit X une variable aléatoire de loi L P(a, k), a > 0 et k ∈ N∗ . Déterminer FX−1 , la
fonction réciproque de FX (c’est la fonction quantile de X).
Correction : On cherche à déterminer la fonction FX−1 , fonction réciproque de FX ,
c’est à dire, celle qui vérifie FX−1 (α) = y ⇔ FX (y) = α pour tout α ∈ [0, 1[. On a
immédiatement que FX−1 (0) = a et pour tout α ∈]0, 1[, on a
a
FX−1 (α) = y ⇔ 1 − ( )k = α
y
a k
⇔ k = 1−α
y
a
⇔ y=
(1 − α)1/k
3
a
On en déduit que FX−1 (α) = , ∀α ∈ [0, 1[.
(1 − α)1/k
2. Estimation. (7 points)
Dans la suite de l’exercice, X suit la loi de Pareto L P(a, 3) avec a > 0 inconnu.
Nous disposons d’un n-échantillon iid X1 , . . . , Xn de variable aléatoire parente X. Dans
la suite nous nous intéressons à l’estimation du paramètre a > 0.
(a) Déterminer E(X) et en déduire par la méthode des moments un estimateur â1 de a.
Correction : Si elle existe, l’espérance de X est déterminée par
ak k
Z +∞
E(X) = x dx
a xk+1
Z +∞ k
ak
= dx
a xk
1 −k+1 ∞ k
= ak k[− x ]a = a
k−1 k−1
k−1 1 n
On en déduit l’estimateur des moments â1 = X̄, avec X̄ = ∑ Xi .
k n i=1
(b) Déterminer E(X 2 ) et en déduire par la méthode des moments un estimateur â2 de a.
Correction : Si elle existe, le moment d’ordre 2 de X est déterminé par
ak k
Z +∞
E(X 2 ) = x2 dx
a xk+1
Z +∞ k
ak
= dx
a xk−1
1 −k+2 ∞ k 2
= ak k[− x ]a = a
k−2 k−2
s
k−2 1 n 2
On en déduit l’estimateur des moments â2 = ∑ Xi .
k n i=1
(c) Montrer que â1 est un estimateur sans biais pour a. Déterminer la variance de X̄ =
1 n
∑ Xi et en déduire la variance de â1.
n i=1
k
Correction : Comme E(X̄) = E(X) = a, on montre en utilisant la linéarité de
k−1
l’espérance que â1 est sans biais pour a,
k−1 k−1
E(â1 ) = E( X̄) = E(X̄) = a.
k k
Var(X) k
Les Xi étant indépendantes, Var(X̄) = = a2 puisque
n n(k − 2)(k − 1)2
k k k
Var(X) = a2 − ( a)2 = a2 .
k−2 k−1 (k − 2)(k − 1)2
4
On en déduit la variance de â1 :
k−1 2 k 2 a2
Var(â1 ) = ( ) a = .
k n(k − 2)(k − 1)2 nk(k − 2)(k − 1)
(d) En utilisant l’inégalité de Jensen, montrer que â2 n’est pas un estimateur sans biais
pour a.
√ 1 1
Correction : Notons g : z ∈ R∗+ → z ; comme g0 (z) = √ et g(2) (z) = − 3/2 < 0
2 z 4z
k−2 1 n 2
pour tout z > 0, alors la fonction g est strictement concave ; en posant Z = ∑ Xi
k n i=1
on en déduit que l’estimateur â2 n’est pas sans biais pour le paramètre a puisque pour
tout a > 0,
k−2 1 n k−2
E(â2 ) = E(g(Z)) < g(E(Z)) = g( ∑ E(Xi2 )) = g( E(X 2 )) = g(a2 ) = a.
k n i=1 k
(e) Proposer un critère qui permettrait de comparer la performance des estimateurs â1
et â2 , tous deux estimateurs de a.
D’après le cours, la comparaison de la performance de deux estimateurs s’effectue à
partir de leur risque quadratique ; en effet â1 est meilleur que â2 si pour tout a > 0,
E((â1 − a)2 ) = Var(â1 ) ≤ E((â2 − a)2 ) = Var(â2 ) + (E(â2 ) − a)2 .
(f) Les estimateurs â1 et â2 sont-ils convergents pour le paramètre a ? (Justifier votre
réponse)
Ils le sont car la méthode des moments fournit des estimateurs convergents.
(g) L’estimateur â1 est-il asymptotiquement Gaussien ? (Justifier votre réponse). Si tel
est le cas, donner sa loi asymptotique.
â1 est asymptotiquement Gaussien car la méthode des moments fournit des estima-
teurs asymptotiquement Gaussiens. Comme â1 est sans biais et est convergent pour
a2
a et que Var(â1 ) = , alors
nk(k − 2)(k − 1)
a2
â1 ∼asymp. N (a, ).
nk(k − 2)(k − 1)
5
3. Simulation. (2 points bonus)
Si le logiciel R ne possédait pas de fonction pré-définie visant à simuler directement
des réalisations de variables aléatoires de Pareto, proposer une méthode alternative qui
permettrait de simuler avec le logiciel R, n = 20 variables aléatoires iid de loi de Pareto
L P(a, 3), avec a > 0.
Nous avons vu en TP que lorsque FX−1 , la fonction réciproque de FX , a une expression
analytique explicite, la variable aléatoire définie par Y = FX−1 (U) avec U ∼ U[0,1] a
la même loi de probabiltié que X, autrement dit, Y suit la loi L P(a, 3). Il suffit alors
de simuler n = 20 variables aléatoires de loi uniforme sur [0, 1] puis de définir Yi =
a
pour tout i = 1, . . . , n = 20.
(1 −Ui )1/3
4. Statistique descriptive et calcul de probabilté. (6 points)

On observe x1 , x2 , . . . , x20 les résultats numériques du montant du revenu de n = 20 ci-
toyens d’un pays voisin et on suppose que x1 , x2 , . . . , x20 sont les réalisations des va-
iid
riables aléatoires X1 , . . . , Xn ∼ X, avec X de loi L P(a, 3).
x1 = 1185.46 x2 =1238.95 x3 =2337.49 x4 =1465.81 x5 =1233.79
x6 =1413.86 x7 =1009.57 x8 =1157.17 x9 =1247.99 x10 = 1690.45
x11 = 1022.03 x12 =1406.41 x13 = 1268.29 x14 =1080.57 x15 =1725.88
x16 = 2800.41 x17 = 1097.52 x18 =1108.91 x19 =2187.93 x20 =1248.21
(a) En considérant les classes suivantes
C1 = [1000, 1250[, C2 = [1250, 1600[, C3 = [1600, 2200[, C4 = [2200, 3000]
représenter les données à l’aide d’un histogramme en précisant la hauteur de chaque

pavé.
Correction : Les hauteurs des quatre pavés sont 11/(20 ∗ 250) = 22 10−4 , 4/(20 ∗
350) = 5.7 10−4 , 3/(20 ∗ 600) = 2.5 10−4 et 2/(20 ∗ 800) = 1.25 10−4 .
6
Histogramme
0.0020
0.0015
densite d'effectif
0.0010
0.0005
0.0000
1000 1500 2000 2500 3000
Revenu
F IGURE 1 – Histogramme
(b) Représenter les données à l’aide d’un diagramme en tige et feuilles.

Correction : La tige est constituée de 1000, 1500, 2000 et 2500, répresentés res-
pectivement par "1", "1", "2" et "2" ; les feuilles sont les arrondies des centaines.
1 0 0 1 1 1 2 2 2 2 2 2 3 4 4
1 5 7 7
2 2 3
2 8
(c) Représenter les données à l’aide d’un boxplot (boîte à moustaches).
Correction : Premier quartile : 1108.91 ; médiane : 1247.99 ; troisième quartile :
1465.81 ; étendue interquartile : H = 356.9 ; borne inférieure de la moustache min(xi ) =
1009.57 ; borne supérieure de la moustache : 1725.88 plus grande valeur de la sé-
rie inférieure ou égale à 1465.81 + 1.5H = 2001.16 ; il reste trois valeurs aberantes :
2187.93, 2337.49 et 2800.41. Dans la graphe ci-dessous, il manque la représentation
d’une valeur aberrante.
7
2500
2000
1500
1000
F IGURE 2 – Boxplot
20 20
(d) Applications Numériques. On donne ∑ xi = 28 926.7 et ∑ xi2 = 46 246 364.
i=1 i=1
i. En utilisant la section Estimation (Partie 2) et à partir des réalisations x, . . . , x20
de X1 , . . . , X20 , donner deux estimations du paramètre a.
Correction : L’estimateur â1 fournit une estimation de a égale à 964.22 e ; l’es-
timateur â2 fournit une estimation de a égale à 877.93 e.
ii. En prenant pour a la valeur de son estimation fournie par l’estimateur â1 , dé-
terminer la proportion des individus ayant un revenu supérieur ou égal à 1590
e.
Il s’agit de d’estimer P(X ≥ 1590) = 1 − FX (1590) en utilisant la valeur 964.22
fournie par â1 et la question 1.(c) qui détermine FX , on en déduit que
P(X ≥ 1590) = 1 − Fx (1590) = (964.22/1590)3 = 0.223.
Il y a donc environ 22.3% d’individus dans cette population dontn le revenu est
supérieur à 1590 e.

Median AC04 P19 Correction

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Median AC04 P19 Correction

Transféré par

Droits d'auteur :

Formats disponibles

AC04/P19 - MEDIAN - 02 Avril 2019–Correction

(Durée : 2 heures–Documents autorisés : tables de loi + une feuille recto)

Quelques résultats qui pourront être utiles :

E(g(X)) < g(E(X)).

Exercice 1. Cours. (4 points)

3. Déterminer de manière approchée la probabilité qu’un manuscrit de 30 pages contienne

Sans la correction de continuité, on obtient,

Exercice 2. Loi de Pareto. (16 points + 2 points bonus)

E((â1 − a)2 ) = Var(â1 ) ≤ E((â2 − a)2 ) = Var(â2 ) + (E(â2 ) − a)2 .

4. Statistique descriptive et calcul de probabilté. (6 points)

x1 = 1185.46 x2 =1238.95 x3 =2337.49 x4 =1465.81 x5 =1233.79

x6 =1413.86 x7 =1009.57 x8 =1157.17 x9 =1247.99 x10 = 1690.45

(a) En considérant les classes suivantes

C1 = [1000, 1250[, C2 = [1250, 1600[, C3 = [1600, 2200[, C4 = [2200, 3000]

représenter les données à l’aide d’un histogramme en précisant la hauteur de chaque

1000 1500 2000 2500 3000

(b) Représenter les données à l’aide d’un diagramme en tige et feuilles.

Vous aimerez peut-être aussi