Vous êtes sur la page 1sur 22

Statistique

MA1300

Énoncés des exercices

Lois usuelles et tables statistiques

Gilles Faÿ et Nicolas Vayatis

3 novembre 2011
ECP S5 - 2011/2012

2
ECP S5 - 2011/2012

Séquence no 1: Rappels de probabilités

lundi 14 novembre 2011

Exercice 1.1. Soit m ∈ R, σ P


≥ 0, et {Xi }i∈N∗ des variables aléatoires indépendantes de
1 n
loi N (m, σ 2 ). On pose X̄n = n i=1 Xi .

1. Donner la loi de X̄n , et calculer E((X̄n − m)2 ) et sa limite lorsque n → ∞.


2. Reprendre les questions précédentes en supposant toujours les {Xi } i.i.d mais plus
nécessairement gaussiennes.

Exercice 1.2. Soient {Xi }i∈N∗ des variables aléatoires indépendantes de loi uniforme sur
[0, θ]. On pose X(n) = maxi=1,...,n Xi .

1. Calculer P X(n) ≤ x pour tout x réel.

2. Donner limn→+∞ P n(θ − X(n) ) ≤ x et en déduire un résultat de convergence en
loi.

Exercice 1.3. Soient X1 , . . . , Xn des variables aléatoires indépendantes et de même loi


γ(1, θ), ayant comme densité

f (x) = θ exp(−θx)I(x > 0).

On pose X̄ = n1 ni=1 Xi . On vérifie facilement que E(X1 ) = 1/θ et Var(X1 ) = 1/θ2


P
et on admettra le résultat prouvé dans l’exercice 1.4, Question 5 : sous nos hypothèses,
nX̄ ∼ γ(n, θ), autrement dit

θn −θx n−1
fnX̄ (x) = e x I{x>0} .
Γ(n)

1. Donner la loi de X̄. Calculer E(1/X̄) et Var(1/X̄). Montrer que E(1/X̄) tend vers θ
quand n tend vers l’infini. Établir la relation
 2       2
1 1 1
E −θ = Var + E −θ ,
X̄ X̄ X̄

puis en déduire que


 2 
1
E −θ →0

quand n tend vers l’infini.

2. Monter que1/X̄ tend en probabilité vers θ. Donner la loi limite de n(X̄ − 1θ ), puis
√ 
celle de n X̄1 − θ . La variance de cette loi est–elle égale à limn→∞ nVar(1/X̄) ?

Exercices de Statistique page 3


ECP S5 - 2011/2012

Exercice 1.4. (Théorique) On dit que X suit une loi Gamma de paramètres p et θ
(p > 0, θ > 0), notée γ(p, θ) si sa densité (par rapport à la mesure de Lebesgue) est :

θp
f (x) = exp(−θx)xp−1 I(x > 0) ,
Γ(p)

ou de façon équivalente, sa fonction caractéristique est 1/(1 − it/θ)p .

1. Vérifier que c’est bien une loi de probabilité.


2. Calculer E(X) et Var(X)
3. Soit X de loi N (0, 1). Calculer la densité de X 2 .
4. Soient X et Y deux variables aléatoires indépendantes de lois respectives γ(p1 , θ) et
γ(p2 , θ).
– Donner la loi de X + Y .
X
– Montrer que X +Y et X+Y sont indépendantes et calculer leurs lois de probabilité.
5. Si X1 , . . . , Xn sont n variables aléatoires indépendantes de même loi γ(1, θ−1 ) (dite
loi exponentielle de paramètre θ), donner la loi de la somme Sn = X1 + . . . + Xn .
6. Si X1 , . . . , Xn sont n variables aléatoires indépendantes de même loi N (0, 1), donner
la loi de Z = X12 + . . . + Xn2 et calculer E(Z) et Var(Z).
Rappels :
Z ∞ √
Γ(α) = xα−1 exp(−x)dx, Γ(α + 1) = αΓ(α), ∀α > 0, Γ(1/2) = π,
0

Z 1
Γ(α1 )Γ(α2 )
B(α1 , α2 ) = uα1 −1 (1 − u)α2 −1 du = , ∀α1 , α2 > 0.
0 Γ(α1 + α2 )

Exercice 1.5. (Appliqué) On mesure le cours d’une action Yt au cours du temps (toutes
les minutes par exemple) et on s’intéresse à la modélisation des log-retours, c’est-à-dire des
quantités Xt = log(Yt+1 /Yt ). Sur le graphique, on a représenté la simulation d’une série
financière x1 , . . . , xn , ainsi que l’histogramme des valeurs observées et le profil de la queue
de distribution F : t 7→ #{Xi > t}/n, en coordonnées logarithmiques.
On rappelle qu’une variable de Cauchy de paramètre m et c admet une densité fm,c (x) =
1 1
πc 1+(x−m)2 /c2

1. Justifier l’utilisation d’une loi de Cauchy plutôt qu’une loi normale pour modéliser
les valeurs Xt observées.
2. Pour X une loi de Cauchy de paramètre m et c, que vaut E|X| ? Comment se com-
porte la moyenne empirique des Xi lorsque n → ∞ ?
3. Que vaut la médiane de X ? On dit que m est le paramètre de position de la loi.

4
ECP S5 - 2011/2012

0.2
0.1
x

−0.1 0.0

0 200 400 600 800 1000

Index
250
Frequency

150
0 50

−0.04 −0.02 0.00 0.02 0.04


1.00

x
0.05 0.20
F

0.01

0.020 0.025 0.030 0.035 0.040 0.045 0.050

Figure 1 – Série financière

Exercices de Statistique page 5


ECP S5 - 2011/2012

6
ECP S5 - 2011/2012

Séquence no 2: Estimation ponctuelle (1/2)

lundi 21 novembre 2011

Exercice 2.1. Application de la méthode delta


1. Soit X1 , ..., Xn un échantillon i.i.d. formé à partir de la loi de Poisson P(θ). Donner
un estimateur simple de θ et donner sa loi limite. Trouver une transformation qui
stabilise la variance. Quel est l’intérêt d’une telle transformation ?
2. Soit X1 , ..., Xn un échantillon i.i.d. formé à partir de la loi de Bernoulli B(θ). Déter-
miner la transformation T qui stabilise la variance satisfaisant T (0) = 0, T (1) = 1
et T 0 (t) ≥ 0 pour tout t.

Exercice 2.2. Supposons que l’on observe n variables aléatoires indépendantes et de


même loi X1 , . . . , Xn . Calculer l’estimateur du maximum de vraisemblance lorsque la loi
des variables Xi est :
1. Une loi de Poisson P(θ) de paramètre θ > 0.
2. Une loi exponentielle E(θ) de paramètre θ > 0.
3. Une loi admettant la densité exp{−(x − θ)}I(x ≥ θ), θ ∈ R.
On vérifiera dans chaque cas que l’on obtient bien le maximum global de la fonction
de vraisemblance.

Exercice 2.3. Soit X une variable aléatoire uniforme sur l’intervalle [0, 2a].
1. Donner l’espérance E(X) et la variance Var(X) de la variable X.
On considère une suite (Xk )k≥1 de n variables aléatoires indépendantes et de même
loi que X. Posons X̄n = n−1 (X1 + . . . + Xn ) et T = max{X1 , . . . , Xn }.
2. Justifier l’utilisation de ces statistiques dans le problème d’estimation de a.
3. Montrer que X̄ est un estimateur convergent de E(X). En déduire un estimateur
convergent de la variance.
4. Donner la densité de la variable T , son espérance et sa variance. En déduire un
estimateur sans biais de E(X).
5. Comparer les deux estimateurs.

Exercice 2.4. (Théorique) Soient X1 , . . . , Xn des variables aléatoires i.i.d. dont la


densité f est un mélange de deux densités gaussiennes N (0, 1) et N (0, 4) :
 2  2
1 x 1 x
f (x) = p √ exp − + (1 − p) √ exp − ,
2π 2 2 2π 8
où 0 < p < 1 est un paramètre inconnu que l’on souhaite estimer.

Exercices de Statistique page 7


ECP S5 - 2011/2012

1. Quelle difficulté rencontre-t-on pour traiter l’estimateur du maximum de vraisem-


blance ?
2. Expliciter pbn , l’estimateur de p obtenu à l’aide de la méthode des moments (on
utilisera le 2-ème moment).

pn − p)
3. Montrer que l’estimateur pbn est consistant et déterminer la loi limite de n(b
lorsque n → ∞.

Exercice 2.5. (Appliqué) Une étude préalable a montré que, dans une production en
grande série, 3% des pièces usinées par une certaine machine sont mauvaises. Un client
reçoit une caisse de 500 pièces en provenance de cette machine.
On s’intéresse à la probabilité p1 que le client trouve moins de 1% de pièces mauvaises
à l’intérieur de sa caisse ainsi qu’à la probabilité p2 qu’il trouve plus de 4, 5% de pièces
mauvaises, auquel cas il renverra la caisse à son fournisseur comme leur contrat le permet.
1. Modéliser X le nombre de pièce défectueuses dont on déterminera la loi, et s’en servir
pour calculer les valeurs exactes (ou approchées) de p1 et p2 .
2. Utiliser l’inégalité d’Hoeffding pour majorer p1 et p2 .
3. Utiliser le TLC pour donner une approximation de p1 et p2
4. Comparer ces trois résultats.

8
ECP S5 - 2011/2012

Séquence no 3: Estimation ponctuelle (2/2)

lundi 5 décembre

Exercice 3.1. Soient X1 , . . . , Xn des variables aléatoires i.i.d. de densité


f (x, θ) = (1 + θ)I{0≤x≤1/2} + (1 − θ)I{1/2<x≤1} ,

où θ ∈] − 1, 1[ est un paramètre inconnu que l’on souhaite estimer.


1. Calculer l’estimateur du maximum de vraisemblance θbnM V de θ.

2. Est-il consistant ? sans biais ? Déterminer la loi limite de n(θbnM V −θ) quand n → ∞.

Exercice 3.2. On suppose k fixé. On considère la famille de fonctions indexée par a > 0 :
ck xk si x ∈]0, a]

f (x, a) =
0 sinon

1. A quelles conditions cette famille de fonctions définit-elle un modèle statistique ?


Décrire ce modèle le cas échéant.
2. On considère un échantillon de n variables aléatoires indépendantes tirées avec la
densité f (x, a). Calculer l’espérance mathématique E(X) de la variable aléatoire X
de loi donnée par f (·, a). En déduire un estimateur b
a sans biais de a et montrer qu’il
est convergent.
3. Quelle est la loi de la variable aléatoire X(n) = max{X1 , . . . , Xn } ? On donnera sa
fonction de répartition et sa densité.
4. Donner un estimateur sans biais du paramètre a et calculer sa variance.

Exercice 3.3. Soient ξ1 , . . . , ξn des variables aléatoires i.i.d. de densité f (·) par rapport
à la mesure de Lebesgue sur R, et soit Xi ∈ R, i = 1, . . . , n. On observe les couples
(Xi , Yi ), i = 1, . . . , n, issus du modèle de régression linéaire

Yi = θXi + ξi ,

où θ ∈ R est un paramètre inconnu. On suppose d’abord que les Xi sont déterministes
(modèle de régression à effets fixes).
1. Expliciter la densité jointe de Y1 , . . . , Yn .
2. Montrer que si la loi de ξi est N (0, 1), la densité des (Y1 , . . . , Yn ) est
 n 
1 1X 2
exp − (Yi − θXi ) .
(2π)n/2 2
i=1

En déduire l’estimateur du maximum de vraisemblance θ̂M V de θ. Quelle est la loi


de θ̂M V ? Son risque quadratique ?

Exercices de Statistique page 9


ECP S5 - 2011/2012

3. On étudie le cas particulier de régression sur le temps : Xi = i. Quelle est la vitesse de


convergence du risque quadratique vers 0 dans ce cas ? Proposer la prévision linéaire
de Yn+1 basée sur (Y1 , . . . , Yn ).

Exercice 3.4. (Théorique) On considère une suite {Xi }i∈N de variable aléatoires de
Pareto de paramètres c > 0 et α > 0, dont la densité est donnée par

fc,α (x) = αcα x−(α+1) Ix>c

On suppose dans un premier temps c = 1.


1. Trouver α̂nMV l’estimateur du maximum de vraisemblance de α.
2. Calculer sa variance.
3. Calculer l’information de Fisher et conclure que l’estimateur α̂nMV est asymptotique-
ment efficace.
4. Calculer l’estimateur du maximum de vraisemblance de c lorsque α est connu. Le
modèle statistique est-il régulier ?

Exercice 3.5. (Appliqué) Le tableau suivant donne le coût horaire de la main d’œuvre
en France (X) et en Allemagne (Y ).

1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007
France 22.52 22.94 23.57 24.84 26 27.04 27.68 28.46 29.29 30.25 31.24
Allemagne 23.3 23.6 24 25 25.6 26.2 26.8 26.9 27.1 27.6 27.8

Table 1 – Coût horaire de la main d’œuvre (en ¤, source Eurostat)


P P P P 2
1. On
P donne i Xi = 293.83, i Yi = 283.9, i Xi Yi = 7631.36, i Xi = 7938.18,
Y 2 = 7553.5. Calculer le coefficient de corrélation entre X et Y . Justifier alors
i i
l’utilisation d’un modèle de régression linéaire simple entre X et Y .
2. Calculer l’équation de la droite de régression et la représenter avec les données. Cette
droite a pour équation y = ax + b où (a, b) minimise le critère des moindres carrés
n
X
C(a, b) = (Yi − aXi − b)2 .
i=1

3. Donner une prédiction du coût du travail en Allemagne en 2008, sachant qu’il était
de 31¤97 en France. En supposant que a et b ont été parfaitement estimés, donner
une estimation grossière de l’erreur de prédiction.

10
ECP S5 - 2011/2012

Séquence no 4: Intervalles de confiance

mardi 6 décembre 2011

NB : On notera indifférement qαN ou Φ−1 (α) le quantile d’ordre α de la loi normale standard.

Exercice 4.1. On dispose d’un échantillon de taille n = 400 d’une loi de Poisson P(θ)
de paramètre θ inconnu. Proposer un intervalle de confiance au niveau asymptotique 0.99
pour θ fondé sur l’estimateur du maximum de vraisemblance.

Exercice 4.2. On désire estimer, avec une précision fixée, la valeur de la variance d’une
loi normale. On va calculer la taille de l’échantillon nécessaire pour obtenir cette précision.

1. Préciser la loi limite d’une variable aléatoire suivant une loi du χ2 (n) à n degrés de
liberté, lorsque n tend vers l’infini.
2. On considère n réalisations indépendantes XP
1 , . . . , Xn d’une variable X suivant une
2 2 −1 n 2 2
loi normale N (m, σ ). Soit σ̂ = (n − 1) i=1 (Xi − X̄) . Montrer que σ̂ est un
estimateur sans biais de la variance.
3. Trouver la valeur de n telle que :

σ̂ 2
 
P 1−< 2 <1+ =1−α
σ

pour  > 0 et α ∈]0, 1[ fixés.


4. Applications numériques :  = α = 0, 05 et  = α = 0, 01.

Exercice 4.3. On effectue un sondage sur un échantillon de 400 électeurs. On relève 212
intentions de vote en faveur d’un candidat A, 188 pour B.

1. Donner, au niveau de 95%, un intervalle de confiance des intentions de vote en faveur


de A dans la population entière.
2. Quelle taille minimale de l’échantillon faudrait-il prendre pour que, au même niveau
de 95%, avec la même proportion de votants pour A, l’intervalle ne contienne pas la
valeur 0,5 ?

Exercice 4.4. (Théorique) Soit {Xi }i=1,...,n un échantillon i.i.d. de loi uniforme sur
[0, θ].
1. Montrer que θ/X(n) est une fonction pivotale.
2. Trouver le plus petit intervalle de confiance de la forme [aX(n) , bX(n) ] où a et b sont
à déterminer, et de niveau 1 − α.
3. A partir du résultat de convergence établi dans l’exercice 1.2, déduire un intervalle
de confiance asymptotique de niveau 1 − α de la même forme que le précédent.
Commenter.

Exercices de Statistique page 11


ECP S5 - 2011/2012

Exercice 4.5. (Appliqué) Une usine produit en série des tôles métalliques dont la
surface est modélisée par une variable aléatoire X normale de variance égale à 16. Après
mise en place d’un nouveau processus de fabrication, on prélève un échantillon de 28 tôles
afin de déterminer une estimation de la moyenne m de X.
1. On trouve une moyenne empirique X = 45, 25 dm2 . Construire un intervalle de
confiance pour m au niveau 95% en supposant que la variance n’a pas changée au
moment de la mise en place du nouveau processus.
2. Pour un même niveau de confiance, on souhaite réduire la largeur de l’intervalle
trouvé dans la question précédente en choisissant un échantillon de taille supérieure.
En souhaitant obtenir une largeur d’intervalle de 1 dm2 , quelle doit être la taille du
nouvel échantillon ?
3. On considère maintenant que la variance de la variable X ne peut pas être supposée
invariante suite à la mise en place du nouveau processus. On relève la variance
empirique de l’échantillon et on trouve s2 = 16 dm4 . Construire le nouvel intervalle
de confiance de m avec le même niveau de confiance et le comparer à celui trouvé
dans la première question.

Exercice 4.6. (Facultatif ) Soient X1 , . . . , Xn des variables aléatoires i.i.d., dont la


densité est
f (x, θ) = θ2 x exp(−θx)I(x ≥ 0) , où θ > 0 .

1. Chercher l’estimateur θbnM M de θ par la méthode des moments.


2. Chercher l’estimateur du maximum de vraisemblance θbM V et donner son risque qua-
n
dratique.
3. Proposer un estimateur sans biais et comparer le à θbnM V .
4. Donner un intervalle de confiance pour θ au niveau asymptotique 1 − α, où α > 0.

12
ECP S5 - 2011/2012

Séquence no 5: Tests

lundi 2 janvier 2012

Exercice 5.1. Tests non-paramétriques


Un spécialiste en acoustique urbaine a effectué une étude sur le caractère fluctuant du
bruit de la circulation urbaine sur une artère commerçante d’une grande ville. Des mesures
de niveaux de bruits ont été effectuées à l’aide de compteurs électroniques. Les résultats de
800 mesures, en excès par rapport à 46 décibels, sont donnés dans le tableau ci-dessous :

Niveau de bruit Fréquence absolue


0≤X<4 4
4≤X<8 27
8 ≤ X < 12 62
12 ≤ X < 16 147
16 ≤ X < 20 229
20 ≤ X < 24 172
24 ≤ X < 28 115
28 ≤ X < 32 33
32 ≤ X < 36 9
36 ≤ X < 40 2

1. Donner une estimation de la moyenne et de la variance de la distribution des niveaux


de bruit. Tracer l’histogramme de la variable X ainsi définie. Quel objet est estimé
par cet histogramme ? Proposer un modèle statistique pour ces observations.
2. Effectuer un test du χ2 et un test de Kolmogorov-Smirnov pour tester le choix d’une
distribution normale. On choisira des valeurs entières pour estimer les paramètres de
la loi.

Exercice 5.2. Soit X une v.a. de densité f (x; θ) = θxθ−1 I{0<x<1} avec θ ∈ {θ : θ = 1, 2}.
Afin de tester H0 : θ = 1 contre H1 : θ = 2, on utilise un échantillon X1 , X2 de taille n = 2
et on définit la région critique W = {(x1 , x2 ) : 34 ≤ x1 x2 }.
1. Donner la taille du test.
2. Donner sa puissance.

Exercice 5.3. Un grand groupe pétrolier étudie l’éventualité d’une fermeture de ses
stations service dans un pays européen car celles-ci ne lui semblent pas rentables. Pour
cela, il considère le litrage de ces stations, en un type donné de carburant, durant une année
de fonctionnement. Il a été démontré que l’ensemble des stations service se distribue, en
matière de litrage, selon la fonction de répartition suivante, où a est un paramètre positif
inconnu :
F (x) = 1 − e−x/a I(x > 0) .


Exercices de Statistique page 13


ECP S5 - 2011/2012

Pour justifier les fermetures, le directeur du groupe commande un test statistique sur un
échantillon de 20 stations. Les hypothèses du test sont les suivantes :

H0 : a = a0 = 800m3 /an


H1 : a = a1 = 1000m3 /an

1. Appliquer la méthode de Neyman-Pearson pour déterminer la statistique de test T .


2. Montrer que 2T /a est une fonction pivotale (sa loi est libre). En déduire la région
critique. Pour l’application numérique, on choisira un risque de α = 5%.
3. Calculer la puissance du test.
4. Quelle conclusion doit-on tirer du test si le relevé du litrage des vingt stations donne :
850 930 1240 1120 1080 1060 1305 1020 1045 1090
780 1180 1170 1065 985 1090 1220 970 1110 1250

5. Quelle devrait être la taille de l’échantillon pour que les risques de première et de
deuxième espèce soient égaux à 5% ?

Exercice 5.4. (Théorique) On suppose que l’on observe X1 , . . . , Xn , i.i.d. de loi N (µ, 1).
On veut tester H0 : µ = 0 contre H1 : µ = m < 0.

1. Rappeler la forme du test de Neyman-Pearson de niveau α ∈ (0, 1) pour ce problème.


Calculer la puissance de ce test en fonction de m, et tracer son graphe. Etudier ce
graphe lorsque n tend vers +∞. Peut–on parler de la convergence uniforme de la
fonction puissance pour m ∈ R− ?
2. On considère l’alternative dépendant de n

H1 : µ = −Cn−γ

avec C > 0 et γ ∈ R. Etudier le comportement de la puissance du test en fonction


de γ lorsque n tend vers +∞.

Exercice 5.5. (Appliqué) On veut vérifier que la précision d’une balance n’a pas di-
minué au bout d’un an de fonctionnement. Si on pèse un poids d’un gramme, on peut
considérer que l’observation faite est la réalisation d’une variable aléatoire X qui suit une
loi normale de moyenne m = 1 g et d’écart-type s0 = 1, 5 mg. Si, au bout d’un an on
constate que l’écart-type s a augmenté, on conclut que la précision a diminué.

1. On veut tester : 
H0 : s = s0 = 1, 5 mg
H1 : s = s1 = 2 mg
En appliquant la méthode de Neyman et Pearson, définir la variable de décision, sa
loi et donner la région critique. On prendra un échantillon de taille n = 10 et un
risque de première espèce α = 0, 10.
2. Quelle est la puissance du test ?
3. Que doit-on conclure si les résultats de 10 pesées donnent, en mg :
997 999 1002 1001 1003 998 999 1002 997 1001

14
ECP S5 - 2011/2012

Séquence no 6: Tests et ACP

16 janvier 2012

Exercice 6.1. La législation sur les problèmes d’environnement impose des normes de
plus en plus strictes. Une usine de traitement industriel des résidus urbains d’une grande
ville rejette dans l’atmosphère un certain nombre d’éléments polluants, en particulier de
la dioxine. Il a été prouvé par de nombreuses mesures que la teneur en dioxine des rejets
de cette usine dans l’atmosphère suit une loi normale de paramètres m = 0, 11 ng/m3 et
s = 0, 01 ng/m3 . Or une nouvelle norme a été adoptée et l’usine a six mois pour avoir des
rejets de moyenne 0, 10 ng/m3 maximum. Une entreprise propose un traitement des rejets
afin de respecter la nouvelle réglementation et souhaite vendre son procédé à l’usine qui
n’effectuera cet investissement que si elle est certaine du résultat. Pour tester l’efficacité
du procédé proposé, l’usine traite 11 lots de ses rejets et les teneurs en dioxine à la sortie
sont les suivantes :
0,114 0,096 0,115 0,105 0,120 0,100 0,110 0,080 0,085 0,112 0,113

1. Peut-on affirmer, au risque 5%, que le procédé ne permet pas de respecter la nouvelle
norme concernant la teneur en dioxine des rejets ? On précisera clairement tous les
éléments du test effectué.
2. Quelle est la puissance minimale du test ?
3. Le directeur de l’usine souhaitant un risque de deuxième espèce maximum égal à 2%
combien d’observations seront-elles nécessaires ?
4. Une étude des mesures effectuées depuis de longues années montre que la dispersion
des mesures est très fortement influencée par les conditions climatiques et qu’il est
impossible en fait de supposer connue la valeur de l’écart-type s. Reprendre alors les
questions 1 et 2.

Exercice 6.2. 1. Parmi les matrices suivantes, lesquelles peuvent être la matrice de
covariance d’un vecteur aléatoire X ∈ R2 ?
       
1 2 −1 −1/2 1 1/2 1 1/2
, , , .
2 1 −1/2 −1 1/2 1 1/3 1
On note Σ les matrices répondant à la question, et on suppose désormais que X est
de loi N2 (0, Σ).
2. Calculer, pour chaque matrice Σ, les valeurs propres (λ1 , λ2 ) et les vecteurs propres
associés (V1 , V2 ).
3. Donner la loi jointe de V1T X et V2T X.

Exercice 6.3. On désire tester les hypothèses suivantes concernant un certain pourcen-
tage : 
H0 : p = p0 = 0, 20
H1 : p = p1 6= 0, 20

Exercices de Statistique page 15


ECP S5 - 2011/2012

On utilise un échantillon de variables aléatoires de Bernoulli indépendantes de taille


n = 100. La région d’acceptation du plan d’échantillonnage est :

0, 12 ≤ p̂ ≤ 0, 28

où p̂ est la moyenne empirique des réalisations des variables de Bernoulli.

1. Calculer le risque de première espèce associé à ce plan d’échantillonnage.


2. Définir le risque de deuxième espèce, puis le calculer pour les valeurs suivantes de p :
0,10 / 0,15 / 0,20 / 0,25 / 0,30.
3. Tracer la courbe de la fonction puissance.

Exercice 6.4. (Théorique) Soient X1 , . . . , Xn des variables aléatoires i.i.d. dont la loi
admet la densité f (x − θ), où f (x) = 2(1 − x)I{0 ≤ x ≤ 1}. On veut tester l’hypothèse
H0 : θ ≥ 1 contre l’alternative H1 : θ < 1. Introduisons les régions critiques

Rc = {X(1) < c}

et
R̃c = {X(n) < c}.
Le but de cet exercice est de comparer le test basé sur Rc avec celui basé sur R̃c .
1. Calculer la fonction puissance π associée à Rc et vérifier que cette fonction est mo-
notone.
2. Quelle valeur critique c faut-il choisir pour que le test associé à Rc soit de niveau
5% ?
3. Calculer la fonction puissance π̃ associée à R̃c , où c est choisi de telle façon que le
test soit de niveau 5%.
4. Comparer les fonctions puissance π et π̃ pour les tests de niveau 5%. Peut–on affirmer
qu’un de ces tests est plus puissant que l’autre ?
5. Analyser l’asymptotique de π et π̃ quand n → ∞ et c reste fixé.

Exercice 6.5. (Appliqué) Pour déterminer le poids moyen d’épis de blé appartenant à
une variété particulière, on a procédé à 10 pesées réalisées sur des épis tirés au hasard. On
suppose que le poids des épis appartenant à cette variété est une variable aléatoire suivant
une loi normale de moyenne m et de variance σ 2 , ces deux paramètres étant inconnus.
1. Les observations sont les suivantes :
194,46 183,16 171,57 177,38 155,37 205,61 171,24 207,73 175,54 188,30
– Donner un intervalle de confiance au niveau 95% pour la moyenne m.
– Donner un intervalle de confiance au niveau 95% pour la variance σ 2 .
2. La proportion d’utilisateurs de cette variété dans la région était égale à 15%. Soit p̂
la proportion d’utilisateurs de cette variété parmi n agriculteurs.
(a) Déterminer, à partir du théorème de la limite centrale, le nombre minimal d’agri-
culteurs que l’on doit interroger pour que :

P {|p̂ − p| ≤ 0, 01} ≥ 0, 95

16
ECP S5 - 2011/2012

(b) A la suite d’une campagne publicitaire, on a constaté que, sur un échantillon de


5000 agriculteurs, dorénavant 1125 utilisent la variété considérée. Donner un in-
tervalle de confiance au niveau 95% pour la nouvelle proportion p0 d’utilisateurs
de la variété dans la région.
(c) Peut-on dire, au risque de 5% de se tromper, que la publicité a influencé les
agriculteurs ?

Exercice 6.6. (Appliqué) Pendant 28 ans, un laboratoire a observé des réalisations de


4 variables météorologiques suivantes :
– A1 : précipitations en juillet (en mm)
– A2 : température moyenne en juillet (en degrés Celsius)
– A3 : vitesse moyenne du vent en juillet (en km/h)
– A4 : précipitations en septembre (en mm)
La matrice de covariance empirique obtenue à partir de ces observations est la suivante :
 
140, 017 107, 881 139, 068 109, 095
 × 106, 038 110, 0439 82, 627 
S= 
 × × 168, 752 125, 136 
× × × 108, 960

Les corrélations empiriques r̃ij entre les variables et les composantes principales sont
reportées dans la matrice suivante :
 
0, 969 −0, 103 0, 191 0, 119
 0, 906 −0, 394 −0, 105 −0, 111 
R̃ = (r̃ij )1≤i,j≤4 =  
 0, 970 0, 160 −0, 156 0, 090 
0, 943 0, 249 0, 096 −0, 197

1. Calculer les variances empiriques des composantes principales et tracer le scree-graph.


2. Calculer la part de variance de la première variable expliquée par les deux dernières
composantes principales et la part de variance de la deuxième variable expliquée par
les deux premières composantes principales.
3. Faire la projection des variables sur le disque des corrélations et commenter le résul-
tat.

Exercices de Statistique page 17


ECP S5 - 2011/2012

18
ECP S5 - 2011/2012

Lois usuelles

– Loi de Bernoulli B(p)


Domaine x ∈ {0, 1}
Paramètre p ∈ [0, 1]
Fonction de masse : f (x) = px (1 − p)1−x , Espérance : p , Variance : p(1 − p)
– Loi binomiale B(n, p)
Domaine x ∈ {0, 1, . . . , n}
Paramètre (n, p), n ∈ N∗ , p ∈ [0, 1]
Fonction de masse : f (x) = Cnx px (1−p)1−x , Espérance : np , Variance : np(1−p)
– Loi de Poisson P(λ)
Domaine x ∈ {0, 1, 2, . . .}
Paramètre λ, λ > 0
Fonction de masse : f (x) = e−λ λx /x! , Espérance : λ , Variance : λ
– Loi exponentielle E(λ)
Domaine x ∈ R+
Paramètre λ, λ > 0
Densité : f (x) = λ−1 e−x/λ , Espérance : λ , Variance : λ2
Attention, la convention f (x) = λe−λx existe également.
– Loi gaussienne N (m, σ 2 )
Domaine x ∈ R
Paramètre (µ, σ 2 ), µ ∈ R, σ 2 > 0
2
Densité : f (x) = √ 1 2 exp{− (x−µ)
2σ 2 }, Espérance : µ , Variance : σ 2
2πσ
Attention, les notations N (m, σ) et N (m, σ 2 ) coexistent.
– Loi du chi-deux χ2p
On considère un échantillon i.i.d. de p variables gaussiennes centrées réduites X1 , . . . , Xp .
La variable aléatoire
Y = X12 + . . . + Xp2 ∼ χ2 (p)

est une variable dite du chi-deux de Pearson à p degrés de liberté. Sa densité est
donnée par :
f (y) = C(p)y p/2−1 e−y/2 I{y > 0}

où C(p) = (2p/2 Γ(p/2))−1 . On note que la loi du χ2 (p) correspond à une loi γ(p/2, 1/2).

Espérance : p , Variance : 2p
– Loi de Student tp
Soit U ∼ N (0, 1) et V ∼ χ2p deux v.a. indépendantes. La variable aléatoire

U
Y =p ∼ t(p)
V /p

est une variable de Student à p degrés de liberté. Sa densité est donnée par :
−(p+1)/2
x2

f (x) = C(p) 1 +
p

où C(p) = ( pB(1/2, p/2))−1 et B(p, q) = Γ(p)Γ(q)/Γ(p + q).

Lois de probabilités usuelles page 19


ECP S5 - 2011/2012

Fonction de répartition de la loi gaussienne centrée réduite N (0, 1)

20
ECP S5 - 2011/2012

Quantiles de la loi du chi-deux χ2df à ’df ’ degrés de liberté

Tables statistiques page 21


ECP S5 - 2011/2012

Quantiles de la loi de Student tν à ν degrés de liberté

22

Vous aimerez peut-être aussi