Vous êtes sur la page 1sur 24

AgroParisTech, cursus IA

Mathématiques

Travaux Dirigés de Statistique


Première Année

Equipe pédagogique : L. Bel, A. Lavigne, J.-B. Léger, E. Pommiès, C. Vuillet

2012-2013
Date COURS/TD Contenu Chapitre à Devoir
lire avant le
TD
17 oct TD 1 Probabilités (rappels) Chapitre 7 Devoir 1 à rendre
au TD 3
24 et 25 oct TD 2 Probabilités (rappels) Chapitre 7
30 oct COURS 1 Présentation générale du cours + Estima-
tion ponctuelle
31 oct TD 3 Estimation de paramètres : paramètre, es- Chapitre 3 Devoir 2 à rendre
timation, estimateur, EQM, MV au TD5
6 nov COURS 2 Estimation par intervalles, tests sur un pa-
ramètre
7 et 8 nov TD 4 Intervalle de confiance Chapitre 3
14 nov TD 5 Tests d’hypothèses Quiz1 : vérification Chapitre 3 Devoir 3 à rendre
des connaissances sur le Chapitre 3. au TD 7
23 nov TD 6 Tests d’hypothèses, puissance Chapitre 4
27 nov COURS 3 Tests sur deux populations, tests du χ2
28 nov TD 7 Comparaison de 2 populations. Chapitre 5 Devoir 4 à rendre
au TD10
5 dec TD 8 Tests du χ2 Quiz2 : vérification des Chapitre 5
connaissances sur le Chapitre 5.
7 dec TD 9 Régression linéaire. Pas de cours en amphi Chapitre 6
sur ce sujet, la régression sera présentée en
TD.
14 dec TD 10 Régression linéaire Chapitre 6
19 dec TD 11 Régression linéaire Chapitre 6
janvier Examen Seul document autorisé : le livre (sans
écrit fiches ajoutées). Calculette conseillée

Certains TD et devoirs nécessitent de télécharger des fichiers de données. Ces fichiers (et d’autres
documents liés au cours) sont disponibles sur le site ”Les cours en ligne d’AgroParisTech”
http://tice.agroparistech.fr, rubriques ”Liste des cours”, ”Mathématiques”,
”Statistique Tronc commun 1ère Année”.

Retour des devoirs corrigés à J + 7 si J est la date de remise des copies par les élèves.
Le cours doit être revu et les TD préparés avant la séance.
En début de TD5 et de TD8 il y aura un quizz sur les notions déjà vues.
Un exercice test (T) surprise sera programmé. Tous sont notés sur 20 sauf le test qui est noté sur 10.
Si l’effet correcteur est statistiquement significatif, les notes de devoir et d’examen sont corrigées de
cet effet, sauf les notes d’examen inférieures à 6 qui ont droit à une double correction.
Lors des quizz et du test aucun document n’est autorisé. La calculatrice peut être autorisée ou interdite
suivant les épreuves.

Contrôle des connaissances.


La note du module est la moyenne de la note de l’examen (Y ), de celle des devoirs (X1 , X2 , X3 , X4 )
de Test (T ) et de Quizz (Q1 , Q2 ), avec un seuil éliminatoire appliqué à la note de l’examen
Z = [Y + 1/6.5(Q1 + Q2 + T + X1 + X2 + X3 + X4 )]/2 si Y >= 6
Z = Y si Y < 6
Table des matières

1 Densité de probabilité, fonction de répartition 3


1.1 Contrôle qualité en usine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Quantile de la loi N (0, 1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Canettes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.4 Densité de la loi du χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.5 Devoir : Loi de la variance empirique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2 Variance, covariance, corrélation 5


2.1 Utilisation de la calculette . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2 Interprétation de la variance, covariance et corrélations empiriques . . . . . . . . . . . 5
2.3 Variance d’une moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.4 Covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

3 Estimation de paramètres 7
3.1 Estimateurs du maximum de vraisemblance en modèle gaussien . . . . . . . . . . . . . 7
3.2 Loi exponentielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.3 Devoir : Evénements extrêmes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

4 Intervalle de confiance pour un paramètre 9


4.1 Boeufs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
4.2 Albinos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
4.3 Loi exponentielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

5 Tests d’hypothèses (1) 10


5.1 Les bouteilles de vin contiennent-elles 75cl ? . . . . . . . . . . . . . . . . . . . . . . . 10
5.2 Devoir : Contrôle des OGM des semences . . . . . . . . . . . . . . . . . . . . . . . . . 10

6 Tests d’hypothèses (2) 12


6.1 Calcul de la puissance du test de H0 = {µ = µ0 } . . . . . . . . . . . . . . . . . . . . . 12
6.2 Agressivité de jumeaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

7 Tests d’hypothèses (3) 13


7.1 Comparaison de deux variétés de maı̈s . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
7.2 Comparaison de deux méthodes de séchage . . . . . . . . . . . . . . . . . . . . . . . . 13
7.3 Devoir . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
7.3.1 Partie préliminaire(3pts) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
7.3.2 Durée de vie d’un projecteur de cinéma(5pts) . . . . . . . . . . . . . . . . . . . 14
7.3.3 Intervalle de confiance et test (5pts) . . . . . . . . . . . . . . . . . . . . . . . . 14

8 Tests du χ2 d’indépendance et tests d’ajustement à une loi 15


8.1 Test du χ2 d’indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
8.2 Test du χ2 d’ajustement à une loi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
8.3 Test de Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

1
9 Régression 17
9.1 Pollution et mortalité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

10 Régression (2) 19
10.1 Tests de H0 = {b = 0} . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

11 Régression (3) 20
11.1 Températures et insolation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
11.2 Pièges . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

12 Erratum du livre 22
Chapitre 1

Densité de probabilité, fonction de


répartition

1.1 Contrôle qualité en usine


Le responsable qualité d’une usine contrôle 20 objets dans chaque lot de 1000 objets avant de le laisser
partir vers le client. Les lots ne sont acceptés que si on ne trouve aucun objet non conforme dans
l’échantillon (dans le cas contraire, le lot est trié unité par unité).
Quelle est la loi de probabilité de X, nombre d’objets non conformes dans l’échantillon ? Calculer la
probabilité qu’un lot contenant une proportion p = 0.05 d’objets non conformes soit accepté. Même
question pour p = 0.1. Le responsable qualité proclame partout qu’il fait du ”zéro défaut” parce qu’il
n’accepte aucun produit non conforme. Qu’en pensez-vous ?

1.2 Quantile de la loi N (0, 1)


Utiliser la table de la fonction de répartition de la loi Normale N (0, 1) pour obtenir :
1. P(Z > 1) où Z ∼ N (0, 1)
2. P(−1.645 < Z < 1.645) où Z ∼ N (0, 1)
3. P(−1.96 < Z < 1.96) où Z ∼ N (0, 1)
4. P(−3.09 < Z < 3.09) où Z ∼ N (0, 1)
5. les quantiles Z0.95 et Z0.05

1.3 Canettes
Une usine fabrique des canettes de diamètre intérieur moyen 50mm avec un écart- type de 0,8mm. Le
cahier des charges alloue une tolérance inférieure de 48mm et supérieure de 52mm (dans le cas où ces
tolérances ne sont pas respectées, la canette est déclaré ”non conforme”).
1. En admettant que les diamètres sont distribués selon une loi normale, quelle est la proportion
de canettes ”non conformes” ?
2. On suppose que le processus de fabrication s’est déréglé et produit avec une espérance égale à
49mm. Quelle est la proportion de canettes non conformes ?

1.4 Densité de la loi du χ2


1. Soit X une variable aléatoire de loi normale centrée et réduite. On veut obtenir la densité de
probabilité de la variable aléatoire Z = X 2 . La loi de probabilité de Z est appelée loi du χ2 à

3
un degré de liberté. Démontrer que sa densité est
1 1 1
g1 (z) = √ e− 2 z z − 2

Pour l’obtenir on pourra dériver la fonction de répartition de Z, F (z) = P (Z < z) et utiliser le
fait que la loi de X est connue.
2. Soit (X1 , X2 , ...Xn ) n variables aléatoires indépendantes et deP
même loi normale centrée et
réduite. Démontrer par récurrence sur n que la densité de Zn = i=1,n Xi2 est égale à :
1 1
gn (z) = K(n)e− 2 z z 2 n−1
où K(n) est une constante dépendant de n. La loi de Z est appelée loi du χ2 à n degrés de
liberté.
Rappel : si U et V sont 2 variables aléatoires indépendantes à valeur dans R+ , de densités
respectives
R t fU et fV , la densité de T = U + V est fT obtenue par convolution de fU et fV :
fT (t) = 0 fU (t − v)fV (v)dv.
3. Déterminer E(Zn ) et V(Zn )

1.5 Devoir : Loi de la variance empirique


Soit (X1 , X2 , ...Xn ) n variables aléatoires indépendantes et de même loi normale N (m, σ 2 ). Soit X̄n =
n
1X
Xi . La variance empirique qui sert à estimer la valeur de σ 2 est
n
i=1
n
1 X
Sn2 = (Xi − X̄n )2 .
n−1
i=1

Le but du problème est de trouver la loi de probabilité de Sn2 .


On sait que si (V1 , V2 , ...Vn ) sont n variables aléatoires indépendantes et de même loi N (0, 1), Tn =
Xn
Vi2 est distribuée selon une loi du χ2 à n degrés de liberté.
i=1
Xi − µ
1. Soit Yi = . Montrer que
σ
n
X n
X
σ2 (Yi − Ȳn )2 = (Xi − X̄n )2
i=1 i=1
n
X
2. Soit Zn = (Yi − Ȳn )2 . Pourquoi ne peut-on pas affirmer que Zn suit une loi du χ2 à n degrés
i=1
de liberté ?
3. Montrer que Z2 suit une loi du χ2 à 1 degré de liberté.
4. Montrer que
1 1
Z3 = (Y1 − Y2 )2 + (Y1 + Y2 − 2Y3 )2
2 6
Calculer V(Y1 −Y2 ), V(Y1 +Y2 −2Y3 ) et Cov(Y1 −Y2 , Y1 +Y2 −2Y3 ). En déduire que Z3 suit une loi
du χ2 à 2 degrés de liberté. (On admettra que la nullité de la covariance implique l’indépendance
car on est dans le cas gaussien).
1 1
5. Montrer que Ȳn+1 = Ȳn − n+1 Ȳn + n+1 Yn+1 et en déduire par récurrence que
1 1 1
Zn = (Y1 − Y2 )2 + (Y1 + Y2 − 2Y3 )2 + ... + [Y1 + ...Yn−1 − (n − 1)Yn ]2 .
2 6 n(n − 1)
En déduire que Zn suit une loi du χ2 à n − 1 degrés de liberté.
6. Enoncer le résultat final concernant la loi de Sn2 lorsque m et σ sont quelconques.

4
Chapitre 2

Variance, covariance, corrélation

Les calculs sur tableur de l’exercice 2.2 doivent être faits avant le TD.

2.1 Utilisation de la calculette


On considère deux échantillons de deux variables X et Y observées sur la même population de taille
n=4
X = (1, 4, 2, 8) Y = (5, 10, 9, 12)
En utilisant les fonctions statistiques d’une calculette
– Calculer la moyenne, la variance et l’écart-type de chaque échantillon.
– Calculer la covariance et la corrélation des deux échantillons.

2.2 Interprétation de la variance, covariance et corrélations empi-


riques
Le fichier pluies.csv (à télécharger sur ”Les cours en ligne d’AgroParisTech”) donne pour 36 villes
françaises les valeurs de plusieurs variables climatiques. A l’aide d’un tableur (par exemple Libre
Office Calc téléchargeable gratuitement)
1. Calculer pour chaque variable la moyenne, la variance et l’écart type.
2. Représenter sur un même graphique les couples de variables :
(a) Précipitations annuelles ; nombre annuel de jours de pluie
(b) Température moyenne annuelle ; Insolation annuelle ;
(c) Précipitations annuelles ; Température moyenne annuelle ;
(d) Précipitations de mai à aout ; Précipitations sept-oct.
3. Calculer la covariance et la corrélation de chacun des couples de variables ci-dessus.
4. Commenter les différences observées.

2.3 Variance d’une moyenne


1 P
Soit X1 , X2 , ...Xn , n variables aléatoires indépendantes et de même loi. Soit X̄ = n i=1,n Xi .
1. Calculer V(X̄).
2. Un appareil de mesure a une précision telle que l’écart-type des mesures prises sur le même objet
par le même opérateur est égal à 4. Pour améliorer la précision (mesurée par l’inverse de l’écart-
type) on décide de répéter la mesure n fois et de prendre la moyenne des résultats. Justifier cette
procédure à l’aide du calcul des probabilités. Comment évolue la précision en fonction de n ?
Combien faut-il de répétitions pour que l’écart-type de l’erreur de mesure soit égal à 1 ?

5
3. Pour choisir n, on décide de minimiser la fonction de coût f (n) = an + bV(X̄) où a est le coût
d’une mesure, b est le coût de l’imprécision de la mesure finale et σ est l’écart-type de l’appareil
de mesure. Trouver la solution optimale. (A.N. : a = 1= C, b = 10=C, σ = 4).

2.4 Covariance
1. Soit X1 et X2 deux variables aléatoires. Développer Cov(aX1 + bX2 , cX1 + dX2 ) ;
2. Démontrer l’égalité V(u0 X) = u0 Σu où X est un vecteur aléatoire composé de 2 variables X1 et
X2 , u est un vecteur (2,1), u0 est le vecteur transposé de u et Σ = V(X) est la matrice (2,2) de
variance-covariance de X
3. En déduire V(X1 − X2 ) dans le cas où Cov(X1 , X2 ) = 0.

6
Chapitre 3

Estimation de paramètres

3.1 Estimateurs du maximum de vraisemblance en modèle gaussien


On considère n variables aléatoires (X1 , X2 , ...Xn ) iid :Xi ∼ N (µ, σ 2 )
1. Calculer la vraisemblance de l’échantillon
2. Trouver les estimations µ̂ et σˆ2 du maximum de vraisemblance de µ et de σ 2 . On annulera les
dérivées partielles du logarithme de la vraisemblance par rapport à µ et σ 2 .
3. Calculer le biais des estimateurs de µ et σ 2 . Trouver un estimateur sans biais de σ 2

3.2 Loi exponentielle


On considère n variables aléatoires indépendantes, X1 , ...Xn de même loi exponentielle de paramètre
θ dont la densité est :
f (x) = θe−θx pour x ≥ 0
1. Calculer E(X1 ) et V(X1 )
2. Trouver l’estimateur du maximum de vraisemblance, T, de θ
1
3. Calculer l’information de Fisher I(θ) et pour une observation, puis pour l’échantillon.
I(θ)

4. En utilisant les résultats du cours, donner la loi de n(T − θ) quand n tend vers l’infini.
5. A.N. : La durée de lecteurs de CD-Rom est distribuée selon une loi exponentielle. On a extrait
un échantillon de 10 lecteurs d’un lot et on a obtenu les durées de vies suivantes (en heures) :
1230, 850, 729, 990, 780, 802, 830, 1010, 812, 750. Donner l’estimateur MV de θ.
6. Trouver l’estimateur de θ par la méthode des moments.

3.3 Devoir : Evénements extrêmes


On cherche à modéliser la distribution des pluies lors des épisodes cevenols (fortes pluies dans les
cévennes). On note X la variable aléatoire mesurant le nombre de mm de pluie tombée en 24h. Soit a
un seuil (fixé en pratique à 200 mm). On dit qu’on a affaire à un épisode cevenol si X ≥ a. Dans la
suite on ne s’intéresse qu’aux épisodes cevenols, c’est à dire que X ≥ a. On sait que les événements
extrêmes peuvent être modélisés par plusieurs familles de loi de probabilité. Dans ce problème, on
considère la loi de Pareto. La densité de la loi de Pareto, pour un seuil fixé et connu a > 0, est :
f (x, θ) = θaθ x−θ−1 pour x ≥ a. θ est le paramètre. Il est obligatoirement positif.
R∞
1. Vérifier que f (x, θ) est une densité de probabilité ( a f (x, θ)dx = 1).
2. (Question qu’il n’est pas indispensable d’avoir fait pour la suite du problème). Calculer E(X) pour
θ > 1 et V (X) pour θ > 2.
3. Calculer P (X > x). Comment évolue cette probabilité en fonction de θ ?

7
∂(ln(f (x,θ))) ∂ 2 (ln(f (x,θ)))
4. Calculer ln(f (x, θ)), ∂θ et ∂2θ
.
5. On a observé n épisodes cévenols indépendants, d’ampleurs respectives X1 , ...Xn . On veut estimer
le paramètre de la loi de Pareto. Exprimer la vraisemblance V (X1 , ...XN , θ) puis son logarithme.
6. Trouver l’estimateur du maximum de vraisemblance de θ.
7. Calculer l’information de Fisher pour une observation, I(θ), et l’information de Fisher pour les
n observations, In (θ).
8. Calculer la variance asymptotique de l’estimateur de θ pour n grand.
9. En déduire un intervalle de confiance asymptotique 1 − α de θ.
10. On rappelle que a est fixé à 200mm. Le fichier cevenol.csv (à télécharger sur ”Les cours en ligne
d’AgroParisTech”) donne les valeurs de 100 épisodes cevenols. Donner l’estimation de θ, une
estimation de l’écart-type de l’estimateur et un intervalle de confiance 95%.
11. Si la pluie dépasse 500mm on s’attend à de gros dégats. Estimer la probabilité de dépasser
500mm lors du prochain évènement.
12. Estimer la probabilité de dépasser 500mm l’année prochaine, sachant qu’on s’attend à 4 épisodes
cevenols par an.

8
Chapitre 4

Intervalle de confiance pour un


paramètre

4.1 Boeufs
On a pesé sur pieds 10 boeufs de trois ans de la même race lors de leur arrivée à l’abattoir ; on a
obtenu en kg les résultats suivants :

775, 750, 755, 756, 761, 765, 770, 752, 760, 767

On admet que ces résultats sont issus d’une population infinie distribuée selon une loi normale de
moyenne µ et de variance σ 2
1. Construire un intervalle de confiance 95% pour µ.
2. Construire un intervalle de confiance 95% pour σ.

4.2 Albinos
On étudie une population animale dont certains membres sont albinos. On a extrait de cette population
un échantillon de 40 animaux et on trouve 3 albinos.
1. Construire un intervalle de confiance 95% pour la proportion d’albinos.
2. Faire les mêmes calculs pour un échantillon de 400 animaux avec 30 albinos.
3. En reprenant la démarche de l’exercice 3.2, calculer un intervalle de confiance asymptotique 95%
fondé sur l’information de Fisher.

4.3 Loi exponentielle


On reprend l’exercice 3.2.

1. A partir de la loi asymptotique de n(T −θ), construire un intervalle de confiance 1−α approché
pour θ quand n est grand.
2. Calculer les bornes de cet intervalle à partir de l’échantillon de 10 observations donné à l’exercice
3.2.

9
Chapitre 5

Tests d’hypothèses (1)

Exercices recommandés sur les tests d’hypothèses : 4.10.2 et 4.10.3 , pages 79 et 80

5.1 Les bouteilles de vin contiennent-elles 75cl ?


Un négociant en vin s’intéresse à la contenance des bouteilles d’un cru déterminé. Il se demande si
la contenance moyenne n’est pas inférieure à la contenance légale de 75cl. A cet effet, il mesure le
contenu de 10 bouteilles prises au hasard et obtient les valeurs suivantes en cl :

73, 2 72, 6 74, 5 75, 0 75, 5 73, 7 74, 1 75, 8 74, 8 75, 0.

1. Écrire le modèle statistique associé à cette expérience.


2. En supposant la normalité de la distribution du contenu, et l’ écart-type connu égal à 1cl, peut-il
en conclure que le contenu moyen est inférieur à 75cl avec un test de niveau 1% ?
On pose a priori que le producteur est honnête et que le négociant doit prouver la fraude qu’il
soupçonne.
3. Calculez la probabilité critique.
4. On suppose que la contenance moyenne est égale à 74,5cl et que l’écart-type est connu et égal à
1cl. Calculer l’erreur de deuxième espèce du test précédent.
5. Faire de même pour les valeurs suivantes de la contenance moyenne : 73 73,5 74. Tracer la courbe
de l’erreur de deuxième espèce en fonction de la contenance moyenne.
6. Le négociant veut pouvoir détecter avec une probabilité élevée (0.99) une contenance moyenne
de 74,5cl tout en gardant un test de niveau 1%. Que doit-il faire ?

5.2 Devoir : Contrôle des OGM des semences


Il existe des tests permettant de détecter si un produit contient certains types d’OGM. Les semences ”non-
OGM” peuvent être mélangées à des semences génétiquement modifiées. Aussi cherche-t-on à mettre au point
un contrôle des lots de semences pour garantir à l’acheteur un label ”sans OGM”. On constitue un groupe de
N graines que l’on broie. On dispose de méthodes d’analyse permettant de détecter la présence d’OGM dans ce
groupe de N graines. On cherche bien sûr à analyser des groupes de graines au lieu de faire des analyses graine
par graine pour des raisons d’économie car chaque analyse coûte cher.
Le mode de contrôle est le suivant :
On tire au hasard dans le lot à contrôler k groupes de N graines. On analyse chaque groupe et le résultat est
la présence ou absence d’OGM pour chacun d’entre eux. On rejette le lot si au moins un groupe a été trouvé
positif.
Dans ce devoir on supposera qu’il n’y a pas de problème de sensibilité de l’analyse : on suppose que si un groupe
contient au moins une graine ”OGM”, le groupe est détecté positif et si le groupe ne contient que des graines
”sans OGM” il sera trouvé négatif. Dans ce qui suit on considère un lot de semences ayant un taux d’OGM
donné, π. La législation en cours prévoit qu’un produit quelconque est déclaré ”non OGM” s’il contient au

10
plus 1% d’OGM. Un lot est donc considéré comme acceptable si π ≤ 0.01. Vu les processus de fabrication des
semences, on considère qu’il est irréaliste d’exiger un taux inférieur.
1. Donner la probabilité qu’un groupe issu d’un lot dont le taux d’OGM est π ne contienne aucune graine
OGM et soit donc déclaré négatif.
2. Quelle est la loi de la variable aléatoire Y égale au nombre de groupes positifs parmi les k groupes analysés
pour ce lot ? Quelle est la probabilité d’accepter le lot ?
3. Connaissant le nombre de groupes positifs y trouvés parmi k d’un lot contrôlé, donner l’estimateur de π
obtenu par la méthode du maximum de vraisemblance et celui obtenu par la méthode des moments. Peut-
on facilement obtenir l’espérance, la variance et l’écart quadratique moyen de l’estimateur correspondant ?
4. Formaliser la règle de décision donnée dans le préambule sous la forme d’un test d’hypothèse en précisant
(a) la loi de l’expérience
(b) l’hypothèse testée
(c) la statistique de test
(d) la région de rejet
(e) le risque de première espèce.
5. On pose à présent H0 = { π ≤ 0.01} ={Le lot est ”non OGM”}. Déterminer une condition sur N et k
pour que le risque de première espèce soit inférieur à 0.05. Dans ce cas quel est la probabilité d’accepter
un lot contenant 2% d’OGM ? Cette probabilité vous paraı̂t-elle acceptable ?
6. On pose à présent H0 = { π > 0.01} ={Le lot est ”OGM”}. Déterminer une condition sur N et k pour
que le risque de première espèce soit inférieur à 0.05. Le coût de cette procédure vous paraı̂t-il acceptable ?
7. Quelles remarques suscitent les réponses aux 2 questions précédentes concernant les tests d’hypothèse en
général et en particulier le rôle de l’hypothèse H0 .
8. Aucun des 2 modes de contrôle ci-dessus ne semble adapté au problème posé. Comment construire un
mode de contrôle raisonné (expliciter la démarche, les risques à poser, la forme de la règle de décision...) ?

11
Chapitre 6

Tests d’hypothèses (2)

6.1 Calcul de la puissance du test de H0 = {µ = µ0 }


1 Pn
Soit (Xi )i∈{1,...,n} un échantillon i.i.d. d’une loi N (µ, σ 2 ) avec σ connu. On note X̄ = n i=1 Xi . On
considère le test de H0 = {µ = µ0 } contre H1 = {µ 6= µ0 } de niveau α.
1. Donner la statistique de test et écrire la région de rejet.
2. Calculer β(µ) en fonction de µ, µ0 , σ et n à l’aide de la fonction de répartition de la loi normale
F (x).
|µ−µ0 |
3. On note δ = √ .
σ/ n
On considère un test de niveau 5%. Calculer β(δ) pour δ=0, 1, 2 et 3.
4. Tracer la courbe de la puissance du test en fonction de δ. Quelles conclusions peut-on en tirer ?

6.2 Agressivité de jumeaux


L’agressivité de 12 paires de jumeaux a été évaluée par des tests psychologiques notés sur 100. On a
obtenu les résultats suivants en fonction de l’ordre de naissance :

premier né 86 71 77 68 91 72 77 91 70 71 88 87
puiné 88 77 76 64 96 72 65 90 65 80 81 72

Y-a-t-il une différence d’agressivité entre premier né et puiné au seuil de 5% ?

12
Chapitre 7

Tests d’hypothèses (3)

Exercices recommandés sur la comparaison de 2 populations : 5.4.2 et 5.4.3 et 5.4.4, page 93

7.1 Comparaison de deux variétés de maı̈s


On veut comparer les hauteurs de deux variétés de maı̈s à un certain stade de végétation. Pour cela
on a mesuré les hauteurs de quelques pieds (en cm) des 2 variétés. Les résultats obtenus sont dans le
tableau suivant :
Variété A : 232, 228, 237, 225, 214, 213, 205, 233, 219, 236
Variété B : 222, 234, 244, 235, 229, 260, 232, 224

1. Écrire le modèle statistique associé à cette expérience.


2. Que peut-on faire pour comparer les hauteurs des pieds des deux variétés ?

7.2 Comparaison de deux méthodes de séchage


On a obtenu les données suivantes pour deux méthodes différentes de séchage du maı̈s :

Taux de séchage (en %)


Avec préchauffage Sans préchauffage
16 20
12 10
22 21
14 10
19 12

1. Comparer les résultats obtenus avec les deux méthodes en supposant qu’il s’agit d’échantillons
appariés (option I) puis qu’il s’agit d’échantillons non-appariés (option II).
2. Pour chacune des condititions expérimentales suivantes, indiquer l’option qui vous semble conve-
nir :
Analyse sur de faibles quantités :
– On dispose de 5 épis ; sur chacun d’entre eux on prélève deux échantillons de 50 grains qui
sont séchés l’un avec préchauffage et l’autre sans.
– On dispose de dix épis prélevés au hasard dans une même parcelle ; sur chacun d’entre eux on
prélève un échantillon de 50 grains ; ces dix échantillons sont répartis aléatoirement entre les
deux méthodes.
Analyse sur de grosses quantités :
– On dispose de cinq lots d’épis provenant de cinq parcelles différentes ; chaque lot est divisé en
deux demi-lots séchés l’un avec préchauffage et l’autre sans.

13
– On dispose de cinq lots provenant de cinq carrés de 1m2 situés dans une même parcelle ; chaque
lot est divisé en deux demi-lots séchés l’un avec préchauffage et l’autre sans.
– On dispose de dix lots d’épis provenant de dix carrés de 1m2 situés dans une même parcelle ;
ces dix lots sont répartis aléatoirement entre les deux méthodes.
– On dispose de dix lots d’épis de dix parcelles différentes ; ces dix lots sont répartis aléatoirement
entre les deux méthodes.

7.3 Devoir
7.3.1 Partie préliminaire(3pts)
Cette partie donne tous les résultats des intégrales utiles pour le problème. Il est possible d’utiliser ces résultats
pour la suite même si on n’a Rpas réussi à les démontrer.
+∞ n −θx
Pour n ∈ N, on note In = 0 x e dx
1. Montrer que I0 = 1/θ. (0.5pt)
2. Pour n ≥ 1 montrer la relation de récurrence In = nθ In−1 . (1.5pt)
n!
3. Montrer que In = θn+1
avec la convention 0! = 1. (1pt)

7.3.2 Durée de vie d’un projecteur de cinéma(5pts)


La durée de vie X d’un projecteur de cinéma (doté d’une ampoule de sécurité) suit une loi de Erlang
d’ordre 2 et de paramètre θ, si sa densité f vaut : f (x) = θ2 xe−θx si x ≥ 0 et 0 sinon.
1. Calculer E(X) et V (X). (1.5pt)
2. On dispose d’un échantillon x1 , x2 , ...xn des durées de vie de n projecteurs indépendants de ce
type. Donner la vraisemblance de l’échantillon et l’estimateur T du maximum de vraisemblance
pour le paramètre θ. (2pts)
2
3. Montrer que l’information de Fisher pour une observation vaut θ2
. (1pt)
4. Donner l’estimateur obtenu par la méthode des moments.(0.5pt)

7.3.3 Intervalle de confiance et test (5pts)


1. En utilisant les
√propriétés asymptotiques de l’estimateur du maximum de vraisemblance, déduire
(T −θ)
que la loi de 2n θ peut être approchée par une loi normale centrée réduite si n est suffi-
samment grand. (1pt)
2. En déduire un intervalle de confiance au niveau 1 − α pour le paramètre θ. (2pts)
3. On veut tester l’hypothèse H0 = {θ = θ0 } contre H0 = {θ 6= θ0 }. Donner une statistique de test
et sa loi sous H0 . Définir la région de rejet du test. (2pts)

14
Chapitre 8

Tests du χ2 d’indépendance et tests


d’ajustement à une loi

8.1 Test du χ2 d’indépendance


Tester l’homogénéité de la répartition du nombre de CD vendus selon le type de point de vente pour
4 villes.

point de vente classique rock variété électro jazz& blues


Paris 21 340 46 210 9
Lyon 15 150 20 110 5
Marseille 17 180 19 99 6
Bruxelles 22 175 22 187 6

8.2 Test du χ2 d’ajustement à une loi


Dans une étude sur un répulsif de moustiques, on a compté le nombre de piqures de chaque personne
à partir d’un échantillon de 150 personnes. On a obtenu les données du tableau suivant :

Nombre de piqures 0 1 2 3 4 5 6 >6


Nombre d’individus de l’échantillon 32 54 34 21 6 2 1 0

Peut-on accepter l’hypothèse que X est distribuée selon une loi de Poisson ?

8.3 Test de Kolmogorov-Smirnov


Ce test compare la distribution observée d’un échantillon statistique à une distribution théorique (de
paramètres supposés connus). On l’utilise de préférence au test d’adéquation du chi-deux lorsque la
variable aléatoire est continue. Il est basé sur la comparaison des fonctions de répartition.
– Données : n observations (x1 , ..., xn ) d’une variable aléatoire X
– Hypothèse testée : H0 =”La fonction de répartition de X est F ”
– Déroulement du test :
1. On ordonne les valeurs observées x(1) ≤ x(2) ≤ ... ≤ x(n) .
2. On pose Fn (x(1) ) = 1/n, Fn (x(2) ) = 2/n, ..., Fn (x(n) ) = 1 ce qui définit la fonction de répartition
empirique Fn en escalier :
∀t ∈ [x(i) , x(i+1) [, Fn (t) = ni ; ∀t < x(1) , Fn (t) = 0 ; ∀t > x(n) Fn (t) = 1
3. Démontrer que

15
 
∀t ∈ [x(i) , x(i+1) [ on a |F (t) − Fn (t)| ≤ max |Fn (x(i) ) − F (x(i) )|, |Fn (x(i) ) − F (x(i+1) )| On en
déduit qu’on peut calculer Kn = supx |Fn (x) − F0 (x)| par
  
Kn = max0≤i≤n max |Fn (x(i) ) − F (x(i) )|, |Fn (x(i) ) − F (x(i+1) )|
  
i i
= max0≤i≤n max | − F (x(i) )|, | − F (x(i+1) )|
n n

avec la convention F (x(0) ) = 0 et F (x(n+1) ) = 1.


4. La loi de Kn sous H0 n’est pas explicite, mais on dispose de valeurs critiques de sa fonction de
répartition en fonction de n et de α, dn,1−α . Si Kn < dn,1−α , on accepte l’hypothèse, sinon, on
la rejette.
Application numérique : Les durées de vie en années de 5 lave-vaisselle (1, 2, 5, 10, 20) sont-elles
distribuées selon une loi exponentielle de paramètre θ = 18 ? On donne d5,0.95 = 0.56328.

d’après http ://www.jybaudot.fr/

16
Chapitre 9

Régression

9.1 Pollution et mortalité


On cherche à connaı̂tre l’effet de la pollution sur la santé. Un jeu de données très connu sur le sujet a
été réuni par McDonald, G.C. and Schwing, R.C. en 1973 (Cf http://lib.stat.cmu.edu/datasets/
pollution). Ils ont établi un indice de pollution en SO2 et le taux de mortalité pour 100 000 habitants
pour 60 années. Les données sont représentées dans le graphe ci-dessous.

Mortalité et Pollution


1100


1050


● ●
● ●
1000


●●


● ●


● ●
Mortalite

● ● ●
● ●
● ●
950

● ● ●


● ●
● ●

● ●

● ● ● ●
900


● ●
● ●

● ●


● ●

850



800

0 50 100 150 200 250

SO2

Les résultats de la régression de la variable SO2 sur la mortalité sont présentés partiellement ci-dessous.
1. Ecrire le modèle associé à cette régression.
2. Les valeurs des estimations pour les deux paramètres sont
paramètre estimation écart-type
intercept 917.89 9.64
SO2 0.42 0.12
Donner des intervalles de confiance pour les deux paramètres.
3. La somme des carrés totale est égale à 228308.0, la somme des carrés modèle résiduelle est égale
à 186896.0. Donner la somme des carrés du modèle. En déduire le coefficient de détermination,
une estimation de l’écart-type de l’erreur et son intervalle de confiance.

17
4. Prédire la mortalité pour un indice de SO2 égal à 300 et donner l’intervalle de confiance associé.
5. Commenter les deux graphiques ci-dessous

18
Chapitre 10

Régression (2)

Exercices recommandés sur la régression : 6.4.1, 6.4.2 et 6.4.4, pages 119,120 et 122

10.1 Tests de H0 = {b = 0}
1. On reprend les données de mortalité et pollution de l’exercice 9.1.
(a) Compléter le tableau suivant
paramètre estimation écart-type statistique T p-valeur
intercept 917.89 9.64
SO2 0.42 0.12
Tester l’hypothèse qu’il n’y a pas de relation entre la pollution par le SO2 et le taux de
mortalité.
(b) Compléter le tableau d’analyse de la variance
Source somme des carrés degrés de liberté somme des carrés moyens F-ratio p-valeur
Modèle
Résiduelle 186896.0
Totale 228308.0
2. On considère le modèle de la régression simple avec les notations usuelles. Il existe deux tests de
l’hypothèse H0 = {b = 0}, le test de Student § 6.2.5, p 109 et le test de Fisher, § 6.2.6 p 111.
En fait ces deux tests sont strictement équivalents. Le but de cet exercice est de le démontrer.
(a) Soit T une variable aléatoire distribuée selon une loi de student à υ degrés de liberté. En
utilisant les définitions des lois de Student et de Fisher, démontrer que T 2 est distribuée
selon une loi de Fisher à 1 et υ degrés de liberté.
(b) Trouver dans les tables les quantiles t10,0.975 et f1,10,0.95 . Quelle relation y–a-t-il entre ces
deux valeurs ? Pourquoi ?
(c) Démontrer que
2
R2

B
= (n − 2)
SB 1 − R2
(d) Conclure sur l’équivalence entre les deux tests de H0 = {b = 0}.

19
Chapitre 11

Régression (3)

Les calculs sur tableur doivent être faits avant le TD.

11.1 Températures et insolation


On reprend le fichier pluies de l’exercice 2.2. A l’aide des fonctions du tableur donner les résultats de
la régression de l’insolation annuelle sur la température annuelle moyenne.
1. Donner les estimations des paramètres, de l’écart-type des estimateurs, des statistiques T et les
p-valeurs associées.
paramètre estimation écart-type statistique T p-valeur
intercept
température
Donner des intervalles de confiance pour les deux paramètres.
Tester l’hypothèse qu’il n’y a pas de relation entre l’insolation et la température.
2. Compléter le tableau d’analyse de la variance
Source somme des carrés degrés de liberté somme des carrés moyens F-ratio p-valeur
Modèle
Résiduelle
Totale
3. En déduire le coefficient de détermination, une estimation de l’écart type de l’erreur et son
intervalle de confiance.
4. Prédire l’insolation pour une température annuelle moyenne égale à 14˚, et donner l’intervalle
de confiance associé.
5. Représenter le graphique des résidus en fonction de la température et le graphique des valeurs
prédites pour la plage de température 9˚-16˚associées aux intervalle de confiance et aux inter-
valles de prédiction.
6. Donner une conclusion générale sur les résultats.
7. Reprendre l’analyse ci-dessus pour les 3 autres couples de variables étudiés dans l’exercice 2.2.

11.2 Pièges
Cet exercice a pour but de mettre en évidence les dangers d’une confiance trop grande dans un modèle
et d’une analyse baclée. On considère les graphiques (x,y) et les graphiques des résidus dans 5 cas.
Dans ces 5 cas, les statistiques standard de la regression (estimation des paramètres, intervalles de
confiance, R2 et tests d’hypothèses) sont exactement identiques. Explicitez en quelques phrases la
situation dans chaque cas. Que doit-on faire pour se protéger contre de fausses interprétations ?

20
21
Chapitre 12

Erratum du livre

– page 47, précision sur comment calculer simplement l’information de Fisher, dans le cas d’une
variable X continue et de la formule avec la dérivée seconde. Soit fθ (x) la densité. On calcule
∂2
g(x) = ∂θ 2 lnfθ (x), alors I(θ) = −E[g(X)]. On a le même type d’écriture avec la formule obtenue
avec la dérivée première de lnfθ . Dans le cas d’une variable discrète, remplacer lnfθ (x) par lnPθ (X =
x).

– page 48, ajouter après la septième ligne, ce qui implique que la loi de n(Tnmv − θ) peut-être ap-
prochée, pour n grand, par une loi normale N (0, I −1 (θ)).
– Page 48, paragraphe 3.2.2 après (en général ce système n’est pas linéaire) ajouter la phrase suivante :
Dans le cas particulier où les paramètres du modèle sont la moyenne et la variance, l’estimateur de
µ par la méthode des moments est X et l’estimateur de la variance σ 2 par la méthode des moments
est la variance empirique, n1 Σni=1 (Xi − X)2 .
– Page 53, à la septième ligne du paragraphe 3.3.6, remplacer intervalle de probabilité par intervalle
de confiance.
– Page 61, au § 3.5.4 : remplacer X suit une loi binomiale B(n, p) par X suit une loi binomiale
B(n, π).

– Page 70, sept lignes avant la fin, remplacer l = u1−α/2 par l = u1−α/2 ∗ σ/ n.
– Page 73, remplacer la formule de la ligne 4 par

X − µ0
√ < −tn−1;1−α
S/ n

remplacer la formule de la ligne 6 par


S
X < µ0 − tn−1;1−α √
n

– Page 91, en haut de la page 91, remplacer le premier alinéa par :


Par définition du protocole expérimental, le nombre de variables (Xi , i = 1, n) est égal au nombre
de variables (Yi , i = 1, n). Le modèle porte uniquement sur les différences entre les mesures de X
et de Y pour une même unité expérimentale i. Pour tout i, Di = Xi − Yi ∼ N (µ1 − µ2 , σd2 ) et les
variables Di sont iid.
– Page 96, ligne 14, remplacer ”refusée” par ”encore acceptée”.
– Page 146, dans la figure, la loi hypergéométrique est notée H(A, N, n), alors que la notation utilisée
page 138 est H(n, m, k). La correspondance entre les 2 notations est la suivante : A = k, N = m et
n = n.

22