2 Cours Complet - Polystatinf - 4

STT- 7115
Statistique mathématique avancée
Michel Carbon
Département de Mathématiques et Statistique
Université de Laval
Automne 2019
2
Statistique mathématique
c Michel CARBON
Table des matières
1 Variables aléatoires - Lois de probabilité 13

1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.1.1 Introduction des premiers chapitres . . . . . . . . . . . . . . . 13
1.1.2 Les phénomènes aléatoires . . . . . . . . . . . . . . . . . . . . 14
1.1.3 Deux idées majeures et incontournables . . . . . . . . . . . . . 15
1.2 Un peu d’histoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.3 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.4 Notion d’expériences aléatoires . . . . . . . . . . . . . . . . . . . . . . 23
1.5 Notion d’événement . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.5.1 Algèbre de Boole des événements . . . . . . . . . . . . . . . . 24
1.5.2 Théorème de représentation . . . . . . . . . . . . . . . . . . . 25
1.6 Espace probabilisable . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
1.7 Variable aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
1.8 Probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
1.8.1 Notion de probabilité . . . . . . . . . . . . . . . . . . . . . . . 31
1.8.2 Propriétés des probabilités . . . . . . . . . . . . . . . . . . . . 33
1.9 Probabilité conditionnée par un événement . . . . . . . . . . . . . . . 37
1.9.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
1.9.2 Formule de Bayes (ou théorème de la probabilité des causes) . 38
1.10 Indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
1.10.1 Indépendance de deux événements . . . . . . . . . . . . . . . . 40
1.10.2 Indépendance de n événements . . . . . . . . . . . . . . . . . 41
1.10.3 Indépendance d’une suite d’événements . . . . . . . . . . . . . 42
1.11 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . . . . 47
1.12 Classification des lois de probabilité sur (R, BR ) . . . . . . . . . . . 48
1.12.1 Lois diffuses - Lois discrètes . . . . . . . . . . . . . . . . . . . 48
1.13 Variables aléatoires réelles discrètes . . . . . . . . . . . . . . . . . . . 51
1.14 N −uples de variables aléatoires discrètes . . . . . . . . . . . . . . . . 57
1.15 Variables aléatoires discrètes indépendantes . . . . . . . . . . . . . . 60
1.16 Lois absolument continues . . . . . . . . . . . . . . . . . . . . . . . . 61
1.17 N −uples de lois absolument continues . . . . . . . . . . . . . . . . . 64
1.17.1 Loi conjointe - Loi marginale . . . . . . . . . . . . . . . . . . . 64
1.17.2 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . 65
1.18 Variables aléatoires continues indépendantes . . . . . . . . . . . . . . 67
3
4 TABLE DES MATIÈRES
2 Moments et transformations de variables 69

2.1 Moyenne et Variance . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
2.1.1 Moyenne (cas discret) . . . . . . . . . . . . . . . . . . . . . . 69
2.1.2 Variance (cas discret) . . . . . . . . . . . . . . . . . . . . . . . 72
2.2 Espérance - Covariance (cas discret) . . . . . . . . . . . . . . . . . . . 76
2.2.1 Espérance mathématique . . . . . . . . . . . . . . . . . . . . . 76
2.2.2 Covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
2.3 Espérance mathématique (cas continue) . . . . . . . . . . . . . . . . . 83
2.4 Variance (cas continu) . . . . . . . . . . . . . . . . . . . . . . . . . . 84
2.5 Moments de N -uples de variables continues . . . . . . . . . . . . . . 85
2.5.1 Espérance mathématique . . . . . . . . . . . . . . . . . . . . . 85
2.5.2 Variances - Covariances . . . . . . . . . . . . . . . . . . . . . . 86
2.6 Lois conditionnelles (cas continu) . . . . . . . . . . . . . . . . . . . . 88
2.7 Fonction génératrice des moments . . . . . . . . . . . . . . . . . . . . 90
2.8 Transformations et calcul de lois . . . . . . . . . . . . . . . . . . . . . 96
2.9 Transformation des vecteurs aléatoires à densité . . . . . . . . . . . . 99
2.9.1 Changement de variables . . . . . . . . . . . . . . . . . . . . . 99
2.9.2 Calcul de lois . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
3 Quelques inégalités classiques 105

3.1 Inégalité de Schwarz . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
3.2 Inégalité de Tchebychev . . . . . . . . . . . . . . . . . . . . . . . . . 105
3.3 Inégalité de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
3.4 Inégalité de Bienaymé-Tchebychev . . . . . . . . . . . . . . . . . . . . 106
3.5 Inégalité de Jensen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
3.5.1 Cas unidimensionnel . . . . . . . . . . . . . . . . . . . . . . . 106
3.5.2 Cas multidimensionnel . . . . . . . . . . . . . . . . . . . . . . 107
3.6 Inégalité de Hölder . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
4 Convergences stochastiques 111

4.1 Convergence presque sûre . . . . . . . . . . . . . . . . . . . . . . . . 111
4.2 Convergence en probabilité . . . . . . . . . . . . . . . . . . . . . . . . 112
4.3 Convergence en moyenne quadratique . . . . . . . . . . . . . . . . . . 114
4.4 Rapport entre les différentes convergences . . . . . . . . . . . . . . . 115
4.5 Convergence des lois de probabilité . . . . . . . . . . . . . . . . . . . 116
5 Loi des Grands Nombres et Théorème Central Limite 121

5.1 Loi des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . 121
5.2 Application : le théorème de Glivenko-Cantelli . . . . . . . . . . . . . 124
5.3 Théorème central limite . . . . . . . . . . . . . . . . . . . . . . . . . 126
6 Convergence faible et continuité 131

6.1 Convergence en probabilité et continuité . . . . . . . . . . . . . . . . 131
6.2 Convergence en loi et continuité . . . . . . . . . . . . . . . . . . . . . 133
6.3 La méthode du delta . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
c Michel CARBON
TABLE DES MATIÈRES 5
7 Modèles Statistiques 139

7.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
7.2 Exemples de problèmes de statistique . . . . . . . . . . . . . . . . . . 140
7.2.1 Le contrôle de qualité . . . . . . . . . . . . . . . . . . . . . . . 140
7.2.2 Erreurs de mesure . . . . . . . . . . . . . . . . . . . . . . . . . 141
7.2.3 Filtrage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
7.2.4 Intervalles de confiance . . . . . . . . . . . . . . . . . . . . . . 141
7.2.5 Tests d’homogénéité . . . . . . . . . . . . . . . . . . . . . . . 142
7.3 Modèles statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
7.3.1 Principes et définition . . . . . . . . . . . . . . . . . . . . . . 142
7.3.2 Statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
7.3.3 Modèle d’échantillonnage . . . . . . . . . . . . . . . . . . . . . 143
7.4 Modèles réguliers. Modèles homogènes . . . . . . . . . . . . . . . . . 144
7.5 Deux classes importantes de modèles. . . . . . . . . . . . . . . . . . . 145
7.5.1 Le modèle linéaire . . . . . . . . . . . . . . . . . . . . . . . . 145
7.5.2 Le modèle exponentiel. . . . . . . . . . . . . . . . . . . . . . . 146
7.6 Notions sur la théorie de la décision . . . . . . . . . . . . . . . . . . . 152
7.6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
7.6.2 Espace des décisions . . . . . . . . . . . . . . . . . . . . . . . 153
7.6.3 Règles de décision pures . . . . . . . . . . . . . . . . . . . . . 153
7.6.4 Règles de décisions mixtes . . . . . . . . . . . . . . . . . . . . 155
7.6.5 Classement des règles de décision . . . . . . . . . . . . . . . . 156
7.6.6 Problème de la réduction de ∆ . . . . . . . . . . . . . . . . . 159
7.7 Invariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
7.7.1 Identification . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
7.7.2 Modèle statistique invariant . . . . . . . . . . . . . . . . . . . 168
7.7.3 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168
7.7.4 Fonction de perte invariante . . . . . . . . . . . . . . . . . . . 169
7.7.5 Règles de décison invariantes . . . . . . . . . . . . . . . . . . . 169
7.8 Critique de la théorie de la décision . . . . . . . . . . . . . . . . . . . 170
8 Exhaustivité – Complétion – Liberté 171

8.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
8.1.1 Exemple introductif . . . . . . . . . . . . . . . . . . . . . . . . 172
8.1.2 Définition de l’exhaustivité . . . . . . . . . . . . . . . . . . . . 174
8.1.3 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
8.2 Caractérisation de l’exhaustivité . . . . . . . . . . . . . . . . . . . . . 175
8.3 Statistiques exhaustives minimales . . . . . . . . . . . . . . . . . . . 177
8.3.1 Statistiques équivalentes . . . . . . . . . . . . . . . . . . . . . 177
8.3.2 Statistiques exhaustives minimales – Définition . . . . . . . . 177
8.3.3 Propriété des statistiques exhaustives minimales . . . . . . . . 178
8.3.4 Construction de statistiques exhaustives minimales . . . . . . 178
8.3.5 Cas particulier du modèle exponentiel . . . . . . . . . . . . . . 181
8.4 Complétion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181
8.5 Vers l’amélioration de certains estimateurs . . . . . . . . . . . . . . . 186
8.5.1 Paramètre scalaire . . . . . . . . . . . . . . . . . . . . . . . . 186
c Michel CARBON
8.5.2 Paramètre vectoriel . . . . . . . . . . . . . . . . . . . . . . . . 189

8.5.3 Application au risque quadratique . . . . . . . . . . . . . . . . 189
9 Estimation sans biais 193

9.1 Principes de réduction de l’ensemble des estimateurs . . . . . . . . . 194
9.1.1 Principe d’invariance . . . . . . . . . . . . . . . . . . . . . . . 194
9.1.2 Principe de sans biais . . . . . . . . . . . . . . . . . . . . . . . 194
9.1.3 Principes asymptotiques . . . . . . . . . . . . . . . . . . . . . 194
9.2 Méthodes de recherche de ”bons estimateurs” . . . . . . . . . . . . . . 196
9.2.1 Recherche dans une sous-classe . . . . . . . . . . . . . . . . . 196
9.2.2 Optimisation d’un critère . . . . . . . . . . . . . . . . . . . . . 196
9.2.3 Estimateurs uniformément de variance minimale . . . . . . . . 196
9.2.4 Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200
10 Inégalité d’information 209
10.1 Cas d’un paramètre unidimensionnel . . . . . . . . . . . . . . . . . . 209

10.1.1 Quantité d’information de Fischer . . . . . . . . . . . . . . . . 209
10.1.2 Cas particulier des modèles exponentiels . . . . . . . . . . . . 212
10.1.3 Additivité de l’information de Fischer . . . . . . . . . . . . . . 214
10.1.4 Information de Fischer et exhaustivité . . . . . . . . . . . . . 215
10.1.5 Inégalité d’information . . . . . . . . . . . . . . . . . . . . . . 215
10.2 Cas d’un paramètre multiple . . . . . . . . . . . . . . . . . . . . . . . 216
10.2.1 Quantité d’information de Fischer . . . . . . . . . . . . . . . . 216
10.2.2 Cas particulier du modèle exponentiel . . . . . . . . . . . . . . 218
10.2.3 Inégalité d’information . . . . . . . . . . . . . . . . . . . . . . 218
11 Méthode du maximum de vraisemblance 219

11.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219
11.1.1 Description de la méthode . . . . . . . . . . . . . . . . . . . . 219
11.1.2 Trois difficultés . . . . . . . . . . . . . . . . . . . . . . . . . . 221
11.2 Equations de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . 223
11.2.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223
11.2.2 Maximum libre . . . . . . . . . . . . . . . . . . . . . . . . . . 224
11.2.3 Maximum lié . . . . . . . . . . . . . . . . . . . . . . . . . . . 225
11.2.4 Rapport avec l’exhaustivité . . . . . . . . . . . . . . . . . . . 227
11.2.5 Rapport avec les modèles exponentiels . . . . . . . . . . . . . 227
11.3 Propriétés asymptotiques des estimateurs . . . . . . . . . . . . . . . . 228
11.3.1 Convergence . . . . . . . . . . . . . . . . . . . . . . . . . . . . 228
11.3.2 Vitesse de convergence . . . . . . . . . . . . . . . . . . . . . . 230
11.3.3 Loi-limite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230
11.3.4 Généralisation au cas multidimensionnel . . . . . . . . . . . . 233
11.3.5 Efficacité asymptotique . . . . . . . . . . . . . . . . . . . . . . 234
11.3.6 Propriétés asymptotiques des EMV . . . . . . . . . . . . . . . 235
11.4 Modèles de mélange . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239
11.4.1 Définition d’un modèle de mélange . . . . . . . . . . . . . . . 240
11.4.2 Modèles à variables latentes . . . . . . . . . . . . . . . . . . . 243
c Michel CARBON
12 Estimation bayésienne 245

12.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245
12.2 Le point de vue bayésien . . . . . . . . . . . . . . . . . . . . . . . . . 246
12.3 Le risque bayésien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247
12.4 Exemples de calculs d’estimateurs bayésiens . . . . . . . . . . . . . . 254
12.4.1 Cas où L(θ, d) = (d − g(θ))2 . . . . . . . . . . . . . . . . . . . 254
12.4.2 Cas où L(θ, d) = |d − g(θ)| . . . . . . . . . . . . . . . . . . . . 257
12.4.3 Cas où L(θ, d) = ω(θ)(d − g(θ))2 . . . . . . . . . . . . . . . . . 258
13 Estimateurs minimax et estimateurs admissibles 261

13.1 Estimateurs minimax . . . . . . . . . . . . . . . . . . . . . . . . . . 261
13.2 Les estimateurs admissibles . . . . . . . . . . . . . . . . . . . . . . . 265
14 Estimation non paramétrique de la densité 269

14.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269
14.2 L’histogramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269
14.2.1 Présentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269
14.2.2 Convergence de l’histogramme . . . . . . . . . . . . . . . . . . 271
14.2.3 Choix de la fenêtre . . . . . . . . . . . . . . . . . . . . . . . . 274
14.3 Estimateur à noyau de la densité - cas univarié . . . . . . . . . . . . . 277
14.3.1 L’histogramme mobile . . . . . . . . . . . . . . . . . . . . . . 277
14.3.2 Estimateur à noyau . . . . . . . . . . . . . . . . . . . . . . . . 279
14.3.3 Étude du biais et de la variance de l’estimateur à noyau . . . . 280
14.3.4 Quelques remarques . . . . . . . . . . . . . . . . . . . . . . . 283
14.3.5 Choix du noyau . . . . . . . . . . . . . . . . . . . . . . . . . . 284
14.3.6 Choix du paramètre de lissage . . . . . . . . . . . . . . . . . . 284
14.4 Estimation de la densité - Cas multivarié . . . . . . . . . . . . . . . . 286
15 Propriétés asymptotiques des estimateurs 289

15.1 Estimateur convergent . . . . . . . . . . . . . . . . . . . . . . . . . . 289
15.2 Estimateurs asymptotiquement gaussiens . . . . . . . . . . . . . . . . 292
15.3 Efficacité relative . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 295
16 Généralités sur les tests 297

16.1 Définition d’un problème de test . . . . . . . . . . . . . . . . . . . . . 297
16.2 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297
16.2.1 Exemple 1 (prise de risque) . . . . . . . . . . . . . . . . . . . 297
16.2.2 Exemple 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 298
16.3 Utilisation de la théorie de la décision . . . . . . . . . . . . . . . . . . 301
16.4 Erreurs liées à un test . . . . . . . . . . . . . . . . . . . . . . . . . . 302
16.4.1 Cas d’un test pur . . . . . . . . . . . . . . . . . . . . . . . . . 302
16.4.2 Cas d’un test mixte . . . . . . . . . . . . . . . . . . . . . . . . 303
16.5 Rapport avec la notion de risque . . . . . . . . . . . . . . . . . . . . . 305
16.6 Test et exhaustivité . . . . . . . . . . . . . . . . . . . . . . . . . . . . 305
16.7 Principe de Neyman . . . . . . . . . . . . . . . . . . . . . . . . . . . 306
c Michel CARBON
17 Test d’hypothèses simples 307

17.1 Tests de Neyman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 307
17.2 Le lemme de Neyman-Pearson . . . . . . . . . . . . . . . . . . . . . . 308
17.3 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 310
17.3.1 Moyenne d’une loi normale . . . . . . . . . . . . . . . . . . . . 310
17.3.2 Dispersion d’une loi normale . . . . . . . . . . . . . . . . . . . 312
17.3.3 Moyenne d’une loi de Poisson . . . . . . . . . . . . . . . . . . 312
18 Tests à hypothèses multiples 315

18.1 Test d’une hypothèse simple contre une hypothèse multiple . . . . . . 315
18.1.1 Le test de type γ . . . . . . . . . . . . . . . . . . . . . . . . . 315
18.1.2 Le test de type λ . . . . . . . . . . . . . . . . . . . . . . . . . 316
18.2 Cas général . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 317
18.3 Tests d’hypothèses multiples unilatères . . . . . . . . . . . . . . . . . 318
18.3.1 Familles à rapport de vraisemblances monotone . . . . . . . . 318

18.3.2 Tests unilatères . . . . . . . . . . . . . . . . . . . . . . . . . . 318
18.4 Non existence de tests UPP pour tester certaines hypothèses . . . . . 320
18.5 Théorème de Neyman-Pearson généralisé . . . . . . . . . . . . . . . . 321
18.6 Tests d’hypothèses multiples bilatères . . . . . . . . . . . . . . . . . . 324
18.7 Tests sans biais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 328
18.8 Cas des modèles exponentiels à un paramètre . . . . . . . . . . . . . 329
18.9 Tests gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 330
18.10Test du rapport des vraisemblances . . . . . . . . . . . . . . . . . . . 334
19 Tests et intervalles de confiance 337

19.1 Cas d’un seul paramètre réel θ . . . . . . . . . . . . . . . . . . . . . . 337
19.1.1 Test de Wald . . . . . . . . . . . . . . . . . . . . . . . . . . . 337
19.1.2 Test du rapport de vraisemblances . . . . . . . . . . . . . . . 338
19.1.3 Test du score . . . . . . . . . . . . . . . . . . . . . . . . . . . 340
19.2 Cas d’un paramètre vectoriel θ de Rk . . . . . . . . . . . . . . . . . . 342
19.2.1 Test de Wald . . . . . . . . . . . . . . . . . . . . . . . . . . . 343
19.2.2 Test du score . . . . . . . . . . . . . . . . . . . . . . . . . . . 343
19.2.3 Test du rapport de vraisemblances . . . . . . . . . . . . . . . 344
19.3 Cas d’hypothèses composites . . . . . . . . . . . . . . . . . . . . . . . 345
20 Tests d’ajustement 347

20.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 347
20.2 Test de Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . . 348
20.3 Extensions du test de Kolmogorov-Smirnov . . . . . . . . . . . . . . . 349
20.4 Test du χ2 de Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . 350
20.5 Tests de gaussianité . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353
20.5.1 Tests des moments . . . . . . . . . . . . . . . . . . . . . . . . 354
20.5.2 Test du χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355
20.5.3 Tests de Kolmogorov- Smirnov, Cramér-von Mises et Anderson-
Darling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355
20.5.4 Tests de Shapiro-Wilk . . . . . . . . . . . . . . . . . . . . . . 355
c Michel CARBON
20.5.5 Résumé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 357
c Michel CARBON
c Michel CARBON
Avant-propos
Le travail d’un statisticien se décline selon plusieurs champs d’études. Habituel-

lement, on a une certaine propension à sérier cela en trois catégories : la production
de données, l’exploration des données et enfin la modélisation.
La production de données fait appel à des techniques très diverses comme par
exemple celle des sondages.
L’exploration des données a pour souci majeur de mettre en jeu l’analyse des-
criptive, et en particulier l’analyse des données. Cette dernière, tombée quelque peu
en désuétude il y a une vingtaine d’années, subit maintenant un vif regain d’intérêt
avec les gigantesques bases de données disponibles sur Internet, comme celles issues
des réseaux sociaux, activités que l’on baptise rustaudement de "données massives"
(en anglais :"Big Data").
La modélisation fait intervenir de nombreuses méthodes dont l’objectif premier
est de formaliser la démarche inductive dans les modèles aléatoires. L’ensemble de
ces méthodes appelé statistique inductive ou statistique mathématique constitue en
partie la matière de ce fascicule de cours.
Bien que les trois catégories de travaux statistiques aient l’air bien distinctes,
il n’en est rien et la frontière entre elles est quelque peu ténue. Par exemple, les
sondages aléatoires constituent une modélisation aléatoire particulière.
Le vocable "statistique mathématique" indique sans ambiguïté que cette disci-
pline fait partie des mathématiques. Il ne faut pas oublier que le rôle habituel des
mathématiques dans les sciences empiriques est d’assurer leur cohérence interne. Le
rôle de la statistique mathématique est assez différent du rôle usuel des mathéma-
tiques, puisqu’il a pour objectif de juger de l’adéquation de modèles à la réalité,
donc de juger de leur cohérence externe. Cet objectif est vraiment très général, et la
statistique mathématique intervient dans toutes les sciences empiriques.
La contrepartie de cette vaste utilisation de la statistique mathématique est
qu’elle n’est pas toujours bien comprise. Par exemple, on voit bien qu’il peut y
avoir un réel malentendu lorsqu’on entend parler de résultats démontrés statistique-
ment, et il est alors à craindre qu’il y ait là une résurgence de l’illusion selon laquelle
l’homme de sciences travaille sous la dictée des données, et pour valider ou infirmer
une loi ou une hypothèse à l’aide de ces données.
Le terme même de statistique inductive prête d’ailleurs à confusion. La démarche
statistique est bien de type inductive car, avec des données en amont, elle doit choisir
parmi un certain nombre de modèles possibles. Cependant, elle n’est pas inductiviste,
11
car d’abord elle ne prétend pas effectuer un choix correct avec certitude et surtout
parce que le choix est nécessairement limité à un ensemble fixé a priori.
Cet a priori ne peut être dissimulé, il doit même être fortement revendiqué, car
il fait partie du fameux schéma hypothético-déductif de toute démarche scientifique.
Autrement dit, la valeur d’un modèle ne peut provenir que de sa capacité à résister
à des modèles concurrents.
La statistique mathématique fournit des outils pour mesurer cette capacité de
résistance aux modèles concurrents, mais finalement, un modèle est toujours postulé
et ne peut être validé pleinement.
Malgré cela, la statistique mathématique est fondamentale puisqu’il s’agit de
définir des procédures de choix entre modèles concurrents, c’est-à-dire de formaliser
un problème qui est au coeur de tout travail scientifique.
Dans ce fascicule de cours, nous allons étudier quelques résultats fondamen-
taux de la statistique mathématique. Nous commencerons par rappeler les bases de
probabilités nécessaires (sans théorie de la mesure) pour bien comprendre la suite
(chapitres 1 à 6). Puis on définira avec précision ce qu’est un problème statistique
en utilisant une théorie aux grandes valeurs pédagogiques : la théorie de la décision
(chapitre 7). La partie suivante proposera un certain nombre de cadres et d’outils
généraux pour aborder ces problèmes (chapitres 8 à 14). On appliquera ensuite ces
outils à la théorie de l’estimation ponctuelle, puis aux tests et à l’estimation ensem-
bliste (chapitres 15 à 19).
La matière de ce fascicule est conséquente, sans être pléthorique, et son étude
va requérir de votre part un sérieux et long labeur. Et même, si par malheur, vous
ne devenez pas un parangon de la statistique, nul doute que vous devriez en tirer,
comme le dit Rabelais, la "substantifique moelle" pour votre future carrière, et c’est
bien là tout le mal que je vous souhaite.
Michel Carbon
Sainte-Brigitte-de-Laval
Juillet 2019
c Michel CARBON
Chapitre 1
Variables aléatoires - Lois de

probabilité
Je pense que, si en ouvrant un dictionnaire au hasard, on tombait sur le mot

hasard, ce serait un miracle, alors que si on tombait sur le mot miracle, ce serait un
hasard.
H. Le Tellier, Les amnésiques n’ont rien vécu d’inoubliable.
1.1 Introduction
Il peut paraître irréaliste et prétentieux de vouloir, de par sa nature même, quan-
tifier le hasard. C’est pourtant ce qui a conduit à la notion de Probabilité. Nous
allons dans ce premier chapitre introduire ce concept mathématique, dont la puis-
sance permettra de modéliser d’innombrables situations où le hasard intervient,
dépassant ainsi largement le cadre restreint des jeux de dés et tirages de cartes. La
modélisation probabiliste est fondamentale dans tous les domaines d’applications,
qu’ils soient issus des sciences dures ou des sciences humaines, de la physique (mou-
vement de particules, formation de gouttes d’eau), de la météorologie, de la biologie
(mutation du génôme), de l’écologie (déplacement des oiseaux migrateurs pendant
la grippe aviaire), de la médecine (traitement d’images), de l’économie (marchés
boursiers), de la sociologie, de l’étude des réseaux sociaux (Data Mining ; Big Data).
1.1.1 Introduction des premiers chapitres

Ce chapitre et les suivants introduisent toutes les notions de base de la théorie
des probabilités et permet d’acquérir le raisonnement probabiliste. La théorie des
probabilités ne peut se construire axiomatiquement qu’en utilisant la théorie de la
mesure et de l’intégration, ce qui en constitue une des difficultés principales. Nous
n’en donnerons que les éléments nécessaires à sa bonne compréhension, sans exiger de
prérequis dans ce domaine. (Mais on peut remarquer que la théorie des Probabilités
constitue un très bel exemple d’application de la théorie de l’intégration, par les
mesures dites abstraites).
13
CHAPITRE 1. VARIABLES ALÉATOIRES - LOIS DE
14 PROBABILITÉ
Soulignons que les probabilités sont en lien étroit avec la vie quotidienne. À ce
titre, elles s’appuient sur un passage du concret à l’abstrait : la modélisation,
ce qui les rend difficiles, mais palpitantes. L’apprentissage de ce raisonnement
probabiliste sera développé dans le cours en vue des applications.
Le mot Hasard est un mot d’origine arabe : az-zahr, le dé. Il est apparu en fran-
çais pour signifier tout d’abord un jeu de dés, puis plus généralement un événement
non prévisible, et par extension le mode d’apparition de ce type d’événement.
Dans la vie quotidienne, chacun est maintenant familier avec le mot et même
le concept de probabilité : probabilité qu’il pleuve la semaine suivante, probabilité
d’avoir une fille aux yeux bleus, probabilité de gagner au loto ou celle d’être dans
la bonne file au super marché. Les assurances fixent le contrat d’assurance-vie d’un
individu de 20 ans, grâce à une estimation de sa probabilité de survie à 80 ans. Dans
de nombreux domaines, les probabilités interviennent : les entreprises cherchent à
calculer le besoin probable de leurs produits dans le futur, les médecins cherchent à
connaître les probabilités de succès de différents protocoles de soin, les compagnies
pharmaceutiques doivent estimer les probabilités d’apparitions d’effets secondaires
pour leurs médicaments. Un exemple récent et spectaculaire est celui de l’utilisation
des probabilités en économie, et en particulier en théorie aléatoire de la finance. On
peut citer également d’autres domaines d’applications extrêmement importants et
en pleine expansion, aussi variés que le calcul de structures, la théorie du signal,
l’optimisation et le contrôle des systèmes, l’imagerie médicale, la génomique et la
théorie de l’évolution.
1.1.2 Les phénomènes aléatoires

L’objet de la théorie des probabilités est l’analyse mathématique de phénomènes
dans lesquels le hasard intervient. Ces phénomènes sont appelés des phénomènes
aléatoires.
Définition 1.1.1 Un phénomène est dit aléatoire si, reproduit maintes fois dans
des conditions identiques et indépendantes, il se déroule chaque fois différemment
de telle sorte que le résultat de l’expérience change d’une fois sur l’autre de manière
imprévisible.
On peut fournir des exemples variés de tels phénomènes :

— Jeu de Pile ou Face
— Jeu de lancé de dés
Dans ces deux exemples, la différence entre les résultats, si on réitère l’expérience,
peut être liée à l’impulsion initiale communiquée au dé, à la rugosité de la table,
aux vibrations du plancher... Le hasard est l’illustration de la méconnaissance des
conditions initiales, car la pièce ou le dé ont des trajectoires parfaitement définies
par la mécanique newtonienne classique, et donc déterministes.
— Durée de vie d’une ampoule électrique
— Temps de passage d’un bus
— Nombre de voitures passant une borne de péage
c Michel CARBON
1.1 Introduction 15
— Promenade d’un ivrogne : un pas en avant, deux pas en arrière...

— Position d’un impact sur une cible, dans un jeu de fléchettes
— Évolution du prix d’un actif financier au cours du temps
— Mutations dans le génôme.
Tous ces exemples présentent comme point commun des variations liées à la
présence de facteurs extérieurs, influant sur le résultat de l’expérience, et que l’on
ne sait pas contrôler. Tous les effets physiques dans la nature fonctionnent ainsi, et
chaque phénomène déterministe est inévitablement accompagné d’écarts aléatoires.
Néanmoins, pour certains phénomènes, on peut négliger les éléments aléatoires et
remplacer le phénomène réel par un schéma simplifié, en sélectionnant pour ce faire
les paramètres les plus importants. Ce qui justifie par exemple l’approche de la
mécanique classique.
1.1.3 Deux idées majeures et incontournables

Deux idées majeures justifient la théorie des probabilités et son extrême richesse :
la loi des grands nombres et le conditionnement (lié à la notion d’indépendance).
Ces deux notions formeront l’ossature du début de ce cours, et ce qu’il vous faudra
assimiler en profondeur.
La loi des grands nombres

La notion de hasard, ou d’aléatoire, est souvent liée à la méconnaissance de
paramètres intervenant dans une expérience, ou à la trop grande multitude de ceux-
ci. Néanmoins, bien que ces comportements aléatoires soient a priori sujets à des
variations imprévisibles, nous allons être capables de donner des renseignements sur
ce type de phénomènes. L’idée majeure est que ces renseignements seront donnés
par la répétition de l’expérience. En effet, quand on observe un grand nombre de
phénomènes aléatoires, on y décèle généralement des lois régissant les résultats, tout
à fait déterminées, stables. Par exemple, quelle que soit la pièce non truquée avec
laquelle on joue à Pile ou Face, quel que soit l’endroit où l’on joue, si on lance 1000
fois la pièce, on aura environ 50% de piles, 50% de faces. De même, si l’on étudie la
répartition des tailles d’un groupe d’individus, quel que soit l’échantillon pris dans
ce groupe, on aura toujours une courbe des répartitions de même type. On va ainsi
pouvoir prévoir la fréquence d’apparition de chaque résultat, la valeur moyenne de
ces résultats et les oscillations autour de cette valeur moyenne.
C’est cette stabilité, confirmée par l’expérience, qu’on appellera Loi des grands
nombres, et qui légitime l’utilisation d’une modélisation mathématique.
La Théorie des Probabilités va essayer de modéliser au mieux tous ces types
de situations aléatoires, aussi différents soient-ils les uns des autres, par une approche
unifiée, et reposant sur une certaine abstraction mathématique.
Conditionnement et indépendance
Il faudra bien comprendre dans la suite que la construction d’un modèle pro-
babiliste repose fondamentalement sur l’information que l’on connaît a priori sur
c Michel CARBON
16 PROBABILITÉ
l’expérience aléatoire. Ce modèle permet de quantifier les probabilités de réalisations

de certains résultats de l’expérience. Ce qui est fondamental est que si l’informa-
tion change, les probabilités de réalisation changent. (La chance de choisir
au hasard un homme de plus de 100 kilos parmi 1000 hommes de la population est
plus grande si le groupe est composé d’hommes de plus de 1,80m que si le groupe
est composé d’hommes de moins de 1,75m). La richesse du modèle que nous allons
construire réside dans le fait que si l’information change par rapport au modèle ini-
tial, on pourra calculer les nouvelles chances de réalisation. Tout ce raisonnement
lié à l’information a priori se résume en théorie des Probabilités par le mot : condi-
tionnement. Quand l’information donnée a priori sur un phénomène aléatoire n’a
aucune influence sur la réalisation d’un autre phénomène, (par exemple deux tours
successifs de roulette dans un casino), on dit que ces phénomènes sont indépendants.
Cette notion d’indépendance entre les probabilités de réalisation va être une
hypothèse fondamentale dans toute la théorie.
1.2 Un peu d’histoire

La notion de modèle abstrait commun à des expériences variées a mis beaucoup de
temps à émerger. Le hasard étant par nature pour nos ancêtres une représentation du
divin, il a fallu, pour définir la notion de probabilité, attendre une certaine maturité
de la pensée. Les premières références publiées sur les chances de gagner au jeu,
datent de Cardan (1501-1576) dans son livre De Ludo Alea. Des calculs de probabilité
apparaissent aussi dans les oeuvres de Kepler (1571-1630) et de Galilée (1564-1642).
Le calcul probabiliste se développe au cours du 17ème siècle, motivé en particulier
par l’engouement frénétique pour les jeux de hasard à cette époque.
Siméon Poisson (1781-1840) a écrit : "Un problème relatif aux jeux de hasard
proposé à un austère janséniste par un homme du monde a été à l’origine du calcul
des probabilités". Il s’agissait du chevalier de Méré (1607-1684), homme du monde,
qui proposa à Blaise Pascal (1623-1662), austère janséniste, des problèmes sur des
jeux de hasard, avec, entre autres, le célèbre "problème des parties" : le prix d’un
tournoi est gagné par le premier participant qui remporte un nombre fixé de parties.
Si on interrompt le jeu avant la fin, comment répartir équitablement le prix entre
les participants ?
De nombreuses fausses solutions ont été proposées durant deux siècles pour ce
problème. Pascal, dans son "Traité du triangle arithmétique" publié en 1665, en
donna une solution correcte qu’il proposa à Pierre de Fermat (1601-1665).
Dans son ouvrage " De ratiocinus in ludo alae", Christiaan Huygens (1629-1695)
exposa les concepts fondamentaux du calcul des probabilités, comme par exemple
le calcul de l’espérance d’une variable aléatoire ne prenant qu’un nombre fini de
valeurs. Son travail reste jusqu’à la fin du 17ème siècle l’exposé le plus profond de
calcul des Probabilités.
Jacques Bernoulli (1654-1705), dans son livre posthume "Ars conjectandi" (1713),
a approfondi les résultats de Huyghens. Mais il est surtout le premier à démontrer
la loi des grands nombres (qui prouve la convergence de la moyenne empirique vers
la moyenne), via une approche combinatoire, résultat qui est à l’origine du réel essor
c Michel CARBON
1.2 Un peu d’histoire 17
Figure 1.1 – Siméon Poisson Figure 1.2 – Blaise Pascal
Figure 1.3 – Pierre de Fermat Figure 1.4 – Christiaan Huygens
des probabilités.
Vers la fin du 17ème siècle, une autre impulsion au calcul des probabilités vient
d’Angleterre et de Hollande, motivée par des problèmes d’assurance (Halley (1656-
1742), De Witt (1625-1672)). En effet, l’évaluation des populations (par exemple :
tables de mortalité et rentes viagères) devient une discipline essentielle à la gouver-
nance moderne des états.
Ainsi, la théorie des Probabilités se construit dans la modélisation d’une réalité
c Michel CARBON
18 PROBABILITÉ
qui n’est pas forcément (pas souvent) de nature physique. Pascal la croit utilisable
en théologie (Le célèbre Pari de Pascal montre que croire en Dieu est une solution
statistiquement plus avantageuse, en supposant au préalable que les deux hypothèses
d’existence ou non de Dieu ont la même probabilité), Leibnitz (1646-1716), et plus
tard Laplace (1749-1827), Poisson (1781-1840) (Recherches sur la probabilité des
jugements en matières criminelles et matière civile), l’appliquent aux controverses
juridiques. Les probabilités sont un outil privilégié de modélisation des comporte-
ments humains, comme en témoigne l’intérêt récurrent des philosophes pour leurs
fondements.
Figure 1.5 – Jacques Bernoulli Figure 1.6 – Abraham de Moivre
Abraham de Moivre (1667-1754), dans "Doctrines of chances" (1733), précisa

la vitesse de convergence dans la loi des grands nombres, établissant ainsi la toute
première version du théorème central limite (TCL). Le très célèbre Pierre-Simon
Laplace (1749-1827) étendra ce résultat en utilisant de nouveaux outils comme le
calcul infinitésimal et intégral, en développant les fonctions génératrices et caracté-
ristiques, dans son traité " Théorie analytique des probabilités" (1812). Son ouvrage
dépasse le cadre strict de la combinatoire, et donne un élan nouveau au calcul des
probabilités. Laplace formule le postulat du déterminisme universel. Cette intelli-
gence est un idéal, un horizon, que notre science ne nous permet pas d’atteindre. Le
calcul des probabilités est imaginé comme un outil permettant de pallier cette fai-
blesse. Laplace permet à la discipline de dépasser définitivement sa première phase
combinatoire. Il met en avant le rôle de la loi normale. Gauss (1777-1855) développe
la théorie. Dans les pays anglo-saxons, se développe également l’outil statistique,
étude des données et analyse de ce que l’on peut en tirer (ne pas oublier que le mot
"statistique" vient du mot "état", et que cela a été, depuis cette époque, un outil
puissant pour les organismes de décisions). Cela ne peut se faire qu’en utilisant le
support d’un modèle probabiliste.
c Michel CARBON
Figure 1.7 – Pierre-Simon Laplace Figure 1.8 – Irénée-Jules Bienaymé
Les résultats très généraux sur la loi des grands nombres et le théorème central
limite seront établis au XIXe siècle par Siméon Poisson, Irénée-Jules Bienaymé (1796-
1878), et l’école russe de Saint Pétersbourg avec Tchebychev (1821-1894), Andrei
Markov (1856-1922) et Aleksandr Mikhailovich Lyapunov (1857-1918).
Figure 1.9 – Andrei Markov Figure 1.10 – A. M. Lyapunov
La théorie de la mesure et de l’intégration, due essentiellement à Borel (1871-
c Michel CARBON
20 PROBABILITÉ
1956) à Henri Lebesgue (1875-1941), permet d’asseoir complètement la théorie du

calcul des probabilités modernes.
Les avancées au 19ème siècle de la physique statistique (Maxwell (1831-1879),
Boltzmann (1844-1906)) apportent un nouveau point de vue, qui dépasse les idées
rationalistes de Laplace et permet d’envisager que le hasard est une réalité objective
indépendante de nos connaissances, conformément aux idées du philosophe Cournot
(1801-1877), qui le premier affirme que le hasard et le déterminisme sont compatibles
entre eux.
Sous l’incitation de problèmes de physique statistique, mais aussi de démogra-
phie, commence à se dégager, vers la fin du 19ème siècle, la notion fondamentale
de fonction aléatoire, destinée à rendre compte d’un phénomène aléatoire qui évolue
au cours du temps. Les probabilités entrent à cette époque dans une nouvelle phase
de développement. Dès 1875, Galton (1822-1911) et Watson étudient l’évolution du
nombre d’individus d’une population au cours de ses générations successives, met-
tant en évidence un exemple de processus aléatoire qui sera introduit dans toute sa
généralité par Markov (1856-1922). Einstein (1879-1955) vers 1905 s’intéresse à la
notion de mouvement Brownien (Brown avait observé le mouvement d’une particule
de pollen sur la surface de l’eau, heurtée de toutes parts par des molécules d’eau ;
ce mouvement paraît totalement désordonné). En fait, Bachelier (1870-1946) avait
déjà introduit le mouvement brownien en 1900 pour modéliser la dynamique d’un
cours boursier. Ce processus aléatoire, évoluant de manière apparemment erratique,
s’est avéré être l’outil fondamental de modélisation probabiliste,dès lors que l’on
s’intéresse à un phénomène aléatoire évoluant continûment au cours du temps.
La très célèbre monographie de Andrey Nikolaevich Kolmogorov (1903-1987)
"Grundbegriffe der Wahrscheinlichkeitsrechnung" (1933) fournit enfin le cadre théo-
rique dans lequel s’exprime l’actuel calcul des probabilités.
Figure 1.11 – Henri Lebesgue Figure 1.12 – Andrey Kolmogorov
c Michel CARBON
L’expression mathématique donnée ainsi aux concepts confère à ceux-ci une clarté
et une maniabilité beaucoup plus grandes, et cette axiomatique s’est révélée indis-
pensable dans l’étude de tous les modèles dynamiques. Après le travail fondamental
de Kolmogorov, Paul Lévy (1886-1971) donne le ton pour les probabilités modernes
par son travail sur les processus stochastiques, ainsi que sur les fonctions caractéris-
tiques et les théorèmes limites. Mentionnons ici le rôle essentiel joué par les écoles
russes et japonaises et notamment par K. Itô (1915-2008), qui définit une notion
d’intégrale par rapport au mouvement brownien et, grâce à elle, la création d’un
calcul intégral, appelé Calcul Stochastique, pour certaines familles de processus
stochastiques.
Ces résultats avaient été, en partie et de manière totalement indépendante, décou-
verts par le mathématicien français Doeblin pendant la deuxième guerre mondiale.
Celui-ci, sentant sa fin proche (il est mort en 1940 dans les Ardennes), envoya ses
trouvailles sous forme d’un "pli cacheté" à l’Académie des Sciences de Paris. Ce pli
a été découvert et ouvert il y a seulement quelques années et suscité une grande
émotion.
Figure 1.13 – Paul Lévy Figure 1.14 – Kiyoshi Itô
Cette première moitié du XXe siècle voit donc l’essor des processus stochastiques
et de leurs applications. Le phénomène s’accélère encore dans la seconde moitié du
XXe siècle. Les applications du calcul des probabilités sont très nombreuses, et en
faire une liste exhaustive serait impossible. Mais les probabilités interviennent par
exemple dans la plupart des modélisations de phénomènes physiques complexes,
en démographie, en épidémiologie, en médecine, en biologie, dans les techniques
d’analyse d’ADN, en analyse d’image, en reconnaissance des formes, en fiabilité,
en assurance, dans les banques, sur les marchés financiers et boursiers, dans des
c Michel CARBON
22 PROBABILITÉ
simulations comme le pilotage des centrales nucléaires, etc....

Depuis l’avènement des outils informatiques, le calcul des probabilités a pris un
essor vertigineux, lié à la puissance de calcul des machines. Les simulations, les
méthodes de type Monte-Carlo sont devenues un domaine incontournable du calcul
des probabilités.
1.3 Introduction
L’objet de la théorie des probabilités est de décrire et d’étudier divers modèles
mathématiques de phénomènes aléatoires d’un point de vue théorique.
L’étude de la théorie des probabilités est nécessaire à l’étude de la Statistique,
laquelle est plus concernée par la création de certains principes et certains critères
pour permettre de traiter des données issues de phénomènes aléatoires. La Statistique
inférentielle utilise pleinement la théorie des probabilités. C’est pour cette raison que
nous commençons par donner quelques éléments de la théorie des probabilités.
Les modèles probabilistes ont pour but de décrire les expériences aléatoires, ex-
périences que, théoriquement, on pourrait répéter indéfiniment, et dont les résultats
futurs ne peuvent être prédits exactement, même si les conditions expérimentales
sont complètement contrôlées.
Comme on le verra, la base de la théorie des probabilités est l’espace probabi-
lisé. L’idée force derrière cette notion d’espace probabilisé est la stabilisation des
fréquences relatives. Supposons que nous répétions une expérience aléatoire un très
grand nombre de fois, de manière indépendante, et que, pour chaque expérience,
nous soyons intéressés à la réalisation (ou non) d’un certain événement A (même
si nous n’avons pas encore défini mathématiquement les notions d’indépendance et
d’événement).
Soit Nn (A) le nombre de fois ou A s’est réalisé au cours des n essais indépendants,
et notons rn (A) la fréquence relative correspondante :
Nn (A)
rn (A) = .
n
Depuis la nuit des temps, on a observé que, dans ces conditions, on observe que
la fréquence relative rn (A) se stabilise, au sens où il existe un réel λ (0 ≤ λ ≤ 1) tel
que :
rn (A) −→ λ .
n→+∞
L’interprétation intuitive du concept de probabilité est que la probabilité de
l’événement A est λ, et on peut raisonnablement espérer que la fréquence relative
observée au cours de n expériences indépendantes soit approximativement égale à
λ.
Cette approche est appelée approche fréquentiste des probabilités, et est univer-
sellement adoptée.
L’étape suivante est l’axiomatisation complète de cette théorie. Après bien des
tergiversations, indiquées dans le paragraphe précédent, c’est finalement A. N. Kol-
mogorov en 1933 qui a assis complètement l’axiomatique de la théorie moderne des
probabilités.
c Michel CARBON
1.4 Notion d’expériences aléatoires 23
Nous allons développer cette théorie dans les chapitres à venir.
1.4 Notion d’expériences aléatoires
Cette première notion de la théorie des probabilités n’a vu le jour que vers le
XVII-ième siècle dans l’étude des jeux de hasard (jeux de dés, de cartes, de loteries,
etc...). Ces différents jeux, aisément modélisables, obéissent à des lois mathématiques
que l’on précisera plus loin.
Il existe bien des situations où l’aléatoire intervient. Citons quelques exemples :
a) L’observation des durées de vie des puces électroniques, ou des humains.
b) L’observation du volume des transactions en bourse.
c) L’observation d’un électroencéphalogramme, d’un signal radar, d’un signal
sismique.
d) L’observation de la propagation d’une maladie, etc...
La première étape de la formalisation consiste à préciser le cadre dans lequel on
va observer ces différentes actions dues au hasard, ce que l’on nommera expériences
aléatoires.
Une expérience aléatoire se décrit mathématiquement par la donnée de l’ensemble
de tous les résultats possibles de l’expérience en question. On notera ω un tel résultat,
qu’on nommera aussi épreuve ou issue.
On notera Ω l’ensemble des résultats possibles de l’expérience.
Il reste cependant une part d’arbitraire dans le choix de Ω . En effet, si on
considère un jet d’une pièce, on peut proposer comme espaces possibles :
Ω1 = {P ile, F ace}
Ω2 = {P ile, F ace, T ranche}
Ω3 = R3 = {(x, y, z) : coordonnées du centre de gravité de la pièce}
[0,T ]
Ω4 = (R3 ) = {trajectoires de la pièce pendant [0, T ]} .
Cela peut paraître surprenant, a priori, mais cela apparaît chaque fois que l’on
veut donner une formalisation mathématique d’un phénomène réel.
Les expériences aléatoires correspondant à des espaces Ω finis sont particulière-
ment simples à expliciter. Par exemple, si on lance deux dés distinguables, l’espace
Ω se compose alors des couples (x, y) = ω tels que 1 ≤ x, y ≤ 6 , et alors :
Ω = (x, y) : (x, y) ∈ N2 ; 1 ≤ x ≤ 6 ; 1 ≤ y ≤ 6 .

Mais, dans la plupart des cas, les espaces Ω seront de cardinaux infinis. Dans
c Michel CARBON
24 PROBABILITÉ
l’exemple b) précédent, on pourra prendre Rd+ comme espace Ω . L’espace Ω4 précé-

dent est un espace fonctionnel, espace des fonctions continues C ([0, T ]) définies sur
[0, T ] à valeurs dans R3 .
Finalement, la complexité de l’espace Ω est directement liée à celle de l’expérience
aléatoire étudiée.
Souvent, on considérera que Ω représente l’ensemble des états de la nature, à
défaut de savoir préciser plus avant l’ensemble de tous les résultats possibles d’une
expérience.
1.5 Notion d’événement
La seconde étape de la formalisation sera celle d’événement aléatoire, c’est-à-dire

d’événement lié à une certaine expérience aléatoire. Dans le langage courant, dire
qu’un événement est réalisé revient alors à énoncer une propriété : le dé marque un
chiffre pair, l’enfant est de sexe masculin, il pleut, ...
On considère que la réalisation ou non d’un événement dépend exclusivement du
résultat de l’expérience à laquelle il est attaché. Ainsi, un événement A sera toujours
représenté par l’ensemble de tous les résultats ω de l’expérience qui le réalisent. A
est réalisé si et seulement si le résultat de l’expérience ω ∈ A.
Par exemple, si l’expérience aléatoire consiste à jeter un dé, alors Ω peut être
identifié à l’ensemble {1, 2, 3, 4, 5, 6}. L’événement A "on a obtenu un nombre pair"
s’écrit : A = {2, 4, 6} .
Á toute propriété définie sur Ω, on associe un sous-ensemble de Ω : l’ensemble
de tous les ω ∈ Ω qui vérifient la propriété en question.
Réciproquement, tout sous-ensemble de Ω définit une propriété par l’intermé-
diaire de la notion d’appartenance.
Cela nous conduit à appeler provisoirement événement tout sous-ensemble de Ω,
et à dire que l’événement A ∈ P (Ω) (où P (Ω) est l’ensemble de toutes les parties
de Ω) est réalisé si et seulement si le résultat ω de l’expérience aléatoire appartient
à A. Il serait naturel de prendre P (Ω) comme ensemble des événements aléatoires.
Mais c’est un ensemble souvent trop vaste pour que l’on puisse le probabiliser. On
préférera, en général, une classe de parties de Ω, strictement incluse dans P (Ω) .
Donc, tout événement A est identifié à une partie de Ω, partie dont les éléments
réalisent A.
1.5.1 Algèbre de Boole des événements
On imposera cependant à cette classe de parties des conditions de stabilité de

façon à ce que les opérations logiques usuelles, ou mieux encore, les opérations en-
semblistes correspondantes, ne fassent pas sortir de la classe. De manière plus précise,
on a la définition suivante :
c Michel CARBON
1.5 Notion d’événement 25
Définition 1.5.1 La classe E des événements est appelée algèbre de Boole de parties
de Ω (c’est donc une classe de parties de Ω), si elle contient Ω, et est stable par
intersection, réunion et complémentation.
On dit souvent algèbre au lieu de algèbre de Boole.
1.5.2 Théorème de représentation
Décrivons les opérations logiques que l’on peut effectuer sur les événements.
D’ailleurs, de manière axiomatique, ce sont plus les opérations et leurs règles de
maniement qui définissent la notion d’événement aléatoire.
1. Soient A ⊂ Ω et B ⊂ Ω deux événements , alors A∪B est un événement réalisé

si et seulement si l’un des deux au moins est réalisé. A ∩ B est un événement
réalisé si et seulement si les deux sont réalisés simultanément.
2. ∅ est un événement qui ne peut être réalisé ; on l’appelle l’événement impos-
sible. Par contre, à chaque expérience, Ω est toujours réalisé ; on appelle l’évé-
nement Ω l’événement certain.
3. Si A ⊂ Ω est un événement, son complémentaire est noté Ac ou A , et est
appelé événement contraire de A. Il est réalisé si et seulement si le résultat ω
de l’expérience n’appartient pas à A.
4. La différence de deux événements A et B, notée A r B, est un événement qui
est défini par :
A r B = A ∩ Bc ,
et qui est réalisé si A est réalisé et pas B.

5. Le différence symétrique de A et de B, noté A∆B, est un événement défini
par :
A∆B = (A r B) ∪ (B r A) ,
et qui est réalisé si l’un des deux événements est réalisé et pas l’autre.
6. Si, pour tout n de N, l’événement An est l’événement « avoir n enfants », alors
[∞
An est l’événement signifiant «avoir un ou plusieurs enfants» (ou encore
n=1
∞
\
«avoir au moins un enfant») et Acn est l’événement signifiant «ne pas avoir
!c n=1
∞
[ ∞
\
d’enfants», car An = Acn .
n=1 n=1
7. L’équation A1 ∩ A2 = ∅ signifie que les deux événements sont incompatibles,
ou que les parties A1 et A2 de Ω qui les représentent sont disjoints.
8. Si deux événements sont incompatibles, on parlera aussi de ”somme”, à la place
de ”réunion” : A1 ∪ A2 = A1 + A2 si A1 ∩ A2 = ∅.
c Michel CARBON
26 PROBABILITÉ
9. Si les (Ai )i∈I forment une partition de Ω, on dira que les (Ai )i∈I forment un
système exhaustif de Ω .
10. Soit (An )n∈N∗ une suite d’événements. On dit que cette suite est croissante si
et seulement si :
A1 ⊂ A2 ⊂ · · ·
11. Soit (An )n∈N∗ une suite d’événements. On dit que cette suite est décroissante
si et seulement si :
A1 ⊃ A2 ⊃ · · ·
12. Si (An )n∈N∗ est une suite d’événements d’un ensemble Ω, pour écrire l’événe-
ment « une infinité de An sont réalisés », on écrit que, quel que soit le rang
k ∈ N∗ , il existe des événements de rang supérieur à k qui sont réalisés. Donc :
∞ [
\ ∞
« une infinité de An est réalisé » s’écrit : An .
k=1 n=k
Cet événement est appelé limite supérieure de la suite (An ) et noté : lim sup An .
13. Si (An )n∈N∗ est une suite d’événements d’un ensemble Ω, pour écrire qu’« un
nombre fini d’événements An est réalisé », on écrit qu’il existe un rang tel,
qu’à partir de ce rang, tous les événements réalisés sont les contraires des
événements An . Donc :
∞ \
[ ∞
« un nombre fini de An est réalisé » s’écrit : Acn .
k=1 n=k
Cet événement est appelé limite inférieure de la suite (Acn ) et noté : lim inf Acn .
[∞ \∞
Donc lim inf An = An est l’événement « tous les An sont réalisés sauf
k=1 n=k
un nombre fini ».
Ces deux derniers points conduisent à définir les limites de suite d’événements
comme suit :
Définition 1.5.2 Soit (An )n∈N∗ une suite d’événements de Ω. On définit alors
les limites inf et sup d’événements par :
∞ \
[ ∞
A∗ = lim inf An = An ,
k=1 n=k
∞ [
\ ∞
A∗ = lim sup An = An .
k=1 n=k
Si, de plus, les ensembles A∗ et A∗ coïncident, alors on écrit :
A = A∗ = A∗ = lim An .
n→+∞
La proposition qui suit se démontre aisément.
c Michel CARBON
1.6 Espace probabilisable 27
Proposition 1.5.1 Soit (An )n∈N∗ une suite d’événements de Ω.
(i) Si A1 ⊂ A2 ⊂ · · · , alors :
∞
[
lim An = An .
n→+∞
n=1
(ii) Si A1 ⊃ A2 ⊃ · · · , alors :
∞
\
lim An = An .
n→+∞
n=1
Tout ce qui précède permet de constater que l’on peut identifier une algèbre
de Boole d’événements à une algèbre de parties d’un ensemble. Cette propriété est
d’ailleurs très générale.
Théorème 1.5.1 (Stone - 1936)
Toute algèbre de Boole d’événements est isomorphe à une algèbre de parties d’un
ensemble.
Pour une démonstration, voir A. Renyi- Calcul des probabilités (Dunod) p 13-16.
Ce théorème justifie donc les notations ensemblistes utilisées précédemment.
1.6 Espace probabilisable
Certains événements font apparaître des opérations plus compliquées. Par exemple,
si on joue à Pile ou Face jusqu’à ce que Pile apparaisse pour la première fois, et si on
considère l’événement A "le nombre de coups nécessaires pour obtenir Pile est pair",
A est alors réunion dénombrable des événements "Pile apparaît pour la première
fois au (2p)-ième lancer", p ∈ N∗ .
Pour certaines raisons, qui pourraient être de bon sens, mais qui ont en fait une
justification mathématique, lorsque Ω n’est pas fini ou dénombrable, on restreint
l’ensemble des événements à un certain sous-ensemble A de P (Ω) . Ce sous-ensemble
A doit bien entendu contenir les événements auxquels on s’intéresse et aussi doit être
stable par réunion, intersection et complémentation.
Pour cela, on supposera que A est une tribu d’événements comme définie ci-
dessous.
Définition 1.6.1 Soit Ω un ensemble. On appelle tribu (ou σ-algèbre) sur Ω , un

ensemble A de parties de Ω tel que :
c Michel CARBON
28 PROBABILITÉ
(i) Ω ∈ A .
(ii) Si A ∈ A, alors Ac ∈ A .
∞
[
(iii) ∀ (An )n∈N∗ une suite d’éléments de A, alors l’événement An ∈ A .
n=1
Cette définition est due à A.N. Kolmogorov (1903-1987), dans une célèbre mo-
nographie de 1933, qui fut à la base de tout le calcul des probabilités modernes.
Il y a de nombreuses manières de choisir une tribu. La tribu la plus grossière

est : A = {∅, Ω}, et la plus "grosse" est : A = P (Ω). Si Ω est fini ou dénombrable,
on prendra souvent A = P (Ω), ensemble de toutes les parties de Ω . Si Ω a une
puissance supérieure au dénombrable, P (Ω) est une tribu beaucoup trop compliquée,
et le choix de la tribu dépendra alors des événements auxquels on s’intéresse.
Définition 1.6.2 On appelle espace probabilisable (ou espace mesurable) le couple

(Ω, A) constitué par un ensemble Ω et une tribu A sur Ω. Les éléments de Ω sont
appelés éventualités, les éléments de A sont appelés événements.
Donnons quelques propriétés sur les tribus.
Proposition 1.6.1 Soit A une tribu sur Ω. Alors :
(a) ∅ ∈ A .
k
[
(b) ∀A1 , · · · , Ak ∈ A , alors : Ai ∈ A .
i=1
\k
(c) ∀A1 , · · · , Ak ∈ A , alors : Ai ∈ A .
i=1 \
(d) ∀ (An )n∈N∗ suite d’événements de A , alors : An ∈ A .
n∈N∗
(e) ∀ (An )n∈N∗ suite d’événements de A , alors : lim inf An ∈ A .
(f ) ∀ (An )n∈N∗ suite d’événements de A , alors : lim sup An ∈ A .
Démonstration :
(a) ∅ = Ωc ∈ A grâce à la définition 1.6.1 (ii).
[k [
(b) Soit Ai = ∅ ; ∀ i > k, alors : Ai = An ∈ A grâce à la proposition
i=1 n∈N∗
6.1.1 (a) et la définition 1.6.1 (iii).
k
\ \ [
(c) Soit Ai = Ω ; ∀ i > k , alors : Ai = An = An ∈ A grâce à la
i=1 n∈N∗ n∈N∗
définition 1.6.1 (i), (ii) et (iii), et une nouvelle fois (ii) car :
k
\ k
\
Ai ∈ A =⇒ Ai ∈ A .
i=1 i=1
c Michel CARBON
1.7 Variable aléatoire 29
\ [
(d) An = An ∈ A grâce à la définition 1.6.1 (ii) et (iii) et :
n∈N∗ n∈N∗
\ \
An ∈ A =⇒ An ∈ A grâce à la définition 1.6.1 (ii).
n∈N∗ n∈N∗
(e) ∀ n ∈ N∗ , An ∈ A =⇒ Acn ∈ A grâce à la définition 1.6.1 (ii). D’où :

∞ \
[ ∞
Acn ∈ A grâce à la proposition 6.1.1 (d) et la définition 1.6.1 (iii).
k=1 n=k
∞ [
\ ∞
(f) An ∈ A grâce à la définition 1.6.1 (iii) et la proposition 6.1.1 (d).
k=1 n=k
1.7 Variable aléatoire
La troisième étape de la modélisation consiste à remarquer que, très souvent, un

événement s’énonce de manière numérique (par ex. : « le chiffre marqué sur le dé est
5 » ; « le niveau sonore est supérieur à 80 décibels » ; etc...).
C’est aussi le cas pour des événements du style « il a plu hier ». En effet, si N
désigne le niveau des précipitations la veille, l’événement s’écrit {N > 0} .
De manière précise, à toute expérience ω, on associe un nombre X (ω) ou un
n-uple de nombres (X1 (ω) , · · · , Xn (ω)) mesurant un caractère, ou un ensemble de
n caractères du résultat de l’expérience.
Supposons que X désigne une application : Ω −→ R et que (X1 , · · · , Xn ) dé-

signe une application : Ω −→ Rn .
Les événements les plus simples seront de la forme {X ∈ I} où I est un intervalle
réel. Il s’agit d’une notation abrégée signifiant :
{X ∈ I} = {ω ∈ Ω : X (ω) ∈ I} = X −1 (I) .
Comme nous avons convenu de ne nous intéresser qu’aux événements faisant

partie d’une tribu A ⊂ P (Ω), on pose la définition suivante :
Définition 1.7.1 On appelle variable aléatoire réelle toute application à valeurs

réelles X : Ω −→ R telle que, pour tout intervalle I de R, {X ∈ I} soit un événe-
ment de la tribu A .
Nous avons aussi besoin de définir la notion de tribu borélienne.
Définition 1.7.2 On appelle tribu borélienne de R, notée BR , une tribu sur R qui
soit telle que BR soit la plus petite tribu de R contenant tous les intervalles de R.
Les éléments de BR seront appelés les boréliens de R .
Nous en admettrons momentanément l’existence, ainsi que la propriété suivante :
c Michel CARBON
30 PROBABILITÉ
Propriété 1.7.1 Soit X une variable aléatoire réelle, alors :
∀B ∈ BR , {X ∈ B} ∈ A .
À ce point de l’exposé, le modèle se présente comme suit :

X
(Ω, A ) −→ (R , BR ) où
Ω représente l’espace des résultats possibles de l’expérience aléatoire, ou des états

possibles du phénomène aléatoire, R représente l’espace des valeurs de ces résultats
ou de ces états, et X représente cette manière de mesurer elle-même.
En général, l’observateur ne connaît pas ω lui-même, mais X (ω) ; les événements
de A qu’il peut concevoir ne sont que ceux s’exprimant à l’aide de X, c’est-à-dire
les événements de la forme {X ∈ B} , pour B ∈ BR .
Propriété 1.7.2 X −1 (BR ) est une tribu sur Ω ; elle est appelée la tribu des événe-
ments engendrés par X .
Démonstration :
(i) Ω = X −1 (R) ∈ X −1 (BR ) , car R ∈BR .
(ii) Soit A ∈ X −1 (BR ) . Alors :
∃ B ∈ BR tel que : A = X −1 (B) .
D’où :
A = X −1 (B) = X −1 B .

Comme B ∈ BR , alors B ∈ BR et, par suite, X −1 B ∈ X −1 (BR ) , c’est-à-dire :

A ∈ X −1 (BR ) .
(iii) Soit (An )n∈N∗ une suite d’éléments de X −1 (BR ) .

Alors :
∀ n ∈ N∗ , ∃Bn ∈ BR tel que : An = X −1 (Bn ) .
D’où : !
[ [ [
An = X −1 (Bn ) = X −1 Bn .
n∈N∗ n∈N∗ n∈N∗
[
Comme Bn ∈ BR , ∀ n ∈ N∗ , alors : Bn ∈ BR .
n∈N∗
D’où :
!
[ [
−1
X Bn ∈ X −1 (BR ) , c’est-à-dire : An ∈ X −1 (BR ) .
n∈N∗ n∈N∗
Nous sommes maintenant en mesure de définir la notion de probabilité introduite

par A. N. Kolmogorov en 1933.
c Michel CARBON
1.8 Probabilité 31
1.8 Probabilité
1.8.1 Notion de probabilité
Considérons une expérience aléatoire telle qu’il soit possible de la répéter un très
grand nombre de fois dans des conditions identiques et indépendantes les unes des
autres. Soit A un événement associé à cette expérience. Si, lors de n répétitions
de l’expérience, A s’est produit k fois exactement, on dira que k est sa fréquence
k
absolue, et que est sa fréquence relative.
n
k
Quand n devient très grand, on peut constater expérimentalement que se
n
stabilise autour d’une valeur bien déterminée. Le nombre p (A) ainsi mis en évidence
s’appelera la probabilité de l’événement A.
A partir des fréquences relatives, on voit alors que p (A) possède les propriétés
suivantes :
(i) 0 ≤ p (A) ≤ 1 ,
(ii) A ⊂ B =⇒ p (A) ≤ p (B) ,
(iii) p (Ω) = 1 ,
(iv) A ∩ B = ∅ =⇒ p (A ∪ B) = p (A) + p (B) .

Si l’on se limite à ce point de vue, on est donc amené à définir la théorie des
probabilités comme l’étude de la répétition d’expériences ou d’observations effectuées
sous des conditions invariantes. La probabilité d’un événement apparaît alors comme
une constante physique. Cette interprétation dite fréquentiste (ou objectiviste) de
la notion de probabilité a été développée par Von Mises (1931).
Tout cela nous amène à la définition suivante (Kolmogorov-1933) :
Définition 1.8.1 Soit (Ω, A) un espace probabilisable. On appelle probabilité sur

(Ω, A) toute application P : A −→ [0, 1] telle que :
(i) P (Ω) = 1 ,
(ii) Pour toute suite (An )n∈N∗ d’événements deux à deux disjoints,
!
[ X
P An = P (An ) (propriété dite de σ-additivité).
n∈N∗ n∈N∗
Il est utile de remarquer que, pour une expérience aléatoire, décrite par un espace
probabilisable (Ω, A), il existe un grand nombre de probabilités P possibles. Le choix
de cette probabilité résulte d’hypothèses faites sur l’expérience aléatoire, ou est elle-
même une hypothèse dont les conséquences théoriques seront à confronter avec les
résultats expérimentaux.
c Michel CARBON
32 PROBABILITÉ
Définition 1.8.2 Le triplet (Ω, A, P ) s’appelle un espace probabilisé.
Exemple 1.8.1 (le cas fini)
Soit Ω un ensemble fini muni de la tribu P (Ω) de ses parties. Soit P l’application
définie sur P (Ω) à valeurs dans [0, 1] telle que :
Card (A)
P (A) = , ∀ A ∈ P (Ω) .
Card (Ω)
Il est clair que (Ω, P (Ω) , P ) est un espace probabilisé. Dans cet exemple, les
événements élémentaires {ω} sont mesurables et équiprobables au sens où l’on a :
1
P ({ω}) = , ∀ω ∈ Ω.
Card (Ω)
Le calcul des probabilités sur l’espace (Ω, P (Ω) , P ) se ramène alors à des pro-
blèmes de dénombrement. Ces problèmes font l’objet de l’analyse combinatoire dont
nous supposerons connus les résultats essentiels.
Le couple (R, BR ) est aussi un espace probabilisable. Cela se réalise de manière

tout à fait naturelle en considérant une variable aléatoire X : (Ω, A, P ) −→ (R, BR )
et en posant :
, PX (B) = P (X ∈ B) = P X −1 (B) .

∀B ∈ BR
PX est une application définie sur (R, BR ), à valeurs dans [0, 1] telle que :
(i) PX (R) = P (X ∈ R) = P (Ω) = 1 .
(ii) Pour toute suite (Bn )n∈N∗ d’éléments de BR deux à deux disjoints, (X ∈ Bn )n∈N∗
est une suite d’éléments de A deux à deux disjoints, donc :
! ! !
[ [ [
PX Bn = P X∈ Bn = P {X ∈ Bn }
n∈N∗ n∈N∗ n∈N∗
! !!
[ [
= P X −1 (Bn ) = P X −1 Bn
n∈N∗ n∈N∗
X X
= P (X ∈ Bn ) = PX (Bn ) ,
n∈N∗ n∈N∗
et alors PX est une probabilité sur (R, BR ) .
Définition 1.8.3 PX est appelée loi de probabilité de X .
Le schéma complet de modélisation se présente alors finalement sous la forme :

X
(Ω, A, P ) −→ (R, BR , PX ) .
c Michel CARBON
1.8 Probabilité 33
1.8.2 Propriétés des probabilités

Á partir de la définition d’une probabilité, on peut alors en déduire un certain
nombre de relations, très utiles en pratique, entre les probabilités d’union, de sous-
ensembles, de complémentaire, etc... comme le montre le théorème qui suit.
Théorème 1.8.1 Soit (Ω, A, P ) un espace probabilisé. Alors :
a) P (∅) = 0 .
b) Si A et B sont deux événements disjoints, alors :
P (A ∪ B) = P (A) + P (B) .
c) Si A et B sont deux événements quelconques, alors :
P (A ∪ B) = P (A) + P (B) − P (A ∩ B) (formule de Poincaré).
d) Si A et B sont deux événements tels que : A ⊂ B, alors :
P (B r A) = P (B) − P (A) .
e) ∀A ∈ A, P (Ac ) = 1 − P (A) .
f ) Si A et B sont deux événements tels que : A ⊂ B, alors :
P (A) ≤ P (B) .
g) Si (An )n∈N∗ est une suite d’événements quelconques, alors :

!
[ X
P An ≤ P (An ) (propriété de sous σ-additivité).
n∈N∗ n∈N∗
h) Si (An )n∈N∗ est une suite d’événements tels que : An ↓ ∅ , alors :
P (An ) ↓ 0 .
i) Si (An )n∈N∗ est une suite d’événements tels que : An ↓ A , alors :
P (An ) ↓ P (A) .
j) Si (An )n∈N∗ est une suite d’événements tels que : An ↑ A , alors :
P (An ) ↑ P (A) .
Démonstration :
a) Soit A1 = Ω , et Ai = ∅ , ∀i ≥ 2.
Ces événements sont deux à deux disjoints :
∀ i 6= j , A i ∩ Aj = ∅ .
c Michel CARBON
34 PROBABILITÉ
Par conséquent,
! +∞
[ X
P (Ω) = P An = P (A1 ) + P (An ) .
n∈N∗ n=2
+∞
X
Donc : P (An ) = 0 . Comme, pour tout n , 0 ≤ P (An ) ≤ 1, on conclut alors
n=2
que : P (∅) = 0 .
b) Soit A1 = A , A2 = B , Ai = ∅ , ∀ i ≥ 3 . Ces événements sont deux à deux
disjoints, et P (Ai ) = 0 , ∀i ≥ 3 . Donc :
!
[ X
P (A ∪ B) = P An = P (An ) = P (A) + P (B) .
n∈N∗ n∈N∗
De la même manière, si A1 , · · · , An sont n événements deux à deux disjoints, alors :

P (A1 ∪ A2 ∪ · · · ∪ An ) = P (A1 ) + · · · + P (An ) .
c) On a :
A = (A ∩ B) ∪ (A ∩ B c ) ,
B = (A ∩ B) ∪ (Ac ∩ B) ,
A ∪ B = (A ∩ B) ∪ (Ac ∩ B) ∪ (A ∩ B c ) .
A, B et A ∪ B sont écrits sous forme de réunions d’événements deux à deux
disjoints. Donc, d’après (b) :
P (A) = P (A ∩ B) + P (A ∩ B c ) ,
P (B) = P (A ∩ B) + P (Ac ∩ B) ,
P (A ∪ B) = P (A ∩ B) + P (Ac ∩ B) + P (A ∩ B c ) .
Alors, aisément, on a :
P (A ∪ B) = P (A ∩ B) + P (A ∩ B c ) + P (A ∩ B) +
P (Ac ∩ B) − P (A ∩ B)
= P (A) + P (B) − P (A ∩ B) .
On peut généraliser à n événements quelconques A1 , · · · , An :
n
! n
[ X X
P Ai = P (Ai ) − P (Ai ∩ Aj ) +
i=1 i=1 1≤i<j≤n
n
!
X \
P (Ai ∩ Aj ∩ Ak ) + · · · + (−1)n+1 P Ai .
1≤i<j<k≤n i=1
c Michel CARBON
1.8 Probabilité 35
appelée formule de Poincaré pour n événements.

d) B = A ∪ (B r A) (réunion disjointe). Donc :
P (B) = P (A) + P (B r A) .
D’où :
P (B r A) = P (B) − P (A) .
e) En particulier en posant B = Ω , on a :
P (Ac ) = 1 − P (A) .
f) Si A ⊂ B, de (d), on tire que P (B r A) = P (B) − P (A) ≥ 0, soit :
P (B) ≥ P (A) .
g) La suite : B1 = A1 ; B2 = A2 ∩ Ac1 ; · · · ; Bn = An ∩ Acn−1 ∩ · · · ∩ Ac1 ; · · · est

formée d’événements deux à deux disjoints, et telle que :
[ [
∀ n ∈ N∗ , Bn ⊂ An et An = Bn .
n∈N∗ n∈N∗
En effet, clairement on a :
[ [
Bn ⊂ An .
n∈N∗ n∈N∗
[
De plus, pour tout ω dans An , il existe n0 le plus petit entier tel que ω ∈ An0 .
n∈N∗ [
Alors, a fortiori, ω ∈ Bn0 =⇒ ω ∈ Bn . Ainsi :
n∈N∗
[ [
An ⊂ Bn .
n∈N∗ n∈N∗
Donc :
! !
[ [ X X
P An =P Bn = P (Bn ) ≤ P (An ) .
n∈N∗ n∈N∗ n∈N∗ n∈N∗
h) La notation An ↓ ∅ signifie que les événements sont emboîtés :

\
A1 ⊃ A2 ⊃ A3 ⊃ · · · ⊃ An ⊃ An+1 ⊃ · · · et que An = ∅ .
n∈N∗
Alors la suite (An r An+1 )n∈N∗ est formée d’événements deux à deux disjoints,
dont la réunion est A1 . !
+∞
X [
La série P (An r An+1 ) = P (An r An+1 ) = P (A1 ) est donc conver-
n=1 n∈N∗
gente.
c Michel CARBON
36 PROBABILITÉ
Donc son reste d’ordre k tend vers 0 quand k −→ +∞ .

+∞
X
Or ce reste est : P (An r An+1 ) = P (Ak ) .
n=k
La décroissance des P (An ) provient de la propiété (f ) précédente.

(i) La notation An ↓ A signifie que les événements sont emboîtés :
\
A1 ⊃ A2 ⊃ A3 ⊃ · · · ⊃ An ⊃ An+1 ⊃ · · · et que An = A .
n∈N∗
Il suffit donc de considérer la suite (An r A)n∈N∗ pour se ramener au cas précé-
dent :
P (An r A) ↓ 0 .
Et, comme pour tout n de N∗ , A ⊂ An , alors : P (An ) ↓ P (A) .
j) La notation An ↑ A signifie que les événements An sont emboîtés :

[
A1 ⊂ A2 ⊂ A3 ⊂ · · · ⊂ An ⊂ An+1 ⊂ · · · et que An = A .
n∈N∗
Il suffit alors de considérer la suite (A r An )n∈N∗ pour se ramener au cas du

point h) :
P (A r An ) ↓ 0 ,
et, comme pour tout n de N∗ , An ⊂ A , alors : P (An ) ↑ P (A) .
Remarque 1.8.1 Les propriétés h), i) et j) du théorème précédent sont dites pro-
priétés de continuité monotone d’une probabilité.
Le premier lemme de Borel-Cantelli qui suit, et la seconde partie qui se trouve à

la fin de ce chapitre, seront très utiles dans l’étude de la convergence presque sûre
(concepts que nous introduirons plus loin) des variables aléatoires.
Lemme 1.8.1 (de Borel-Cantelli) (première partie) Si (An )n∈N∗ est une suite d’évé-
+∞
X
nements telle que : P (An ) < +∞, alors P lim supAn = 0 .
n→+∞
n=1
Cela signifie que la probabilité pour qu’une infinité d’événements An se réalise est
nulle. Autrement dit, la probabilité pour que tous les événements Acn soient réalisés,
sauf un nombre fini, est 1 :
P lim inf Acn = 1.
n→+∞
Cela ne veut pas dire que lim supAn soit l’événement impossible ∅ , ni que
n→+∞
lim inf Acn soit l’événement certain Ω. Ce sont des événements appelés respective-
n→+∞
ment événement presque impossible, et événement presque certain.
c Michel CARBON
1.9 Probabilité conditionnée par un événement 37
Démonstration :
+∞
[
∀ i ∈ N ∗ , posons Ei = An . D’après le théorème précédent g), on a :
n=i
+∞
X
P (Ei ) ≤ P (An ) .
n=i
+∞
\ +∞
[ +∞
[
Or : lim supAn = An ⊂ An pour tout i ∈ N∗ .
n→+∞
k=1 n=k n=i
X +∞
∗
Donc : ∀ i ∈ N , 0 ≤ P lim supAn ≤ P (An ) .
n→+∞
n=i
Et comme la série converge, alors : P lim supAn = 0 .
n→+∞
1.9 Probabilité conditionnée par un événement

1.9.1 Définition
Soit (Ω, A, P ) un espace probabilisé, et A0 un évènement de probabilité non nulle,

i.e. : P (A0 ) > 0 . Alors on définit la probabilité conditionnelle de A par rapport à
A0 par :
P (A ∩ A0 )
P (A | A0 ) = , ∀A ∈ A
P (A0 )
= P A0 (A) .
P A0 (·) est une probabilité sur (Ω, A) . En effet :
P (A0 ∩ Ω) P (A0 )
∗ P A0 (Ω) = = = 1 car A0 ⊂ Ω ;
P (A0 ) P (A0 )
∗ Si (An )n∈IN est une suite d’évènements 2 à 2 disjoints, alors :
! ! !
[ [
! P An ∩ A0 P (An ∩ A0 )
[ n n
A0
P An = =
n
P (A0 ) P (A0 )
X
P (A0 ∩ An )
n
X
= = P A0 (An ) .
P (A0 ) n
On peut donc ainsi définir un nouvel espace probabilisé : (Ω, A, P A0 ) ou bien

(A0 , A ∩ A0 , P A0 ) .
c Michel CARBON
38 PROBABILITÉ
1.9.2 Formule de Bayes (ou théorème de la probabilité des

causes)
Cas de deux événements :
On doit à Thomas Bayes (1702-1761) les résultats suivants sur les probabilités
conditionnées par des événements.
Figure 1.15 – Thomas Bayes
Théorème 1.9.1 (Formule de Bayes pour deux événements) Soit (Ω, A, P ) un

espace probabilisé, A et B deux événements de A, de probabilités non nulles. Alors :
P (B/A) P (A)
P (A/B) = .
P (B/A) P (A) + P (B/Ac ) P (Ac )
(on suppose ici aussi que P (Ac ) 6= 0)
Démonstration :
On a immédiatement :
P (A ∩ B) P (B/A) P (A)
P (A/B) = = .
P (B) P (B)
Or :
P (B) = P ((B ∩ A) ∪ (B ∩ Ac )) = P (B ∩ A) + P (B ∩ Ac ) .
La conclusion est alors aisée.
c Michel CARBON
1.9 Probabilité conditionnée par un événement 39
Cas de n événements :
Commençons par un premier résultat, connu sous le vocable de "théorème de la

probabilité des causes".
Théorème 1.9.2 (Théorème des probabilités totales)

Soit (Ω, A, P ) un espace probabilisé, et (Ai )i∈N une partition de Ω . On suppose
de plus que, pour tout i, P (Ai ) 6= 0 .
Alors : X
∀ B ∈ A, P (B) = P (B/Ai ) P (Ai ) .
i∈N
Démonstration :
On a :
!! !
[ [ X
P (B) = P B∩ Ai =P (B ∩ Ai ) = P (B ∩ Ai ) ,
i∈N i∈N i∈N
car les Ai sont deux à deux disjoints.

Il vient alors immédiatement que :
X
P (B) = P (B/Ai ) P (Ai ) .
i∈N
Clairement, le résultat reste valide si on choisit une partition finie.
Exemple 1.9.1 (les daltoniens)
On considère une population composée de 48% d’hommes et 52% de femmes. Il

y a 5% d’hommes daltoniens et 0,25% de femmes daltoniennes.
Quelle est la probabilité qu’un individu pris au hasard soit daltonien ?
On notera les événements :
H ”être un homme” ; F ”être une femme” ; D ”être daltonien”.
La traduction de l’énoncé en termes probabilistes donne :
P (D/H) = 0, 05 ; P (D/F ) = 0, 0025 ;

P (H) = 0, 48 ; P (F ) = 0, 52 .
En utilisant le résultat précédent, on a :
P (D) = P (D/H)P (H) + P (D/F )P (F ) = 0, 0253 .

Il y a donc 2,53% de daltoniens dans la population totale (hommes et femmes
confondus).
On peut maintenant énoncer la formule de Bayes pour n événements.
c Michel CARBON
40 PROBABILITÉ
Théorème 1.9.3 Soit (Ω, A, P ) un espace probabilisé, et (Ai )i=1,··· ,n une partition
finie de Ω . On suppose de plus que, pour tout i, P (Ai ) 6= 0, et que B est un événement
de probabilité non nulle. Alors :
P (B/Ai )P (Ai )
∀ i = 1, · · · , n P (Ai /B) = n .
X
P (B/Ak )P (Ak )
k=1
Démonstration :
Il suffit de reprendre le même schéma que dans la démonstration de la formule
de Bayes pour deux événements, en utilisant pour le dénominateur le théorème des
probabilités totales.
Exemple 1.9.2 (les filles en amphi)
Dans un amphi, il y a 20% d’élèves de 19 ans, 50% de 20 ans, 20% de 21 ans,

10% de 22 ans, et, dans ces tranches d’âges, il y a respectivement 50%, 20%, 30%,
40% de filles.
Si on appelle une fille au hasard, quelle est la probabilité qu’elle ait 20 ans ?
On définit : A1 , A2 , A3 , A4 les événements "avoir 19, 20, 21, 22 ans" et par B
"être une fille". On cherche ici : P (A2 /B).
La traduction de l’énoncé donne :
P (B/A1 ) = 0, 5 P (B/A2 ) = 0, 2
P (B/A3 ) = 0, 3 P (B/A4 ) = 0, 4 et
P (A1 ) = 0, 2 P (A2 ) = 0, 5 P (A3 ) = 0, 2 P (A4 ) = 0, 1 .
D’où :
0, 2 × 0, 5 1
P (A2 /B) = = .
0, 5 × 0, 2 + 0, 2 × 0, 5 + 0, 3 × 0, 2 + 0, 4 × 0, 1 3
Interprétation :
Si l’amphi compte 100 étudiants, il y en a :
20 de 19 ans, dont 20 × 50 % = 10 filles,
et sur les 30 filles de l’amphi, 10, soit 1/3 d’entre elles, ont 20 ans.
1.10 Indépendance
1.10.1 Indépendance de deux événements
Nous avons défini la probabilité conditionnelle de A sachant B (deux événements
de probabilité non nulle) par :
P (A ∩ B)
P (A/B) = .
P (B)
c Michel CARBON
1.10 Indépendance 41
On pourrait bien entendu définir l’indépendance de A et de B, en disant que la

probabilité de A sachant B ne dépend pas de B; le fait de savoir B réalisé ou non
n’a pas d’influence sur la probabilité de A :
P (A ∩ B)
P (A/B) = = P (A) .
P (B)
Mais cette définition de l’indépendance de ces deux événements nécessite l’hy-

pothèse de non nullité des probabilités de A et de B respectivement. De l’égalité
précédente, on tire :
P (A ∩ B) = P (A)P (B) .
C’est cette dernière égalité qui nous servira de définition de l’indépendance pour
deux événements, car elle ne nécessite pas l’hypothèse de non nullité d’événements.
Définition 1.10.1 Soit (Ω, A, P ) un espace probabilisé, A et B deux événements.

On dira que A et B sont indépendants pour la probabilité P si et seulement si :
P (A ∩ B) = P (A)P (B) .
Il faut noter que la notion d’indépendance n’est pas intrinsèque aux événements,
mais dépend de la probabilité P choisie sur (Ω, A). Deux événements indépendants
pour une probabilité donnée peuvent ne plus l’être pour une autre probabilité, et
réciproquement. Donnons enfin une propriété pour deux événements indépendants.
Propriété 1.10.1 Soit (Ω, A, P ) un espace probabilisé, A et B deux événements

indépendants, alors on a :
(i) Ac et B sont indépendants ;

(ii) A et B c sont indépendants ;
(iii) Ac et B c sont indépendants.
Démonstration :
(i) Il faut montrer que P (Ac ∩ B) = P (Ac )P (B) . On a clairement :
B = B ∩ Ω = B ∩ (A ∪ Ac ) = (B ∩ A) ∪ (B ∩ Ac ) (réunion disjointe).
D’où : P (B) = P (A ∩ B) + P (Ac ∩ B) .
Par suite :
P (Ac ∩ B) = P (B) − P (A)P (B) = P (B) [1 − P (A)] = P (B)P (Ac ) .
(ii) et (iii) se démontrent de la même façon....
1.10.2 Indépendance de n événements
On généralise aisément au cas de n événements.
c Michel CARBON
42 PROBABILITÉ
Définition 1.10.2 Soient (A1 , · · · , An ) un n-uple d’événements. On dit qu’ils sont

indépendants, ou mutuellement indépendants, si et seulement si pour tout k =
1, · · · , n , si pour tout sous-ensemble (Ai1 , · · · , Aik ) de k événements choisis parmi
les (A1 , · · · , An ), on a :
P (Ai1 ∩ · · · ∩ Aik ) = P (Ai1 ) × · · · × P (Aik ) .
Exemple 1.10.1 (Indépendance deux à deux, mais pas indépendance mutuelle)
Soit (Ω, A, P ) un espace probabilisé défini par : Ω = {ω1 , ω2 , ω3 , ω4 } ; A = P (Ω)

1
et P (ω1 ) = P (ω2 ) = P (ω3 ) = P (ω4 ) = .
4
Soient A1 = {ω1 , ω4 } ; A2 = {ω2 , ω4 } ; A3 = {ω3 , ω4 } .
Il est aisé de vérifier que A1 et A2 sont indépendants, A2 et A3 sont indépendants,
A1 et A3 sont indépendants, mais que A1 , A2 , A3 ne sont pas indépendants puisque :
1
P (A1 ∩ A2 ∩ A3 ) = P ({ω4 }) = et
4
1 1 1 1
P (A1 ) × P (A2 ) × P (A3 ) = × × = .
2 2 2 8
On dit que A1 , A2 , A3 sont indépendants deux à deux, mais pas mutuellement
indépendants.
1.10.3 Indépendance d’une suite d’événements
Définition 1.10.3 Soit (Ω, A, P ) un espace probabilisé, soit (An )n∈N∗ une suite
d’événements de A. On dit que les (An )n∈N∗ forment une suite d’événements indé-
pendants si et seulement si, pour tout k ∈ N∗ , et tout sous-ensemble (Ai1 , · · · , Aik )
de k événements deux à deux distincts choisis parmi les événements (An )n∈N∗ , on
a:
P (Ai1 ∩ · · · ∩ Aik ) = P (Ai1 ) × · · · × P (Aik ) .
La propriété 1.10.1 s’étend à une suite (An )n∈N∗ d’événements. On peut remplacer
tous les An que l’on veut par Acn et la suite ainsi obtenue est encore une suite
d’événements indépendants.
Propriété 1.10.2 Soit (Ω, A, P ) un espace probabilisé, et une suite d’événements

indépendants (An )n∈N∗ de A . Alors on a :
! k
\ Y
P An = lim P (An ) .
k→+∞
n∈N∗ n=1
c Michel CARBON
Démonstration :
Pour tout k ∈ N∗ , les An étant indépendants, on a :
k
! k
\ Y
P An = P (An ) .
n=1 n=1
De plus :
k
\ \
An ↓ An .
n=1 n∈N∗
D’après le théorème 13.1.2 (i) , on peut alors conclure aisément.
On a déjà étudié la première partie du lemme de Borel-Cantelli. La seconde partie

du lemme nécessite l’indépendance des événements.
Lemme 1.10.1 (de Borel-Cantelli) (seconde partie)
Soit (Ω, A, P ) un espace probabilisé, et une suite d’événements (An )n∈N∗ indé-
+∞
X
pendants de A telle que : P (An ) = +∞ , alors :
n=1

P lim sup An = 1.
n
Démonstration :
D’après ce qui précède, on peut dire que la suite des (Acn )n∈N∗ est formée d’évé-
nements indépendants. Donc :
!
\ Y Y
∀ i ∈ N∗ , P Acn = P (Acn ) = (1 − P (An )) .
n≥i n≥i n≥i
En utilisant la majoration classique : 1 − x ≤ exp (−x) pour x ∈ [0, 1], on a :

" #
Y Y X
0≤ P (Acn ) ≤ exp [−P (An )] = exp − P (An ) = 0 ,
n≥i n≥i n≥i
X
car, pour tout i de N∗ , P (An ) = +∞ .
n≥i
!
[
On en déduit alors que, pour tout i de N∗ : P An = 1 .
n≥i
!
[
Or, la suite des An est une suite décroissante d’événements et leur
n≥i i∈N∗
limite est : \[
An = lim sup An .
n
i≥1 n≥i
c Michel CARBON
44 PROBABILITÉ
En utilisant le théorème 13.1.2 (i), on obtient :

!
[
P lim sup An = lim P An = 1 .
n i−→+∞
n≥i
Grâce aux deux parties du lemme de Borel-Cantelli, on voit que, pour une suite
(An )n∈N∗ d’événements indépendants, la probabilité pour qu’une infinité de An soient
réalisés ne peut valoir que 0 ou 1.
En combinant les deux lemmes de Borel-Cantelli,
on peut
donc voir que si les
événements (An )n∈N∗ sont indépendants, alors P lim sup An ne peut prendre que
n
+∞
X
les valeurs 0 ou 1, et ceci grâce à la convergence ou divergence de la série P (An ) .
n=1
On en déduit donc le résultat suivant.
Théorème 1.10.1 (une loi du 0-1)
Si les événements (An )n∈N∗ sont indépendants, alors :
 +∞
 X
 0 si P (An ) < +∞


 
 n=1
P lim sup An =
n 
 +∞
 X
1 si P (An ) = +∞ .




n=1
Exemple 1.10.2 (Pile ou Face)

On lance une pièce de monnaie de manière répétitive et indépendante, et on
pose :
An = {"le n-ième lancer donne Pile"} , ∀n ∈ N∗ .
Alors, si la pièce est parfaitement équilibrée, on a clairement :
+∞ +∞
X X 1
P (An ) = = +∞ .
n=1 n=1
2
D’où :
P lim sup An = 1 .
n
Donc, dans cette situation, on obtiendra "Pile" une infinité de fois.
Remarquons que si la pièce n’était pas bien équilibrée, et que :
P (An ) = p (0 < p < 1) , ∀n ∈ N∗ ,
alors, en raisonnant de même, on aurait aussi le même résultat.
Il en serait également de même si on lançait une infinité de pièces de monnaie
avec :
P (An ) = pn (0 < pn < 1) , ∀n ∈ N∗ .
c Michel CARBON
Exemple 1.10.3 (le singe et la machine à écrire)
Un classique et humoristique exemple est celui du singe tapant indéfiniment à la

machine à écrire au hasard. Alors, un jour, il réussira à écrire les oeuvres complètes
de Victor Hugo, et, en fait, il répétera son exploit une infinité de fois. Entre deux
écritures de l’oeuvre immense de Victor Hugo, il aura le temps de réussir à taper
tout l’annuaire téléphonique français, ainsi que des tas d’autres textes.
Figure 1.16 – Le singe et la machine à écrire
En effet, supposons que les lettres successives tapées au hasard par le singe
soient une suite de variables aléatoires indépendantes et identiquement distribuées.
Alors, comme cela a été vu dans l’exemple précédent, chaque suite finie de lettres
se répétera une infinité de fois avec la probabilité 1. Comme les oeuvres de Victor
Hugo représentent une suite finie de lettres, clairement le singe tapera une infinité
de fois les oeuvres complètes de Victor Hugo.
Même s’il doit en plus taper tout l’annuaire téléphonique français, cela représente
toujours une suite finie de lettres, et donc le singe courageux tapera aussi une infinité
de fois l’annuaire téléphonique français.
Exemple 1.10.4 (le code biblique)
Les phénomènes paranormaux ou surnaturels et les superstitions ont toujours

été un ingrédient important dans la vie de certaines personnes. Malheureusement,
beaucoup de personnes sont aveuglées par ces sornettes ou par d’autres personnes
qui exploitent leur faiblesse.
En 1997 parut un livre : "le code biblique", écrit par M. Drosin. Dans ce livre,
l’auteur prétend que la bible hébraïque contient un code qui révèle des événements
qui apparaîtront des milliers d’années plus tard.
c Michel CARBON
46 PROBABILITÉ
Figure 1.17 – Bible hébraïque
L’idée est qu’on écrit les 304 805 lettres dans une matrice, et qu’on les lit de droite
à gauche, ou de gauche à droite, ou de bas en haut, ou de haut en bas, et que l’on
cherche après un mot donné. On peut aussi lire toutes les n lettres. En faisant cela
l’auteur affirme qu’on peut trouver toute sorte d’événements futurs. Un exemple est
qu’en examinant toutes les 4 772 lettres, on trouve le nom d’Yitzhak Rabin, ce qui
montre qu’on aura déjà pu trouver dans la bible une preuve concernant son meurtre
en novembre 1995. L’auteur ajoute également que seule la version hébraïque de la
bible contient le code, et aucune traduction de celle-ci.
Bien que le problème ne soit pas exactement le même que celui du singe secrétaire,
il existe tout de même un parallèle probabiliste. Si on cherche un mot de k lettres dans
un alphabet de N lettres, la probabilité que ce mot apparaisse à un endroit donné est :
1
p = k , sous l’hypothèse, bien sûr, que les lettres apparaissent indépendamment les
N
unes des autres, et avec la même loi. Démarrant le processus aux lettres m (k + 1) ,
pour m = 1, 2, · · · le nombre de répétitions avant de trouver le mot suit une loi
1
géométrique de moyenne : = N k , qui est un nombre fini.
p
N’ayant pas oublié les lemmes de Borel-Cantelli, il n’est pas surprenant que l’on
puisse trouver quasiment tout ce que l’on désire avec cette manière d’opérer. Bien
entendu, le raisonnement s’applique à toutes les traductions de la bible, mettant en
brèche les allégations de l’auteur du livre.
À part cela, on pourrait aussi se demander : s’il y a un code dans la bible, ne
pourrait-on pas espérer en trouver un autre plus sophistiqué ? Et si le code est réel-
lement un code, pourquoi personne n’a-t-il prédit l’attaque du World Trade Center
du 11 septembre 2001 avant qu’il ait eu lieu ? Et l’attaque du métro madrilène deux
ans et demi plus tard ? Et que dire des attentats en France et en Belgique très
récemment ?
Même si ces quelques exemples semblent un peu élémentaires, ils illustrent le
nombre important d’autres exemples qui surgissent dans nos vies. On pourrait fina-
lement se demander combien l’auteur du code biblique aurait vendu de livres si tout
c Michel CARBON
1.11 Fonction de répartition 47
un chacun connaissait les lemmes de Borel-Cantelli... Vous voilà donc éclairés !
1.11 Fonction de répartition
Soit (Ω, A, P ) un espace probabilisé. Rappelons qu’une variable aléatoire réelle

(v.a.r.) X est une application mesurable de (Ω, A) dans (R, BR ) .
La tribu engendrée par X, soit X −1 (BR ) , s’interprète comme la tribu des événe-
ments ne dépendant que de X, c’est-à-dire dont la réalisation ou non réalisation est
déterminée par la connaissance de X (ω) .
La mesure image de P par X, notée PX , s’appelle la loi de Probabilité (ou sim-
plement la loi) de X.
Définition 1.11.1 La fonction de répartition de X est, par définition, celle de la

mesure de probabilité PX , définie par :
∀ x ∈ R F (x) = PX (] − ∞, x]) . (1.1)
Proposition 1.11.1 Soit P une mesure de probabilité sur (R, BR ) . Considérons la

fonction F définie par :
∀ x ∈ R, F (x) = P (]−∞, x]) .
Cette fonction F a les propriétés suivantes :

(i) F est croissante au sens large ;
(ii) F est continue à droite ;
(iii) lim F (x) = 1 et lim F (x) = 0 .
x→+∞ x→−∞
Démonstration :
(i) F est croissante au sens large :
En effet, x1 < x =⇒ ]−∞, x1 ] ⊂ ]−∞, x] .
D’où : x1 < x =⇒ P (]−∞, x1 ]) ≤ P (]−∞, x]) ; c’est-à-dire :
F (x1 ) ≤ F (x) .
(ii) F est continue à droite, car : xn ↓ x =⇒ ]−∞, xn ] ↓ ]−∞, x] .

D’où : F (xn ) = P (]−∞, xn ]) ↓ P (]−∞, x]) = F (x) (propriété de décroissance
monotone des probabilités).
(iii) lim F (x) = 1 et lim F (x) = 0 .
x→+∞ x→−∞
En effet : xn ↑ +∞ =⇒ ]−∞, xn ] ↑ R . Et donc :
F (xn ) = P (]−∞, xn ]) ↑ P (R) =1 , et
xn ↓ −∞ =⇒ ]−∞, xn ] ↓ ∅ =⇒ F (xn ) = P (]−∞, xn ]) ↓ P (∅) =0 .
c Michel CARBON
48 PROBABILITÉ
Définition 1.11.2 On appelle fonction de répartition (notée f.d.r. dans la suite)

toute fonction réelle possédant les trois propriétés ci-dessus.
Le problème de savoir si une fonction de répartition détermine effectivement une

mesure de probabilité sur R est complétement résolu par le théorème suivant, dont
la démonstration dépasse le niveau de cours :
Théorème 1.11.1 Il y a correspondance biunivoque entre les mesures de probabili-

tés sur (R, BR ) et les fonctions de répartition.
Donc :
Corollaire 1.11.1 Pour une v.a.r. X, il y a correspondance biunivoque entre sa

fonction de répartition FX et sa loi PX .
Autement dit, pour connaître la loi de X, il suffit, par exemple, de connaître sa

fonction de répartition.
Remarque 1.11.1 :
Étant donné une probabilité Q sur (R, BR ) il existe toujours une v.a.r. X telle
que PX = Q (il suffit de poser (Ω, A, P ) = (R, BR , Q) et de prendre pour X l’appli-
cation identique) ; mais il est clair que X n’est pas l’unique v.a.r. telle que PX = Q.
Autrement dit, une v.a.r. n’est pas déterminée par sa loi.
1.12 Classification des lois de probabilité sur (R, BR)

Une v.a.r. X définit un nouvel espace probabilisé (R, BR , PX ) ; le but de ce pa-
ragraphe est d’étudier les formes possibles de PX .
1.12.1 Lois diffuses - Lois discrètes

Lemme 1.12.1 Soit P une probabilité sur (R, BR ) de f.d.r. F. Alors P ({x}) = 0 si
et seulement si F est continue en x .
Notation.- Pour simplifier, on écrira P (x) pour P ({x}) .

Démonstration :
Soit (xn )n∈N une suite strictement croissante de réels qui convergent vers x. Alors,
on a :
xn ↑ x =⇒ ]−∞, xn ] ↑ ]−∞, x[ .
D’où, en utilisant la propriété de continuité monotone des probabilités, il vient :
lim F (xn ) = P (]−∞, x[) .

xn ↑x
D’autre part, on a :
]−∞, x] = ]−∞, x[ ∪ {x} .
c Michel CARBON
1.12 Classification des lois de probabilité sur (R, BR ) 49
D’où, par additivité de la probabilité :
P ({x}) = P (]−∞, x]) − P (]−∞, x[) .
Finalement, on obtient alors :
P ({x}) = F (x) − lim F (xn ) .

xn ↑x
Cette dernière égalité montre que P ({x}) = 0 si et seulement si F est continue

à gauche en x. Comme F est continue à droite, le lemme est démontré.
Lemme 1.12.2 Une f.d.r. F sur R admet au plus un nombre dénombrable de points
de discontinuité.
Démonstration :
Soit P la probabilité associée à F. Le lemme 3.6.1 montre que l’ensemble des
points de discontinuité de F est défini par S = {x : P (x) > 0} .

∗ 1
Posons : ∀ n ∈ N , Sn = x : P (x) ≥ .
n
[
Clairement : ∀ n ∈ N∗ , Sn ⊂ S. D0 où : Sn ⊂ S .
n∈N∗
Réciproquement :
1
∀x ∈ S , ∃n0 ∈ N∗ , tel que : ∀ n ≥ n0 , P (x) > .
n
[
Donc x ∈ Sn pour n ≥ n0 , et donc a fortiori x ∈ Sn .
n∈N∗
Ainsi : [
S= Sn .
n∈N∗
Montrons par l’absurde que Sn contient au plus n éléments. Supposons pour cela
que Sn contienne n + k éléments (avec k ∈ N∗ ). Alors on aurait :
!
[ X X 1 n+k
P (Sn ) = P {x} = P ({x}) ≥ = > 1,
x∈S x∈S x∈S
n n
n n n
ce qui est impossible. Donc Sn contient au plus n éléments. Ainsi, S, qui est une
réunion dénombrable d’ensembles de cardinaux finis, est lui-même au plus dénom-
brable.
Définition 1.12.1 Soit P une probabilité sur (R, BR ) .

1) On dira que P est diffuse si P (x) = 0 , ∀ x ∈ R .
2) On dira que P est discrète s’il existe un ensemble au plus dénombrable S tel
que P (S) = 1 .
c Michel CARBON
50 PROBABILITÉ
Théorème 1.12.1 P désignant une probabilité sur (R, BR ) ni diffuse ni discrète, il

existe α∈ ]0, 1[ , il existe P1 loi discrète et P2 loi diffuse telles que :
P = α P1 + (1 − α) P2 .
Démonstration :
Posons S = {x : P (x) > 0}. On a vu que S est au plus dénombrable. D’autre
part, P étant ni diffuse, ni discrète, on en déduit alors que :
0 < P (S) < 1 .
Posons alors α = P (S) et soit P1 la probabilité sur (R, BR ) définie par :

1
∀ B∈BR , P1 (B) = P (B ∩ S) .
α
Il est aisé de vérifier que P1 est une probabilité. En effet :
1 1
* P1 (R) = P (R ∩ S) = P (S) = 1 .
α α
* ∀ (Bn )n∈N∗ ∈BR , avec les Bn deux à deux disjoints, on a :
! ! !
[ 1 [
P1 Bn = P Bn ∩ S (par définition de P1 )
n∈N∗
α n∈N∗
!
1 [
= P (Bn ∩ S) (par distributivité de ∩ sur ∪)
α n∈N∗
X 1
= P (Bn ∩ S) (par disjonction des Bn ∩ S)
n∈N∗
α
X
= P1 (Bn ) (par définition de P1 ).
n∈N∗
De plus, il est clair que P1 est discrète (car P1 (S) = 1) .

On montre aussi aisément que :
P (x)
P1 (x) = , ∀ x∈ R . (1.2)
α
En effet :
P (x)
* Si x ∈ S, alors P1 (x) = par définition de P1 .
α
* Si x ∈/ S, alors P1 (x) = 0 , car P1 (S) = 1, et P (x) = 0 par définition de S .
Donc (1.2) est vérifiée.
Posons maintenant :
P (B) − αP1 (B)
∀ B∈BR , P2 (B) = .
1−α
c Michel CARBON
1.13 Variables aléatoires réelles discrètes 51
Il est très facile de vérifier que P2 est une probabilité sur (R, BR ) :
P (R) − αP1 (R) 1−α
* P2 (R) = = .
1−α 1−α
* ∀ (Bn )n∈N∗ ∈BR , avec les Bn deux à deux disjoints, on a :
! !
[ [
! P Bn − αP1 Bn
n∈N∗ n∈N∗
[
P2 Bn =
n∈N∗
1−α
X X
P (Bn ) − α P1 (Bn )
n∈N∗ n∈N∗
=
1−α
X P (Bn ) − αP1 (Bn )
=
n∈N∗
1−α
X
= P2 (Bn ) .
n∈N∗
De plus, P2 est diffuse car :

P (x)
P (x) − αP1 (x) P (x) − α
∀ x∈ R , P2 (x) = = α = 0.
1−α 1−α
Il suffit de remarquer enfin que : P = α P1 + (1 − α) P2 et la démonstration est
donc terminée.
Remarque 1.12.1 : La décomposition de P est unique (à faire en exercice).
1.13 Variables aléatoires réelles discrètes
Soit (Ω, A, P ) un espace probabilisé modélisant un phénomène aléatoire. On

suppose que la mesure d’un caractère génère des résultats possibles de ce phénomène
ne pouvant prendre qu’un nombre fini, ou bien une infinité dénombrable de valeurs
réelles. La variable aléatoire X : Ω → R associée à cette mesure du caractère a donc
la propriété suivante : il existe un sous-ensemble fini ou dénombrable SX (ou S) de
R tel que :
P ({X ∈ S}) = 1 .
ou encore, si PX désigne la loi de probabilité de X : PX (S) = 1 . Ce qui conduit à
la définition :
Définition 1.13.1 On appelle variable aléatoire réelle discrète, toute variable aléa-
toire X telle qu’il existe un sous-ensemble fini ou dénombrable SX (ou S) de R vé-
rifiant :
P ({X ∈ S}) = 1 .
c Michel CARBON
52 PROBABILITÉ
On peut alors supposer que S = {x ∈ R : PX ({x}) = P ({X = x}) >0} . De

plus, comme S est fini ou dénombrable, la propriété de σ-additivité de P, et de PX
implique :
∀ I, intervalle de R :
X X
PX (I) = P ({X ∈ I}) = P ({X = x}) = PX ({x}) .
x∈I ∩S x∈I ∩S
Ceci conduit aisément à la propriété ci-dessous.

Proposition 1.13.1 Pour connaître la loi de X, il est nécessaire et suffisant de
connaître les valeurs prises par X ainsi que les probabilités correspondantes.
Notons :
px = P ({X = x}) = PX ({x}) .
Une autre propriété immédiate bien utile dans les applications est la suivante :
Proposition 1.13.2 Sous les hypothèses de la définition précédente, on a :
X
px = 1 .
x∈S
Démonstration :
On a :
X X
PX (R) = P ({X ∈ R}) = P ({X = x}) = PX ({x})
x∈R∩S x∈R ∩S
X X
= PX ({x}) = px .
x∈S x∈S
D’où immédiatement : X
px = 1 .
x∈S
Donnons quelques exemples de lois classiques dans le cas discret.

1) Loi de Bernoulli : Soit A∈ A un événement de probabilité p (0<p<1) et 1A
la fonction indicatrice :

 1A (ω) = 1 si ω ∈ A
1A (ω) = 0 si ω ∈
/A

de cet événement A.
1A est une variable aléatoire (on le vérifiera aisément) discrète pouvant prendre
la valeur 0, ou la valeur 1, suivant que ω ∈/ A ou que ω ∈ A. Sa loi de probabilité
est donc définie par :
P1A ({0}) = P ({1A = 0}) = P (Ac ) = 1 − p ;
P1A ({1}) = P ({1A = 1}) = P (A) = p.
c Michel CARBON
On dit que 1A suit une loi de Bernoulli de paramètre p .

Si p = 0 (respectivement p = 1), on dit que la loi est dégénérée ; dans le premier
cas, 1A prend la valeur 0 avec la probabilité 1, on dit alors que 1A est presque
sûrement nulle : 1A = 0 p.s..
Dans le second cas, 1A prend la valeur 1 avec la probabilité 1, on dit alors que
1A est presque sûrement égale à 1 : 1A = 1 p.s. .
2) Loi binomiale :
Commençons par un exemple classique.
Lorsque l’on jette une pièce de monnaie, on admet logiquement que les deux
possibilités sont : ω = Pile et ω = Face . L’événement certain Ω peut donc être re-
présenté par {Pile, Face} . La tribu A = P (Ω) est l’ensemble {∅, {Pile} , {Face} , Ω}
. Enfin, si la pièce n’est pas bien équilibrée, on se contente de désigner la probabi-
lité de faire ”Pile” par p et celle de faire ”Face” par q = 1 − p, ce qui définit une
probabilité P sur l’espace (Ω, A) .
Lorsque l’on jette n fois de suite une pièce de monnaie, les résultats possibles de
l’expérience sont naturellement toutes les successions possibles de k piles (0≤ k ≤ 1)
et de n − k faces : ω = {ω1 , · · · , ωn }, avec, pour tout i = 1, · · · , n :
ωi = Pile ou ωi = Face .
n
Y
Par conséquent, l’événement certain Ω peut être écrit comme : Ωi , avec, pour
i=1
tout i = 1, .., n :Ωi = {Pile, Face} .
n
Y
L’ensemble des parties de Ωi est constitué par les réunions de produits carté-
i=1
siens :
A1 × A2 × · · · × Ai × · · · × An ,
où, pour tout i = 1, · · · , n , Ai appartient à la tribu P (Ωi ), c’est-à-dire :
Ai = ∅ ou Ai = {Pile} ou Ai = {Face} ou Ai = Ωi .
Par exemple, l’événement ”faire Pile la i-ième fois et Face la (i + 1)-ième fois” où
i est fixé entre 1 et n − 1 s’écrit :
Ω1 × Ω2 × · · · × Ωi−1 × {Pile} × {Face} × Ωi+2 × · · · × Ωn .
Il est en effet constitué de toutes les suites finies (ω1 , · · · , ωn ) dont les i-ième et
(i+1)-ième termes sont respectivement un Pile et une Face. On peut aussi remarquer
que cet événement est l’intersection de :
Ω1 × Ω2 × · · · × Ωi−1 × {Pile} × Ωi+1 × Ωi+2 × · · · × Ωn et de
Ω1 × Ω2 × · · · × Ωi−1 × Ωi × {Face} × Ωi+2 × · · · × Ωn ,

pour tout i = 1, · · · , n . La probabilité Pi sur (Ωi , Ai ) est définie, comme précédem-
ment par :
Pi ({ωi }) = p si {ωi } = {Pile} et par
Pi ({ωi }) = q = 1 − p si {ωi } = {Face} .
c Michel CARBON
54 PROBABILITÉ
n
!
Y
Il reste à définir la probabilité P sur Ω= Ωi , P (Ω) . Pour cela, remarquons
i=1
tout d’abord que tout événement de P (Ω) de la forme :
B = A1 × A2 × · · · × Ai × · · · × An ,
peut aussi s’écrire comme l’intersection des n événements :

n
Y i−1
Y n
Y n−1
Y
A1 × Ωk ; · · · ; Ωk × Ai × Ωk ; · · · ; Ωk × An ,
k=2 k=1 k=i+1 k=1
que nous noterons respectivement : B1 ; · · · ; Bi ; · · · ; Bn .

Y n
— Si Ai = Ωi , Bi est l’événement certain Ω = Ωi , on pose donc :
i=1
P (Bi ) = P (Ω) = 1 .
i−1
Y n
Y
— Si Ai = ∅, Bi est l’événement impossible ∅ = Ωk × ∅ × Ωk , on pose
k=1 k=i+1
donc :
P (Bi ) = P (∅) = 0 .
i−1
Y n
Y
— Si Ai = {Pile}, Bi = Ωk × {Pile} × Ωk est l’événement ”faire pile à la
k=1 k=i+1
i-ième fois”, on pose donc :
P (Bi ) = Pi ({Pile}) = p .
i−1
Y n
Y
— Si Ai = {Face}, Bi = Ωk × {Face} × Ωk est l’événement ”faire face à
k=1 k=i+1
la i-ième fois”, on pose donc :
P (Bi ) = Pi ({Face}) = q = 1 − p .
Dans tous les cas, on a donc : P (Bi ) = Pi (Ai ) .

De plus, comme chacun des événements Bi (1≤ i ≤ n) ne concerne que la i-ième
expérience, il est conforme à l’intuition de supposer que les événements B1 , · · · , Bn
sont indépendants.
On pose donc :
P (B) = P (B1 ∩ · · · ∩ Bi ∩ · · · ∩ Bn ) = P (B1 ) × · · · × P (Bi ) × · · · × P (Bn ) ,
c’est-à-dire :
P (A1 × · · · × Ai × · · · × An ) = P1 (A1 ) × · · · × Pi (Ai ) × · · · × Pn (An ) .
c Michel CARBON
La probabilité P se trouve ainsi définie sur (Ω, P (Ω)), comme le ”produit” des
On
probabilités Pi (1≤ i ≤ n) . On notera souvent : P = Pi (produit tensoriel des
i=1
probabilités Pi ).
Par exemple, si la suite A1 , · · · , An comporte k fois l’événement {Pile} et n−k fois
l’événement {Face}, alors l’événement A1 ×· · ·×An a pour probabilité pk (1 − p)n−k .
Comme application, cherchons quelle est la probabilité de réussir ”pile” k fois
exactement au cours des n jets de la pièce.
L’événement ”réussir pile k fois en n expériences” peut s’écrire comme la réunion
de tous les événements de la forme A1 × · · · × An , où la suite A1 , · · · , An comporte
k piles et n − k faces. Tous ces événements sont deux à deux disjoints, et il y en a
autant que le nombre de façons de prendre k objets distincts parmi n objets : Cnk .
Chacun d’eux ayant la même probabilité pk (1 − p)n−k , la probabilité de réussir k
fois pile en n lancers de pièces est donc :
Cnk pk (1 − p)n−k .
Le schéma binomial :
Soit A un événement de la tribu A. On suppose que l’événement A a pour
probabilité p . On réalise n expériences indépendantes, et on note X la variable
aléatoire "nombre de fois où A s’est produit au cours des n expériences".
A la lumière de l’exemple précédent sur le jeu de Pile ou Face, on peut écrire :
∀ k = 0, · · · , n ; PX (k) = P ({X = k}) = Cnk pk (1 − p)n−k .
On peut aussi remarquer que :

n
X n
X
PX (k) = Cnk pk (1 − p)n−k = {p + (1 − p)}n = 1 .
k=0 k=0
On dit alors que X suit une loi binomiale de paramètres n et p : on écrira

X ∼ B (n, p). On pourra remarquer que la loi de Bernoulli n’est autre que la loi
B (1, p).
Si p = 0 (respectivement p = 1), la loi est dite dégénérée ; dans le premier cas :
X = 0 p.s. , et dans le second cas : X = n p.s. .
3) Loi de Poisson :
Dans l’exemple précédent, supposons que n soit très grand et p très petit, de
manière à ce que le produit n · p ait un ordre de grandeur pas trop élévé.
Nous interpréterons cette situation un peu floue de la manière suivante : on
considère une suite (Xn )n∈N∗ de variables aléatoires suivant toutes une loi binomiale
B (n, pn ) telle que :
∀ n ∈ N ∗ , n · pn = λ ,
où λ est un réel positif fixé.
c Michel CARBON
56 PROBABILITÉ
Pour tout entier k , et n ≥ k , on a :

P (Xn = k) n! (k − 1)! (n − k + 1)! pkn (1 − pn )n−k
=
P (Xn = k − 1) k! (n − k)! n! pnk−1 (1 − pn )n−k+1
λ − (k − 1) pn
= .
k (1 − pn )
Donc :
P (Xn = k) λ
lim = .
n→+∞ P (Xn = k − 1) k
Intuitivement, une variable aléatoire Xn , avec n très grand, a presque le même
comportement aléatoire qu’une variable Y, prenant ses valeurs dans N, et telle que :
λ
∀ k ∈ N∗ , P (Y = k) =P (Y = k − 1) .
k
Si une telle loi de probabilité existe, on a donc :
∗ λk
∀ k ∈ N , P (Y = k) = P (Y = 0) ;
k!
∞ ∞
X X λk
il est alors nécessaire que : P (Y = k) = P (Y = 0) = 1.
k=0 k=0
k!
Ainsi : P (Y = 0) = e−λ .
On dit que Y est une variable aléatoire poissonnienne, ou suit une loi de Poisson
de paramètre λ , si SY = N , et si, pour tout k ∈ N :
λk
PY ({k}) = P ({Y = k}) = e−λ .
k!
On écrira X ∼ P (λ) .
La façon dont nous avons introduit cette loi montre qu’elle régit le nombre de
réalisations d’événements rares d’un type donné. On la rencontre, de fait, expérimen-
talement dans des statistiques d’accidents, ou dans l’étude de l’émission de particules
par un corps radio-actif dans une période de temps donnée, pour ne citer que ces
deux exemples.
4) Loi géométrique de paramètre p (0 < p < 1) : Dans le jeu de Pile ou Face
infini, considérons le nombre de faces qui sortent avant l’apparition du premier Pile,
que nous noterons X. Il est clair que X prend ses valeurs dans N, et que :
∞
!
Y
P (X = 0) = P {Pile} × Ωi = p ;
i=2
∞
!
Y
P (X = 1) = P {Face} × {Pile} × Ωi = p (1 − p) ;
i=3
.. ..
.  . 
∞
Y
P (X = k) = P {Face} × · · · × {Pile} × Ωi  = p (1 − p)k ;
| {z }
k fois i=k+2
.. ..
. .
c Michel CARBON
1.14 N −uples de variables aléatoires discrètes 57
On dit que X suit une loi géométrique de paramètre p sur N .
5) Loi hypergéométrique
On considère un tirage équiprobable sans remise de n éléments pris dans une
population de taille N (n ≤ N ). On s’intéresse à un type donné d’éléments de la
population, que l’on supposera en proportion p (N p est donc un entier). Soit X le
nombre d’éléments du type étudié présents dans l’échantillon de taille n. La loi de
X est appelée loi hypergéométrique de paramètres N, n, p, et est notée H(N, n, p).
Une définition explicite de la loi de H(N, n, p) est alors la suivante :
Définition 1.13.2 X suit une loi hypergéométrique de paramètres N, n, p si, en

posant q = 1 − p, on a :
CNx p CNn−x
q
PX (x) = pour max(0; n − N q) ≤ x ≤ min(n, N p) .
CNn
6) Loi binomiale négative :

On considère une population dont une proportion p est composée d’éléments
d’un type donné. On désire obtenir n éléments de ce type en procédant à une suite
de tirages équiprobables et indépendants successifs. Soit Y la variable aléatoire dé-
signant le nombre de tirages nécessaires à l’obtention des n éléments voulus. La loi
de X = Y − n est appelée loi binomiale négative de paramètres n et p, et notée
BN (n, p).
De manière plus explicite, en posant q = 1 − p, on a :
Définition 1.13.3 X suit une loi binomiale négative de paramètres n et p si :

n−1
PX (x) = Cn+x−1 pn q x pour tout x ∈ N .
7) Dans les exemples classiques qui précèdent, et dans de nombreux exercices,

les variables aléatoires discrètes considérées sont souvent à valeurs dans N ; la classe
des variables aléatoires discrètes est bien entendu plus large que celle des variables
aléatoires entières. Par exemple, si λ ∈ R et µ ∈ R∗ , et si X suit une loi binomiale
B (n, p), alors (X − λ) /µ est une variable aléatoire discrète.
1.14 N −uples de variables aléatoires discrètes
Rappelons que l’observation d’un phénomène aléatoire consiste en général à me-

surer un ou plusieurs caractères du résultat obtenu. Par exemple, si on prend dans
une population Ω un individu ω , on peut lui associer son âge X1 (ω) , son poids
X2 (ω) , sa taille X3 (ω) , etc... Le modèle élémentaire :
X
(Ω, A,P ) −−−→ (R, BR , PX )
c Michel CARBON
58 PROBABILITÉ
se généralise alors sous la forme :

(X1 ,··· ,Xn )
(Ω, A,P ) −−−−−−−−−→ (Rn , BRn , PX1 ,··· ,Xn ) .
BRn est la tribu borélienne de Rn , c’est-à-dire la plus petite tribu contenant les
produits d’intervalles I1 × · · · × In , et X = (X1 , · · · , Xn ) est un vecteur aléatoire de
dimension n si, pour tout borélien B ∈ BRn , X −1 (B) ∈ A. Mais peu importe pour
l’instant : l’objet de ce chapitre n’est pas d’étudier la tribu BRn , ni les conditions
sous lesquelles une application X de (Ω, A) dans (Rn , BRn ) est un vecteur aléatoire :
on se contentera de penser à un vecteur aléatoire comme à un n-uple de variables
aléatoires. Et même, pour faciliter l’exposé, on se contentera souvent d’envisager un
couple de variables aléatoires (X, Y ), l’extension des propriétés à un n-uple n’étant
très souvent qu’un problème de notation.
Définition 1.14.1 Soit (X, Y ) un couple de variables aléatoires. On appelle loi de

probabilité de ce couple la probabilité PX,Y définie sur BR2 par :
∀B ∈ BR2 , PX,Y (B) = P ((X, Y ) ∈ B) .
Insistons à nouveau sur le fait qu’on peut se contenter ici de penser à B comme
à un sous-ensemble de R2 , sans autre précision.
En particulier, si B est le produit cartésien de deux intervalles I1 et I2 :
PX,Y (B) = P ({(X, Y ) ∈ I1 × I2 }) = P ({X ∈ I1 ; Y ∈ I2 }) .
De même que dans le cas unidimensionnel, on dit que (X, Y ) a une loi de pro-
babilité discrète, s’il existe un sous ensemble fini ou dénombrable S de R2 , tel que :
PX,Y (S) = 1 .
On peut bien entendu supposer ici aussi que :
S = {(x, y) ∈ R × R : PX,Y ((x, y)) = P {X = x ; Y = y} > 0} .
Il revient au même de dire que (X, Y ) est un couple de variables aléatoires dis-
crètes, puisque dans ces conditions, SX × SY est dénombrable, et :
PX,Y (SX × SY ) = P (X ∈ SX ; Y ∈ SY ) = P (Ω) = 1 .
En général, S ⊂ SX × SY .
Remarquons enfin que la probabilité PX,Y est entièrement définie par les nombres :
PX,Y ({(x, y)}) , ∀ (x, y) ∈ S .
En effet, d’après la σ-additivité de P, pour tout B ∈ BR2 , on a :
PX,Y (B) = P ((X, Y ) ∈ B)
X
= P (X = x ; Y = y)
(x,y)∈B∩S
X
= PX,Y ((x, y)) .
(x,y)∈B∩S
Ce qui se traduit dans la propriété suivante.
c Michel CARBON
1.14 N −uples de variables aléatoires discrètes 59
Proposition 1.14.1 La loi de probabilité du couple (X, Y ) est entièrement carac-

térisée par les valeurs prises (x, y) par le couple (X, Y ), et par les probabilités cor-
respondantes PX,Y ((x, y)) = P (X = x; Y = y) .
La proposition qui suit est très utile quand on veut déterminer la loi de X ou la
loi de Y , connaissant la loi du couple (X, Y ) .
Proposition 1.14.2 (formule des lois marginales)

Si (X, Y ) est un vecteur aléatoire discret, dont la loi de probabilité est notée PX,Y ,
alors la loi de probabilité de X est donnée par :
X
∀x ∈ SX , PX (x) = PX,Y (x, y) .
y∈SY
La démonstration est une conséquence immédiate du lemme (2.1.1) en choisissant

pour f la projection sur une coordonnée.
Bien entendu, cette formule des lois marginales s’étend à plus de deux variables
suivant la règle consistant à sommer sur les valeurs des autres variables. Ainsi, la
loi de (X1 , · · · , Xj ) ( avec 1 ≤ j ≤ n ) est donnée à partir de la loi du n−uple
(X1 , · · · , Xn ) par :
X X
PX1 ,··· ,Xj (x1 , · · · , xj ) = ··· PX1 ,··· ,Xn (x1 , · · · , xj , xj+1 , · · · , xn ) .
xj+1 xn
Remarque 1.14.1 :
1) Reprenons le jeu de pile ou face comportant n jets, introduit dans le premier
paragraphe.
n
Y
L’espace de probabilité associé est (Ω, P (Ω)), où Ω est défini comme Ωi , avec,
i=1
pour tout i = 1, · · · , n : Ωi = {”pile”, ”f ace”} ; la probabilité Pi sur (Ωi , P (Ωi ))
est définie par : Pi ({”pile”}) = p et Pi ({”f ace”}) = 1 − p ; enfin, la probabi-
lité P sur (Ω, P (Ω)) est définie par sa valeur pour les événements de la forme :
(A1 × · · · × An ), Ai ∈ P (Ωi ) , ∀i = 1, · · · , n., à savoir :
P (A1 × · · · × An ) = P1 (A1 ) × · · · × Pn (An ) .
Appelons X le nombre de "pile" sortis au cours de n jets, Y le nombre de "face"

sortis au cours de n jets ; on définit ainsi un couple de variables aléatoires :
(X, Y ) : (Ω, P (Ω)) −→ R2 , BR2 .

Nous savons que SX = SY = {0, 1, · · · , n}, donc, a priori, S ⊂ SX × SY ; en fait,

comme Y = n − X, S est l’ensemble des couples {(k, n − k) ; k = 0, 1 · · · n} .
Pour tout couple (k, n − k), on a :
PX,Y ((k, n − k)) = P (X = k ; Y = n − k)

= P (X = k)
= Cnk pk (1 − p)n−k .
c Michel CARBON
60 PROBABILITÉ
2) On peut généraliser l’exemple précédent en utilisant, au lieu d’une pièce de

monnaie, un dé à six faces ; on obtient ainsi un 6-uple de variables aléatoires :
(X1 , · · · , X6 ) égales respectivement : au nombre de "1" sortis lors de n expériences, · · · ,
au nombre de "6" sortis au cours de n expériences.
De façon tout à fait générale, cette fois, considérons k événements deux à deux
disjoints A1 , · · · , Ak de probabilités p1 , · · · pk positives, tels qu’à chaque expérience,
l’un des Ai , i = 1, · · · k, soit réalisé. Nous laissons le soin au lecteur de modéliser
les n expériences aléatoires indépendantes par un espace probabilisé (Ω, A, P ), en
s’inspirant de ce qui précède.
Si on appelle X1 , · · · , Xk le nombre d’événements respectifs A1 , · · · , Ak qui ont
été réalisés en n expériences indépendantes, on voit qu’un événement de la forme
{X1 = x1 ; · · · ; Xk = xk }, avec x1 + · · · + xk = n, est la réunion disjointe de toutes
les successions d’événements comportant x1 fois A1 , · · · , xk fois Ak ; cette réunion
n!
comporte termes, chacun d’eux a la probabilité px1 1 · · · pxkk .
x1 ! · · · xk !
Donc :
n!
PX1 ,··· ,Xk {(x1 , · · · , xk )} = P {X1 = x1 ; · · · ; Xk } = px1 · · · pxkk .
x1 ! · · · xk ! 1
pour x1 , · · · , xk positifs, et x1 + . . . + xk = n ; cette généralisation de la loi binomiale
porte le nom de loi multinomiale.
Elle sera notée : M (n; p1 , · · · , pk ) .
1.15 Variables aléatoires discrètes indépendantes

L’idée générale est que des variables aléatoires sont indépendantes si les événe-
ments qu’elles engendrent sont indépendants : pour des variables aléatoires discrètes
(X, Y ) , les événements qu’elles engendrent peuvent s’écrire à partir des événements
élémentaires de la forme : {X = x}, pour x ∈ SX et {Y = y} pour y ∈ SY . En fait,
nous admettrons qu’il suffit que les événements de cette forme soient indépendants,
pour que X et Y soient indépendants.
Définition 1.15.1 Un n-uple de variables aléatoires (X1 , · · · , Xn ) discrètes, à va-

leurs dans S1 , · · · , Sn , est formé de variables indépendantes si et seulement si, pour
tous les x1 ∈ S1 , · · · , xn ∈ Sn , les événements {X1 = x1 } , · · · , {Xn = xn } sont
indépendants.
Il en résulte immédiatement que la loi de probabilité d’un couple (X, Y ) de

variables aléatoires indépendantes, est, en quelque sorte, le « produit » des lois de
probabilité de X et de Y. On dit alors que PX,Y est le produit tensoriel des deux
lois PX et PY , et noté PX ⊗ PY . En effet : ∀ (x, y) ∈ S :
PX,Y ({x, y}) = P ({X = x ; Y = y})
= P ({X = x}) P ({Y = y})
= PX (x) PY (y) .
c Michel CARBON
1.16 Lois absolument continues 61
La loi PX de X et la loi PY de Y sont appelées lois marginales du couple (X, Y ) .

Soit (X, Y ) un couple de variables aléatoires dont la loi « conjointe » est définie
par le tableau ci-dessous :
Y = −1 Y = 1 Y = 3 Y = 5
X=0 0 0, 3 0, 2 0, 1
X=1 0, 1 0 0, 1 0
X=2 0, 1 0, 1 0 0
On lit le tableau ci-dessus comme par exemple : P (X = 0; Y = 3) = 0, 2 .

Quelles sont les lois « marginales » de X et de Y ? Quelle devrait être la loi du
couple (X, Y ) pour que X et Y soient indépendantes ?
La loi « marginale » de X est définie par :
P (X = 0) ; P (X = 1) ; P (X = 2) ;
et celle de Y par :
P (Y = −1) ; P (Y = 1) ; P (Y = 3) ; P (Y = 5) .
On peut alors les écrire dans des tableaux récapitulatifs :
X PX Y PY
0 0,6 -1 0,2
1 0,2 1 0,4
2 0,2 3 0,3
5 0,1
X et Y ne sont pas indépendantes, puisque par exemple :
P (X = 0) P (Y = 3) = PX ({0}) PY ({3}) = 0, 6 0, 3 = 0, 18 ;
tandis que :
P ({X = 0; Y = 3}) = PX,Y ({0, 3}) = 0, 2 .
Si X et Y étaient indépendantes, PX,Y serait définie par le tableau ci-dessous, et
réciproquement.
Y = −1 Y = 1 Y = 3 Y = 5
X=0 0, 12 0, 24 0, 18 0, 06
.
X=1 0, 04 0, 08 0, 06 0, 02
X=2 0, 04 0, 08 0, 06 0, 02
1.16 Lois absolument continues

On rappelle que l’expression loi de probabilité ou loi est synonyme de mesure de
probabilité. Les lois diffuses les plus usuelles sont les lois absolument continues, ou
lois à densité.
c Michel CARBON
62 PROBABILITÉ
Définition 1.16.1 Une mesure de probabilité absolument continue est une mesure
de probabilité de la forme :
Z
∀ B ∈ BR , P (B) = f (x) dx ,
B
où f est une densité de probabilité, c’est-à-dire une fonction définie sur R satisfaisant
aux conditions :
Z +∞
f (x) ≥ 0 pour tout x ∈ R, et f (x) dx = 1 .
−∞
Théorème 1.16.1 On a alors :

Z x
d
F (x) = f (u) du et f (x) = F (x) = F 0 (x) .
−∞ dx
Démonstration : On a immédiatement :
Z x
F (x) = P (] − ∞, x]) = f (x) dx ,
−∞
grâce à (1.1] et à la définition (1.16.1). Le dernier point provient des propriétés de

dérivabilité de l’intégrale de Riemann par rapport à sa borne supérieure.
Exemples :
· Loi uniforme continue
Définition 1.16.2 X suit une loi uniforme sur le segment [a, b] (avec a < b) si sa
densité est donnée par :
1
f (x) = 1[a,b] (x) .
b−a
On notera alors que X U([a, b]) .
· loi normale de paramètres m et σ
Définition 1.16.3 X suit une loi notée N (m, σ 2 ) si densité est donnée par :
" 2 #
1 1 x−m
f (x) = √ exp − ; x ∈ R ; (m ∈ R, σ > 0) .
σ 2π 2 σ
· loi de Cauchy de paramètre a
Définition 1.16.4 X suit une loi de Cauchy de paramètre a si sa densité est donnée
par :
1 a
f (x) = ; x ∈ R (a > 0) .
π a + x2
2
· Loi logistique
c Michel CARBON
1.16 Lois absolument continues 63
Définition 1.16.5 X suit une loi logistique si sa densité est donné par :
e−x
f (x) = pour tout x ∈ R .
(1 + e−x )2
La loi logistique est fréquemment définie par sa fonction de répartition :
1
FX (x) = .
1 + e−x
On en déduit une relation simple entre la densité et la fonction de répartition :
FX (x)
f (x) = .
1 − FX (x)
· loi de Laplace
Définition 1.16.6 X suit une loi de Laplace si sa densité est donnée par :
1
f (x) = e−|x| ; x ∈ R.
2
· loi gamma Γ
Définition 1.16.7 X suit une loi Γ (a, λ) si sa densité s’écrit :
λa a−1 −λx
f (x) = x e pour x > 0 (a > 0) ,
Γ (a)
= 0 pour x ≤ 0 ,
Z+∞
avec : Γ (a) = xa−1 e−x dx .
0
Notons que : Γ (a + 1) = aΓ (a) , pour tout a > 0, et qu’aussi on a : Γ (n) =

(n − 1)! pour tout n, entier strictement positif.
√

1
On a aussi : Γ = π.
2

n 1
La loi Γ , pour n ∈ N∗ , est appelée loi du χ2 à n degrés de liberté, et sera
2 2
notée χ2n .
La loi Γ (1, λ) est appelée loi exponentielle de paramètre λ > 0 .
c Michel CARBON
64 PROBABILITÉ
1.17 N −uples de lois absolument continues

On généralise ici les notions introduites précédemment. Rappelons qu’une va-
riable aléatoire définie sur un espace (Ω, A, P ) , à valeurs dans (Rn , BRn ) n’est autre
qu’un n-uple de variables aléatoires réelles X = (X1 , · · · , Xn ) . On dit encore que
X est un vecteur aléatoire.
1.17.1 Loi conjointe - Loi marginale

Définition 1.17.1 On appelle loi conjointe de X = (X1 , · · · , Xn ) , la loi PX de X
sur (Rn , BRn ) , et loi marginale PXi , la loi individuelle de chaque variable aléatoire
Xi sur (R, BR ) . C’est encore la loi image de PX par l’application projection Πi :
(x1 , · · · , xn ) −→ xi .
Il est important de remarquer que, inversement, la connaissance des lois mar-

ginales ne détermine pas PX . Il peut exister une corrélation entre les marges de
X.
Exemple 1.17.1 .
Soit ρ une réel tel que : ρ ∈ ]−1, 1[ . On considère le couple (X, Y ) de densité de
probabilité suivante :

1 1 2 2

f (x, y) = p exp − x − 2ρxy + y .
2π 1 − ρ2 2 (1 − ρ2 )
(on peut aisément vérifier que c’est bien une densité de probabilité)
La loi de Y a alors pour densité :
Z
1 1 2 2

fY (y) = p exp − x − 2ρxy + y dx .
2π 1 − ρ2 2 (1 − ρ2 )
R
Or :
x2 − 2ρxy + y 2 = (x − ρy)2 + 1 − ρ2 y 2 .

Donc :
" #
(x − ρy)2
2Z
1 y
fY (y) = p exp − exp − dx .
2π 1 − ρ2 2 2 (1 − ρ2 )
R
2
y
Ainsi, fY (y) est proportionnelle à exp − . C’est donc :
2
2
1 y
fY (y) = √ exp − .
2π 2
On aurait aussi pu effectuer le dernier calcul intégral ci-dessus (exercice laissé au

lecteur).
c Michel CARBON
1.17 N −uples de lois absolument continues 65
De la même façon, on trouve que :

2
1 x
fX (x) = √ exp − .
2π 2
La loi du couple permet donc de déterminer facilement la loi des deux marginales.
La réciproque est fausse en général. Ce dernier exemple montre bien que, pour tous
les réels ρ tels que ρ ∈ ]−1, 1[ , les lois marginales sont identiques.
1.17.2 Fonction de répartition

Définition 1.17.2 On appelle fonction de répartition de X, la fonction de réparti-
tion de la mesure PX :
FX (x1 , · · · , xn ) = PX (]−∞, x1 ] × · · · × ]−∞, xn ])
= P (X1 ≤ x1 ; · · · ; Xn ≤ xn ) .
Comme dans le cas unidimensionnel, c’est une fonction croissante, continue à

droite en chacune de ses variables, qui tend vers 0 lorsque l’un des xi tend vers -∞,
et tend vers 1 lorsque tous les xi tendent vers +∞. Elle caractérise également la loi
de probabilité PX .
On peut démontrer le résultat suivant :
Propriété 1.17.1 Si X = (X1 , · · · , Xn ) a pour fonction de répartition FX et si FX

est n fois différentiable, alors la loi de probabilité PX admet une densité :
∂ n FX
f (x1 , x2 , · · · , xn ) = (x1 , x2 , · · · , xn ) ,
∂x1 · · · ∂xn
sur (Rn , BRn ). De plus, on a :
Z xn Z x1
F (x1 , x2 , · · · , xn ) = ··· f (u1 , u2 , · · · , un ) du1 du2 · · · dun .
−∞ −∞
C’est le cas pour les lois absolument continues. On note alors les remarques
suivantes :
Remarques
1) Il existe alors une fonction f positive, intégrable sur (Rn , BRn , λn ), telle que :
Z
f (x1 , · · · , xn ) dx1 · · · dxn = 1 ,
Rn
qui est la densité de PX .

Ainsi, pour tout borélien A de BRn :
Z
PX (A) = P (X ∈ A) = f (x1 , · · · , xn ) dx1 · · · dxn .
A
On a aussi la réciproque suivante :
c Michel CARBON
66 PROBABILITÉ
Propriété 1.17.2 Toute application f de Rn dans R, intégrable, positive et telle

que : Z
f (x1 , · · · , xn ) dx1 · · · dxn = 1 .
Rn
est la densité d’une loi absolument continue sur (Rn , BRn ) .
2) La fonction de répartition de X peut donc s’écrire sous la forme :

F (x1 , · · · , xn ) = P (X1 ≤ x1 ; . . . ; Xn ≤ xn )
Z Z
= ... f (t1 , · · · , tn ) dt1 · · · dtn .
]−∞,x1 ] ]−∞,xn ]
3) Nous admettrons que, de façon similaire au cas unidimensionnel, la fonction

de répartition F d’une loi de probabilité à densité f sur Rn vérifie :
∂ nF
= f (x1 , · · · , xn ) .
∂x1 · · · ∂xn
4) Remarquons enfin que, si (X1 , · · · , Xn ) est à densité f (x1 , · · · , xn ) , pour tout

m < n, (X1 , · · · , Xm ) est encore à densité, et l’on a :
Z Z
g (x1 , · · · , xm ) = ... f (x1 , · · · , xn ) dxm+1 · · · dxn .
R R
En effet, d’après le théorème de Fubini, pour tout A ∈ Rm :

P ((X1 , · · · , Xm ) ∈ A) = P ((X1 , · · · , Xn ) ∈ A × Rn−m )
Z
= f (x1 , · · · , xn ) dx1 · · · dxn
A×Rn−m
Z Z
= f (x1 · · · xn ) dxm+1 , . . . , dxn dx1 · · · dxm ,
A Rn−m
ce qui s’écrit :
Z
P ((X1 , · · · , Xm ) ∈ A) = g (x1 , · · · , xm ) dx1 · · · dxm .
A
Cela peut aussi se généraliser à tout sous-vecteur (Xn1 , · · · , Xnm ) avec {n1 , · · · , nm } ∈
{1, · · · , n} , extrait de (X1 , · · · , Xn ) .
Par exemple, pour un couple de v.a.r. (X, Y ), on a le résultat suivant :
Proposition 1.17.1 Si (X, Y ) est un couple de v.a.r. à densité fX,Y (x, y), les lois
marginales de X, et de Y sont à densités, données par :
Z +∞ Z +∞
fX (x) = fX,Y (x, y) dy et fY (y) = fX,Y (x, y) dx .
−∞ −∞
c Michel CARBON
1.18 Variables aléatoires continues indépendantes 67
1.18 Variables aléatoires continues indépendantes

Théorème 1.18.1 Soit X = (X1 , · · · , Xn ) un n-uple de variables aléatoires. Alors :
1. X1 , · · · , Xn sont indépendantes si et seulement si :
∀ (x1 , · · · , xn ) ∈ Rn , F(X1 ,··· ,Xn ) (x1 , · · · , xn ) = FX1 (x1 ) × · · · × FXn (xn ) . (1.3)
2. Si X1 , · · · , Xn sont n variables aléatoires indépendantes et de densités respec-

tives f1 (x1 ) , · · · , fn (xn ) , alors X a pour densité :
f(X1 ,··· ,Xn ) (x1 , · · · , xn ) = f1 (x1 ) × · · · × fn (xn ) .
3. Réciproquement si un n-uple X = (X1 , · · · , Xn ) de variables aléatoires pos-

sède une densité f (x1 , · · · , xn ) de la forme f1 (x1 ) × · · · × fn (xn ) , alors ces va-
riables sont indépendantes, de densités respectives, à une constante multiplicative
près, f1 (x1 ) , · · · , fn (xn ) .
Exemple 1.18.1 (loi normale)

" n
!#
1 1X (xi − mi )2
f (x1 , · · · , xn ) = exp −
(2π)n/2 σ1 . . . σ2 2 i=1 σi2
est la densité de probabilité d’un n-uple de variables aléatoires indépendantes X =

(X1 , · · · , Xn ) dont chaque composante suit la loi N (mi , σi2 ) .
On dit que X suit une loi gaussienne sur (Rn , BRn ), de moyenne m et de matrice
de variances-covariances Γ, avec :
 
σ12 0
0
m = (m1 , · · · , mn ) et Γ = 
 ... .

2
0 σn
Exemple 1.18.2 (à partir d’une fonction de répartition)
Soit (X, Y ) un couple de variables aléatoires réelles positives de fonction de

répartition :
xy
F (x, y) = 1{x>0;y>0} .
(1 + x) (1 + y)
Sa densité vaut :
∂ 2F

1
f (x, y) = = 1{x>0;y>0}
∂x∂y (1 + x)2 (1 + y)2

1 1
= 1{x>0} 1{y>0} .
(1 + x)2 (1 + y)2
c Michel CARBON
68 PROBABILITÉ
X et Y sont donc indépendantes, de même densité :

1
h (x) = 1{x>0} .
(1 + x)2
On peut aussi, pour démontrer l’indépendance de X et de Y, calculer directement

la fonction de répartition de X et de Y :

x y
FX (x) = lim F (x, y) = 1{x>0} et FY (y) = 1{y>0} ,
y→∞ 1+x 1+y
et constater que F (x, y) = FX (x) FY (y) .
Exemple 1.18.3 (loi de couple)
Soient X1 , · · · , Xn des variables aléatoires indépendantes de loi uniforme sur

[0, 1] .
On pose : M = max Xi , N = min Xi . Quelle est la loi du couple (M, N ) ?
1≤i≤n 1≤i≤n
Il est clair que : 0 ≤ N ≤ M ≤ 1 . Le couple (M, N ) a donc une loi PM,N

concentrée sur le domaine D = {0 ≤ x ≤ 1 ; 0 ≤ y ≤ x} .
Pour caractériser PM,N , on cherche sa fonction de répartition H (x, y) , pour tout
(x, y) ∈ D :
H (x, y) = P (M ≤ x ; N ≤ y) = P (M ≤ x) − P (M ≤ x ; N > y) .
En utilisant l’indépendance des variables X1 , · · · , Xn , on a :
H (x, y) = P (X1 ≤ x ; · · · ; Xn ≤ x) − P (y < X1 ≤ x ; · · · ; y ≤ Xn ≤ x)
= xn − (x − y)n .
∂ 2F
La densité h de (M, N ) s’obtient alors en calculant :
∂x∂y
h (x, y) = n (n − 1) (x − y)n−2 1D (x, y) .
On cherchera aussi la densité de M, celle de N ; M et N sont-elles indépendantes ?
c Michel CARBON
Chapitre 2
Moments et transformations de
variables
Il est difficile de faire la différence entre un mathématicien qui dort et un ma-

thématicien qui travaille.
A. Lichnerowicz
2.1 Moyenne et Variance

2.1.1 Moyenne (cas discret)
Soit X une variable aléatoire discrète prenant ses valeurs dans l’ensemble fini ou
dénombrable S.
On dit que X possède une moyenne, ou une espérance mathématique, si et seule-
ment si :
X
|x| · P (X = x) < +∞ .
x∈S
C’est évidemment toujours le cas si S = {x1 , ..., xk , ...} est fini. Si, par contre, S
∞
X
est dénombrable, cela revient à dire que la série xk · P (X = xk ) est absolument
k=1
convergente.
Définition 2.1.1 Sous cette réserve d’existence, on appelle alors espérance mathé-
matique, ou moyenne de X, le nombre :
X
E (X) ou mX = xk · P (X = xk ) .
k
1) Loi de Bernoulli : E (1A ) = p .
69
CHAPITRE 2. MOMENTS ET TRANSFORMATIONS DE
70 VARIABLES
2) Loi Binomiale : Soit X ∼ B (n, p) :

n
X n!
E (X) = k pk (1 − p)n−k
k=0
k! (n − k)!
n
X (n − 1)!
= np pk−1 (1 − p)(n−1)−(k−1)
k=1
(k − 1)! [(n − 1) − (k − 1)]!
= np [p + (1 − p)]n−1 = np .
3) Loi de Poisson : Soit X ∼ P (λ) , avec λ > 0.

∞ ∞
X
−λ λk X λk−1
E (X) = k·e · =λ e−λ = λ.
k=0
k! k=1
(k − 1)!
4) Loi géométrique de paramètre p (p ∈]0, 1[) :

∞
X
E (X) = kp (1 − p)k .
k=0
∞
X
Soit S (x) la somme de la série entière xn , |x| < 1.
n=0
S 0 (x) est la somme de la série entière dérivée terme à terme :
∞
X
n xn−1 , |x| < 1 ,
n=1
0
0 1 1
donc S (x) = = .
1−x (1 − x)2
∞
X 1−p
Par conséquent, E (X) = p (1 − p) k (1 − p)k−1 =
.
k=1
p
5) Voici, pour finir, un exemple de variable aléatoire discrète ne possédant pas
d’espérance mathématique : Soit X une variable aléatoire discrète dont la loi est
définie par :
1
SX = Z∗ , et ∀n ∈ N∗ , P (X = n) = P (X = −n) = .
2n (n + 1)
Cette loi est bien définie, puisque :
∞
X X 1
PX (n) = = 1,
n∈Z∗ n=1
n (n + 1)
mais : ∞
X X 1
|n| · PX (n) = = +∞.
n∈Z∗ n=1
n+1
c Michel CARBON
2.1 Moyenne et Variance 71
On convient généralement de poser :

X
P (X = xk ) = pk , et E (X) = xk · p k .
k
On peut dire de façon grossière, que E (X) est le « milieu » de la loi de probabilité
de X, puisque c’est le barycentre de SX . C’est donc un paramètre de centralité de
la loi de X.
Dans l’étude de modèles probabilistes, on est très souvent amené à transformer
certaines variables en d’autres variables. Le lemme suivant sera utile dans cette
optique :
Lemme 2.1.1 Soit X une variable aléatoire définie sur (Ω, A, P ) à valeurs dans S,
espace au plus dénombrable. Soit f une application quelconque de S dans S 0 , où S 0
est aussi un espace au plus dénombrable. Alors : Y = f ◦ X est une variable aléatoire
discrète dont la loi de probabilité PY se déduit de celle de X par la formule :
X
PY (y) = PX ({x}) . (2.1)
x:f (x)=y
Démonstration :
Pour tout y ∈ S 0 , on a :
X
{Y = y} = {X = x}
x:f (x)=y
(somme comme réunion disjointe)

La somme du second membre de (2.1) est au plus dénombrable, car S l’est.
La formule (2.1) s’obtient alors par σ−additivité de P. Ainsi, Y est une variable
aléatoire discrète et sa loi est donnée par (2.1) .
Proposition 2.1.1 Soit X une variable aléatoire discrète à valeurs dans S. Pour
toute application f définie sur S à valeurs réelles, l’espérance de la variable Y =
f (X) vaut (sous réserve d’existence) :
X
E [f (X)] = f (x)PX (x) . (2.2)
x∈S
Démonstration :
Par définition et grâce au lemme 2.1.1, on a :
X
E [f (X)] = y P (f (X) = y)
y∈f (S)
X X
= y PX (x) .
y∈f (S) x:f (x)=y
X
Et la double somme ci-dessus vaut encore : f (x)PX (x).
x∈S
Une première propriété bien utile suit.
c Michel CARBON
72 VARIABLES
Propriété 2.1.1 ∀ a, b ∈ R :
E(a X + b) = a E(X) + b .
Démonstration :
Si X, v.a.r. discrète ( X (Ω) = S) prend les valeurs xk avec les probabilités
correspondantes pk = P (X = xk ) , on a immédiatement :
X
E(a X + b) = (axk + b) · pk
xk ∈S
X X
= a xk · p k + b pk
xk ∈S xk ∈S
= a E(X) + b .
Définition 2.1.2 On appelle moment simple d’ordre s, la quantité, sous réserve

d’existence, E (X s ) .
Grâce à la proposition (6.1.1) , sous réserve d’existence, cela se calcule via la

formule : X
E (X s ) = xs · PX (x) .
x∈S
2.1.2 Variance (cas discret)

Il est utile de donner un moyen de mesurer la dispersion des valeurs prises par
X , autour de leur moyenne E (X) ; on le fait à l’aide du moment d’inertie de SX :
soit X une variable aléatoire discrète possédant une moyenne E (X) = mX ; on dit
que X possède une variance si et seulement si :
X
(x − mX )2 · P (X = x) < +∞ .
x∈S
Définition 2.1.3 Sous réserve d’existence, la somme de cette série s’appelle la va-
2
riance de X , et se note V ar(X) ou σX . (Il est clair que, si S est fini, X possède
une variance). On peut exprimer la variance de diverses façons :
X
V ar(X) = E (X − E(X))2 = (xk − mX )2 pk ,

k
ou encore, après un calcul simple :

X
V ar(X) = E(X 2 ) − [E (X)]2 = x2k pk − m2X .
k
c Michel CARBON
En effet :
V ar(X) = E [(X − E(X))2 ]
= E [X 2 − 2XE (X) + (E(X))2 ]
= E(X 2 ) − 2(E(X))2 + (E(X))2
= E(X 2 ) − (E(X))2 .
Dans les calculs, on est souvent amené à utiliser la racine carrée de V ar(X),
qu’on appelle écart-type de X, et qu’on note : σX .
Tout un chacun aura toujours à l’esprit qu’une variance est toujours positive ou
nulle.
Cette définition de la variance est une mesure de la dispersion des valeurs prises
par X relativement à la moyenne. Plus les valeurs prises par X sont dispersées autour
de m, et plus la variance sera importante. A contrario, plus les valeurs prises par X
sont concentrées autour de m, et plus la variance sera petite.
D’autres mesures de dispersion peuvent être utilisées, comme celles définies ci-
dessous.
Définition 2.1.4 On appelle moment centré s, la quantité, et sous réserve d’exis-

tence, E ((X − E (X))s ) .
Grâce à la proposition (6.1.1) , sous réserve d’existence, cela se calcule via la

formule :
X
E ((X − E (X))s ) = (x − mX )s · PX (x) .
x∈S
1) Loi de Bernoulli : V ar(1A ) = p (1 − p) car
E(X 2 ) = 02 · (1 − p) + 12 · p = p ,
et
V ar(X) = E(X 2 ) − [E (X)]2 = p − p2 = p (1 − p) .
2) Loi Binomiale :
2
Soit X ∼ B (n, p) : σX = E (X 2 ) − [E (X)]2 = E (X 2 ) − n2 p2 .
c Michel CARBON
74 VARIABLES
Or :
∞
X n!
2
E (X ) = k2 · pk (1 − p)n−k
k=0
k! (n − k)!
∞
X n!
= (k − 1 + 1) pk (1 − p)n−k
k=1
(k − 1)! (n − k)!
n
X n!
= pk (1 − p)n−k
k=2
(k − 2)! (n − k)!
n
X n!
+ pk (1 − p)n−k
k=1
(k − 1)! (n − k)!
= n(n − 1)p2 [p + (1 − p)]n−2 + np [p + (1 − p)]n−1
= n2 p2 − np2 + np .
2
donc σX = np (1 − p) .
3) Loi de Poisson : Soit X ∼ Pλ ; un calcul similaire à celui qui précède fournit :
2
σX = λ. En effet :
∞ k −λ
2λ e
X
2
E (X ) = k
k=1
k!
∞
X λk e−λ
= k
k=1
(k − 1)!
∞
X λk e−λ
= [(k − 1) + 1]
k=1
(k − 1)!
∞ ∞
X λk e−λ X λk e−λ
= (k − 1) + ,
k=2
(k − 1)! k=1 (k − 1)!
soit : ∞ ∞
2 2 −λ
X λk−2 −λ
X λk−1
E (X ) = λ e + λe
k=2
(k − 2)! k=1
(k − 1)!
= λ2 e−λ eλ + λe−λ eλ = λ2 + λ .
Par suite :
V (X) = E(X 2 ) − [E (X)]2 = λ2 + λ − λ2 = λ .
4) Loi géométrique : ( à faire à titre d’exercice ) utiliser la dérivée seconde de la
X∞
somme de la série entière S(x) = xn , |x| < 1.
n=0
c Michel CARBON
Remarque 2.1.1 :
1) Pour que X possède une variance, il est nécessaire et suffisant que E(X 2 ) <
+∞ , c’est-à-dire que : X
x2k pk < +∞ .
k
En effet, l’inégalité triviale : |x| ≤ x2 + 1 donne :

X X
|xk | pk ≤ x2k pk + 1 < +∞ ,
k k
autrement dit E(X) = mX existe.

Et l’inégalité (x − y)2 ≤ 2 (x2 + y 2 ) donne :
X X X
(xk − mX )2 pk ≤ 2 x2k pk + 2 m2X pk = 2E X 2 + 2m2X < +∞ .

k k k
La réciproque est obtenue grâce à l’inégalité : x2 ≤ (x − y)2 + 2xy .

2) La propriété suivante s’établit aisément :
Propriété 2.1.2 ∀ a, b ∈ R :
V ar(a X + b) = a2 V ar(X) .
Démonstration :
Si X, v.a.r. discrète, on a successivement :
E [(a X + b)2 ] = E (a2 X 2 + 2abX + b2 )
= a2 E (X 2 ) + 2abE (X) + b2 ,
grâce à la proposition (2.1.1) .

D’autre part, on a :
[E(a X + b)]2 = [a E(X) + b]2
= a2 [E (X)]2 + 2abE(X) + b2 .
Ainsi :
V ar(a X + b) = E [(a X + b)2 ] − [E(a X + b)]2
= a2 E (X 2 ) − [E (X)]2 = a2 V ar(X) .

Définition 2.1.5 Sous réserve d’existence de la moyenne, on appelle v.a.r. centrée,

toute variable dont la moyenne est nulle.
Soit X une variable admettant une espérance mathématique mX . Alors la va-

riable aléatoire Y = X − mX est de moyenne nulle. En effet :
E (Y ) = E (X − mX ) = E (X) − mX = 0 .
c Michel CARBON
76 VARIABLES
Définition 2.1.6 Sous réserve d’existence, on appelle v.a.r. réduite, toute variable
aléatoire de variance 1.
Soit X une variable admettant une variance σ 2 (X). Alors la variable aléatoire
X
Z= est de variance 1. En effet :
σ (X)

2 2 X 1
σ (X) = σ = 2 σ 2 (X) = 1.
σ (X) σ (X)
Définition 2.1.7 Sous réserve d’existence, on appelle v.a.r. centrée réduite, toute
variable aléatoire de moyenne nulle et de variance 1.
Soit X une variable admettant une variance σ 2 (X).

X − mX
Alors la variable aléatoire U = est centrée réduite. En effet :
σ (X)

X − mX 1
E (U ) = E = E (X − mX ) = 0 .
σ (X) σ (X)

2 2 X − mX 1 1
σ (U ) = σ = σ 2 (X − mX ) = 2 σ 2 (X) = 1 .
σ (X) σ2 (X) σ (X)
(Le fait que Y, Z et U soient bien des variables aléatoires est simple à démontrer,
mais ne nous préoccupe pas pour l’instant).
2.2 Espérance - Covariance (cas discret)

2.2.1 Espérance mathématique
Définition 2.2.1 Soit X = (X1 , ..., Xn )0 un vecteur aléatoire formé de n variables
aléatoires discrètes. Sous réserve d’existence, on appelle espérance mathématique de
X = (X1 , ..., Xn )0 le n-uple (E (X1 ) , ..., E (Xn ))0 , où pour tout i = 1, ..., n , E (Xi )
est l’espérance mathématique de la variable Xi de loi marginale PXi . La réserve
d’existence de l’espérance étant que, pour tout i = 1, ..., n , E (Xi ) existe.
Soit (X1 , ..., Xk )0 un vecteur aléatoire suivant une loi multinomiale de paramètres
(n, p1 , ..., pk ) . Pour tout 1 ≤ i ≤ k, Xi est le nombre de réalisations d’un événement
Ai de probabilité pi , au cours de n expériences aléatoires indépendantes ; Xi suit
donc une loi binomiale B (n, pi ) d’espérance mathématique :
E (Xi ) = n pi ;
et par conséquent (E (X1 ) , ..., E (Xk ))0 = (n p1 , ..., n pk )0 .
Remarque 2.2.1 :
a) Si (X, Y ) est un couple de variables aléatoires discrètes, d’espérance mathé-
matique (E (X) , E (Y )) , Z = X + Y est une variable aléatoire pouvant prendre
c Michel CARBON
2.2 Espérance - Covariance (cas discret) 77
les valeurs {x + y : x ∈ SX et y ∈ SY } = SZ , donc est une variable aléatoire dis-

crète.
Pour tout z ∈ SZ ,
 
[ X
P {Z = z} = P  {X = x ; Y = y} = P (X = x ; Y = y) .
(x,y):x+y=z (x,y):x+y=z
Par conséquent :
X X
|z| · P (Z = z) = |x + y| P (X = x ; Y = y)
z∈SZ (x,y):x+y∈SZ
X X X X
≤ |x| P (X = x ; Y = y) + |y| P (X = x ; Y = y)
x y y x
X X
= |x| P (X = x) + |y| P (Y = y) < +∞ .
x y
Ce qui montre que Z possède une espérance mathématique ; il est facile alors de
démontrer l’égalité : E(Z) = E(X) + E(Y ) en adaptant le calcul ci-dessus.
D’une façon générale, on a la propriété suivante :
Proposition 2.2.1 Si le vecteur (X1 , ..., Xn )0 possède une espérance mathématique :
(E (X1 ) , ..., E (Xn ))0 ,
alors X1 + · · · + Xn possède une espérance mathématique, et l’on a :
E (X1 + · · · + Xn ) = E (X1 ) + · · · + E (Xn ) .
b) Si (X, Y ) est un couple de variables aléatoires discrètes, d’espérance mathé-

matique (E (X) , E (Y )) , alors Z = X Y est une variable aléatoire discrète, et
SZ = {x y : x ∈ SX et y ∈ SY } .
Pour tout z ∈ SZ , on a :
 
[ X
P (Z = z) = P  {X = x ; Y = y} = P (X = x ; Y = y) .
(x,y):xy=z (x,y):xy=z
Cependant E(Z) n’est pas nécessairement définie ; par exemple, si X a une loi
définie par :
√ 1
∀n ∈ N∗ , P X= n = ,
n (n + 1)
√
alors E(X) est définie puisque n/ (n (n + 1)) est équivalent à n−3/2 .
Posons alors X = Y, si bien que Z = X Y = X 2 ; il est clair alors que E(Z) =
+∞ .
c Michel CARBON
78 VARIABLES
c) Pourtant, si (X, Y ) est un couple de variables aléatoires discrètes indépen-

dantes, d’espérance mathématique (E(X), E(Y )), en posant Z = X Y, alors non
seulement E(Z) existe, mais de plus : E(Z) = E(X) E(Y ) .
En effet,
X X
|z| P {Z = z} = |x y| P {X = x; Y = y}
z x,y
X
= |x y| P {X = x} P {Y = y}
x,y
X X
= |x| P {X = x} |y| P {Y = y} < +∞ .
x
Ce qui montre que Z possède une espérance mathématique ; il est alors facile de
démontrer l’égalité : E(Z) = E(X) E(Y ), en adaptant le calcul ci-dessus.
D’une façon générale, on a le résultat suivant :
Proposition 2.2.2 Si X = (X1 , ..., Xn )0 est un vecteur aléatoire à composantes

indépendantes, d’espérance mathématique (E (X1 ) , ..., E (Xn ))0 alors le produit X1 ×
... × Xn possède une espérance mathématique :
E(X1 × ... × Xn ) = E(X1 ) × ... × E(Xn ).
De manière plus générale, on a la propriété suivante, souvent très utile dans les
appications :
Propriété 2.2.1 Quelles que soient les fonctions φ et ψ à valeurs réelles, définies
respectivement sur F et G, sous l’hypothèse que X et Y sont indépendantes (X
prenant ses valeurs dans F, et Y prenant ses valeurs dans G ), alors on a, sous
réserve d’existence :
E [φ (X) ψ (Y )] = E [φ (X)] E [ψ (Y )] . (2.3)
Démonstration :
La formule (2.3) se déduit directement de la forme de la loi du couple (X, Y ) et
de la forme produit de la fonction φ (X) ψ (Y ). En effet, on a :
X
E [φ (X) ψ (Y )] = φ (x) ψ (y) PX,Y (x, y)
F ×G
X X
= φ (x) PX (x) ψ (y) PY (y)
F G
= E [φ (X)] E [ψ (Y )] .
c Michel CARBON
Le résultat s’étend naturellement à un produit quelconque de variables aléatoires

discrètes indépendantes.
e) Cependant il faut se garder de croire que, si X et Y sont des variables aléatoires
telles que : E(X Y ) = E(X) E(Y ), elles soient indépendantes.
Par exemple, si X est une variable aléatoire discrète de loi définie par :
PX ({−2}) = PX ({−1}) = PX ({1}) = PX ({2}) = 1/4 ,
et si Y = X 2 , il est clair que X et Y ne sont pas indépendantes.

Cependant :
E(X) E(Y ) = 0 , puisque E(X) = 0,
et X Y = X 3 , donc :
PX 3 ({−8}) = PX 3 ({−1}) = PX 3 ({1}) = PX 3 ({8}) = 1/4,
ce qui montre que E(X Y ) = 0 .

f ) D’une façon générale, si g est une application : Rn → R , et (X1 , ..., Xn ) un
n-uple de variables aléatoires discrètes, on considérera : g (X1 , ..., Xn ) comme une
variable aléatoire discrète Z, avec :
SZ = {g (x1 , ..., xn ) ; x1 ∈ SX1 , ..., xn ∈ SXn } .
E (g(X1 , ..., Xn )) sera définie par :

X
E (g(X1 , ..., Xn )) = g (x1 , ..., xn ) P (X1 = x1 , ..., Xn = xn ) ,
x1 ,...,xn
à condition que :
X
|g (x1 , ..., xn )| P (X1 = x1 , ..., Xn = xn ) < +∞ .
x1 ,...,xn
2.2.2 Covariance
Pour caractériser la dispersion d’une variable aléatoire réelle X autour de sa
moyenne E(X), on a introduit la notion de variance :
2
σX = E(X − E(X))2 .
Considérons à présent un couple (X, Y ) de variables aléatoires réelles possédant

2
une espérance mathématique (E(X), E(Y )). Si X et Y possèdent des variances σX et
2
σY , ces variances ne caractérisent en fait que la dispersion de X, autour de E(X), de
Y, autour de E(Y ), mais pas la dispersion du couple (X, Y ) autour du point du plan
(E(X) , E(Y )) dans toutes les directions. Posons Z = (X, Y ) , E = (E(X) , E(Y )),
D une droite passant par E, de cosinus directeurs α et β, et H la projection de Z
sur D.
c Michel CARBON
80 VARIABLES
Nous allons caractériser la dispersion des points Z(ω) autour de E par la variance
de la variable aléatoire :
EH = α (X − E(X)) + β (Y − E (Y )) .
Tout d’abord :

E EH = αE (X − E (X)) + βE (Y − E (Y )) = 0.
Donc :
2

V ar EH = E EH
= E(α2 (X − E(X))2 + 2αβ (X − E (X)) (Y − E (Y ))

+β 2 (Y − E (Y ))2 )
= α2 V ar (X) + 2αβ Cov(X, Y ) + β 2 V ar(Y ) ,

en appelant covariance de X et de Y le nombre :
Cov(X, Y ) = E [(X − E (X)) (Y − E (Y ))] .
La covariance
mesure, en un certain sens, le degré de dépendance entre X et Y .
V ar EH est donc la forme quadratique associée à la matrice symétrique définie
positive :

V ar (X) Cov(X, Y )
C= ,
Cov(X, Y ) V ar(Y )
appelée matrice de variance-covariance de (X, Y ) .
Définition 2.2.2 Pour un vecteur aléatoire (X1 , ..., Xn )0 , la matrice de variances-

covariances est définie, si elle existe, par le terme général :
∀ i, j , 1 ≤ i, j ≤ n :
Cov(Xi , Xj ) = E [(Xi − E(Xi )) (Xj − E (Xj ))] .
Remarque 2.2.2 :
a) Une matrice carrée A symétrique est dite positive si pour tout vecteur ligne
V : V0AV ≥0 .
X →
−
On remarque donc que toute matrice de variances-covariances du vecteur X
−
→
X
est symétrique définie positive, en vérifiant aisément que :
X
b0 b = var (b0 X) .
−
→
X
b) Pour qu’une variable aléatoire X possède une variance, on a vu qu’il suffisait

que E(X 2 ) existe.
c Michel CARBON
Proposition 2.2.3 Pour qu’un n-uple de variables aléatoires discrètes (X1 , ..., Xn )0
possède une matrice de variances-covariances, il suffit que :
∀ i, 1 ≤ i ≤ n, E Xi2 < +∞.

Démonstration :
2 2
En effet, les termes diagonaux σX 1
, ..., σX n
existent. L’existence des autres termes
résulte de l’inégalité de Schwarz :
q
E (|Xi Xj |) ≤ E (Xi2 ) E Xj2 , ∀1 ≤ i, j ≤ n.
Pour démontrer cette inégalité, il suffit d’observer que, ∀λ ∈ R :
E (|Xi | − λ |Xj |)2 ≤ E 2 Xi2 + λ2 Xj2 = 2E(Xi2 ) + 2λ2 E Xj2 < +∞,

et :
∀λ ∈ R : E (|Xi | − λ |Xj |)2 = E Xi2 − 2λE (|Xi Xj |) + λ2 E (Xj )2 ≥ 0.

Par conséquent :
E 2 (|Xi Xj |) − E Xi2 E Xj2 ≤ 0 .

On obtiendrait de même, en remplaçant Xi par Xi −E (Xi ) et Xj par Xj −E (Xj ) :
E |(Xi − E (Xi )) (Xj − E (Xj ))| ≤ σXi σXj .
c) Soit (X1 , ..., Xn ) un n-uple de variables aléatoires discrètes indépendantes. La

matrice de variances-covariances si elle existe, a pour forme :
 2 
σX1 0
..
 . 
.
 

 ... 
2
0 σX n
En effet, d’après la remarque précédente c) : ∀i 6= j ,
Cov(Xi , Xj ) = E [(Xi − E (Xi )) (Xj − E (Xj ))]
= E (Xi Xj ) − E (Xi ) E (Xj )
= 0.
d) Soit (X1 , ..., Xn ) un n-uple de variables alé atoires discrètes, dont la matrice
de variances-covariances est diagonale. Alors X1 +· · ·+Xn est une variable aléatoire
discr ète qui possède pour variance :
2 2 2
σX 1 +...+Xn
= σX 1
+ · · · + σX n
.
c Michel CARBON
82 VARIABLES
En effet :
= E [(X1 + · · · + Xn ) − E (X1 + + Xn )]2
2

σX 1 +...+Xn
= E [(X1 − E (X1 )) + · · · + (Xn − E (Xn ))]2

n
X
= E [(Xi − E (Xi )) (Xj − E (Xj ))]
i,j=1
n
X
E (Xk − E (Xk ))2

=
k=1
2 2
= σX 1
+ · · · + σX n
.
C’est le cas en particulier, si X1 , ..., Xn sont indépendantes. D’où la proposition :
Proposition 2.2.4 Si X1 , ..., Xn sont n variables aléatoires réelles discrètes indé-

pendantes, admettant toutes un moment d’ordre 2, alors on a :
2 2 2
σX 1 +···+Xn
= σX 1
+ · · · + σX n
.
e) Une version normalisée de la covariance est le coefficient de corrélation défini

ci-dessous.
Définition 2.2.3 Soit (X, Y ) un couple de variables aléatoires réelles, possédant des
variances non nulles ; on appelle coefficient de corrélation de X et de Y le nombre :
Cov(X, Y )
ρ = ρ (X, Y ) =
σX σY
E ((X − E(X))(Y − E(Y )))

= q .
E ((X − E(X))2 ) E (Y − E(Y ))2
Il est facile de vérifier que ρ est aussi le coefficient de corrélation de X − E(X)

et de Y − E(Y ), si bien que, pour simplifier les notations, nous supposerons que
E(X) = E(Y ) = 0 dans ce qui suit :
E(X Y )
ρ= p .
E(X 2 ) E(Y 2 )
L’inégalité de Schwarz montre que : 0 ≤ |ρ| ≤ 1.

Si ρ = 0, la matrice de variances-covariances est diagonale : on dit que X et Y
sont non corrélées. Rappelons qu’elles ne sont pas nécessairement indépendantes.
Si |ρ| = 1, c’est-à-dire, si : E 2 (X Y ) = E (X 2 ) E(Y 2 ), l’équation
E (X − λY )2 = E X 2 − 2λE (X Y ) + λ2 E(Y 2 ) = 0

c Michel CARBON
2.3 Espérance mathématique (cas continue) 83
E (X Y )
admet la racine double λo = .
E(Y 2 )
Autrement dit : E (X − λo Y )2 = 0 .

Soit S l’ensemble des points (x, y) tels que P ({X = x ; Y = y}) > 0; nous avons
obtenu l’égalité :
X
(x − λo y)2 P ({X = x ; Y = y}) = 0 ,
(x,y)∈S
ce qui montre que, pour tout (x, y) ∈ S , x = λo y.
Enfin, comme P ({(X,Y ) ∈ S}) = 1, on peut écrire : P ({X = λo Y }) = 1.

On dit alors que X est presque sûrement égal à λo Y , et on note : X = λo Y
p.s.
Réciproquement, si il existe a tel que X = aY, on a simultanément :
E(X Y ) = E (aY 2 ) = aE (Y 2 )
X2

1
E(X Y ) = E = E (X 2 ) ;
a a
donc :
E 2 (X Y ) = E X 2 E Y 2 , et |ρ| = 1.

Comme le montre cette étude, ρ mesure un certain degré de relation entre les
variables X et Y : si |ρ| = 1, X et Y sont liés par la relation Y = a X + b p.s et les
utilisateurs du calcul des probabilités admettent que, pour des valeurs de ρ voisine
de 1, on peut utiliser cette relation pour prédire Y , quand on connaît une réalisation
de X.
2.3 Espérance mathématique (cas continue)

Définition 2.3.1 Si X est une v.a.r. à densité f , on note E (X) , et on appelle
espérance mathématique l’intégrale suivante (sous réserve d’existence) :
Z
E (X) = x f (x) dx .
R
Théorème 2.3.1 Si la loi PX de X est absolument continue et de densité f , alors

E(g ◦ X) se calcule ainsi (sous réserve d’existence de l’intégrale) :
Z
E (g ◦ X) = E (g (X)) = g (x) f (x) dx .
R
c Michel CARBON
84 VARIABLES
2.4 Variance (cas continu)

Corollaire 2.4.1 Dans le cas où PX est à densité f , en prenant g (x) = x2 dans le
théorème 2.3.1 , on voit que E (X 2 ) existe si et seulement si (x2 f (x)) est intégrable,
et si oui : Z
2
x2 f (x) dx .

E X =
R
L’inégalité triviale |x| < x2 + 1 montre que E (X) = m est alors définie si E (X 2 )
existe.
De même, si E (X 2 ) existe, l’inégalité : (x − m)2 ≤ x2 + 2 |mx| + m2 montre que
2
E (X − m) existe. On l’appelle alors variance de X, et on la note V ar (X) ou
σ 2 (X) ou σX 2
.
Dans le cas continu, et sous réserve d’existence, si on applique le théorème 2.3.1,
avec g (x) = (x − m)2 , on obtient :
Z
V ar (X) = (x − m)2 f (x) dx .
R
Bien sûr, tout cela se généralise, mutatis mutandis, à l’existence et au calcul des
différents moments de X.
Exemple 2.4.1 ( Moments de X )
Similairement, sous réserve d’existence, on peut définir le moment simple d’ordre

k de X , le moment absolu d’ordre k de X, le moment centré d’ordre k de X, le
moment centré absolu d’ordre k de X. Ce sont respectivement : (∀ k ∈ N∗ )

k
k k k
E X ; E |X| ; E (X − m) ; E |X − m| .
Proposition 2.4.1 Si X admet un moment d’ordre m, alors tous les moments

d’ordres inférieurs existent.
Démonstration :
C’est une conséquence immédiate de l’inégalité :
∀ k ∈ N∗ , |X|k ≤ 1 + |X|k+1 .
Le lecteur est fortement invité à vérifier les résultats ci-dessous :

Si X suit une loi N (m, σ 2 ) , alors E (X) = m , V ar (X) = σ 2 .
a a
Si X suit une loi Γ (a, λ) , alors E (X) = , V ar (X) = 2 . On en déduit que,
λ λ
1 1
pour une loi Exp(λ), on obtient : E (X) = , V ar (X) = 2 .
λ λ
Si X suit une loi de Cauchy, alors E (X) n’existe pas, et, a fortiori, les moments
d’ordre supérieurs n’existent pas non plus (par l’absurde, grâce à la proposition
(2.4.1)).
c Michel CARBON
2.5 Moments de N -uples de variables continues 85
2.5 Moments de N -uples de variables continues

2.5.1 Espérance mathématique
On suppose que l’espérance mathématique de chaque variable Xi est définie.
De même que précédemment, on définit l’espérance de X comme indiqué ci-
après :
Définition 2.5.1 On dira que le n-uple X = (X1 , ..., Xn )0 ou le vecteur aléatoire X

possède une espérance mathématique si chacune des variables aléatoires Xi possède
une espérance mathématique, et on posera :
E (X) = (E (X1 ) , ..., E (Xn ))0 .
On a alors facilement :
E (α1 X1 + ... + αn Xn ) = α1 E (X1 ) + ... + αn E (Xn ) .
On démontre aisément le théorème suivant :
Théorème 2.5.1 L’ensemble L1n (P ) des variables aléatoires n-dimensionnelles in-

tégrables est un espace vectoriel et l’application X −→ E(X) est une application
linéaire positive de L1n (P ) dans Rn , muni de sa relation d’ordre usuel.
Les composantes de E(X) s’interprétent comme les coordonnées du barycentre

de la répartition des masses associée à PX .
NnOn rappelle qu’une C.N.S. pour l’indépendance de X1 , ..., Xn est l’égalité : P(X1 ,...,Xn ) =
i=1 PXi .
Propriété 2.5.1 Si X = (X1 , ..., Xn ) est un n-uple de variables aléatoires indépen-

dantes qui possèdent une espérance mathématique, alors on a :
E (X1 × . . . × Xn ) = E (X1 ) × . . . × E (Xn ) .
Démonstration :
C’est une conséquence du théorème de Fubini-Tonelli.
Remarque 2.5.1 :
La propriété 2 affirme que si deux variables aléatoires X et Y sont indépendantes,
alors : E(X Y ) = E(X) E(Y ) . Ceci entraîne que la covariance (la définition de
la covariance est rappelée ci-dessous) de deux variables aléatoires indépendantes est
nulle, et qu’il en est de même pour le coefficient de corrélation de deux variables
aléatoires indépendantes non presque certaines. La réciproque de cette assertion est
fausse. Elle reste cependant vraie si les variables sont gaussiennes.
c Michel CARBON
86 VARIABLES
2.5.2 Variances - Covariances

Définition 2.5.2 Soit X = (X1 , ..., Xn )0 un n -uple de variables aléatoires dont
chaque composante possède un moment d’ordre deux :
∀ i = 1, ..., n , E Xi2 < +∞ .

(2.4)
Le vecteur X sera alors appelé vecteur du second ordre.

On appelle matrice M des moments simples du second ordre, la matrice carrée
n × n de terme général : mij = E (Xi Xj )
On appelle matrice ΣX de variances-covariances de X la matrice carrée n × n
de terme général aij = E [(Xi − E (Xi )) (Xj − E (Xj ))] ; aij s’appelle la covariance
de Xi et Xj .
On peut remarquer que l’existence des mij et aij est assurée par (7.3) , grâce
essentiellement à l’inégalité de Schwarz.
On pourra aussi vérifier aisément que aij = E (Xi Xj ) − E (Xi ) E (Xj ) .
Il est assez évident de noter que M et ΣX sont symétriques. On peut aussi noter
que :
aij = E [(Xi − E (Xi )) (Xj − E (Xj ))] = cov (Xi , Xj )
Interprétation :
La matrice des variances-covariances caractérise la dispersion de la distribution
de masses associée à PX autour de E(X) .
Pour caractériser géométriquement cette dispersion, on peut utiliser les hyperel-
lipsoïdes d’équation : X
aij xi xj = γ 2 , γ ∈ R∗ .
i,j
Remarque 2.5.2 :
On vérifie aisément que :
M = E (XX 0 ) et ΣX = E (X − EX) (X − EX)0 ,

où X est le vecteur colonne des composantes et X 0 est son transposé.
Théorème 2.5.2 Soit X un vecteur aléatoire du second ordre, identifié avec le vec-
teur colonne de ses composantes, et un vecteur colonne u de Rn . On a alors :
1. E (u0 X) = u0 E (X) (u0 est le transposé de u)
2. E (u0 X)2 = u0 M u

et la matrice M est positive
3. E [(u0 X) (v 0 X)] = u0 M v (avec v vecteur de Rn )
4. V (u0 X) = u0 ΣX u et la matrice ΣX est positive
5. cov (u0 X, v 0 X) = u0 ΣX v .
c Michel CARBON
2.5 Moments de N -uples de variables continues 87
Démonstration :
Il s’agit essentiellement d’utiliser la linéarité de l’espérance, et les définitions de
M et ΣX . Par exemple, on a :
V (u0 X) = E (u0 X − u0 EX)2

= E (u0 (X − EX))2

grâce à 1.
= E u0 (X − EX) (X − EX)0 u

= u0 E (X − EX) (X − EX)0 u grâce à 2.

= u0 ΣX u .
Et V (u0 X) = E (u0 (X − EX))2 ≥ 0 entraîne la positivité de ΣX .

Corollaire 2.5.1 Si Ψ est une transformation linéaire de Rn dans Rn , alors on a :
E (ΨX) = Ψ E(X)
MΨX = Ψ M Ψ0
ΣΨX = Ψ ΣX Ψ0 ,
où MΨX et ΣΨX sont les matrices du second ordre associées au vecteur aléatoire
ΨX .
On a aussi le théorème important suivant :
Théorème 2.5.3 Soient (X1 , ..., Xn ) n variables aléatoires indépendantes. Si les Xi

sont toutes de carré intégrable, alors X1 + ... + Xn est de carré intégrable et :
σ 2 (X1 + ... + Xn ) = σ 2 (X1 ) + ... + σ 2 (Xn ) . (2.5)
Démonstration :
De l’existence des covariances des Xi et des propriétés de linéarité de l’intégrale,
on déduit l’existence de σ 2 (X1 + ... + Xn ) et la formule :
n
X X
σ 2 (X1 + ... + Xn ) = σ 2 (Xi ) + cov (Xi , Xj ) .
i=1 1≤i6=j≤n
L’indépendance des Xi entraîne la nullité de toutes les covariances, d’où le résul-

tat.
c Michel CARBON
88 VARIABLES
2.6 Lois conditionnelles (cas continu)

Soit (X, Y ) un couple de v.a.r. toutes deux définies sur (Ω, A, P ) et à valeurs
dans (X × Y, B ⊗ C). On notera P(X,Y ) la loi du couple (X, Y ). Bien sûr, X a pour
loi PX . Examinons le cas particulier important suivant :
Y
(Ω, A, P ) −−−−−−−→ (IRq , BIRq )
X
?
(IRp , BIRp )
Théorème 2.6.1 On suppose que P(X,Y ) admet une densité f (x, y). Alors :
(i) PX admet une densité Z
g(x) = f (x, y) dy .
IRq
f (x, y)
(ii) PYX=x admet une densité , densité conditionnelle de Y sachant que
g(x)
{X=x}
X = x et est notée fY (y) .
Définition 2.6.1 Sous les notations et hypothèses du théorème (2.6.1) :

Z Z
{X=x} {X=x}
(i) Si |y| fY (y) dy < +∞, alors yfY (y) dy existe et est appelée
l’espérance conditionnelle de Y sachant que {X = x} , et on notera :
Z
{X=x}
E (Y |X = x) = yfY (y) dy .
Z
{X=x}
(ii) Si y 2 fY (y) dy < +∞, alors le moment conditionnel simple d’ordre
deux existe, et on le note :
Z
2 {X=x}
y 2 fY

E Y |X = x = (y) dy .
La variance conditionnelle de Y sachant que {X = x} existe alors, et on a :
var (Y |X = x ) = E Y 2 |X = x − [E (Y |X = x )]2 .

Z
{X=x}
(iii) Si ϕ est une application mesurable, et si : |ϕ (y)| fY (y) dy < +∞,
alors E (ϕ (Y ) |X = x ) existe et :
Z
{X=x}
E (ϕ (Y ) |X = x) = ϕ (y) fY (y) dy .
c Michel CARBON
2.6 Lois conditionnelles (cas continu) 89
Exemple 2.6.1 .
Soit D = {(x, y) ∈ R2 |0 ≤ x ≤ y } . On suppose que le couple de variables aléa-

toires (X, Y ) a pour densité :
f(X,Y ) (x, y) = e−y 11D (x, y) .
La loi de X a pour densité :
Z
fX (x) = e−y 11D (x, y) dy .
R
Si x < 0, alors : fX (x) = 0.

Si x ≥ 0, alors : Z +∞
fX (x) = e−y dy = e−x .
x
Donc la densité de X vaut :
fX (x) = e−x 11R+ (x) .
La loi de Y a pour densité :
Z
fY (y) = e−y 11D (x, y) dx .
R
Si y < 0, alors fY (y) = 0.

Si y ≥ 0, alors :
Z y Z y
−y
fY (y) = e dx = e−y dx = ye−y .
0 0
Donc la densité de Y vaut :

fY (y) = ye−y 11R+ (y) .
La loi conditionnelle de X sachant que {Y = y} a pour densité :
{Y =y} f(X,Y ) (x, y) e−y 1

fX (x) = = −y = si x ∈ [0, y] avec y ≥ 0 .
fY (y) ye y
1
Elle est donc définie pour y ≥ 0, et vaut : pour x ∈ [0, y] . On peut la choisir
y
nulle ailleurs.
L’espérance conditionnelle E (X |Y = y ) s’en déduit aisément :
Z
{Y =y}
E (X |Y = y ) = xfX (x) dx
Z y
1
= x dx
0 y
Z y
1 y
= x dx = .
y 0 2
c Michel CARBON
90 VARIABLES
Donc l’espérance conditionnelle E (X |Y ) vaut :
Y
E (X |Y ) = .
2
La loi conditionnelle de Y sachant que {X = x} a pour densité :
f(X,Y ) (x, y) e−y

= −x = e−(y−x) si y ≥ x ≥ 0 .
fX (x) e
La densité conditionnelle n’est donc définie que pour x ≥ 0 et vaut :

{X=x}
fY (y) = e−(y−x) pour y ≥ x .
On peut la choisir nulle ailleurs.

Alors l’espérance conditionnelle de Y sachant que {X = x} vaut :
Z
{X=x}
E (Y |X = x ) = yfY (y) dy
Z +∞
= ye−(y−x) dy .
x
En remarquant que l’intégrale de Riemann est absolument convergente, on a :

Z +∞
E (Y |X = x ) = e x
ye−y dy
x
= x + 1,
après une intégration par parties.

Donc l’espérance conditionnelle E (Y |X ) vaut :
E (Y |X ) = X + 1 .
2.7 Fonction génératrice des moments

La fonction génératrice des moments est un outil qui nous sera bien utile pour
le calcul des moments et pour certains problèmes de convergence.
Définition 2.7.1 La fonction génératrice des moments d’une variable aléatoire X

est la fonction MX (t) définie pour tout t ∈ R par :
MX (t) = E[etX ] .
(sous réserve d’existence de cette espérance)
c Michel CARBON
2.7 Fonction génératrice des moments 91
De manière plus explicite, on a :

 X


 etx p(x) dans le cas discret
x∈S


MX (t) = (2.6)


Z +∞
etx f (x) dx dans le cas continu



−∞
On voit que la fonction génératrice des moments (notée f.g.m. dans la suite) ne
dépend que de la loi de X. Deux variables aléatoires ayant même loi auront donc
même f.g.m.
La f.g.m. possède des propriétés remarquables, que nous examinerons ci-dessous.
Commençons par quelques exemples.
Exemple 2.7.1 Supposons que X suive une loi binomiale B(n, p). Alors pour tout
t ∈ R, on a :
X
MX (t) = etx p(x)
x∈R
n
X
= etk Cnk pk (1 − p)n−k
k=0
n
X
= Cnk (pet )k (1 − p)n−k
k=0
= (pet + 1 − p)n .
Exemple 2.7.2 Supposons que X suive une loi de Poisson P(λ). Alors pour tout
t ∈ R, on a :
X
MX (t) = etx p(x)
x∈R
+∞
X e−λ λk
= etk
k=0
k!
+∞
−λ
X (et λ)k
= e
k=0
k!
t t
= e−λ ee λ = eλ(e −1) .
Exemple 2.7.3 Supposons que X suive une loi exponentielle de paramètre λ (λ >
c Michel CARBON
92 VARIABLES
0). Alors pour tout t ∈ R, on a :

Z +∞
MX (t) = etx f (x) dx
−∞
Z +∞
= etx λe−λx dx
0
Z +∞
= λ e(t−λ)x dx
0
λ

 si t < λ
λ−t

=


+∞ si t ≥ λ .
Exemple 2.7.4 Supposons que X suive une loi de Cauchy standard, donc de den-
sité :
1
f (x) = .
π(1 + x2 )
Alors pour tout t ∈ R, on a :
Z +∞
MX (t) = etx f (x) dx
−∞
Z +∞
1
= etx dx
−∞ π(1 + x2 )

 1 si t = 0
=
+∞ si t 6= 0 .

Exemple 2.7.5 Supposons que X suive une loi normale centrée réduite.
Alors pour tout t ∈ R, on a :
Z +∞
1 x2
MX (t) = etx √ e− 2 dx
−∞ 2π
Z +∞
1 t2 1 2
= √ e 2 e− 2 (x−t) .
−∞ 2π
Faisons le changement de variable : y = x − t. Il vient alors aisément :
Z +∞
t2 1 y2
MX (t) = e 2 √ e− 2 dy
−∞ 2π
t2
= e2 (car l’intégrale est celle d’une densité de loi normale N (0, 1)) .
c Michel CARBON
Cet exemple est important car utile dans un chapitre ultérieur concernant les
convergences et la démonstration du théorème central limite.
Examinons quelques propriétés de la fonction génératrice des moments. Grâce à
la définition (2.6) de la f.g.m., on a aisément les deux propriétés suivantes :
Propriété 2.7.1 Pour tout t ∈ R, on a :
0 < MX (t) ≤ +∞.
Propriété 2.7.2 On a :
MX (0) = 1.
Propriété 2.7.3 Si X et Y sont des variables aléatoires indépendantes, alors :
MX+Y (t) = MX (t)MY (t) .
Plus généralement, si X1 , X2 , · · · , Xn sont n variables aléatoires indépendantes, en

posant Sn = X1 + X2 + · · · + Xn , on a :
n
Y
MSn (t) = MXi (t) .
i=1
Démonstration : Si X et Y sont indépendantes, alors on a :

MX+Y (t) = E et(X+Y ) = E etX+tY = E etX etY

= E etX E etY = MX (t)MY (t) .
Le cas général se traite de la même façon.
Les propriétés qui suivent sont plus profondes et ne sont valides que localement
au voisinage de l’origine.
Définition 2.7.2 On dit que la f.g.m. est finie localement au voisinage de l’origine
s’il existe un voisinage de 0 sur lequel la f.g.m. est finie, c’est-à-dire :
∃t0 tel que ∀t ∈] − t0 , t0 [ , MX (t) < +∞.
Les f.g.m obtenues aux exemples 1,2 et 3 sont toutes les trois finies localement
au voisinage de 0. Par contre, celle obtenue à l’exemple 4 ne l’est pas.
La propriété suivante est de démonstration délicate et sera omise.
Propriété 2.7.4 Si X et Y possèdent la même f.g.m. et si cette f.g.m. est localement

finie au voisinage de 0, alors X et Y ont la même loi.
On peut donc considérer que pour connaître la loi de X, il suffit de connaître sa

f.g.m..
c Michel CARBON
94 VARIABLES
Exemple 2.7.6 On suppose qu’on a une suite (Ti )i∈N∗ de variables aléatoires i.i.d.
de loi exponentielle de paramètre λ. On considère une autre variable aléatoire N ,
indépendante des Ti et de loi géométrique de paramètre p.
XN
On cherche la loi de SN = Ti ?
i=1
Pour cela, on va calculer la f.g.m. de Sn . On a :
h PN i
MSN (t) = E etSN = E et i=1 Ti .

On calcule cette espérance en conditionnant par rapport à la variable N . On a

alors : h PN i
MSN (t) = E et i=1 Ti
+∞
X h PN i
= E et i=1 Ti |N = n P [N = n]
n=1
+∞
X h Pn i
t i=1 Ti
= E e |N = n P [N = n]
n=1
+∞
X h Pn i
= E et i=1 Ti P [N = n]
n=1
+∞
X
= MPNi=1 Ti (t)P [N = n]
n=1
+∞ n
!
X Y
= MTi (t) P [N = n] pour t < λ
n=1 i=1
+∞ n
X λ
= (1 − p)n−1 p pour t < λ
n=1
λ − t
+∞ n−1
λp X λ(1 − p)
= pour t < λ
λ − t n=1 λ−t
λp 1
= λ(1−p)
pour t < λ
λ−t1−
λ−t

λp
si t < λp


λp − t

=


 ∞ si t ≥ λp .
c Michel CARBON
On reconnaît alors la f.g.m. de la loi exponentielle de paramètre λp. La propriété

(2.7.4) permet de conclure que SN suit une loi Exp(λp).
La f.g.m. permet aussi de calculer les moments d’une variable aléatoire.

Théorème 2.7.1 Si X admet une f.g.m. MX (t) localement finie au voisinage de
l’origine, alors toutes les dérivées de MX (t) existent, sont finies également, et sont
continues dans ce voisinage. De plus, on a, pour tout entier n ≥ 1 :
dn
E[X n ] = MX (0) .
dtn
C’est de cette propriété que vient le nom de la f.g.m..
Démonstration : Elle utilise des résultats avancés sur la justification de permu-
tation de limites et d’intégrales. Après cette justification nécessaire, on a alors :
dn dn tX
MX (t) = E e
dtn dtn
n
d tX
= E e
dtn

= E X n etX .
On a donc :
dn
MX (0) = E [X n ] .
dtn
Le théorème (2.7.1) précédent nous offre alors une façon alternative pour calculer
les différents moments des variables aléatoires suivant des lois classiques.
Exemple 2.7.7 Calculons le moment d’ordre 4 pour une loi normale centrée ré-
duite. L’exemple (2.7.5) nous donne la f.g.m. pour cette loi normale. Elle vaut :
2 /2
M (t) = et .
On peut ainsi calculer les quatre premières dérivées :

d 2
MX (t) = et /2 t ,
dt
d2 2
2
MX (t) = et /2 (t2 + 1) ,
dt
d3 2
3
MX (t) = et /2 (t3 + 3t) ,
dt
d4 2
4
MX (t) = et /2 (t4 + 6t2 + 3) .
dt
Les quatre premiers moments sont donc : E[X] = 0, E [X 2 ] = 1, E [X 3 ] = 0 et
E [X 4 ] = 3.
c Michel CARBON
96 VARIABLES
Un autre résultat important est la réciproque du précédent théorème (admis lui

aussi).
Théorème 2.7.2 Si X est une variable aléatoire possédant une f.g.m. MX k fois
dérivable à l’origine, alors X admet des moments jusqu’à l’ordre k.
Nous terminons ce paragraphe par une propriété qui sera utile dans la démons-
tration du théorème limite central.
Propriété 2.7.5 Soient F1 (x), F2 (x), F3 (x), · · · des fonctions de répartition sur R
et soient M1 (t), M2 (t), M3 (t), · · · leurs f.g.m. respectives. Soit F (x) une fonction de
répartition sur R et soit M (t) sa f.g.m..
On note CF l’ensemble des points où F (x) est continue. On l’appelle aussi l’en-
semble des points de continuité de F . On suppose que M (t) est finie localement dans
le voisinage de 0. Alors les deux assertions suivantes sont équivalentes :
Assertion A :
lim Fn (x) = F (x) pour tout x ∈ CF .
n→+∞
Assertion B :
lim Mn (t) = M (t) pour tout t dans un voisinage de 0 .

n→+∞
2.8 Transformations et calcul de lois

L’objet de ce paragraphe est de fournir des méthodes de détermination de la loi
d’une fonction d’une variable aléatoire.
Considérons une variable aléatoire X de loi connue à densité fX . On cherche à
déterminer la loi d’une variable Y qui est une fonction ϕ (X) de la variable X.
Une première technique consiste à utiliser le théorème de changement de variable,
déjà étudié.
Une seconde méthode consiste à utiliser la technique de la fonction muette.
Précisons-là un peu.
Théorème 2.8.1 (i) Soit X une variable aléatoire réelle dont la loi est à une loi de
densité f, alors, pour toute application ϕ continue bornée, on a :
Z+∞
E (ϕ (X)) = ϕ (x) f (x) dx. (2.7)
−∞
(ii) Réciproquement, si pour toute application continue et bornée ϕ, l’équation

(2.7) est vérifiée, alors f est la densité associée à la loi de X.
Démonstration :
(i) a déjà été démontré dans un cadre général. Il suffit seulement de remarquer
que l’application ϕ (x) f (x) est intégrable, car majorée par M f (x) où M est une
borne absolue de ϕ, avec f intégrable, car c’est une densité de probabilité.
c Michel CARBON
2.8 Transformations et calcul de lois 97
(ii) Il suffit de prendre pour ϕ, l’application définie par (pour tout a de R) :
ϕ (x) = 1]−∞,a] (x) .
Alors, on a :
Z+∞ Z+∞
ϕ (x) f (x) dx = 1]−∞,a] (x) f (x) dx = P (X ≤ a) = FX (a) .
−∞ −∞
ce qui montre bien que f est la densité de X.

Cela peut aussi s’écrire comme ci-dessous.
Théorème 2.8.2 (Théorème d’identification)

Soit Z une variable aléatoire réelle. Si, pour toute application ϕ continue bornée,
on a :
Z+∞
E (ϕ (Z)) = ϕ (z) f (z) dz,
−∞
alors la loi de Z a pour densité f.
Comment tirer parti de ce théorème ?

Méthode pratique :
Corollaire 2.8.1 Soit X une variable aléatoire de loi à densité f connue. Soit Y =
H (X). On cherche à déterminer la loi de Y. Pour toute application continue bornée
ϕ, on écrit que :
Z+∞
E (ϕ (Y )) = E (ϕ (H (X))) = ϕ (H (x)) f (x) dx.
−∞
On fait alors le changement de variable évident y = H (x), qui donne :
Z+∞
E (ϕ (Y )) = ϕ(y)g(y) dy .
−∞
Alors g est la densité de Y.

Soit X une variable aléatoire de loi de Cauchy. Cherchons la loi de X 2 .
Pour toute application continue bornée ϕ, on a :
Z+∞ Z+∞
2 1 1 2 1
ϕ x2 ϕ x2

E ϕ X = 2
dx = dx ,
π 1+x π 1 + x2
−∞ 0
par un argument de parité.
c Michel CARBON
98 VARIABLES
Faisons le changement de variable y = x2 . Il vient alors :

Z+∞
2
1 1 1
E ϕ X = ϕ (y) √ dy .
π 1+y y
0
1 1 1
La densité de Y vaut donc : √ 1R∗ (y) .
π y1+y +
Une troisième méthode consiste à calculer la fonction de répartition de Y en
fonction de celle de X, puis à déterminer sa densité par simple dérivation.
Exemple 2.8.1 Soit X une variable aléatoire gaussienne centrée réduite. Nous al-
lons calculer la loi de X 2 .
1. La fonction de répartition de X 2 s’écrit, pour tout t > 0 :
√ √ √ √
FX 2 (t) = P X 2 ≤ t = P − t ≤ X ≤ t = FX

t − FX − t .
Par dérivation, on a :
t
1 h √ √ i 1 −
fX 2 (t) = √ fX t + fX − t 1R∗+ (t) = √ e 2 1R∗+ (t) .
2 t 2πt
C’est la loi du χ21 , appelée loi du Khi-deux à un degré de liberté.
2. On va chercher f telle que :
Z+∞
2

E h X = h (y) f (y) dy ,
−∞
pour toute fonction continue bornée h.

Le changement de variable u = t2 s’impose ici, mais n’est pas bijectif sur R . Par
contre, on peut écrire :
Z+∞ t2 Z+∞ t2
1 − 1 −
√ e 2 dt = 2 √ e 2 dt .
2π 2π
−∞ 0
√

2 dt 1
On applique alors le changement de variable : u = t t = u et = √ .
du 2 u
Il vient alors :
Z+∞ t2
1 −
h t2 √ e 2 dt

E [h (X 2 )] =
2π
−∞
Z+∞ t2
1 −
h t2 √ e 2 dt

= 2
2π
0
Z+∞ u
− 1 1
= 2 h (u) e 2 √ √ du .
2π 2 u
0
c Michel CARBON
2.9 Transformation des vecteurs aléatoires à densité 99
u
21 −
Et l’on retrouve ainsi la densité de X : √ e 2 1R∗+ (u) .
2πu
2.9 Transformation des vecteurs aléatoires à densité

2.9.1 Changement de variables
Ce paragraphe est essentiellement une application du théorème de transfert au
calcul de certaines lois de probabilité.
La recherche des densités des n-uples de variables aléatoires utilise souvent la
formule du changement de variables.
Soit Φ : U → V une bijection entre deux ouverts de Rn , ayant des dérivées
partielles continues, et X = (X1 , ..., Xn ) un n-uple de variables aléatoires à valeurs
dans U , dont la loi est définie par une densité h (x1 , ..., xn ) . On dit aussi que Φ est
un difféomorphisme de U sur V .
Posons Y = (Y1 , ..., Yn ) = Φ (X), et notons f (y1 , ..., yn ) la densité du vecteur Y ,
dont nous admettrons l’existence.
Pour tout ouvert O ⊂ U , la formule du changement de variable s’écrit :
Z Z
DΦ (x)
f (y) dy = f (Φ (x))
dx .
Φ(O) O Dx
Cependant, comme P (X ∈ O) = P (Y ∈ Φ (O)), on a :

Z Z
f (y) dy = h (x) dx
Φ(O) O
La loi de X coïncide donc, ouverts de U , avec la loi de probabilité définie

sur les
DΦ (x)
par la densité : f (Φ (x)) .
Dx
On obtient donc :
DΦ (x)
h (x) = f (Φ (x)) .
Dx
Dans le cas unidimensionnel, la formule se réduit à :

dΦ (x)
h (x) = f (Φ (x)) ,
dx
où Φ est une fonction de classe C1 strictement monotone.

Cela peut même s’appliquer à la recherche de la loi d’une variable unidimension-
nelle, comme le montre l’exemple qui suit.
Exemple 2.9.1 (encore sur une loi de couple)

X
(X, Y ) a pour densité f (x, y) ; quelle est la loi de Z = ?
Y
c Michel CARBON
100 VARIABLES
La technique consiste à déterminer la densité du couple (Z, Y ) et à l’intégrer par

rapport à la seconde variable pour trouver la densité de Z , d’après une remarque
précédente.
x
La fonction Φ (x, y) = ; y = (u, v) est une bijection de R × R∗ dans R × R∗ ,
y
à dérivées partielles continues, de Jacobien :
 ∂u ∂u  1
x
 ∂x ∂y  − 2
D (u, v)  y y 1
= det  = = y.

D (x, y)  ∂v ∂v 
0 1
∂x ∂y
En désignant par g la densité du couple (Z, Y ) on a donc :

x
g ,y
y
f (x, y) = ou g (u, v) = f (uv, v) |v| .
|y|
Z +∞
La densité de Z est donc : h (u) = f (uv, v) |v| dv .
−∞
Une application :
Supposons que X et Y soient indépendantes et de loi N (0, 1) ; la densité du
couple vaut alors :
1 1 2 2

f (x, y) = exp − x + y ,
2π 2
et :
Z+∞
1 1 2 2

h (u) = exp − v 1 + u |v| dv
2π 2
−∞
∞

1 2 2

exp − v u + 1 
1− 2
= 
π  1 + u2 
0
1 1
= .
π 1 + u2
Ce qui montre que Z suit la loi de Cauchy.
2.9.2 Calcul de lois

Ce paragraphe est essentiellement une application des techniques dites de "va-
riable(s) muette(s)" aux calculs de lois.
Ceci repose sur le théorème suivant que nous avons démontré en dimension un,
qui reste valable en dimension supérieure, mais que nous ne redémontrerons pas. Il
suffit d’adapter la démonstration faite en dimension un. Les corollaires qui suivent
sont également importants pour pouvoir appliquer cette technique.
c Michel CARBON
Théorème 2.9.1 (Théorème d’identification)
(i) Soit (U, V ) un couple de variables aléatoires réelles. Si, pour tout couple ϕ1
et ϕ2 d’applications continues bornées, on a :
Z +∞ Z +∞
E (ϕ1 (U ) ϕ2 (V )) = ϕ1 (u) ϕ2 (v) f (u, v) du dv,
−∞ −∞
alors la loi du couple (U, V ) a pour densité f.

(ii) Soit (X1 , · · · , Xn ) un n -uple de variables aléatoires réelles. Si, pour toute
suite ϕ1 , · · · , ϕn d’applications continues bornées, on a :
E (ϕ1 (X1 ) × ·Z· · × ϕn (Xn )) =

ϕ1 (x1 ) · · · ϕn (xn ) f (x1 , · · · , xn ) dx1 · · · dxn ,
Rn
alors la loi du vecteur (X1 , · · · , Xn )0 a pour densité f.
Corollaire 2.9.1 Soit (X, Y ) un couple de variables aléatoires de densité f connue.

Soit V = H (X, Y ) . On cherche à déterminer la loi de V. Pour cela, on écrit que,
pour toute application continue bornée ϕ, on a :
Z
E (ϕ (V )) = E (ϕ (H (X, Y ))) = ϕ (H (x, y)) f (x, y) dx dy .
R2
On fait alors un changement de variable qui donne :

Z +∞ Z
E (ϕ (V )) = ϕ (t) h (t, s) ds dt .
−∞ R
Z +∞
Alors g(t) = h (t, s) ds est la densité de V .
−∞
Exemple 2.9.2 Soit (X,Y ) un couple de variables aléatoires dont la loi a pour
1 1
exp − x2 + y 2

densité f (x, y) = .
2π 2
Soit V = X 2 + Y 2 . On cherche la densité de V. En appliquant la méthode précé-
dente, il vient :
Z
1 2 2
1 2 2

E (ϕ (V )) = ϕ x + y exp − x + y dx dy .
2π R2 2
Faisons le changement de variables :
√
x = √t cos θ
y = t sin θ
Alors, t est à valeurs dans R+ et θ dans [0, 2π[ .
c Michel CARBON
102 VARIABLES
De plus, le jacobien vaut :

1 √
√ cos θ − t sin θ

D (x, y) 2 t 1
= = .

D (t, θ) 1 √ 2
√ sin θ t cos θ
2 t

D’où :
Z +∞
t Z Z +∞ t
1 − 1 1 −
E (ϕ (V )) = ϕ (t) e 2 dt dθ = ϕ (t) e 2 dt .
0 2 [0,2π[ 2π 0 2
t
1 −
La densité de la loi de V vaut finalement : e 2 1R+ (t) .
2
Corollaire 2.9.2 Soit (X, Y ) un couple de variables aléatoires réelles de densité f.

Soient U = G(X, Y ) et V = H(X, Y ). Pour déterminer la loi du couple (U, V ) , on
écrit que, pour tout couple d’applications continues bornées ϕ1 et ϕ2 , on a :
E [ϕ1 (U ) ϕ2 (V )] = E [ϕ1 (G(X, Y )) ϕ2 (H(X, Y ))]
Z
= ϕ1 (G(x, y)) ϕ2 (H(x, y)) f (x, y) dx dy .
R2
En posant u = G(x, y) et v = H(x, y), on trouve :

Z
E [ϕ1 (U ) ϕ2 (V )] = ϕ1 (u) ϕ2 (v) g (u, v) du dv ,
R2
et g est la densité du couple (U, V ) .

Exemple 2.9.3 Soit (X, Y ) un couple dont la densité est :

1 2 2 2

f (x, y) = √ exp − x − xy + y .
π 3 3
(on peut aisément vérifier que c’est bien une densité de probabilité).
On cherche la loi du couple (U, V ) où U = X + Y, et V = X − Y .
Pour tout couple d’applications continues bornées ϕ1 et ϕ2 , on a :
E [ϕ1 (U ) ϕ2 (V )] =
Z
1 2 2 2

ϕ1 (x + y) ϕ2 (x − y) √ exp − x − xy + y dx dy .
R2 π 3 3
Posons : 
1
 x = 2 (u + v)
 
 u=x+y


ou encore

v =x−y

 1
 y = (u − v)

2
c Michel CARBON
Alors :
1 1

D (x, y) 2 2 1
= =− .

D (u, v) 1 1 2
−
2 2

On a aussi :
1 1 2
x2 − xy + y 2 = (u + v)2 − u2 − v 2 + (u − v)2 = u + 3v 2 .

4 4
De plus :
(x, y) ∈ R2 ⇐⇒ (u, v) ∈ R2 ,
et la correspondance est biunivoque.
On a donc :
1 u2
Z
1 2
E [ϕ1 (U ) ϕ2 (V )] = ϕ1 (u) ϕ2 (v) √ exp − +v du dv ,
R2 2π 3 2 3
et la densité du couple (U, V ) est donc :
1 u2

1 2
f(U,V ) (u, v) = √ exp − +v .
2π 3 2 3
c Michel CARBON
104 VARIABLES
c Michel CARBON
Chapitre 3
Quelques inégalités classiques
L’essence des mathématiques, c’est la liberté !

Georg Cantor
Nous allons ici donner quelques inégalités importantes en théorie des probabilités.
3.1 Inégalité de Schwarz

Théorème 3.1.1 (inégalité de Schwarz)
Si EX 2 et EY 2 existent, alors E (XY ) existe et l’on a :
√ √
E (|XY |) ≤ EX 2 EY 2 . (3.1)
Démonstration :
1
X 2 + Y 2 montre que E (XY ) existe. Cela dit, en inté-

L’inégalité |XY | ≤
2
grant l’inégalité : λ2 |X|2 + 2λ |XY | + |Y |2 ≥ 0, on obtient :
λ2 EX 2 + 2λE |XY | + EY 2 ≥ 0, ∀λ ∈ R,
d’où (3.1), en écrivant que le discriminant est négatif ou nul.
3.2 Inégalité de Tchebychev

Théorème 3.2.1 (inégalité de Tchebychev) Soit X une v.a.r. positive et soit g une
application strictement croissante de R+ dans R+ telle que E [g (X)] existe.
Alors :
E [g (X)]
P (X ≥ α) ≤ ∀α > 0.
g (α)
Démonstration :
105
106 CHAPITRE 3. QUELQUES INÉGALITÉS CLASSIQUES
On a successivement, pour α > 0 :

E [g (X)] = E g (X) · 1{X∈[0,α[} + g (X) · 1{X∈[α,+∞[}

≥ E g (X) · 1{X∈[α,+∞[} .
L’application g étant à valeurs dans R+ et strictement croissante, il vient :

E [g (X)] ≥ g(α)E 1{X∈[α,+∞[} = g(α) · P [X ≥ α] ,
d’où l’inégalité annoncée puisque g (α) > 0.
3.3 Inégalité de Markov

Corollaire 3.3.1 (Inégalité de Markov) Soit X une v.a.r. positive et intégrable.
Alors :
EX
P (X ≥ α) ≤ , ∀ α > 0.
α
Démonstration :
Il suffit d’appliquer le théorème 3.2.1 en prenant l’identité de R+ dans R+ comme
fonction g.
3.4 Inégalité de Bienaymé-Tchebychev

Corollaire 3.4.1 (Inégalité de Bienaymé-Tchebychev) Soit X une variable aléatoire
réelle de carré intégrable. Alors :
VX
P (|X − EX| ≥ α) ≤ , ∀α > 0 .
α2
Démonstration :
Il suffit d’appliquer l’inégalité de Markov à la v.a.r. (X − EX)2 .
Remarque 3.4.1 :
L’inégalité de Bienaymé-Tchebychev a un grand intérêt théorique, mais ne fournit
pas (en général) une bonne majoration de P [|X − EX| ≥ α] .
3.5 Inégalité de Jensen

3.5.1 Cas unidimensionnel
Précisons que dire que X est à valeurs dans I, c’est dire que : P (X ∈ I) = 1. On
rappelle aussi ce qu’est une fonction convexe.
c Michel CARBON
3.5 Inégalité de Jensen 107
Définition 3.5.1 Une fonction g définie sur un intervalle ouvert I et à valeurs

réelles est dite convexe si et seulement si : ∀ a, b ∈ I, ∀ λ ∈ [0, 1], on a :
g(λa + (1 − λ)b) ≤ λg(a) + (1 − λ)g(b) .
Proposition 3.5.1 Soient I un intervalle ouvert, et g : I −→ R, une fonction

convexe. Soit X une variable aléatoire à valeurs dans I. Alors on a ;
g(E[X]) ≤ E[g(X)] (Inégalité de Jensen) . (3.2)
On peut démontrer aisément (3.2) dans le cas particulier où la fonction g(x)

admet une dérivée seconde. Cela découle du résultat connu suivant.
Proposition 3.5.2 Soient I un intervalle ouvert, et g : I −→ R, une fonction

dont la dérivée seconde g 00 (x) existe partout sur I. Alors g est convexe sur I si et
seulement si g 00 (x) ≥ 0 pour tout x dans I.
Démonstration de (3.2) dans le cas où g 00 (x) existe :

Le développement de Taylor donne alors :
g 00 (X̃)
g(X) = g(µX ) + g 0 (µX )(X − µX ) + (X − µX )2 ,
2
où X̃ est entre X et µX . Comme g est supposée convexe, la proposition précédente

nous assure que g 00 (X̃) ≥ 0. On obtient alors :
g(X) ≥ g(µX ) + g 0 (µX )(X − µX ) .
En prenant l’espérance de chaque côté, on obtient : E[g(X)] ≥ g(µX ), c’est-à-dire

l’inégalité (3.2).
3.5.2 Cas multidimensionnel

Etant donné deux points x et y de IRk , on pose pour tout γ, 0 < γ < 1 :
γx + (1 − γ) y = (γx1 + (1 − γ) y1 , . . . , γxk + (1 − γ) yk )t .
Définition 3.5.2 Un sous-ensemble C de IRk est convexe si pour tout x, y ∈ C :
γx + (1 − γ) y ∈ C, 0 ≤ γ ≤ 1.
Définition 3.5.3 Une fonction réelle ϕ définie sur un ouvert convexe C est convexe
si, pour tout x, y ∈ C et 0 ≤ γ ≤ 1,
ϕ(γx + (1 − γ) y) ≤ γϕ(x) + (1 − γ) ϕ(y) .
Si l’inégalité ci-dessus est stricte, on dit que ϕ est strictement convexe.
c Michel CARBON
Propriété 3.5.1 Soit ϕ une fonction définie sur un ouvert convexe C et deux fois
différentiable sur C. Une C.N.S. pour que ϕ soit convexe est que la matrice k × k de
terme général :
∂ 2ϕ
(x1 , . . . , xk ), 1 ≤ i, j ≤ k ,
∂xi ∂xj
soit positive. Si cette matrice est définie positive, alors ϕ est strictement convexe.
L’inégalité de Jensen suivante est très utile en statistique.
Théorème 3.5.1 Soit X un vecteur aléatoire à valeurs dans un ouvert convexe C

de IRk , ayant une espérance E(X). Soit ϕ une fonction convexe sur C, telle que
E(ϕ(X)) existe ; alors :
ϕ(E(X)) ≤ E(ϕ(X)) .
Démonstration : Pour tout t ∈ C, il existe un hyperplan d’équation

k
X
L(x) = ci (xi − ti ) + ϕ(t)
i=1
passant par le point (t, ϕ(t)) et tel que : L(x) ≤ ϕ(x) pour tout x ∈ C. En admettant
que E(X) ∈ C, on en déduit :
k
X
ci (Xi − E(Xi )) + ϕ(E(X)) ≤ ϕ(X) ,
i=1
et il suffit de prendre l’espérance de chaque côté pour conclure. Si ϕ est strictement

convexe, alors :
ϕ(E(X)) < E(ϕ(X)).
Théorème 3.5.2 Sous les hypothèses du théorème précédent, si B est une sous-tribu
de A, on a :
ϕ(E(X | B)) ≤ E(ϕ(X) | B), P −p.s.
La tribu B est souvent une tribu engendrée par une autre variable aléatoire.
Démonstration : En procédant comme dans le théorème précédent,
k
X
ci (Xi − E(Xi | B)) + ϕ(E(X | B)) ≤ ϕ(X) .
i=1
Ici chaque ci dépend de E(Xi | B), et est donc B-mesurable.

Alors, ∀i = 1, . . . , k, on a :
E [ci (Xi − E(Xi | B)) | B] = ci (E(Xi | B) − E(Xi | B)) = 0 ,
et
E [ϕ (E(X | B) | B)] = ϕ(E(X | B)) ,
d’où l’inégalité :
ϕ(E(X | B)) ≤ E [ϕ(X) | B] .
c Michel CARBON
3.6 Inégalité de Hölder 109
Figure 3.1 – Otto Ludwig Hölder (1859 - 1937)
3.6 Inégalité de Hölder

Lemme 3.6.1 (Inégalité de Hölder) : Soient p et q > 1 deux nombres conjugués,
1 1
c’est-à-dire tels que : + = 1 . Si E[X p ] et E[Y q ] existent , alors E[XY ] existe ,
p q
et :
1/p 1/q
E (|X · Y |) ≤ [E (|X|p )] [E (|Y |q )] .
Remarque 3.6.1 Si p = q = 2 , on retrouve l’inégalité de Schwarz :

p
E (|X · Y |) ≤ E (X 2 ) · E (Y 2 ) .
Démonstration du lemme 3.6.1 :

Pour tous nombres réels a 6= 0 et b 6= 0 , comme la fonction logarithme est
concave : p
|b|q

|a| 1 1
log + ≥ log |a|p + log |b|q = log |ab| ,
p q p q
donc :
|a|p |b|q
|ab| ≤ + .
p q
Si E (|X|p ) = 0 ou E (|Y |p ) = 0 , alors E(XY ) = 0 si bien que l’inégalité :
1/p 1/q
E (|X · Y |) ≤ [E (|X|p )] [E (|Y |q )]
c Michel CARBON
est trivialement vérifiée. Sinon, en supposant E (|X|p ) 6= 0 et E (|Y |p ) 6= 0, en

posant :
|X| |Y |
a= p 1/p
et b = 1/q
, on a :
E (|X| ) E (|Y |q )
|X · Y | |X|p |Y |q
≤ + , donc :
E (|X|p )
1/p
· E (|Y |q )
1/q p · E (|X|p ) q · E (|Y |q )
E (|X · Y |) E (|X|p ) E (|Y |q ) 1 1
1/p 1/q
≤ p + q = + = 1.
E (|X|p ) · E (|Y |q ) p · E (|X| ) q · E (|Y | ) p q
D’où l’inégalité.
c Michel CARBON
Chapitre 4
Convergences stochastiques
Dans toute aventure de ce genre, on se lance dans l’aléatoire, et rien ne sert de

dire ensuite : "Je n’avais pas voulu cela" : car c’est cela précisément qu’il importait
de prévoir.
André Gide
Dans ce chapitre, nous étudions les liens entre diverses notions de convergence
de suites de variables aléatoires définies sur un même espace probabilisé (Ω, A, P ).
4.1 Convergence presque sûre

Définition 4.1.1 Soit (Xn )n≥1 une suite de variables aléatoires définies sur un es-
pace (Ω, A, P ) ; on dit que la suite de variables aléatoires (Xn )n≥1 converge presque
sûrement vers la variable aléatoire X si et seulement si P [{ω ∈ Ω : Xn (ω) 9 X (ω)}] =
0. On écrira souvent : Xn −→ X.
p.s.
On a le théorème suivant important concernant la convergence presque sûre.
Théorème 4.1.1 Soit (Xn )n≥0 une suite de variables aléatoires définies sur un es-
pace probabilisé (Ω, A, P ) , X une variable aléatoire définie sur (Ω, A, P ). On suppose
que (Xn ) et X sont P -presque sûrement finies.
Alors les cinq conditions suivantes sont équivalentes :
(1) (Xn ) → X P -presque sûrement (P − p.s.) ;
(2) P (Xn → X) = 1;
!
\[ \
(3) P {|Xk − X| < ε} = 1;
ε>0 n≥0 k≥n
!
[ \
(4) ∀ε > 0 , P {|Xk − X| < ε} = 1;
n≥0 k≥n
111
112 CHAPITRE 4. CONVERGENCES STOCHASTIQUES
!
\
(5) ∀ε > 0 , lim P {|Xk − X| < ε} = 1.
n→∞
k≥n
Démonstration :
Laissée à titre d’exercice. Remarquer cependant que :
[\ [ [ \ [ 1
{Xn 9 X} = {|Xk − X| ≥ ε} = |Xk − X| ≥ .
ε>0 n≥0 k≥n m≥1 n≥0 k≥n
m
Une condition suffisante (voir ci-dessous) de convergence presque sûre est très
utilisée.
Théorème 4.1.2 Soit (Zn )n≥0 une suite de variables aléatoires définies sur un es-
pace probabilisé (Ω, A, P ). Une condition suffisante pour que :
∞
X
Zn → 0 P − p.s. , est que : P (|Zn | ≥ ε) < +∞ , ∀ε > 0.
n=1
Démonstration : ∞
X
D’après le Lemme de Borel-Cantelli, si P (|Zn | ≥ ε) < +∞ , alors :
n=1
P (lim sup {|Zn | ≥ ε}) = 0 .

\ [
Or, par définition, lim sup {|Zn | ≥ ε} = {|Zk | ≥ ε} , d’après le théorème
n≥0 k≥n
(4.1.1), condition (4), Zn → 0 P − p.s.
Remarque
1) On peut évidemment en déduire une condition suffisante de convergence de
(Xn ) vers X , quand (Xn ) est une suite de variables aléatoires définies sur (Ω, A, P ) ,
et X une variable aléatoire définie sur (Ω, A, P ), toutes presque sûrement finies :
∞
X
P (|Xn − X| ≥ ε) < +∞ , ∀ε > 0.
n=1
On dit parfois que (Xn ) converge presque complètement vers X.

2) L’utilisation du théorème 4.1.2 comporte presque toujours une majoration
de P (|Zn | ≥ ε) . Il est parfois utile, dans ce cas, d’utiliser l’inégalité de Bienaymé-
Tchebychev ou l’inégalité de Markov.
4.2 Convergence en probabilité

Définition 4.2.1 Soit une suite {Xn }n≥1 de variables aléatoires définies sur un
espace probabilisé (Ω, A, P ). On dit que cette suite converge en probabilité vers X si,
pour tout ε > 0 :
lim P (|Xn − X| ≥ ε) = 0 ou de manière équivalente lim P (|Xn − X| < ε) = 1 .

n→∞ n→∞
c Michel CARBON
4.2 Convergence en probabilité 113
P
Notation : Xn −→ X .
On a aussi une notion de convergence en probabilité dans le cas des vecteurs
aléatoires.
Définition 4.2.2 Soient (Xn )n∈N et X des vecteurs aléatoires définis sur le même
espace probabilisé (Ω, A, P ) , et à valeurs dans (Rp , BRp ) .On dit que la suite de vec-
teurs (Xn )n∈N converge en probabilité vers X si pour toute composante i : i =
1, · · · , p, on a :
P
Xi,n −→ Xi .
n→+∞
Théorème 4.2.1 Soient (Xn )n∈N et X des vecteurs aléatoires définis sur le même
espace probabilisé (Ω, A, P ) , et à valeurs dans (Rp , BRp ) . Une condition nécessaire
et suffisante pour que la suite de vecteurs (Xn )n∈N converge en probabilité vers X
est que :
P
kXn − Xk −→ 0,
n→+∞
où k.kdésigne une norme quelconque de Rp .
Démonstration :
Les normes étant équivalentes, il suffit de montrer la propriété pour une norme
particulière ; choisissons la norme du maximum.
Si
P
Xn −→ X,
n→+∞
alors :
Xp
∀ε > 0, P max |Xi,n − Xi | > ε ≤ P (|Xi,n − Xi | > ε) −→ 0.
1≤i≤p n→+∞
i=1
Réciproquement, si :
P
max |Xi,n − Xi | −→ 0,
1≤i≤p n→+∞
on a :

∀ i : 1 ≤ i ≤ p, P (|Xi,n − Xi | > ε) ≤ P max |Xi,n − Xi | > ε −→ 0.
1≤i≤p n→+∞
Un autre résultat important et admis est que la propriété de convergence en

probabilité est stable relativement aux fonctions continues
Théorème 4.2.2 (de Slutsky) Soient (Xn )n∈N et X des vecteurs aléatoires définis
sur le même espace probabilisé (Ω, A, P ) , et à valeurs dans (Rp , BRp ) .On suppose que
la suite de vecteurs (Xn )n∈N converge en probabilité vers X. Soit g une application
continue de Rp dans Rq . On a alors :
P
g (Xn ) −→ g (X) .
n→+∞
c Michel CARBON
4.3 Convergence en moyenne quadratique

On l’appelle aussi convergence au sens de L2 . On rappelle que :
L2 m.q.
Xn −→ X ⇐⇒ Xn −→ X ⇐⇒ E (Xn − X)2 −→ 0

n→+∞ n→+∞ n→+∞
m.q.
Théorème 4.3.1 Une CNS pour que Xn −→ a est que :
n→+∞

 E (Xn )
 −→ a
n→+∞
 V (Xn ) −→ 0.

n→+∞
Démonstration :
Cela résulte immédiatement de :
E (Xn − a)2 = V (Xn ) + (E (Xn ) − a)2 .

Théorème 4.3.2 Soit (Xn )n∈N une suite de v.a.r. de carré intégrable. Une CNS
m.q.
pour que Xn −→ X est qu’il existe une constante γ telle que :
n→+∞
E (Xp Xq ) −→ γ quand p, q −→ +∞ .
Démonstration :
Pour la condition suffisante, il suffit d’écrire :
E (Xp − Xq )2 = E Xp2 + E Xq2 − 2E (Xp Xq ) ,

quantité qui converge vers γ + γ − 2γ = 0.

.
L2
Supposons maintenant que Xn −→ X. Alors :
n→+∞
E (Xp − Xq )2 −→ 0.

p,q→+∞
De plus,
E Xp2 − E X 2 = E (Xp − X)2 − 2E [X (X − Xp )] .

Et donc :
E Xp2 −→ E X 2 .

p→+∞
Par suite :
E (Xp Xq ) −→ E X 2 .

p,q→+∞
c Michel CARBON
4.4 Rapport entre les différentes convergences 115
4.4 Rapport entre les différentes convergences

Proposition 4.4.1 La convergence presque sûre entraîne la convergence en Proba-
bilité.
Démonstration : On peut aussi le démontrer directement grâce au théorème

(4.1.1) , point (5). En effet, d’après ce critère de convergence p.s., on a :
!
[
∀ε > 0, P {|Xk − X| ≥ ε} −→ 0 .
n→+∞
k≥n
D’où :
∀ε > 0, P ({|Xn − X| ≥ ε}) −→ 0 ;
n→+∞
Bien entendu, la réciproque est fausse.
Proposition 4.4.2 La convergence L2 entraîne la convergence L1 .

Démonstration :
L’inégalité de Schwarz permet de montrer immédiatement que la convergence L2
entraîne la convergence L1 . En effet , si X et Y sont deux variables aléatoires réelles
de carré intégrable, on a :
kX · Y kL1 ≤ kXkL2 kY kL2 .
Et, comme les constantes sont P -intégrables, en posant Y ≡ 1, on a :
kXkL1 ≤ kXkL2 .
Montrons maintenant que la convergence L1 entraîne la convergence en probabi-
lité.
Proposition 4.4.3
L1 P
Xn −→ X =⇒ Xn −→ X .
n→+∞ n→+∞
Démonstration :
On a :
kXn − XkL1 = E [|Xn − X|]

= E |Xn − X| · 1{|Xn −X|≥ε} + |Xn − X| · 1{|Xn −X|<ε}

≥ E |Xn − X| · 1{|Xn −X|≥ε}

≥ ε · E 1{|Xn −X|≥ε}
= ε · P [|Xn − X| ≥ ε] .
D’où :
kXn − XkL1 −→ 0 =⇒ ∀ε > 0, P ({|Xn − X| ≥ ε}) −→ 0 .
n→+∞ n→+∞
c Michel CARBON
4.5 Convergence des lois de probabilité

Dans toute cette section, on considère une suite de variables aléatoires X, X1 , X2 , ..., Xn , ...
définies sur un espace probabilisé (Ω, A, P ) à valeurs dans un espace métrique (X , B)
k
muni de sa tribu borélienne (en pratique, (X , B) = (R, BR ) ou R , BRk ou (C, BC )),
de lois de probabilités respectives PX , PX1 , PX2 , ..., PXn , ... sur (X , B) , et de fonctions
de répartition respectives FX , FX1 , FX2 , ...FXn , ....
On souhaite donner un sens à l’idée intuitive suivante : « pour n grand, la loi de
X et la loi de Xn sont voisines ».
Une définition qui semble naturelle est d’écrire que, pour tout ensemble borélien
A, la probabilité pour que X appartienne à A est voisine de la probabilité pour que
Xn appartienne à A :
∀A ∈ B : P {Xn ∈ A} −→ P {X ∈ A} .
n→∞
ou encore : PXn (A) −→ PX (A) .

n→∞
Cependant, l’examen de certains cas particuliers montre que cette définition ne
convient pas : supposons par exemple que Xn suive, pour tout n, la loi uniforme sur
[−1/n ; +1/n] et que X soit p.s. nulle ; il est clair (le vérifier) que (Xn ) converge vers
X selon tous les modes de convergence étudiés jusqu’à présent ; cependant la loi des
(Xn ) ne converge pas vers la loi de X au sens défini ci-dessus :
P {Xn ≤ 0} = PXn (]−∞, 0]) = 1/2 et P {X ≤ 0} = PX ({0}) = 1,
P {Xn > 0} = PXn (]0, +∞[) = 1/2 et P {X > 0} = PX (]0, +∞[) = 0 .

Pourtant, si [a, b] est un intervalle tel que a 6= 0 et b 6= 0, on a de façon évidente :
PXn ([a, b]) −→ PX ([a, b]) (= 0 ou 1) .
Ce qui provoque ces difficultés, c’est la présence, à la frontière des intervalles
]−∞, 0] ou ]0, +∞[ , ou, d’une façon générale, [a, b] avec a ou b nul, d’une masse
positive de la probabilité P. On constatera le même phénomène dans l’exemple
ci-dessous.
1) La v.a.r. Xn suit, pour tout n , la loi définie par la mesure de Dirac au point
1 1
, autrement dit, Xn = p.s. ; X suit la loi définie par la mesure de Dirac au
n n
point 0 : X = 0 p.s.
On a envie de dire que Xn converge en loi vers X , mais on constate que la
propriété : PXn (A) → PX (A) n’est vérifiée que pour les boréliens A dont la frontière
ne comporte pas le point 0.
2) Étudier lemême phénomène
avec Xn qui suit la loi uniforme sur le pavé :
1 1 1 1
− ; 1+ × − ;+ . Vers quelle loi semble converger la loi de la v.a.r. Xn ?
n n n n
Quels sont les pavés A pour lesquels PXn (A) 9 PX (A) ?
Nous adopterons donc la définition ci-dessous, en désignant par ∂ la frontière de
tout sous-ensemble de X : ◦
∀A : ∂A = A − A .
c Michel CARBON
4.5 Convergence des lois de probabilité 117
Définition 4.5.1 (Xn ) converge en loi vers X si, pour tout borélien A tel que
PX (∂A) = P {X ∈ ∂A} = 0,
lim PXn (A) = PX (A) ou lim P {Xn ∈ A} = P {X ∈ A} .

n→∞ n→∞
L
On écrira que : Xn −→ X .
n→+∞
On dit aussi que la famille de lois PXn converge étroitement ou faiblement vers
PX .
Cette définition est toutefois peu maniable, et on utilisera plus souvent la défi-
nition équivalente suivante :
Propriété 4.5.1 Les énoncés (1) et (2) sont équivalents :

L
(1) (Xn ) converge en loi vers X (notation : Xn −→ X) .
(2) pour tout point de continuité x de la fonction de répartition de X :
lim FXn (x) = FX (x) .

n→∞
Théorème 4.5.1 La convergence en probabilité de (Xn ) vers X entraîne la conver-

gence en loi de (Xn ) vers X .
Démonstration : Soit x ∈ R et ε > 0. On remarque que :
{ω ∈ Ω : X(ω) ≤ x − ε} ⊂ {ω ∈ Ω : Xn (ω) ≤ x}∪{ω ∈ Ω : |Xn (ω) − X(ω)| ≥ ε} .
En passant aux probabilités, on a :
P [X ≤ x − ε] − P [|Xn − X| ≥ ε] ≤ P [Xn ≤ x] . (4.1)
On peut aussi remarquer que :
{ω ∈ Ω : Xn (ω) ≤ x} ⊂ {ω ∈ Ω : X(ω) ≤ x + ε}∪{ω ∈ Ω : |Xn (ω) − X(ω)| ≥ ε} .
On en déduit que :
P [Xn ≤ x] ≤ P [|Xn − X| ≥ ε] + P [X ≤ x + ε] . (4.2)
Alors, de (4.1) et de (4.2), il vient :
P [X ≤ x − ε]−P [|Xn − X| ≥ ε] ≤ P [Xn ≤ x] ≤ P [X ≤ x + ε]+P [|Xn − X| ≥ ε] .
On fait tendre n vers l’infini, et on obtient alors :
P [X ≤ x − ε] ≤ lim inf P [Xn ≤ x] ≤ lim supP [Xn ≤ x] ≤ P [X ≤ x + ε] .

n→∞ n→∞
On fait maintenant tendre ε vers zéro, et on obtient :
P [X < x] ≤ lim inf P [Xn ≤ x] ≤ lim supP [Xn ≤ x] ≤ P [X ≤ x] .

n→∞ n→∞
c Michel CARBON
Si P [X = x] = 0, alors on a : P [X < x] = P [X ≤ x], et les inéquations précé-

dentes donnent :
lim P [Xn ≤ x] = P [X ≤ x] .
n→∞
Cela signifie qu’on vient de montrer que : lim Fn (x) = F (x) en tout point de
n→∞
L
continuité de x. Et donc Xn −→ X .
La réciproque du théorème (4.5.1) précédent est fausse en général. Cependant
elle est vraie lorsque X est presque sûrement constante (i.e. P [X = c] = 1 où c est
une constante réelle).
Théorème 4.5.2 Si X est une variable presque sûrement constante, alors :
L P
Xn −→ a ⇒ Xn −→ a .
Démonstration : En effet, pour tout ε > 0 , a + ε et a − ε sont des points de
continuité de la fonction de répartition de X : FX (x) = 1[a,+∞[ (x) .
Dans ces conditions, en notant FXn la fonction de répartition de Xn , on obtient
aisément :
P (|Xn − a| ≥ ε) ≤ 1 − P (Xn ≤ a + ε/2) + P (Xn ≤ a − ε)
= 1 − FXn (a + ε/2) + FXn (a − ε) −→ 1 − FX (a + ε/2) + FX (a − ε) = 0

n→∞
Théorème 4.5.3 Soit (Xn ) une suite de variables aléatoires qui converge en loi vers
X et (Yn ) une suite de variables telle que (Xn − Yn ) converge vers 0 en probabilité ;
alors :
L
Yn −→ X .
Démonstration :
Soit x un point de continuité de la fonction de répartition de X ; pour tout ε > 0
, il existe 0 < η < ε tel que x − η et x + η soient aussi des points de continuité. Les
inégalités ci-dessous sont faciles à vérifier :
P (|Xn − Yn | ≤ η ; Xn ≤ y − η)
≤ P (Yn ≤ y) ≤ P (|Xn − Yn | ≥ η) + P (Xn ≤ y + η) .

Comme P (|Xn − Yn | ≤ η) → 1 ; P (|Xn − Yn | ≥ η) → 0 ;
P (Xn ≤ y − η) → P (X ≤ y − η) et P (Xn ≤ y + η) → P (X ≤ y + η) , on ob-
tient :
P (X ≤ y − η) ≤ lim inf P (Yn ≤ y) ≤ lim supP (Yn ≤ y) ≤ P (X ≤ y + η) .
n→∞ n→∞
Compte tenu du fait que y est un point de continuité de P {X ≤ x} , on conclut :

lim P (Yn ≤ y) = P (X ≤ y) .
n→∞
Dans le cas absolument continu, on peut démontrer la convergence en loi di-

rectement via les densités de probabilité. C’est l’objet du théorème suivant qu’on
admettra.
c Michel CARBON
4.5 Convergence des lois de probabilité 119
Théorème 4.5.4 Soient (fn )n∈N∗ et f des densités de probabilité sur R. Soient Fn
et F leurs fonctions de répartition respectivement associées. Supposons que :
lim fn (x) = f (x) pour tout x ∈ R . (4.3)

n→∞
Alors, on a :
lim Fn (x) = F (x) pour tout x point de continuité de F . (4.4)

n→∞
L
et donc : Xn −→ X .
n→+∞
Remarque 4.5.1 Le théorème précédent reste vrai si l’égalité dans (4.3) n’est vraie
que seulement pour presque tout x (en pratique pour tout x de R sauf éventuellement
sur un ensemble fini ou dénombrable).
Une version discrète du théorème précédent est le suivant :
Théorème 4.5.5 Soient (Xn )n∈N∗ et X des variables aléatoires à valeurs entières
dans N. Soient pn (k) et p(k) les masses ponctuelles associées à ces variables. Alors,
L
on a : Xn −→ X si et seulement si :
n→+∞
lim pn (k) = p(k) pour tout k ∈ N . (4.5)

n→∞
D’autres applications seront vues plus loin ; pour terminer le paragraphe, signa-
lons quelques pièges :
L L
1. Si Xn −→ X, cela n’entraîne pas que Xn − X −→ 0 .
n→+∞ n→+∞
Un contrexemple classique consiste à choisir pour X une loi symétrique, par
exemple N (0, 1) . On pose, pour tout n : Xn = (−1)n X ; conclure.
L
2. Si Xn −→ X et si A est un borélien tel que PX (∂A) > 0, il se peut très
n→+∞
bien que : PXn (A) → PX (A) . Par exemple, si pour tout n, Xn suit une loi
de Bernoulli de paramètre pn = 1/n ; à étudier.
3. Si (Fn ) est une suite de fonctions de répartition de probabilités (Pn ) , et si,
pour tout x, lim Fn (x) = F (x) , F n’est pas nécessairement la fonction de
répartition d’une probabilité.
Étudier par exemple le cas suivant : pour tout n, Pn suit la loi uniforme sur
[−n; +n] . Imaginer d’autres exemples.
4. Si X et Y sont deux variables aléatoires de même loi, XZ et Y Z n’ont pas
nécessairement la même loi. S’inspirer de 1 : supposer que la loi de X est
symétrique, que Z = X et Y = −X.
c Michel CARBON
c Michel CARBON
Chapitre 5
Loi des Grands Nombres et

Théorème Central Limite
L’idée de Platon, c’est que la constitution bonne engendre la cité bonne, comme
l’idée de Bourbaki que l’axiomatique bonne implique les mathématiques bonnes.
Marcel Paul Schützenberger
5.1 Loi des grands nombres

Définition 5.1.1 On dit qu’une suite de variables aléatoires (Xn )n∈N suit une loi
des grands nombres s’il existe deux suites de réels (αn )n∈N et (βn )n∈N telles que :
n
1 X
lim (Xi − βi ) existe en un certain sens.
n→+∞ αn
i=1
On parle de loi faible des grands nombres quand la convergence a lieu en proba-
bilité, et de loi forte des grands nombres quand la convergence est presque sûre.
Théorème 5.1.1 (Loi faible des grands nombres de Bernoulli)

Si la suite d’événements (An )n∈N est formée d’événements indépendants de même
probabilité p. Si on désigne par Sn le nombre de Ai réalisés parmi les événements
A1 , · · · , An , alors :

Sn
∀ ε > 0, P − p > ε −→ 0.

n n→+∞
Démonstration :
On a :
n
Sn 1X
= 1A .
n n i=1 i
121
CHAPITRE 5. LOI DES GRANDS NOMBRES ET THÉORÈME
122 CENTRAL LIMITE
On calcule alors aisément son espérance et sa variance :

n
Sn 1X
E = P (Ai ) = p
n n i=1
n
Sn 1 X p [1 − p]
V = 2 var (1A1 ) = .
n n i=1 n
L’inégalité de Bienaymé-Tchebychev permet alors de conclure :

Sn
V
Sn n p [1 − p]
P − p > ε ≤ 2
= −→ 0.
n ε nε2 n→+∞
Théorème 5.1.2 (Loi faible des grands nombres)

Soit (Xn )n≥1 une suite de variables aléatoires discrètes indépendantes et de même
loi, de moyenne m et de variance σ 2 , définies sur un espace probabilisé (Ω, A, P ) .
Alors on a : n
1X P
Xk = X n −→ m
n k=1 n→+∞
Démonstration :
Appliquons l’inégalité de Bienaymé-Tchebychev à X n avec :
n
1X
E Xn = E(Xk ) = m et
n k=1
n
! n
1X 1 X σ2
V ar X n = V ar Xk = 2 V ar (Xk ) =
n k=1 n k=1 n
puisque X1 , ..., Xn sont indépendantes.

σ2
Donc : ∀ε > 0, P Xn − m ≥ ε ≤
, et, par conséquent :
n·ε

∀ε > 0 : lim P X n − m ≥ ε = 0
n→∞
On peut encore démontrer mieux (sous de plus faibles hypothèses) :
Théorème 5.1.3 (Loi faible des grands nombres de Khintchine)

Soit (Xn ) une suite de variables aléatoires de L1 (Ω, A, P ) , indépendantes et de
même loi, de moyenne m. Alors, on a :
n
Sn 1X P
= Xi −→ m.
n n i=1 n→+∞
La démonstration se fait grâce aux fonctions caractéristiques, et sera admise.
Théorème 5.1.4 (Loi des grands nombres dans L2 )
c Michel CARBON
5.1 Loi des grands nombres 123
Soit (Xn )n∈N une suite de v.a.r. de carré intégrable deux à deux non corrélées.
Une CNS pour que :
n
1X L2
Xi −→ a ( a est une constante )
n i=1 n→+∞
est que :
 X n
1
E (Xi ) −→ a (convergence en moyenne au sens de Cesaro)


 n i=1


 n→+∞
 n

 1 X


 2 V (Xi ) −→ 0
n i=1 n→+∞
Démonstration :
Elle résulte de :
 !2  !2
n n n
1X 1 X 1X
E Xi − a  = 2 V (Xi ) + E (Xi ) − a .
n i=1 n i=1 n i=1
Corollaire 5.1.1 Dans les conditions du théorème précédent, on a :

n
1X L2
Xi −→ a ( a est une constante )
n i=1 n→+∞
dès que : 
−→ a
 E (Xn ) n→+∞


 V (X ) ≤ γ < +∞
n
Démonstration :
Elle résulte du fait que la convergence usuelle implique la convergence en moyenne
au sens de Cesaro et du fait que la deuxième condition implique que :
n
1 X γ
V (X i ) ≤ −→ 0.
n2 i=1 n n→+∞
Mentionnons enfin la loi forte des grands nombres dont la démonstration est
notoirement plus difficile et qui sera ici omise.
Théorème 5.1.5 ( de Kolmogorov) Soit (Xn ) une suite de variables aléatoires de

L1 (Ω, A, P ) , indépendantes , de même loi, de moyenne m. Alors, on a :
n
Sn 1X p.s.
= Xi −→ m.
n n i=1 n→+∞
c Michel CARBON
124 CENTRAL LIMITE
5.2 Application : le théorème de Glivenko-Cantelli

Définition 5.2.1 Soit X1 , · · · , Xn des variables i.i.d. de fonction de répartition FX .
Alors la fonction de répartition empirique sera notée Fn et est définie, pour tout
x ∈ R, par :
n
1X
Fn (x) = 1[Xi ,+∞[ (x) . (5.1)
n i=1
Si des données x1 , · · · , xn sont disponibles, alors la fonction de répartition empirique

observée sera notée F̂n (x) et définie par :
n
1X
F̂n (x) = 1[x ,+∞[ (x) .
n i=1 i
Remarquons que, pour tout x fixé, la loi forte des grands nombres assure que :
p.s.
Fn (x) −−−−→ FX (x)
n→+∞
puisque :
E 1[Xi ,+∞[ (x) = P 1[Xi ,+∞[ (x) = 1 = FX (x) .
Le théorème qui suit renforce cette dernière remarque
Théorème 5.2.1 Soit X1 , · · · , Xn des variables i.i.d. de fonction de répartition FX ,

et soit Fn (x) la fonction de répartition empirique associée. Alors, on a :

P sup |Fn (x) − FX (x)| −−−−→ 0 = 1
x∈R n→+∞
ou, de manière équivalente :

P lim sup |Fn (x) − FX (x)| = 0 = 1 ,
n→+∞ x∈R
ce qui signifie que la convergence presque sûre est uniforme en x.
Démonstration :
Soit ε > 0. Fixons k > 1/ε et considérons les points κ0 , · · · , κk tels que :
−∞ = κ0 < κ1 ≤ κ2 ≤ · · · ≤ κk−1 < κk = +∞
qui définit une partition de R en k intervalles disjoints tels que :

j
FX (κ−
j ) ≤ ≤ FX (κj ) , j = 1, · · · , k − 1
k
où, pour chaque j :
FX (κ−
j ) = [Xj < κj ] = FX (κj ) − P [X = κj ] .
c Michel CARBON
5.2 Application : le théorème de Glivenko-Cantelli 125
Alors, par construction, si κj−1 < κj , alors :
j (j − 1) 1
FX (κ−
j ) − FX (κj−1 ) ≤ − = < ε.
k k k
Rappelons que Fn (x) est une quantité aléatoire. Grâce à la loi des grands nombres,
on a la convergence ponctuelle, qui est donc telle que :
p.s. p.s.
Fn (κj ) −−−−→ FX (κj ) et Fn (κ−
j ) −−−−→ FX (κ−
j )
n→+∞ n→+∞
Examinons le comportement du maximum ci-dessous pour tous les j :

p.s.
|Fn (κj ) − FX (κj )| , Fn (κ− −

∆n = max j ) − FX (κj ) −−−−→ 0
j=1,··· ,k−1 n→+∞
Pour chaque x fixé, il existe un j unique tel que :
κj−1 ≤ x < κj .
Alors on a :
Fn (x) − FX (x) ≤ Fn (κ− − −

j ) − FX (κj−1 ) ≤ Fn (κj ) − FX (κj ) + ε
Fn (x) − FX (x) ≥ Fn (κj−1 ) − FX (κ−

j ) ≥ Fn (κj−1 ) − FX (κj−1 ) − ε ,
et, pour tout x :
Fn (κj−1 ) − FX (κj−1 ) − ε ≤ Fn (x) − FX (x) ≤ Fn (κ− −

j ) − FX (κj ) + ε
et donc :
p.s.
|Fn (x) − FX (x)| ≤ ∆n + ε −−−−→ ε .
n→+∞
Comme ce résultat est valide pour tout x arbitraire, il s’ensuit que :

p.s.
sup |Fn (x) − FX (x)| −−−−→ ε .
x∈R n→+∞
Ce dernier résultat est vrai pour tout ε > 0. Cela signifie que, si on note Aε l’ensemble
des ω pour lequel on a convergence presque sûre, alors : P (Aε ) = 1, et donc :
\
A= Aε =⇒ P (A) = P lim Aε = lim P (Aε ) = 1
ε→0 ε→0
ε>0
et il s’ensuit que :

P lim sup |Fn (x) − FX (x)| = 0 = 1 ,
n→+∞ x∈R
c Michel CARBON
126 CENTRAL LIMITE
5.3 Théorème central limite

La forme classique du théorème central limite est le suivant :
Théorème 5.3.1 (Central-Limite) Soit (Xn ) une suite de variables aléatoires

réelles indépendantes, de même loi, d’espérance mathématique m et d’écart type σ :
Xn − m L
√ −→ N (0, 1)
σ/ n n→+∞
(où, pour tout n, X n désigne la moyenne arithmétique des n premières variables :

1
X n = (X1 + ... + Xn )).
n
Ce théorème est parfois appelé théorème de Lindeberg-Lévy. Un cas particulier

de ce théorème est le théorème de Moivre-Laplace, indiqué ci-dessous.
Théorème 5.3.2 Soient X1 , ..., Xn , ... des variables aléatoires indépendantes sui-
vant la loi de Bernoulli de paramètre 0 < p < 1.
Pour tout n, soit Sn = X1 + · · · + Xn . Alors, pour tout couple de nombres réels
a < b, on a :
( )! Z b
Sn − np 1
exp −x2 /2 dx

lim P a≤ p ≤b =√
n→∞ np (1 − p) 2π a
Cela signifie que √Sn −np converge en loi vers une loi normale centrée réduite.
np(1−p)
Autrement dit, pour n grand, Sn peut être approximée par une loi N (np, np(1 − p)).
Démonstration du théorème central limite :

On suppose donc que les variables X1 , ..., Xn , ... sont indépendantes et identi-
quement distribuées de moyenne m et de variance σ 2 . De plus, on suppose que la
fonction génératrice des moments MXi des Xi est finie localement au voisinage de
l’origine.
Autrement dit, on doit, sous ces hypothèses, démontrer que pour tout t réel, on
a:
−m
t Xσ/
n√ 2
lim M X n√−m (t) = lim E e n
= et /2 (5.2)
n→∞ σ/ n n→∞
Posons ; Yi = (Xi − m)/σ. Les variables Y1 , ..., Yn , ... sont indépendantes et iden-
tiquement distribuées, de moyenne nulle et de variance 1. On a alors :
n n
Xn − m 1 X Xi − m 1 X
√ =√ =√ Yi
σ/ n n i=1 σ n i=1
En notant MY la f.g.m. des Yi , en utilisant les propriétés standards des f.g.m.,

on obtient successivement :
c Michel CARBON
5.3 Théorème central limite 127

−m
t Xσ/
n√ t √1n n
P
i=1 Yi
M X n√−m (t) = E e n
=E e
σ/ n
" n
# n
Y √ Y h √ i
tYi / n tYi / n
= E e = E e
i=1 i=1
n
t
= MY √ (5.3)
n
On peut remarquer que la f.g.m. de Y est également finie dans un voisinage de
l’origine, car :
MY1 (s) = E esY1 = E es(X1 −m)/σ = e−sm/σ E esX1 /σ = e−sm/σ MX1 (s/σ)

La fonction MY1 (s) possède donc une dérivée seconde continue localement au voi-
sinage de l’origine. On peut alors appliquer un développement de Taylor dans ce
voisinage : pour s assez petit, il existe s∗ situé entre 0 et s tel que :
s2
MY (s) = MY (0) + MY0 (0)s + MY00 (s∗ ) .
2
On a bien sûr : MY (0) = 1. De plus, comme E [Y ] = 0, on a aussi : MY0 (0) = 0. Si
bien que l’équation précédente devient :
s2
MY (s) = 1 + MY00 (s∗ ) .
2
Ainsi, pour tout t réel, avec n suffisamment grand, on a :
t2 /2

t
MY √ = 1 + MY00 (vt,n ) ,
n n
√
pour un√certain vt,n situé entre 0 et t/ n. A t fixé, et en faisant tendre n vers l’infini,
on a t/ n −→ 0 et donc vt,n −→ 0. Posons : an,t = MY00 (vt,n ). Puisque MY00 (s) est
continue localement au voisinage de l’origine, on obtient :
lim an,t = lim MY00 (vt,n ) = MY00 (0) = E Y 2 = 1 .

n→∞ n→∞
Ainsi, on obtient :
t2 /2

t
MY √ = 1 + an,t , (5.4)
n n
avec lim an,t = 1. En combinant (5.3) et (5.4), on obtient :
n→∞
n
t2 /2

M X n√−m (t) = 1 + an,t .
σ/ n n
En remarquant que : u n
lim 1 + an,t = eu ,
n→∞ n
c Michel CARBON
128 CENTRAL LIMITE
on obtient finalement que :

n
t2 /2

t2
lim M X n√−m (t) = lim 1 + an,t =e2 ,
n→∞ σ/ n n→∞ n
ce qui complète la démonstration. Les quelques hypothèses additionnelles faites ici

sur les f.g.m. peuvent être relaxées pour donner le théorème central limite énoncé
précédemment. La démonstration sans ces hypothèses additionnelles se fait grâce
aux fonctions caractéristiques.
Le cas multidimensionnel se décline, mutatis mutandis, de la même façon. Le

théorème central limite précédent nous dit, sous les hypothèses précisées ci-dessus,
que :
Xn − m L
√ −→ N (0, 1)
σ/ n n→+∞
ce qui peut aussi s’écrire :
√ L
n X n − m −→ N 0, σ 2

n→+∞
Le théorème central limite multidimensionnel s’écrit sous une forme similaire.
Théorème 5.3.3 (Théorème central limite sur Rk ) Soit (Xn ) une suite de vec-
teurs aléatoires indépendants et de même loi, de moyenne m et de covariance Γ.
1 √
Posons X n = (X1 + ... + Xn ) et Sn = n X n − m . Alors :
n
L
Sn −→ N (0, Γ) .
n→+∞
Il faut bien noter ci-dessus que : X1 , X2 , ..., Xn sont des vecteurs aléatoires :
     
X1,1 X2,1 Xn,1
 X1,2   X2,2   Xn,2 
 ,   , ··· , .
     
 .. .. ..
 .   .   . 
X1,k X2,k Xn,k
indépendants et de même loi. Leur moyenne commune est aussi un vecteur :

   
m1 E [X1,1 ]
 m2   E [X1,2 ] 
m= =  ,
   
.. ..
 .   . 
mk E [X1,k ]
c Michel CARBON
5.3 Théorème central limite 129
et leur matrice de covariance commune est :

 
σ12 ρ1,2 σ1 σ2 · · · ρ1,k σ1 σk
 ρ1,2 σ1 σ2 σ22 · · · ρ2,k σ2 σk 
Γ = 
 
.. .. .. 
 . . . 
ρ1,k σ1 σk ρ2,k σ2 σk · · · σk2
 
var [X1,1 ] cov [X1,1 , X1,2 ] · · · cov [X1,1 , X1,k ]
 cov [X1,1 , X1,2 ] var [X1,2 ] ··· cov [X1,2 , X1,k ] 
=  ,
 
.. .. ..
 . . . 
cov [X1,1 , X1,k ] cov [X1,2 , X1,k ] · · · var [X1,k ]
et enfin X n est aussi un vecteur :

 n 
1X
Xi,1

 n i=1 

 n 
 1X 
 Xi,2 
Xn = 
 n i=1  .

 .. 

 . 

n
1
 X 
Xi,k
 
n i=1
Pour terminer ce chapitre, on va citer une généralisation, parmi de nombreuses,

qui étend le théorème central limite au cas où les variables aléatoires ne sont pas
i.i.d..
Théorème 5.3.4 (Théorème central limite de Lyapounov) On suppose que X1 , X2 , · · ·

sont des variables aléatoires indépendantes. On suppose de plus qu’il existe δ > 0 tel
que : h i
E |Xk |2+δ < +∞ pour tout k ≥ 1 ,
et : n
1 X h i
lim E |Xk − mk |2+δ = 0 .
n→∞ σS2+δ
n k=1
Alors, on a :
Sn − E [Sn ] L
p −→ N (0, 1) .
var (Sn ) n→+∞
c Michel CARBON
130 CENTRAL LIMITE
c Michel CARBON
Chapitre 6
Convergence faible et continuité
Quand vous avez éliminé l’impossible, ce qui reste, même improbable, doit être
la vérité.
A. Conan Doyle
Par convergence faible, on entend convergence en loi ou en probabilité. Ce cha-

pitre concerne essentiellement la préservation de la convergence faible par les fonc-
tions continues. Les résultats obtenus dans les deux premières sections sont tous
dénommés sous le vocable de "Théorème de Slutsky". La "méthode du delta" de la
troisième section est attribuée à Harald Cramér.
6.1 Convergence en probabilité et continuité

P P
Proposition 6.1.1 On a (Un , Vn ) −→ (c, d) si et seulement si on a : Un −→ c
n→+∞ n→+∞
P
et Vn −→ d .
n→+∞
P
Remarquons d’abord que la notation (Un , Vn ) −→ (c, d) signifie que pour tout
n→+∞
ε > 0, on a : q
2 2
lim P (Un − c) + (Vn − d) > ε = 0 .
n→+∞
Démonstration :
Pour tout ε > 0, on a :
(Un − c)2 ≤ ε ∩ (Vn − d)2 ≤ ε ⊂ (Un − c)2 + (Vn − d)2 ≤ 2ε

Par passage au complémentaire, on a :
(Un − c)2 + (Vn − d)2 > 2ε ⊂ (Un − c)2 > ε ∪ (Vn − d)2 > ε

131
132 CHAPITRE 6. CONVERGENCE FAIBLE ET CONTINUITÉ
On en déduit alors que :
P (Un − c)2 + (Vn − d)2 > 2ε ≤ P (Un − c)2 > ε∪ (Vn − d)2 > ε

≤ P (Un − c)2 > ε + P (Vn − d)2 > ε

P P P
Si donc Un −→ c et Vn −→ d , on a : (Un , Vn ) −→ (c, d) .
n→+∞ n→+∞ n→+∞
Réciproquement, on a :
(Un − c)2 > ε ⊂ (Un − c)2 + (Vn − d)2 > ε

D’où :
(Un − c)2 > ε ≤ P (Un − c)2 + (Vn − d)2 > ε .

P
P P
Ainsi, (Un , Vn ) −→ (c, d) implique que : Un −→ c, et, par un argument du même
n→+∞ n→+∞
P
type, que : Vn −→ d.
n→+∞
Cette propriété nous sera utile pour démontrer le théorème suivant.
Théorème 6.1.1
P P
(i) Si Un −→ c et si h : R −→ R est continue au point c, alors h (Un ) −→
n→+∞ n→+∞
h(c)
P
(ii) Si (Un , Vn ) −→ (c, d) et si la fonction h : R2 −→ R est continue au point
n→+∞
P
(c, d), alors h (Un , Vn ) −→ h(c, d).
n→+∞
Démonstration :
P
On suppose que (Un , Vn ) −→ (c, d) et que la fonction h : R2 −→ R est continue
n→+∞
au point (c, d). Soit ε un réel strictement positif. Comme h est continue en (c, d), il
existe δ > 0 tel que :
p
Pour tout (x, y) tel que (x − c)2 + (y − d)2 ≤ δ, on ait : |h(x, y) − h(c, d)| ≤ ε
Ainsi, on a :
q
2 2
(|h (Un , Vn ) − h(c, d)| > ε) ⊂ (Un − c) + (Vn − d) > δ .
On obtient donc :
q
2 2
lim P [|h (Un , Vn ) − h(c, d)| > ε] ≤ lim P (Un − c) + (Vn − d) > δ = 0 .
n→+∞ n→+∞
P
On en conclut donc que : h (Un , Vn ) −→ h(c, d).
n→+∞
P P
Corollaire 6.1.1 Supposons que Un −→ c et Vn −→ d. Alors :
n→+∞ n→+∞
P
— (i) Un + Vn −→ c + d ,
n→+∞
c Michel CARBON
6.2 Convergence en loi et continuité 133
P
— (ii) Un − Vn −→ c − d ,
n→+∞
P
— (iii) Un Vn −→ cd ,
n→+∞
P
— (iv) Un /Vn −→ c/d , à condition que d 6= 0 .
n→+∞
Démonstration : Il suffit d’appliquer la partie (ii) du théorème (6.1.1) avec, res-

pectivement, h(x, y) = x + y , h(x, y) = x − y , h(xy) = xy , h(x, y) = x/y.
A noter finalement que le théorème (6.1.1) reste valide dans le cas multidimen-
sionnel.
6.2 Convergence en loi et continuité

On va commencer par admettre le résultat qui suit, dont la démonstration né-
cessite la théorie de la mesure et de l’intégration.
Propriété 6.2.1 Les énoncés suivants sont équivalents :
L
— (i) Xn −→ X
n→+∞
— (ii) pour toute fonction continue bornée f , lim E [f (Un )] = E [f (U )].
n→+∞
— (iii) pour toute fonction uniformément continue bornée f , lim E [f (Un )] =
n→+∞
E [f (U )].
Il n’y a pas d’analogue de la proposition (6.1.1) où la convergence en probabilité
L
serait remplacé par la convergence en loi. Il est vrai que si on a : (Un , Vn ) −→
n→+∞
L L
(U, V ), alors on a : Un −→ U et Vn −→ V . Mais la réciproque est fausse, on peut
n→+∞ n→+∞
L L L
avoir : Un −→ U et Vn −→ V sans avoir (Un , Vn ) −→ (U, V ).
n→+∞ n→+∞ n→+∞
Illustrons cela par un exemple simple. Supposons que pour tout n pair, on ait :
P [(Un , Vn ) = (0, 0)] = P [(Un , Vn ) = (1, 1)] = 1/2 ,
et que, pour tout n impair, on ait :
P [(Un , Vn ) = (0, 1)] = P [(Un , Vn ) = (1, 0)] = 1/2 .

L L
On a alors clairement : Un −→ U où U ∼ B(1, 1/2) et Vn −→ V où V ∼
n→+∞ n→+∞
B(1, 1/2). Mais la suite (Un , Vn )n∈N∗ ne converge pas en loi.
L’analogue du théorème (6.1.1) avec la convergence en probabilité remplacé par
la convergence en loi est énoncé ci-dessous.
Théorème 6.2.1
L L
— (i) Si Un −→ U et si h : R −→ R est continue, alors h (Un ) −→ h(U )
n→+∞ n→+∞
L 2
— (ii) Si (Un , Vn ) −→ (U, V ) et si la fonction h : R −→ R est continue,
n→+∞
L
alors h (Un , Vn ) −→ h(U, V ).
n→+∞
c Michel CARBON
Démonstration : La démonstration du point (i) est aisée en utilisant la propriété

L
(6.2.1). En effet, soit ϕ : R −→ R continue et bornée. Sous l’hypothèse que Un −→
n→+∞
U , alors, grâce à la propriété (6.2.1) (ii), on a : lim E [(ϕ ◦ h)(Un )] = E [(ϕ ◦ h)(U ))]
n→+∞
car ϕ◦h est bornée. Maintenant, cela s’écrit aussi : lim E [ϕ(h(Un ))] = E [ϕ(h(U ))].
n→+∞
En utilisant une fois encore la même propriété, comme ϕ ◦ h est bornée, on en déduit
L
que : Un −→ U . La partie (ii) se démontre par des arguments similaires, mais est
n→+∞
notoirement plus difficile.
L
Corollaire 6.2.1 Supposons que : (Un , Vn ) −→ (U, V ). Alors, on a :
n→+∞
L
— (i) Un + Vn −→ U + V ,
n→+∞
L
— (ii) Un − Vn −→ U − V ,
n→+∞
L
— (iii) Un Vn −→ U V ,
n→+∞
L
— (iv) Un /Vn −→ U/V , à condition que P [V = 0] = 0 .
n→+∞
Démonstration : Il suffit d’applique la partie (ii) du théorème (6.2.1) avec,

respectivement , h(x, y) = x + y , h(x, y) = x − y , h(xy) = xy , h(x, y) = x/y.
A noter que le théorème (6.2.1) s’écrit aussi dans le cas multidimensionnel.
Le théorème qui suit est un cas particulier du théorème (6.2.1), mais cependant,
il mérite une attention particulière, car souvent utilisé en pratique.
L
Théorème 6.2.2 Si (Un , Vn ) −→ (c, V ) et si la fonction h : R2 −→ R est conti-
n→+∞
L
nue, alors h (Un , Vn ) −→ h(c, V ).
n→+∞
On a cette fois un analogue à la propriété (6.1.1)

L P L
Proposition 6.2.1 (Un , Vn ) −→ (c, V ) si et seulement si Un −→ c et Vn −→
n→+∞ n→+∞ n→+∞
V.
L
Démonstration : Supposons tout d’abord que : (Un , Vn ) −→ (c, V ). En utilisant
n→+∞
la proposition (6.2.1) avec pour application ϕ une fonction continue bornée et pour
f1 la projection sur la première coordonnée (ϕ ◦ f1 est continue bornée), on a :
lim E [(ϕ ◦ f1 )(Un , Vn )] = E [(ϕ ◦ f1 )(c, V )]

n→+∞
qui s’écrit :
lim E [ϕ(Un )] = E [ϕ(c)]
n→+∞
L
et alors : Un −→ c ce qui équivaut, puisque la convergence a lieu vers une constante,
n→+∞
P
a : Un −→ c.
n→+∞
c Michel CARBON
6.2 Convergence en loi et continuité 135
L
En raisonnant de même, on montre alors aussi que : Vn −→ V .
n→+∞
P L
Réciproquement, on suppose que Un −→ c et Vn −→ V . Soit ϕ : R2 −→ R
n→+∞ n→+∞
une application continue bornée par K. Elle est bien sûr continue et bornée sur
chaque variable. En particulier, pour tout ε > 0, ∃ η > 0, tel que |x − y| < η,
implique : |ϕ(x, Vn ) − ϕ(y, Vn )| < ε/2
On a ici :
|E [ϕ(Un , Vn )] − E [ϕ(c, V )]| ≤ |E [ϕ(Un , Vn )] − E [ϕ(c, Vn )]|+|E [ϕ(c, Vn )] − E [ϕ(c, V )]|

(6.1)
L
En utilisant la proposition (6.2.1), sous l’hypothèse que Vn −→ V , on sait que la
n→+∞
dernière quantité du membre droit de l’inégalité ci-dessus tend vers 0 quand n tend
vers l’infini. Examinons le premier terme du membre droit de l’inégalité ci-dessus :
|E [ϕ(Un , Vn )] − E [ϕ(c, Vn )]| ≤ E [|ϕ(Un , Vn )] − E [ϕ(c, Vn )|]

≤ E |ϕ(U
n , Vn )] − E [ϕ(c, Vn )| 1 |U n −c|≤ε
+E |ϕ(Un , Vn )] − E [ϕ(c, Vn )| 1|Un −c|>ε
≤ ε/2 + 2 · K · P [|Un − c| > ε]
P
Or, 2 · K · P [|Un − c| > ε] < ε/2 pour n assez grand car Un −→ c. Et donc le
n→+∞
premier terme du membre droit de (6.1) tend vers 0 lorsque n tend vers l’infini.
Ainsi :
lim E [ϕ(Un , Vn )] = E [ϕ(c, Vn )] .
n→+∞
L
La proposition (6.2.1) permet de conclure qu’alors : (Un , Vn ) −→ (c, V )
n→+∞
Grâce à cette dernière proposition, le théorème (6.2.2) peut s’écrire sous la forme
suivante :
P L
Théorème 6.2.3 Si Un −→ c et Vn −→ V et si la fonction h : R2 −→ R est
n→+∞ n→+∞
L
continue, alors : h (Un , Vn ) −→ h(c, V ).
n→+∞
La démonstration du corollaire suivant est alors aisée (similaire à celle du corol-

laire précédent), en utilisant le théorème (6.2.3).
P L
Corollaire 6.2.2 Supposons que Un −→ c et Vn −→ V : Alors, on a :
n→+∞ n→+∞
L
— (i) Un + Vn −→ c + V ,
n→+∞
L
— (ii) Un Vn −→ cV .
n→+∞
c Michel CARBON
6.3 La méthode du delta

Considérons X1 , X2 , X3 , · · · des variables aléatoires indépendantes et de même
loi, de moyenne et variance commune, respectivement m et σ 2 .
La loi faible des grands nombres dit alors que :
n
1X P
Xk = X n −→ m
n k=1 n→+∞
Le théorème central limite dit que :

√ L
n X n − m −→ N 0, σ 2

(6.2)
n→+∞
On considère une application g : R −→ R admettant au moins une dérivée

continue. On se demande ce que l’on peut en déduire au sujet de la variable g(X n ).
En utilisant la loi des grands nombres rappelée ci-dessus et le théorème (6.1.1)
précédent, il vient :
P
g X n −→ g(m) .
n→+∞
Maintenant, en utilisant un développement de Taylor à l’ordre 1, on sait qu’il

existe X ∗ situé entre X n et m tel que :
g X n = g(m) + g 0 (X ∗ ) X n − m .

On a alors :
√ √
n g(X n − g(m)) = g 0 (X ∗ ) n(X n − m)

(6.3)
Clairement, X ∗ converge en probabilité vers m. De plus, le théorème (6.1.1) nous
P
donne : g 0 (X ∗ ) −→ g 0 (m).
n→+∞
Par ailleurs, le résultat (6.2) précédent nous indique que :
√ L
n X n − m −→ σZ
n→+∞
où σZ suit une loi N (0, 1).

Enfin, le théorème (6.2.2) précédent nous assure alors que :
√ L
g 0 (X ∗ ) n X n − m −→ g 0 (m)σZ
n→+∞
c’est-à-dire vers la loi normale N 0, (g 0 (m))2 σ 2 .

L’équation (6.3) nous donne finalement :

√ L
2

n g(X n ) − g(m) −→ N 0, (g 0 (m)) σ 2 . (6.4)
n→+∞
c Michel CARBON
6.3 La méthode du delta 137
Exemple 6.3.1 Considérons X1 , X2 , X3 , · · · des variables aléatoires indépendantes

et de même loi, de moyenne et variance commune, respectivement m et σ 2 . Quelle
est la loi asymptotique de e−X n ?
Utilisons (6.4) avec g(x) = e−x . On a ici : g 0 (x) = −e−x . Et donc : (g 0 (m))2 =
e−2m . Ainsi, on a :
√ −X n
L
− e−m −→ N 0, e−2m σ 2 .

n e
n→+∞
Exemple 6.3.2 Considérons X1 , X2 , X3 , · · · des variables aléatoires indépendantes

et de même loi, la loi de Bernouilli de paramètre p. Quelle est la loi asymptotique
de X n (1 − X n ) ?
Utilisons (6.4) avec m = p, σ 2 = p(1 − p) et g(x) = x(1 − x). On a alors :
g 0 (x) = 1 − 2x et donc : (g 0 (m))2 = (1 − 2p)2 . On obtient alors :
√ L
n X n (1 − X n ) − p(1 − p) −→ N 0, (1 − 2p)2 p(1 − p) .

(6.5)
n→+∞
Dans cet exemple, le résultat (6.5) est valide pour tout 0 < p < 1. Toutefois, dans
le cas où p = 1/2, la variance asymptotique ci-dessus (1 − 2p)2 p(1 − p) est nulle.
Par suite le résultat fourni en (6.5) devient :
√ L
n X n (1 − X n ) − 1/4 −→ N (0, 0) ,
n→+∞
ce qui équivaut à dire que :

√ P
n X n (1 − X n ) − 1/4 −→ 0 ,
n→+∞
Mais on peut améliorer le résultat.

La méthode du delta quand g 0 (m) = 0.
On reprend le même raisonnement que ci-dessus mais en utilisant un développe-
ment de Taylor à l’ordre 2 :
1 2
g X n = g(m) + g 0 (m) X n − m + g 00 (X ∗ ) X n − m ,

2
∗
avec X situé entre X n et m.
Puisque : g 0 (m) = 0, on obtient alors :
1 2
g X n − g(m) = g 00 (X ∗ ) X n − m .

2
On multiplie par n dans chaque membre, et on a :
1 √ 2
n g X n − g(m) = g 00 (X ∗ ) n(X n − m) .

2
A l’aide des résultats antérieurs, et en faisant tendre n vers l’infini, il vient :
L 1
n g X n − g(m) −→ g 00 (m)σ 2 Z 2 ,

n→+∞ 2
avec Z de loi N (0, 1), et donc Z de loi du χ21 .

2
En revenant à l’exemple précédent, avec p = 1/2, on obtient :

L 1
n X n (1 − X n ) − 1/4 −→ − χ21 .
n→+∞ 4
c Michel CARBON
c Michel CARBON
Chapitre 7
Modèles Statistiques
Pour être intéressant, un fait mathématique doit avant tout être beau.
S. Mandelbrojt
7.1 Introduction
On peut définir la statistique comme l’ensemble des méthodes qui permet, à partir
de l’observation d’un certain phénomène aléatoire d’obtenir des informations sur la
probabilité associée à ce phénomène. Le caractère aléatoire attribué au phénomène
considéré n’est souvent qu’une manière de traduire l’ignorance de toutes les lois qui
le régissent. Aussi une étude préliminaire, ne tenant compte que des observations
effectuées, peut se révéler intéressante. C’est l’objet de l’analyse des données.
L’analyse des données explore et analyse les données sans hypothèse probabiliste
aucune. Son principal but est d’organiser les données pour permettre de clarifier
la structure sous jacente, donc de faire apparaître les paramètres dominants parmi
ceux dont dépendent les observations.
Il y a une autre ligne d’approche : "l’inférence statistique et la théorie de la
décision". On suppose cette fois que les observations sont des réalisations de variables
aléatoires, qui sont supposées suivre une certaine loi de probabilité P , probabilité
appartenant à une classe P de probabilités. Souvent, on indexera les probabilités par
un paramètre θ (pas nécessairement réel), prenant ses valeurs dans un ensemble Θ, tel
que : P = {Pθ ; θ ∈ Θ} . Le but de l’analyse est de trouver une valeur ”plausible” pour
θ (problème de l’estimation ponctuelle), ou au moins de déterminer un sous-ensemble
Θ0 de Θ dans lequel se trouve "raisonnablement" θ (problème de l’estimation par
intervalles de confiance, ou tests d’hypothèse).
Dans l’approche bayésienne, on suppose de plus que le paramètre θ est lui-même
une variable aléatoire (bien qu’inobservable) de loi connue. Cette loi a priori, que
l’on pourrait traduire par la connaissance préliminaire que l’on a du problème, est
139
140 CHAPITRE 7. MODÈLES STATISTIQUES
modifiée à la lumière des données pour déterminer une loi a posteriori (la loi condi-
tionnelle de θ sachant les données), loi qui résume à la fois ce que l’on peut dire de
θ à partir des hypothèses a priori, et ce qu’apportent les données.
Qu’allons-nous examiner à partir de maintenant ?
Nous ne nous intéresserons ici essentiellement qu’à l’inférence statistique et la
théorie de la décision. On est donc dans le cadre de la Statistique Mathématique,
c’est-à-dire de la statistique théorique basée sur la théorie des probabilités, et, en
partie, sur la théorie de la décision.
7.2 Exemples de problèmes de statistique

7.2.1 Le contrôle de qualité
Un industriel reçoit un lot d’objets contenant une proportion inconnue d’objets
défectueux. Le nombre d’objets étant supposé assez grand, la vérification ne peut
s’effectuer qu’en prélevant un échantillon d’objets du lot en question. Au vu du
nombre d’objets défectueux de l’échantillon, l’industriel acceptera ou rejettera le
lot. Plusieurs modèles probabilistes peuvent être associés à ce problème :
1. Soit E le lot d’objets, Ω l’ensemble des parties de E à r éléments, X la v.a.r.
”nombre d’objets défectueux parmi les objets tirés dans l’échantillon”. On sait
que X suit une loi hypergéométrique de paramètres n, n1 et r où n = card
E, n1 est le nombre d’objets défectueux :
r−x
Cnx1 Cn−n 1
P (X = x) = ; x ≤ r; x ≤ n1 ; r − x ≤ n − n1 .
Cnr
2. Si n et n1 sont grands par rapport à r, on peut utiliser l’approximation
binomiale et supposer que X suit la loi B (r, p) . Cela vient du fait que, lorsque
n1
n −→ ∞, et −→ p > 0, on a :
n
L
H (n, n1 , r) −→ B (r, p) .
3. Si r est grand par rapport à p, on peut supposer que X suit la loi de Poisson
P (λ) où λ = rp. Cela vient du fait que :
L
B (r, p) −→ P (λ) ,
quand r −→ ∞, avec rp −→ λ > 0.

Comme n1 est inconnu, les paramètres des lois précédentes le sont aussi. On
est donc amené à considérer le triplet (N, P (N) , H) où H est l’ensemble des lois
hypergéométriques de paramètres (n, n1 , r) , avec n et r fixés, et n1 ∈ N∗ .
n1
On pose = p, et on se fixe une proportion po d’objets défectueux au-delà de
n
laquelle le lot sera refusé. Il s’agit donc de déterminer, au vu des r objets tirés, si
p > po ou si p ≤ po , ce qui permettra d’accepter, ou de rejeter le lot. Il s’agit d’un
problème de test (on "teste" la qualité du lot).
c Michel CARBON
7.2 Exemples de problèmes de statistique 141
Le choix d’un critère de décision est alors basé sur le fait que l’on peut commettre
deux sortes d’erreurs : accepter un mauvais lot alors qu’il est correct ou rejeter un
bon lot alors qu’il est mauvais. On cherche donc à minimiser ces erreurs dans la
mesure du possible.
7.2.2 Erreurs de mesure

Un physicien mesure une grandeur réelle un certain nombre de fois. Les valeurs
trouvées ne sont pas exactes, car entachées d’erreurs de mesure. Le problème est
donc d’admettre une valeur pour la grandeur mesurée.
Pour construire le modèle probabiliste associé, on fait en général l’hypothèse
suivante : les erreurs de mesure ont des causes extrêmement variées (manque de pré-
cision ou de fiabilité de l’instrument, erreur de lecture de l’expérimentateur, etc...).
On peut admettre, en première approximation que ces causes sont indépendantes
les unes des autres.
Le théorème central limite permet alors d’affirmer que cette erreur suit une loi
normale. De plus, des raisons de symétrie permettent souvent de supposer que les
mesures effectuées ont pour espérance la vraie valeur de la grandeur considérée. On
peut donc associer à n observations indépendantes de cette grandeur, le triplet
⊗n
Rn , BRn , N m, σ 2 ; m, σ 2 ∈ R × R∗+

Il s’agit alors de déterminer m d’une façon aussi précise que possible : c’est un
problème d’estimation.
7.2.3 Filtrage
Un économiste observe l’évolution du prix d’un certain produit sur l’intervalle
de temps [t1 , t2 ] ; il cherche à prévoir le prix de ce produit au temps t3 (> t2 ). Ce
phénomène aléatoire peut se modéliser de la façon suivante : on se donne une famille
(ξt , t > t1 ) de variables aléatoires réelles où ξt représente le prix du produit à l’instant
t. Il s’agit donc, au vu des réalisations des v.a. ξt , t1 6 t 6 t2 , de prédire le mieux
possible la valeur de ξt3 . Si les lois des v.a.r. ξt ont des corrélations non entièrement
connues, ce problème de prédiction relève de la statistique.
Le problème de l’interpolation est de nature analogue. Il s’agit de déterminer le

mieux possible ξt0 au vu des ξt où t ∈ [t1 , t2 ] ∪ [t3 , t4 ] avec t2 < t0 < t3 .
La prédiction et l’interpolation sont deux cas particuliers du problème général de
filtrage, c’est-à-dire du problème de l’estimation d’une v.a. non observée Y à partir
d’une variable observée X.
7.2.4 Intervalles de confiance

On considère une expérience aléatoire à 2 issues (0 et 1) que l’on répète n fois
d’une façon indépendante. On cherche à estimer la loi de cette expérience (i.e. la loi
Pp sur {0, 1} associée) ; pour cela il suffit d’estimer p = Pp ({1}).
c Michel CARBON
Le modèle associé s’écrit {0, 1}n , P ({0, 1}n ) , Pp⊗n ; p ∈ ]0, 1[ et une manière

Nn (ω)
naturelle d’estimer p est d’utiliser : , où Nn (ω) désigne le nombre de 1 figurant
n
dans ω.
Pour déterminer la précision de cette estimation, on peut évaluer :

⊗n Nn

α = sup Pp n − p > ε .

o<p<1
Nn
On dit alors, qu’avec une confiance (1 − α) , est un estimateur de p à ε près, ou
n
Nn Nn
encore que p appartient à l’intervalle de confiance − ε; + ε au niveau de
n n
confiance 1 − α.
Pour le calcul de α, on peut, lorsque n est grand, utiliser l’approximation normale
Nn − np
de Nn , convenablement centrée réduite, c’est-à-dire en écrivant que : p
np(1 − p)
suit une loi normale N (0; 1).
Pour cela, on écrit :
√ !
⊗n Nn |Nn − np| nε
= Pp⊗n

Pp n − p > ε >p
p
np (1 − p) p (1 − p)
!
|Nn − np| √
6 Pp⊗n p > 2 nε
np (1 − p)
Z +∞
2 2 /2
v √ √
e−x dx.
2π 2 nε
7.2.5 Tests d’homogénéité

Un médecin veut tester un médicament ; pour cela il choisit un premier groupe
de malades à qui le médicament est administré, un second groupe est constitué par
des malades qui reçoivent un placebo. Soit Xi une v.a.r associée au i-ième malade du
premier groupe et qui traduit le résultat obtenu : guérison, amélioration, aggravation,
état stationnaire, etc. . . D’une manière analogue, on définit la variable Yj associée
au j-ième malade du deuxième groupe.
Le problème de test peut alors se formuler de la façon suivante : soit P1 la loi
commune des Xi et soit P2 la loi commune des Yj . A-t-on P1 = P2 ? C’est un test
dit d’homogénéité.
7.3 Modèles statistiques

7.3.1 Principes et définition
Si on imagine un phénomène réel complexe, l’esprit humain ne peut le conceptua-
liser dans sa globalité, c’est-à-dire n’est pas capable de prendre en compte tous les
c Michel CARBON
7.3 Modèles statistiques 143
facteurs intervenant dans le phénomène étudié. Il est donc nécessaire de construire

un résumé de cette réalité complexe permettant d’étudier, de modéliser au mieux
le phénomène. Ce résumé sera nécessairement partiel. Il ne fera apparaître que les
caractéristiques essentielles du phénomène.
Définition 7.3.1 On appelle modèle statistique tout triplet (X , A, P) où :

- X est un ensemble appelé espace des observations ;
- A est une tribu sur X ;
- P une famille de probabilités sur l’espace mesurable (X , A).
Cas particulier :
Définition 7.3.2 On appelle modèle statistique paramétrique, un modèle statistique

(X , A, P) tel que : P = {Pθ ; θ ∈ Θ} ,où Θ ⊂ Rp . L’espace Θ est appelé espace des
paramètres.
7.3.2 Statistique
Définition 7.3.3 Soit (X , A, P) un modèle statistique. On appelle statistique S,
définie sur (X , A) à valeurs dans (X 0 , A0 ) , toute application mesurable de (X , A)
dans (X 0 , A0 ) , c’est-à-dire telle que :
∀ B ∈ A0 , S −1 (B) ∈ A .
Remarque : il faut bien noter cependant qu’une statistique ne dépend pas de

P ∈ P . Ce qui distingue une variable aléatoire X d’une statistique S, c’est que la
variable aléatoire X est définie sur un espace probabilisé (X , A, P ) où P est unique,
mais que S est définie sur l’espace probabilisable (X , A) auquel on associe non pas
une probabilité, mais toute une famille P de probabilités.
On peut alors transposer certaines définitions concernant les variables aléatoires
aux statistiques.
Définition 7.3.4 Deux statistiques S1 et S2 sont dites indépendantes si l’on a :

∀P ∈ P , S1 et S2 sont P -indépendantes.
7.3.3 Modèle d’échantillonnage

Supposons que l’expérience aléatoire consiste à effectuer n expériences identiques
et indépendantes.
Supposons
que le modèle statistique, dans le cas d’une seule ob-
servation soit Y, B, P e . Alors, pour l’expérience aléatoire ci-dessus, le modèle sta-
⊗n
tistique (X , A, P) sera (Y n , B ⊗n , P ⊗n ) ; P ∈ P
e , noté usuellement : Y, B, P
e .
Si les lois de P
e sont de densité f , alors les lois de P sont de densité h où :
h (y1 , y2 , · · · , yn ) = f (y1 ) × ... × f (yn )
c Michel CARBON
Exemple 7.3.1 : Si y1 , · · · , yn sont des observations indépendantes ”issues” d’une

loi normale N (m, σ 2 ), où m et σ 2 sont inconnus, le modèle est paramétrique ; Θ =
R × R+ et la loi de l’observation y = (y1 , ..., yn ) appartient à l’ensemble des lois
normales sur (X , A) = (Rn , BRn ) de densités :
" 2 #
1 1 y 1 − m
∀ y ∈ Rn , h (y) = √ exp −
2πσ 2 σ
" 2 #
1 1 yn − m
×... × √ exp −
2πσ 2 σ
" n
#
2
1 1 X yi − m
= exp − .
(2π)n/2 σ n 2 i=1 σ
7.4 Modèles réguliers. Modèles homogènes

Si toutes les lois de la famille P sont à densité, alors la famille de lois P est
définie par une famille de densités.
Néanmoins dans le cas discret, par abus de langage, on peut aussi appeler densité
les fonctions de masse.
Exemple 7.4.1 : Soit x = (x1 , ..., xn ) un échantillon tiré d’une loi de Poisson de
paramètre λ ∈ R∗+ . La loi de l’observation est donc une loi P (λ) de paramètre λ sur
Rn , dont le support est Nn . La loi P (λ) a donc une densité hλ définie par :
n
P
n xi
xi

n
Y λ −nλ λi=1
∀x ∈ IN , hλ (x) = exp (−λ) =e n .
xi ! Q
i=1 (xi !)
i=1
On aura besoin dans la suite de la notion de modèle régulier.
Définition 7.4.1 Un modèle paramétrique est régulier si ou bien les lois Pθ sont
toutes absolument continues de densités pθ (x) = pθ (x1 , x2 , · · · , xn ), ou bien elles
sont toutes discrètes de fonction de masse pθ (x) = pθ (x1 , x2 , · · · , xn ).
Définition 7.4.2 Dans le cas d’un modèle paramétrique régulier, étant donné une
observation x, la fonction :

 fθ (x) si les lois Pθ sont à densité
l (x; θ) = lθ (x) =
pθ (x) si les lois Pθ sont discrètes

s’appelle la fonction de vraisemblance.
Exemple 7.4.2 : Dans l’exemple précédent, x = (x1 , ..., xn ) étant une observation
donnée, sa fonction de vraisemblance est l’application : λ → hλ (x) .
c Michel CARBON
7.5 Deux classes importantes de modèles. 145
On peut souvent considérer que le support de la distribution étudiée est connu

a priori. Dans ce cas, les lois de la famille P auront même support. Ceci conduit à
la notion de modèle homogène.
Définition 7.4.3 Un modèle régulier (X , A, P) est dit homogène si toutes les den-
sités (au sens large) sont strictement positives sur le même support.
Exemple 7.4.3 : Dans l’exemple ci-dessus, si on suppose λ ∈ R∗+ , le modèle associé
est homogène, car hλ est strictement positive sur Nn pour tout λ ∈ R∗+ .
On supposera souvent les conditions suivantes réalisées :
(i) Le modèle est identifiable : si θ1 6= θ2 , alors Pθ1 6= Pθ2 .
(ii) L’espace des paramètres contient au moins un intervalle dans le cas unidi-
mensionnel, ou un hypercube dans le cas multidimensionnel.
(iii) La fonction θ −→ Pθ est continue. Si donc (θn )n∈N∗ est une suite de Θ, et si
L
lim θn = θ∗ , alors Pθn −→ Pθ∗ .
n→+∞
(iv) Le modèle est régulier au sens de la définition (7.4.3).
7.5 Deux classes importantes de modèles.

7.5.1 Le modèle linéaire
Les observations sont indépendantes, mais leur loi diffère d’un paramètre de
centrage. Plus précisément, ces observations sont de la forme :
xi = ai + bui ; i = 1, ..., n,
où u1 , ..., un sont indépendantes et de même loi (on suppose souvent que cette loi est
normale). De plus, le vecteur (a1 , ..., an )t = a appartient à un sous-ensemble de di-
mension s < n, c’est-à-dire que ses composantes satisfont à un ensemble d’équations
linéaires : s
X
ai = αir βr , i = 1, ..., n.
r=1
Si les u1 , ...un sont indépendantes et de loi N (0, 1) , la loi de l’observation est de

densité : " #
n
1 1 X
n exp − 2 (xi − ai )2 ,
(2π) 2 bn 2b i=1
où a = (a1 , ..., an ) t est dans un sous-espace L de Rn .

Exemples :
1. On teste trois traitements différents sur trois groupes de 10 malades ; les
réponses à ces traitements sont des observations {xij ; 1 6 i 6 3, 1 6 j 6 10}.
On considère que les xij sont indépendantes et de loi N (ξi ; σ 2 ). Le vecteur
ξ = (ξ1 , ..., ξ1 , ξ2 , ...ξ2 , ξ3 , ..., ξ3 )t s’écrit :
ξ = ξ1 (1, ..., 1, 0, ..., 0, 0, ..., 0)t + ξ2 (0, ..., 0, 1, ..., 1, 0, ..., 0)t
+ξ3 (0, ..., 0, 0, ..., 0, 1, ..., 1)t ,
c Michel CARBON
et appartient donc à un sous-espace de dimension 3 de R30 .

2. n personnes doivent apprendre un groupe de mots ; xi est le nombre de mots
appris par la i-ème personne et ti est le temps consacré à l’apprentissage.
On peut considérer par exemple, pour modéliser cette expérience, que les xi
sont des observations indépendantes de loi N (α + βti + γt2i , σ 2 ). Les temps
d’apprentissage étant supposés connus, et les coefficients α, β et γ inconnus, le
vecteur moyenne de ce modèle est dans le sous-espace vectoriel de Rn engendré
t
par : (1, .., 1)t , (t1 , ..., tn )t , (t21 , ..., t2n ) , de dimension 3 (en général !).
3. On peut, dans l’exemple précédent, considérer plusieurs groupes de personnes
soumises au test de lecture. On obtient ainsi un modèle linéaire qui combine
les modèles 1 et 2 précédents. Les observations xij sont indépendantes et
de lois N αj + βj tij + γj t2ij , σ 2 , où j est l’indice du groupe et i l’indice de
la ième personne du j−ième groupe. En supposant par exemple qu’il y a
quatre groupes connus (j = 1, 2, 3, 4), le vecteur moyenne est dans un s.e.v.
de dimension 12.
4. Soit X = (X1 , ..., Xn )t un vecteur gaussien de loi N (ξ, σ 2 .Id ) , où le vecteur
ξ = (ξ1 , ..., ξn )t appartient à un sous-espace L de dimension s de Rn . Une
réalisation d’un tel vecteur, X (ω), constitue l’observation x dans un modèle
linéaire gaussien. On va utiliser les propriétés des vecteurs gaussiens pour se
ramener à une forme intéressante.
Soit C une matrice orthogonale dont les s premières lignes constituent une
base orthonormée de L ; on pose Y = CX. Alors Y est un vecteur gaussien de
moyenne η = Cξ et de matrice de variances-covariances σ 2 .Id . D’autre part
ξ ∈ L, donc est orthogonal aux n − s dernières colonnes de C. Le vecteur
η = (η1 , ..., ηn )t a donc ses n − s composantes nulles : ηs+1 = ... = ηn = 0.
Alors Y = (Y1 , ..., Yn )t est donc un vecteur gaussien de loi N (η; σ.2 Id) où
(η1 , ..., ηs ) ∈ IRs et ηs+1 = ... = ηn = 0. Le modèle linéaire y correspondant
est appelé modèle canonique.
7.5.2 Le modèle exponentiel.

Définition
Définition 7.5.1 Une famille {Pθ ; θ ∈ Θ} de lois sur un espace d’observations (X , A)

est appelée famille exponentielle (on parlera alors de modèle exponentiel) si ses lois
Pθ ont des densités sur (X , A), de la forme :
" s
#
X
fθ (x) = exp ηi (θ) Ti (x) − B (θ) · h (x) , (7.1)
i=1
où les ηi et B sont des fonctions réelles définies sur Θ, où les Ti sont des fonctions
réelles de l’observation x, et où h est une fonction positive de l’observation x. T =
(T1 , ..., Ts )t s’appelle la statistique privilégiée du modèle.
c Michel CARBON
Souvent, au lieu d’utiliser θ, il est plus commode d’utiliser les ηi comme para-
mètres, et d’écrire la densité sous la forme canonique :
" s #
X
fη (x) = exp ηi Ti (x) − A (η) · h (x) . (7.2)
i=1
Exemple : Supposons que l’on fasse une seule observation x d’une v.a.r. suivant
une loi gamma Γ (b, p) , avec b > 0 et p > 0. La densité est :
bp
fb,p (x) = .xp−1 e−bx 11IR+∗ (x) ,
Γ (p)
ce qui s’écrit :
fb,p (x) = exp [(p − 1) ln x − bx − (ln Γ (p) − p ln b)] 11IR+∗ (x) ,
donc ici
η1 (b, p) = p − 1, η2 (b, p) = −b,
T1 (x) = ln x, T2 (x) = x,
B (b, p) = ln Γ (p) − p ln b,
h (x) = 11IR+∗ (x) ,
et fb,p (x) s’écrit sous la forme (14.6). Si on fait un changement de paramétrage, on
obtient : " 2 #
X
fb,p (x) = fη1 , η2 (x) = exp ηi Ti (x) − A(η1 , η2 ) · h(x),
i=1
avec
A(η1 , η2 ) = ln (Γ (η1 + 1)) − (η1 + 1) ln (−η2 ) .
Remarques :
∗ La forme (14.10) n’est pas unique. On peut, par exemple, multiplier les ηi par
C (6= 0) et en même temps remplacer Ti par C −1 Ti .
∗ L’ensemble des points η = (η1 , ..., ηs )t pour lesquels fη (x) est une densité de
probabilité est appelé l’espace naturel des paramètres, noté H. De plus, cet
espace est convexe (voir ci-dessous).
∗ Si les statistiques T1 , ..., Ts satisfont une contrainte linéaire, le nombre s peut
alors être réduit.
∗ Une réduction est toujours possible quand les ηi satisfont une relation linéaire.
Dans ce cas, l’espace naturel des paramètres est un convexe d’un sous-espace
vectoriel de dimension inférieure à s.
On peut toujours, sans perte de généralité, supposer que la représentation
(14.10) précédente est minimale, au sens où, ni les Ti , ni les ηi ne satisfont
une contrainte linéaire. L’espace naturel des paramètres sera alors un convexe
d’un espace de dimension s contenant un s−hypercube ouvert. Si (14.10) est
minimale, et si l’espace des paramètres H contient un s−hypercube ouvert,
la famille est alors dite de plein rang.
c Michel CARBON
On peut vérifier que H est convexe. H est l’ensemble des paramètres η pour
lesquels fη est une densité, c’est-à-dire tel que exp [< η, T (x) >] est intégrable.
Soient η1 et η2 dans H. On veut montrer que : ∀α ∈ ]0; 1[ , alors : η = αη1 +
(1 − α) η2 ∈ H . Pour montrer cela, on va utiliser l’inégalité de Hölder pour les
intégrales :
Z Z p1 Z 1q
p
fg≤ f gq
1 1
avec + = 1.
p q
Montrons que fη est intégrable ; on a :
Z Z
−1
exp [A(η)] (h(x)) fη (x) dx = exp [hη, T (x)i] dx
X X
où : " #
s
X
fη (x) = exp ηi Ti (x) − A (η) · h (x) .
i=1
R
= exp [hαη1 + (1 − α) η2 , T (x)i] dx
X
(exp [hη1 , T (x)i])α (exp [hη2 , T (x)i])1−α dx
R
=
X
α 1−α
R R
≤ exp [hη1 , T (x)i] dx exp [hη2 , T (x)i] dx
X X
1 1
grâce à l’inégalité de Hölder avec p = et q = .
α 1−α
D’ où :
 α  1−α
Z Z Z
fη (x) dx ≤  fη1 (x) dx  fη2 (x) dx < +∞
X X X
car η1 et η2 sont dans H.

Donc fη est intégrable et H est convexe.
Propriétés
Propriété 7.5.1 Si x1 , ..., xn sont des observations indépendantes réelles dont la loi
appartient à une famille exponentielle, alors la loi de x = (x1 , ..., xn )t est encore de
type exponentiel.
Preuve : La loi de chaque xi est définie par une densité de la forme (14.6), donc
la loi de (x1 , ..., xn ) a pour densité :
n
( " s # )
Y X
fθ (x1 ) × ... × fθ (xn ) = exp ηj (θ) Tj (xi ) − B (θ) h (xi )
i=1 j=1
c Michel CARBON
" s n
#
X X
= exp ηj (θ) Tj (xi ) − nB (θ) × h (x1 ) × ... × h (xn )
j=1 i=1
" s
#
X
= exp ηj (θ) Tj∗ (x) − B ∗ (θ) h∗ (x) ,
j=1
où
n
X
Tj∗ (x) = Tj (xi ) , B ∗ (θ) = nB (θ) ,
i=1
n
Y
h∗ (x) = h (xi ) , x = (x1 , ..., xn )t .
i=1
Donc, pour vérifier qu’un modèle d’échantillonnage est exponentiel, il suffit de

vérifier que le modèle formé par une seule observation est exponentiel.
On admettra le théorème suivant dont la démonstration nécessite le théorème de
convergence dominé de Lebesgue.
Théorème 7.5.1 A (η) est indéfiniment dérivable.
Application : Grâce au théorème précédent,

Z " s #
X
exp ηi Ti (x) h(x) dx = exp [A (η)]
X i=1
peut se dériver par rapport aux ηi (en permutant dérivation et intégration) :

Z " s #
∂ X ∂
exp ηi Ti (x) h(x) dx = exp [A (η)] .
∂ηi X i=1
∂η i
Soit : Z " s #
∂ X ∂
exp ηi Ti (x) h(x) dx = A (η) · exp [A (η)] ,
X ∂ηi i=1
∂ηi
ou " #
Z s
X ∂
Ti (x) exp ηi Ti (x) − A (η) h(x) dx = A (η) .
X i=1
∂ηi
Et ainsi :
∂
A (η) = Eη (Ti ) .
∂ηi
Donc :
Eη (T ) = grad [A (η)] .
Redifférencions par rapport à ηj ; on a successivement :
" s #
∂2
Z
∂ X
Ti (x) exp ηi Ti (x) − A (η) h(x) dx = A (η) ,
∂ηj X i=1
∂ηj ∂ηi
c Michel CARBON
ou " s #
∂2
Z
∂ X
Ti (x) exp ηi Ti (x) − A (η) h(x) dx = A (η) .
X ∂ηj i=1
∂η j ∂η i
Soit :
Z " s #
∂ X
Tj (x) − A (η) Ti (x) exp ηi Ti (x) − A (η) h(x) dx
X ∂ηj i=1
∂2
= A (η) ,
∂ηj ∂ηi
ou
Z " s
#
X
Tj (x) Ti (x) exp ηi Ti (x) − A (η) h(x) dx
X i=1
Z " s
#
∂ X
− A (η) Ti (x) exp ηi Ti (x) − A (η) dx
∂ηj X i=1
∂2
= A (η) .
∂ηj ∂ηi
D’où :
∂2
E (Tj Ti ) − E (Tj ) E (Ti ) = A (η) .
∂ηj ∂ηi
Soit :
∂2
covη (Tj , Ti ) = A (η) .
∂ηj ∂ηi
On résume tout cela dans le corollaire ci-dessous :
Corollaire 7.5.1 Dans le modèle exponentiel défini en (14.10), on a :
∂
A (η) = Eη (Ti ) ;
∂ηi
∂2
varη (Ti ) = A(η) ;
∂ηi2
∂2
covη (Tj , Ti ) = A (η) .
∂ηj ∂ηi
2
Exemple : Soit x une observation ”extraite” d’une
loi normale N (m, σ ). La
m
densité de l’observation x dépend du paramètre = θ, où le paramètre
σ2
c Michel CARBON
(m, σ 2 ) ∈ Θ = R × R∗+ . Elle vaut :

1 1 2
fθ (x) = √ exp − 2 (x − m)
σ 2π 2σ

1 1 2
= √ exp − 2 (x − m) − ln σ
2π 2σ
x2 m2

1 xm
= √ exp − 2 + 2 − 2 − ln σ .
2π 2σ σ 2σ
Ici : m 
2 x
η (m, σ) =  σ 1  , T (x) = .
− 2 x2
2σ
La statistique privilégiée de ce modèle exponentiel est :
T (x) = (T1 (x) , T2 (x))t où T1 (x) = x et T2 (x) = x2 .
Si x = (x1 , ..., xn )t est un n−échantillon ”extrait” d’une loi N (m, σ 2 ) , la statis-

tique privilégiée du modèle exponentiel produit est :
 Pn 
xi
T ∗ (x) =  P
 i=1 
n .
x2i
i=1

m η1
On peut considérer que le paramètre naturel n’est plus θ = , mais η = ,
σ2 η2
m 1
avec η1 = 2 et η2 = − 2 . La densité s’écrit alors :
σ 2σ
1
fη (x) = √ exp η1 x + η2 x2 − A (η) ,

2π
où r
m2 η2 1
A (η) = 2 + ln σ = − 1 + ln − .
2σ 4η2 2η2
On a de plus :
∂ η1 1 m
−2σ 2 = m,

E (X) = E (T1 ) = A (η) = − =− 2
∂η1 2η2 2 σ
2
∂ 1
V (X) = V (T1 ) = 2 (A (η)) = − = σ2 ,
∂η1 2η2
η12

2 ∂ 1 −2
= m2 + σ 2 .

E X = E (T2 ) = A (η) = 2 −
∂η2 4η2 2 −2η2
c Michel CARBON
7.6 Notions sur la théorie de la décision

7.6.1 Introduction
L’étude d’un phénomène réel se traduit en général par un certain nombre de
questions auxquelles le statisticien est confronté. Considérons l’exemple de l’étude
sur le marché de l’acquisition d’une chaîne cryptée. On peut alors se poser diverses
questions :
* Quelle valeur approchée peut-on proposer pour la proportion pt de ménages

possédant la chaîne cryptée en question, à la date t ? C’est un problème d’estimation
ponctuelle.
* Il peut paraître préférable, au lieu d’estimer pt , de déterminer toute une

plage de valeurs ”raisonnables” pour pt . Cette recherche d’une fourchette de valeurs
s’appelle un problème d’estimation ensembliste ou problème de région de confiance.
* Une autre question qu’on pourrait se poser est la suivante : est-ce que le
nombre d’abonnés durant l’année t est supérieur à celui de l’année précédente t − 1 ?
C’est un exemple de problème de test.
* On pourrait aussi s’interroger sur le fait suivant : est-ce que l’étude de pt

pour t = 1, . . . , T permet de pronostiquer la valeur de pT +1 ? C’est un problème de
prévision.
La logique du processus de la prise de décision peut se résumer en six étapes :
(i) Le problème posé.
(ii) Spécification de toutes les décisions possibles pour le problème posé. On

notera D l’ensemble de toutes les décisions possibles, ensemble supposé de cardinal
au moins égal à deux.
(iii) Enumération de tous les événements qui peuvent se produire.
(iv) Examen, pour chaque décision et chaque événement, des conséquences pos-
sibles.
(v) Classement des décisions par ordre de préférence selon un critère à déterminer.
(vi) Choix de la décision finale, qui est la ”meilleure” décision au sens du critère
retenu.
On va tenter de formaliser tous ces problèmes grâce à la théorie de la décision

(A. Wald [1950], Statistical decision functions, Wiley).
c Michel CARBON
7.6 Notions sur la théorie de la décision 153
7.6.2 Espace des décisions

Un problème statistique peut être considéré comme un problème de choix entre
diverses réponses possibles. On appellera décision une telle réponse. On notera d une
décision et D l’espace de toutes les décisions.
Exemple 7.6.1 (estimation ponctuelle). Un paramètre peut être défini par l’inter-
médiaire d’une application g de P sur G, qui, à une loi donnée P de P, associe une
valeur du paramètre. La vraie valeur g0 correspond à la vraie loi P0 de P. Il s’agit de
proposer une valeur approchée de la vraie valeur inconnue g0 . Les réponses possibles
sont les éléments de D = G. L’espace des décisions est ici confondu avec l’espace
des paramètres.
Exemple 7.6.2 (estimation ensembliste). On propose ici un ensemble de valeurs

approchées pour g0 . Une réponse est une partie de G. L’espace des décisions est alors
l’ensemble des parties de G.
Exemple 7.6.3 (test d’une hypothèse concernant P0 ). Ayant fait une hypothèse
sur P0 , on considère qu’il y a deux réponses possibles :
d0 : ”je pense que l’hypothèse est vraie”

d1 : ”je pense que l’hypothèse est fausse”.
L’ensemble des décisions est alors : D = {d0 , d1 }. Parfois, on étend cet espace des
décisions à une troisième réponse possible :
d2 : ”je ne peux me prononcer”

d02 : ”il est nécessaire que je collecte plus de données pour pouvoir répondre”.
Exemple 7.6.4 (choix de modèles). On est parfois amené à choisir entre plusieurs
modèles concurrentiels (X , A, Pk ) pour k = 1, . . . , K, avec Pl ∩ Pm = ∅ pour tout l
et m distincts de {1, . . . , K} . Plusieurs réponses sont alors possibles :
dk : ”je pense que le modèle (X , A, Pk ) est le plus adapté pour décrire les obser-
vations”.
L’espace des décisions est : D = {d1 , . . . , dk } .
7.6.3 Règles de décision pures

Á partir des observations, le statisticien doit fournir une réponse au problème
posé. Il faut donc qu’il soit capable, pour chaque observation x ∈ X , de lui associer
une réponse δ(x) ∈ D.
Définition 7.6.1 Une règle de décision pure est une application mesurable δ de
(X , A) à valeurs dans (D, D) . On notera ∆ l’ensemble des règles de décisions.
c Michel CARBON
Une règle de décision δ fournit une manière de décider pour chaque observation
x de X . Suivant les problèmes statistiques étudiés, on a l’habitude de donner des
noms particuliers aux règles de décision associées. Ceci est résumé dans le tableau
ci-dessous :
Problème δ δ(x)
Estimation ponctuelle Estimateur Estimation
Estimation ensembliste Région de confiance Une région bien précise
Test Test Résultat du test
Choix de modèles Critère Un modèle bien précis
Prévision Prédicteur Prévision (ou prédiction)
Exemple 7.6.5 (problème de la chaîne cryptée). Supposons que l’on ait tiré de
façon équiprobable avec remise, à la date t, un échantillon de taille n, et observé les
réponses de chaque ménage interrogé :

1 si le ménage "i" a la chaîne cryptée
Xi =
0 sinon.
Le modèle statistique est :
X = {0, 1}n ; A ; P = B(1, pt )⊗n ; pt ∈ [0, 1] .

Si on s’intéresse à l’estimation de pt , l’espace des décisions est clairement : D =

[0, 1] . Une règle de décision (ou estimateur) associé est, par exemple, l’application
δ = pbt définie par :
x1 + · · · + xn
δ(x1 , . . . , xn ) = pbt (x1 , . . . , xn ) = = xn .
n
Exemple 7.6.6 . Considérons le problème du test de l’hypothèse "plus de 10 % des
ménages ont la chaîne cryptée". Cette hypothèse peut se traduire mathématiquement
par :
“ pt ∈ G0 =]0, 1; 1] ”, ou “ pt > 0, 1 ”.
Une règle de décision (ou test) pourrait être : penser que l’hypothèse est vraie si
pbt > 0, 1, et penser qu’elle est fausse sinon. La règle de décision (ou test) associée
est l’application δ qui, à (x1 , . . . , xn ) associe : VRAI ou FAUX. Donc, on a :
D = {VRAI, FAUX} ,

VRAI si xn > 0, 1
δ : (x1 , . . . , xn ) 7→
FAUX si xn ≤ 0, 1.
L’approche de la théorie de la décision statistique consiste à rechercher des règles

de décision. Il faut noter que la règle de décision, qui doit être connue dès que x
l’est, ne doit jamais dépendre de la loi P, car celle-ci est inconnue.
c Michel CARBON
7.6.4 Règles de décisions mixtes

Au lieu de proposer une seule réponse pour chaque observation, on peut, pour
étendre l’ensemble des comportements de réponse, avoir l’idée de faire correspondre
à chaque x une loi de probabilité sur l’espace des décisions (D, D) .
m
Définition 7.6.2 On appelle règle mixte une mesure de probabilité de transition
définie sur X × D, c’est-à-dire une application m : X × D −→ [0, 1] , B[0,1] telle
que :

(i) ∀D1 ∈ D , m(·, D1 ) : (X , A) −→ [0, 1] , B[0,1] est mesurable
(ii) ∀x ∈ X, m(x, ·) est une mesure de probabilités sur (D, D).
Notation : mx (D1 ) = m (x, D1 ) .
On notera ∆M l’ensemble des règles mixtes. Naturellement, une règle pure δ est
une règle mixte m particulière :
mx (D1 ) = 11D1 (δ (x)) ∀x ∈ X , ∀D1 ∈ D.
Une règle mixte s’interprète comme la probabilité de choisir une décision d dans
D lorsque l’observation est x.
Exemple : Après le cours de statistique, pour souffler un peu, on décide soit
d’aller au cinéma, soit d’aller au café prendre une consommation.
On peut, bien sûr, de jouer cela à pile ou face :
pile 7−→ cinéma
face 7−→ café.
Donc, ici, le problème décisionnel est tel que :
X = {pile, face} D = { aller
| au{zcinéma}, aller
| {z café} } .
au
d(1) d(2)
C’est une règle de décision pure δ :


 pile −7 → d1
δ:
face 7−→ d2 .

Mais on décide de corser un peu le problème, et de procéder comme suit :

(i) Si c’est "pile" qui sort, on lance un dé. Si le "1" ou le "2" sortent, on va au
cinéma ; sinon au café.
(ii) Si c’est "face" qui sort, on choisit au hasard un tiroir d’une commode (il y a
4 tiroirs) et dans l’un des tiroirs il y a une clé. Si on trouve la clé, on va au cinéma ;
sinon au café.
Donc, suivant x (pile ou face), on a une loi de probabilité sur les décisions :

1
 3 aller au cinéma (d1 )



pile 7−→

 2
 aller au café (d2 )

3
c Michel CARBON

1
 4 aller au cinéma (d1 )



face 7−→

 3
 aller au café (d2 ) .

4
On définit ainsi une règle mixte m (x, d) définie par :
1
m (pile, d1 ) =
3
2
m (pile, d2 ) =
3
1
m (face, d1 ) =
4
3
m (face, d2 ) = .
4
7.6.5 Classement des règles de décision

Pour guider son choix, le statisticien se donne un préordre (i.e. une relation
binaire réflexive et transitive) sur l’ensemble des règles de décisions. Un tel préordre
s’appelle une relation de préférence, et on la notera ≤; δ1 ≤ δ2 se lira ”δ1 est
préférable à δ2 ”.On dira que δ1 est strictement préférable à δ2 si :
δ1 ≤ δ2 et δ2 δ1 et on notera : δ1 < δ2 .
Il s’agit, pour le statisticien de choisir une ”bonne” décision au sens de la relation de

préférence considérée.
Fonction de perte
Plaçons-nous d’abord dans le cas d’un modèle paramétrique. Une manière com-
mode pour définir une relation de préférence sur l’ensemble des règles de décisions
est la suivante :
Définition 7.6.3 Θ étant muni d’une tribu T , on se donne une application mesu-
rable
L : (Θ × D, T ⊗ D) −→ R+ , BR+ ,

appelée fonction de perte ( ou fonction de coût).
Elle mesure la perte résultant de la décision d lorsque la vraie loi est Pθ . Bien
sûr, il existe pour un problème donné diverses fonctions de pertes possibles.
Exemple 7.6.7 (estimation ponctuelle). Soit (X , A, (Pθ )θ∈Θ ) un modèle paramé-

trique. Soit g une fonction scalaire définie sur Θ. Les réponses possibles sont les
éléments de G = g(Θ) ⊂ IR. Il semble naturel de prendre pour perte une mesure de
l’écart entre d et g(θ). La plus utilisée est la perte quadratique et est définie par :
L (θ, d) = [d − g(θ)]2 .
c Michel CARBON
Exemple 7.6.8 (test d’une hypothèse concernant θ). Supposons qu’une hypothèse
sur θ soit vérifiée si θ ∈ Θ0 , et qu’elle est fausse sinon. Notons d0 ”l’hypothèse est
vraie” et d1 ”l’hypothèse est fausse”. Une fonction de perte naturelle possible est :

0 si θ ∈ Θ0
L(θ, d0 ) =
a0 (θ) > 0 si θ∈/ Θ0

a1 (θ) > 0 si θ ∈ Θ0
L(θ, d1 ) =
0 si θ∈/ Θ0 .
Fonction de risque pour des règles de décisions pures

La perte moyenne est appelée fonction de risque.
Définition 7.6.4 On appelle fonction de risque R la fonction définie pour tout θ ∈

Θ et toute règle de décision pure δ ∈ ∆ par :
R(θ, δ) = Eθ [L(θ, δ(X))]
où X est une v.a.r. de loi Pθ .
Remarquons que R est à valeurs dans R+ ∪ {+∞} .
Classement des règles de décisions pures

La fonction de risque définie ci-dessus permet de définir une relation de préfé-
rence.
Définition 7.6.5 On dira que δ1 ≤ δ2 si :
∀θ ∈ Θ, R (θ, δ1 ) ≤ R (θ, δ2 ) . (7.3)
On dira que δ1 est strictement préférable à δ2 si (7.3 ) est vérifiée, et s’il existe
θ0 ∈ Θ tel que :
R(θ0 , δ1 ) < R(θ0 , δ2 ) .
Malheureusement, le préordre ainsi défini est partiel, car deux décisions telles
que : ∃θ1 et θ2 dans Θ tels que
R (θ1 , δ1 ) < R (θ1 , δ2 )
et
R (θ2 , δ1 ) < R (θ2 , δ2 )
ne sont pas comparables.
c Michel CARBON
Exemple 7.6.9 (estimation ponctuelle). Considérons l’estimation du paramètre

g(θ) ∈ G ⊂ IR, le risque associé à la perte quadratique, dit risque quadratique, est
donné par :
R(θ, δ) = Eθ ((δ(X) − g(θ))2 ).
Exemple 7.6.10 (test d’une hypothèse concernant θ). Avec les notations et les
hypothèses de l’exemple 7.6.8, le risque associé est :

a1 (θ) Pθ (δ(X) = d1 ) si θ ∈ Θ0
R(θ, δ(X)) =
a0 (θ) Pθ (δ(X) = d0 ) si θ∈/ Θ0 .
Ce qui fait apparaître les probabilités de fournir des réponses erronées :
* Probabilité de penser que l’hypothèse est fausse, alors qu’elle est vraie :
Pθ (δ(X) = d1 ) avec θ ∈ Θ0 .
* Probabilité de penser que l’hypothèse est vraie, alors qu’elle est fausse :
Pθ (δ(X) = d0 ) avec θ∈
/ Θ0 .
Remarque 7.6.1 : Si δ1 et δ2 sont deux règles de décision telles que
∀θ ∈ Θ, L (θ, δ1 (x)) ≤ L (θ, δ2 (x)) pour tout x ∈ X ,
alors :
R (θ, δ1 ) ≤ R (θ, δ2 ) .
et δ1 est préférable à δ2 .
Remarque 7.6.2 : Le choix de la meilleure décision possible au sens précédent,

revient donc à choisir la décision qui minimise la perte moyenne, quelle que soit la
valeur du paramètre θ ; une telle décision, si elle existe, est dite optimale.
Classement des règles de décisions mixtes

Le classement précédent peut se généraliser aux règles mixtes. Pour une règle
mixte m, mx définit une loi de probabilité sur (D, D), et la perte moyenne ou risque
en résultant, lorsque la vraie loi est Pθ , est :
Z Z
R(θ, m) = L(θ, d) dmx (d) dPθ (x).
X D
On intègre donc d’abord par rapport à la loi conditionnelle à X = x, puis par rapport
à la loi marginale de X.
Définition 7.6.6 La règle mixte m1 est préférable à la règle mixte m2 :
m1 ≤ m2 si R(θ, m1 ) ≤ R(θ, m2 ), ∀θ ∈ Θ .
La règle mixte m1 est strictement préférable à la règle mixte m2 si, de plus, il
existe θ0 ∈ Θ :
m1 < m2 si R(θ0 , m1 ) < R(θ0 , m2 ) .
Dans tous les cas de figure, le préordre défini est partiel. Certaines règles de
décision ne sont pas comparables.
c Michel CARBON
7.6.6 Problème de la réduction de ∆

Il n’existe malheureusement pas en général de règle optimale, c’est-à-dire de règle
préférable à toutes les autres.
Définition 7.6.7 Une règle δ ∈ ∆ est dite admissible s’il n’existe pas de règle qui
lui soit strictement préférable :
δ admissible ⇐⇒ @δ 0 tel que : δ 0 < δ.
Il est évident qu’il n’y a aucune raison pour que l’ensemble A des règles admissibles
soit réduit à un seul élément. Il va donc falloir, soit ajouter d’autres critères, soit
transformer le préordre partiel en préordre total.
Classes complètes
Définition 7.6.8 Une classe C de règles de décisions pures sera dite complète (res-
pectivement essentiellement complète) si pour tout δ ∈ ∆ − C, il existe δ ∗ ∈ C qui
est strictement préférable (respectivement préférable) à δ.
La solution d’un problème de décision doit donc être cherchée dans une classe
complète, ou, au moins, essentiellement complète.
Théorème 7.6.1 Soit A l’ensemble des règles admissibles, et soit C une classe com-
plète. On a alors : A ⊂ C.
Démonstration : Supposons A non inclus dans C. Donc il existerait une règle de

décision δ de A n’appartenant pas à C. Or δ ∈ / C, il existe une règle δ 0 ∈ C qui lui
soit strictement préférable : δ 0 < δ, ce qui est impossible puisque δ est admissible.
Remarque 7.6.3 Ainsi toutes les règles admissibles dans ∆ sont dans une classe
complète C, d’où l’intérêt de chercher une classe complète. Bien sûr, toute classe
complète peut contenir des règles non-admissibles.
Exemple 7.6.11 Soit

∆ = {δ1 , δ2 , δ3 } ,
avec
δ1 < δ2 < δ3 .
Alors la classe C = {δ1 , δ2 } est complète. La règle de décision δ2 n’est pas admissible
car δ1 < δ2 . Ici : A = {δ1 } .
Définition 7.6.9 On appelle classe complète minimale une classe complète telle que
toute sous-classe n’est pas complète.
Théorème 7.6.2 Si C est une classe minimale complète, alors C = A.
c Michel CARBON
Démonstration :
* C étant complète minimale, elle est complète, donc, grâce au théorème précé-
dent : A ⊂ C.
* Il reste à montrer que C ⊂ A. Montrons-le par l’absurde, en supposant que
C n’est pas inclus dans A. Alors il existerait une règle de décision δ ∈ C et δ ∈ / A.
0 0 0 0
Comme δ ∈ / A, alors il existe δ : δ < δ. De deux choses l’une, ou δ ∈ C ou δ ∈ / C.
- Si δ ∈ C, alors la classe C = C − {δ} est complète, puisqu’il existe δ 0 ∈ C
0 0
strictement préférable à δ (donc δ 0 ∈ C 0 ). Ce qui est contradictoire, car C est complète

minimale.
- Si δ 0 ∈
/ C, alors il existe δ 00 ∈ C qui soit strictement préférable à δ 0 :
δ 00 < δ 0 < δ.
Ainsi la classe C 0 = C −{δ} est complète puisqu’il existe δ 00 ∈ C strictement préférable
à δ. Ce qui est une nouvelle fois contradictoire avec le fait que C soit complète
minimale.
Les règles minimax

Le paragraphe précédent a permis de réduire la classe des règles de décision. Mais
la question reste de savoir : s’il y a plusieurs règles admissibles, laquelle choisir ? Le
critère minimax est un critère de choix complémentaire. Nous plaçant toujours dans
le cadre paramétrique, on notera :
R(δ) = sup R(θ, δ).
θ∈Θ
Définition 7.6.10 Une règle δm est minimax si :

R (δm ) ≤ R (δ) , ∀δ ∈ ∆,
ou bien :
R(δm ) = inf R(δ) = inf supR(θ, δ).
δ∈∆ δ∈∆ θ∈Θ
Utiliser le principe minimax est symptomatique d’une aversion pour le risque.
Exemple 7.6.12 Considérons le problème statistique décisionnel défini par :

{X = {0, 1} ; P ({0, 1}) ; B(1, θ), θ ∈ [0, 1]} ,
D = {d1 , d2 } ; D = P ({d1 , d2 }) .
Comme X et D ont chacun deux éléments, il y a 4 règles de décisions pures :
δ1 : décision d1 quel que soit le résultat de l’expérience,
δ2 : décision d1 si le résultat de l’expérience est 1, et d2 si le résultat est 0,
δ3 : décision d2 si le résultat de l’expérience est 1, et d1 si le résultat est 0,
δ4 : décision d2 quel que soit le résultat de l’expérience.
Ceci peut être schématisé par le diagramme ci-dessous ; si on représente d1 par %
et d2 par
c Michel CARBON
Enfin, considérons la fonction de perte suivante :
L(θ, d1 ) = θ
L(θ, d2 ) = 1 − θ.
* Déterminons les risques associés aux quatre règles précédentes :
R(θ, δ1 ) = E [L(θ, δ1 (X)]

= L(θ, d1 ) Pθ (δ1 (X) = d1 ) + L(θ, d2 ) Pθ (δ2 (X) = d2 )
= θ · 1 + (1 − θ) · 0
= θ
R(θ, δ2 ) = L(θ, d1 )Pθ (δ1 (X) = d1 ) + L(θ, d2 ) Pθ (δ2 (X) = d2 )

= θ · θ + (1 − θ) (1 − θ)
= 2θ2 − 2θ + 1
R(θ, δ3 ) = θ(1 − θ) + (1 − θ) θ = 2θ(1 − θ)
R(θ, δ4 ) = θ · 0 + (1 − θ) · 1 = 1 − θ.
Traçons les graphes de ces risques. Pour δ1 et δ4 , ce sont des droites ; pour δ2 et δ3 ,
ce sont des paraboles.
* On voit alors que l’ensemble des règles admissibles est :
A = {δ1 , δ3 , δ4 } .
En effet, δ2 n’est pas admissible car :
R(θ, δ3 ) ≤ R(θ, δ2 ), ∀θ ∈ Θ ,
(
1
et ∀θ 6= , R(θ, δ3 ) < R(θ, δ2 ); donc δ3 < δ2 .
2
Il est aisé de vérifier que C = {δ1 , δ3 , δ4 } est complète minimale. Donc C = A.

L’ensemble des règles admissibles n’est pas réduit à un point.
c Michel CARBON
Recherchons les ou la règle(s) minimax.
R(δ) = supθ∈[0,1] R(θ, δ)
R(δ1 ) = 1
R(δ2 ) = 1
1
R(δ3 ) =
2
R(δ4 ) = 1.
Donc la règle minimax est δ3 .
Méthodes bayésiennes
Le raisonnement bayésien est ici caractérisé par la prise en compte d’idées “ a
priori ”, subjectives ou non, sur l’espace des paramètres Θ.
Ces idées a priori sont supposées être contenues dans la donnée d’une loi de
probabilité définie sur (Θ, T ) . Donc ce principe consiste à admettre l’existence d’une
probabilité τ (appelée “ probabilité a priori ”) sur (Θ, T ), résumant l’information sur
θ autre que celle fournie par l’expérience aléatoire.
Le risque doit alors être intégré par rapport à τ .
Définition 7.6.11 La fonction de risque bayésienne rτ , associée à R, est l’espérance
c Michel CARBON
du risque R (θ, δ) par rapport à la loi a priori τ :

Z
∀δ ∈ ∆, rτ (δ) = R(θ, δ) dτ (θ).
Θ
Remarque 7.6.4 C’est aussi :

Z
rτ (δ) = R(θ, δ) dτ (θ) = Eτ [R (θ, δ)]
Θ
Z Z
= L (θ, δ (x)) dPθ (x) dτ (θ)
Θ X
= Eτ EPθ [L (θ, δ (X))] .
Cette expression a toujours un sens si on suppose, ce qu’on fera dans la suite, que
Pθ est une probabilité de transition sur A × Θ.
Définition 7.6.12 Une règle de décision pure δ0 est dite règle de Bayès associée à
la distribution a priori τ si :
rτ (δ0 ) ≤ rτ (δ), ∀δ ∈ ∆ ,
c’est-à-dire :
rτ (δ0 ) = inf rτ (δ) .
δ∈∆
Supposons que Pθ admette une densité par rapport à une mesure λ, σ-finie sur
(X , A), notée f (x, θ) et supposons f (·, ·) A ⊗ T -mesurable. Alors :
Z Z
rτ (δ) = L(θ, δ(x)) f (x, θ) dλ(x) dτ (θ)
Θ X
Z Z Z
= L(θ, δ(x)) t(x, θ) dτ (θ) f (x, θ) dτ (θ) dλ(x)
X Θ Θ
(en utilisant Fubini pour les fonctions positives) où t(·, θ) est définie Pθ presque
partout par : Z −1
t(x, θ) = f (x, θ) dτ (θ) f (x, θ).
Θ
Par exemple, supposons que la loi de X soit Pθ , la loi de θ soit τ , et que :
Pθ soit à densité f (x| θ) et τ soit à densité g (θ) .
Alors :
f (x| θ) g (θ)
t (x, θ) = = g (θ| x) ,
f (x)
qui est la densité de la loi a posteriori.
Au numérateur de t (x, θ) il s’agit bien de la densité du couple, car :
f (x, θ)
f (x| θ) = =⇒ f (x, θ) = f (x| θ) g (θ) .
g (θ)
c Michel CARBON
Une règle de décision δ0 qui minimise en δ :

Z
L(θ, δ(x)) t(x, θ) dτ (θ)
Θ
est une règle de Bayès. La quantité

Z
L(θ, δ(x)) t(x, θ) dτ (θ)
Θ
s’appelle le risque a posteriori (x étant observé).

Interprétation : Si on considère le couple (X, θ) comme une variable aléatoire
de densité f (x, θ) par rapport à λ ⊗ τ, alors t(x, ·) est la densité de θ conditionnée
par {X = x}, et le risque a posteriori est l’espérance de L(θ, δ(X)) conditionnée par
{X = x}.
Cas particulier important : Supposons que Θ = D ⊂ R et que l’on choisisse la
fonction de perte quadratique : L(θ, a) = (θ − a)2 . La règle de décision qui minimise
le risque a posteriori n’est autre que l’espérance conditionnelle de θ par rapport à
X. Dans ce cas, cette fonction de décision est donnée par :
Z
δ(x) = θ t(x, θ) dτ (θ), ∀x ∈ X .
Θ
En effet :
Z
(δ(x) − θ)2 t(x, θ) dτ (θ)
Θ
Z Z
2
= δ (x) − 2 δ(x) θ t(x, θ) dτ (θ) + θ2 t(x, θ) dτ (θ),
Θ Θ
et le minimum est clairement atteint en :

Z
δ(x) = θ t(x, θ) dτ (θ).
Θ
Exemple 7.6.13 (suite de l’exemple précédent) : Supposons, de plus, que θ suit "a
priori" une loi uniforme sur [0; 1] . Alors :
Z
1
E(R(θ, δ1 )) = θ dλ(θ) = ,
[0,1] 2
Z
2
E(R(θ, δ2 )) = (2θ2 − 2θ + 1) dλ(θ) = ,
[0,1] 3
Z
1
E(R(θ, δ3 )) = 2θ(1 − θ) dλ(θ) = ,
[0,1] 3
Z
1
E(R(θ, δ4 )) = (1 − θ) dλ(θ) = .
[0,1] 2
c Michel CARBON
La règle de Bayès associée à la loi uniforme sur [0; 1] est δ3 .

Supposons maintenant que θ suit “ a priori ” une loi uniforme τ 0 sur 0, 21 . La

densité de τ 0 est alors : 2 · 11[0, 1 ] (θ).

2
Alors : Z Z
0
Rτ 0 (δ) = R (θ, δ) dτ (θ) = 2 R (θ, δ) dθ.
Θ [0, 21 ]
D’où :
Z 1
2 1
Rτ 0 (δ1 ) = 2 θ dθ = ,
0 4
Z 1
2 1
Rτ 0 (δ2 ) = 2 θ (1 − θ) dθ = ,
0 3
Z 1
2 5
2θ2 − 2θ + 1 dθ = ,

Rτ 0 (δ3 ) = 4
0 9
Z 1
2 3
Rτ 0 (δ4 ) = 2 (1 − θ) dθ = .
0 4
La règle pure qui minimise le risque de Bayès pour la loi a priori τ 0 est δ1 . δ1 est
la règle de Bayes associée à τ 0 .
Il est, bien sûr, intéressant de voir si ces règles de Bayès sont optimales. C’est le
cas, sous de bonnes hypothèses, comme le montrent les résultats qui suivent :
Théorème 7.6.3 Soit Θ = {θ1 , ..., θk } . Soit δ0 une règle bayésienne associée à la loi
a priori τ (loi caractérisée par le k-uple (p1 , ..., pk ) , où θj est choisi avec la probabilité
pj ; on a : pj ≥ 0 pour j = 1, ..., k et kj=1 pj = 1). Si pj > 0 pour tout j = 1, ..., k,
P
alors δ0 est admissible.
Démonstration :
0
Supposons que δ0 ne soit pas admissible. Alors, il existerait δ ∈ ∆ meilleure que
δ0 telle que :
0
R(θj , δ ) ≤ R(θj , δ0 ) pour tout j = 1, ..., k ,
et il existerait j0 ∈ {1, ..., k} tel que :
0
R(θj0 , δ ) < R(θj0 , δ0 ) .
Comme tous les pj sont strictement positifs, on a :

k k
0
X X
0
rτ (δ ) = R(θj , δ ) pj < R(θj , δ0 ) pj =rτ (δ0 ) .
j=1 j=1
Donc l’inégalité stricte montrerait que δ0 n’est pas une règle bayésienne associée
à τ , ce qui est contraire à l’hypothèse. Ainsi, δ0 est admissible.
c Michel CARBON
Théorème 7.6.4
(i) Si δ0 est p.s. pour tout θ la seule règle de Bayès associée à τ , alors δ0 est
admissible pour R.
(ii) Si Θ = Rp , si R(θ, δ) est continu en θ pour tout δ ∈ ∆, si τ charge tous les
ouverts de Rp et rτ (δ0 ) < +∞ (où δ0 est une règle de Bayès associée à τ ), alors δ0
est admissible pour R.
Démonstration :
(i) Soit δ une règle de décision préférable à δ0 , alors on a successivement :
R(θ, δ) ≤ R(θ, δ0 ) , ∀θ ∈ Θ ,
Z Z
R(θ, δ) dτ (θ) ≤ R(θ, δ0 ) dτ (θ) ,
Θ Θ
rτ (δ) ≤ rτ (δ0 ) .
Et comme δ0 est bayésienne, on a :
rτ (δ) = rτ (δ0 ).
L’unicité p.s. de δ0 implique alors que :
δ = δ0 , Pθ -p.s., ∀θ ∈ Θ .
D’où :
∀θ ∈ Θ, L(θ, δ) = L(θ, δ0 ), Pθ -p.s. ,
Z Z
∀θ ∈ Θ, L(θ, δ(x)) dPθ (x) = L(θ, δ0 (x)) dPθ (x) ,
X X
∀θ ∈ Θ, R(θ, δ) = R(θ, δ0 ) ,
donc δ n’est pas strictement préférable à δ0 . Donc δ0 est admissible.
(ii) Si δ0 n’était pas admissible, il existerait δ1 ∈ ∆ telle que :
∀θ ∈ Θ, R(θ, δ1 ) ≤ R(θ, δ0 ) ,
et
∃θ0 ∈ Θ0 , R(θ0 , δ1 ) < R(θ0 , δ0 ) .
Grâce à la continuité de R (par rapport à θ), on en déduit qu’il existerait un
voisinage ouvert U de θ0 et ε > 0 tels que :
∀θ ∈ U, R(θ, δ1 ) ≤ R(θ, δ0 ) − ε.
c Michel CARBON
7.7 Invariance 167
Alors :
Z Z
rτ (δ1 ) = R(θ, δ1 ) dτ (θ) + R(θ, δ1 ) dτ (θ)
U Uc
Z Z
≤ R(θ, δ0 ) dτ (θ) − ετ (U ) + R(θ, δ0 ) dτ (θ)
U Uc
≤ rτ (δ0 ) − ετ (U )
< rτ (δ0 ),
ce qui est contradictoire, puisque δ0 est de Bayès.
Définition 7.6.13 Soit τ une mesure sur (Θ, T ) . Une règle de décision δ0 est dite
bayésienne généralisée par rapport à τ si :
Z Z
R (θ, δ0 ) dτ (θ) = inf R (θ, δ) dτ (θ) .
δ∈∆
Pour terminer, donnons sans démonstration un théorème général dû à Wald :
Théorème 7.6.5 (Wald) :

Si D = Θ = Rp et si :
· supθ∈Θ R(θ, δ) < +∞ , ∀ δ ∈ D ,
· ∀ (θ, δ) ∈ Θ × ∆ , ∃ (θi , i ∈ N) ⊂ Θ : lim sup R(θi , δ) ≥ R(θ, δ) ,
· ∀ (δi , i ∈ N) ⊂ ∆ , ∃ δ ∗ ∈ ∆ : lim inf R(θ, δi ) ≥ R(θ, δ ∗ ) , ∀ θ ∈ Θ‘ ,
alors, la classe des règles de décision admissibles est complète, et la classe des
règles de décision bayésiennes généralisées est essentiellement complète.
7.7 Invariance
7.7.1 Identification

Définition 7.7.1 Soit X , A, (Pθ )θ∈Θ un modèle statistique paramétrique.
(i) Une valeur θ0 du paramètre est dite identifiable s’il n’existe aucune autre
valeur θ du paramètre telle que : Pθ = Pθ0
(ii) On dira qu’une valeur θ0 du paramètre est localement identifiable s’il existe
un voisinage V(θ0 ) de θ0 tel que :
∀ θ 6= θ0 , θ ∈ V(θ0 ) , Pθ 6= Pθ0 .
c Michel CARBON
Cela signifie que lorsque θ0 est identifiable, et quand la vraie loi est Pθ0 , on peut en
déduire que la vraie valeur du paramètre est bien θ0 .
Soit le modèle (Rn , BRn , P) où P = {N (m2 ; σ 2 ) ; m ∈ R} et avec σ 2 supposé

connu.
Alors la valeur 0 du paramètre m est identifiable. Par contre, les autres valeurs
ne le sont pas, puisque −m et +m donnent la même loi gaussienne. Par contre, elles
sont localement identifiables.

Définition 7.7.2 Un modèle paramétrique X , A, (Pθ )θ∈Θ est identifiable si toutes
les valeurs du paramètre sont identifiables, c’est-à-dire si et seulement si l’applica-
tion : θ 7−→ Pθ est injective.
7.7.2 Modèle statistique invariant

Soit X , A, (Pθ )θ∈Θ un modèle statistique paramétrique, que l’on suppose iden-
tifiable.
Soit G un groupe de transformations mesurables de X (c’est-à-dire une famille
d’applications bijectives de X sur X , et qui forment un groupe pour la composition
d’applications).

Définition 7.7.3 Le modèle X , A, (Pθ )θ∈Θ est dit invariant par G si, pour tout
θ ∈ Θ, et pour tout g ∈ G, la loi image Pθ,g appartient à la famille de lois (Pθ )θ∈Θ .
Grâce à cette hypothèse d’injectivité, cela signifie que, si X admet Pθ pour loi,
alors il existe un unique θ0 ∈ Θ, noté g (θ) tel que : g (X) ait pour loi Pθ0 = Pg(θ) .
Ceci conduit à deux importantes formules. La condition pour que la famille de lois
Pθ soit invariante par G est que :
∀A ∈ A , Pθ (g (X) ∈ A) = Pg(θ) (X ∈ A) .
En terme d’espérance, cela est équivalent à dire, que pour toute fonction intégrable
à valeurs réelles ϕ, on a :
Eθ [ϕ (g (X))] = Eg(θ) [ϕ (X)] .
Si le paramètre θ de la famille de lois (Pθ )θ∈Θ est identifiable, l’unicité de θ0 ci-

dessus sera automatiquement satisfaite. Inversement, si une famille de lois (Pθ )θ∈Θ
est invariante sous G, l’unicité de θ0 implique que θ est identifiable.
Quand on fixe g, g est une application de Θ dans Θ, et il est aisé de vérifier que
G = {g, g ∈ G} est un groupe de transformations sur Θ.
7.7.3 Exemple
Considérons le modèle
d’échantillonnage associé à la loi normale N (m; σ 2 ) :
Rn , BRn , Pθ⊗n θ∈Θ où Pθ = N (m; σ 2 ) et Θ = R×R∗+ .
c Michel CARBON
7.7 Invariance 169
Pθ⊗n a pour densité :

n
!
1 1 X
fθ (x1 , ..., xn ) = exp − 2 (xi − m)2 .
(2πσ 2 )n/2 2σ i=1
Sur Rn , la famille de transformations : {gα,β : α ∈ R∗ , β ∈ R} , où :

gα,β (x1 , ..., xn ) = (αx1 + β, ..., αxn + β) , forme un groupe de transformations :
gα,β ◦ gα0 ,β 0 = gαα0 ,β+αβ 0 .
On a :
Eθ [ϕ (gα,β (X))]
1 R 1 Pn 2
= ϕ (αx1 + β, ..., αxn + β) exp − 2 i=1 (xi − m) dx
(2πσ 2 )n/2 2σ
1 R 1 Pn 2
= ϕ (y1 , ..., yn ) exp − 2 2 i=1 (yi − β − αm) dy .
(2πσ 2 )n/2 2α σ
2 2
Donc gα,β (X)2 suit une loi N2(β2 + αm; α σ ). Le modèle est invariant et G =
g α,β : g α,β (m, σ ) = (β + αm; α σ ) .
7.7.4 Fonction de perte invariante

Définition 7.7.4 Soit X , A, (Pθ )θ∈Θ un modèle invariant par le groupe de trans-
formations G. Soient (D, D) l’espace des décisions, et L une fonction de perte. Le
problème de décision associé est invariant par G si, pour tout g de G et tout d de D,
il existe une unique décision d0 de D telle que :
L (θ, d) = L (g(θ), d0 ) ; ∀θ ∈ Θ.
Notons ge l’application de D dans D qui, à d associe d0 . Il est encore ici aisé de vérifier
que Ge = {eg : g ∈ G} est un groupe de tranformations sur D.
Par exemple, grâce au 7.7.3 précédent, alors si on choisit D = R et
(m − d)
L(θ, d) = L ((m, σ 2 ) , d) = , on doit avoir :
σ2
(β + αm − d0 )2
0

L(θ, d) = L g α,β (θ), d = .
α2 σ 2
D’où : d0 = αd + β et g α,β (d) = αd + β .
7.7.5 Règles de décison invariantes
Définition 7.7.5 Etant donné un problème de décision invariant par G, une règle
de décision δ est alors dite invariante par G, si pour tout x de X et tout g de G, on
a:
δ (g (x)) =e
g (δ (x)) .
c Michel CARBON
Dans l’exemple précédent, la règle :

1
δ(x1 , ..., xn ) = (x1 + ... + xn )
n
est invariante car :
1
δ (gα,β (x1 , ..., xn )) = (αx1 + β + ... + αxn + β)
n
α
= (x1 + ... + xn ) + β
n
= n δ(x1 , ..., xn ) + β
= geα,β (δ(x1 , ..., xn )) .
Dans un problème de décision invariant, il est assez naturel de se limiter à l’étude

des règles de décisions invariantes ; c’est le principe même d’invariance. Mais atten-
tion, il peut cependant exister une règle de décision invariante meilleure que toutes
les autres règles de décison invariantes, mais non admissible dans l’ensemble de
toutes les règles de décision.
7.8 Critique de la théorie de la décision

Nous avons vu que la théorie de la décision fournissait un cadre assez commode
pour la description des problèmes de statistique. Toutefois, le cadre est souvent trop
général pour que les résultats de la théorie soient directement utilisables dans un
cas particulier bien précis.
D’autre part, on ne peut obtenir une information suffisante pour une décision à
prendre, que si l’on dispose d’une taille d’échantillon suffisante. Il est alors naturel
d’indexer la règle de décision δ par le nombre n d’observations. On associe ainsi une
règle de décision δn , et bien entendu, on s’intéresse au comportement asymptotique
de la suite δn , notamment sa convergence vers la vraie décision, et sa vitesse de
convergence.
c Michel CARBON
Chapitre 8
Exhaustivité – Complétion – Liberté
Même si je voulais me connaître totalement, je sais en vertu du principe de

Tarsky selon lequel aucun système ne peut donner de lui-même une explication ex-
haustive, qu’il y a une part d’inexplicable de moi-même à moi-même.
E. Morin
Le concept d’exhaustivité est dû à Fisher (1920). Dans un article fondamental

(1922), il a introduit le terme d’exhaustivité et établit le théorème de factorisation.
Figure 8.1 – Sir Ronald Aymer Fisher (1890-1962)
La théorie des statistiques exhaustives minimales a été initiée par Lehmann et

Scheffé (1950).
Les statistiques libres ont elles aussi été introduites par Fisher (1934), et les
statistiques complètes par Lehmann et Scheffé (1950).
171
172 CHAPITRE 8. EXHAUSTIVITÉ – COMPLÉTION – LIBERTÉ
Figure 8.2 – Erich Leo Lehmann Figure 8.3 – Henry Scheffé (1907-
(1917-2009) 1977)
8.1 Définition
8.1.1 Exemple introductif
Considérons un industriel recevant un lot important de pièces. Ce lot est sup-
posé avoir une proportion θ de pièces défectueuses. Un contrôle systématique étant
irréalisable, l’industriel n’effectue le contrôle que sur un n-échantillon de pièces du
lot. On suppose que les pièces sont tirées de manière équiprobable et avec remise.
On pose :

1 si la i−ième pièce est défectueuse
Yi =
0 sinon ,
et ceci pour tout i = 1, ..., n.
Le modèle statistique paramétrique associé à cette expérience est le modèle
d’échantillonnage :
{0, 1}n , (P ({0, 1}))⊗n , (B (1, θ))⊗n θ∈[0,1] .

Il est tout à fait naturel de penser que l’information sur θ contenue dans le n-
uple Y = (Y1 , ..., Yn ) est aussi contenue dans le nombre de pièces défectueuses de
l’échantillon :
n
X
S(Y ) = Yi .
i=1
c Michel CARBON
8.1 Définition 173
Formalisons cette idée, en examinant la loi conditionnelle de Y sachant que

S(Y ) = s. On a :
" #
Xn
Pθ [Y = y | S(Y ) = s] = Pθ Y1 = y1 , ..., Yn = yn Yi = s

i=1
 P n


 0 si yi 6= s

 i=1

 Pn
= Pθ (Y1 = y1 , ..., Yn = yn ) ∩ Yi = s n
i=1 P



 n si yi = s.
P i=1
Pθ Yi = s



i=1
Cette dernière expression s’écrivant :
n−1

P
Pθ Y1 = y1 , ..., Yn−1 = yn−1 , Yn = s − yi
i=1
n
P
Pθ Yi = s
i=1
n−1
P n−1
P n−1
P n−1
P
yi (n−1)− yi s− yi 1−s+ yi
θ i=1 (1 − θ) i=1 θ i=1 (1 − θ) i=1
=
Cns θs (1 − θ)n−s
θs (1 − θ)n−s 1 n
P
= s s n−s
= s si yi = s.
Cn θ (1 − θ) Cn i=1
- Les probabilités individuelles pour le vecteur Y (encore appelée densité de Y

par abus de langage) sont :
n
Y Pn Pn
l(y1 , y2 , · · · , yn ; θ) = [θyi (1 − θyi )] = θ i=1 yi
(1 − θ)n− i=1 yi
= θs (1 − θ)n−s
i=1
La densité des observations de Y vaut donc :

l(y; θ) = θs (1 − θ)n−s
Elle peut se décomposer en :
l(y; θ) = lS (s; θ) · l(y|S = s)
où lS (s ; θ) = Cns θs (1 − θ)n−s est la densité marginale de S et l(y|S = s) est
la densité conditionnelle de Y sachant que S = s et où s = S(y).
- θ n’apparaît pas dans la densité conditionnelle, et l’information apportée par
Y sur θ est ainsi contenue dans S.
- Une autre manière d’interpréter cette décomposition consiste à remarquer que
pour simuler une réalisation de Y , lorsque θ est inconnu, il suffit de disposer
d’une réalisation de S.
Cela conduit à la définition ci-dessous.
c Michel CARBON
8.1.2 Définition de l’exhaustivité

Définition 8.1.1 Soit (X , A; Pθ , θ ∈ Θ) un modèle paramétrique. On note Y l’es-
pace des valeurs prises par la statistique S. On suppose que l’observation est la valeur
prise par une v.a.r. X définie sur un espace Ω selon le schéma suivant :
X S
(Ω, C, P ) −→ (X , A, Pθ )θ∈Θ −→ (Y, B).
On dira alors que la statistique S est exhaustive pour θ si la loi conditionnelle de X

sachant que S = s est indépendante de θ pour tout s.
Interprétation : Si l’on dispose de la valeur s prise par la statistique S, l’échan-

tillon ne peut plus rien nous apprendre sur θ puisque sa loi, conditionnée par S = s,
ne dépend plus de θ. S a ”vidé” l’observation de toute l’information sur θ qu’elle
contenait.
8.1.3 Exemples
Exemple 8.1.1 Même si elle est de peu d’intérêt, la statistique identité S(X) =
X = (X1 , ..., Xn ) est exhaustive, car la loi conditionnelle de X sachant que S(X) =
X = s est en effet égale à la masse ponctuelle 1 en s, et ne dépend pas de θ.
Exemple 8.1.2 Soit X = (X1 , ..., Xn ) un échantillon indépendant extrait d’une loi
continue sur R, de densité f (x; θ). Considérons la statistique S d’ordre, obtenue en
rangeant les observations par ordre croissant :
S(X) = (X (1) , ..., X (n) ),
où
X (1) = min Xi
i=1,...,n
X(2) = min X∗
X ∗ ∈{X1 ,...,Xn }\X (1)
..
.
X (n) = max Xi .
i=1,...,n
Les lois étant à densité, la probabilité pour que deux v.a.r. soient égales, est nulle.
Donc la statistique S est p.s. définie.
Sachant que X (1) = s1 , ..., X (n) = sn , alors les seules valeurs possibles pour
X = (X1 , ..., Xn ) sont les n! permutations de (s1 , ..., sn ), et par symétrie, chacune a
1
même probabilité : . Donc la loi conditionnelle de X = (X1 , ..., Xn ) sachant que
n!
S = s est la loi discrète uniforme sur l’ensemble des valeurs (s1 , ..., sn ) déduites de s
par les n! permutations possibles. Cette loi étant indépendante de θ, la statistique S
est exhaustive, et l’ordre dans lequel sont rangées les observations n’est pas pertinent
pour la connaissance de θ.
c Michel CARBON
8.2 Caractérisation de l’exhaustivité 175
Exemple 8.1.3 Soit (x1 , x2 ) un échantillon de taille 2 extrait de la loi

gaussienne N (0, σ 2 ) , où σ 2 > 0 est un paramètre inconnu. Posons :
X1 = R cos θ et X2 = R sin θ.
On a alors :
r2
Z
1 1
E [ϕ(R, θ)] = ϕ(r, θ) 2
exp − 2 dr dθ.
{r≥0 ; 0≤θ≤2π} 2πσ 2σ r
Donc (R, θ) a pour densité :

1 2
− r2 1
e 2σ · 11(r≥0; .
2 0≤θ≤2π)
2πσ r
R et θ sont donc deux v.a.r. indépendantes. On peut remarquer que θ suit la loi
uniforme sur [0, 2π] . Ainsi, la loi de θ sachant que R = r est uniforme sur [0, 2π]
et ne dépend pas du paramètre σ. Donc la loi de (X1 , X2 ) sachant que R = r (où
R2 = r2 = x21 + x22 ) est la loi uniforme sur le cercle de centre 0 et de rayon r, qui ne
dépend pas de σ. Donc R est exhaustive.
8.2 Caractérisation de l’exhaustivité

En pratique, il est souvent difficile de calculer les lois conditionnelles pour vérifier
si une statistique est exhaustive ou non. Le critère ci-dessous est par contre aisé à
utiliser.
Théorème 8.2.1 (Critère de factorisation)

Soit {X ; A; Pθ , θ ∈ Θ} un modèle paramétrique régulier. On considère une statis-
S
tique S : (X , A) −→ (Y, B) . Une C.N.S. pour que la statistique S soit exhaustive
est que les densités s’écrivent :
lθ (x) = gθ (S (x)) · h (x) µ − pp (8.1)
avec h : (X , A) −→ (R+ , BR+ ) et gθ : (Y, B) −→ (R+ , BR+ ) mesurables.
Démonstration : délicate. On la fera ici dans le cas où la famille Pθ , θ ∈ Θ est

composée de lois discrètes.
CN :
Supposons S exhaustive. On a :
lθ (x) = Pθ (X = x) = Pθ (S(X) = S(x)) · Pθ (X = x |S(X) = S(x))
Il suffit de poser :
gθ (S(x)) = Pθ (S(X) = S(x))
et
h(x) = Pθ (X = x |S(X) = S(x)) = P (X = x |S(X) = S(x)) .
c Michel CARBON
En effet, cette dernière quantité h(x) est indépendante de θ car S est exhaustive.
CS :
Inversement, supposons que la loi de X se décompose en :
Pθ (X = x) = gθ (S(x)) · h(x).
On a alors :
Pθ [X = x, S(X) = s]
Pθ [X = x |S(X) = s ] =
Pθ (S(X) = s)
S(x) 6= s

 0 si



= P (X = x)
 Pθ si S(x) = s


 Pθ (X = x)
x:S(x)=s
S(x) 6= s

 0 si



= g (S(x)) h(x)
 Pθ si S(x) = s


 gθ (S(x)) h(x)
x:S(x)=s
S(x) 6= s

 0 si



= h(x)
 P si S(x) = s.


 h (x)
x:S(x)=s
La loi conditionnelle ne dépend donc pas de θ, et S est exhaustive.
Remarque 8.2.1 la décomposition (8.1) n’est pas nécessairement unique.

Exemple 8.2.1 (important) Considérons un modèle exponentiel. Alors, les densités
s’écrivent :
" s #
X
lθ (x) = exp ηi (θ) Ti (x) − B(θ) h(x)
i=1
" s
#
X
= C(θ) exp ηi (θ) · Ti (x) · h(x).
i=1
L’application du critère de factorisation précédent montre que la statistique privilé-

giée : T (X) = (T1 (X), ..., Ts (X)) est exhaustive pour θ.
Exemple 8.2.2 Soit x1 , ..., xn un échantillon extrait de la loi uniforme sur [0, θ].
Sa densité vaut :
n
Y 1 1
lθ (x) = 11(0≤xi ≤θ) = n 11(0≤min xi ) 11(θ≥max xi ) .
i=1
θ θ
D’après le critère de factorisation, la statistique
S(X) = max Xi
i=1,...,n
est exhaustive pour θ.
c Michel CARBON
8.3 Statistiques exhaustives minimales 177
8.3 Statistiques exhaustives minimales

8.3.1 Statistiques équivalentes
Définition 8.3.1 Deux statistiques S = S(X) et S 0 = S 0 (X) sont dites équivalentes
vis-à-vis de la famille P des lois de X, si chacune est une fonction de l’autre P−p.s.
De telles statistiques contiennent la même information. Ce qui se traduit dans la

propriété suivante :
Propriété 8.3.1 Soit (Ω, A, Pθ )θ∈Θ un modèle statistique paramétrique régulier. On

suppose que S = S (X) et T = T (X) sont équivalentes. Si S est exhaustive, alors T
également.
La démonstration nécessite de connaître la théorie de la mesure.
Exemple 8.3.1 Supposons que X suive une loi N (0, σ 2 ), où σ 2 > 0. La densité de
X vaut :
x2 x2

1 1
√ exp − 2 = √ exp − 2 − ln σ ,
σ 2π 2σ 2π 2σ
densité qui dépend de x à travers x2 . Ici : T (X) = X 2 est exhaustive. Bien sûr, |X| ,
2
X 4 , eX sont des statistiques équivalentes à T (X), donc également exhaustives.
8.3.2 Statistiques exhaustives minimales – Définition

Propriété 8.3.2 On considère un modèle paramétrique régulier. Soient S1 et S2
deux statistiques telles que S1 = h∗ (S2 ). Si S1 est exhaustive pour θ, S2 l’est égale-
ment.
Intuitivement, si S2 n’est pas exhaustive, S2 contient moins d’information sur θ

que l’observation initiale, et l’information perdue l’est définitivement. Donc toute
fonction de S2 ne restituera pas toute l’information sur θ, donc S1 ne pourra être
exhaustive.
Démonstration :
Si S1 est exhaustive, d’après le critère de factorisation, on a :
lθ (x) = gθ (S1 (x)) · h(x).
Or :
S1 = h∗ (S2 ).
D’où :
lθ (x) = gθ (h∗ (S2 (x))) h(x) = (gθ ◦ h∗ ) (S2 (x)) · h(x)

= ψθ (S2 (x)) · h(x).
Donc S2 est exhaustive, d’après le critère de factorisation.
c Michel CARBON
La propriété précédente permet de définir un préordre sur les statistiques ex-

haustives (S1 est préférable à S2 ) :
S1 RS2 ⇔ ∃h : S1 = h(S2 ).
Si S1 et S2 satisfont la relation précédente avec h non bijective, on préfère employer

S1 , qui permet, tout en conservant toute l’information sur θ, d’écrire les observations
sous forme plus résumée. Il est alors naturel d’examiner, s’il existe, un résumé le plus
concis possible.
Définition 8.3.2 Une statistique S est exhaustive minimale, si elle est d’une part
exhaustive, et si, pour toute autre statistique exhaustive T, il existe h telle que S =
h(T ).
8.3.3 Propriété des statistiques exhaustives minimales

La propriété suivante est quasi immédiate.
Propriété 8.3.3 Si T est une statistique exhaustive minimale et si S est en bijection

avec T , alors S est exhaustive minimale.
Démonstration :
T est exhaustive minimale, donc, pour toute statistique exhaustive U, il existe
une fonction h telle que : T = h(U ).
Comme S est en bijection avec T , alors il existe une fonction f qui est telle que :
S = f (T ) et T = f −1 (S). Ainsi, d’après la propriété 8.3.2, S est exhaustive. De plus,
pour toute statistique exhaustive U, on a :
T = h(U ) et S = f (T ) = f (h(U )) = (f ◦ h)(U ) , et donc S est exhaustive
minimale.
8.3.4 Construction de statistiques exhaustives minimales

Théorème 8.3.1 Soit {X ; A; Pθ , θ ∈ Θ} un modèle paramétrique régulier. Consi-
dérons la famille P0 = {f0 (x), ..., fk (x)} de densités ayant le même support. Alors
la statistique :
f1 (X) fk (X)
T (X) = , ...,
f0 (X) f0 (X)
est exhaustive minimale pour P0 .
Démonstration : Soit πi la projection sur la i-ième coordonnée de Rk . On a (µ −

pp) :
f1 (x) = π1 (T (x)) × f0 (x)
.. .. .. et f0 (x) = f0 (x)!.
. . .
fk (x) = πk (T (x)) × f0 (x)
Donc T est exhaustive pour P0 (grâce au théorème de factorisation).
c Michel CARBON
8.3 Statistiques exhaustives minimales 179
Soit S une statistique exhaustive quelconque pour P0 . Alors, il existe ϕ0 , ϕ1 , ..., ϕk

telles que, sur le support commun :
fi (x) = ϕi (S(x)) · h(x) ∀i = 0, 1, ..., k.
Donc, pour tout i = 1, ..., k, on a :
fi (x) ϕi
= (S(x)) .
f0 (x) ϕ0
Donc T (x) est une fonction de S(x). T est une fonction de toute statistique exhaus-
tive, donc T est minimale.
Théorème 8.3.2 On considère {X ; A; Pθ , θ ∈ Θ} un modèle paramétrique régulier.
Si P est une famille de lois ayant le même support, si P0 ⊂ P et si T est exhaustive
minimale pour P0 et exhaustive pour P, alors T est exhaustive minimale pour P.
Démonstration : Supposons que S soit exhaustive pour P, alors S est exhaustive
pour P0 . De plus, T est fonction de S puisque T est exhaustive minimale pour P0 .
Donc T, exhaustive pour P, est fonction de toute statistique exhaustive pour P,
donc est exhaustive minimale pour P.
Exemple 8.3.2 Soit P0 = {N (θ0 ; 1)⊗n , N (θ1 ; 1)⊗n } avec θ0 6= θ1 . Alors :

" n
#
fθ1 (x) X θ02 − θ12
T (x) = = exp (θ1 − θ0 ) xi + n
fθ0 (x) i=1
2
est exhaustive minimale pour P0 grâce au théorème 8.3.1. Cette statistique est en
Pn 1P n Pn
bijection avec xi ou à x = xi . En effet, si on pose S(x) = xi , on a :
i=1 n i=1 i=1
θ02 − θ12

fθ1 (x)
T (x) = = exp (θ1 − θ0 ) S(x) + n = ϕ (S(x))
fθ0 (x) 2
et
θ2 − θ02

1 fθ1 (x) fθ1 (x)
S(x) = · ln +n 1 =ψ .
(θ1 − θ0 ) fθ0 (x) 2 fθ0 (x)
T (X) et S(X) sont clairement en liaison bijective. Ainsi T (X) et X sont exhaustives
minimales pour P0 . Considérons la famille : P = {N (θ, 1)⊗n ; θ ∈ R} . On a :
" n
#
1 1X
f (x) = √ exp − (xi − θ)2
2π 2
" n i=1 # " n
#
1 X nθ2 1X 2
= √ exp θ xi − · exp − xi .
2π i=1
2 2 i=1
1P n
D’où : Xi est exhaustive pour P (théorème de factorisation). Donc, d’après le
n i=1
Pn
théorème précédent, Xi et X sont exhaustives minimales pour la famille P.
i=1
c Michel CARBON
Une généralisation du théorème (8.3.1) est possible pour des familles de lois
n’ayant pas le même support.
Théorème 8.3.3 Soit P une famille de lois à densité fi , i = 0, 1, · · · , k. Pour

chaque x, soit S(x) l’ensemble des paires d’entiers (i, j) pour lesquels fi (x)+fj (x) >
0. Alors la statistique :

fj (x)
T (X) = ; i < j et (i, j) ∈ S(X)
fi (x)
est exhaustive minimale. Ici, fj (x)/fi (x) = +∞ si fi (x) = 0 et fj (x) > 0.
Exemple 8.3.3 Soit X1 , X2 , · · · , Xn n variables aléatoires de loi U[θ −1/2, θ +1/2],

où θ ∈ R. La densité du n-uple X1 , X2 , · · · , Xn est donc :
n
Y
fX1 ,X2 ,··· ,Xn (x1 , x2 , · · · , xn ) = 1[θ−1/2,θ+1/2] (xi ) = 1{x(1) ≥θ−1/2} · 1{x(n) ≤θ+1/2}
i=1
où x(1) et x(n) sont respectivement le minimum et le maximum de x1 , x2 , · · · , xn .

Grâce au théorème de factorisation, on sait alors que le couple X(1) , X(n) est
une statistique exhaustive pour θ.
Considérons θ0 et θ1 deux réels avec θ0 < θ1 et θ1 − θ0 < 1. On notera P0 la sous
famille de lois constituée des deux densités P0 = {fθ0 (x), fθ1 (x)}.
On peut aisément calculer :
fθ1 (x1 , x2 , · · · , xn ) 1{x(1) ≥θ1 −1/2} · 1{x(n) ≤θ1 +1/2}

=
fθ0 (x1 , x2 , · · · , xn ) 1{x(1) ≥θ0 −1/2} · 1{x(n) ≤θ0 +1/2}


 +∞ si x(1) > θ0 + 1/2



= 0 si x(n) < θ1 − 1/2




1 si x(1) ≥ θ1 − 1/2 et x(n) ≤ θ0 + 1/2

Cela peut encore s’écrire :
fθ1 (x1 , x2 , · · · , xn ) 1{x(1) ≥θ1 −1/2} · 1{x(n) ≤θ0 +1/2}

= .
fθ0 (x1 , x2 , · · · , xn ) 1{x(1) >θ0 +1/2}

f (X)
Le théorème (8.3.3) nous indique que la statistique T (X) = fθθ1 (X) est exhaustive
0
minimale pour P0 .
Comme la statistique T (X) est en bijection avec X(1) , X(n) , alors la statistique
X(1) , X(n) est exhaustive minimale pour P0 .
Enfin, le théorème (8.3.2) nous indique que la statistique X(1) , X(n) est exhaus-
tive minimale pour la famille totale P = {U[θ − 1/2, θ + 1/2]}, où θ ∈ R.
c Michel CARBON
8.4 Complétion 181
8.3.5 Cas particulier du modèle exponentiel

Théorème 8.3.4 Soit P = {fη ; η ∈ H} un modèle exponentiel dont les densités
s’écrivent : " s #
X
fη (x) = exp ηi Ti (x) − A(η) h(x).
i=1
La statistique privilégiée T = (T1 , . . . , Ts ) est exhaustive minimale si l’une des deux

conditions suivantes est réalisée :
— Le modèle est de plein rang.
— L’espace des paramètres contient s + 1 points η (j) (pour j = 0, · · · , s) tels que
les vecteurs (η (j) − η (0) ) (pour j = 0, · · · , s) soient indépendants.
Démonstration :
Nous avons déjà vu que T est exhaustive, d’après le critère de factorisation. Le
modèle étant de plein rang, H, l’espace des paramètres, contient un s−hypercube
ouvert de dimension s. On peut alors choisir dans H, s+1 points : η (j) (j = 0, 1, . . . , s)
tels que η (1) − η (0) , η (2) − η (0) , . . . , η (s) − η (0) soient linéairement indépendants.
Considérons la famille finie P0 telle que :
P0 = fη ; η = η (j) , j = 0, 1, . . . , s .

Alors la statistique S :

fη(1) (X) fη(s) (X)
S(X) = ,...,
fη(0) (X) fη(0) (X)
est exhaustive minimale, où
" s #
fη(j) (x) X (j) (0)

= exp ηi − ηi · Ti (x) − A(η (j) ) + A(η (0) ) ,
fη(0) (x) i=1
avec j = 1, . . . , s. D’où l’on a :

( s s
)
X (1) (0)
X (s) (0)

S ∗ (X) = ηi − ηi Ti (x), . . . , ηi − ηi Ti (x)
i=1 i=1
exhaustive minimale, qui est en bijection avec T (x), pourvu que la matrice s × s
formée par les composantes de η (j) − η (0) (j = 1, . . . , s) soit inversible, ce qui est ici
le cas puisque le modèle est de plein rang.
Donc T (x) est exhaustive minimale pour P0 . Or, T (x) est exhaustive pour P,
donc T (x) est exhaustive minimale pour P.
8.4 Complétion
Les statistiques exhaustives minimales permettent donc une réduction de l’espace
des données sans perte d’information sur le paramètre. Mais de telles statistiques
peuvent peut-être encore contenir quelque chose qui n’apporte pas d’information sur
le paramètre. Ceci nous conduit à la notion de statistique libre.
c Michel CARBON
Définition 8.4.1 Soit P une famille de lois sur un espace d’observations (X , A), et
soit S une statistique définie sur (X , A) à valeurs dans (Y, B). Pour toute loi P ∈
P, on note P S la loi image de P par S. On dit que S est libre si :
∀P, Q ∈ P P S = QS .
Dans un modèle paramétrique, si P = {Pθ , θ ∈ Θ} , on dit que S est libre si sa

loi ne dépend pas du paramètre θ. Bien sûr, une statistique libre ne contient au-
cune information sur θ, mais des statistiques exhaustives minimales peuvent encore
contenir une partie ”libre”. Ceci nous conduit à la notion de statistique complète.
Définition 8.4.2 Soit P = {Pθ , θ ∈ Θ} , une famille paramétrique de lois sur un

espace d’observations (X , A), et soit S une statistique définie sur (X , A) à valeurs
dans (Y, B). On dira que S est complète si et seulement si :
Eθ [f (S)] = 0 ∀θ ∈ Θ ⇒ f = 0 PθS − p.s., ∀θ ∈ Θ ,
c’est-à-dire implique que Pθ [f (S) = 0] = 1, ∀θ ∈ Θ .
Remarque 8.4.1 La propriété de complétude peut s’énoncer ainsi :

Soit P = (Pθ ; θ ∈ Θ) une famille de probabilités sur R. On écrira hθ (x) pour défi-
Z ou la fonction de masse des lois Pθ . Si f : R −→ R est une application
nir la densité
+∞
telle que : f (x)hθ (x) dx = 0 pour tout θ ∈ Θ, alors Pθ [{x ∈ R : f (x) = 0}] = 1
−∞
pour tout θ ∈ Θ. Z +∞
Dans le cas discret, il faut remplacer la condition f (x)hθ (x) dx = 0 par la
X −∞
condition : f (x)hθ (x) = 0.
x∈N
Exemple 8.4.1 Considérons la famille H = (Ha,b ; −∞ < a < b < +∞) où Ha,b
est la loi uniforme sur [a, b].
Montrons que la famille H est complète. Z +∞
Soit : f : R −→ R est une application telle que : f (x)ha,b (x) dx = 0 pour
−∞
tout a < b, c’est-à-dire une fonction telle que :
Z b
f (x) dx = 0 pour tout a < b .
a
En particulier, on a : Z b
f (x) dx = 0 pour tout b . (8.2)
0
Si f est une fonction continue, alors en dérivant (8.2) par rapport à b, on obtient
que : f (x) = 0. Si on ne fait pas l’hypothèse de continuité de f , en utilisant la
théorie de la mesure, on peut montrer que : f (x) = 0, sauf au plus sur un ensemble
de mesure de Lebesgue nul.
c Michel CARBON
8.4 Complétion 183
Exemple 8.4.2 Considérons cette fois la famille H = (Hθ ; θ ∈ R) où Hθ est la loi

uniforme sur [θ − π, θ + π].
Montrons que la famille H n’est pas complète. Z +∞
Il suffit d’exhiber une fonction f : R −→ R telle que : f (x)hθ (x) dx = 0
−∞
pour tout θ ∈ R , c’est-à-dire une fonction telle que :
Z θ+π
f (x) dx = 0 pour tout θ ∈ R ,
θ−π
et pour laquelle : Pθ [{x ∈ R : f (x) = 0}] = 1 pour tout θ ∈ R. Il suffit de choisir :

f (x) = sin x. On a alors bien :
Z θ+π
sin x dx = 0 pour tout θ ∈ R ,
θ−π
et pourtant Pθ [x ∈ R : sinx = 0] 6= 1.(en fait Pθ [x ∈ R : sinx = 0] = 0)
Exemple 8.4.3 Considérons la famille H = (Hm ; m ∈ R) où Hm est la loi N (m, 1),

et montrons que cette famille est complète. Supposons que :
Z +∞
1 2
f (x) √ e−(x−m) /2 dx = 0 pour tout m ∈ R ,
−∞ 2π
ce qui est équivalent à écrire que :
2
e−m /2 +∞
Z
2
√ f (x)e−x /2 emx dx = 0 pour tout m ∈ R ,
2π −∞
ou encore : Z +∞
2 /2
f (x)e−x emx dx = 0 pour tout m ∈ R ,
−∞
2
Autrement dit, la transformée de Laplace de la fonction f (x)e−x /2 est identiquement
nulle. D’après la propriété d’unicité de la transformée de Laplace, on en déduit que :
2
f (x)e−x /2 = 0, pour tout x, sauf éventuellement sur un ensemble de mesure de
Lebesgue nul, et donc f (x) = 0, pour tout x, sauf éventuellement sur un ensemble
de mesure de Lebesgue nul. On a donc : Pm [x ∈ R : f (x) = 0] = 1.
Exemple 8.4.4 Cet exemple est la suite de l’exemple (8.3.3). On a vu que la statis-
tique X(1) , X(n) est exhaustive minimale. On va montrer qu’elle n’est pas complète.
Un calcul aisé (à faire en exercice) montre que :

Eθ X(n) − X(1) = Eθ X(n) − Eθ X(1)

1 1 1 1
= θ+ − − θ− +
2 n+1 2 n+1
2
= 1− .
n+1
c Michel CARBON
Si on pose :
f (u, v) = v − u + 2/(n + 1) ,

alors : : Eθ f (X(1) , X(n) ) = 0 pour tout θ malgré que : Pθ f (X(1) , X(n) ) = 0 6= 1.
En fait, cette dernière probabilité vaut 0.
Donc la statistique exhaustive minimale X(1) , X(n) n’est pas complète.
Exemple 8.4.5 On suppose que X1 , X2 , · · · , Xn sont n variables aléatoires indé-

pendantes de loi de Poisson de paramètre θ, avec θ > 0. La fonction de masse, ou
densité s’écrit :
n xi
Pn
i=1 xi

−θ θ −nθ θ
Y
lθ (x1 , x2 , · · · , xn ) = e = e Qn
i=1
xi ! i=1 xi !
n
X
Grâce au théorème de factorisation, la statistique T (X1 , X2 , · · · , Xn ) = Xi est
i=1
exhaustive pour θ.
On pourrait montrer directement qu’elle est minimale, mais on va démontrer
qu’elle est complète, et le théorème (8.4.1) permettra d’en déduire qu’elle est mini-
male.
Supposons que :Eθ [f (T )] = 0 pour tout θ > 0. Puisque T suit une loi de Poisson
de paramètre nθ, la condition Eθ [f (T )] = 0 pour tout θ > 0 s’écrit :
+∞
X (nθ)k
f (k)e−nθ = 0 pour tout θ > 0 ,
k=0
k!
ce qui donne :
+∞
X nk k
f (k) θ = 0 pour tout θ > 0 ,
k=0
k!
On en déduit que :
f (k)nk
= 0 pour tout k = 0, 1, 2, · · · .
k!
On a donc f (k) = 0 pour tout entier positif ou nul. Cela implique donc que Pθ [f (T ) = 0] =
1 pour tout θ > 0.
La statistique T est donc complète.
Remarque 8.4.2 Les statistiques exhaustives complètes sont particulièrement effi-

caces dans la réduction des données. Le théorème qui suit, et qu’on admettra, n’est
pas surprenant.
Théorème 8.4.1 Une statistique exhaustive complète est toujours minimale.
Un autre théorème éclaire la situation entre ces différentes notions.
Théorème 8.4.2 (Théorème de Basu) Si S est une statistique exhaustive et

complète pour la famille P = {Pθ , θ ∈ Θ} , alors toute statistique libre T est indé-
pendante de S pour toute loi Pθ de P.
c Michel CARBON
8.4 Complétion 185
Démonstration : Si T est libre, alors
∀h mesurable, Eθ [h(T )] = E [h(T )] , ∀θ ∈ Θ.
Grâce à l’exhaustivité de S, on a également :
Eθ [h(T )] = Eθ {E [h(T )|S]} , ∀θ ∈ Θ,
car E [h(T )|S] ne dépend pas de θ. D’où :
Eθ {E [h(T )|S] − E [h(T )]} = 0, ∀θ ∈ Θ.
Comme S est complète, on en déduit que :
E [h(T )|S] = E [h(T )] Pθs − p.s., ∀θ ∈ Θ.
Donc T et S sont indépendantes.
Théorème 8.4.3 Soit {X , A, Pθ , θ ∈ Θ} un modèle paramétrique homogène. Si

S et T sont deux statistiques indépendantes définies sur X avec S exhaustive, et si,
pour tout θ1 et θ2 , Pθ1 et Pθ2 ont le même support, alors T est libre.
Démonstration : Comme S est exhaustive, pour toute fonction mesurable h, on

a:
∀θ1 , θ2 Eθ1 [h(T )|S] = Eθ2 [h(T )|S] .
L’indépendance de S et T entraîne que :
Eθ1 [h(T )|S] = Eθ1 [h(T )] Pθ1 − p.s.,

Eθ2 [h(T )|S] = Eθ2 [h(T )] Pθ2 − p.s.
Les lois Pθ1 et Pθ2 chargeant le même ensemble, alors, pour tout θ1 et θ2 de Θ, et
pour toute fonction h mesurable, on a :
Eθ1 [h(T )] = Eθ2 [h(T )] .
Donc T est libre.

Le théorème suivant est important.
Théorème 8.4.4 Soit P = {Pη ; η ∈ H} un modèle exponentiel de plein rang, ad-

mettant T = (T1 , T2 , . . . , Ts ) pour statistique privilégiée. Alors T est une statistique
complète pour P.
Exemple 8.4.6 Soient X1 , . . . , Xn un échantillon extrait d’une loi N (m, 1) . Alors

la statistique :
Xn
∗2
S (X) = (Xi − X)2
i=1
c Michel CARBON
suit un χ2n−1 . Comme cette loi ne dépend pas de m, S est libre pour le modèle. Bien
1P n 1 P n
0
entendu, S 2 = (Xi − X)2 et S 2 = (Xi − X)2 sont également libres.
n i=1 n − 1 i=1
D’autre part, si on écrit la vraisemblance, on a :
n
Y 1 1 2
lm (x1 , . . . , xn ) = √ exp − (xi − m)
i=1
2π 2
n/2 ( n
) ( n
)
1 X n 2 1X 2
= exp m xi − m · exp − x .
2π i=1
2 2 i=1 i
1P n
Donc T (X) = Xi est la statistique privilégiée, qui est exhaustive et complète,
n i=1
car le modèle est de plein rang. Alors, grâce au théorème de Basu, on retrouve le
résultat fameux de Fischer : les statistiques X et S 2 sont indépendantes.
8.5 Vers l’amélioration de certains estimateurs

8.5.1 Paramètre scalaire
Supposons que l’on dispose d’une observation x de X tirée selon une loi de pro-
babilité Pθ , où Pθ appartient à une famille P = {Pθ ; θ ∈ Θ} . Soit g une application
définie sur Θ, à valeurs dans un intervalle D de R. On cherche alors à donner, grâce
à l’observation x, une valeur plausible de g(θ).
Exemple 8.5.1
1. x est un échantillon de loi uniforme sur [0, θ] , θ > 0. On cherche à donner
θ
une valeur plausible pour , l’espérance mathématique de la loi uniforme sur
2
[0, θ] .
2. x est un échantillon de la loi exponentielle de paramètre λ > 0; on cherche à
1
donner une valeur plausible pour , l’espérance mathématique de la loi expo-
λ
nentielle.
3. x est un échantillon de la loi N (m, σ 2 ) où θ = (m, σ 2 ) ∈ R × R+ . On cherche
une valeur plausible pour σ 2 , la variance des observations élémentaires qui
constituent l’échantillon.
Pour estimer g(θ), on propose une valeur dans D dépendant de x, notée δ(x).
L’application mesurable δ : (X , A) → (D, D) s’appelle un estimateur. C’est bien
sûr une statistique particulière. Le but poursuivi ici est de proposer, si possible, les
meilleurs estimateurs possibles. Pour cela, il faut se donner des critères de compa-
raison entre estimateurs. Rappelons les deux définitions ci-dessous, données dans le
cadre de l’estimation.
Définition 8.5.1 On appelle fonction de perte L toute application mesurable posi-

tive, définie sur (Θ × D, T ⊗ D)
c Michel CARBON
8.5 Vers l’amélioration de certains estimateurs 187
Cette fonction mesure la perte résultant de la décision : “on choisit d dans D au

vu de x pour estimer g(θ)”.
On supposera souvent de plus que L est convexe en d, ou strictement convexe en

d. On supposera également toujours que :
L (θ, g(θ)) = 0, ∀θ ∈ Θ.
Exemple 8.5.2 La perte quadratique, L (θ, d) = [d − g(θ)]2 .
Définition 8.5.2 Le risque d’un estimateur δ : (X , A) → (D, D) est la perte

moyenne que fait subir cet estimateur. C’est la fonction :
R (θ, δ) = Eθ {L (θ, δ(X))} .
Exemple 8.5.3 Dans le cas du choix de la perte quadratique,
L (θ, d) = [d − g(θ)]2 ,
le risque associé, appelé risque quadratique vaut :

Z
R (θ, δ) = (δ(x) − g(θ))2 fθ (x) dx.
X
où fθ (x) est la densité de X si la loi est absolument continue, ou la fonction de masse

dans le cas discret, en remplaçant dans ce dernier cas l’intégrale par une somme.
Ces définitions étant données, nous allons essayer de proposer des estimateurs de
g(θ) ayant, si possible, un risque minimum pour tout θ de Θ.
Soit δ un estimateur de g(θ). On suppose seulement que :

 Eθ (|δ|) < +∞, ∀θ ∈ Θ,
R (θ, δ) = Eθ [L (θ, δ)] < +∞, ∀θ ∈ Θ.


Soit T une statistique exhaustive définie sur X , à valeur dans S. Pour tout t ∈ S,
on pose :
η(t) = Eθ [δ(X)|T = t] = E [δ(X)|T = t] .
Bien entendu, η ne dépend pas de θ, car T étant exhaustive, la loi de X étant donné
T = t ne dépend pas de θ, et donc, a fortiori, la loi de δ(X) étant donné T = t ne
dépend pas de θ. D’autre part, η(t) ∈ D. Donc η(t) définit un nouvel estimateur de
g(θ), en prenant pour estimation de g(θ) la valeur η (T (x)) , au vu de l’échantillon x.
On notera η ce nouvel estimateur. Sous l’hypothèse que L est strictement convexe
en d, on montre que η est strictement meilleur que δ au sens du risque minimum.
Théorème 8.5.1 (Rao-Blackwell) Soit X une variable aléatoire réelle de loi Pθ ∈

P = {Pθ0 ; θ0 ∈ Θ} . Soit T une statistique exhaustive pour P. Soit δ un estimateur
c Michel CARBON
Figure 8.4 – C.R. Rao (1920-...) Figure 8.5 – D. Blackwell (1919-2010)
de g(θ). Soit L (θ, d) une fonction de perte strictement convexe en d. Alors, si δ a

une espérance finie et un risque fini :

 Eθ (|δ|) < +∞, ∀θ ∈ Θ,
R (θ, δ) = Eθ [L (θ, δ)] < +∞, ∀θ ∈ Θ,


et si
η(t) = E [δ(X)|T = t] ,
le risque de l’estimateur η(T ) satisfait à :
R (θ, η) < R (θ, δ) , ∀θ ∈ Θ
(sauf si δ(X) = η (T (X)) , Pθ − p.s. , ∀θ ∈ Θ).
Démonstration : θ étant fixé, on applique l’inégalité de Jensen à la fonction

strictement convexe L (θ, d) ,
L (θ, η(t)) = L (θ, E [δ(X)|T = t])

< E [L (θ, δ(X)) |T = t]
(les espérances sont prises par rapport à la loi conditionnelle de X sachant que
T = t). En prenant l’espérance de chaque côté, on obtient :
R (θ, η) = Eθ [L (θ, η)] < Eθ [L (θ, δ)] = R (θ, δ) .
Remarque : Si la fonction de perte est seulement supposée convexe en d, l’inégalité

de Rao-Blackwell devient : R (θ, η) ≤ R (θ, δ) pour tout θ de Θ. Le résultat reste
tout de même intéressant, en ce sens qu’étant donné un estimateur quelconque, on
obtient un estimateur au moins aussi bon en le conditionnant par une statistique
exhaustive.
c Michel CARBON
8.5.2 Paramètre vectoriel

Les considérations précédentes peuvent être étendues au cas où l’on veut estimer
le paramètre vectoriel g(θ) = [g1 (θ), . . . , gk (θ)]0 . Un estimateur δ de g(θ) s’écrira
sous la forme :
δ(X) = [δ1 (X), . . . , δk (X)]0 .
Supposons que D = g(Θ) soit un ouvert convexe de Rk . Considérons une fonction
de perte L (θ, d) strictement convexe en d, pour tout θ de Θ. Soit T une statistique
exhaustive pour P = {Pθ , θ ∈ Θ} . Posons
η(t) = (η1 (t), . . . , ηk (t))0 = Eθ [δ|T = t] .
Alors le théorème de Rao-Blackwell s’énonce de la même façon, et on obtient :
R (θ, η) < R (θ, δ) , ∀θ ∈ Θ
(sauf si δ(X) = η (T (X)) P − p.s.).
8.5.3 Application au risque quadratique

Dans le cas d’un problème d’estimation unidimensionnel pour un paramètre g(θ),
on emploie généralement la perte quadratique :
L (θ, d) = [d − g(θ)]2 .
Dans le cas d’un problème d’estimation multidimensionnel pour un paramètre g(θ) ∈

Rk , la généralisation la plus couramment utilisée est la perte quadratique matricielle :
L (θ, d) = [d − g(θ)] [d − g(θ)]0 .
C’est, bien sûr, une perte à valeurs dans l’ensemble des matrices symétriques. En fait,
utiliser cette fonction de perte matricielle revient à utiliser la famille des fonctions
de pertes scalaires :
2
Lu (θ, d) = (u0 [d − g(θ)]) ∀u ∈ Rk
Xk
= ui uj (di − gi (θ)) (dj − gj (θ)) .
i, j=1
L’étude de la perte se fait donc dans toutes les directions possibles. Lu (θ, d) étant une
perte scalaire, on peut alors appliquer le théorème de Rao-Blackwell (sous réserve
des hypothèses de ce théorème – supposées ici vérifiées) :
∀u ∈ Rk , Ru (θ, η) = Eθ [Lu (θ, η)] ≤ Eθ [Lu (θ, δ)] = Ru (θ, δ) .
Le risque est donc inférieur dans toutes les directions.

Posons Γη la matrice de terme général :
Eθ [(ηi − gi (θ)) (ηj − gj (θ))] ,
c Michel CARBON
et Γδ la matrice de terme général :

Eθ [(δi − gi (θ)) (δj − gj (θ))] .
On obtient donc :
∀u ∈ Rk , ut Γη u ≤ ut Γδ u,
c’est-à-dire :
∀u ∈ Rk , ut (Γδ − Γη ) u ≥ 0.
La matrice Γδ − Γη est donc positive. Au sens de la relation d’ordre sur les matrices
symétriques k × k, Γη est plus petite que Γδ (Γη et Γδ sont appelés les risques
matriciels respectifs des estimateurs η et δ).
Exemple 8.5.4 Considérons deux observations X1 et X2 indépendantes, extraites

de la loi de Poisson P(λ). On sait que le paramètre λ s’interprète à la fois comme
la moyenne et la variance de cette loi. Il paraît donc naturel de proposer comme
estimateurs de λ :
(i) la moyenne empirique :
X1 + X2
δ1 (X) = ;
2
(ii) la variance empirique :
" 2 2 #
1 X1 + X 2 X1 + X2
δ2 (X) = X1 − + X2 −
2−1 2 2
(X1 − X2 )2
= .
2
Considérons la fonction de perte quadratique :
L (λ, δ(x)) = [δ(X) − λ]2 ,
et le risque associé :
R (λ, δ) = Eλ [L (λ, δ(X))] .
Nous allons calculer le risque pour δ1 et pour δ2 . Pour cela, on rappelle que (si X
suit une loi P(λ)) :
E(X) = λ; E(X 2 ) = λ + λ2 ; E(X 3 ) = λ + 3λ2 + λ3 ,
et
E(X 4 ) = λ + 7λ2 + 6λ3 + λ4 .
(i) Risque de δ1 :
" 2 #
X1 + X2
R (λ, δ1 ) = Eλ −λ
2

1 2
= E (X + X22 + 2X1 X2 ) + λ2 − λ(X1 + X2 )
4 1
1 λ2 λ
= (λ + λ2 ) + + λ2 − 2λ2 = .
2 2 2
c Michel CARBON
(ii) Risque de δ2 :
" 2 #
(X1 − X2 )2
R (λ, δ2 ) = E −λ
2
(X1 − X2 )4

2 2
= E + λ − λ(X1 − X2 )
4

1
= E (X14 − 4X13 X2 + 6X12 X22 − 4X1 X23 + X24 )
4
+λ2 − λX12 + 2λX1 X2 − λX22

1
= (λ + 7λ2 + 6λ3 + λ4 ) − 2(λ + 3λ2 + λ3 )
2
3
+ (λ + λ2 )2 + λ2 − λ(λ + λ2 ) + 2λ2 − λ(λ + λ2 )
2
λ
= + 2λ2
2
Donc, dans cet exemple : ∀λ > 0, R (λ, δ2 ) > R (λ, δ1 ), et l’estimateur moyenne
empirique est préférable à l’estimateur variance empirique, au sens du risque qua-
dratique.
c Michel CARBON
c Michel CARBON
Chapitre 9
Estimation sans biais
Un esprit fin et un esprit de finesse sont très différents. Le premier plaît toujours,
il est délié, il pense des choses délicates, et voit les plus imperceptibles : un esprit de
finesse ne va jamais droit ; il cherche des biais et des détours pour faire réussir ses
desseins. Cette conduite est bientôt découverte ; elle se fait toujours craindre, et ne
mène presque jamais aux grandes choses.
La Rochefoucauld
Le concept de "sans biais" a été introduit par Gauss en 1821 dans son travail sur
les moindres carrés.
Les estimateurs sans biais uniformément de variance minimale ont été obtenus
par Aitken et Silvestone en 1942. Halmos (1946) et Kolmogorov ont montré, dans
certains cas particuliers, l’unicité de tels estimateurs sans biais. De manière plus
générale, Rao (1947) a montré que cela valait en toute généralité. La méhode I pour
déterminer des estimateurs sans biais est dur à Tweedie (1947).
Soit (X , A, P) un modèle statistique paramétrique, où P = {Pθ , θ ∈ Θ} . Soit

g(θ) une fonction donnée du paramètre θ, à valeurs dans D ⊂ R (D est un intervalle
réel). Soit L une fonction de perte convexe en d :
d 7−→ L (θ, d) convexe , ∀θ ∈ Θ.
On a vu dans le chapitre précédent comment le théorème de Rao-Blackwell a permis

de remplacer un estimateur quelconque δ de g(θ) par un estimateur η de risque
inférieur :
∀θ ∈ Θ , R (θ, η) ≤ R (θ, δ) .
Hélas, il n’existe pas, en toute généralité, d’estimateur δ0 qui soit uniformément le
meilleur au sens du risque minimal, c’est-à-dire tel que, pour tout autre estimateur
δ :
∀θ ∈ Θ , R (θ, δ0 ) ≤ R (θ, δ) .
Par exemple, si d ∈ g(Θ), alors l’estimateur constant δ ≡ d a un risque nul pour
tout θd tel que g(θd ) = d. Donc il n’existe pas d’estimateur optimal.
193
194 CHAPITRE 9. ESTIMATION SANS BIAIS
9.1 Principes de réduction de l’ensemble des esti-

mateurs
Comme il n’existe pas d’estimateur préférable à tous les autres, il faudra définir
une façon de choisir dans l’ensemble des estimateurs. Il est donc intéressant d’exa-
miner quelques propriétés supplémentaires qu’on pourrait imposer aux estimateurs.
9.1.1 Principe d’invariance

Une idée naturelle consiste à ne retenir que des estimateurs simples à manier.
On est donc souvent conduit :
- Pour estimer des paramètres, du type moyenne, à ne retenir que des estimateurs
fonctions linéaires des observations :
n
X
δ (X1 , . . . , Xn ) = ai X i .
i=1
- Pour estimer des paramètres, de type variance, à ne retenir que des estimateurs
fonctions quadratiques des observations :
n
X
δ (X1 , . . . , Xn ) = aij Xi Xj .
i,j=1
Les contraintes ainsi imposées à la forme des estimateurs s’interprètent comme

une propriété ”d’invariance” pour un groupe de transformations. Les estimateurs
linéaires peuvent, par exemple, être considérés comme des estimateurs satisfaisant
la condition d’invariance :
δ [f (X)] = f [δ(X)] ,
où f appartient au groupe des applications linéaires inversibles de Rn dans Rn .
9.1.2 Principe de sans biais

Définition 9.1.1 Un estimateur δ est dit sans biais de g(θ) si et seulement si :
Eθ [δ(X)] = g(θ) , ∀θ ∈ Θ.
Un estimateur est donc sans biais si, en moyenne, la valeur proposée est égale à
la valeur recherchée, et ceci, quelle que soit la valeur inconnue du paramètre (voir
dernier exemple du chapitre 4, où δ1 et δ2 sont sans biais).
9.1.3 Principes asymptotiques

Quand le nombre des observations est assez grand, il est intéressant de n’imposer
sur l’estimateur que des contraintes asymptotiques. Il faut alors définir une suite de
modèles (X n , B ⊗n , P ⊗n ) indexés par le nombre n d’observations . Pour estimer le
paramètre g(θ), on peut considérer une suite d’estimateurs (δn , n ∈ IN ), où δn est
une application de X n dans g(Θ). Le principe de sans biais peut n’être considéré
que pour le cas limite.
c Michel CARBON
9.1 Principes de réduction de l’ensemble des estimateurs 195
Définition 9.1.2 La suite d’estimateurs {δn , n ∈ IN } est asymptotiquement sans

biais si et seulement si :
lim Eθ δn (X) = g(θ) , ∀θ ∈ Θ.

n→+∞
(l’espérance est prise par rapport à Pθ⊗n ).
Un autre principe naturel est d’imposer que l’estimateur δn s’approche en un

certain sens de la vraie valeur inconnue g(θ).
Définition 9.1.3 Une suite d’estimateurs est dite :

(i) convergente en probabilité si δn (X) converge en probabilité vers g(θ), pour tout
θ de Θ :
∀ε > 0, Pθ⊗n (kδn (X) − g(θ)k > ε) −→ 0 , ∀θ ∈ Θ;

n→+∞
m.q.
(ii) converger en moyenne quadratique, δn −→ g(θ), si et seulement si :
n→+∞
Eθ kδn (X) − g(θ)k2

−→ 0,
n→+∞
∀θ ∈ Θ.
(iii) fortement convergente si et seulement si δn (X) converge presque sûrement vers

g(θ), ∀θ ∈ Θ.
Comme cela est bien connu, on a :
CV forte ⇒ CV faible
CV en m.q. ⇒ CV faible
Les convergences faibles et fortes ont la propriété intéressante de se conserver par

transformation des estimateurs par une application continue.
Propriété 9.1.1 Si δn est un estimateur convergeant en probabilité (respective-

ment fortement) de g(θ), si h est une application continue définie sur g(Θ), h(δn )
est un estimateur de h [g(θ)] convergeant en probabilité (respectivement fortement)
convergent.
La convergence la plus simple à vérifier est la convergence en moyenne quadra-

tique, car :
m.q.
Propriété 9.1.2 δn −→ g(θ), ∀θ ∈ Θ si et seulement si :
n→+∞

 Eθ [δn (X)]
 −→ g(θ)
n→+∞
, ∀θ ∈ Θ,
 Vθ [δn (X)] −→ 0

n→+∞
c’est-à-dire si l’estimateur est asymptotiquement sans biais et sa variance tend vers

zéro.
c Michel CARBON
Démonstration :
Eθ kδn (X) − g(θ)k2 = Eθ (δn (X) − g(θ))0 (δn (X) − g(θ))

= Eθ [(δn (X) − Eθ δn (X) + Eθ δn (X) − g(θ)) 0

× (δn (X) − Eθ δn (X) + Eθ δn (X) − g(θ))]
= Eθ (δn (X) − Eθ δn (X))0 (δn (X) − Eθ δn (X))

+Eθ (Eθ δn (X) − g(θ))0 (Eθ δn (X) − g(θ))

= Tr [V (δn (X)] + kEθ δn (X) − g(θ)k2
9.2 Méthodes de recherche de ”bons estimateurs”

Classiquement, on peut distinguer les méthodes suivantes :
- Les approches consistant à rechercher le meilleur estimateur dans la classe des
estimateurs contraints à satisfaire certaines propriétés.
- Celles consistant à choisir cet estimateur par maximisation ou minimisation d’un
critère, et à examiner ensuite si l’estimateur obtenu possède de bonnes pro-
priétés.
9.2.1 Recherche dans une sous-classe

Les procédures classiques consistent à rechercher le meilleur estimateur sans biais,
ou le meilleur estimateur linéaire sans biais. On verra que, pour certains modèles,
de tels éléments optimaux existent (voir modèle exponentiel-modèle linéaire).
Une autre approche consiste à introduire de manière intuitive une famille d’esti-
mateurs naturels de g(θ), puis à chercher le meilleur estimateur dans cette famille.
Cette approche conduira à la méthode des moments et à ses extensions (moindres
carrés asymptotiques et méthode des moments généralisés).
9.2.2 Optimisation d’un critère

La méthode la plus classique est la méthode du maximum de vraisemblance
(M.V.). Elle consiste à calculer la vraisemblance lθ (x), et à retenir comme estimation
θ(x)
b de θ une solution, s’il en existe, de max lθ (x).
θ∈Θ
D’autres fonctions objectifs peuvent être retenues. Ce cas conduit en particulier
aux méthodes des moindres carrés, et du pseudo-maximum de vraisemblance.
9.2.3 Estimateurs uniformément de variance minimale

Le problème de la recherche d’un estimateur qui soit uniformément de risque
minimal admet souvent une solution si on se restreint à la classe des estimateurs sans
biais (E.S.B.). Dans ce qui suit, nous utiliserons la fonction de perte quadratique :
L (θ, d) = (d − g(θ))2 , car elle se prête mieux aux généralisations dans Rk . Le risque
c Michel CARBON
9.2 Méthodes de recherche de ”bons estimateurs” 197
d’un estimateur sans biais δ n’est autre que sa variance, pour cette fonction de perte :
R (θ, d) = Eθ (L (θ, d)) = Eθ (δ − g(θ))2

= Eθ (δ(X) − Eθ δ(X))2 = Vθ (δ).

Le problème consiste donc ici à chercher des estimateurs uniformément de variance

minimale parmi les E.S.B. (de tels estimateurs seront notés dans la suite E.S.B.U.V.M.).
Le théorème suivant éclaire la situation :
Théorème 9.2.1 (Théorème de Lehmann-Scheffé) Soit S une statistique ex-

haustive complète pour un modèle paramétrique. S’il existe un E.S.B. de g(θ), il
existe un E.S.B. fonction de S. Cet E.S.B. fonction de S est l’unique E.S.B. fonc-
tion de S, et il est uniformément de variance minimale.
Démonstration :
Soit δ un E.S.B. quelconque de g(θ) : Eθ (δ) = g(θ), ∀θ ∈ Θ. Soit η son amélioré
de Rao-Blackwell :
η(δ) = Eθ (δ | S) = E(δ | S) (car S exhaustive).
Alors η est aussi un E.S.B. de g(θ) . En effet :
∀θ ∈ Θ, Eθ [η(S)] = Eθ [E(δ | S)] = Eθ (δ) = g(θ).
De plus, il n’existe pas d’autre E.S.B. de g(θ), fonction de S. En effet, supposons

qu’il existe deux estimateurs δ1 et δ2 sans biais de g(θ), tous deux fonctions de S.
Posons : f (S) = δ1 (S) − δ2 (S). δ1 et δ2 étant sans biais,
Eθ [f (S)] = Eθ [δ1 (S)] − Eθ [δ2 (S)]

= g(θ) − g(θ) = 0, ∀ θ ∈ Θ.
Comme S est complète, alors
f = 0 , PθS − ps, ∀ θ ∈ Θ ⇔ δ1 (S) = δ2 (S) , PθS − ps, ∀ θ ∈ Θ
Donc le conditionnement d’un E.S.B. quelconque par la statistique exhaustive com-

plète S donne toujours presque sûrement le même amélioré de Rao-Blackwell, qui
est sans biais. Cet amélioré est donc uniformément de variance minimale parmi les
E.S.B.
Cela suggère deux méthodes de recherche d’estimateurs E.S.B.U.V.M. :
(i) Si S est une statistique exhaustive et complète, l’estimateur E.S.B.U.V.M.
parmi les E.S.B. d’une fonction g(θ), est le seul qui satisfasse à la condition :
Eθ [δ(S)] = g(θ), ∀θ ∈ Θ.
(ii) Soit S une statistique exhaustive complète. Soit δ un E.S.B. quelconque de

g(θ). Grâce au théorème de Lehmann-Scheffé, l’estimateur E.S.B.U.V.M. parmi
les E.S.B. est défini de manière unique par :
∀θ ∈ Θ, η(S) = Eθ [δ | S] = E [δ | S]
c Michel CARBON
Exemples
1. Le modèle statistique d’un échantillon de taille n de la loi de Bernouilli de
paramètre p ∈]0, 1[ a pour densité :
n
Y
pxi (1 − p)1−xi 11{0,

lp (x1 , . . . , xn ) = 1} (xi )
i=1
" n
# n
X p Y
= exp xi Ln + n Ln(1 − p) · 11{0, 1} (xi ).
i=1
1−p i=1
C’est un modèle exponentiel de plein rang, où l’espace des paramètres H = R,

n
P
et où T (X1 , . . . , Xn ) = Xi est la statistique privilégiée. On rappelle qu’alors
i=1
T est exhaustive minimale et complète.
Cherchons à estimer sans biais le paramètre g(p) = p(1 − p). Il suffit pour cela
de trouver un estimateur δ,fonction de T tel que :
n
X
∀p ∈]0, 1[, Ep (δ (T )) = Cnt δ(t) pt (1 − p)n−t = p(1 − p),
t=0
p s 1
car T est de loi B (n, p) . Posons : s = . Alors : p = et 1−p = .
1−p 1+s 1+s
D’où (n > 1) :
n
∀s ∈ R∗+ , Cnt δ(t) st = s(1 + s)n−2
P
t=0
n−1
t−1 t
P
= Cn−2 s.
t=1
En égalant les coefficients d’une même puissance de s, on obtient :
t−1 t(n − t)
∀t = 1, . . . , n − 1, Cnt δ(t) = Cn−2 ⇒ δ(t) = ;
n(n − 1)
pour t = 0, Cn0 δ(0) = 0 ⇒ δ(0) = 0,
pour t = n, Cnn δ(n) = 0 ⇒ δ(n) = 0.
t(n − t)
D’où, globalement : δ(t) = pour tout t = 0, 1, . . . , n. Donc ici,
n(n − 1)
l’E.S.B.U.V.M. de g(p) est :
n
n

P P
Xi n − Xi
i=1 i=1
δ (X1 , . . . , Xn ) = .
n(n − 1)
Remarque 9.2.1 Pour n = 1, on peut noter que g(p) n’est pas estimable sans
biais. En effet, pour n = 1, on a :
Ep (δ) = δ(0) (1 − p) + δ(1) p = δ(0) + p (δ(1) − δ(0)) .
c Michel CARBON
Donc, seules les fonctions affines de p sont alors estimables sans biais.
1
Pour n quelconque, g(p) = n’est pas estimable sans biais. En effet, si p → 0,
p
alors Ep (δ) → δ(0), alors que, g(p) → +∞ !!!
2. On considère le modèle d’un échantillon de taille n de la loi uniforme sur [0, θ]
(θ > 0). Sa densité vaut :
1
lθ (x1 , . . . , xn ) = 11(inf xi ≥0) · 11(sup xi ≤θ) .
θn
Pour estimer θ, la statistique T (X1 , . . . , Xn ) = sup Xi est intéressante, car
1≤i≤n
exhaustive (th. de factorisation), mais T est évidemment biaisée, car toujours
inférieure à θ (calcul à effectuer en exercice).
Si l’on considère la statistique
n
2X
δ (X1 , . . . , Xn ) = 2X = Xi ,
n i=1
alors on a :
Eθ (δ) = θ, ∀θ > 0.
−→ θ d’après la loi des grands
C’est un E.S.B. De plus, δ (X1 , . . . , Xn ) n→+∞
nombres. Mais δ (X1 , . . . , Xn ) n’est pas une fonction de T, donc δ (X1 , . . . , Xn )
n’est pas de variance minimale (qu’elle ne soit pas fonction de T est évident,
car on ne peut calculer la moyenne d’un échantillon en connaissant uniquement
la plus grande valeur). Cependant, T est exhaustive et complète (le démontrer
en exercice). On va l’utiliser pour trouver un estimateur E.S.B.U.V.M. Consi-
θ
dérons l’estimateur grossier sans biais de défini par : S (x1 , . . . , xn ) = x1 .
2
Pour déterminer son amélioré de Rao-Blackwell, on peut remarquer que :
E (S | T = t)

= E X1 | sup Xi = t
1≤i≤n

= P sup Xi = X1 · E X1 | X1 = t, sup Xi = X1
1≤i≤n 1≤i≤n
n
X
+ P sup Xi = Xj E (X1 | Xj = t, X1 < t, Xi < t, i 6= 1, j)
1≤i≤n
j=2

1 n−1 1 t
= t+ · E (X1 | X1 < t) = t + (n − 1)
n n n 2
(n + 1) t
= .
2n
Donc : !
n
2X 2 (n + 1) t n+1
E Xi | sup Xi = t = = t.
n i=1 1≤i≤n n 2 n
c Michel CARBON
L’amélioré de Rao-Blackwell est donc :

n+1
η(T ) = T.
n
2P n
Or : Xi est un estimateur sans biais de θ. Ainsi, d’après le théorème de
n i=1
Lehmann-Scheffé, l’estimateur
n+1
η (X1 , . . . , Xn ) = sup Xi
n 1≤i≤n
est uniformément de variance minimale, parmi les E.S.B.

Une autre manière d’aborder le problème est de calculer :
ntn
Z
n n+1
Eθ (T ) = n
dλ(t) = θ ⇒ Eθ T = θ,
[0, θ] θ n+1 n
n+1
et comme · T est fonction de T, statistique exhaustive et complète, c’est
n
l’estimateur E.S.B.U.V.M. parmi les E.S.B.
9.2.4 Applications
Cas d’échantillons gaussiens
Soit (x1 , . . . , xn ) un échantillon gaussien de la loi N (ζ, σ 2 ) . Sa vraisemblance
vaut : " #
n n
1 1 X
f (x1 , . . . , xn ) = √ exp − 2 (xi − ζ)2 .
2π σ 2σ i=1
a) σ connu :
Supposons la variance connue. Alors la vraisemblance s’écrit :
n " n
# " n
#
ζ2 n

1 ζ X 1 X 2
f (x1 , . . . , xn ) = √ exp 2 xi − exp − 2 x .
2π σ σ i=1 2σ 2 2σ i=1 i
ζ Pn ζ2 n
Si on pose : η = et T (X 1 , . . . , X n ) = X i , A(η) = et
σ2 i=1 2σ 2
n " n
#
1 1 X 2
h (x1 , . . . , xn ) = √ exp − 2 x ,
2π σ 2σ i=1 i
on voit que le modèle est exponentiel de plein rang (η ∈ R).

T est la statistique
privilégiée
: elle est exhaustive minimale et complète.
n
P n
P
Or : E (T (x)) = E Xi = E(Xi ) = nζ.
i=1 i=1
1
D’où : X = T (X1 , . . . , Xn ) vérifie E(X) = ζ. X, moyenne de l’échantillon,
n
est donc un E.S.B. de ζ, fonction de T, statistique exhaustive complète. D’après le
c Michel CARBON
théorème de L.S., X est E.S.B.U.V.M. pour ζ. Plus généralement, si une fonction g

de ζ est estimable sans biais (ce qui n’est pas toujours le cas), il existe un estimateur
sans biais, fonction de X qui soit de variance minimale.
2 2
Exemple
2
: Soit g(ζ) = ζ (toujours avec σ connu). La loi de X est la loi
σ
N ζ, . D’où :
n
2 2 σ 2 2 σ2
σ 2 (X) = E(X ) − E(X) = + ζ 2.

⇒ E(X ) =
n n
2 σ2
Donc l’estimateur δ (X1 , . . . , Xn ) = X − vérifie :
n
E [δ (X1 , . . . , Xn )] = ζ 2 .
δ (X1 , . . . , Xn ) est donc sans biais pour ζ 2 , et est fonction de X, statistique exhaustive
et complète ; donc δ (X1 , . . . , Xn ) est l’E.S.B. de variance minimale de ζ 2 .
b) ζ connu :
On a :
n " n
#
1 1 X
f (x1 , . . . , xn ) = √ exp − 2 (xi − ζ)2 .
2π σ 2σ i=1
n
Sous cette forme, S 2 = (Xi − ζ)2 apparaît comme la statistique privilégiée d’un
P
i=1
1 ∗
modèle exponentiel de plein rang η = − 2 ∈ R− . Donc, S 2 est exhaustive mi-
2σ
nimale et complète. Or :
Xi − ζ
Xi ∼ N ζ, σ 2

⇔ ∼ N (0, 1) .
σ
2
S2

Pn Xi − ζ
Donc 2 = est une somme de carrés de gaussiennes indépendantes,
σ i=1 σ
S2
2
2 S S2
donc 2 suit une loi du χn . Par suite : E = n. Donc est d’espérance
σ σ2 n
S2
σ 2 . L’estimateur est un estimateur sans biais de σ 2 , fonction d’une statistique
n
exhaustive complète, donc de variance uniformément minimale.
c) ζ et σ 2 sont inconnus :
La vraisemblance s’écrit :
n " n n
#
ζ2 n

1 1 X 2 ζ X
f (x1 , . . . , xn ) = √ exp − 2 x + xi − − n Lnσ
2π 2σ i=1 i σ 2 i=1 2σ 2
Posons :
1 ζ
η1 ζ, σ 2 = − 2 , η2 ζ, σ 2 = 2 ,

2σ σ
c Michel CARBON
n
X n
X
T1 (X1 , . . . , Xn ) = Xi2 , T2 (X1 , . . . , Xn ) = Xi ,
i=1 i=1
n
ζ2 n

1
h (x1 , . . . , xn ) = √ , A ζ, σ 2 = + n Lnσ,
2π 2σ 2
(η1 , η2 ) ∈ R∗− × R ouvert convexe d’intérieur non vide de R2 . Donc le modèle est
exponentiel, de plein rang. La statistique privilégiée T ∗ = (T1 , T2 ) est exhaustive
minimale et complète.
n
Il est aisé de vérifier que X, (Xi − X) = (T, S 2 ) lui est équivalente. Donc
2
P
i=1
(T, S 2 ) est exhaustive, minimale et complète. Comme T = X est un E.S.B. de ζ, il
en résulte que X est encore l’E.S.B.U.V.M. de ζ, comme fonction de (T, S 2 ) .
2
2
S S S2
D’autre part, on sait que 2 ∼ χ2n−1 , donc E = n − 1 et est
σ σ2 n−1
S2
un E.S.B. de σ 2 . Donc est fonction de (T, S 2 ) , et c’est l’E.S.B.U.V.M. de σ 2 .
n− 1
S2

Globalement, T, est l’estimateur fonction de (T, S 2 ) , statistique exhaustive
n−1
complète ;et il est sans
biais.
S2
Donc T, est l’E.S.B.U.V.M. du couple (ζ, σ 2 ) .
n−1
Application au modèle linéaire

Supposons que Xi suive une loi normale N (ζi , σ 2 ) et ce, pour i = 1, . . . , n.
On suppose, de plus, les Xi indépendantes. D’autre part, supposons que : ζ =
(ζ1 , . . . , ζn )t appartienne à H ⊂ Rn , où H est un s.e.v. de dimension s < n. Il est
utile de réduire ce modèle à une forme canonique au moyen d’une transformation
orthogonale.
Soit C une matrice orthogonale dont les s premières colonnes engendrent H.
Posons :
Y = XC,
ηi = E(Yi ).
On a alors : t  t
η1 ζ1
η = ζC, où η =  ...  et ζ =  ...  .
   
ηn ζn
Pour déterminer la loi des Yi , on note que la loi de (X1 , . . . , Xn ) est de densité :
n " n
#
1 1 X
√ exp − 2 (xi − ζi )2 .
2π σ 2σ i=1
De plus, comme C est orthogonale de déterminant 1, on a :

n
X n
X
2
(xi − ζi ) = (yi − ηi )2 .
i=1 i=1
c Michel CARBON
Alors (Y1 , . . . , Yn ) a pour densité :

n " n
#
1 1 X
√ exp − 2 (yi − ηi )2 .
2π σ 2σ i=1
Donc les Yi sont des v.a.r. indépendantes, normales avec : Yi suit N (ηi , σ 2 ) . i =
1, . . . , n. Ici :    
η1 ζ1
η =  ...  ∈ Rs quand ζ =  ...  ∈ H.
   
ηn ζn
Bien sûr ζ ∈ H ⇔ ζ est orthogonal aux n − s dernières colonnes de C. Puisque
η = ζ · C, on en déduit que :
ζ∈H ⇔ ηs+1 = · · · = ηn = 0.
Donc ce modèle canonique peut s’écrire sous la forme :
Yi ∼ N ηi , σ 2

pour i = 1, . . . , s,
2

Yi ∼ N 0, σ pour i = s + 1, . . . , n,
et les Yi sont indépendantes. On peut alors écrire la densité conjointe des Yi sous la
forme :
n " n
#
1 1 X
√ exp − 2 (yi − ηi )2
2π σ 2σ i=1
n " n s s
#
1 1 X 2 1 X 1 X 2
= √ exp − 2 y + yi ηi − 2 η
2π σ 2σ i=1 i σ 2 i=1 2σ i=1 i
n

Yi2 , Y1 , . . . , Ys
P
La statistique est la statistique privilégiée de ce modèle expo-
i=1
nentiel. Le paramètre correspondant est :

1 η1 ηs
− 2 , 2 , . . . , 2 ∈ R∗+ × Rs ouvert convexe de Rs .
2σ σ σ
Le modèle est de plein rang. Donc la statistique ci-dessus

est exhaustive,
minimale
n
Yi2 est aussi
P
et complète. Bien sûr, la statistique équivalente Y1 , . . . , Ys ,
i=s+1
exhaustive, minimale et complète.
s
P
Théorème 9.2.2 Soient λ1 , . . . , λs des constantes fixées. L’E.S.B.U.V.M. de λi ηi
i=1
s 1 n
λi Yi . L’E.S.B.U.V.M. de σ 2 est Y 2.
P P
est
i=1 n − s i=s+1 i
Démonstration :
c Michel CARBON
s
λi Yi , où Yi ∼ N (ηi , σ 2 ) .
P
a) Posons T =
i=1
Ps s
P
Donc : E(T ) = λi E(Yi ) = λi η i .
i=1 i=1
Ps
Donc T est un E.S.B. de λi ηi . Comme T est fonction de la statistique exhaus-
i=1
n
2
P
tive complète Y1 , . . . , Ys , Yi , d’après le théorème de Lehmann-Scheffé c’est
i=s+1
s
P
l’E.S.B.U.V.M. de λi η i .
i=1
b) Pour i = s + 1, . . . , n, Yi ∼ N (0, σ 2 ). Donc

n
Yi2
P
n 2
S2 i=s+1
X Yi
= =
σ2 σ2 i=s+1
σ
S2

suit un χ2n−s . Donc E = n − s. Par suite, un E.S.B. de σ 2 est donc
σ2
S2 1 n
2 S2 1 n
Yi2 est une fonction de la
P P
= Yi . Comme =
n−s n − s i=s+1 n − s n − s i=s+1
n
Yi2 , c’est un E.S.B.U.V.M.
P
statistique exhaustive complète Y1 , . . . , Ys ,
i=s+1
d’après le théorème de Lehmann-Scheffé.
Il serait, bien sûr, préférable que l’estimateur s’exprime en fonction des v.a.r. Xi
originelles. Pour cela, introduisons la définition suivante :
Définition 9.2.1 Soit ζ = (ζ1 , . . . , ζn ) ∈ H. Alors les estimateurs des moindres

n
(Xi − ζi )2 sous la
P
carrés ζb = (ζb1 , . . . , ζbn ) de ζ sont ceux qui minimisent :
i=1
contrainte : ζ ∈ H.
n
P
Théorème 9.2.3 Soient γ1 , . . . , γn des constantes fixées. L’E.S.B.U.V.M. de γi ζi
i=1
s 1 n
γi ζbi . L’E.S.B.U.V.M. de σ 2 est (Xi − ζbi )2 .
P P
est
i=1 n − s i=s+1
Démonstration :
C étant une matrice orthogonale, on a vu que :
n
X n
X
2
(Xi − ζi ) = [Yi − E(Yi )]2 (9.1)
i=1 i=1
Xs n
X
2
= (Yi − ηi ) + Yj2 .
i=1 j=s+1
La somme de droite est clairement minimisée par :

ηbi = Yi pour i = 1, . . . , s.
c Michel CARBON
La somme de gauche est minimisée par (ζb1 , . . . , ζbn ). Alors :

(Y1 , . . . , Ys , 0, . . . , 0) = ζ1 , . . . , ζn C = ζb · C.
b b
Donc :
ζb = (Y1 , . . . , Ys , 0, . . . , 0) C −1 .
n
P
Il en découle que chaque ζbi et, a fortiori, γi ζbi , est alors une fonction linéaire
i=1
variables n(Y1 , . .
des . , Ys ) , donc également de la statistique exhaustive complète
P 2
Y1 , . . . , Y s , Yi . De plus :
i=s+1
b = E [(Y1 , . . . , Ys , 0, . . . , 0) C −1 ] = (η1 , . . . , ηs , 0, . . . , 0) C −1 = ζ.
E(ζ)
P n n
P
Donc, chaque ζbi est sans biais pour ζi , d’où γi ζbi est sans biais pour γi ζi .
i=1 i=1
n
P n
P
D’après Lehmann-Scheffé, γi ζbi est un E.S.B.U.V.M. pour γi ζi .
i=1 i=1
D’autre part, grâce à (9.1) :
n
X s
X n
X
2 2
(Xi − ζi ) = (Yi − ηi ) + Yj .
i=1 i=1 j=s+1
On a vu que :
n
X n
X
(Xi − ζbi )2 = Yj2 .
i=1 j=s+1
1 n
Y 2 est l’E.S.B.U.V.M.
P
Comme dans le théorème précédent, on montre alors que
n − s j=s+1 j
1 P n
de σ 2 , donc que (Xi − ζbi )2 est l’E.S.B.U.V.M. de σ 2 .
n − s i=1
Le modèle que l’on vient d’étudier suppose que les v.a.r. Xi sont indépendantes,
gaussiennes, de variance et espérances inconnues, et astreintes à certaines conditions
linéaires. Nous allons maintenant considérer des modèles qui retiennent l’hypothèse
linéaire, mais ôtent l’hypothèse de normalité.
Supposons que :
E(Xi ) = ζi , ζ ∈ Hs ⊂ Rn ,
var (Xi ) = σ 2 , cov (Xi , Xj ) = 0, ∀i 6= j
(on a enlevé indépendance et normalité).
Théorème 9.2.4 (Théorème de Gauss-Markov)
Avec les notations du théorème précédent, et sous les hypothèses qui viennent
n
P n
P
d’être faites, l’estimateur γi ζbi est l’E.S.B.U.V.M. de γi ζi parmi tous les esti-
i=1 i=1
n
P
mateurs linéaires de γi ζi sans biais.
i=1
c Michel CARBON
n
P
Démonstration : L’estimateur γi ζbi est sans biais (voir théorème précédent)
i=1
n
P n
P n
P
pour γi ζi . Considérons un autre estimateur linéaire de γi ζi , sans biais ci X i .
i=1 i=1 i=1
La variance de cet estimateur dépend seulement de la matrice de variances-covariances
n
du vecteur aléatoire (X1 , . . . , Xn )t , qui est ici : σ 2 ·Idn , et de
P
γi ζi . Il en est de
i=1
n
P n
P
même pour γi ζbi , qui est U.M.V. parmi les E.S.B. de γi ζi . Donc :
i=1 i=1
n
! n
!
X X
var γi ζbi ≤ var ci X i .
i=1 i=1
n
P n
P
Donc γi ζbi est U.M.V. parmi les E.S.B. linéaires de γi ζi .
i=1 i=1
Régression linéaire simple

Soit (Xi )i=1,...,n n v.a.r. indépendantes de lois respectives N (ζi , σ 2 ) , où
 ζi 
=
1
 1 
α + βti avec ti connu (et les ti sont tous égaux). L’espace H engendré par  .. 
 
 . 
1
 
t1
 .. 
et  .  est donc de dimension s = 2. Les estimateurs des moindres carrés des ζi
tn
n
sont obtenus en minimisant A = (Xi − α − βti )2 comme fonction de α et β :
P
i=1
n
∂ X
A (α, β) = (−1) 2 · (Xi − α − βti ) = 0,
∂α i=1
n
∂ X
A (α, β) = − 2 · ti (Xi − α − βti ) = 0.
∂β i=1
D’où le système en (α, β) :

 Pn

 (Xi − α − βti ) = 0
i=1
Pn

 ti (Xi − α − βti ) = 0.
i=1
La résolution de ce système conduit à :

 Pn


 (Xi − X) (ti − t)
 βb = i=1

Pn

 (ti − t)2

 i=1
b = X − βt,
α
 b
c Michel CARBON
où n n
1X 1X
X= Xi , t= ti .
n i=1 n i=1
Donc, pour tout i = 1, . . . , n, les estimateurs des M.C.O. sont
ζbi = α
b + βt
b i.
Maintenant, pour ti 6= tj , on a :
n
P
(Xi − X) (ti − t)
i=1
ζbi = X + βt
b +
n
P ti ,
(ti − t)2
i=1
soit n
P
(Xi − X) (ti − t)
i=1
ζbj − ζbi = n
P (tj − ti ).
(ti − t)2
i=1
D’où :
ζbj − ζbi
βb = .
tj − ti
Par suite, de ζbi = α
b + βt
b i , on tire :
tj ζbi = tj α
b + βt
b i tj ,
ti ζbj = ti α
b + βt
b j ti .
Par différence, il vient :

tj ζbi − ti ζbj
α
b= .
tj − ti
On sait que les ζbi sont des E.S.B. des ζi . Donc βb et α
b sont des E.S.B. respectivement
ζj − ζi tj ζi − ti ζj
de β = et α = . Comme β et α sont des combinaisons linéaires
tj − ti tj − ti
des ζi , grâce à un théorème vu ci-dessous, βb est l’E.S.B.U.V.M. de β et α b est
l’E.S.B.U.V.M. de α.
Remarque : On n’a pas unicité de la représentation de α et de β. En effet, dès
que ti 6= tj , on obtient une représentation différente. La raison en est, bien sûr, que
(ζ1 , . . . , ζn )t ∈ H, espace de dimension 2.
Modèle de plein rang (généralisation du paragraphe précédent)

Soit (Xi )i=1,...,n n v.a.r. indépendantes de lois respectives N (ζi , σ 2 ) . Supposons
que :    
ζ1 θ1
ζ = θ · A, où ζ =  ...  et θ =  ...  ,
   
ζn θs
c Michel CARBON
avec A matrice connue s × n, de rang s (modèle dit de plein rang). Le paragraphe

précédent est un cas particulier de modèle de plein rang :

1 ··· 1
θ = (α, β) , A = .
t1 · · · tn
n
(xi − ζi θ)2 par
P
Les estimateurs des M.C.O. des ζi sont obtenus en minimisant
i=1
rapport à θ. Les estimateurs ζbi obtenus vérifient eux aussi : b θ · A.
ζ =b
Supposons que, sans perte de généralité, les s paramètres colonnes de A soient
linéairement indépendantes. Elles forment alors une sous-matrice s × s inversible A∗ .
Alors, on a :
(ζ1 , . . . , ζs ) = (θ1 , . . . , θs ) A∗ .
D’où :
(θ1 , . . . , θs ) = (ζ1 , . . . , ζs ) A∗−1 .
(ζ1 , . . . ,ζn ) . Alors, grâce à

Donc les (θ1 , . . . , θs ) = θ sont fonctions linéaires des
Gauss-Markov, chaque θbi (combinaison linéaire des ζbs , . . . , ζbn ) associé est l’esti-
mateur sans biais de variance minimale de θi .
Des exemples classiques pour lesquels ζ = θA, c’est-à-dire par lesquels ζ est une
fonction linéaire des paramètres, sont :
- Des régressions polynomiales, comme :
ζi = α + βti + γt2i (les ti sont connus; (α, β, γ) inconnus)
- Des régressions multiples, comme :
ζi = α + βti + γui (ti et ui sont connus; (α, β, γ) inconnus)
- Des modèles ayant plusieurs droites de régression de même perte :
ζij = αi + βtij (j = 1, . . . , n; i = 1, . . . , a) etc...
c Michel CARBON
Chapitre 10
Inégalité d’information
Science sans conscience n’est que ruine de l’âme.

Rabelais
Nous avons jusqu’ici étudié les estimateurs ESBUVM. Mais, g étant donnée, il
n’existe pas toujours d’ESBUVM de g(θ), pour tout θ de Θ. Que faire alors ? On
pourrait, bien sûr, chercher pour tout θ de Θ, la plus petite variance d’un ESB
de g(θ), mais c’est en général très difficile à déterminer. L’inégalité d’information,
donnée dans ce chapitre, fournit une minoration facile à calculer de cette plus petite
variance, mais hélas pas toujours atteinte.
10.1 Cas d’un paramètre unidimensionnel

10.1.1 Quantité d’information de Fischer
Il est souvent utile de faire les hypothèses suivantes :
(H0 ) (i) Θ est un intervalle ouvert (fini ou non) ;
(ii) les lois (Pθ )θ∈Θ admettent une densité pθ (x) et l’ensemble A = {x : pθ (x) > 0}
ne dépend pas de θ (i.e. les lois pθ ont même support) ;
0 ∂pθ (x)
(iii) ∀x ∈ A, ∀θ ∈ Θ, pθ (x) = existe, et est finie, et la dérivée par rapport
R ∂θ
à θ de pθ (x) dµ(x) peut s’obtenir en dérivant sous le signe intégral.
Lemme 10.1.1 Sous les hypothèses H0 , on a :

∂
∀θ ∈ Θ, Eθ ln pθ (X) = 0
∂θ

∂
ln pθ (X) s’appelle le score .
∂θ
209
CHAPITRE 10. INÉGALITÉ D’INFORMATION
210
Démonstration :
En effet, on a : Z
pθ (x) dx = 1, ∀θ ∈ Θ.
X
D’où : Z
∂
pθ (x) dx = 0, ∀θ ∈ Θ.
∂θ X
Soit, grâce à (iii) : Z

∂
pθ (x) dx = 0, ∀θ ∈ Θ,
X ∂θ
ou encore : Z
∂
ln pθ (x) pθ (x) dx = 0, ∀θ ∈ Θ,
X ∂θ
c’est-à-dire :
∂ lnpθ (X)
Eθ = 0, ∀θ ∈ Θ.
∂θ
Définition 10.1.1 On appelle information de Fischer du modèle statistique, ou en-

core information apportée par X sur θ, la variance du score, notée :

∂ lnpθ (X)
I(θ) = varθ
∂θ
Théorème 10.1.1 Supposons que les hypothèses (H0 ) soient vérifiées. Supposons
aussi que :
(H1 ) (i) la dérivée seconde,par rapport à θ, de pθ (x) existe pour tout x de A et
tout θ de Θ ;
Z
(ii) la dérivée seconde par rapport à θ de pθ (x)dx peut s’obtenir en dérivant
sous le signe intégral.
Alors I(θ) peut aussi se calculer par la formule :
2
∂
I(θ) = −Eθ lnpθ (X)
∂θ2
Démonstration :
Grâce au lemme précédent, on a :
" 2 #
∂ ∂
I(θ) = varθ lnpθ (X) = E lnpθ (X) .
∂θ ∂θ
Z
De l’égalité : pθ (x)dx = 1, on en tire, sous H0 et H1 , en dérivant 2 fois par rapport
A
àθ:
∂2
Z
pθ (x) dx = 0, ∀θ ∈ Θ.
∂θ2 A
c Michel CARBON
10.1 Cas d’un paramètre unidimensionnel 211
Grâce à H1 (ii), on a :
∂2
Z
pθ (x) dx = 0, ∀θ ∈ Θ.
A ∂θ2
Soit :
∂2
pθ (x)
Z
∂θ2
pθ (x) dx = 0, ∀θ ∈ Θ,
A pθ (x)
c’est-à-dire :
∂2
 
p (X)
 2 θ
Eθ  ∂θ  = 0, ∀θ ∈ Θ.

pθ (X)
Calculons :
∂2 ∂
h ∂
pθ (x)
i
lnpθ (x) = ∂θ
∂θ
pθ (x)
∂θ2
∂2 ∂
2
∂θ2
(pθ (x)) · pθ (x) − ∂θ
pθ (x)
=
(pθ (x))2
∂2 h ∂
i2
pθ (x) pθ (x)
∂θ 2
= pθ (x)
− ∂θ
pθ (x)
∂2
pθ (x)
= ∂θ2 ∂
− ∂θ
2
(lnpθ (x)) .
pθ (x)
Prenons l’espérance Eθ de chaque côté ; il vient alors :
h 2 i ∂2 h
∂ pθ (X) ∂
2 i
∂θ 2
Eθ ∂θ2 lnpθ (X) = Eθ pθ (X)
− Eθ ∂θ
lnpθ (X)
h 2 i
∂
= −Eθ ∂θ
lnpθ (X) .
D’où : " 2 # 2
∂ ∂
I(θ) = Eθ lnpθ (X) = −Eθ (lnpθ (X)) .
∂θ ∂θ2
Remarque 10.1.1 : L’information dépend de la paramétrisation particulière choi-

sie. Par exemple, si θ = h(ζ), et si h est dérivable, l’information que X apporte sur
ζ est :
2
I ∗ (ζ) = I [h(ζ)] · [h0 (ζ)]
En effet :
∂ ∂ ∂h(ζ)
lnp (x, h(ζ)) = lnp(x, θ) · ,
∂ζ ∂θ θ=h(ζ) ∂ζ
et il suffit de prendre la variance de chaque côté.
c Michel CARBON
212
10.1.2 Cas particulier des modèles exponentiels

Théorème 10.1.2 Soit X une v.a.r. dont la loi provient d’un modèle exponentiel
avec s = 1, et avec θ = E(T ) (où T est la statistique privilégiée). Alors :
1
I(θ) = .
varη(θ) (T )
Démonstration :
La densité de X s’écrit :
pθ (x) = exp [η(θ) T (x) − B(θ)] h(x), ∀θ ∈ Θ,
que l’on peut reparamétriser par :
pη (x) = exp [η · T (x) − A(η)] h(x), ∀η ∈ H.
Alors :
lnpη (x) = ηT (x) − A(η) + lnh(x).
D’où la valeur du score :
∂
lnpη (x) = T (x) − A0 (η).
∂η
De plus, on a :
∂2
lnpη (x) = −A00 (η).
∂η 2
D’autre part, nous savons que :
Eη (T ) = A0 (η) et varη (T ) = A00 (η).
(H0 ) et (H1 ) sont vérifiées. D’où :

2
∗ ∂
I (η) = −Eη 2
lnpη (X) = Eη [A00 (η)] = A00 (η) = varη (T ).
∂η
On a supposé ici que : θ = Eη (T ) = A0 (η). Si on note I l’information apportée par
X sur θ, d’après la remarque précédente, on a :
2
I ∗ (η) = I [A0 (η)] · [A00 (η)] ,
soit :
varη (T ) = I(θ) · [varη (T )]2 .
D’où :
1
I(θ) =
varη (T )
Interprétation : I(θ) se comporte comme on pouvait l’espérer. Si le modèle est de
plein rang, puisque T, statistique privilégiée du modèle exponentiel est un ESBUVM
de θ, la variance de T est une mesure de la difficulté à estimer θ. Donc l’inverse de
la variance de T mesure la facilité qu’il y a à estimer θ, et c’est en ce sens que l’on
mesure l’information apportée par X sur θ.
c Michel CARBON
Exemple 10.1.1 (le modèle binomial) B (n, θ) (0 < θ < 1) ,

pθ (x) = Cnx θx (1 − θ)n−x
soit :
θ
pθ (x) = Cnx (1 n
− θ) exp x · ln .
1−θ
L’information apportée par X sur E(X) (théorème précédent) est :
1 1
= .
V (X) nθ(1 − θ)
Soit I(θ) l’information apportée sur θ. Comme E(X) = nθ, d’après la remarque
précédente, on a :
1 n
I(θ) = · n2 = .
nθ(1 − θ) θ(1 − θ)

m
Exemple 10.1.2 (le modèle gaussien) : θ =
σ2
m2 x2

1 m
pθ (x) = √ exp − 2 exp 2 x − 2
σ 2π 2σ σ 2σ
1 1
a) Comme E(X) = m, l’information I(m) est = 2 , dans un modèle où
V (X) σ
σ 2 est fixé.
b) Posons θ = σ 2 et supposons m = 0 (pour simplifier). Alors :
2
1 x
pθ (x) = √ exp − .
2π θ1/2 2θ
D’où :
x2 1 1
lnpθ (x) = − − lnθ − ln2π.
2θ 2 2
D’où encore :
∂ x2 1
lnpθ (x) = + 2 − .
∂θ 2θ 2θ
Par définition même de l’information de Fischer, on a :
2
∂ X 1
I(θ) = varθ ∂θ lnpθ (X) = varθ − 2θ
2θ2
h i
X2 1
= varθ 2θ2
= 4θ4
varθ (X 2 ).
Or : E(X 4 ) = 3σ 4 et E(X 2 ) = σ 2 . D’où :

var(X 2 ) = 3σ 4 − σ 4 = 2σ 4 ⇒ varθ (X 2 ) = 2θ2 .
D’où finalement :
1 1 1
I(θ) = 4
· 2θ2 = 2 = 4 .
4θ 2θ 2σ
c Michel CARBON
214
10.1.3 Additivité de l’information de Fischer

L’information sur θ contenue dans des observations indépendantes est, comme
on pouvait l’espérer, additive.
Théorème 10.1.3 Soient X et Y deux v.a.r. indépendantes de densités respectives

pθ et qθ , vérifiant les hypothèses H0 et H1 . Si I1 (θ), I2 (θ) et I(θ) sont les informations
sur θ apportées respectivement par X, par Y, et par (X, Y ), alors
I(θ) = I1 (θ) + I2 (θ)
Démonstration :
La densité du couple (X, Y ) est : pθ (x) × qθ (y) (à cause de l’indépendance de
X et Y ). Alors :
∂ ∂ ∂
lnpθ (x) qθ (y) = lnpθ (x) + lnqθ (y).
∂θ ∂θ ∂θ
D’où :
∂ ∂
I(θ) = varθ lnpθ (X) + lnqθ (Y )
∂θ ∂θ

∂ ∂
= varθ lnpθ (X) + varθ lnqθ (Y )
∂θ ∂θ
(car les v.a.r. X et Y sont indépendantes)
= I1 (θ) + I2 (θ).
On en déduit immédiatement le corollaire suivant :
Corollaire 10.1.1 Si (X1 , . . . , Xn ) est un échantillon de taille n d’une loi à densité

pθ (x), vérifiant H0 et H1 , et si on appelle IXi (θ) l’information sur θ apportée par la
v.a.r. Xi , alors on a :
I(θ) = nIX1 (θ).
Exemple 10.1.3 Soit X1 une v.a.r. de Bernouilli de paramètre θ. L’information

vaut :
1
I(θ) = ,
θ(1 − θ)
car c’est une binomiale particulière.
n
L’information contenue dans l’échantillon (X1 , . . . , Xn ) de B (1, θ) est ,
θ(1 − θ)
n
P
c’est-à-dire la même information que celle contenue dans : Xi . Ce qui est en
i=1
n
P
accord total avec le fait que la statistique Xi est exhaustive pour θ.
i=1
c Michel CARBON
10.1.4 Information de Fischer et exhaustivité

Le résultat de théorème qui suit semble intuitivement évident, mais sa démons-
tration nécessite la connaissance de la théorie de la mesure et de l’intégration. Il sera
donc donné sans démonstration.
Théorème 10.1.4 Soit I(θ) l’information sur θ apportée par l’observation X dans
un modèle statistique. Soit IS (θ) l’information apportée sur θ par une statistique
S = S(X) exhaustive dans le modèle image. Alors :
I(θ) = IS (θ), ∀θ ∈ Θ.
10.1.5 Inégalité d’information

Théorème 10.1.5 Supposons que (H0 ) et (H1 ) soient vérifiées, et que I(θ) > 0.
Soit δ une statistique telle que : Eθ [δ 2 ] < +∞ pour tout θ de Θ, et telle que la
dérivée par rapport à θ de
Z
Eθ (δ) = δ(x) pθ (x) dx
= g(θ)
existe, et puisse être obtenue en dérivant sous le signe somme. Alors :

2
[g 0 (θ)]2
∂
∂θ
Eθ (δ)
varθ (δ) ≥ =
I(θ) I(θ)
(inégalité de Darmois-Fréchet-Rao-Cramer, mais souvent appelée inégalité de Rao-

Cramer).
Démonstration :
Z
∂ 0 ∂
∂θ
Eθ (δ) = g (θ) = ∂θ
δ(x) pθ (x) dx
Z
∂
= (δ(x) pθ (x)) dx
∂θ
Z
∂
= δ(x) pθ (x) dx.
∂θ
Or :
∂
 

∂
pθ (X)
covθ δ(X), lnpθ (X) = covθ δ(X), ∂θ
 
∂θ pθ (X)

Z
∂ ∂
= δ(x) pθ (x) dx − Eθ [δ(X)] Eθ lnpθ (X)
∂θ ∂θ
| {z }
=0
c Michel CARBON
216
D’où :
∂ ∂
covθ δ(X), lnpθ (X) = [Eθ (δ(X))] = g 0 (θ).
∂θ ∂θ
Appliquons l’inégalité de Schwarz :
[E(f g)]2 ≤ E(f 2 ) E(g 2 )
avec :
f = δ(X) − Eθ [δ(X)]
et :
∂
g= lnpθ (X).
∂θ
Il vient alors :
∂

Eθ (δ(X) − Eθ [δ(X)]) · ∂θ
(lnpθ (X))
∂
∂
= Eθ δ(X) · ∂θ
(lnpθ (X)) − Eθ [δ(X)] Eθ ∂θ (lnpθ (X))
∂

= covθ δ(X), ∂θ
lnpθ (X)
car :
∂
Eθ lnpθ (X) = 0.
∂θ
L’inégalité de Schwarz s’écrit alors :
2
[g 0 (θ)] ≤ varθ (δ(X)) · I(θ)
soit :
[g 0 (θ)]2
varθ (δ(X)) ≥ .
I(θ)
Définition 10.1.2 Un estimateur est dit le plus efficace si sa variance atteint la

borne inférieure de l’inégalité de Fréchet-Darmois-Rao-Cramer.
10.2 Cas d’un paramètre multiple

Soit θ = (θ1 , . . . , θs ) ∈ Θ ⊂ Rs .
10.2.1 Quantité d’information de Fischer

Les hypothèses (H0 ) s’écrivent ici :
(H0 ) (i), (ii) inchangées ;
∂
(iii) ∀x ∈ A, ∀θ ∈ Θ, ∀i = 1, ..., s, les dérivées pθ (x) existent et sont
Z ∂θi
finies, et les dérivées par rapport aux θi de pθ (x) dx peuvent s’obtenir
en dérivant sous le signe somme.
c Michel CARBON
10.2 Cas d’un paramètre multiple 217
Lemme 10.2.1 Sous les hypothèses (H0 ), le vecteur des scores est centré.
Démonstration :
En effet, on a vu au début de ce chapitre, que :

∂
E lnpθ (X) = 0, ∀i = 1, . . . , s.
∂θi
Définition 10.2.1 On appelle information de Fischer la matrice de variance-covariance

du vecteur des scores :

∂
I(θ) = Vθ lnpθ (X)
h n ∂θ oi
= Eθ ∂θ∂ i lnpθ (X) · ∂θ∂ j lnpθ (X) (par centrage).
1≤i, j≤s
Théorème 10.2.1 Supposons que les hypothèses (H0 ) soient vérifiées. Supposons
aussi que :
(H1 ) (i) les dérivées premières, par rapport aux θi , du score existent pour tout x
de A, et tout θ de Θ ;
Z
(ii) les dérivées secondes, par rapport aux θi , de pθ (x) dx peuvent s’obtenir
en dérivant deux fois sous le signe intégral.
Alors I(θ) est la matrice de terme général :
∂2

−Eθ lnpθ (X) 1 ≤ i, j ≤ s
∂θi ∂θj
Le théorème sur l’additivité des matrices d’information pour des observations

indépendantes reste vrai.
Remarque 10.2.1 (reparamétrisation) : Supposons que θi = hi (ζ1 , . . . , ζs ) ,

∂θj
i = 1, . . . , s. Soit J la matrice de terme général (matrice jacobienne de la trans-
∂ζi
formation). Notons I ∗ (ζ) la matrice d’information, mesurant l’information apportée
par l’observation X sur le paramètre ζ. Elle a pour terme général :

∗ ∂ ∂
Iij (ζ) = Eθ lnpθ(ζ) (X) lnpθ(ζ) (X) .
∂ζi ∂ζj
Les règles habituelles de dérivation d’une fonction de plusieurs variables donnent :

s X
s
X ∂θk ∂θl
Iij∗ (ζ) = Ikl (θ) .
k=1 l=1
∂ζi ∂ζj
D’où :
I ∗ (ζ) = J · I (θ) · J t .
c Michel CARBON
218
10.2.2 Cas particulier du modèle exponentiel

Théorème 10.2.2 Soit X une v.a.r. dont la loi appartient à un modèle exponentiel
vérifiant :
θi = E [Ti (X)] , ∀i = 1, . . . , s
(où T = (T1 , . . . , Ts ) est la statistique privilégiée du modèle). Alors
I (θ) = C −1 ,
où C est la matrice de variance-covariance de (T1 , . . . , Ts ).
Démonstration : Soit I ∗ (η) l’information sur le paramètre naturel η du modèle

exponentiel canonique. On sait que :
∂2 ∂2

covη (Ti , Tj ) = A (η) = −Eη lnpη (X) .
∂ηi ∂ηj ∂ηi ∂ηj
Donc I ∗ (η) = varη (T ). De plus, θi = E (Ti ) pour

tout i = 1, . . . , s. Donc θi =
∂ ∂θi
∂ηi
A (η) implique que la matrice jacobienne J = ∂ηj vaut :
1≤i,j≤s
J = var (T ) .
Finalement, on obtient :
I ∗ (η) = varη (T ) = J · I (θ) · J t = var (T ) · I (θ) · var (T ) .
D’où :
I (θ) = [var (T )]−1 .
10.2.3 Inégalité d’information

Théorème 10.2.3 On suppose que I(θ) est une matrice définie positive. On suppose
que les hypothèses (H0 ) et (H1 ) sont vérifiées. Soit δ une statistique
Z telle que :
Eθ (δ 2 ) < +∞, et telle que les dérivées, par rapport aux θi , de pθ (x) dx existent
pour tout i, et peuvent être obtenues en dérivant sous le signe somme. Si δ est sans
biais pour g(θ) ∈ R, alors :
t
varθ (δ) ≥ (g 0 (θ)) · I −1 (θ) · (g 0 (θ)) ,
∂g(θ)
où g 0 (θ) est le vecteur de coordonnées : .
∂θi
C’est l’inégalité de Schwarz multidimensionnelle. Cette inégalité se généralise au

cas où g(θ) ∈ Rp .
c Michel CARBON
Chapitre 11
Méthode du maximum de
vraisemblance
Si l’invraisemblable arrive, c’est donc que ce qui est invraisemblable est vraisem-
blable. Aristote
11.1 Principe
11.1.1 Description de la méthode
On considère un modèle paramétrique régulier (X , A, P) où P = {Pθ , θ ∈ Θ}
est à densité pθ (x) avec θ ∈ Θ ⊂ Rp .
La méthode du maximum de vraisemblance consiste à retenir comme estimation
de θ une valeur θ(x)
b (x = (x1 , . . . , xn )) qui maximise :
(pθ (x))θ∈Θ .
Définition 11.1.1 Un estimateur du maximum de vraisemblance (noté : EMV) de

θ est une solution (si elle existe) du problème de maximisation :
max pθ (X)
θ∈Θ
Remarque 11.1.1 Comme la solution d’un problème de maximisation n’est pas

modifiée lorsque la fonction objectif est transformée par une application strictement
croissante, l’estimateur du maximum de vraisemblance est également obtenu en ré-
solvant
max ln pθ (x) (souvent utile en pratique).
θ∈Θ
Remarque 11.1.2 Par définition, on appellera EMV d’une fonction g(θ) du para-
mètre, le transformé g(θ)
b d’un EMV θb de θ.
219
220
CHAPITRE 11. MÉTHODE DU MAXIMUM DE VRAISEMBLANCE
Exemple 11.1.1 Pour un échantillon de la loi de Poisson de paramètre λ > 0, pour

x = (x1 , . . . , xn ) on a :
n
P
xi
−λn
e λi=1
pλ (x) = n
Q .
xi !
i=1
D’où :
n
X n
X
ln pλ (x) = −nλ + ln λ · xi − ln (xi !)
i=1 i=1
On a alors :
n
P
xi
∂ i=1
ln pλ (x) = −n +
∂λ λ
et
n
P
− xi
∂2 i=1
ln pλ (x) = ≤ 0.
∂λ2 λ2
Pn
La dérivée première est une fonction concave si xi 6= 0, qui atteint son maximum
i=1
pour :
n
1X
λ(x) =
b xi = x
n i=1
Exemple 11.1.2 Pour un échantillon de la loi gaussienne N (ζ, σ 2 ) , la log-vraisemblance

vaut :
n
1 X
ln pθ (x) = −nln σ − 2 (xi − ζ)2 + Cte,
2σ i=1
avec
θ = ζ, σ 2 .

D’où :
∂ 1 P n
ln pθ (x) = (xi − ζ) = 0 ⇒ b = 1 P xi = x,
ζ(x)
∂ζ σ2 n i=1
∂ n n
1 P
ln pθ (x) = − + 3 (xi − ζ)2
∂σ σ σ i=1
n
1 P 2 2
= (xi − ζ) − nσ = 0
σ 3 i=1
1P n
⇒ b2 (x) =
σ (xi − x)2 .
n i=1
c Michel CARBON
11.1 Principe 221
11.1.2 Trois difficultés

La fonction de vraisemblance n’est pas définie de manière unique
Supposons par exemple que X1 , . . . , Xn soient n v.a.r. indépendantes de loi
N (ζ, 1) . On prend naturellement pour densité du vecteur (X1 , . . . , Xn ) :
n/2 ( n
)
1 1X
p1ζ (x1 , . . . , xn ) = exp − (xi − ζ)2 .
2π 2 i=1
D’autres choix sont possibles, comme :

 n
x2i 6= ζ
P


 p1ζ (x1 , . . . , xn ) si
 i=1
p2ζ (x1 , . . . , xn ) =
 n
x2i = ζ.
 P
 12
 si
i=1
n

x2i
P
L’écriture est seulement modifiée sur l’ensemble =ζ qui est de probabilité
i=1
nulle. Donc p2ζ est une autre version de la densité pζ par rapport à la mesure de
Lebesgue.
Déterminons l’EMV avec p1ζ :
n 1P n
ln p1ζ (x) = − ln 2π − (xi − ζ)2 ,
2 2 i=1
∂ n
P 1P n
ln p1ζ (x) = (xi − ζ) = 0 ⇒ ζb1 (X) = Xi .
∂ζ i=1 n i=1
n
x2i 6= ζ, la vraisemblance est
P
Déterminons l’EMV avec p2ζ : dans le cas où
i=1
n/2
1
majorée par : < 1. Donc la vraisemblance globale est maximum pour
2π
n n
x2i = ζ. L’EMV, dans ce cas, est donc ζb2 (X) = Xi2 .
P P
i=1 i=1
Donc, changer la vraisemblance sur un ensemble négligeable peut conduire à
changer d’estimateur. Pour pallier à cette difficulté, on peut, lorsque c’est possible,
décider de retenir une version continue de la densité.
La solution du problème de maximisation peut ne pas exister

La non-existence de θ(x)
b peut se produire pour toutes les valeurs de x, ou seule-
ment pour certaines d’entre elles. Elle peut être due au fait que Θ est ouvert, ou au
fait que la log-vraisemblance n’est pas continue.

1
Exemple 11.1.3 : Soit X une v.a.r. de loi B 1; , avec θ ∈ R. Si l’ob-
1 + eθ
1
servation est x = 1, on a : pθ (1) = fonction strictement décroissante de θ.
1 + eθ
c Michel CARBON
222
Son maximum n’est pas atteint sur R. Il le serait si Θ était fermé ; par exemple si
Θ = R ; le maximum serait alors θ(1) b = −∞. Si l’observation est x = 0, on a :
θ
e
pθ (0) = , fonction strictement croissante de θ; son maximum n’est pas atteint
1 + eθ
sur R. Sur R, le maximum serait : θ(0)
b = +∞.
Une condition suffisante d’existence est évidemment la suivante :
Si l’ensemble Θ est compact, et si la vraisemblance : θ 7→ pθ (x) est continue sur

Θ, alors il existe un EMV.
Il peut exister plusieurs solutions au problème de maximisation

La multiplicité des solutions peut se produire pour toutes les valeurs de x, ou
seulement pour certaines d’entre elles. Par exemple, soit X1 , . . . , Xn un échantillon
indépendant extrait de la loi uniforme U ([θ, θ + 1]) avec θ ∈ R. La vraisemblance
est : n
Q
pθ (x1 , . . . , xn ) = 11θ≤xi ≤θ+1
i=1
= 11inf xi ≥θ · 11sup xi ≤θ+1 .
Les solutions sont toutes les valeurs θ(x)

b comprises entre sup xi − 1 et inf xi . Il y a,
dans ce cas, une infinité de solutions au problème de maximisation.
Examinons l’exemple suivant :
Exemple 11.1.4 Soient X1 et X2 deux v.a.r. indépendantes des lois de Cauchy
translatée, de densité :
1 1
· .
π 1 + (x − θ)2
La vraisemblance vaut :

1 1 1
pθ (x1 , x2 ) = − .
π 1 + (x1 − θ)2 1 + (x2 − θ)2
Elle tend vers 0 quand θ → ±∞.
x1 + x 2
Elle est symétrique par rapport à θ0 = . Examinons la dérivée :
2

∂ 2(x1 − θ) 2(x2 − θ)
pθ (x1 , x2 ) = pθ (x1 , x2 ) +
∂θ 1 + (x1 − θ)2 1 + (x2 − θ)2
(x1 + x2 − 2θ) [θ2 − (x1 + x2 ) θ + 1 + x1 x2 ]
= 2pθ (x1 , x2 ) .
[1 + (x1 − θ)2 ] [1 + (x2 − θ)2 ]
Le discriminant de l’équation du 2e degré en θ au numérateur vaut :
∆ = (x1 − x2 )2 − 4.
Si ∆ est négatif ou nul, la fonction de vraisemblance a la forme suivante de la
figure [11.1) ci-dessous.
c Michel CARBON
11.2 Equations de vraisemblance 223
Figure 11.1 – Fonction de vraisemblance pour ∆ ≤ 0
Figure 11.2 – Fonction de vraisemblance pour ∆ > 0
et admet un maximum unique en θ0 . Si ∆ est positif, la fonction de vraisemblance

a la forme de la figure [11.2) ci-dessus.
Le problème de maximisation admet deux solutions θb1 (x) et θb2 (x) symétriques par
rapport à θ0 .
11.2 Equations de vraisemblance

11.2.1 Généralités
Les EMV sont habituellement cherchés en examinant les conditions du 1er ordre
(voir dernier exemple ci-dessus). Sans hypothèse supplémentaire, ces conditions ne
sont ni nécessaires, ni suffisantes. Pour montrer qu’elles ne sont pas nécessaires,
considérons l’exemple suivant : soit (X1 , . . . , Xn ) un échantillon indépendant extrait
de la loi à densité :
pθ (x) = e−(x−θ) 11x≥θ ; θ ∈ R.
La vraisemblance vaut :
" n
#
X
pθ (x1 , . . . , xn ) = exp − xi + nθ 11inf xi ≥θ .
i=1
L’application θ 7→ pθ (x1 , . . . , xn ) est de la forme de la figure (11.3) ci-dessous.

Elle admet un maximum unique pour θ(x) b = inf xi , mais, en ce point la dérivée à
gauche n’est pas nulle.
Inversement, considérons une valeur θ(x) e annulant la dérivée première. θ(x)
e ne
correspond pas nécessairement au maximum de la fonction de vraisemblance. Il peut
s’agir d’un minimum (voir l’exemple sur les lois de Cauchy précédent), ou d’un point
d’inflexion. Ces cas sont faciles à distinguer en examinant la matrice des dérivées
c Michel CARBON
224
Figure 11.3 – Fonction de vraisemblance
secondes. Mais même si la matrice des dérivées secondes est définie négative, le point
θ(x)
e peut correspondre à un maximum local, et non à un maximum global.
En pratique, pour déterminer l’estimation θ(x),b on peut chercher les points an-
nulant la dérivée première. Parmi ces points, on repère les maximas locaux θej (x),
et on calcule les valeurs peθj (x) (ou ln (e
pθj (x))) de la vraisemblance (ou de la log-
vraisemblance). On retient alors les points θej (x) correspondant à la valeur maximale
pe(x) = max peθj (x). Il faut ensuite comparer cette valeur e
e pe(x) à la valeur maximale
j
prise par pθ (x) ou ln pθ (x) sur la frontière de Θ.
Il est souvent difficile de trouver tous les maximas locaux. Cependant la démarche
se simplifie beaucoup lorsque pθ ou ln pθ possède certaines propriétés de concavité
(les conditions du 1er ordre alors suffisent pour obtenir un maximum global), ou
lorsque la fonction de vraisemblance tend vers 0 à l’infini (toutes les solutions sont
alors dans un domaine borné).
11.2.2 Maximum libre

Les conditions du 1er ordre sont nécessaires dans le cas classique suivant.
Propriété 11.2.1 Si θ = (θ1 , . . . , θp )t ∈ Θ ⊂ Rp , si la log-vraisemblance est déri-
vable en θ et si θ(x)
b appartient à l’intérieur de Θ, l’estimateur θb du maximum de
vraisemblance satisfait à :
∂ b ∂
p x, θ = ln p x, θb = 0.
∂θ ∂θ
Le système d’équations ci-dessus constitue l’ensemble des équations de vraisem-
blance.
Exemple 11.2.1 Soit X1 , . . . , Xn un échantillon indépendant extrait de la loi de

densité :
exp(x − θ)
pθ (x) = , θ ∈ R.
[1 + exp(x − θ)]2
La log-vraisemblance vaut :
n
X n
X
ln 1 + exi −θ .

ln pθ (x1 , . . . , xn ) = (xi − θ) − 2
i=1 i=1
c Michel CARBON
Cette fonction est continue en θ, et lorsque θ → ±∞, ln pθ (x1 , . . . , xn ) tend vers

−∞. Donc cette fonction atteint sur R son maximum global. Celui-ci est solution de
l’équation de vraisemblance :
n
X exp(xi − θ)
∂
ln pθ (x1 , · · · , xn ) = −n + 2 = 0.
∂θ i=1
1 + exp(x i − θ)
On sait que cette équation admet au moins une solution. Celle-ci ne peut être trouvée
sous forme analytique, et il est nécessaire d’utiliser un algorithme pour résoudre
numériquement une telle équation.
Exemple 11.2.2 Soit X1 , . . . , Xn un échantillon indépendant extrait de la loi de

Poisson P(λ) avec λ > 0. La log-vraisemblance s’écrit :
n
X n
X
ln pλ (x1 , . . . , xn ) = −nλ + xi · ln λ − ln (xi !).
i=1 i=1
S’il existe une valeur xi non nulle, cette fonction est alors strictement concave en
λ, et atteint son maximum pour λ b tel que :
n
P
xi
∂ i=1
ln pλ (x1 , . . . , xn ) = −n + = 0.
∂λ λ
b
D’où :
n
P
xi
i=1
λ
b= = x.
n
11.2.3 Maximum lié

Les modèles statistiques sont souvent définis en faisant figurer explicitement des
contraintes, généralement à l’égalité, sur les paramètres. La log-vraisemblance : θ 7−→
ln pθ (x1 , . . . , xn ) est alors définie sur Θ = Θ∗ ∩ {g(θ) = 0} , où Θ∗ est par exemple
un ouvert de Rp et g une fonction de Rp dans Rr (r ≤ p). La maximisation doit
alors être effectuée en tenant compte des contraintes : g(θ) = 0. Pour cela, on peut
introduire un vecteur λ de r multiplicateurs de Lagrange et considérer le problème
de la maximisation de ln pθ (x1 , . . . , xn ) − λt · g(θ). Les conditions du 1er ordre sont
obtenues en dérivant cette fonction par rapport à θ et λ, et en annulant les dérivées.
On obtient le système :
 ∂ ∂ t b b
 ln p x, θ − g θ · λ = 0
b
∂θ ∂θ


 b
g(θ) = 0.
c Michel CARBON
226
Exemple 11.2.3 Considérons un vecteur X, dont les composantes sont doublement

indexées,
X = (Xij ; i = 1, . . . , I; j = 1, . . . , J),
et qui suit une loi multinomiale :
M0 (n; pij = pi· p·j ; i = 1, . . . , I; j = 1, . . . , J).
Les paramètres pi· et p·j sont supposés satisfaire :
I
X J
X
pi· = 1 et p·j = 1,
i=1 j=1
pi· ≥ 0 pour i = 1, . . . , I, p·j ≥ 0 pour j = 1, . . . , J. Laissant de côté pour l’instant

les contraintes à l’inégalité, il nous faut introduire deux multiplicateurs λ1 et λ2 et
écrire les conditions du 1er ordre associées à la maximisation de :
I !
P PJ
A(p) = ln pp (x) − λ1 pi· − 1 − λ2 p·j· − 1
i=1 j=1
 
 n!  I,
PJ
= ln  I J + xij ln pi· p·j
 
Q Q  i, j=1
(xij !)
i=1 j=1
!
I
P J
P
−λ1 pi· − 1 − λ2 p·j − 1
i=1 j=1
L’annulation des dérivées partielles par rapport à pi· , p·j , λ1 , λ2 conduit à :


∂ PJ 1
A = xij − λ1 = 0 i = 1, . . . , I






 ∂p i· j=1 p i·





 ∂ PI 1
A = xij − λ2 = 0 j = 1, . . . , J


 ∂p·j p·j

 i=1

 ∂ PI
A = pi· − 1 = 0





 ∂λ1 i=1




∂ J

 P
p·j − 1 = 0.

 ∂λ A =


2 j=1
Posons :
J
X I
X
xi· = xij et x·j = xij .
j=1 i=1
c Michel CARBON
A partir des I premières équations, on obtient :
xi· = λ1 pi· pour i = 1, . . . , I
et n
X
λ1 = xi· = n.
i=1
De même, on a : λ2 = n. Il existe donc une solution unique aux équations de vrai-

semblance :
xi· x·j
pbi· = , i = 1, . . . , I et pb·j = , j = 1, . . . , J.
n n
A remarquer que ces solutions satisfont bien les contraintes : pbi· ≥ 0 et pb·j ≥ 0,
et correspondent bien à un maximum global car la log-vraisemblance est strictement
concave et les contraintes linéaires.
11.2.4 Rapport avec l’exhaustivité

Théorème 11.2.1 Sous les hypothèses du théorème de factorisation, un EMV est
fonction de toute statistique exhaustive.
Démonstration : Soit S(x) une statistique exhaustive. On déduit du théorème de

factorisation que :
pθ (x) = gθ [S(x)] h(x).
D’où :
ln pθ (x) = ln (gθ (S(x))) + ln h(x).
Maximiser ln pθ (x) par rapport à θ équivaut à maximiser ln gθ (S(x)) par rapport à
θ ; une solution du maximum de vraisemblance dépend donc de x par l’intermédiaire
de S(x).
11.2.5 Rapport avec les modèles exponentiels

Il est souvent, comme on l’a vu, difficile de résoudre explicitement l’équation
de vraisemblance, et cela même dans des cas réguliers où la solution est unique.
Indiquons un cas important où l’EMV est unique.
Théorème 11.2.2 Soit X1 , . . . , Xn un échantillon de taille n d’une v.a.r. X dont

la loi provient d’un modèle exponentiel de plein rang, de densité :
" s #
X
fη (x) = exp ηi Ti (x) − A (η1 , . . . , ηs ) · h(x),
i=1
où l’espace des paramètres H est supposé être un ouvert de Rs . Si la matrice
∂2

A (η1 , . . . , ηs )
∂ηi ∂ηj
c Michel CARBON
228
est définie positive pour tout (η1 , . . . , ηs ) ∈ H, alors l’EMV ηb de η est l’unique
solution de : n
1X ∂
Ti (Xj ) = A (b η1 , . . . , ηbs ) , i = 1, . . . , s. (11.1)
n j=1 ∂ηi
s
P n
P
Démonstration : ηb maximise Ti (Xj ) − nA (η1 , . . . , ηs ) . En différenciant,
ηi
i=1 j=1
∂2

on en déduit que ηb est solution de (11.1), car le fait que A soit définie
∂ηi ∂ηj
positive implique l’existence d’une solution unique pour (11.1) maximisant la vrai-
semblance.
11.3 Propriétés asymptotiques des estimateurs

11.3.1 Convergence
Si la taille des échantillons (x1 , . . . , xn ) n’est pas fixée, on pourra travailler dans
(R , BR∞ , Pθ⊗∞ ). Si Πn est la projection de R∞ dans Rn (les n-premières coordonnées
∞
de R∞ ), alors :
Πn (x1 , . . . , xn , xn+1 , . . .) = (x1 , . . . , xn )
est de loi Pθ⊗n , c’est-à-dire un échantillon de taille n de la loi Pθ . A l’ordre n, un
estimateur peut se noter :
δn = δn (x1 , . . . , xn ) = δn (Πn (x)) avec x ∈ R∞ .
Une propriété asymptotique de convergence d’une suite d’estimateurs (δn ) est donc
relative à Pθ⊗∞ . De manière abusive, on se réfèrera à Pθ , et on appellera δn un
estimateur, plutôt que de considérer une suite d’estimateurs (δn )n∈IN ∗ .
Supposons que la loi des observations soit paramétrée par θ ∈ Θ, et que l’on
cherche à estimer g(θ).
Définition 11.3.1 On dit que l’estimateur δn est convergent si :

θ P
∀θ ∈ Θ, δn −→ g(θ) (en probabilité),
ou encore :
∀θ ∈ Θ, ∀a > 0 Pθ (|δn − g(θ)| > a) −→ 0.
n→+∞
La condition suffisante fournit un critère simple de convergence.
Lemme 11.3.1 Une condition suffisante pour que δn converge en probabilité vers
g(θ) est que :
∀θ ∈ Θ, Eθ (δn − g(θ))2 −→ 0.

n→+∞
Démonstration :
C’est une application de Bienaymé-Tchebychev :
∀a > 0, Eθ (δn − g(θ))2 ≥ a2 Pθ (|δn − g(θ)| ≥ a) .

c Michel CARBON
11.3 Propriétés asymptotiques des estimateurs 229
Théorème 11.3.1 (i) Soit (δn )n∈IN ∗ une suite d’estimateurs de g (θ) du risque
quadratique : R (θ, δn ) = Eθ (δn − g (θ))2 . Alors :

R (θ, δn ) −→ 0, ∀θ ∈ Θ,
n→+∞
implique que δn est convergent pour estimer g (θ).

(ii) De manière équivalente, δn est convergent si :
∀θ ∈ Θ, bn (θ) −→ 0 et varθ (δn ) −→ 0,

n→+∞ n→+∞
où bn est le biais de δn .
(iii) En particulier, δn est convergent s’il est sans biais, et si :
∀θ ∈ Θ, varθ (δn ) −→ 0.
n→+∞
Démonstration :
(i) est établi dans le lemme précédent.
(ii) on a : ∀θ ∈ Θ,
Eθ [(δn − g(θ))2 ] = Eθ [(δn − Eθ δn + Eθ δn − g(θ))2 ]

= Eθ [(δn − Eθ (δn ))2 ] + 2 (Eθ (δn ) − g(θ))
× Eθ [δn − E(δn )] + (Eθ (δn ) − g(θ))2
= varθ (δn ) + 0 + b2n (θ),
ce qui établit le point (ii).

(iii) immédiat.
Exemple 11.3.1 Soit (x1 , . . . , xn ) un échantillon d’une loi quelconque de moyenne

ζ et de variance σ 2 . D’après la loi des grands nombres de Khintchine, sans même
supposer l’existence de σ 2 ,
n
1X p.s.
xn = xi −→ ζ.
n i=1 n→+∞
A fortiori, δn = xn est un estimateur convergent de ζ.
Exemple 11.3.2 Soit (x1 , . . . , xn ) un échantillon d’une loi quelconque de moyenne

ζ et de variance σ 2 . On sait que :
n
02 1 X
sn = (xi − x)2
n − 1 i=1
est un ESB de σ 2 . Supposons pour simplifier que ζ = 0; alors, on a :

n
!
02 n 1X 2
sn = x − x2n .
n − 1 n i=1 i
c Michel CARBON
230
D’après Khintchine,
n
1X 2 P P
xi −→ σ 2 et xn −→ 0,
n i=1
donc :
0 P
sn2 −→ σ 2
0
et sn2 est un ESB convergent de σ 2 .
11.3.2 Vitesse de convergence

Il est très important en statistique de produire des vitesses de convergence. Pour
avoir une idée de la vitesse de convergence de l’estimateur convergent δn , considérons
une suite de réels positifs kn , et pour a > 0, la probabilité :

a
Pn (a) = P |δn − g(θ)| ≤ .
kn
Intuitivement, si kn est borné, alors Pn (a) −→ 1. D’autre part, si kn → +∞ assez

n→+∞
vite, alors Pn (a) −→ 0.
n→+∞
Il est bien intéressant de trouver une suite intermédiaire (kn ) telle que kn −→
n→+∞
+∞ et telle que Pn (a) tende vers une limite strictement entre 0 et 1 :
Pn (a) −→ H(a) avec 0 < H(a) < 1.

n→+∞
H(a) est alors une fonction de répartition.
1
Définition 11.3.2 On dit que l’erreur |δn − g(θ)| tend vers 0 à la vitesse s’il
kn
existe une fonction de répartition continue H telle que :
∀a > 0, P (kn |δn − g(θ)| ≤ a) −→ H(a).

n→+∞
0 kn
Cela ne définit pas kn de manière unique, car toute suite (kn ) telle que a une
kn0
limite finie strictement positive, convient également. Bien entendu, cela veut aussi
dire que kn |δn − g(θ)| converge en loi vers H (ou converge faiblement) :
L
kn |δn − g(θ)| −→ H.
n→+∞
11.3.3 Loi-limite
Par définition de la convergence en loi, on a :
L
Yn −→ Y ⇔ ∀t, P (Y = t) = 0 : P (Yn ≤ t) −→ P (Y ≤ t).
n→+∞ n→+∞
Une propriété importante, que l’on rappelle, est la suivante :
c Michel CARBON
L
Théorème 11.3.2 Yn −→ Y ⇔ ∀f fonction réelle continue bornée,
n→+∞
E [f (Yn )] −→ E [f (Y )] .
n→+∞
Voir le chapitre 5 sur la convergence en loi.

Un outil de base pour obtenir la loi-limite de nombreux estimateurs est le théo-
rème central limite (TCL), dont la version la plus simple est la suivante :
Théorème 11.3.3 Soit (Xi )i=1,...,n une suite de v.a.r. i.i.d. (un échantillon indé-
pendant, de la loi de X) avec E(Xi ) = ζ et var(Xi ) = σ 2 . Alors :
√ L
−→ N 0, σ 2

n(X n − ζ)
n→+∞
et √
n(X n − ζ) L
−→ N (0, 1) .
σ n→+∞
Démonstration : vue dans le chapitre 5.

L’utilité de ce théorème sera étendue grâce aux deux théorèmes suivants.
L P P
Théorème 11.3.4 Si Yn −→ Y, si An −→ a, si Bn −→ b, alors :
n→+∞ n→+∞ n→+∞
L
An + Bn Yn −→ a + bY
n→+∞
(a et b sont des réels fixés).
L
Corollaire 11.3.1 Si Yn −→ Y, si yn converge vers un point de continuité y de
n→+∞
H (f.d.r. de Y ), alors :
P (Yn ≤ yn ) −→ H(y).
n→+∞
Démonstration : On a
P (Yn ≤ yn ) = P (Yn + y − yn ≤ y).

Le résultat provient alors du théorème 11.3.4 avec :
Bn = 1 et An = y − yn .
√ L
Théorème 11.3.5 Si n(Tn − θ) −→ N (0, τ 2 ) , si f 0 (θ) existe et est non nul,
n→+∞
alors :
√ L

2

n [f (Tn ) − f (θ)] −→ N 0, τ 2 [f 0 (θ)] .
n→+∞
c Michel CARBON
232
Démonstration : Elle utilise la méthode du delta.

Faisons un développement limité à l’ordre 1 de f (Tn ) au voisinage de f (θ) :
f (Tn ) = f (θ) + (Tn − θ) (f 0 (θ) + Rn ) ,
P P
où Rn −→ 0; or : Tn −→ θ (grâce à l’hypothèse). Donc : Rn −→ 0. Le théorème
Tn →0 n→+∞ n→+∞
11.3.4 s’applique alors à :
√ √
n (f (Tn ) − f (θ)) = n(Tn − θ) [f 0 (θ) + Rn ] .
En effet, on a :
√ L
n(Tn − θ) f 0 (θ) −→ N 0, τ 2 (f 0 (θ))2

n→+∞
et √ P
n(Tn − θ) Rn −→ 0.
n→+∞
D’où : √ L
n (f (Tn ) − f (θ)) −→ N 0, τ 2 (f 0 (θ))2 .

n→+∞
Exemple 11.3.3 Soit (X1 , . . . , Xn ) un échantillon de N (θ, σ 2 ) . On veut estimer

2 σ2
θ2 (à σ 2 connu). Alors δn = X − est un ESBUVM de θ2 , car X est, dans ce
n
modèle exponentiel de plein rang, une statistique exhaustive complète, et de plus :
" 2 #
2 σ2 1 σ2
E(δn ) = E(X ) − =E ΣXi −
n n n
1 Pn
2 σ2 1 P
= 2
E(X i ) − + 2 E(Xi Xj )
n i=1 n n i6= j
1 2 2 σ2 1
= 2
(n(σ + θ )) − + 2 n(n − 1) θ2
n n n
nθ2 n(n − 1) 2
= + θ = θ2 .
n2 n2
Donc δn est un ESB de θ2 , fonction de X, statistique exhaustive complète, et d’après
Lehmann-Scheffé, il est ESBUVM. On sait que :
√ L
n(X − θ) −→ N 0, σ 2 ,

n→+∞
d’après le TCL. Utilisant la fonction f (u) = u2 dans le théorème 11.3.5, on a :

√ 2 L
n(X − θ2 ) −→ N 0, 4σ 2 θ2 si θ 6= 0 (car f 0 (θ) = 2θ).

n→+∞
Par suite :
√ √ 2 σ2 L
n(δn − θ2 ) = n(X − θ2 ) − √ −→ N 0, 4σ 2 θ2 ,

n n→+∞
grâce au théorème 11.3.4 précédent.
c Michel CARBON
Remarque 11.3.1 Que se passe-t-il si f 0 (θ) = 0 ? On est alors obligé de faire un

développement à l’ordre 2 :
1
f (Tn ) = f (θ) + (Tn − θ) f 0 (θ) + (Tn − θ)2 [f 00 (θ) + Rn ] ,
2
P P
où Rn −→ 0 quand Tn −→ θ. D’où, puisque f 0 (θ) = 0, on a :
1
f (Tn ) − f (θ) = (Tn − θ)2 [f 00 (θ) + Rn ] .
2
√ L n(Tn − θ)2 L
Si n(Tn − θ) −→ N (0, τ 2 ) , alors : −→ χ21 . Donc
n→+∞ τ2 n→+∞
n(Tn − θ)2 L 1 2 00
n [f (Tn ) − f (θ)] = [f 00 (θ) + Rn ] −→ τ f (θ) · χ21
2 n→+∞ 2
par un raisonnement similaire au précédent.
Exemple 11.3.4 (suite du précédent). Quand θ = 0, on a : f 00 (θ) = 2. Donc :

2 2 L 1 2
n(X − θ2 ) = n(X − 02 ) −→ · σ · 2 · χ21 = σ 2 · χ21 .
n→+∞ 2
√
Mais c’était encore évident, car n X suit une loi N (0, σ 2 ) pour tout n ∈ N∗ .
2
Donc nX suit un σ 2 χ21 (pour tout n ∈ N∗ ) : loi exacte. Ainsi :
σ2

2 2 L
n X − − θ = nX − σ 2 −→ σ 2 (χ21 − 1)
2
n n→+∞
(loi exacte, plutôt que loi-limite).
11.3.4 Généralisation au cas multidimensionnel

Soit δn = δn1 , . . . , δnK un estimateur du paramètre vectoriel
g(θ) = (g1 (θ), . . . , gK (θ)) .
On dit que δn est convergent si et seulement si :

P
∀θ ∈ Θ, ∀k = 1, . . . , K, δnk −→
θ
gk (θ).
Rappelons que le risque quadratique vaut :

K
!
X 2
kδn − g(θ)k2 = Eθ δnk − gk (θ)

R (θ, δn ) = Eθ ,
k=1
ce qui montre que : R (θ, δn ) −→ 0, ∀θ ∈ Θ est une condition suffisante pour que
n→+∞
δn soit convergent. En particulier, si pour tout n, δn est non biaisé, il suffit que :
Tr(Vθ (δn )) −→ 0, ∀θ ∈ Θ.
n→+∞
c Michel CARBON
234
D’autre part, les propriétés suivantes sont équivalentes pour une suite (Yn ) de
vecteurs aléatoires de dimension p.
L
Yn −→ Y
n→+∞
⇐⇒ P (Yn ≤ t) −→ P (Y ≤ t) pour tout point t ∈ RP

n→+∞
de la f.d.r. multidimensionnelle : t 7→ F (t) = P (Y ≤ t)
⇐⇒ E [f (Yn )] −→ E [f (Y )] , ∀f continue bornée de RP dans R.

n→+∞
On rappelle le théorème central-limite vu dans le chapitre 5.
Théorème 11.3.6 (TCL) Soit X1 , . . . , Xn un échantillon d’une loi quelconque sur

1P n
RP , de moyenne ζ et de matrice de covariance Σ. On pose X n = Xi . Alors :
n i=1
√ L
n(X n − ζ) −→ N (0, Σ) .
n→+∞
L P P
Propriété 11.3.1 Si Yn −→ Y, si An −→ a, si Bn −→ b, alors
n→+∞ n→+∞ n→+∞
L
An + Bn Yn −→ a + bY.
n→+∞
√ L
Théorème 11.3.7 Si n(Yn − θ) −→ N (0, Σ) dans RP , si f est une applica-
n→+∞
P q ∂
tion continûment différentielle de R dans R , de matrice jacobienne J = fi
∂θj
(matrice q × p), alors :
√ L
n [f (Yn ) − f (θ)] −→ N 0, J · Σ · J t .

n→+∞
11.3.5 Efficacité asymptotique

On a rencontré précédemment des estimateurs convergents, et asymptotiquement
gaussiens :
P
∀θ ∈ Θ, δn −→ g(θ),
et √ L
n (δn − g(θ)) −→ N (0, v (θ)) ,
n→+∞
où v(θ), la variance asymptotique, donne une mesure de la pertinence de l’estima-

teur. Dans la classe des estimateurs convergents et asymptotiquement gaussiens, sous
de faibles conditions additionnelles, il existe des estimateurs qui minimisent unifor-
mément la variance asymptotique v(θ). On n’a pas unicité d’un tel estimateur. En
effet, si un tel estimateur δn existe, et si Tn vérifie :
√ Pθ
n Tn −→ 0
n→+∞
c Michel CARBON
alors δn∗ = δn + Tn présente la même condition d’optimalité. Un rôle central dans la

théorie de l’efficacité asymptotique est joué par l’analyse de l’inégalité d’information.
Si X1 , . . . , Xn sont i.i.d., de densité fθ (x), satisfaisant certaines conditions de

régularité, l’inégalité établit que la variance de tout estimateur sans biais δ de g(θ)
vérifie :
[g 0 (θ)]2
varθ (δ) ≥ ,
nI(θ)
où I(θ) est la quantité d’information de Fischer pour une seule observation. Suppo-
sons maintenant que δn = δn (X1 , . . . , Xn ) soit asymptotiquement gaussien :
√ L
∀θ ∈ Θ, n(δn − g(θ)) −→ N (0, v(θ)) ,
n→+∞
avec v(θ) > 0. Alors, sous de faibles conditions de régularité, on a également :
[g 0 (θ)]2
v(θ) ≥
I(θ)
[g 0 (θ)]2
(δ n’est pas nécessairement sans biais). Si v(θ) = , on dit que δn est asymp-
I(θ)
totiquement efficace.
11.3.6 Propriétés asymptotiques des EMV

Commençons par quelques propriétés de régularité :
(A0 ) Les lois Pθ sont 2 à 2 distinctes : θ 6= θ0 ⇒ Pθ 6= Pθ0 .
(A1 ) Les lois Pθ ont même support.
(A2 ) Les observations sont : X = (X1 , . . . , Xn ) où les Xi sont i.i.d. de densité fθ (x).
(A3 ) Θ contient un intervalle ouvert I tel que la vraie valeur du paramètre θ0 soit
un point intérieur.
On a alors le résultat suivant.
Théorème 11.3.8 Sous les hypothèses A0 , A1 , A2 , pour tout θ 6= θ0, on a :
Pθ0 (fθ0 (x1 ) × · · · × fθ0 (xn ) > fθ (x1 ) × · · · × fθ (xn )) −→ 1.

n→+∞
Démonstration :
Il est aisé de montrer que l’inégalité :
fθ0 (x1 ) × · · · × fθ0 (xn ) > fθ (x1 ) × · · · × fθ (xn )
équivaut à
n
1X fθ (xi )
ln < 0.
n i=1 fθ0 (xi )
c Michel CARBON
236
Grâce à la loi des grands nombres, on a :

n
1X fθ (Xi ) p.s. fθ (X)
ln −→ Eθ0 ln .
n i=1 fθ0 (Xi ) n→+∞ fθ0 (X)
Or, −ln est strictement convexe, donc, grâce à l’inégalité de Jensen, on a :

fθ (X) fθ (X)
Eθ0 ln < ln Eθ0 = 0.
fθ0 (X) fθ0 (X)
Pour n grand, la densité de X est plus grande en θ0 qu’ailleurs, avec une plus grande
probabilité. C’est une justification, a postériori de la méthode du MV.
Nous noterons Lθ (x) le logarithme de la vraisemblance :
n
X
Lθ (x1 , . . . , xn ) = ln fθ (xi ).
i=1
Théorème 11.3.9 Supposons que X1 , . . . , Xn satisfont à A0 , A1 , A2 et A3 ; suppo-

sons que, pour presque tout x, fθ (x) soit différentiable par rapport à θ, de dérivée
0 ∂
fθ (x) = fθ (x).
∂θ
Alors, il existe une suite de racines θbn = θbn (x1 , . . . , xn ) de l’équation de vrai-
semblance :
∂
[fθ (x1 ) × · · · × fθ (xn )] = 0,
∂θ
ou, de manière équivalente :
0
X f 0 (xi )
θ
Lθ (x) = = 0,
i
fθ (xi )
qui converge presque sûrement vers θ0 .

Démonstration :
Soit Φ le sous-ensemble dénombrable de Θ tel que :

1 ∗
Φ = ϕ/ϕ ∈ Θ ; ϕ = θ0 ± ; k ∈ IN .
k
D’après la preuve du théorème précédent, il existe un ensemble négligeable N tel

que ∀ϕ ∈ Φ, ∀w ∈/ N on ait :
n
1 X fϕ (Xi ) fϕ (X)
Zn (ϕ) = −→ Eθ ln < 0.
n i=1 fθ0 (Xi ) n→+∞ 0 fθ0 (X)
Pour tout ε > 0, il existe ϕ0 et ϕ00 dans Φ tels que :
θ0 − ε < ϕ0 < θ0 < ϕ00 < θ0 + ε
c Michel CARBON
(car Θ contient un ouvert I contenant θ0 : c’est A3 ). Pour tout ω ∈

/ N, il existe nω, ε
tel que :
∀n, n ≥ nω,ε , Zn (ϕ0 )(ω) < 0 et Zn (ϕ00 )(ω) < 0.
Grâce à l’hypothèse de dérivabilité, la fonction :
θ 7−→ Zn (θ) (ω)
est continue sur le compact [ϕ0 , ϕ00 ]. Cependant, comme Zn (θ0 )(ω) = 0, il existe alors
un maximum dans ]ϕ0 , ϕ00 [. Notons-le θbnε et on a :

bε bε
(∀a > 0), θn − θ0 < ε et Pθ0 θn − θ0 < ε → 1.

On peut ainsi construire la suite de racines θbn de l’énoncé par diagonalisation après
1
avoir posé ε = , r ∈ IN ∗ .
r
Théorème 11.3.10 (loi-limite de l’EMV) On suppose que Θ est un intervalle ou-

vert et que A0 , A1 , A2 et A3 sont vérifiées. On suppose que fθ (x) est deux fois
∂2
différentiable en θ, et que ln fθ (x) est continue en θ, uniformément en x. On
∂θ2
suppose que l’information de Fischer I1 (θ) apportée parZ une seule observation est
strictement positive. On suppose que l’on peut dériver fθ (x) dλ(x) deux fois sous
le signe intégral. On suppose enfin que θbn est une suite de solutions des équations de
vraisemblance telle que :
θbn −→ θ0 p.s.
n→+∞
Alors :
√

L 1
n θn − θ0
b −→ N 0,
n→+∞ I1 (θ0 )
(on dit que θbn est asymptotiquement efficace).
Démonstration : Pour tout x = (x1 , . . . , xn ), posons

n
1X ∂ ∂2
B(x, θ) = ln fθ (xi ), B 0 (x, θ) = B(x, θ), B 00 (x, θ) = B(x, θ).
n i=1 ∂θ ∂θ2
D’après la formule des accroissements finis, on a :
θ = B 0 (x, θbn ) = B 0 (x, θ0 ) + (θbn − θ0 ) B 00 (x, θn∗ ),
où θn∗ ∈ [θbn , θ0 ] ou [θ0 , θbn ]. D’autre part, on a :
1 Pn
|B 00 (x, θn∗ ) − B 00 (x, θ0 )| ≤ |B 00 (xk , θn∗ ) − B 00 (xk , θ0 )|
n k=1
≤ sup |B 00 (y, θn∗ ) − B 00 (y, θ0 )| .
y∈R
c Michel CARBON
238
Puisque θn∗ est compris entre θbn et θ0 , et que θbn −→ θ0 p.s., on en déduit que :
n→+∞
θn∗ −→ θ0 p.s. D’après l’hypothèse d’uniforme continuité sur B 00 , on a :
n→+∞
|B 00 (x, θn∗ ) − B 00 (x, θ0 )| −→ 0 p.s.

n→+∞
Or, d’après la loi forte des grands nombres, on a :

n
00 1 X 00 p.s.
B (x, θ0 ) = B (xk , θ0 ) −→ Eθ0 (B 00 (x1 , θ0 )) = −I1 (θ0 ) < 0.
n k=1 n→+∞
Donc, comme I1 (θ0 ) est positif, pour n assez grand, on a :
B 00 (x, θn∗ ) < 0.
On peut donc écrire :

√ h i √ B 0 (x, θ0 )
n θbn − θ0 = − n 00 .
B (x, θn∗ )
Comme Eθ (B 0 (X, θ0 )) = 0, d’après le TCL, on a :
√ √
n
0 1 P 0
n B (X, θ0 ) = n B (xk , θ0 )
n k=1
L
−→ N (0, Vθ0 (X1 , θ0 )) = N 0, I1−1 (θ0 ) .

n→+∞
Un résultat classique de probabilités permet d’en déduire que :

√ L
n(θbn − θ0 ) −→ N 0, I1−1 (θ0 )

n→+∞
Cas multidimensionnel
Les deux résultats précédents se généralisent au cas où Θ est un ouvert de RP .
La conclusion du 2e résultat est :
√
L
−→ N 0, I1−1 (θ0 ) ,

n θn − θ0
b
n→+∞
où I1 (θ0 ) est la matrice d’information de Fischer pour une observation.

Remarque Si on s’intéresse à g(θ), où g est une application de RP dans Rk , on
a:
- Si g est continue :
θbn −→ θ Pθ0 − p.s. ⇒ g(θbn ) −→ g(θ) Pθ − p.s.

n→+∞ n→+∞

∂
- Si g est différentiable, de matrice jacobienne J(θ) = (matrice k × p),
∂θj
alors : √ L
n(θbn − θ0 ) −→ N 0, I1−1 (θ0 )

n→+∞
c Michel CARBON
11.4 Modèles de mélange 239
implique que :
√
L
−→ N 0, J(θ0 ) I1−1 (θ0 ) J t (θ0 )

n g(θbn ) − g(θ0 )
n→+∞
!
(g 0 (θ0 ))2
(en dimension 1, la loi-limite est N 0, ). Donc, sous certaines condi-
I1 (θ0 )
tions de régularité, les EMV sont convergents et asymptotiquement efficaces.
11.4 Modèles de mélange

Les modèles de mélange sont très fréquemment utilisés dans les applications. Ils
permettent de modéliser le comportement de plusieurs groupes ou populations à la
fois.
Exemple 11.4.1 Longueurs d’ailes d’oiseaux
Longueur 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 98
Fréquence 5 3 12 36 55 45 21 13 15 34 59 48 16 12 6 1
Ces données (n = 381) proviennent d’une étude sur la migration de petits oiseaux.
Quelques mesures ont été effectuées. La longueur des ailes est mesurées en mm.
Figure 11.4 – Histogramme des longueurs des ailes.
On voit que cet histogramme est de forme bimodale. Clairement, cela donne à
penser que l’on est en présence de deux populations différentes dans l’échantillon. Il
c Michel CARBON
240
est évident que mâles et femelles oiseaux ont été mélangés dans l’échantillon. Il y a
une certaine proportion π d’oiseaux femelles et une autre proportion 1 − π d’oiseaux
mâles, mais on ne les connaît pas.
Pour modéliser une telle situation où on observe deux populations ayant un com-
portement différent, il va convenir d’associer une loi à chaque population. Ici, on
introduira une loi PF pour les longueurs d’ailes des oiseaux femelles et une loi PM
pour les ailes des mâles. Au vu de la forme bimodale constatée de l’histogramme, on
pourrait par exemple choisir des lois normales pour PF et PM avec des paramètres
différents.
11.4.1 Définition d’un modèle de mélange

L’exemple précédent appartient à la famille des modèles de mélange, qui est
la modélisation du comportement de plusieurs populations différentes. Bien sûr, la
définition d’une population ou groupe dépend de l’application considérée : parfois,
il est tout à fait justifié de distinguer le comportement des femmes et des hommes,
parfois non. On pourrait aussi former des groupes par tranche d’âge, par milieu
social, par nationalité, par antécédents médicaux, voire par tirage au sort, etc.
Appelons m ≥ 2 le nombre de sous-populations différentes dont on cherche à

modéliser le comportement commun, et notons Pj la loi associée à la j-ième classe.
On supposera, pour simplifier, que toutes les lois Pj appartiennent à la même famille
de loi H = {hθj , θj ∈ Θ} où Θ ⊂ Rp et où les hθj désignent les densités de la famille.
De plus, notons πj la proportion d’individus de la j-ième classe dans la population
m
X
totale. On suppose que πj ∈ [0, 1] pour tout j = 1, · · · , m et que πj = 1.
j=1
Pour définir une variable X d’intérêt qui représente les m populations différentes,
il faut introduire tout d’abord une variable aléatoire U pour modéliser l’appartenance
ou non d’un individu à une des m populations. Considérons alors la variable U dont
la loi est discrète à valeurs dans {1, · · · , m} et telle que :
P (U = k) = πk , k = 1, · · · , m .
D’autre part, on considère les variables Vk de densité hθk , avec θk ∈ Θ pour chaque
k = 1, · · · , m. Bien entendu, on supposera les variables aléatoires U, V1 , · · · , Vm
indépendantes entre elles. On peut ainsi définir la variable aléatoire X par :
m
X
X= 1{U =k} Vk .
k=1
Déterminons la fonction de répartititon de X. Grâce au théorème des probabilités
c Michel CARBON
totales et grâce à l’indépendance des variables U et Vk , on a :

Pm
FX (x) = P (X ≤ x) = k=1 P (X ≤ x | U = k)P (U = k)
m m
! !
X X
= πk P 1{U =k} Vk ≤ x U = k
k=1 k=1
m
X m
X m
X
= πk P (Vk ≤ x | U = k) = πk P (Vk ≤ x) = πk FVk (x) .
k=1 k=1 k=1
Comme les lois des Vk sont à densité, on en déduit, par dérivation que la loi de
X est à densité, donnée par :
m
X
fX (x) = πk hθk (x) .
k=1
La densité fX est dite densité du mélange. On appellera hθk la k-ième composante

du mélange et πk son poids associé.
Il faut bien faire attention que les paramètres du modèle de mélange sont, d’une
part les paramètres θk des diiférentes composantes du mélange, et, d’autre part, les
m
X
probabilités discrètes π1 , · · · , πm−1 de la loi de U . Comme πj = 1, la valeur de
j=1
πm est déterminée par les valeurs de toutes les précédentes π1 , · · · , πm−1 .
Finalement, l’ensemble Ξ des paramètres d’un modèle de mélange tel que vu
ci-dessus est donné par :
Ξ = {θ1 , · · · , θm , π1 , · · · , πm−1 } .
Il ya donc 2m − 1 paramètres inconnus dans ce modèle de mélange. Le nombre

m est souvent appelé l’ordre du mélange.
On peut remarquer que le modèle de mélange est adéquat quand on ne dispose
pas de l’information, pour chaque individu observé, de l’appartenance ou pas à un
groupe précis, c’est-à-dire quand la variable U , nommée étiquette, n’est pas observée.
Ce manque d’information peut être une ommission lors de la saisie des données.
Parfois, il est impossible ou trop onéreux d’obtenir cette information. Il se peut
encore qu’on ne soit pas conscient, avant la collecte des données, que la variable
observée s’explique mieux en utilisant plusieurs sous-groupes de populations. Il faut
aussi noter qu’un modèle de mélange peut être utilisé efficacement pour approcher la
loi du phénomène étudié quand les familles de lois standards se sont pas appropriées.
Il faut aussi, pour les modèles de mélange, faire attention à l’identifiabilité des
paramètres. Pour vraiment obtenir un modèle de mélange avec exactement m sous-
populations, il faut ajouter des contraintes sur les paramètres qui sont :
πk > 0 , k = 1, · · · , m et θ1 < θ2 < · · · < θm .
c Michel CARBON
242
Exemple 11.4.2 (suite)

Notons (x1 , · · · , xn ) les mesures des envergures des n petits oiseaux. C’est un
échantillon de variables i.i.d. d’un modèle de mélange de deux lois normales (m = 2).
En appelant f1 la densité de la loi normale N (m1 , σ12 ) et f2 la densité de la

loi normale N (m2 , σ22 ) et en notant θ = (p, m1 , m2 , σ12 , σ22 ), la densité du mélange
s’écrit :
fθ (x) = fX (x) = p f1 (x) + (1 − p) f2 (x)
(x − m1 )2 (x − m2 )2

p 1−p
= √ exp − + √ exp − ,
σ1 2π 2σ12 σ2 2π 2σ22
avec p ∈]0, 1[. On cherche à estimer les paramètres inconnus θ = (p, m1 , m2 , σ12 , σ22 ).
La vraisemblance s’écrit :
n n
(xi − m1 )2 (xi − m2 )2

Y 1 Y p 1−p
Lθ (x1 , · · · , xn ) = fθ (xi ) = exp − + exp −
i=1
(2π)n/2 i=1 σ1 2σ12 σ2 2σ22
La log-vraisemblance lθ (x1 , · · · , xn ) = ln Lθ (x1 , · · · , xn ) s’en déduit immédiate-

ment :
n
X
lθ (x1 , · · · , xn ) = ln fθ (xi )
i=1
n
(xi − m1 )2 (xi − m2 )2

n X p 1−p
= − ln(2π) + ln exp − + exp −
2 i=1
σ1 2σ12 σ2 2σ22
Le calcul des dérivées partielles est aisé. Par exemple :

(xi − m1 )2 (xi − m2 )2

1 1
n exp − − exp −
∂ X σ1 2σ12 σ2 2σ22
lθ (x1 , · · · , xn ) = 2
2

∂p p (x i − m 1 ) 1 − p (x i − m 2 )
i=1 exp − + exp −
σ1 2σ12 σ2 2σ22
(xi − m1 )2

p(xi − m1 )
n exp −
∂ X σ13 2σ12
lθ (x1 , · · · , xn ) = 2
2

∂m1 p (x i − m 1 ) 1 − p (x i − m 2 )
i=1 exp − + exp −
σ1 2σ12 σ2 2σ22
∂
lθ (x1 , · · · , xn ) = · · ·
∂m2
L’annulation de ces dérivées (il y en a 5) n’amène pas à des solutions expli-
cites. Le fait, ici, que la vraisemblance s’exprime comme un produit de sommes rend
très souvent sa maximisation assez compliquée. Dans les modèles de mélange, très
souvent, on détermine l’estimateur du maximum de vraisemblance via des méthodes
numériques, typiquement l’algorithme EM .
c Michel CARBON
11.4.2 Modèles à variables latentes

Le modèle de mélange fait partie d’une famille de modèles plus vaste encore. Il
existe d’autres types de modèles faisant intervenir des variables cachées. L’étiquette
U introduite dans le modèle de mélange en est un exemple patent. On parle égale-
ment de variables latentes ou variables cachées ou variables manquantes quand des
variables du modèle ne sont pas observées, et on appelle ces modèles des modèles à
variables latentes.
Considérons un échantillon i.i.d. X = (X1 , · · · , Xn ) de densité fθ0 dans le modèle
statistique {fθ , θ ∈ Θ} avec Θ ⊂ Rd . On dit que X est une variable incomplète du
modèle. Si on note U les variables latentes du modèle, on dit alors que (X, U ) forment
les variables complètes du modèle.
Généralement, le modèle incomplet caractérisé par {fθ , θ ∈ Θ} est très com-
pliqué à manipuler car les estimateurs classiques, tels l’estimateur des moments ou
l’estimateur du maximum de vraisemblance, ne sont pas calculables. L’objectif affi-
ché de l’introduction de variables latentes est alors de passer à un modèle pour lequel
les calculs s’opérent plus aisément. Il est par exemple évident que, dans l’exemple
précédent du mélange gaussien, l’estimateur du maximum de vraisemblance serait
explicite sin on disposait du modèle complet (X, U ).
Cependant, il existe une méthode numérique puissante, l’algorithme EM (de
Dempster, Laird et Rubin - 1977), pour approcher l’estimation par maximum de
vraisemblance dans les modèles à variables latentes, exploitant le fait que l’estimation
par maximum de vraisemblance est abordable dans le modèle complet.
c Michel CARBON
244
c Michel CARBON
Chapitre 12
Estimation bayésienne
Le savant n’étudie pas la nature parce que cela est utile ; il l’étudie parce qu’il y
prend plaisir et il y prend plaisir parce qu’elle est belle. H. Poincaré
12.1 Introduction
Le raisonnement bayésien est ici caractérisé par la prise en compte d’idées “ a
priori ”, subjectives ou non, sur l’espace des paramètres Θ.
Ces idées a priori sont supposées être contenues dans la donnée d’une loi de
probabilité définie sur (Θ, T ) . Donc ce principe consiste à admettre l’existence d’une
probabilité τ (appelée “ probabilité a priori ”) sur (Θ, T ), résumant l’information sur
θ autre que celle fournie par l’expérience aléatoire.
Le risque doit alors être intégré par rapport à τ .
Plus précisément, on considère ici le problème d’estimation (P, g, L) où
P = (pθ (x) ; x ∈ Rn , θ ∈ Θ)
g = (g(θ) ; θ ∈ Θ)
L = (L(θ, δ) ; θ ∈ Θ , δ ∈ ∆)
On suppose de plus que l’espace des paramètres Θ est une intervalle réel, et que π(θ)
est une densité de probabilité sur Θ, densité associée à la mesure de probabilité τ .
Dans ces conditions, on peut définir la fonction de risque bayésien par :
Définition 12.1.1 La fonction de risque bayésienne rτ , associée à R, est l’espérance

du risque R (θ, δ) par rapport à la loi a priori τ de densité π(θ) :
Z
∀δ ∈ ∆, rτ (δ) = R(θ, δ)π(θ) dθ.
Θ
245
246 CHAPITRE 12. ESTIMATION BAYÉSIENNE
Cela conduit à la notion de règle de décision bayésienne ( ici estimateur bayésien

pour g(θ)).
Définition 12.1.2 Une règle de décision δ0 est dite règle de Bayès (ou règle bayé-
sienne) associée à la distribution a priori τ si :
rτ (δ0 ) ≤ rτ (δ), ∀δ ∈ ∆.
c’est-à-dire :
rτ (δ0 ) = inf rτ (δ) .
δ∈∆
12.2 Le point de vue bayésien

Dans la formulation bayésienne de la théorie de l’estimation statistique, la pa-
ramètre θ est vu comme la réalisation (non observée) d’une variable aléatoire Θ de
densité π(θ) connue.
Attention à ne pas confondre Θ l’espace des paramètres où évolue θ et la variable
aléatoire Θ, variable à valeurs dans l’ensemble Θ.
La loi de probabilité τ de densité π(θ) est appelé la loi a priori. On différenciera
bien les lois suivantes :
— La loi conjointe de X et de Θ. Sa densité sera notée : fX,Θ (x, θ).
— La loi marginale de X est alors :
Z
fX (x) = fX,Θ (x, θ) dθ .
Θ
— La loi marginale de Θ est alors :

Z
fΘ (θ) = fX,Θ (x, θ) dx .
Rn
Cette loi de densité fΘ (θ) est appelée loi a priori du paramètre θ, ou loi de
la variable Θ, notée usuellement, comme précédemment, par π(θ).
— La loi conditionnelle de X sachant que Θ = θ est :
fX,Θ (x, θ)
fXΘ=θ (x) = .
fΘ (θ)
Cette loi conditionnelle coïncide bien sûr avec fθ (x).
— La loi conditionnelle de Θ sachant que X = x est :
X=x fX,Θ (x, θ)

fΘ (θ) = .
fX (x)
Cette loi conditionnelle est appelée loi a posteriori du paramètre θ, ou encore
loi de la variable Θ. Elle est habituellement notée π(θ | x).
Il est important de noter aussi que, dans le contexte bayésien, la notation Pθ [A]
signifie : P [A | Θ = θ] et que Eθ [V ] signifie E [V | Θ = θ].
c Michel CARBON
12.3 Le risque bayésien 247
12.3 Le risque bayésien

Dans la formulation bayésienne du problème d’estimation et dans le cadre exposé
dans le paragraphe précédent, on distingue trois notions distinctes du risque :
— 1. Le risque bayésien a priori :
r(π, δ) = E [L(Θ, δ(X))] .
— 2. Le risque bayésien a posteriori :
E [L(Θ, δ(X)) | X = x] = E [L(Θ, δ(x)) | X = x] .
— 3. La fonction de risque classique :
R(θ, δ) = Eθ [L(θ, δ(X))] = E [L(θ, δ(X)) | Θ = θ] = E [L(Θ, δ(X)) | Θ = θ] .
Le lien entre le risque bayésien a priori et la fonction de risque classique est le

suivant :
r(π, δ) = E [L(Θ, δ(X))]
Z
= E [L(Θ, δ(X)) | Θ = θ] π(θ) dθ
Θ
Z
= R(θ, δ)π(θ) dθ .
Θ
La définition donnée à la section (14.1) peut ici, dans le cadre de l’estimation

bayésienne, s’écrire ainsi :
Définition 12.3.1 Un estimateur bayésien δ0 est un estimateur qui minimise le

risque bayésien a priori, c’est-à-dire qui satisfait à :
r(π, δ0 ) = inf r(π, δ) .

δ∈∆
Le théorème qui suit est un théorème important pour trouver des estimateurs bayé-
siens.
Théorème 12.3.1 Dans le cadre d’un problème d’estimation bayésienne, avec les
notations précédentes, on note δ0 (X) un estimateur de g(θ). Supposons, pour tout
x ∈ Rn , que la fonction :
hx (d) = E [L(Θ, d) | X = x]
atteigne son minimum en d = δ0 (x). Alors, δ0 (X) est un estimateur bayésien pour
g(θ).
Remarque 12.3.1 Dans l’énoncé du théorème, on a écrit "pour tout x ∈ Rn ". On

aurait aussi pu écrire "pour tout x ∈ A, où A, est un sous-ensemble de Rn tel que
P [X ∈ A] = 1".
c Michel CARBON
Remarque 12.3.2 On a supposé aussi ici que nous sommes dans le cas absolument
continue, et écrivons toujours des intégrales. Dans le cas discret, les résultats restent
vrais en remplaçant les intégrales par des sommes.
Remarque 12.3.3 Le théorème met en évidence le fait que, si l’on veut trouver un
estimateur bayésien, il va tout d’abord falloir déterminer la loi a posteriori, c’est-à-
dire la loi conditionnelle de Θ sachant que X = x.
Démonstration du théorème (12.3.1) :

Soit δ(X) un autre estimateur de g(θ). Il faut montrer que : r(π, δ0 ) ≤ r(π, δ) .
On a ici :
r(π, δ0 ) = E [L(Θ, δ0 (X))]
Z
= E [L(Θ, δ0 (X)) | X = x] fX (x) dx
Rn
Z
= E [L(Θ, δ0 (x)) | X = x] fX (x) dx
Rn
Z
≤ E [L(Θ, δ(x)) | X = x] fX (x) dx
Rn
Z
= E [L(Θ, δ(X)) | X = x] fX (x) dx
Rn
= E [L(Θ, δ(X))] = r(π, δ)
A toutes fins utiles, on rappelle ici les différentes formes du théorème de Bayes (à
connaître), ce qui pourra être très utile pour résoudre les problèmes liés à l’estimation
bayésienne.
Théorème 12.3.2 (de Bayès- version élémentaire)

Si B1 , B2 , · · · , Bn forment une partition de Ω, si A est un événement tel que
P [A] > 0, alors, pour tout i tel que 1 ≤ i ≤ n, on a :
P [A | Bj ]P [Bj ]
P [Bj | A] = n . (12.1)
X
P [A | Bi ]P [Bi ]
i=1
En particulier, si X et Y sont des variables aléatoires discrètes, et si x est tel que

P [X = x] > 0, alors l’ équation (12.1) donne :
P [X = x | Y = y]P [Y = y]
P [Y = y | X = x] = X .
P [X = x | Y = u]P [Y = u]
u
On obtient ainsi le théorème de Bayès (version utilisant les probabilités condi-

tionnelles).
c Michel CARBON
Théorème 12.3.3 (de Bayès pour les variables discrètes)

Si X et Y sont des variables aléatoires discrètes, et si x est tel que P [X = x] > 0,
alors pour tout y, on a :
pYX=y (x)pY (y)
pYX=x (y) =X . (12.2)
pYX=u (x)pY (u)
u
L’équation (12.2) nous permet, par similarité de donner une formule analogue
pour le cas absolument continu.
Théorème 12.3.4 (de Bayès pour les variables absolument continues)
Si X et Y sont des variables aléatoires absolument continues, et si x est tel que
fX (x) > 0, alors pour tout y, on a :
fXY =y (x)fY (y)
fYX=x (y) =Z . (12.3)
fXY =u (x)fY (u) du
Revenons à notre problème d’estimation bayésienne. On connaît L(Θ), c’est-à-

dire la densité π(θ), et on connaît aussi L(X | Θ = θ), c’est-à-dire fθ (x). Le théorème
de Bayès nous permet alors de calculer L(Θ | X = x), c’est-à-dire π(θ | x) , notée
πx (θ) :
fθ (x)π(θ)
πx (θ) = Z = Cfθ (x)π(θ) . (12.4)
fθ (x)π(θ) dθ
Θ
Exemple 12.3.1 On suppose que X1 , X2 , · · · , Xn sont n variables aléatoires i.i.d.

de Bernouilli B(1, θ) (avec 0 < θ < 1). On suppose de plus que la loi a priori ( loi
de la variable Θ) est la loi Beta B(α, β), dont la densité est :
Γ(α + β) α−1
π(θ) = θ (1 − θ)β−1 1[0,1] (θ) .
Γ(α)Γ(β)
La loi conditionnelle de X sachant que Θ = θ a pour densité :
n
Y Pn Pn
1{0,1} (xj )θxj (1 − θ)1−xj = 1{0,1} (x)θ j=1 xj (1 − θ)n− j=1 xj .

fθ (x) =
j=1
Donc, pour tout x ∈ {0, 1}n , on a :
πx (θ) = Cfθ (x)π(θ)
Pn
xj
Pn Γ(α + β) α−1
= Cθ j=1 (1 − θ)n− j=1 xj
θ (1 − θ)β−1 1[0,1] (θ)
Γ(α)Γ(β)
Pn Pn
xj −1 xj −1
= C 0 θα+ j=1 (1 − θ)β+n− j=1 1[0,1] (θ)
Γ(α0 + β 0 ) α0 −1 0
= 0 0
θ (1 − θ)β −1 1[0,1] (θ) ,
Γ(α )Γ(β )
c Michel CARBON
avec : n n
X X
0 0
α =α+ xj et β = β + n − xj .
j=1 j=1
En conclusion, la loi a posteriori est une loi B(α0 , β 0 ) de paramètres α0 et β 0

donnés ci-dessus.
de loi N (θ, σ 2 ) où la variance σ 2 est supposée connue. On suppose de plus que la
loi a priori est la loi N (µ0 , σ02 ), où la moyenne µ0 et la variance σ02 sont supposés
connues. On a donc ici :
n n
!
Y 1 1 1 X
exp −(xj − θ)2 /2σ 2 (xj − θ)2

fθ (x) = √ = 2 )n/2
exp − 2
j=1
2πσ (2πσ 2σ j=1
et
1
exp −(θ − µ0 )2 /2σ02 .

π(θ) = √
2πσ0
n
Donc, pour tout x ∈ R et tout θ ∈ R, on obtient :
n
!
1 1 X 1
(xj − θ)2 exp −(θ − µ0 )2 /2σ02

= C exp − √
(2πσ 2 )n/2 2σ 2 j=1 2πσ0
n
!
1 X 1
= C 0 exp − 2 (xj − θ)2 − 2 (θ − µ0 )2
2σ j=1 2σ0
n
! !
1 X 1
= C 0 exp − 2 (xj − x)2 + n(θ − x)2 − 2 (θ − µ0 )2
2σ j=1
2σ0

00 1 2 1 2
= C exp − 2 n(θ − x) − 2 (θ − µ0 )
2σ 2σ0
 
2 2
2
1 µ0 /σ0 + nx/σ
= C 000 exp − θ− 
1
2 1/σ2 +n/σ 1/σ02 + n/σ 2
2
0
2 /2σ 2
= C 000 e−(θ−µ∗ ) ∗
1 2 2
= √ e−(θ−µ∗ ) /2σ∗
2πσ∗
avec :
µ0 /σ02 + nx/σ 2
µ∗ =
1/σ02 + n/σ 2
1
σ∗2 = .
1/σ02 + n/σ 2
c Michel CARBON
En conclusion, la loi a posteriori est la loi N (µ∗ , σ∗2 ) où µ∗ et σ∗2 sont des paramètres
donnés ci-dessus.
Remarque 12.3.4 Dans l’exemple (15.2.1), on note que si la loi a priori est une
loi Beta, alors la loi a posteriori est aussi une loi Beta, quel que soit le vecteur x
observé. On dit alors que la famille F = {B(α, β) ; α > 0, β > 0} est une famille
conjuguée pour le modèle i.i.d. de Bernouilli B(1, θ).
Remarque 12.3.5 Dans l’exemple (12.3.2), on note que si la loi a priori est une loi
normale, alors la loi a posteriori est aussi une loi normale, quel que soit le vecteur
x observé. On dit alors que la famille F = {N (µ0 , σ02 ) ; µ0 ∈ R , σ02 > 0} est une
famille conjuguée pour le modèle i.i.d. N (θ, σ 2 ) avec σ 2 connu.
Ces deux remarques conduisent à la définition générale suivante :

Définition 12.3.2 Une famille F de mesures de probabilité sur l’espace des para-
mètres Θ d’un modèle P = {fθ (x) ; θ ∈ Θ} est appelée famille conjuguée pour ce
modèle P si on a la propriété suivante : si L(Θ) ∈ F, alors L(Θ | X = x) ∈ F pour
tout x ∈ A où A ⊂ Rn vérifie P [X ∈ A] = 1.
Dans l’exemple qui suivra, nous aurons besoin de la loi "Gamma-inverse" de
paramètres (α, λ) dont la définition est la suivante :
Définition 12.3.3 Pour α > 0 et λ > 0, la loi gamma inverse de paramètres (α, λ)
est une loi de probabilité absolument continue de densité :
λα 1 −λ/u

e si u > 0


Γ(α) uα+1

f (u) =


 0 si u ≤ 0
La loi gamma inverse tire son nom de la propriété suivante :
Propriété 12.3.1 Si U suit une loi Γ(α, λ), et si V = 1/U , alors V suit une loi
gamma inverse(α, λ).
Démonstration : La densité d’une loi Γ(α, λ) est :

λα α−1 −λu
fα,λ (u) = u e 1R∗+ (u)
Γ(α)
Pour toute fonction ϕ continue bornée, on a :
Z +∞ α
1 1 λ
E [ϕ(V )] = E ϕ = ϕ uα−1 e−λu du
U 0 u Γ(α)
1 1
Faisons le changement de variable : v = , avec dv = − 2 du. Il vient alors :
u u
Z 0
λα 1 −λ/v

1
E [ϕ(V )] = ϕ(v) e − 2 dv ,
+∞ Γ(α) v α−1 v
c Michel CARBON
c’est-à-dire : +∞
λα 1 −λ/v
Z
E [ϕ(V )] = ϕ(v) e dv ,
0 Γ(α) v α+1
λα 1 −λ/v
et la densité de la loi gamma inverse(α, λ) est : e 1R∗+ (v).
Γ(α) v α+1
Propriété 12.3.2 Si V suit une loi gamma inverse(α, λ), alors on a :
λ

 si 1 < α < +∞
α−1

E[V ] =


+∞ si 0 < α ≤ 1
et
λ2

si 2 < α < +∞


(α − 1)2 (α − 2)

var[V ] =


+∞ si 0<α≤2.

Démonstration : On a :
Z +∞ α Z +∞ α
λ 1 −λ/v λ 1 −λ/v
E [V ] = v α+1
e 1R∗+ (v) dv = e dv ,
−∞ Γ(α) v 0 Γ(α) v α
ce qui s’écrit encore :
+∞
λα Γ(α − 1) λα−1 1 −λ/v
Z
E [V ] = e dv
Γ(α) λα−1 0 Γ(α − 1) v α
Cette dernière intégrale est définie pour α > 1 (et vaut +∞ sinon), et la fonction à
intégrer n’est autre que la densité d’une loi gamma inverse(α − 1, λ) (et donc cette
dernière intégrale vaut 1).
En remarquant que : Γ(α) = (α − 1)Γ(α), on obtient finalement :
λ

 si 1 < α < +∞
α−1

E[V ] =


+∞ si 0 < α ≤ 1
De la même façon, on peut calculer E [V 2 ] :

Z +∞ α Z +∞ α
2 2 λ 1 −λ/v λ 1 −λ/v
E V = v α+1
e 1R+ (v) dv =
∗
α−1
e dv ,
−∞ Γ(α) v 0 Γ(α) v
ce qui s’écrit encore :
+∞
λα Γ(α − 2) λα−2
Z
2 1 −λ/v
E V = e dv
Γ(α) λα−2 0 Γ(α − 2) v α−1
Cette dernière intégrale est définie pour α > 2 (et vaut +∞ sinon), et la fonction à
intégrer n’est autre que la densité d’une loi gamma inverse(α − 2, λ) (et donc cette
c Michel CARBON
dernière intégrale vaut 1). En remarquant que : Γ(α) = (α − 1)(α − 2)Γ(α), on

obtient finalement :
λ2

si 2 < α < +∞


(α − 1)(α − 2)

E[V 2 ] =


+∞ si 0 < α ≤ 2

La variance (pour α > 2, sinon la variance est infinie) s’en déduit immédiatement :
2
λ2 λ2

λ
var [V ] = − = .
(α − 1)(α − 2) α−1 (α − 1)2 (α − 2)

de loi N (µ, θ) où la moyenne µ est supposée connue. On suppose que la loi a priori
est la loi gamma inverse(α, λ) où les paramètres α > 0 et λ > 0 sont connus. On a
donc :
n n
!
Y 1 1 1 X
exp −(xj − µ)2 /2θ = (xj − µ)2

fθ (x) = √ n/2
exp −
j=1
2πθ (2πθ) 2θ j=1
et
λα 1 −λ/θ
π(θ) = e 1R∗+ (θ) .
Γ(α) θα+1
Ainsi, pour tout x ∈]0, +∞[n et tout θ > 0, on obtient :
n
!
1 1 X λα 1 −λ/θ
= C exp − (xj − µ)2 e
(2πθ)n/2 2θ j=1 Γ(α) θα+1
( n
) !
1 1X
= C0 n exp − (xj − µ)2 + λ /θ
θ 2 +α+1 2 j=1
1
= C0 e−λ0 /θ
θα0 +1
λα0 0 1 −λ0 /θ
= e
Γ(α0 ) θ 0 +1
α
avec : n
n 1X
α0 = α + et λ0 = λ + (xj − µ)2 .
2 2 j=0
La loi a posteriori est donc une loi gamma inverse(α0 , λ0 ).

La famille F des lois gamma inverse(α, λ) avec α > 0 et λ > 0 est donc une
famille conjuguée pour le modèle i.i.d. N (µ, θ) où la moyenne µ est supposée connue.
c Michel CARBON
12.4 Exemples de calculs d’estimateurs bayésiens

Nous allons examiner ici quelques exemples de détermination d’estimateurs bayé-
siens dans les cas classiques de choix de fonctions de perte.
On rappelle que si δ∗ (X) est l’estimateur bayésien pour le problème(P, L, g, π),
alors, pour tout x (sauf peut être sur un ensemble de valeurs N de valeurs x tel que
P [X ∈ N ] = 0, la fonction :
hx (d) = E [L(Θ, d) | X = x]
atteint son minimum au point d = δ∗ (x).
12.4.1 Cas où L(θ, d) = (d − g(θ))2

Propriété 12.4.1 Soit U une variable aléatoire telle que : E [U 2 ] < +∞. Alors la
fonction h(d) = E [(U − d)2 ] atteint son minimum en d∗ = E[U ].
Démonstration :
On a : h(d) = E [(U − d)2 ] = E [U 2 − 2U + d2 ] = d2 − 2d E[U ] + E[U 2 ]. Ce
polynôme en d admet un minimum absolu au point où la dérivée s’annule. Le calcul,
aisé, donne : d = E[U ].
Conséquence :
Pour une fonction de perte quadratique L(θ, d) = (d − g(θ))2 , dans un problème
d’estimation bayésienne, la fonction :
hx (d) = E [L(Θ, d) | X = x] = E (d − g(Θ))2 | X = x

atteint son minimum pour :

Z
δ∗ (x) = E [g(Θ) | X = x] = g(θ)π(θ | x) dθ .
Θ
Autrement dit, l’estimateur de Bayès est l’espérance a posteriori de g(Θ), c’est-à-dire

l’espérance de g(Θ) sachant X.

de la variable Θ) est la loi Beta B(α, β).
On a vu, dans l’exemple (15.2.1) que la loi a posteriori est une loi B(α0 , β 0 ) de
Xn Xn
0 0 0 0
paramètres α et β avec α = α + xj et β = β + n − xj .
j=1 j=1
c Michel CARBON
12.4 Exemples de calculs d’estimateurs bayésiens 255
— (i) Le cas où g(θ) = θ. On a alors :

δ∗ (x) = E [Θ | X = x]
Γ(α0 + β 0 ) α0 −1
Z
0
= θ 0 0
θ (1 − θ)β −1 dθ
Θ Γ(α )Γ(β )
Γ(α0 + β 0 ) Γ(α0 + 1)Γ(β 0 ) Γ(α0 + 1 + β 0 ) α0

Z
0
= θ (1 − θ)β −1 dθ
Γ(α0 )Γ(β 0 ) Γ(α0 + 1 + β 0 ) Θ
0
Γ(α + 1)Γ(β )0
Γ(α0 + β 0 ) Γ(α0 + 1)Γ(β 0 )

= ,
Γ(α0 )Γ(β 0 ) Γ(α0 + 1 + β 0 )
en remarquant que l’intégrale ci-dessus est l’intégrale d’une densité de proba-
bilité (celle d’une loi Beta(α0 + 1, β 0 )).
Finalement, on obtient :
α0
δ∗ (x) =
α0 + β 0
α + nj=1 xj
P
=
α+β+n

α+β α n
= + x.
α+β+n α+β α+β+n
Donc l’estimateur bayésien de θ est :

α+β α n
δ∗ (X) = + X.
On pourra noter que cet estimateur est une moyenne pondérée de la moyenne
α
a priori et de la moyenne de l’échantillon X. On remarque enfin aussi
α+β
que, plus n est grand, et plus le poids est sur X, ce qui n’est pas surprenant.
— (ii) Le cas où g(θ) = 1/θ. On a alors :
= E [1/Θ | X = x]
1
Γ(α0 + β 0 ) α0 −1
Z
0
= 0 0
θ (1 − θ)β −1 dθ
0 Γ(α )Γ(β )
 0
α + β0 − 1
 si α0 > 1
α0 − 1

=

si α0 ≤ 1

+∞
α+β+n−1

 si α + nx > 1
α + nx − 1

=


+∞ si α + nx ≤ 1
c Michel CARBON
Donc l’estimateur bayésien pour θ est :


α+β+n−1
si α + nX > 1


α + nX − 1

δ∗ (x) =


 +∞ si α + nX ≤ 1
n
X
A noter que le cas α + nX ≤ 1 survient lorsque 0 < α ≤ 1 et nX = Xj =
j=1
0. On peut aussi remarquer que lorsque n est grand, alors δ∗ (x) ≈ 1/X, ce
qui n’est pas surprenant !
— (iii) Le cas où g(θ) = θ2 . On a alors (en utilisant des remarques similaires à
celles utilisées précédemment) :
δ∗ (x) = E [Θ2 | X = x]
1
Γ(α0 + β 0 ) α0 −1
Z
0
= θ2 0 0
θ (1 − θ)β −1 dθ
0 Γ(α )Γ(β )
1
Γ(α0 + β 0 ) Γ(α0 + 2)Γ(β 0 ) Γ(α0 + β 0 + 2) α0 +1
Z
0
= θ (1 − θ)β −1 dθ
Γ(α0 )Γ(β 0 ) Γ(α0 + β 0 + 2) 0
0
Γ(α + 2)Γ(β ) 0
(α0 + 1)α0
=
(α0 + β 0 + 1)(α0 + β 0 )
(α + nx + 1)(α + nx)
=
(α + β + n + 1)(α + β + n)
Donc l’estimateur bayésien pour θ est :
(α + nX + 1)(α + nX)
δ∗ (X) =
(α + β + n + 1)(α + β + n)
2
Enfin, on peut remarquer que, pour n grand, δ∗ (X) ≈ X , ce qui n’est pas
surprenant.

de loi N (θ, σ 2 ) où la variance σ 2 est supposée connue. On suppose de plus que la
loi a priori est la loi N (µ0 , σ02 ), où la moyenne µ0 et la variance σ02 sont supposés
connues. On a vu que la loi a posteriori est la loi N (µ∗ , σ∗2 ) où µ∗ et σ∗2 sont des
paramètres donnés ci-dessous :
µ0 /σ02 + nx/σ 2
µ∗ =
1/σ02 + n/σ 2
1
σ∗2 = .
1/σ02 + n/σ 2
c Michel CARBON
L’estimateur bayésien de θ est donc :

µ0 /σ02 + nX/σ 2
δ∗ (X) = E [Θ | X = x] = .
1/σ02 + n/σ 2
On peut aussi l’écrire sous la forme ;
1/σ02 n/σ 2
δ∗ (X) = µ 0 + .
1/σ02 + n/σ 2 1/σ02 + n/σ 2
Il s’agit d’une moyenne pondérée de la moyenne a priori µ0 et de la moyenne de
l’échantillon X. De plus, quand n est grand, alors δ∗ (X) ≈ X, ce qui n’est pas
surprenant.
12.4.2 Cas où L(θ, d) = |d − g(θ)|

Propriété 12.4.2 Soit U une variable aléatoire telle que E [ |U | ] < +∞. Alors la
fonction h(d) = E [ |U − d| ] atteint son minimum en d∗ si et seulement si d∗ est une
médiane de la loi de U , c’est-à-dire si et seulement si d∗ satisfait :
P [U ≤ d∗ ] ≥ 1/2 et P [U ≥ d∗ ] ≥ 1/2 .
Démonstration : Si la loi de U est absolument continue de densité f (u), alors on
a:
h(d) = E [ |U − d| ]
Z +∞
= |u − d|f (u) du
−∞
Z d Z +∞
= (d − u)f (u) du + (u − d)f (u) du
−∞ d
Un calcul aisé nous donne :
Z d Z +∞
0
h (u) = f (u) du − f (u) du .
−∞ d
Donc h0 (u) = 0 si et seulement si :

Z d Z +∞
f (u) du = f (u) du ,
−∞ d
c’est-à-dire si et seulement si d est une médiane de f (u). On vérifie aisément qu’il

s’agit bien d’un minimum.
Conséquence :
Dans un problème d’estimation bayésienne avec comme choix de fonction de
perte la fonction d’erreur absolue, la fonction :
hx (d) = E [L(Θ, d) | X = x] = E [ |d − g(Θ)| | X = x]
atteint son minimum en δ∗ (x) = la médiane a posteriori. Autrement dit, l’estimateur
bayésien est la médiane a posteriori de g(Θ), c’est-à-dire la médiane de g(Θ) sachant
X.
c Michel CARBON

de la variable Θ) est la loi Beta B(α, β).
On a vu, dans l’exemple (15.2.1) que la loi a posteriori est une loi B(α0 , β 0 ) de
Xn Xn
0 0 0 0
paramètres α et β avec α = α + xj et β = β + n − xj .
j=1 j=1
Supposons qu’on veuille estimer g(θ) = θ. A partir des n observations x, l’esti-
mation bayésienne est simplement la médiane de la loi a posteriori.
Si α, β et n sont des petits entiers, on pourra peut-être calculer la médiane sans
trop de difficultés. Sinon, il faudra utiliser des méthodes numériques en utilisant des
logiciels comme "R".
Pour estimer une quantité g(θ) autre que θ, il y a lieu de calculer la densité a
posteriori de la variable g(Θ), puis de déterminer la médiane de la loi correspon-
dante.
12.4.3 Cas où L(θ, d) = ω(θ)(d − g(θ))2

La fonction de perte L(θ, d) = ω(θ)(d − g(θ))2 est appelée perte quadratique
pondérée. La fonction de pondération ω(θ) est une fonction positive.
Proposition 12.4.1 Soient U et V deux variables aléatoires telles que :

— (i) P [V ≥ 0] = 1 ,
— (ii) 0 < E[V ] < +∞ ,
— (iii) E[V 2 ] < +∞ ,
— (iv) E[V U 2 ] < +∞ .
Alors la fonction h(d) = E[V (U − d)2 ] atteint son minimum en d∗ = E[V U ]/E[V ].
Démonstration
On a : h(d) = E[V (U − d)2 ] = E[V U 2 ] − 2dE[V U ] + d2 E[V ].On procède ensuite
comme dans la démonstration de la propriété (12.4.1).
Conséquence :
Dans un problème d’estimation bayésienne avec erreur quadratique pondérée, la
fonction :
hx (d) = E [L(Θ, d) | X = x] = E ω(Θ)(d − g(Θ))2 | X = x

atteint son minimum en :

E [ ω(Θ)g(Θ) | X = x]
δ∗ (x) =
E [ ω(Θ) | X = x]
Cas particulier
Dans le cas particulier où g(θ) = θ et ω(Θ) = 1/θ, l’équation précédente s’écrit :
1
δ∗ (x) =
E [ 1/ω(Θ) | X = x]
Autrement dit, δ∗ (x) est la moyenne harmonique a posteriori.
c Michel CARBON

de loi N (µ, θ) où la moyenne µ est supposée connue. On suppose que la loi a priori
est la loi gamma inverse(α, λ) où les paramètres α > 0 et λ > 0 sont connus.
On a vu que la loi a posteriori est une loi gamma inverse(α0 , λ0 ) avec :
n
n 1X
α0 = α + et λ0 = λ + (xj − µ)2 .
2 2 j=0
On obtient donc :
n
1X
λ+ (xj − µ)2
1 2 j=0
δ∗ (x) = = n ,
E [ 1/ω(Θ) | X = x] α+
2
ce qui donne finalement :
n
2α λ n 1X
δ∗ (x) = + (Xj − µ)2 .
2α + n α 2α + n n j=1
L’estimateur bayésien δ∗ (x) est donc une moyenne pondérée de la moyenne harmo-
n
λ 1X
nique a priori et de l’estimateur non bayésien usuel (Xj − µ)2 .
α n j=1
c Michel CARBON
c Michel CARBON
Chapitre 13
Estimateurs minimax et estimateurs

admissibles
Le problème, c’est que si l’on ne prend pas de risque, on risque encore bien
davantage. E. Jong
13.1 Estimateurs minimax

Considérons le problème d’estimation statistique classique (P, g, L)).
Définition 13.1.1 Un estimateur δ∗ (X) est minimax pour g(θ) si, pour tout autre
estimateur δ(X), on a :
supRδ∗ (θ) ≤ supRδ (θ) .
θ∈Θ θ∈Θ
Autrement dit, on a :
supRδ∗ (θ) = inf supRδ (θ) ,

θ∈Θ δ∈∆ θ∈Θ
où ∆ est l’ensemble des estimateurs de g(θ).
Un estimateur minimax est donc un estimateur qui minimise le maximum du risque

(d’où son nom !). Utiliser ce principe minimax est symptomatique d’une aversion
pour le risque.
Dans certains cas, le résultat qui suit peut être utilisé pour déterminer un esti-
mateur minimax.
Théorème 13.1.1 Si δ∗ (X) est un estimateur bayésien et si sa fonction de risque

associée Rδ∗ (θ) est constante, alors δ∗ (X) un estimateur minimax.
261
CHAPITRE 13. ESTIMATEURS MINIMAX ET ESTIMATEURS
262 ADMISSIBLES
Démonstration :
On suppose que δ∗ (X) est un estimateur bayésien et que sa fonction de risque
associée Rδ∗ (θ) est constante.
Soit π(θ) la densité de la loi a priori, loi par rapport à laquelle δ∗ (X) est un
estimateur bayésien. Soit δ(X) un estimateur quelconque de g(θ).
On a a alors :
Z
supRδ∗ (θ) = Rδ∗ (θ)π(θ) dθ
θ∈Θ Θ
Z
≤ Rδ (θ)π(θ) dθ
Θ
Z
≤ sup Rδ (θ) π(θ) dθ
Θ θ∈Θ
Z
= sup Rδ (θ) π(θ) dθ = sup Rδ (θ)
θ∈Θ Θ θ∈Θ
La première égalité ci-dessus provient du fait que Rδ∗ (θ) est constante. La pre-
mière inégalité est une conséquence du fait que δ∗ (X) est une estimateur bayésien
par rapport à la loi a priori de densité π(θ). Le reste est trivial à établir.
On a donc : supRδ∗ (θ) ≤ sup Rδ (θ). Et ceci étant vrai pour tout estimateur δ(X),
θ∈Θ θ∈Θ
on en conclut que δ∗ (X) est minimax.

de loi de Bernouilli B(1, θ). Supposons qu’on travaille avec la fonction de perte qua-
dratique. On cherche un estimateur minimax pour θ.
On a vu dans le chapitre précédent que l’estimateur bayésien par rapport à la loi
a priori Beta(α, β) est donné par :

α+β α n
δ∗ (X) = + X. (13.1)
Calculons la fonction de risque de l’estimateur fourni dans l’équation (13.1),
et examinons s’il est possible de choisir α et β tels que la fonction de risque soit
constante. On a ici :
Rδα,β = Eθ [(δα,β (X) − θ)2 ]

" 2 #
α+β α n
= Eθ + X −θ
" #
2

α+β α n
= Eθ −θ + X −θ
c Michel CARBON
13.1 Estimateurs minimax 263
Les calculs qui précèdent sont aisés.

Ensuite, on va développer l’expression quadratique située dans l’espérance ci-dessus.
Puis, on va développer l’espérance par linéarité de cette dernière en trois morceaux.
ce qui donne alors :
2
α+β α
Rδα,β = −θ
α+β+n α+β

α+β α n
+2 −θ Eθ (X − θ)
2
n
+ Eθ (X − θ)2
α+β+n
2 2
α+β α n θ(1 − θ)
= −θ +
α+β+n α+β α+β+n n
θ2 {(α + β)2 − n} + θ {n − 2α(α + β)} + α2

= .
(α + β + n)2
Pour que la fonction de risque soit constante, il suffit que :
(α + β)2 − n = 0 et n − 2α(α + β) = 0 .
En résolvant ce système de deux équations à deux inconnues α et β, on obtient :

√
n
α=β= .
2
En portant ces deux valeurs dans l’équation (13.1), on obtient :
√
1 1 n
δ∗ (X) = √ +√ X. (13.2)
n+1 2 n+1
√ √
n n
Cet estimateur est un estimateur bayésien par rapport à la loi a priori Beta ,
2 2
et sa fonction de risque est constante :
1
Rδ∗ (θ) = √ pour tout 0 < θ < 1 .
4( n + 1)2
Et d’après le théorème précédent, cet estimateur est minimax.
Remarque 13.1.1 L’estimateur minimax δ∗ (X) donné à l’équation (13.2) est une
moyenne pondérée de 1/2 et de X, avec surtout beaucoup de poids sur X. Il y a une
raison intuitive. Bien que X soit sans biais pour θ, sa variance θ(1 − θ)/n est grande
si θ est proche de 1/2 et petite si θ est éloigné de 1/2. En remplaçant X par δ∗ (X),
on combat cet effet.
c Michel CARBON
264 ADMISSIBLES
Hélas, le théorème (13.1.1) est rarement applicable. Le théorème (13.1.2), qui

suit, est un peu compliqué à énoncer et à utiliser, mais sa démonstration est facile.
L’utilité de ce théorème (13.1.2) est beaucoup plus grande que celle du thèorème
(13.1.1).
Comme dans le théorème (13.1.1), on précise qu’on est dans un problème d’esti-
mation statistique classique (P, g, L)).
Théorème 13.1.2 Soit (πk (θ) ; k ≥ 1) une suite de lois a priori. Soient (δk (X) ; k ≥
1), les estimateurs bayésiens correspondants à ces lois a priori. Soit rk = r(πk , δk )
le risque bayésien a priori pour l’estimateur δk (X), c’est-à-dire :
Z
rk = rk = r(πk , δk ) = E[L(Θ, δk (X))] = Rδk (θ)πk (θ) dθ .
Θ
Supposons que lim rk existe. Posons r = lim rk .

k−→+∞ k−→+∞
Si δ∗ (X) est un estimateur satisfaisant à supRδ∗ (θ) = r, alors δ∗ (X) est minimax.
θ∈Θ
Démonstration :
Supposons que δ∗ (X), δk (X) et πk (θ) sont choisis comme indiqués dans l’énoncé
du théorème. Soit δ(X) un autre estimateur de g(θ). On a alors :
Z
sup Rδ∗ (θ) = lim Rδk (θ)πk (θ) dθ
θ∈Θ k−→+∞ Θ
Z
≤ lim Rδ (θ)πk (θ) dθ
k−→+∞ Θ
Z
≤ lim supRδ (θ) πk (θ) dθ
k−→+∞ Θ θ∈Θ
Z
= supRδ (θ) lim π(θ) dθ = sup Rδ (θ) .
θ∈Θ k−→+∞ Θ θ∈Θ
On a donc :
sup Rδ∗ (θ) ≤ sup Rδ (θ) .
θ∈Θ θ∈Θ
Ceci étant vrai pour tout estimateur δ(X), on conclut que δ∗ (X) est minimax.

de loi N (θ, σ 2 ), de variance connue σ 2 .
On choisit la fonction de perte quadratique. On veut montrer que l’estimateur
δ∗ (X) = X est minimax.
Pour πk (θ), prenons la densité de la loi N (0, k).
L’estimateur bayésien correspondant à cette loi a priori est (grâce au chapitre
précédent) :
n/σ 2
δk (X) = X.
1/k + n/σ 2
c Michel CARBON
13.2 Les estimateurs admissibles 265
La fonction de risque associée à δk (X) est :

" 2 #
n/σ 2
Rδk (θ) = Eθ X −θ
1/k + n/σ 2
" 2 #
n/σ 2 1/k
Eθ 2
(X − θ) − θ
1/k + n/σ 1/k + n/σ 2
En développant les calculs, on obtient :
2 2
n/σ 2

2 1/k
Rδk (θ) = Eθ [(X − θ) ] + θ2
1/k + n/σ 2 1/k + n/σ 2
2 2
n/σ 2 σ2

1/k
= + θ2
1/k + n/σ 2 n 1/k + n/σ 2
θ2 + n/σ 2
= .
(1/k + n/σ 2 )2
Le risque bayésien a priori est donc :
rk = r(πk , δk )
Z +∞
= Rδk (θ)π(θ) dθ
−∞
+∞
θ2 + n/σ 2
Z
= πk (θ) dθ
−∞ (1/k + n/σ 2 )2
1/k + n/σ 2 1
= 2 2
= .
(1/k + n/σ ) 1/k + n/σ 2
On obtient donc :
σ2
lim rk =
.
k−→+∞ n
Or, la fonction de risque de l’estimateur X est précisément σ 2 /n. Le théorème
(13.1.2) nous permet donc de conclure que X est minimax.
13.2 Les estimateurs admissibles

On considère un problème d’estimation statistique classique (P, g, L)). On rap-
pelle qu’un estimateur δ∗ (X) est admissible pour g(θ) s’il n’existe aucun estimateur
δ(X) qui lui soit strictement préférable au sens du risque, c’est-à-dire tel que les
deux conditions suivantes soient simultanément satisfaites :
(a) Rδ (θ) ≤ Rδ∗ (θ) pour tout θ ∈ Θ
(b) Rδ (θ) < Rδ∗ (θ) pour au moins un θ ∈ Θ .
c Michel CARBON
266 ADMISSIBLES
Théorème 13.2.1 Supposons que le modèle statistique choisi soit tel que les fonc-
tions de risque soient continues. Si δ∗ (X) est un estimateur bayésien par rapport à
une loi a priori de densité π(θ) vérifiant π(θ) > 0 pour tout θ ∈ Θ, alors δ∗ (X) est
admissible.
Démonstration :
On suppose que δ∗ (X) est un estimateur bayésien par rapport à une loi a priori
de densité π(θ) vérifiant π(θ) > 0 pour tout θ ∈ Θ et que le modèle statistique choisi
soit tel que les fonctions de risque soient continues.
S’il existait un estimateur δ(X) satisfaisant aux deux conditions (a) et (b) ci-
dessus, alors, grâce à l’hypothèse de continuité des fonctions de risque et au fait que
π(θ) > 0 pour tout θ ∈ Θ, on aurait alors :
Z Z
Rδ (θ)π(θ) dθ < Rδ∗ (θ)π(θ) dθ ,
Θ Θ
et cela serait en contradiction avec le fait que δ∗ (X) est un estimateur bayésien par
rapport à une loi a priori de densité π(θ).
Le théorème précédent est un bon outil pour montrer qu’un estimateur est ad-
missible. On pourra trouver des résultats plus avancés dans la littérature.
Exemple 13.2.1 Supposons que X1 , X2 , · · · , Xn soient n variables aléatoires i.i.d.
de loi N (µ, θ), de moyenne µ connue. On suppose aussi que la fonction de perte est
l’erreur quadratique. Un estimateur naturel de θ est :
n
1X
δ(X) = (Xj − µ)2 . (13.3)
n j=1
C’est un estimateur E.S.B.U.V.M.. C’est aussi l’estimateur qu’on obtient par maxi-
mum de vraisemblance.
Montrons qu’il n’est pas admissible. Pour c > 0, posons :
n
1X
δc (X) = (Xj − µ)2 . (13.4)
n j=1
Calculons alors la fonction de risque de δc (X) :

 !2 
Xn
Rδc (θ) = Eθ  c (Xj − µ)2 − θ 
j=1
 !2 
n 2
X (Xj − µ)
= θ 2 Eθ  c −1 
j=1
θ
= θ2 E[(cU − 1)2 ]
= θ2 (c2 E[U 2 ] − 2cE[U ] + 1)
= θ2 (c2 (2n + n2 ) − 2cn + 1) ,
c Michel CARBON
13.2 Les estimateurs admissibles 267
n
X
avec U = (Xj − µ)2 /θ ∼ χ2n .
j=1
1
Il est aisé de voir que le c qui minimise cette dernière expression est : c = .
n+2
1
En conclusion, si on choisit c 6= , alors l’estimateur δc (X) donné par l’équa-
n+2
tion (13.4) n’est pas admissible. En particulier, l’estimateur usuel donné par l’équa-
tion (13.3) n’est pas admissible.
c Michel CARBON
268 ADMISSIBLES
c Michel CARBON
Chapitre 14
Estimation non paramétrique de la

densité
Deux choses sont infinies : l’Univers et la bêtise humaine. Mais, en ce qui

concerne l’Univers, je n’en ai pas encore acquis la certitude absolue.
A. Einstein
14.1 Introduction
Un des problèmes important et utile en estimation fonctionnelle non paramé-
trique est l’estimation de la densité. Il s’agit ici d’estimer une fonction f (x) d’un
nombre fini x1 , x2 , · · · , xn d’observations. Il faut donc, à partir de ces observations,
être capable d’estimer f (x) pour chaque x de R. Dans toute la suite, nous suppose-
rons que le phénomène étudié possède une loi à densité f .
14.2 L’histogramme
14.2.1 Présentation
Bien sûr, l’histogramme est un estimateur fruste de la densité. Supposons que les
n observations soient issues d’une loi à densité f à support borné [a,b[. Pour estimer
cette densité f par la méthode de l’histogramme, on va approcher cette densité par
un histogramme, qui est une fonction en escaliers, on découpe [a, b[ en k classes
[αi ; αi+1 [ où i = 1, · · · , k, avec a = α1 et b = αk+1 .
L’estimateur histogramme s’écrit alors : ∀ t ∈ [a, b[, ∃ i ∈ {1, · · · , k} tel que
t ∈ [αi , αi+1 [ et
fi
fˆn (t) = ,
αi+1 − αi
où fi est la fréquence du nombre de points de la classe correspondante.
269
CHAPITRE 14. ESTIMATION NON PARAMÉTRIQUE DE LA
270 DENSITÉ
Ce que l’on peut encore écrire plus concisément : ∀ t ∈ [a, b[ ,

k
X fi
fˆn (t) = 1[α ,α [ (t)
i=1
αi+1 − αi i i+1
où
n
X
fi = 1[αi ,αi+1 [ (xj ) ,
j=1
soit encore :
k n
X fi X
fˆn (t) = 1[αi ,αi+1 [ (xj ) .
i=1
n(αi+1 − αi ) j=1
Pour simplifier les notations, on supposera maintenant les k classes de même largeur,
c’est-à-dire que pour tout i = 1, · · · , k , αi+1 − αi = b(n).
On peut remarquer que la fonction fˆn (t) est elle-même une densité.
Il est intuitivement évident que, pour que l’estimateur histogramme s’approche
de la vraie densité f inconnue, il est nécessaire que b(n) tende vers zéro quand n tend
vers l’infini. C’est le problème de l’approche d’une fonction continue (si la densité
est continue) par une suite de fonctions étagées.
Lorsque b(n) tend vers zéro, il est aussi nécessaire qu’il y ait de plus en plus de
points qui soient dans chaque intervalle de largeur b(n). La condition est précisément
que :
nb(n) −−−−→ +∞ ,
n→+∞
c Michel CARBON
14.2 L’histogramme 271
L’exemple ci-dessus est l’histogramme bâti à partir des données du temps entre
deux éruptions du geyser Old Faithful dans le parc national de Yellow Stone. On
peut noter une bimodalité bien visible. La densité sous-jacente ne fait pas partie des
densités connues. Il faut donc développer des outils adéquats.
14.2.2 Convergence de l’histogramme

Revenons à notre étude de l’histogramme. On va étudier sa convergence.
On suppose qu’on a n variables aléatoires Xi de loi à densité f à support compact
[a, b].
Supposons que l’on veuille estimer une densité f (t) en un point donné t et sup-
posons que f soit continue au voisinage de t et que f (t) > 0.
La continuité assure que f (t) est complètement déterminée par sa fonction de
répartition F (t). Une idée primaire pourrait être de dire que l’on sait estimer F (t)
par :
Nombre de Xi ≤ t
F̂n (t) = . (14.1)
n
Cette fonction de répartition empirique est visualisée sur le graphe ci-dessus avec
les données de Old Faithful.
Cette fonction de répartition empirique assigne une probabilité 1/n en chaque
valeur de l’échantillonnage X1 , · · · , Xn . Cette fonction F̂n croissante est étagée, et
n’a pas de densité. On ne peut donc utiliser directement cette fonction de répartition
empirique pour estimer la densité.
Cependant, comme on suppose f continue, on peut définir la densité comme la
limite suivante :
F (t + h) − F (t − h)
f (t) = lim .
h→0 2h
c Michel CARBON
272 DENSITÉ
On pourrait alors naturellement considérer l’estimateur associé :
F̂n (t + h) − F̂n (t − h)
fˆn (t) = .
2h
F (t + h) − F (t − h)
Pour n assez grand, on aimerait que fˆn (t) soit proche de : , et
2h
pour h petit, que cette dernière quantité soit alors proche de f (t).
On peut alors espérer que pour h = hn tendant vers 0 quand n tend vers l’infini,
l’estimateur fˆn (t), appelé estimateur naïf de la densité, soit un estimateur convergent
de f (t). Pour des suites de hn bien adaptées, la conjecture sera confirmée dans un
théorème ci-après.
On pourra noter que l’estimateur fˆn (t) est lui-même une densité de probabilité.
En effet, comme il est clairement positif, il suffit de montrer que :
Z +∞
fˆn (t) dt = 1 .
−∞
De (14.1), on a :
Nombre de xj dans l’intervalle ]t − h, t + h]

F̂n (t + h) − F̂n (t − h) = (14.2)
n
D’où : n
1 X
fˆn (t) = Ij (t) , (14.3)
2nh j=1
où 
 1 si t − h < xj ≤ t + h
Ij (t) =
0 sinon

Alors, on a aisément :
Z +∞ n Z +∞ n Z xj +h
1 X 1 X
fˆn (t) dt = Ij (t) dt = dt = 1 .
−∞ 2nh j=1 −∞ 2nh j=1 xj −h

De (14.2), on en déduit que : n F̂n (t + h) − F̂n (t − h) suit une loi binomiale B(n, p)
où p est la probabilité qu’un Xj se trouve dans l’intervalle ]t − h, t + h]. Ainsi :
p = F (t + h) − F (t − h) .
Par suite : h i F (t + h) − F (t − h)
E fˆn (t) = .
2h
Le biais est alors :
h
ˆ
i F (t + h) − F (t − h)
B(t) = E fn (t) − f (t) = − f (t) ,
2h
c Michel CARBON
et, d’après la continuité supposée, ce biais tend vers 0 pourvu que :

h = hn −−−−→ 0 . (14.4)
n→+∞
On peut aussi calculer la variance de fˆn (t). Elle vaut :

h i p(1 − p)
V ar fˆn (t) = . (14.5)
4nh2
Quand hn tend vers 0, la valeur de p = pn vérifie :
pn = F (t + hn ) − F (t − hn ) −−−−→ 0 . (14.6)
n→+∞
Donc : pn (1 − pn ) ∼ pn et de (14.5), on obtient :

h
ˆ
i pn 1
V ar fn (t) ∼ · .
2hn 2nhn
On peut remarquer que le premier facteur du terme de droite ci-dessus tend vers
f (t) > 0 quand n tend vers l’infini. Alors, en plus d’avoir hn −−−−→ 0, la variance
n→+∞
tend vers 0 si en plus :
nhn −−−−→ +∞ . (14.7)
n→+∞
Cela implique alors que hn tend vers 0 plus lentement que 1/n ou de manière équi-
1
valente = o(hn ).
n
De ces résultats, on en déduit le théorème suivant :
Théorème 14.2.1 Une condition suffisante pour que fˆn (t) converge en probabilité
vers f (t) est que (14.4) et (14.7) soient vérifiées.
Démonstration :
On utilise tout d’abord la décomposition classique :
2 h i
ˆ ˆ
M SE(fn (t)) = E fn (t) − f (t) 2 ˆ
= (B(t)) + V ar fn (t) (14.8)
En effet, on a :
2 2
E fˆn (t) − f (t) = E fˆn (t) − E fˆn (t) + E fˆn (t) − f (t) .
Après avoir développé le carré et par linéarité de l’espérance, on a :

2 2 2
E fˆn (t) − f (t) = E fˆn (t) − E fˆn (t) + E fˆn (t) − f (t) + 2DP
où DP , le produit, vaut :
h i h i
E fˆn (t) − E fˆn (t) E fˆn (t) − f (t) = E fˆn (t) − f (t) E fˆn (t) − E fˆn (t) ,

car le terme E fˆn (t) − f (t) est déterministe. Enfin, il est clair que le terme
h i
E fˆn (t) − E fˆn (t) = 0, ce qui donne immédiatement (14.8).
2
Les hypothèses du théorème impliquent que E fˆn (t) − f (t) −−−−→ 0. La
n→+∞
convergence en moyenne quadratique impliquant la convergence en probabilité, le
théorème est démontré.
c Michel CARBON
274 DENSITÉ
14.2.3 Choix de la fenêtre

L’estimation de la densité par l’histogramme est très sensible au choix du para-
mètre h = h(n), appelé fenêtre.
Le calcul d’erreur via le M SE est une mesure de l’erreur faite au point t. Donc
ce calcul de risque ponctuel dépend fortement du point t où on évalue ce risque. Il
paraît plus sage d’avoir une mesure d’erreur globale en intégrant le M SE précédent,
ce qui donne le M ISE :
Z b
M ISE(fˆn (t)) = M SE(fˆn (t)) dt
a
En admettant la permutation de l’espérance et de l’intégrale, on a :

Z b 2
M ISE(fˆn (t)) = E ˆ
fn (t) − f (t) dt
a
En utilisant la décomposition (14.8), on a alors :

Z b h i Z bh i2
M ISE(fˆn ) = ˆ
V ar fn (t) dt + ˆ
E fn (t) − f (t) dt (14.9)
a a
Comme on doit effectuer le calcul sur le support [a, b] tout entier, il nous faut
repréciser les choses quelque peu. Le support [a,b] est partitionné en k classes de
longueurs égales de 2h, ces classes étant notées [αj , αj+1 [. Posons, pour tout j =
1, · · · , k : Z αj+1

pj = f (t) dt = E 1[αj ,αj+1 [ (X1 ) .
αj
Il est donc estimé naturellement par :

k
1X
p̂j = 1[α ,α [ (X1 ) .
n j=1 j j+1
Si j est l’indice de la classe contenant t, l’estimateur (14.3) s’écrit donc :

n
p̂j 1 X Zj
fˆn (t) = = 1[αj ,αj+1 [ (Xi ) = ,
2h 2nh i=1 2nh
où Zj suit une binomiale B(n, pj ). On retrouve alors que :

h i pj h i np (1 − p ) pj (1 − pj )
j j
E fˆn (t) = et V ar fˆn (t) = = .
2h 4n2 h2 4nh2
Remarquons que :
k
X Z b
pj = f (t) dt = 1 .
j=1 a
c Michel CARBON
Alors, on a :
b k Z αj+1 k k
pj (1 − pj )
Z h
ˆ
i X
ˆ
hi X 1 1 X 2
V ar fn (t) dt = V ar fn (t) dt = = − p .
a j=1 αj j=1
2nh 2nh 2nh j=1 j
D’autre part, on a successivement :

Z bh i2 k Z
X αj+1 p 2
ˆ j
E fn (t) − f (t) dt = − f (t) dt
a j=1 αj
2h
k k
pj αj+1
Z Z b
Xpj 2 X
= −2 f (t) dt + (f (t))2 dt
j=1
2h j=1
2h αj a
k
X p2j p2j
Z b
= (f (t))2 dt + −2
a j=1
2h 2h
Z b k
2 1 X 2
= (f (t)) dt − p .
a 2h j=1 j
Nous avons ainsi établi le résultat suivant :
Théorème 14.2.2 Si X1 , · · · , Xn sont des variables aléatoires indépendantes, de

même loi de densité à support sur [a, b] et si fˆn (t) est l’estimateur histogramme avec
k classes, alors on a :
Z b k
1 n+1X 2
M ISE(fˆn (t)) = (f (t))2 dt + − p .
a 2nh 2nh j=1 j
Ce résultat est non asymptotique, et vaut pour tout h > 0 et tout n.

On s’intéresse maintenant au comportement du M ISE lorsque h = hn décroît
vers 0 quand n tend vers l’infini. Il est aisé de vérifier que :
Z αj+1 Z αj+1 Z αj+1 !2
2 1 2 1
(f (t)) dt − pj = f (t) − f (u) du dt
αj 2h αj 2h αj
!2
Z αj+1 Z αj+1
1
= (f (t) − f (u)) du dt
4h2 αj αj
Supposons la densité f deux fois continûment différentiable. Pour tous u et t dans

[αj , αj+1 ], on a alors :
f (u) − f (t) = (u − t)f 0 (αj ) + O(h2 ) ,
En conséquence de quoi, on a :
!2
αj+1
1 2 (f 0 (αj ))2 αj+1 αj+1
Z Z Z
2
(f (t)) dt − pj = (t − u) du dt + O(h4 ) .
αj 2h 4h2 αj αj
c Michel CARBON
276 DENSITÉ
Faisons le changement de variables : (t, u) = (αj + 2yh, αj + 2zh). On obtient alors :

Z αj+1 Z αj+1 !2 Z 1 Z 1 2
5 8h5
(t − u) du dt = 32h (y − z) dz dy = .
αj αj 0 0 3
On a donc montré que :

Z αj+1
1 2 8h3 0 8h2 αj+1 0
Z
2 2 4 2
(f (t)) dt − pj = (f (αj )) + O(h ) = (f (x)) dx + O(h4 ) .
αj 2h 3 3 αj
Donc :
k
! k
Z αj+1
X 1 1 1 X 2
M ISE(fˆn )(hn ) = (f (t))2 dt − p2j + − p
j=1 αj 2h 2nh 2nh j=1 j
b
8h2
Z
0 2 1 3 1
= (f (x)) dx + O(h ) + +O ,
3 a 2nh n
puisque k · O(h4 ) = 0(h3 ). On vient donc d’établir le résultat suivant :
Théorème 14.2.3 Si on suppose que la densité f est deux fois continûment diffé-
rentiable et à support dans [a, b], si h est la fenêtre de l’estimateur histogramme fˆn
telle que hn tende vers 0 quand n tend vers l’infini, alors on a asymptotiquement :
8h2 b 0
Z
ˆ 2 1 3 1
M ISE(fn )(hn ) = (f (x)) dx + + O(h ) + O
3 a 2nh n
| {z } | {z }
terme principal du risque terme résiduel
Z b
2
Supposons que nous connaissions la quantité (f 0 (x)) dx. Alors dans ce cas, on
a
pourrait calculer le terme principal du M ISE(fˆn )(hn ). Cela nous permettrait alors
de trouver la valeur qui minimiserait le terme principal du risque. En effet, si on
calcule le minimum de la fonction :
8h2 b 0
Z
2 1
h 7−→ (f (x)) dx + ,
3 a 2nh
alors ce minimum est atteint au point :
Z b −1/3
32 0 2
hopt = (f (x)) dx n−1/3 .
3 a
Cette fenêtre optimale est en général inaccessible au statisticien, car la densité f
(et donc sa dérivée) est inconnue. Cependant, et c’est ce qu’il faut retenir, elle nous
indique que la fenêtre optimale doit être de l’ordre de n−1/3 , lorsque n est grand.
En outre, en injectant cette valeur de hopt dans l’expression du M ISE, on ob-
tient :
1/3 Z b 1/3
ˆ 3 32 0 2
M ISE(fn )(hopt ) = (f (x)) dx n−2/3 + 0(1/n) .
4 3 a
c Michel CARBON
14.3 Estimateur à noyau de la densité - cas univarié 277
Ce résultat nous indique les limites de cet estimateur histogramme : pour les densi-
tés deux fois continûment différentiables, la meilleure vitesse de convergence qu’on
puisse espérer atteindre est de l’ordre de n−2/3 . C’est une vitesse honorable, mais
nettement moins bonne que les vitesses usuelles en 1/n qui apparaissent typique-
ment dans les problèmes paramétriques. Cela n’est guère surprenant car l’estimation
d’une densité est un problème non paramétrique, et donc bien plus difficile à résoudre
qu’un problème paramétrique.
Une manière de proposer une valeur de h presque optimale est de supposer que la
Z b
2
densité f est "proche" d’une densité de loi N (0, 1) et alors de calculer (f 0 (x)) dx.
a
On obtient alors : √ 1/3
∗ 3 π
h = n−1/3 .
8
Mais cette approximation n’est valable que si la densité n’est pas trop éloignée d’une
densité gaussienne.
On peut aussi proposer une méthode de validation croisée pour proposer un
h "optimal". Ce hCV est en général le choix le plus utilisé dans l’estimation de
l’histogramme. Cette méthode sera détaillée dans le cas de l’estimateur à noyau.
14.3 Estimateur à noyau de la densité - cas univarié

L’estimation de la densité par histogrammes est une méthode naturelle très ré-
pandue car aisée à bâtir et facilement implémentable. Cependant, cet estimateur
de densité fournit par un histogramme ne peut pas être adapté à la situation assez
courante où nous disposons d’une information a priori sur la régularité de la densité
à estimer. Plus précisément, si l’on sait par avance que la densité de l’échantillon ob-
servé est, par exemple, deux fois continûment différentiable, on aurait naturellement
envie d’estimer cette densité par une fonction qui, elle aussi, est deux fois conti-
nûment différentiable. Or, les histogrammes sont des fonctions qui ne sont même
pas continues. Il est naturel alors de vouloir "lisser" les histogrammes. On s’attend
alors à ce que le résultat du lissage améliore non seulement l’aspect visuel de l’esti-
mateur, mais produise de plus un estimateur plus proche de la vraie densité que
l’estimateur par histogramme.
14.3.1 L’histogramme mobile

Considérons une cellule sur laquelle est bâtie l’histogramme.
Considérons la classe Ci = [αi , αi+1 [, et imaginons que le point t de Ci où l’on veut

estimer f (t) par fˆn (t) se situe près de l’extrémité αi (voir figure précédente). Alors
tous les points de la classe Ci interviennent dans le calcul de fˆn , mais on se rend
compte qu’un point situé près de αi+1 sera pris en compte, alors qu’il est assez
c Michel CARBON
278 DENSITÉ
6
fˆn (t)
× × × × × ×× ×× ×-
αi t αi+1
Figure 14.1 – Histogramme des fréquences
éloigné de t, et qu’un point situé tout près de t dans la classe Ci−1 n’entre pas en
ligne de compte dans le calcul de fˆn .
Pour remédier à cet inconvénient, on peut alors utiliser l’histogramme mobile, qui
est un translaté de l’histogramme de manière à ce que le point t où l’on estime, se
retrouve au centre d’une classe, plus précisément au centre de la classe [t − h(n), t +
h(n)[ où h(n) désigne toujours la demi-largeur d’une classe.
L’estimateur histogramme mobile s’écrit alors :
n
1 X
fˆn (t) = 1[t−h(n),t+h(n)[ (Xj ). (14.10)
2nh(n) j=1
Remarquons que :
xj − t
t − h(n) ≤ xj < t + h(n) ⇐⇒ −1 ≤ < 1. (14.11)
h(n)
D’où :
n
1 X Xj − t
fˆn (t) = 1[−1,1[ .
2nh(n) j=1 h(n)
L’estimateur s’écrit alors :

n
1 X Xj − t
fˆn (t) = K ,
nh(n) j=1 h(n)
où
1
K(x) = 1[−1,1[ (x).
2
c Michel CARBON
14.3.2 Estimateur à noyau

L’estimateur ainsi construit peut encore être amélioré.
En effet, maintenant que la classe est centrée en t, on peut tout de même re-
marquer que tous les points de cette classe ont le même rôle quant au calcul de
fˆn (t). Il serait plus judicieux de penser que plus un point est proche de t, plus il doit
contribuer fortement dans le calcul de fˆn (t).
L’idée alors la plus naturelle est de pondérer les observations en mettant d’autant
plus de poids qu’on se trouve proche de t, et d’autant moins qu’on s’en trouve éloigné.
On a déjà vu un exemple de fonction de poids, notée K au paragraphe précédent.
C’était une densité de probabilité (la loi uniforme sur [−1, 1[, qui nous a donné
l’histogramme mobile).
Cette fonction de poids est trop brutale et ne répond pas à nos préoccupations.
On choisira alors des fonctions de poids dans des classes plus larges de densités,
comprenant notamment des densités à support non nécessairement borné, et ayant
un seul mode à l’origine (par exemple la loi normale centrée réduite).
L’estimateur à noyau s’écrit :
n
1 X Xj − t
fˆn (t) = K (14.12)
nh(n) j=1 h(n)
et K s’appelle un noyau.
On notera que, puisque K est une densité de probabilité, fˆn (t) est aussi une
densité de probabilité. En effet, comme K est une densité de probabilité, il est
positif ou nul. Il en est ipso facto de même pour fˆn (t). De plus, on a :
+∞ n +∞
Xj − t
Z Z
1 X
fˆn (t) dt = K dt .
−∞ nh(n) j=1 −∞ h(n)
Xj −t
On fait alors le changement de variables : y = h(n)
. On obtient alors aisément :
Z +∞ n Z +∞
1 X
fˆn (t) dt = K(y) dy = 1 ,
−∞ nh(n) j=1 −∞
car l’intégrale ci-dessus vaut 1, comme intégrale d’une densité de probabilité. Ainsi
l’estimateur à noyau est lui-même une densité de probabilité.
L’estimateur à noyau a aussi l’avantage d’être continu si K l’est. On voit im-
médiatement que les hypothèses de régularité (continuité , dérivabilité, etc...) se
transportent de K à fˆn (t). Par conséquent, lorsqu’on estime une densité continue,
il est naturel de s’attendre que l’estimateur à noyau soit meilleur que l’estimateur
histogramme.
On trouvera ci-dessous des exemples de noyaux classiques :
c Michel CARBON
280 DENSITÉ
1
Uniforme 1|u|≤1
2
Bartlett (1 − |u|) 1|u|≤1
3
1 − u2 1|u|≤1

Epanechnikov
4
1 1 2
Gaussien √ e− 2 u
2π
15 2
Quadratique 1 − u2 1|u|≤1
16
14.3.3 Étude du biais et de la variance de l’estimateur à

noyau
Lorsqu’on définit un estimateur à noyau, on a non seulement à faire le choix de
la fenêtre h > 0 mais aussi celui du noyau K.
Il y a un certain nombre de conditions qui sont considérées comme usuelles pour
les noyaux et qui permettent d’analyser le risque de l’estimateur à noyau qui en
résulte.
c Michel CARBON
On supposera que le noyau vérifie les conditions suivantes :

Hypothèse K :
1. K est Zune fonction paire (donc symétrique par rapport à l’origine), c’est-à-dire
+∞
que : uK(u) du = 0 ;
−∞
Z +∞
2. K(u) du = 1 ;
−∞
Z +∞
3. u2 K(u) du = µ2 (K) < ∞ ;
−∞
Z +∞
4. (K(u))2 du = kKk2L2 < ∞.
−∞
On a alors le théorème suivant :
Théorème 14.3.1 Si les trois premières conditions de l’hypothèse K sont remplies

et si f est une densité bornée dont la dérivée seconde est bornée, alors :
h2
Biais fˆn (t) = f 00 (t)µ2 (K) + o(h2 )
2
Si, de plus, la condition 4 de l’hypothèse K est satisfaite, alors :

ˆ
1 2 1
V ar fn (t) = f (t)kKkL2 + o . (14.13)
nh nh
Démonstration :
On va commencer par calculer le biais :
n n Z
1 X +∞

h
ˆ
i 1 X Xi − t y−t
E fn (t) = E K = K f (y) dy
nh j=1 h nh j=1 −∞ h
y−t
On effectue alors le changement de variable : u = . On obtient alors :
h
h i Z +∞
ˆ
E fn (t) = K(u)f (t + uh) du .
−∞
On effectue alors un développement limité à l’ordre deux. On a alors :

h i Z +∞
(uh)2

E fˆn (t) = 0
K(u) f (t) + (uh)f (t) + 00 2
f (tu ) + o(h ) du ,
−∞ 2
où tu ∈ [t, t + uh]. Cela donne :

Z +∞ Z +∞
h2 +∞ 2
h i Z
ˆ
E fn (t) = f (t) 0
K(u) du +hf (t) uK(u) du + u K(u)f 00 (tu ) du+o(h2 ) .
2
| −∞ {z } | −∞ {z } −∞
=1 =0
c Michel CARBON
282 DENSITÉ
Il en résulte que :
h i
ˆ ˆ
Biais fn (t) = E fn (t) − f (t)
h2 +∞ 2
Z
= u K(u)f 00 (tu ) du + o(h2 )
2 −∞
h2 00
= f (t)µ2 (K) + o(h2 ) ,
2
car f 00 est continue. Cela assure la preuve de la première partie du théorème précé-
dent. On remarque aussi qu’un petit biais sera obtenu pour un h petit.
Pour démontrer la seconde partie du théorème, on va utiliser le fait que les
Xj − t
variables aléatoires Yj = K , pour j = 1, · · · , n sont i.i.d., puis que la
h
variance de la somme de variables indépendantes est la somme des variances :
" n #
h i 1 X Xj − t
V ar fˆn (t) = V ar K
(nh)2 j=1
h
n
1 X Xj − t
= V ar K
(nh)2 j=1 h

1 Xj − t
= × n × V ar K
(nh)2 h
" 2 #
1 Xj − t
= 2
E K
nh h
Z +∞ 2
1 y−t
= K f (y) dy
nh2 −∞ h
y−t
Faisons le changement de variable : u = , il vient alors :
h
Z +∞
h
ˆ
i 1
V ar fn (t) = (K(u))2 f (t + uh) du
nh −∞

1 2 1
= f (t)kKkL2 + o ,
nh nh
par continuité de f .
La variance est d’autant plus grande que le paramètre h de lissage est faible. On
retrouve l’arbitrage usuel entre biais et variance...
Théorème 14.3.2 Le M SE de fˆn (t) est égal à :

h i h4 1

1
2
M SE fˆn (t) = 00
(f (t)) µ2 (K) + 2 4
f (t)kKkL2 + o(h ) + o .
4 nh nh
Démonstration :
Elle utilise la décomposition (14.8) et le théorème (14.13).
c Michel CARBON
14.3.4 Quelques remarques

Les évaluations du biais et de la variance fournies par le théorème précédent ont
quelques conséquences indiquées ci-dessous :
Vitesse de convergence : h i
On s’aperçoit que le risque M SE fˆn (t) tend vers 0 pour h(n) −−−−→ 0 et
n→+∞
nh(n) −−−−→ +∞, conditions nécessaires de convergence de l’estimateur à noyau
n→+∞
en moyenne quadratique (donc en probabilité) comme dans le cas de l’estimateur
histogramme.
Comme dans le cas de l’histogramme, on obtient une mesure globale de la dis-
tance entre l’estimateur à noyau et la densité en intégrant le M SE sur [a, b] donnant :
h i h4 1

1
2
M ISE fˆn = 00
kf (t)kL2 µ2 (K) + 2 4
kKkL2 + o(h ) + o .
4 nh nh
En ignorant les termes d’ordre supérieur, on obtient l’approximation du M ISE
asymptotique suivante :
h i h4 1
2
AM ISE fˆn = kf 00 (t)kL2 µ22 (K) + kKk2L2 .
4 nh
h4 00 2 1
En étudiant la fonction : h 7−→ kf (t)kL2 µ22 (K) + kKk2L2 , on vérifie aisé-
4 nh
ment que la valeur de h qui minimise le AM ISE est :
" #1/5
kKk2L2
hopt = · n−1/5 .
µ22 (K) kf 00 (t)k2L2
En substituant hopt dans l’expression de l’AM ISE, on montre immédiatement que

pour l’estimateur à noyau, la vitesse de convergence est de l’ordre de n−4/5 .
Elle est donc meilleure que la vitesse n−2/3 obtenue pour les histogrammes. Par
conséquent, les estimateurs à noyau sont préférables aux histogrammes lorsqu’il
s’agit d’estimer une densité deux fois continûment différentiable.
Optimalité de la vitesse
On peut démontrer qu’il est impossible d’estimer f à une vitesse meilleure que
n−4/5 sans imposer des hypothèses supplémentaires (de régularité ou de structure)
sur la densité inconnue f .
Décryptage de la vitesse de convergence
Si l’on estime une densité non pas univariée, mais d-dimensionnelle, et si l’on
suppose que f est k fois continûment différentiable, alors on peut montrer que la
vitesse de convergence optimale est de n−(2k)/(2k+d) . Dans le cas d = 1 et k = 2, on
retrouve la vitesse n−4/5 .
Sur-lissage et sous-lissage
Lorsque la fenêtre h est très petite, le biais de l’estimateur à noyau est très petit
par rapport à sa variance et c’est cette dernière qui détermine la vitesse de conver-
gence du risque quadratique. Dans ce type de situation, l’estimateur est très volatile
c Michel CARBON
284 DENSITÉ
et on parle de sous-lissage (under-smoothing, en anglais). En revanche, lorsque h

croît, la variance devient petite et c’est le biais qui devient dominant. L’estimateur
est alors très peu variable et est de moins en moins influencé par les données. On
parle alors d’un effet de sur-lissage (over-smoothing en anglais). En pratique, il est
primordial de trouver la bonne dose de lissage qui permet d’éviter le sous-lissage et
le sur-lissage.
Comparaison avec le cadre paramétrique :
Dans la théorie statistique paramétrique classique, la vitesse de convergence
usuelle pour le risque quadratique est de n−1 , où n est le nombre d’observations.
La vitesse n−4/5 obtenue avec l’estimateur à noyau est bien meilleure que la vitesse
de n−2/3 obtenue avec l’estimateur histogramme, mais reste tout de même inférieure
à la vitesse paramétrique. Ceci est tout à fait naturel et traduit la complexité de
l’estimation non paramétrique comparée à l’estimation paramétrique.
On peut remarquer également que lorsque la régularité de la densité tend vers
l’infini (k → +∞), la vitesse de convergence se rapproche de plus en plus de la
"vitesse paramétrique".
14.3.5 Choix du noyau

Le choix d’un noyau positif (en général, une densité de probabilité) n’a pas
d’incidence forte sur l’estimation de la densité, contrairement au choix du paramètre
de lissage h = h(n). Passer de h(n) à 2h(n) peut multiplier l’erreur de plus de 300 % !
14.3.6 Choix du paramètre de lissage

Méthode de Silverman, dite règle du pouce
On veut choisir le paramètre de lissage hopt qui minimise l’AM ISE, mais on ne
connaît pas la norme de la dérivée seconde de la densité f que nous cherchons à
estimer. En première approximation, pour obtenir h, on va supposer que f est la
densité d’une v.a.r. gaussienne d’espérance µ et de variance σ 2 . On a alors :
2 3
kf 00 (t)kL2 = 5
√ ≈ 0, 212σ −5 .
8σ π
Cela donne comme choix de h :
ĥ∗ ≈ 1, 06σ̂n−1/5 .
Il faut garder à l’esprit que ce choix peut se révéler désastreux pour des densités
éloignées de la loi gaussienne, et ne doit être réservé que pour des densités situées
dans l’attraction des lois gaussiennes.
On peut facilement proposer un critère modifié pour tenir compte de la présence
éventuelle de points aberrants. Plutôt que d’utiliser l’écart-type pour évaluer la
dispersion de la loi, on utilise l’écart interquartile qui a l’avantage de ne pas être
sensible aux points aberrants, donnant :
( )
R̂
ĥ∗ ≈ 1, 06 σ̂, n−1/5 ,
1, 34
c Michel CARBON
où R̂ désigne l’écart interquartile empirique.

Cette correction reste insuffisante dans de nombreux cas, en particulier lorsque
la vraie densité est multimodale.
Méthode de validation croisée
On a obtenu un paramètre de lissage optimal en minimisant l’approximation
asymptotique de :
Z 2
E fˆn (t) − f (t) dt = AM ISE .
L’AM ISE est une mesure globale de la distance entre l’estimateur à noyau et la
vraie densité. Nous allons ici introduire une mesure alternative de cette distance,
appelée erreur quadratique intégrée, et définie par :
n o Z +∞ 2
ISE fˆn = fˆn (t) − f (t) dt .
−∞
Contrairement à la M ISE, cette mesure est une variable aléatoire. En développant

l’expression précédente, on a :
n o Z +∞ 2 Z +∞ Z +∞
ISE fn =ˆ ˆ
fn (t) dt − 2 ˆ
fn (t)f (t) dt + (f (t))2 dt .
−∞ −∞ −∞
Dans la suite, on va omettre le dernier terme, puisqu’il ne dépend pas de h. On peut

remarquer que le terme croisé s’interprète comme une espérance :
Z +∞ h i
fˆn (t)f (t) dt = E fˆn (X) .
−∞
Un estimateur sans biais de cette espérance est donné par :

h\ i 1 X n
ˆ
E fn (X) = fˆn,−j (Xj ) ,
n j=1
avec n
1 X t − Xi
fˆn,−j (t) = K .
n − 1 i=1,i6=j h
D’autre part, on montre que :

+∞ n n
Xj − Xi
Z
ˆ
2 1 XX
fn (t) dt = 2 K ?K ,
−∞ n h j=1 i=1 h
où K ? K est le produit de convolution du noyau avec lui-même.

Finalement, on obtient un paramètre h en minimisant le critère suivant :
n n n
1 XX X j − Xi 1Xˆ
CV (h) = 2 K ?K −2· fn,−j (Xj ) .
n h j=1 i=1 h n j=1
c Michel CARBON
286 DENSITÉ
Cette dernière minimisation se fait, bien entendu, par des moyens informatiques.
Revenons à l’exemple initial des temps entre des éruptions du geyser "Old Faith-
ful". En utilisant la validation croisée, on obtient l’estimation suivante de la densité
de cette variable aléatoire (tracée en rouge).
Pour terminer avec cette approche non paramétrique d’estimation de la densité,
indiquons que ce n’est pas la seule méthode permettant d’estimer la densité. Il
en existe d’autres, comme la méthode des k points les plus proches, la méthode
des fonctions orthogonales, la méthode des ondelettes, etc... Ce chapitre ne se veut
qu’une introduction à l’estimation fonctionnelle non paramétrique, n’ayant ici traité
que de la densité.
14.4 Estimation de la densité - Cas multivarié

Un point essentiel plaidant en la faveur de cette technique d’estimation de la
densité par les noyaux est que la formule (14.12) reste quasi inchangée dans le cas
multidimensionnel :
n
1 X X j − t
fˆn (t) = K (14.14)
nhs (n) j=1 h(n)
c Michel CARBON
14.4 Estimation de la densité - Cas multivarié 287
où t, les Xj sont à valeurs dans Rs , et où K est une densité définie sur Rs . On choisit
souvent le noyau K comme un produit de noyaux univariés :
s
Y
K(u1 , · · · , un ) = Kj (uj )
j=1
où les Kj sont des noyaux univariés, choisis très souvent égaux.

h(n) est très souvent obtenu par des techniques de validation croisée.
Exemple 14.4.1 Pour le noyau d’Epanechnikov, l’estimateur à noyau s-dimensionnel

est :
s Xn Y s
( 2 )
1 3 tj − X j,i
fˆn (t1 , · · · , ts ) = 1− 1n tj −Xj,i ≤1o
n(h(n))s 4 i=1 j=1
h(n) h(n)
On peut dans ce cadre multivarié reprendre tout le travail déjà effectué dans le
cas univarié, comme l’étude du biais, de la variance, du M ISE, de l’AM ISE, du
hopt , etc...
Les conditions de convergence en moyenne quadratique (donc en probabilité)
sont cette fois :
h = hn −−−−→ 0 et nhsn −−−−→ +∞ .

n→+∞ n→+∞
Le M SE a pour expression :
2
h i b
M SE fˆn (t) = E fˆn (t) − f (t) = ah4 + s .
h
D’où l’on déduit, comme dans le cas univarié, un hopt minimisant le M ISE associé :
h(n) ≈ Cn−1/(s+4) .
La vitesse de convergence est alors de l’ordre de n−4/(s+4) . Il faut noter le fait im-
portant que si s est grand, la vitesse de convergence décroît très vite. C’est ce que
l’on appelle la malédiction de la dimension.
c Michel CARBON
288 DENSITÉ
c Michel CARBON
Chapitre 15
Propriétés asymptotiques des

estimateurs
La vie, c’est comme une bicyclette, il faut avancer pour ne pas perdre l’équilibre.
A. Einstein
On va ici examiner les propriétés asymptotiques des estimateurs à la lumière des

propriétés de convergence vues dans un chapitre précédent.
On va supposer ici que X1 , X2 , · · · , Xn sont n variables aléatoires i.i.d., cha-
cune de densité fθ (x). On va s’intéresser alors au comportement asymptotique d’un
estimateur δ(X) = δn (X) = δn (X1 , X2 , · · · , Xn ) lorsque n tend vers l’infini.
15.1 Estimateur convergent

Définition 15.1.1 Une suite d’estimateurs δn (X) de g(θ) est dit
L
— convergente faiblement si δn (X) −→ g(θ) ;
P
— convergente en probabilité si δn (X) −→ g(θ) ;
p.s.
— fortement convergent si δn (X) −→ g(θ) ;
L2
— convergent en moyenne quadratique si δn (X) −→ g(θ).
Le cas que l’on examine le plus souvent est la convergence en probabilité. D’ailleurs,
quand on parle d’une suite d’estimateurs convergents (ou parfois consistants) sans
autre spécification, c’est de la convergence en probabilité qu’il s’agit. Dans de nom-
breux cas rencontrés en pratique, les estimateurs qui apparaissent sont des fonctions
continues de statistiques exhaustives, elles-mêmes sommes de variables aléatoires in-
dépendantes et identiquement distribuées. La convergence en probabilité est souvent
une conséquence de la loi des grands nombres.
289
CHAPITRE 15. PROPRIÉTÉS ASYMPTOTIQUES DES
290 ESTIMATEURS

de loi géométrique G(θ) à valeurs dans N, c’est-à-dire :

 (1 − θ)x θ si x ∈ {0, 1, 2, · · · }
fθ (x) =
0 sinon.

L’estimateur de θ obtenu par la méthode du maximum de vraisemblance est

l’estimateur δ(X) = 1/(1 + X).
La loi faible des grands nombres nous dit alors que :
θ P
X −→ mθ ,
où mθ désigne la moyenne de la loi géométrique ci-dessus. D’après Slutsky, pour

toute fonction continue g(x), on a :
θ P
g(X) −→ g(mθ ) .
En particulier, on a :
1 Pθ 1
−→ .
1+X 1 + mθ
1
Pour la loi géométrique G(θ) à valeurs dans N, on a : mθ = .
θ
1
Donc = θ, et l’équation précédente devient alors :
1 + mθ
1 Pθ
−→ θ.
1+X
1
L’estimateur δ(X) = est donc convergent vers θ.
1+X
Exemple 15.1.2 On suppose que X1 , X2 , · · · , Xn sont n variables aléatoires i.i.d. et
on suppose que δ(X) est un estimateur efficace pour g(θ), c’est-à-dire un estimateur
sans biais dont la variance atteint la borne inférieure de Rao-Cramèr. On a donc :
(g 0 (θ))2
Eθ (δ(X) − g(θ))2 = var[δ(X)] =

−→ 0 .
nI1 (θ)
On en conclut que δ(X) est convergent en moyenne quadratique pour g(θ). L’es-
timateur δ(X) est, a fortiori, convergent en probabilité vers g(θ).

de loi de Cauchy C(θ), c’est-à-dire à densité :
1
fθ (x) = .
π(1 + (x − θ)2 )
On cherche à estimer θ. On peut aisément montrer que la moyenne de l’échantillon
X ne dépend pas de n. L’estimateur X n’est donc pas convergent.
c Michel CARBON
15.1 Estimateur convergent 291
Posons : 
 X( n+1
 2 )
si n est impair
Mn =
 X( n ) +X( n +1)
2 2
si est pair .

2
On rappelle ici que Mn est la médiane de l’échantillon. Grâce au théorème suivant,

Mn est un estimateur convergent.
Rappelons tout d’abord la définition de la médiane d’une loi de probabilité.
Définition 15.1.2 Soit ν une mesure de probabilité sur R. Une médiane de ν est
un réel m tel que ν(] − ∞, m]) ≥ 1/2 et ν([m, +∞[) ≥ 1/2.
Si X est une variable aléatoire de loi ν, alors m est une médiane de ν si et
seulement si P [X ≤ m] ≥ 1/2 et P [X ≥ m] ≥ 1/2. On dit aussi que m est une
médiane de X.
Exemple 15.1.4 Si X est uniformément distribuée sur l’ensemble fini {1, 2, 3, 4, 5, 6, 7},
alors X possède une médiane unique ; m = 4.
Si X est uniformément distribuée sur l’ensemble fini {1, 2, 3, 4, 5, 6}, alors m est
une médiane de X si et seulement si : 3 ≤ m ≤ 4.
Si la loi de X est absolument continue et si le support de sa loi est un intervalle
réel, alors X possède un médiane unique.
Attention, l’ensemble des médianes d’une loi absolument continue n’est pas né-
cessairement unique. Par exemple, l’ensemble des médianes de la loi uniforme sur
[0, 2] ∪ [3, 5] est tout l’intervalle ]2, 3[.
Théorème 15.1.1 Soit f (x) une densité de probabilité. Supposons qu’elle ne pos-
sède qu’une seule médiane. Soient X1 , X2 , · · · , Xn , n variables aléatoires i.i.d. de
densité f (x). Alors, on a :
P
Mn −→ m .
Démonstration :
Il suffit de montrer que, pour tout ε > 0, on a : lim P [|Mn − m| > ε] = 0.
n−→+∞
On a ici :
P [|Mn − m| > ε] = P [Mn > m + ε] + P [Mn < m − ε]
Si on distingue les cas où n est pair, et où n est impair, cela revient à démontrer les
quatre assertions suivantes :
— 1. lim P [M2k > m + ε] = 0.
n−→+∞
— 2. lim P [M2k+1 > m + ε] = 0.
n−→+∞
— 3. lim P [M2k < m − ε] = 0.
n−→+∞
— 4. lim P [M2k+1 < m − ε] = 0.
n−→+∞
c Michel CARBON
292 ESTIMATEURS
Les points 2 et 4 sont aisés à démontrer. Les points 1 et 3 sont plus délicats.
A titre illustratif, démontrons le point 4. Soit ε > 0. Posons :
2k+1
X
N = N (k, ε) = 1]−∞,m−ε[ (Xj ) .
j=1
N s’interprète comme le nombre d’observations, parmi les 2k + 1 premières ob-

servations, qui sont inférieures à m − ε. Ainsi, la variable aléatoire N suit une loi
binomiale B(2k + 1, G(m − ε)), où G(x) désigne la fonction de répartition de la loi
de densité f (x).
On obtient donc :
P [M2k+1 < m − ε] = P [N ≥ k + 1]
= P [N − (2k + 1)G(m − ε) ≥ (k + 1) − (2k + 1)G(m − ε)]
≤ P [ |N − (2k + 1)G(m − ε)| ≥ (k + 1) − (2k + 1)G(m − ε)]
var[N ]
≤
((k + 1) − (2k + 1)G(m − ε))2
(2k + 1)G(m − ε)(1 − G(m − ε))

=
((k + 1) − (2k + 1)G(m − ε))2
ak + b
= ,
ck 2+ dk + e
avec respectivement :
— a = 2G(m − ε)(1 − G(m − ε)) ≥ 0 ,
— b = G(m − ε)(1 − G(m − ε)) ,
— c = (1 − G(m − ε))2 ,
— d = 2[1 + 2(G(m − ε))2 − 3G(m − ε)] ,
— e = (1 − (G(m − ε))2 .
On en déduit immédiatement que : lim P [M2k+1 < m − ε] = 0.
n−→+∞
15.2 Estimateurs asymptotiquement gaussiens

Soit δ(X) un estimateur de g(θ). Dans bien des cas de figures, on peut montrer
qu’il existe des constantes k1 ≤ k2 ≤ k3 ≤ · · · et une loi Hθ telles que :
θ L
kn (δ(X) − g(θ)) −→ Hθ
√
Le cas le plus fréquemment rencontré est celui où kn = n et Hθ = N (0, σθ2 ). On a
alors : √ Lθ
n(δ(X) − g(θ)) −→ N (0, σθ2 ) (15.1)
On dit alors que l’estimateur δ(X) est asymptotiquement gaussien, de variance
asymptotique σθ2 . Le résultat obtenu dans (15.1) est très souvent utilisé pour obtenir
un intervalle de confiance pour g(θ).
c Michel CARBON
15.2 Estimateurs asymptotiquement gaussiens 293

de loi exponentielle E(θ), avec θ > 0. On veut estimer g(θ) = θ. Considérons pour
cela l’estimateur "naturel" δ(X) = 1/X.
Comme l’espérance pour la loi E(θ) est 1/θ, la loi des grands nombres nous permet
d’écrire :
1 Pθ
−→ θ .
X
L’estimateur δ(X) = 1/X est donc convergent en probabilité. De plus, comme la
variance de la loi E(θ) est 1/θ2 , le théorème central limite donne :
√ Lθ
n(X − 1/θ) −→ N (0, 1/θ2 ) . (15.2)
Grâce à la méthode du delta, on obtient :

√ Lθ
n(1/X − θ) −→ N (0, θ2 ) .
Pour n assez grand , on peut alors écrire :

1/X − θ
P −zα/2 < √ < zα/2 ≈ 1 − α ,
θ/ n
où zγ désigne le quantile d’ordre 1 − γ de la loi normale centée réduite.
De ce qui précède, on peut tirer un encadrement de θ :
" #
1/X 1/X
P z <θ< z ≈ 1−α.
1 + √α/2
n
1 − √α/2
n
L’intervalle aléatoire : " #

1/X 1/X
zα/2 , z (15.3)
1 + √n 1 − √α/2n
est donc un intervalle de confiance au niveau approximatif (1 − α) pour le paramètre

θ.
Remarque 15.2.1 Dans l’exemple (15.2.1) précédent, on peut obtenir un intervalle

de confiance exact pour θ, c’est-à-dire un intervalle de confiance de niveau exacte-
ment (1 − α) pour θ.
Puisque les Xj sont i.i.d. de loi exponentielle E(θ), on montre aisément que les
variables 2θXj sont i.i.d. de loi exponentielle E(1/0). On en déduit alors que :
n
X
2nθX = 2θ Xj ∼ Γ(n, 1/2) = χ22n ,
j=1
où χ22n est la loi du khi-deux à k degrés de liberté.

Donc, si α1 + α2 = α, on peut écrire :
P χ22n,1−α1 < 2nθX < χ22n,alpha2 = 1 − α ,

c Michel CARBON
294 ESTIMATEURS
où χ2k,γ désigne la qiantile d’ordre 1 − γ de la loi du khi-deux à k degés de liberté.

Cette dernière équation peut s’écrire :
2
χ2n,1−α1 χ22n,α2

P <θ<
2nX 2nX
On en conclut que l’intervalle aléatoire :
2
χ2n,1−α1 χ22n,α2

, (15.4)
2nX 2nX
est un intervalle de confiance de niveau 1 − α pour la paramètre θ.
Bien que cela ne soit pas le choix optimal, on choisit souvent α1 = α2 = α/2. Les
intervalles (15.3) et (15.4) ne sont pas très différents l’un de l’autre, et coïncident
quasiment si n est grand.
Nous donnons ci-dessous un second théorème sur le comportement asymptotique

de la médiane.
Théorème 15.2.1 Soit f (x) une densité de probabilité possédant une médiane unique
m. On suppose que cette densité f (x) est continue en m, et que g(m) > 0. Soient
X1 , X2 , · · · , Xn , n variables aléatoires i.i.d. de densité f (x). On a alors :
√

L 1
n(Mn − m) −→ N 0, . (15.5)
4(g(m))2
Démonstration : Pour x ∈ R, on doit prouver que :

√
lim P n(Mn − m) ≤ x = Φ(2g(m)x) ,
n−→+∞
où Φ désigne la fonction de répartition de la loi normale centrée réduite.

Il suffit donc de démontrer les deux résultats suivants :
h√ i
lim P 2k + 1(M2k+1 − m) ≤ x = Φ(2g(m)x) , (15.6)
k−→+∞
et h√ i
lim P 2k(M2k − m) ≤ x = Φ(2g(m)x) . (15.7)
k−→+∞
Démontrons par exemple l’équation (15.6). Pour cela, fixons x ∈ R, et posons

N = le nombre d’observations parmi les 2k + 1 premières observations, qui sont
x
plus petites ou égales à m + √ . On a alors :
2k + 1

x
N ∼ B 2k + 1, G m + √ ,
2k + 1
où G est la fonction de répartition associée à la densité g. Pour k très grand, on
obtient alors :
c Michel CARBON
15.3 Efficacité relative 295

√ x
P 2k + 1(M2k+1 − m) ≤ x = P M2k+1 ≤ m + √
2k + 0
= P [N ≥ k + 1]
 
x
 (k + 1) − (2k + 1)G m + √2k+1 
≈ 1 − Φ r




x x
(2k + 1)G m + √2k+1 1 − G m + √2k+1
 
(k + 1) − (2k + 1) 21 + g(m) √2k+1
x
≈ 1 − Φ p 
(2k + 1)(1/2)(1/2)

1
= 1 − Φ −2g(m)x + √
2k + 1
≈ 1 − Φ(−2g(m)x) = Φ(2g(m)x) .

de loide Cauchy C(θ), donc de densité :
1
fθ (x) = .
π(1 + (x − θ)2 )
Utilisons la médiane de l’échantillon Mn pour estimer la médiane théorique θ. A
l’aide du théorème (15.2.1) précédent, on obtient :
√ Lθ
N 0, π 2 /4 .

n(Mn − m) −→ (15.8)
15.3 Efficacité relative

Supposons que les deux estimateurs δ1 (X) et δ2 (X) soient tous les deux asymp-
totiquement gaussiens pour l’estimation de g(θ), c’est-à-dire que :
√ L
n(δ1 (X) − g(θ)) −→ N (0, σ12 )
√ L
n(δ2 (X) − g(θ)) −→ N (0, σ22 ) .
L’efficacité relative de δ1 (X) par rapport à δ2 (X) est définie par :
σ22
Effδ1 ,δ2 = .
σ12

de loi de Cauchy C(θ). On veut estimer θ. On sait que la médiane de l’échantillon
Mn satisfait à :
c Michel CARBON
296 ESTIMATEURS
√ L
n(Mn − θ) −→ N 0, π 2 /4 .

Appelons θ̂ l’estimateur du maximum de vraisemblance de θ. On peut alors ontrer

que :
√
L
n θ̂ − θ −→ N (0, 2) .
On peut donc affirmer que :
— L’estimateur θ̂ est asymptotiquement plus efficace que l’estimateur Mn .
π/4
— L’efficacité relative asymptotique de θ̂ par rapport à Mn est ≈ 1, 234.
2
2
— L’efficacité relative asymptotique de Mn par rapport à θ̂ est 2 ≈ 0.811.
π /4
Supposons qu’on ait :

√ L
n(δ(X) − g(θ)) −→ N (0, σθ2 ) .
Si donc n est assez grand, on a l’approximation suivante :

√
n(δ(X) − g(θ)) ≈ N (0, σθ2 ) .
On s’attend donc à avoir :
Eθ n(δ(X) − g(θ)) ≈ 0 et var n(δ(X) − g(θ)) ≈ σθ2 .

√ √
et donc :
σθ2
Eθ [δ(X)] ≈ g(θ) et var [δ(X)] ≈ .
n
L’inégalité d’information suggère alors qu’on devrait avoir :
(g 0 (θ))2
σθ2 ≥ .
I1 (θ)
Ce qui justifie la définition suivante :
Définition 15.3.1 Un estimateur δ(X) de g(θ) est dit asymptotiquement efficace

si on a :
(g 0 (θ))2

√ L
n(δ(X) − g(θ)) −→ N 0, .
I1 (θ)
c Michel CARBON
Chapitre 16
Généralités sur les tests
Toutes nos connaissances, passées, présentes et à venir ne sont rien au regard de

ce que nous ne saurons jamais.
Evgueni Aleksandrovitch Evtouchenko
16.1 Définition d’un problème de test

Dans la théorie des tests, le modèle statistique (X , A, P) est mis en cause au
vu des observations. Cela revient souvent à se demander si la véritable loi P0 du
phénomène modélisé appartient ou non à un certain sous-ensemble P0 de P. La
proposition : ”H0 : P0 ∈ P0 ” s’appelle l’hypothèse nulle. Si P = P0 + P1 , on appelle
hypothèse alternative la proposition : ”H1 : P0 ∈ P1 ”.
Si le modèle est paramétrique, et s’il y a bijection entre l’espace P des lois et
l’espace Θ des paramètres, avec Θ = Θ0 + Θ1 , alors on peut aussi écrire :
H0 : θ0 ∈ Θ0 et H1 : θ0 ∈ Θ1
(où θ0 est la vraie valeur du paramètre). Si P0 ne contient qu’une seule loi, H0 est
appelée une hypothèse simple, sinon, on dit que H0 est une hypothèse composite ou
multiple.
16.2 Exemples
16.2.1 Exemple 1 (prise de risque)
Une entreprise reçoit des pièces d’un fournisseur. Les pièces fournies doivent
respecter certaines normes fixées a priori par l’entreprise. Ainsi, chaque pièce peut
être déclarée ”bonne” ou ”défectueuse” vis-à-vis des normes prescrites. Bien sûr,
chacun sait que, malgré les précautions de fabrication, chaque pièce peut parfois
être défectueuse (il coûterait trop cher d’exiger que toutes les pièces soient bonnes,
297
298 CHAPITRE 16. GÉNÉRALITÉS SUR LES TESTS
et le produit final ne serait plus rentable). L’entreprise est donc prête à accepter
les pièces fournies si le nombre de pièces défectueuses n’est pas trop important, ou
encore si la proportion p de pièces défectueuses (inconnue) n’excède pas un certain
seuil p0 (appelé seuil de tolérance). La stratégie de l’entreprise est donc la suivante :
1. Si p ≤ p0 , on accepte les pièces du fournisseur.
2. Si p > p0 , on refuse les pièces du fournisseur.
Bien entendu, cette décision ne peut être prise qu’après un examen du stock
complet de pièces (là encore, le contrôle est souvent onéreux, et aussi coûteux en
temps – imaginer un essai de dureté de billes de roulement à billes, où le contrôle
implique la destruction du roulement correspondant). Donc, en général, on ne fait
pas de contrôle exhaustif de toutes les pièces pour les raisons indiquées. On ne
contrôle qu’un échantillon ”bien choisi” de pièces fournies.
On retrouve là le caractère de nature aléatoire de la décision à prendre ; en fait,
prendre une décision : accepter ou refuser les pièces fournies, ne peut se faire sans
risque (la certitude absolue n’existe pas à cause, bien sûr, du prélèvement d’un
échantillon représentatif).
Le problème se résume ainsi au choix entre deux hypothèses :
H0 : {p : p ≤ p0 }
H1 : {p : p > p0 } .
Si on choisit H0 , on acceptera les pièces fournies. Sinon, on les refusera. Les risques
encourus sont de deux types :
(i) Le risque R1 , dit de première espèce, qui consiste à rejeter H0 à tort. C’est le
risque du fournisseur qui se voit refuser les pièces fournies alors que le lot de
pièces est conforme aux normes initiales de l’entreprise.
(ii) Le risque R2 , dit de seconde espèce, qui consiste à rejeter H1 à tort, c’est-à-dire
à accepter H0 à tort. C’est ici le risque de l’acheteur (l’entreprise) qui accepte
les pièces fournies alors que le lot de pièces n’est pas conforme aux normes
initiales de l’entreprise.
16.2.2 Exemple 2
Cet exemple est choisi volontairement plus théorique. Considérons une loi nor-
male d’écart-type connu σ et de moyenne inconnue m. Soit X une v.a.r. ayant cette
loi. Supposons, pour simplifier (cas d’école) que m ne puisse prendre qu’éventuelle-
ment la valeur fixée m0 ou la valeur fixée m1 , mais exclusivement (avec m0 < m1
pour fixer les choses). On doit choisir entre :
H0 : m = m0 et H1 : m = m1 .
Soit X1 , ..., Xn n v.a.r. indépendantes et de même loi que X. On se souvient que

n
X n = n1
P
Xi est un très ”bon” estimateur (le ”meilleur” pour les critères habituels...)
i=1
c Michel CARBON
16.2 Exemples 299
de m. A partir d’un n-échantillon observé x1 , ..., xn , on obtient l’estimation : xn =

n
1
P
n
xi de m. Cette valeur xn sera d’autant plus proche de m (la vraie valeur inconnue
i=1
de la moyenne de X) que n est grand. Ainsi, bien entendu, si X n (estimateur de
m) prend une valeur xn (sur le n-échantillon prélevé) proche de m0 , on est tenté
d’adopter la décision : m = m0 . Par contre, si xn est proche de m1 , on est tenté de
retenir comme décision : m = m1 .
Nous nous apercevons, à ce niveau, que le vocable ”proche de” est à préciser. Il
dépend évidemment des risques que nous sommes prêts à prendre. En effet, si nous
décidons de choisir l’hypothèse : m = m0 si X n prend une valeur xn inférieure à une
certaine valeur limite C, et, au contraire, de retenir l’hypothèse m = m1 si X n prend
une valeur xn supérieure ou égale à C, nous allons commettre une erreur si m = m0
et si, malheureusement, l’échantillonnage a fourni une valeur xn supérieure ou égale
à C. De même, nous commettrons une erreur si m = m1 , et si l’échantillonnage a
fourni une valeur xn inférieure à C, ce qui peut arriver.
La probabilité de la première erreur est :
α = P (X n ≥ C/m = m0 ).
Elle dépend, bien sûr, de la valeur limite C. La probabilité de la deuxième erreur

est :
β = P (X n < C/m = m1 ),
dépendant, elle aussi, de la valeur limite C.
Figure 16.1 – Probabilités d’erreurs de 1-ière et 2-ième espèce
Ceci est illustré sur le schéma ci-dessus. Quelles que soient les valeurs fixées m0 et
m1 (m0 < m1 ) il est clair que α et β, les probabilités d’erreur définies ci-dessus,
varient en sens contraire (comme fonction de C). En effet, si m = m0 , alors la
probabilité P (X n ≥ C) décroît quand C croît. Donc α décroît quand C croît. De
plus, si m = m1 , alors la probabilité P (X n < C) croît quand C croît. Donc β croît
quand C croît. Les deux probabilités variant en sens inverse, et voulant limiter ces
deux probabilités d’erreur, il faut trouver un compromis acceptable.
L’une des hypothèses est, en général, privilégiée par rapport à l’autre, c’est-à-
dire que l’on tient en priorité à limiter le risque d’erreur pour l’une des hypothèses,
soit parce qu’il s’agit de l’hypothèse retenue et qu’on ne désire pas en changer sans
raison valable, soit parce que son rejet à tort en faveur de l’autre hypothèse aurait
c Michel CARBON
des conséquences plus graves que l’inverse. On appelle usuellement hypothèse nulle
H0 , l’hypothèse pour laquelle on limite a priori la probabilité de rejet ; H1 , l’autre
hypothèse, est appelée habituellement hypothèse alternative.
Les notations ci-dessous sont classiques :
α = P (rejeter H0 /H0 vraie) (probabilité d’erreur de 1re espèce)
β = P (rejeter H1 /H1 vraie) (probabilité d’erreur de 2e espèce)
γ = 1 − β = P (accepter H1 /H1 vraie)

= P (rejeter H0 /H0 fausse) (puissance du test)
Le seuil du test est le maximum fixé a priori pour α.
Revenonsà notre problème. Dans les conditions précédentes, X n suit une loi
σ2
normale : N m, . Ayant fait préalablement le choix d’un seuil α0 , il nous faut
n
déterminer la valeur C telle que :
P (X n ≥ C/m = m0 ) ≤ α0
et tel que
P (X n < C/m = m1 ) = β
soient aussi petites que possible. Comme la première probabilité décroît et que la
seconde croît quand C augmente, il est clair qu’il nous faut choisir la valeur la plus
petite possible pour C satisfaisant la première condition.
La loi de X n étant continue, on détermine C par :
P (X n ≥ C/m = m0 ) = α0 .
En effet, on a alors :
 
,
 Xn − m C −m
α0 = P (X n ≥ C/m = m0 ) = P  ≥ m = m0 

σ σ
√ √
n n
 
 X n − m0 C − m0 
= P σ ≥ σ .
√ √
n n
Posons :
X n − m0
T = σ .
√
n
T suit une loi N (0, 1). Appelons tα0 le réel vérifiant P (T ≥ tα0 ) = α0 . On a alors :
C − m0
σ = tα0 .
√
n
c Michel CARBON
16.3 Utilisation de la théorie de la décision 301
D’où :
σ
C = m0 + tα0 √ .
n
On peut remarquer que C ne dépend que de α0, de m0 , et de n, mais pas de m1 . La
puissance vaut alors :
 
,
 Xn − m C −m
γ = P (X n ≥ C/m = m1 ) = P  ≥ m = m1 

σ σ
√ √
n n
   
 X n − m1 C − m1   e m0 − m1
= P ≥ σ  = P T ≥ + tα0  ,

σ σ
√ √ √
n n n
X n − m1
où Te = σ suit une loi N (0, 1).
√
n
D’où :
 
m0 − m1
γ = P (Te ≥ tα0 ) + P tα0 + ≤ Te < tα0  (car m0 − m1 < 0)
 
σ
√
n
 
m0 − m1
= α0 + P tα0 + ≤ Te < tα0  .
 
σ
√
n
On voit, bien sûr, que le test sera d’autant plus puissant que la différence m0 − m1
sera plus grande, ce qui est intuitivement logique. Il sera aussi d’autant plus puissant
que n sera très grand, ce que l’on pouvait pressentir.
16.3 Utilisation de la théorie de la décision

Au vu des observations, on va devoir choisir entre les hypothèses H0 et H1 , ce
qui définit deux décisions d0 et d1 (d0 : accepter H0 ; d1 : accepter H1 ). Notons
D = {d0 , d1 } .
Définition 16.3.1 Un test pur, ou test déterministe est une application mesurable
δ:
δ : (X , A, P) −→ (D, D),

d0
x 7−→ δ(x) = .
d1
Un test pur est donc caractérisé par l’image inverse par δ de d0 (ou de d1 ).
c Michel CARBON
Définition 16.3.2 La partie de X : W = δ −1 (d1 ) est appelée région critique du

test.
La région critique du test est donc l’ensemble des observations x ∈ X qui

conduisent à accepter H1 (i.e. refuser H0 ).
Dans la suite, on identifiera d0 à 0 et d1 à 1. Alors δ sera une application mesurable
à valeurs dans {0,1}.
Plus généralement, on pourra être amené à tirer au hasard la décision dans

l’espace D = {d0 , d1 } , selon une loi de probabilité mx dépendant de l’observation
x : mx (d0 ) est la probabilité d’accepter H0 au vu de x, et mx (d1 ) est la probabilité
d’accepter H1 au vu de x. Bien entendu, il suffit de connaître l’un de ces deux
nombres pour caractériser ce test, appelé test mixte ou test aléatoire. Définissons-le
par la fonction de x : mx (d1 ).
Définition 16.3.3 Un test aléatoire (ou test mixte) est une fonction mesurable ϕ
définie sur (X ,A, P) à valeurs dans [0, 1] , B[0;1] dont la valeur en x est la probabilité
de refuser H0 lorsque le résultat est x : ϕ(x) = mx (d1 ).
Remarque 16.3.1 Un test pur est un cas particulier de test mixte, comme on peut
le voir en posant ϕ = 11W .
16.4 Erreurs liées à un test

Pour la commodité des notations, plaçons-nous dans le cadre paramétrique avec
Θ = Θ0 +Θ1 . Il y a, comme on l’a vu sur les exemples, deux types d’erreurs possibles :
1. Choisir d1 alors que d0 est la bonne décision (ou dire que θ0 ∈ Θ1 alors que
θ0 appartient en réalité à Θ0 , ou choisir H1 alors que c’est H0 qui est vraie).
C’est l’erreur de première espèce.
2. Choisir d0 alors que d1 est la bonne décision (ou dire que θ0 ∈ Θ0 alors que
θ0 appartient en réalité à Θ1 , ou choisir H0 alors que c’est H1 qui est vraie).
C’est l’erreur de seconde espèce.
A ces deux types d’erreur sont attachées des probabilités.
16.4.1 Cas d’un test pur

Dans le cas d’un test pur de région critique W, on définit les risques associés
comme suit :
Définition 16.4.1 Le risque de 1re espèce est défini par : α(W, θ) = Pθ (W ) pour
θ ∈ Θ0 . Le risque de 2e espèce est défini par : β(W, θ) = Pθ (W c ) = 1 − Pθ (W ) pour
θ ∈ Θ1 .
Les deux définitions suivantes sont aussi utiles.
c Michel CARBON
16.4 Erreurs liées à un test 303
Définition 16.4.2 La puissance du test est définie par : γ(W, θ) = Pθ (W ) pour

θ ∈ Θ1 .
On peut remarquer que le risque de première espèce et la puissance du test ne

diffèrent essentiellement que par leurs domaines respectifs de définition.
Définition 16.4.3 On appelle niveau du test, la quantité :
sup α(W, θ) = sup Pθ (W ).

θ∈Θ0 θ∈Θ0
16.4.2 Cas d’un test mixte

On supposera que la famille de lois P = (Pθ ; θ ∈ Θ) est paramétrique et définie
par des densités (ou fonctions de masse) fθ (x). Dans le cas d’un test mixte ϕ, la
probabilité de refuser H0 , lorsque la valeur du paramètre est θ, vaut
Z
ϕ(x)fθ (x)dx = Eθ [ϕ(X)] , (16.1)
X
où X est une v.a.r. de loi Pθ . Dans le cas où X est une variable discrète, il y
aura lieu de remplacer les intégrales par des sommes ou des séries dans l’expression
(16.1. Ce qui conduit aux définitions suivantes :
Définition 16.4.4 Le risque de 1re espèce est défini par : α(ϕ, θ) = Eθ (ϕ) pour
θ ∈ Θ0 . Le risque de 2e espèce est défini par : β(ϕ, θ) = 1 − Eθ (ϕ) pour θ ∈ Θ1 .
Les deux définitions suivantes sont aussi utiles.
Définition 16.4.5 La puissance du test est définie par : γ(ϕ, θ) = Eθ (ϕ) pour
θ ∈ Θ1 .
Définition 16.4.6 On appelle niveau du test, la quantité :
sup α(ϕ, θ). = sup Eθ (ϕ)

θ∈Θ0 θ∈Θ0
Remarque 16.4.1 Si le test est pur, alors ϕ = 11W , et on retrouve les définitions
précédentes.
Exemple 16.4.1 On suppose que X1 , X2 , · · · , X16 sont des variables aaléatoires

i.i.d. de loi N (θ, 1). On considère le problème de test suivant :
— H0 : θ = 0 (c’est-à-dire H0 θ ∈ Θ0 = {0})
— H1 : θ 6= 0 (c’est-à-dire H1 θ ∈ Θ1 = R − {0})
On considère la règle de décision consistant à rejeter H0 si et seulement si on
observe (x1 , x2 , · · · , x16 ) tels que ; |x| ≥ 3/8.
Il s’agit du test pur, noté ici ϕ, défini par :

 1 si |x| ≥ 3/8
ϕ(x) =
0 si |x| < 3/8

c Michel CARBON
La région critique est donc le sous-ensemble de R16 défini par : W = {x ∈ R16 :

|x| ≥ 3/8} La puissance du test est définie, pour tout θ ∈ Θ1 , par :

γ(W, θ) = Eθ [ϕ(X)] = Pθ [W ] = Pθ X ≥ 3/8

= Pθ X ≤ −3/8 + Pθ X ≥ 3/8

−3/8 − θ 3/8 − θ
= Φ +1−Φ
1/4 1/4
= Φ (−3/2 − 4θ) + Φ (−3/2 + 4θ) .

Le niveau du test est :
α = P0 [W ] = 2Φ(−3/2) = 1 − Φ(3/2) = 1 − 0, 9332 = 0, 0668 = 6, 68 % .
Exemple 16.4.2 On suppose que X1 , X2 , X3 , X4 sont des variables aléatoires i.i.d.
de loi de Bernoulli B(θ) avec 0 ≤ θ ≤ 1. On considère le problème de test suivant :
— H0 : θ ≤ 1/2 (c’est-à-dire H0 θ ∈ Θ0 = [0, 1/2])
— H1 : θ ≥ 1/2 (c’est-à-dire H1 θ ∈ Θ1 =]1/2, 1])
Posons : S = X1 + X2 + X3 + X4 . On choisit la règle de décision suivante :
— Si S ∈ {0, 1}, on ne rejette pas H0 .
— Si S = 2, on rejette H0 avec la probabilité 1/2.
— Si S ∈ {3, 4}, on rejette H0 .
Il s’agit du test mixte défini par :


 1 si x1 + x2 + x3 + x4 ∈ {3, 4}



ϕ(x) = 1/2 si x1 + x2 + x3 + x4 = 2




0 si x1 + x2 + x3 + x4 ∈ {0, 1} .

Calculons Eθ [ϕ(X)] :
1
Eθ [ϕ(X)] = 0 · Pθ [ϕ(X) = 0] + · Pθ [ϕ(X) = 0] + 1 · Pθ [ϕ(X) = 1]
2
1
= · Pθ [S = 2] + Pθ [S = 3] + Pθ [S = 4]
2
1 2 2
= C θ (1 − θ)2 + C43 θ3 (1 − θ) + C44 θ4 (1 − θ)0
2 4
= θ2 (3 − 2θ) .
En étudiant la fonction θ2 (3 − 2θ), on en déduit que le niveau du test est :
α = sup θ2 (3 − 2θ) = 1/2 .
θ∈[0,1/2]
La fonction puissance est la fonction : γ(θ) = θ2 (3 − 2θ) pour θ ∈ Θ1 . Le test sera

d’autant plus puissant que θ sera proche de 1.
c Michel CARBON
16.5 Rapport avec la notion de risque 305
16.5 Rapport avec la notion de risque

Soit L(d, θ) la perte encourue quand on prend la décision d, la vraie valeur du
paramètre étant θ. Il est naturel de prendre une fonction de perte L telle que :
si θ ∈ Θ0 : L(d1 , θ) > 0 et L(d0 , θ) = 0
si θ ∈ Θ1 : L(d0 , θ) > 0 et L(d1 , θ) = 0.
On appellera ici risque, comme dans la théorie de l’estimation, l’espérance mathé-
matique de la perte (= perte moyenne).
On vérifie que pour tout test ϕ, on a :
R(ϕ, θ) = L(d0 , θ) Eθ [1 − ϕ(X)] + L(d1 , θ) Eθ [ϕ(X)]

Soit encore :

 L(d1 , θ) Eθ (ϕ) = L(d1 , θ) α(ϕ, θ) si θ ∈ Θ0
R(ϕ, θ) =
L(d0 , θ) (1 − Eθ ϕ) = L(d0 , θ) β(ϕ, θ) si θ ∈ Θ1 .

Par analogie avec l’estimation où l’on cherche des estimateurs uniformément de

risque minimum, on peut chercher à sélectionner les tests selon la règle de préférence
suivante : ϕ1 est préférable à ϕ2 si et seulement si :
∀θ ∈ Θ, R(ϕ1 , θ) ≤ R(ϕ2 , θ),
ce qui équivaut ici à :


 si θ ∈ Θ0 : α(ϕ1 , θ) ≤ α(ϕ2 , θ)
si θ ∈ Θ1 : β(ϕ1 , θ) ≤ β(ϕ2 , θ).


Donc, pour comparer les risques associés aux fonctions de pertes très générales défi-
nies ici, il suffit de comparer α et β, ce qui justifie, a posteriori, que α et β soient aussi
appelés risques. Hélas, il n’existe pas, en général, de test optimal (en ce sens), mais
la règle précédente peut permettre d’éliminer les tests non admissibles, c’est-à-dire
les tests pour lesquels il existe d’autres tests strictement préférables.
16.6 Test et exhaustivité

Si S est une statistique exhaustive pour θ, on peut se limiter aux tests ϕ qui sont
fonctions des observations au travers de la statistique S :
ϕ(y) = ϕ (S(x)) .
Cela revient à poser le problème dans le modèle image (S, Pθ,S ; θ ∈ Θ) et à consi-
dérer les tests ψ dans ce modèle. En effet, à tout test ϕ du modèle initial, on peut
associer :
ψ(S) = Eθ (ϕ/S) = E(ϕ/S),
c Michel CARBON
qui ne dépend pas de θ car S est exhaustive. Ce test équivaut à ϕ, car pour tout
θ ∈ Θ, on a :
Eθ (ψ) = Eθ [Eθ (ϕ/S)] = Eθ (ϕ)
et donc ϕ et ψ ont même risques, et même puissance.
16.7 Principe de Neyman

Le principe de Neyman consiste à contrôler l’erreur de première espèce, en cher-
chant des tests optimaux parmi ceux dont l’erreur de première espèce ne dépasse
pas un certain seuil α ∈ [0, 1] .
Rappelons que le niveau d’un test est le réel sup α(ϕ, θ).
θ∈Θ0
On impose donc ici que : sup α(ϕ, θ) ≤ α. Alors, parmi les tests vérifiant l’in-
θ∈Θ0
égalité précédente, on cherche, s’il en existe un, un test qui minimise le risque de
seconde espèce β(ϕ, θ) pour tout θ ∈ Θ1 , ou, de façon équivalente, qui maximise la
puissance γ(ϕ, θ) pour tout θ ∈ Θ1 .
Un tel test, s’il existe, est appelé ”uniformément le plus puissant” au seuil α (noté
UPP dans la suite). Il faut, en général, introduire des principes supplémentaires pour
assurer l’existence de tests UMP.
c Michel CARBON
Chapitre 17
Test d’hypothèses simples
Si la science ne s’intéresse pas aux choses délirantes, elle risque fort de passer à
côté de choses intéressantes.
Antoine Labeyrie
Le modèle statistique est ici (X , A, Pθ ; θ ∈ {θ0 , θ1 }) . Il s’agit, dans ce chapitre,

d’étudier une étape qui conduira à l’examen de situations plus complexes, mais plus
réalistes. Ici H0 est réduit à une loi P0 et H1 à une loi P1 :
H0 : P = P0 contre H1 : P = P1
ou, de manière équivalente, car on se trouve dans le cas d’un modèle paramétrique :
H0 : θ = θ0 contre H1 : θ = θ1
On notera Eθ0 et Eθ1 les espérances mathématiques relatives respectivement à P0 et
P1 . Pour tout test ϕ, le risque de première espèce est donc :
α (ϕ, P0 ) = Eθ0 (ϕ) (= α(ϕ)).
De façon similaire :
β(ϕ, P1 ) = Eθ1 (1 − ϕ) (= β(ϕ)),
et
γ(ϕ, P1 ) = Eθ1 (ϕ) (= γ(ϕ)).
On supposera que les lois P0 et P1 peuvent donc être caractérisées par les densités
respectives f0 (x) et f1 (x) ou leurs fonctions de masse.
17.1 Tests de Neyman

La classe des tests de Neyman aura un rôle essentiel par la suite.
307
308 CHAPITRE 17. TEST D’HYPOTHÈSES SIMPLES
Définition 17.1.1 On appelle test de Neyman associé au réel positif k un test ϕ de

la forme : 
 ϕ(x) = 1 si f1 (x) > kf0 (x) µ−p.p.
ϕ(x) = 0 si f1 (x) < kf0 (x) µ −p.p.


On n’impose rien si : f1 (x) = kf0 (x).
17.2 Le lemme de Neyman-Pearson

Lemme 17.2.1 (Neyman-Pearson) On veut, dans tout ce lemme, tester l’hypo-
thèse simple H0 : θ = θ0 contre l’hypothèse simple H1 : θ = θ1 .
(i) Existence : Pour tout α : 0 < α < 1, il existe un test de Neyman ϕ de niveau
α, c’est-à-dire tel que : Eθ0 (ϕ) = α. On peut même imposer que ϕ prenne une
valeur constante γ indépendante de x si f1 (x) = kf0 (x) (avec 0 < γ ≤ 1).
(ii) Condition suffisante : Pour tout α : 0 < α < 1, un test de Neyman ϕ tel
que : Eθ0 (ϕ) = α est UPP au seuil α.
(iii) Condition nécessaire : Pour tout α : 0 < α < 1, un test UPP au seuil α est
nécessairement un test de Neyman de niveau α.
Démonstration :
1. Soit ϕ un test de Neyman tel que : ϕ ≡ γ si f1 (x) = kf0 (x). Alors on a :
Eθ0 (ϕ) = P0 (f1 (x) > kf0 (x)) + γP0 (f1 (x) = kf0 (x))

f1 (x) f1 (x)
= P0 > k + γ · P0 =k .
f0 (x) f0 (x)

f1 f1 (x)
est définie P0 -p.s. Donc F (t) = P0 ≤ t a bien un sens sous H0 .
f0 f0 (x)
Alors il existe k0 tel que F (k0− ) ≤ 1 − α ≤ F (k0 ). Deux cas peuvent se présen-
ter :
a) 1 − α = F (k0 ) ; alors le test de Neyman associé à k = k0 et à γ = 0 est
bien tel que : Eθ0 (ϕ) = α.
b) F (k0− ) ≤ 1 − α < F (k0 ) ; le test de Neyman associé à k = k0 et à
F (k0 ) − (1 − α)
γ= est tel que :
F (k0 ) − F (k0− )
F (k0 ) − (1 − α) −

Eθ0 (ϕ) = 1 − F (k0 ) + − · F (k0 ) − F (k0 ) = α.
F (k0 ) − F (k0 )
2. Soit ϕ un test de Neyman tel que : Eθ0 (ϕ) = α et soit ψ un test quelconque de
seuil α : Eθ0 (ψ) ≤ α. Soit k le nombre associé à ϕ. ϕ étant un test de Neyman,
on a alors : Z
(ϕ(x) − ψ(x)) (f1 (x) − kf0 (x)) dx ≥ 0,
X
c Michel CARBON
17.2 Le lemme de Neyman-Pearson 309
car
ϕ=1≥ψ si f1 (x) > kf0 (x)
ϕ=0≤ψ si f1 (x) < kf0 (x)

et ailleurs f1 (x) − kf0 (x) = 0.
Ainsi :
Z Z
(ϕ(x) − ψ(x)) f1 (x) dx ≥ k (ϕ(x) − ψ(x)) f0 (x) dx,
X X
c’est-à-dire :
Eθ1 (ϕ − ψ) ≥ kEθ0 (ϕ − ψ) = k (α − Eθ0 (ψ)) ≥ 0,
car ψ est de seuil α.

Ainsi : Eθ1 (ϕ) ≥ Eθ1 (ψ), ce qui prouve que ϕ est plus puissant que tout autre
test de seuil α.
3. Soit ϕ∗ un test UPP de seuil α, et ϕ un test de Neyman de niveau α ; d’après

(i), ϕ existe, et, d’après (ii), ϕ est UPP à son niveau. Donc :
Eθ1 (ϕ∗ ) = Eθ1 (ϕ).
Examinons l’intégrale :
Z
(ϕ(x) − ϕ∗ (x)) (f1 (x) − kf0 (x)) dx
X
Z Z
∗
= (ϕ(x) − ϕ (x)) f1 (x) dx − k (ϕ(x) − ϕ∗ (x)) f0 (x) dx
X X
= Eθ1 (ϕ) − Eθ1 (ϕ∗ ) − k (Eθ0 (ϕ) − Eθ0 (ϕ∗ ))
= −k (α − Eθ0 (ϕ∗ )) ≤ 0.
Grâce à (ii), et puisque ϕ est un test de Neyman, on en déduit alors que l’intégrale
précédente ne peut être que nulle. Grâce à (ii), la fonction à intégrer est positive
ou nulle. Donc, finalement, la fonction sous l’intégrale est nulle presque partout, ce
qui signifie que ϕ = ϕ∗ sur {f1 (x) − kf0 (x) 6= 0} , et donc ϕ∗ est bien un test de
Neyman.
Remarque 17.2.1 1) Si, pour tout k > 0, l’ensemble {f1 (x) = kf0 (x)} est Pθ0 − p.s.
négligeable c’est-à-dire Pθ0 (f1 (x) = kf0 (x)) = 0, alors, pour tout seuil α, il existe
un test pur UPP de région critique :
W = {f1 (x) > kf0 (x)} ,
et k est défini par : Pθ0 (W ) = α.
c Michel CARBON
2) Si S est une statistique exhaustive, d’après le théorème de factorisation, on

a:
f0 (x) = g0 (S(x)) · h(x)
et
f1 (x) = g1 (S(x)) · h(x).
D’où :
f1 (x) g1 (S(x))
= .
f0 (x) g0 (S(x))
Donc un test de Neyman ne dépend des observations qu’au travers de S.
3) La puissance d’un test UPP au seuil α est toujours supérieure ou égale à α.
En effet, considérons le test : ψ ≡ α. Alors Eθ0 (ψ) = α et ψ est de seuil α. De
plus, γ(ψ) = Eθ1 (ψ) = α, donc ψ est de puissance α ; un test UPP de seuil α a donc
une puissance supérieure ou égale à celle de ψ, donc supérieure ou égale à α.
4) Application aux familles exponentielles à un seul paramètre :
Supposons que η(θ) soit à valeurs dans R, et que la densité du modèle exponentiel
s’écrive : f (x, θ) = c(θ) h(x) exp [η(θ) · T (x)] . Le rapport des vraisemblances s’écrit :
f (x, θ1 ) c(θ1 )
= exp [(η(θ1 ) − η(θ0 )) · T (x)] .
f (x, θ0 ) c(θ0 )
On veut tester l’hypothèse simple H0 : θ = θ0 contre l’hypothèse simple H1 :
θ = θ1 .On supposera que η(θ0 ) 6= η(θ1 ). Quitte à changer T en −T , on peut toujours
supposer que η(θ0 ) < η(θ1 ) .
D’après le lemme fondamental de Neyman-Pearson, il existe alors un test ϕ UPP
au seuil α tel que :
ϕ(x) = 1 si T (x) > c
= γ si T (x) = c
= 0 si T (x) < c.
Le test de Neyman s’exprime donc en fonction de la statistique privilégiée T. Les
constantes γ et c sont déterminées par la condition : Eθ (ϕ) = α .
17.3 Exemples
17.3.1 Moyenne d’une loi normale
Un échantillon de taille n d’une loi normale N (θ, 1) a pour densité :
n
!
nθ2

1X 2
f (x, θ) = (2π)−n/2 exp − exp − x exp(nθ x).
2 2 i=1 i
Ici : η(θ) = nθ et T (x) = x. On sait que la loi de T est continue. Donc le test UPP
de Neyman pour tester ”θ = θ0 ” contre ”θ = θ1 ” est un test pur. Supposons par
c Michel CARBON
17.3 Exemples 311
exemple que θ1 > θ0 . D’après la remarque (17.2.1)au point 4, le test en question

s’écrit :
ϕ(x) = 1 si x>c
ϕ(x) = 0 si x < c.
La région critique W est donc, si on l’exprime en fonction de la statistique T :
W = {x > c}
et le niveau du test est : Eθ0 (ϕ) = Pθ0 (W ).
Il reste à déterminer
cde manière à ce que Eθ0 (ϕ) = α. Or, sous l’hypothèse H0 ,
1
la loi de X est N θ0 , , donc :
n
√ √
α = Pθ0 (X > c) = Pθ0 n(X − θ0 ) > n(c − θ0 )
√
= 1 − F ( n(c − θ0 )) .
où F désigne la fonction de répartition d’une loi N (0, 1) . Donc :
√
n(c − θ0 ) = F −1 (1 − α)
et
1
c = θ0 + √ F −1 (1 − α).
n
Exemple numérique :
1. Si θ0 = 0, θ1 = 2, α = 0, 05, n = 25, alors on a :
F −1 (0, 95) = 1, 645
La région critique est alors :

1, 645
W = x> = 0, 329 .
5
La puissance vaut :
γ = Eθ1 (ϕ) = Pθ1 (X > c)
√ √
= Pθ1 n(X
√ − θ1) > n(c − θ 1)
= 1 − F ( n(c − θ1 )) .
Or : √ √
n(c − θ1 ) = n(θ0 − θ1 ) + F −1 (1 − α)
= −10 + 1, 645
= −8, 355.
Par suite :
γ = 1 − F (−8, 335) = F (8, 355) ' 1 (= 1 − 10−9 ).
2. Si on prend θ0 = 2, θ1 = 0, α = 0.05, n = 25, alors on obtient :
W = {x < 1, 671} .
On remarquera comment la théorie prend en compte la dissymétrie des hypo-
thèses.
c Michel CARBON
17.3.2 Dispersion d’une loi normale

On dispose d’un échantillon de taille n pour tester une loi N (0, σ02 ) contre une
loi N (0, σ12 ) . (σ0 < σ1 ). On a :
n " n #
f1 (x) σ0 1 1 1 X 2
= exp 2
− 2 xi , x = (x1 , . . . , xn ) ∈ IRn .
f0 (x) σ1 2 σ0 σ1 i=1
n

x2i
P
La région critique est de la forme W = > c ; c’est l’extérieur d’une boule
i=1
de Rn centrée à l’origine.
n
Xi2
P
i=1
Sous l’hypothèse nulle : ”σ 2 = σ02 ”, suit une loi du χ2 à n degrés de liberté.
σ02
Le niveau α (0 < α < 1) étant fixé, il existe (voir table) un réel positif tα tel
que : P (χ2n > tα ) = α. Le test pur de région critique W est UPP à son niveau, et la
région critique est de la forme :
X
x2i > tα σ02
n
Xi2
P
i=1
Sous l’hypothèse H1 , suit une loi du χ2n à n degrés de liberté, et donc la
σ12
puissance du test est :
σ02

2
γ = P χn > tα 2
σ1
17.3.3 Moyenne d’une loi de Poisson

On dispose de n observations d’une loi de Poisson, et on veut tester si ces ob-
servations proviennent d’une loi de Poisson de paramètre 5 plutôt que d’une loi de
Poisson de paramètre 10. On pose : H0 : ”P0 = P(5)” et H1 : ”P1 = P(10)”. On
cherche le test de Neyman UPP de niveau α. On a :
n n
Q
(xi )!
P
xi n
−10
f1 (x1 , . . . , xn ) e 10i=1
P
i=1 xi
−5
= Qn × n =e 2i=1 .
f0 (x1 , . . . , xn ) P
xi
(xi !) e−5 5i=1
i=1
Le test (mixte) est de la forme :

n
P
ϕ(x1 , . . . , xn ) = 1 si xi > c
i=1
Pn
ϕ(x1 , . . . , xn ) = γ si xi = c
i=1
Pn
ϕ(x1 , . . . , xn ) = 0 si xi < c.
i=1
c Michel CARBON
17.3 Exemples 313
γ et c sont caractérisés par E0 (ϕ) = α, c’est-à-dire :

n
! n
!
X X
P0 Xi > c + γP0 Xi = c = α.
i=1 i=1
Supposons ici que n = 1 et α = 5 %. Dans une table de loi de Poisson de paramètre

5, on trouve :
P0 (X > 9) = 0, 032 et P0 (X > 8) = 0, 068.
On doit donc choisir c = 9 ; γ est déterminé par :
0, 032 + γ(0, 068 − 0, 032) = 0, 05 ⇒ γ = 0, 5.
Si l’observation est 9, on pourra par exemple jouer la décision à Pile ou Face, de

façon à disposer d’un test UPP de niveau 5 %.
En pratique, on peut évidemment modifier le seuil de façon à revenir aux tests
purs : rejeter H0 pour x > 9 et accepter H0 pour x ≤ 9 est un test UPP au niveau
α = 3, 2 %. Rejeter H0 pour x > 8 et accepter H0 pour x ≤ 8 est un test UPP au
niveau 6,8 %.
c Michel CARBON
c Michel CARBON
Chapitre 18
Tests à hypothèses multiples
Une théorie scientifique est bien développée si n’importe quel imbécile peut l’ex-
ploiter avec succès.
René Thom
Dans la majorité des applications, H0 et H1 sont des hypothèses multiples (ou

composites). Le problème est alors beaucoup plus complexe, car il n’y a pas, en
général, de test UMP de H0 contre H1 .
18.1 Test d’une hypothèse simple contre une hypo-

thèse multiple
Pour un type de problème de test de la forme : ”θ = θ0 ” contre ”θ ∈ Θ1 ”, deux
méthodes sont couramment utilisées pour construire des tests.
18.1.1 Le test de type γ

Il consiste à prendre pour région critique la réunion des régions critiques de
niveau γ des tests de Neyman correspondants aux hypothèses simples : ”θ = θ0 ”
contre ”θ = θ1 ” où θ1 décrit Θ1 . On choisit γ de telle sorte que cette réunion ait le
niveau α exigé.
Exemple : On veut tester ”σ = σ0 ” contre ”σ 6= σ0 ” au vu d’un échantillon de
taille n d’une loi N (0, σ 2 ) . Pour σ > σ0 , la région critique est de la forme :
( n )
X
x2i > χ2γ σ02 .
i=1
Pour σ < σ0 , la région critique est de la forme :

( n )
X
x2i < χ21−γ σ02 .
i=1
315
316 CHAPITRE 18. TESTS À HYPOTHÈSES MULTIPLES
La famille {W (σ, γ) , σ 6= σ0 } des régions critiques est donc réduite à deux éléments,
d’où le test global de région critique :
( n ) ( n )
X X
2 2 2 2 2 2
W = xi > χγ σ0 ∪ xi < χ1−γ σ0 .
i=1 i=1
α
En choisissant γ = , on obtient un test de niveau α, car
2
α α
Pσ0 (W ) = P χ2n > χ2α + P χ2n < χ21− α = + = α.
2 2 2 2
La puissance vaut :
σ02 σ02

γ(σ) = P χ2n < χ21− α +P χ2n 2
> χα , σ 6= σ0 .
2 σ2 2 σ2
On peut remarquer que la puissance devient très faible au voisinage de σ0 .
18.1.2 Le test de type λ

Il consiste à prendre encore la réunion des régions critiques des tests de Neyman,
non plus à un niveau γ constant, mais à rapport de densités λ constant. Alors, sous
certaines conditions de régularité :
1. La frontière de la région critique W (θ, λ) a pour équation fθ0 − λfθ = 0.
2. L’enveloppe de cette frontière constitue la frontière de W. On a : pour θ réel,
W est déterminé par les équations
fθ0 (x) − λfθ (x) = 0, (18.1)

∂fθ
(x) = 0. (18.2)
∂θ
Or, la solution θb de (18.2) est l’estimateur du maximum de vraisemblance de

θ et, si on la reporte dans (18.1), on obtient l’équation de la frontière de la
région critique du test ”θ = θ0 ” contre ”θ = θ”.
b
Le principe du test λ est donc le suivant :

1. On estime θ par la méthode du maximum de vraisemblance, d’où θ.
b
2. On teste ”θ = θ0 ” contre ”θ = θ”.
b
Exemple 18.1.1 Etant donné un échantillon de taille n d’une loi N (θ, 1) , on veut
1P n
tester ”θ = θ0 ” contre ”θ 6= θ0 ”. x = xi est l’estimation par maximum de
n i=1
vraisemblance de θ. Alors la frontière de la région critique du test a pour équation :
" n
# " n
#
1 1X 1 1 X
√ n exp − (xi − θ0 )2 = λ √ n exp − (xi − x)2
2π 2 i=1 2π 2 i=1
c Michel CARBON
18.2 Cas général 317
La résolution donne : r
2
x = θ0 ± − log λ.
n
D’où le test de région critique :
r
2
|x − θ0 | > − log λ.
n
18.2 Cas général

Dans le cas général d’un test d’une hypothèse multiple contre une hypothèse
multiple, il n’y a pas de solution complète du problème. On peut obtenir des solutions
partielles en faisant des hypothèses de régularité sur les tests envisagés. On peut
notamment se restreindre à certaines classes de tests, comme les tests sans biais.
Définition 18.2.1 Soit ϕ un test de niveau α, et de puissance γ. Il sera dit sans

biais (ou sans distorsion) si :
γ(θ) ≥ α, ∀θ ∈ Θ1 .
Dans le cas d’un test pur de région critique W, dire qu’un test n’est pas sans
biais signifie qu’on peut trouver θ0 ∈ Θ0 et θ1 ∈ Θ1 tels que :
Pθ0 (W ) > Pθ1 (W ),
alors que l’on rejette l’hypothèse nulle H0 pour x ∈ W !
Exemple 18.2.1 Reprenons l’exemple du chapitre précédent relatif à la dispersion

d’une loi normale. Pour σ0 = 1, n = 3, α = 2 %, on obtient le test de région
critique : nX o nX o
x2i > 11, 345 ∪ x2i < 0, 115 .
Alors, pour σ = 0.8, on trouve γ = 0, 019 : il y a ici distorsion.
Nous avons vu, dans le lemme de Neyman-Pearson qu’un test UMP est sans biais
(pour tester hypothèse simple contre hypothèse simple). Plus généralement, on a le
résultat suivant.
Lemme 18.2.1 Un test ϕ UMP au seuil α est sans biais.
Démonstration : Soit ψ un test tel que ψ ≡ α. Donc : sup Eθ (ψ) = α, et ψ est

θ∈Θ0
de seuil α. Le test ϕ de niveau α, UMP, vérifie :
γ(ϕ, θ) ≥ γ(ψ, θ) = α, ∀θ ∈ Θ1 .
Et ainsi ϕ, UMP au seuil α, est sans biais.
c Michel CARBON
18.3 Tests d’hypothèses multiples unilatères
18.3.1 Familles à rapport de vraisemblances monotone

Considérons le modèle paramétrique (X , A, Pθ ; θ ∈ Θ) où Θ ⊂ R. On suppose
que les lois Pθ sont à densité f (x, θ) = fθ (x) ou que fθ (x) soient des fonctions de
masse dans le cas discret.
On supposera de plus que le modèle est homogène.
Définition 18.3.1 La famille {Pθ ; θ ∈ Θ} est à rapport de vraisemblances monotone

s’il existe une statistique réelle U (x) telle que :
f (x, θ2 )
∀θ1 , θ2 , θ1 < θ2 ⇒ = gθ1 ,θ2 [U (x)]
f (x, θ1 )
avec gθ1 ,θ2 (·) strictement croissante (ou décroissante) de U, et cela en tout point x
où f (x, θ1 ) > 0.
Remarque 18.3.1 Quitte à changer U en −U , on peut toujours supposer que les

f (x, θ2 )
rapports sont des fonctions strictement croissantes de U .
f (x, θ1 )
Exemple 18.3.1 Un modèle exponentiel canonique à un seul paramètre est à rap-

port de vraisemblances monotone de sa statistique privilégiée. En effet :
f (x, η) = exp [ηT (x) − A(η)] h(x), x ∈ X, η ∈ H ⊂ R.
Alors, pour η1 < η2 , on a :

f (x, η2 )
= exp [(η2 − η1 ) T (x) − (A(η2 ) − A(η1 ))] .
f (x, η1 )
Donc U (x) = T (x).
18.3.2 Tests unilatères

Théorème 18.3.1 ( Théorème de Lehmann ) Soit {Pθ ; θ ∈ Θ} une famille à rap-
port de vraisemblances monotone strictement croissant de la statistique U . On sup-
pose que Θ est un intervalle de R. On se propose de tester :
H0 : θ ≤ θ0 contre H1 : θ > θ0 .
Alors, pour tout α ∈]0, 1[, il existe un test ϕ, UPP au seuil α, de la forme :

 ϕ(x) = 1 si U (x) > c
ϕ(x) = γ si U (x) = c (18.3)
ϕ(x) = 0 si U (x) < c

où γ et c sont déterminés par la condition : Eθ0 (ϕ) = α.
c Michel CARBON
18.3 Tests d’hypothèses multiples unilatères
319
Démonstration : Soit θ0 < θ00 . On a alors :

f (x, θ00 )
= gθ0 ,θ00 [U (x)] .
f (x, θ0 )
Comme g est strictement croissante, on a :
f (x, θ00 )
U (x) > c ⇔ > K.
f (x, θ0 )
Grâce au lemme de Neyman-Pearson, il existe un test ϕ de la forme (18.3), grâce à
l’équivalence précédente, tel que Eθ0 (ϕ) = α, UPP à son niveau, pour tester ”θ = θ0 ”
contre ”θ = θ00 ”. Soit ψ un test de niveau inférieur ou égal à α, on a alors :
Eθ0 (ψ) ≤ Eθ0 (ϕ) ⇒ Eθ00 (ϕ) ≥ Eθ00 (ψ),
car ϕ est UPP au niveau α.

En particulier, pour θ0 = θ0 et θ00 = θ > θ0 , on a :
Eθ0 (ψ) ≤ Eθ0 (ϕ) = α ⇒ Eθ (ϕ) ≥ Eθ (ψ).
La région critique définie par U (x) > c ne dépend pas de θ pour θ > θ0 .
Ainsi, ϕ est UPP au niveau α, c’est-à-dire parmi tous les tests ψ tels que Eθ0 (ψ) ≤
α, et donc parmi tous les tests de niveaux inférieurs à α, c’est-à-dire tels que :
sup Eθ (ψ) ≤ α.
θ≤θ0
Il ne reste enfin qu’à montrer que ϕ est de seuil α.

Grâce au lemme de Neyman-Pearson, on sait que ϕ est sans biais, donc :
Eθ0 (ϕ) ≤ Eθ00 (ϕ).
Si on choisit θ0 = θ < θ0 et θ00 = θ0 , alors :
Eθ (ϕ) ≤ Eθ0 (ϕ) = α.
Par suite :
Eθ0 (ϕ) = sup Eθ (ϕ) ≤ α.
θ≤θ0
Remarque 18.3.2 1. Si on veut tester H0 = {θ ≥ θ0 } contre H1 = {θ < θ0 }, le

théorème reste vrai en changeant le sens des inégalités dans la définition de ϕ.
2. Dans le cas d’une famille exponentielle à un seul paramètre (avec s = 1), on
a:
f (x, θ00 ) c(θ00 )
= exp [T (x) (η(θ00 ) − η(θ0 ))] .
f (x, θ0 ) c(θ0 )
Par conséquent, si η(θ) est strictement monotone, on peut appliquer le théo-
rème précédent avec U = T (dans le cas strictement croissant) ou U = −T
(dans le cas strictement décroissant).
c Michel CARBON
Exemple 18.3.2 : Soit P = N (θ, 1)⊗n avec θ ∈ R. On veut tester θ ≤ θ0 contre

θ > θ0 . Il est aisé de calculer :
fθ2 (x1 , . . . , xn ) h n
2 2
i
= exp [n(θ2 − θ1 ) x] exp − (θ2 − θ1 ) ,
fθ1 (x1 , . . . , xn ) 2
1P n
avec x = xi . En utilisant la remarque (18.3.2) point 2 précédente, et le théorème
n i=1
connexe, on sait qu’alors le test de région critique : x > c est UPP à son niveau.
Ce niveau est :
√
α = Pθ0 (x > c) = P N > n(c − θ0 ) = P (N > Nα ),
où N suit une loi N (0, 1). On a donc finalement la région critique, définie par :
Nα
x > θ0 + √ .
n
C’est aussi le test de Neyman de niveau α pour tester ”θ = θ0 ” contre ”θ = θ1 ”

(θ1 > θ0 ).
18.4 Non existence de tests UPP pour tester cer-

taines hypothèses
Il s’agit ici de montrer qu’il n’existe pas de test uniformément le plus puissant
pour tester :
H0 : {θ1 ≤ θ ≤ θ2 } contre H1 : {θ < θ1 } ∪ {θ > θ2 }
Lemme 18.4.1 : Soit ϕ un test UPP au seuil α (avec 0 < α < 1) pour tester :
H0 : P = P 0 contre H1 : P = P 1 .
Si EP1 (ϕ) = α , alors : P0 = P1 .

Démonstration :
Soient l0 et l1 les densités respectives (ou les fonctions de masse) de P0 et P1 .
Considérons le test Ψ défini par : Ψ(x) ≡ α . Il est de seuil α. De plus : γ (Ψ) =
EP1 (Ψ) = α .
Or : γ (ϕ) = EP1 (ϕ) = α , par hypothèse. Donc Ψ, de seuil α, a même puissance
que ϕ. Ainsi, Ψ est lui aussi UPP au seuil α . Grâce au lemme de Neyman-Pearson
(iii), il est nécessairement de Neyman, donc l1 = k l0 sauf éventuellement sur un
ensemble de mesure de Lebesgue nulle.
Comme l0 et l1 sont des densités de probabilité, on a : k = 1 . Ainsi : l1 = l0
µ − p.p.. Donc P0 = P1 .
c Michel CARBON
18.5 Théorème de Neyman-Pearson généralisé 321
Lemme 18.4.2 : Soit ϕ un test défini dans un modèle identifiable à rapport de

vraisemblances strictement croissant en U par :
ϕ(x) = 1 pour U >c

ϕ(x) = γ pour U =c
ϕ(x) = 0 pour U <c
Alors, l’application : θ −→ Eθ (ϕ) est strictement croissante.

Démonstration :
0 00 0 00
Le test ϕ est UPP pour tester θ = θ contre θ = θ (θ < θ ) au seuil Eθ0 (ϕ) . ϕ
étant sans biais, sa puissance γ (ϕ) = Eθ00 (ϕ) est supérieure ou égale au niveau Eθ0 (ϕ)
. Mais, d’après le lemme 18.4.1, elle ne peut être égale, sinon on aurait Pθ0 = Pθ00 (ce
qui est impossible, vu l’hypothèse d’identifiabilité faite) . Donc : Eθ00 (ϕ) > Eθ0 (ϕ) .
Remarque 18.4.1 Le test ϕ est unilatéral ( voir le théorème de Lehmann) .
Venons-en à la démonstration de la non existence d’un test UPP de

H0 : {θ1 ≤ θ ≤ θ2 } contre H1 : {θ < θ1 } ∪ {θ > θ2 } :
0
Supposons qu’un tel test existe, alors, pour tout autre test ϕ , nous aurions :
0 % pour θ < θ1
Eθ (ϕ) ≥ Eθ (ϕ )
& pour θ > θ2
Donc ϕ serait aussi UPP pour tester H0 contre H10 : {θ < θ1 } ou contre H100 :
{θ > θ2 } .
Ce sont deux tests unilatéraux, et d’après le lemme 18.4.2, Eθ (ϕ) serait à la fois
strictement croissante et strictement décroissante par rapport à θ sur {θ1 ≤ θ ≤ θ2 },
ce qui est impossible.
18.5 Théorème de Neyman-Pearson généralisé

Soient P1 , ..., Pm , Pm+1 des probabilités sur l’espace des observations (X , A) où
X est supposé euclidien. On suppose que ces probabilités admettent respectivement
pour densités ou fonctions de masse f1 , ..., fm , fm+1 .
Le théorème que l’on va établir ci-dessous concerne
l’ensemble des fonctions
mesurables critiques ϕ : (X , A) −→ [0; 1] , B[0;1] (les fonctions critiques seront
appelées tests plus tard).
Théorème 18.5.1 Supposons qu’il existe une fonction critique ϕ satisfaisant l’en-
semble de contraintes :
E1 ϕ = c1 , ..., Em ϕ = cm (c1 , ..., cm étant des réels fixés) (18.4)
On notera C la classe des fonctions critiques vérifiant (18.4). On a alors les résultats
suivants :
c Michel CARBON
(i) (existence) Il existe, dans C , une fonction critique qui maximise Em+1 ϕ .
(ii) (condition suffisante) Une condition suffisante pour qu’un élément de C
maximise Em+1 ϕ est qu’il existe des constantes : k1 , ..., km telles que :
 m

P
ϕ(x) = 1 sur fm+1 (x) > ki fi (x)




 i=1
(18.5)

 Pm
 ϕ(x) = 0 sur fm+1 (x) < ki fi (x)


i=1
La forme (18.5) sera appelée Test de Neyman-Pearson généralisé.

(iii) Si un élément ϕ de C vérifie (18.5) avec k1 ≥ 0 , ..., km ≥ 0 , alors ϕ
maximise Em+1 ϕ parmi l’ensemble de toutes les fonctions critiques vérifiant : E1 ϕ ≤
c1 ,..., Em ϕ ≤ cm .
(iv) L’ensemble Cm de Rm défini par :
Cm = {(E1 ϕ, ..., Em ϕ) |ϕ fonction critique}
est convexe et fermé. Si c est un point intérieur de Cm , alors il existe des constantes
k1 , ..., km et un test de type Neyman-Pearon généralisé vérifiant les contraintes (18.4).
Et une condition nécessaire pour qu’une fonction critique ϕ de C maximise Em+1 ϕ
est que ϕ soit une test de type Neyman-Pearson généralisé, presque sûrement.
Démonstration : Elle est délicate et pourra être omise en première lecture.

(i) Le premier point utilise le lemme suivant donné ici sans démonstration.
Lemme 18.5.1 (théorème de compacité faible)
Soit µ une mesure σ-finie sur une espace mesurable (X , A). Alors, l’ensemble
des fonctions mesurables Φ : (X , A) −→ [0; 1] , B[0;1] est un compact pour la
topologie de la convergence faible.
Soit (ϕn ) une suite de fonctions de C telles que :

Z Z
ϕn fm+1 dµ −−−−→ sup ϕ fm+1 dµ.
n→+∞ ϕ∈C
Grâce au lemme (18.5.1) précédent, il existe une sous-suite (ϕni ) et une fonction
critique Φ telles que :
Z Z
ϕni fk dµ −−−−→ Φ fk dµ k = 1, ..., m + 1
i→+∞
Z Z
Alors Φ appartient à C et Φ fm+1 dµ = sup ϕ fm+1 dµ .
ϕ∈C
(ii) Soit ϕ0 dans C une autre fonction critique que la fonction ϕ de type test de
Neyman-Pearson généralisé.
c Michel CARBON
18.5 Théorème de Neyman-Pearson généralisé 323
Comme : ϕ = 1 ≥ ϕ0 sur {fm+1 (x) > m

P
i=1 ki fi (x)}, d’après (i) , on a :
Z Z m
!
X
0 0
(ϕ − ϕ ) fm+1 dµ = (ϕ − ϕ ) fm+1 − ki fi dµ ≥ 0
i=1
0
donc : Em+1 ϕ ≥ Em+1 ϕ .
(iii) SoitZ ϕ0 une autre fonction critique vérifiant : Ei ϕ0 ≤ ci ; i = 1, ..., m.
Alors : (ϕ − ϕ0 ) fi dµ ≥ 0 ; i = 1, ..., m .
Comme ϕ est une fonction critique de type de Neyman-Pearson généralisé, on
a: !
Z Xm
(ϕ − ϕ0 ) fm+1 − ki fi dµ ≥ 0
i=1
Z
Par conséquent, (ϕ − ϕ0 ) fm+1 dµ ≥ 0 , car les ki sont positifs.
D’où : Em+1 ϕ ≥ Em+1 ϕ0 .
(iv) La fermeture de Cm provient immédiatement du théorème de compacité faible
précédent.
La convexité de Cm est une conséquence du fait que si ϕ1 et ϕ2 sont deux fonctions
critiques, alors : αϕ1 + (1 − α) ϕ2 est aussi une fonction critique.
Dans la figure ci-dessous pour m = 2, Cm est représenté comme une surface plane
dans le carré de côté 1, tandis que Cm+1 est représenté comme un ballon de rugby
dans l’espace.
C = (c, 0) = (c1 , ..., cm , 0) est un point intérieur de Cm . Le segment [A, B] est
l’intersection de Cm+1 avec la verticale issue de C .
A = (c, c∗ ) = (c1 , ..., cm , c∗ ) et B = (c, c∗∗ ) = (c1 , ..., cm , c∗∗ ) .

bord de Cm+1
E3 (ϕ)

6

+

E2 (ϕ)
3

(1, 1)
(c, c∗∗ )
B= QQ
k

Q

Q

A = (c, c∗ )
Q
bord de Cm

C = (c, 0)

- E1 (ϕ)
c Michel CARBON
Notons (u1 , ..., um ) les coordonnées d’un point de Cm et (u1 , ..., um+1 ) les coordon-
nées d’un point de Cm+1 . Les points de Cm+1 dont les m premières coordonnées sont
c1 , ..., cm forment un intervalle fermé [A, B] avec A de coordonnées (c1 , ..., cm , c∗ ) et
B de coordonnées (c1 , ..., cm , c∗∗ ) .
On supposera, sans perte de généralité que : c∗ < c∗∗ .
L’hyperplan tangent à Cm+1 en B a pour équation :
m+1
X m
X
ki ui = ki ci + km+1 c∗∗ .
i=1 i=1
Il est au dessus de Cm+1 , B étant le seul point de contact avec Cm+1 .

Puisque c = (c1 , ..., cm ) est un point intérieur de Cm , le coefficient km+1 est
différent de zéro. Sinon, l’hyperplan contiendrait [A, B] , ce quiPest impossible ( sauf
si Cm+1 était d’intérieur vide, ce qui signifierait que fm+1 = m i=1 ki fi µ − p.p. ;
toute fonction critique alors serait du type Neyman-Pearson généralisé et (iv) serait
encore vrai ).
On peut alors choisir km+1 = 1 et remplacer ki par -ki pour i = 1, ..., m .
Alors, pour tout (u1 , ..., um+1 ) de Cm+1 , on a :
m
X m
X
um+1 − ki ui ≤ c∗∗ − ki ci
i=1 i=1
Soit ϕB une fonction critique telle que :
E1 ϕB = c1 , ..., Em ϕB = cm , Em+1 ϕB = c∗∗ ,
alors pour toute autre fonction critique ϕ telle que :

E1 ϕ = u1 , ..., Em ϕ = um , Em+1 ϕ = um+1 , on a :
Z m
! Z m
!
X X
ϕ fm+1 − ki fi dµ ≤ ϕB fm+1 − ki fi dµ .
i=1 i=1
Tout test ϕB est alors nécessairement de type Neyman-Pearson généralisé, car ,

pour maximiser le terme de droite si-dessus, il faut prendre :
fm+1 − Pm
P
ϕB = 0 quand i=1 ki fi < 0 et
ϕB = 1 quand fm+1 − mi=1 ki fi > 0 .
18.6 Tests d’hypothèses multiples bilatères

Nous allons établir quelques résultats de tests UPP pour certaines hypothèses
bilatérales.
c Michel CARBON
18.6 Tests d’hypothèses multiples bilatères 325
Théorème 18.6.1 Considérons le modèle (X , A, Pθ ; θ ∈ Θ) où Θ est un intervalle

réel. Supposons, de plus, que le modèle est exponentiel. Les densités ou fonctions de
masse des lois Pθ s’écrivent :
lθ (x) = C(θ) · h(x) · exp [η (θ) · T (x)] ,
où on supposera η (θ) strictement croissante.

Considérons les hypothèses : (θ1 < θ2 )
H0 : θ ≤ θ1 ou θ ≥ θ2
H1 : θ1 < θ < θ2
Alors, pour tester H0 contre H1 , il existe un test ϕ de la forme :


 1 si c1 < T (x) < c2
ϕ (x) = 0 si T (x) < c1 ou T (x) > c2
γi si T (x) = ci ; i = 1, 2 .

où les γi et ci sont déterminés par : Eθ1 (ϕ) = Eθ2 (ϕ) = α et ce test ϕ est UPP au
seuil α .
Démonstration :
(i) Etudions d’abord l’ensemble D des points (Eθ1 (ϕ), Eθ2 (ϕ)) lorsque ϕ décrit
l’ensemble des fonctions critiques. Cet ensemble D est contenu dans [0; 1]2 car ϕ est
à valeurs dans [0; 1]. D contient aussi la diagonale de [0; 1]2 car tout point de la
diagonale correspond à un test Ψ ≡ α, 0 ≤ α ≤ 1.
Cet ensemble D est convexe, car, pour tout couple de tests ϕ1 et ϕ2 et tout λ
(0 ≤ λ ≤ 1) , λϕ1 + (1 − λ) ϕ2 est encore un test.
Pour tout test de Neyman de niveau Eθ1 (ϕ) = α, UPP au seuil α pour tester :
H0 : Pθ = Pθ1 contre H1 : Pθ = Pθ2 , la puissance Eθ2 (ϕ) est strictement supérieure
à α, à moins que Pθ1 = Pθ2 (voir lemme 18.4.1), ce qui est exclus puisque η est
strictement croissante.
Il en est de même en testant : H0 : Pθ = Pθ2 contre H1 : Pθ = Pθ1 . Cela permet
de conclure , avec la convexité de D, que, pour tout α ∈ ]0; 1[ , le point (α, α) est
intérieur à D (D est appelé le diagramme des puissances) .
(ii) Soit θ1 < θ0 < θ2 . D’après le lemme de Neyman-Pearson généralisé, tout test
qui maximise Eθ0 (ϕ) sous les contraintes Eθ1 (ϕ) = Eθ2 (ϕ) = α est de la forme :

 1 si lθ0 (x) > k1 · lθ1 (x) + k2 · lθ2 (x)
ϕα =
0 si lθ0 (x) < k1 · lθ1 (x) + k2 · lθ2 (x)

Ainsi : ϕα = 1, si :
C(θ0 ) · h(x) · exp [η (θ0 ) · T (x)] > k1 · C(θ1 ) · h(x) · exp [η (θ1 ) · T (x)]
+k2 · C(θ2 ) · h(x) · exp [η (θ2 ) · T (x)] ,
c Michel CARBON
ou encore si :
C(θ1 )
1 > k1 · 0
· h(x) · exp [(η (θ1 ) − η (θ0 )) · T (x)]
C(θ )
C(θ2 )
+k2 · · h(x) · exp [(η (θ1 ) − η (θ0 )) · T (x)] ,
C(θ0 )
soit encore :
a1 · exp [b1 · T (x)] + a2 · exp [b2 · T (x)] < 1 (18.6)
C(θ1 ) C(θ2 )
avec : a1 = k1 · 0
; a2 = k2 · ; b1 = η (θ1 ) − η (θ0 ) < 0 ;
C(θ ) C(θ0 )
et b2 = η (θ2 ) − η (θ0 ) > 0 .
On ne peut avoir à la fois a1 et a2 négatifs, sinon k1 et k2 seraient tous deux
négatifs, et alors ϕα serait toujours égal à 1, et on aurait Eθ1 (ϕα ) = α = 1 , ce qui
est exclus (un seuil α pour un test est toujours choisi tel que : 0 < α < 1).
On ne peut avoir a1 > 0 et a2 < 0 , ou que l’un des deux soit nul, sinon
a1 · exp [b1 · T (x)] + a2 · exp [b2 · T (x)] serait strictement monotone en T . D’après le
lemme 18.4.2, l’application : θ −→ Eθ (ϕα ) est strictement monotone, ce qui contredit
l’énoncé : Eθ1 (ϕ) = Eθ2 (ϕ) = α .
Finalement, on a nécessairement : a1 > 0 et a2 > 0 . (donc k1 > 0 et k2 > 0).
Une étude de la fonction : y(t) = a1 · exp [b1 · t] + a2 · exp [b2 · t] donne le tableau de
variations suivant :
t −∞ t0 +∞
y’ - 0 +
y & %

1 −a1 b1
avec : t0 = ln .
b2 − b1 a2 b 2
Ainsi l’inégalité (18.6) équivaut à : c1 < T (x) < c2 ; et donc ϕα = 1 si

c1 < T (x) < c2 .
Donc ϕα est bien du type indiqué.
(iii) Il reste à montrer que le test trouvé en (ii) est bien de seuil α .
Soit θ00 < θ1 , d’après le théorème de Neyman-Pearson généralisé (ii), un test ϕ0α
tel que :  0
 ϕα = 1 pour lθ00 (x) < k10 · lθ1 (x) + k20 · lθ2 (x)
ϕ0α = 0 pour lθ00 (x) > k10 · lθ1 (x) + k20 · lθ2 (x)

avec : Eθ1 (ϕ0α ) = Eθ2 (ϕ0α ) = α , minimise Eθ00 (ϕ) sous les contraintes Eθ1 (ϕ) =
Eθ2 (ϕ) = α (en fait, on applique le théorème de Neyman-Pearson généralisé (ii) à
1 − ϕ) .
c Michel CARBON
18.6 Tests d’hypothèses multiples bilatères 327
Le modèle étant exponentiel, alors ϕ0α = 1 si :
C(θ00 ) · h(x) · exp [η (θ00 ) · T (x)] < k10 · C(θ1 ) · h(x) · exp [η (θ1 ) · T (x)]
+k20 · C(θ2 ) · h(x) · exp [η (θ2 ) · T (x)] µ − p.p.
D’où :
C(θ00 )
· h(x) · exp [(η (θ00 ) − η (θ1 )) · T (x)]
k10 · C(θ1 )
(18.7)
k20 · C(θ2 )
<1+ · h(x) · exp [(η (θ2 ) − η (θ1 )) · T (x)]
k10 · C(θ1 )
On peut remarquer que k10 ne peut être nul, sinon on aurait :
C(θ00 ) · h(x) · exp [η (θ00 ) · T (x)] < k20 · C(θ2 ) · h(x) · exp [η (θ2 ) · T (x)]
C(θ2 )
⇐⇒ 1 < k20 · · h(x) · exp [η (θ2 ) − η (θ00 ) · T (x)]
C(θ00 )
L’expression a001 ·exp [b1 · T (x)] avec b1 > 0 serait strictement croissante en T . Et,
d’après le lemme 18.4.2, l’application : θ −→ Eθ (ϕ0α ) serait strictement croissante
en θ, ce qui contredirait : Eθ1 (ϕ0α ) = Eθ2 (ϕ0α ) = α .
L’inégalité (18.7) peut s’écrire :
a01 exp [b01 · T (x)] + a02 exp [b02 · T (x)] < 1 (18.8)
C(θ00 ) k20 · C(θ2 )

avec : a01 = a02 = −
k10 · C(θ1 ) k10 · C(θ1 )
b01 = η (θ00 ) − η (θ1 ) et b02 = η (θ2 ) − η (θ1 ) .
On se retrouve exactement comme dans la situation (ii) . Un raisonnement simi-

laire prouve alors que : a01 > 0 et a02 = 0, donc que k10 > 0 et k20 < 0 .
On a ainsi remarqué que la forme du test ϕ0α est identique à celle du test ϕα ,
sous les mêmes contraintes. Autrement dit, ϕα est un test qui minimise Eθ00 (ϕ) sous
la contrainte Eθ1 (ϕ) = Eθ2 (ϕ) = α .
En considérant le test constant : ϕ ≡ α , on a : Eθ00 (ϕ) ≤ α , avec Eθ1 (ϕ) =

Eθ2 (ϕ) = α . On a ainsi prouvé que : sup Eθ1 (ϕ) ≤ α .
θ≤θ1
On démontrerait également, comme cela a été également fait au début de (iii),

que sup Eθ1 (ϕ) ≤ α .
θ≥θ2
Donc ϕα est un test de seuil α , qui maximise Eθ (ϕ) pour tout θ ∈ Θ1 .
c Michel CARBON
18.7 Tests sans biais

Considérons le modèle paramétrique X , A, (Pθ )θ∈Θ et le problème général de
test :
H0 : θ ∈ Θ0 contre H1 : θ ∈ Θ1
On supposera ici que : Θ = Θ0 + Θ1 .
On rappelle qu’un test ϕ est sans biais si, simultanément, on a :


 γ (ϕ, θ) ≤ α , ∀ θ ∈ Θ0
γ (ϕ, θ) ≥ α , ∀ θ ∈ Θ1

On a également vu qu’un test UPP est sans biais. Nous allons voir que, quand il
n’existe pas de test UPP pour une certaine classe de problèmes, il peut exister des
tests UPP si l’on se restreint à la classe des tests sans biais.
Un test UPP dans la classe des tests sans biais sera appelé test UPPSB.
Quand Eθ (ϕ) est une fonction continue en θ, la condition de sans biais implique
que :
Eθ (ϕ) = α , ∀ θ ∈ Θ∗ = Θ0 ∩ Θ1 . (18.9)
(Θ∗ est la frontière commune à Θ0 et Θ1 ).
Cela conduit à la définition suivante :
Définition 18.7.1 Tout test ϕ tel que : Eθ (ϕ) =α , pour tout θ de Θ∗ est dit
α-semblable sur Θ∗ .
Le lemme suivant sera fort utile dans la suite :
Lemme 18.7.1 Si les lois Pθ sont telles que, pour tout test ϕ, la fonction de θ :
Eθ (ϕ) est continue , si ϕ0 est un test UPP parmi les tests α-semblables sur Θ∗ ,
vérifiant (18.9), de seuil α, alors ϕ0 est UPPSB.
Démonstration :
La classe des tests satisfaisant (18.9) contient la classe des tests sans biais, et
donc ϕ0 est au moins uniformément plus puissant que tout autre test sans biais au
seuil α. D’autre part, ϕ0 est sans biais car il est au moins uniformément plus puissant
que le test trivial : Φ (x) ≡ α .
c Michel CARBON
18.8 Cas des modèles exponentiels à un paramètre 329
18.8 Cas des modèles exponentiels à un paramètre

On considère ici un modèle exponentiel X , A, (Pθ )θ∈Θ à un seul paramètre,
dont la densité s’écrit :
fθ (x) = C (θ) · exp [θ · T (x)] · h(x)
On supposera de plus que Θ = H , l’espace naturel des paramètres, est un

intervalle ouvert de R.
On considère le problème de test :
H0 : { θ1 ≤ θ ≤ θ2 } contre H1 : θ < θ1 ou θ > θ2
Théorème 18.8.1 Dans le cadre précédent, il existe un test UPPSB au seuil α

(avec 0 < α < 1) tel que :


 1 quand T (x) < c1 ou T (x) > c2



Φ (x) = γi quand T (x) = ci , i = 1, 2 (18.10)




0 quand c1 < T (x) < c2

où les constantes γi et ci sont déterminées par :


 Eθ0 (Φ (X)) = α
(18.11)
Eθ0 (T (X) · Φ (X)) = α · Eθ0 (Φ (X))

Démonstration :
Il faut déjà remarquer , grâce aux résultats du chapitre 1, que Eθ (Φ (X)) est
continue en θ. Ici, Θ∗ = {θ1 , θ2 }. Considérons tout d’abord le problème de maximiser
Eθ (Φ (X)) pour θ ∈ / [θ1 , θ2 ], satisfaisant (18.11).
Si on reformule le problème de test avec 1 − Φ(x) du théorème précédent,
on
sait que 1 − Φ existe au seuil 1 − α pour tester : θ ≤ θ1 ou θ ≥ θ2 contre
{ θ1 < θ < θ2 } , et que, pour tout θ < θ1 ou θ > θ2 , il minimise Eθ (Ψ) sous les
contraintes Eθ1 (Ψ) = Eθ2 (Ψ) = 1 − α .
Ainsi, Φ est de niveau inférieur ou égal à α, et maximise Eθ (Ψ) sous les contraintes
Eθ1 (Ψ) = Eθ2 (Ψ) = 1 − α pour tout θ < θ1 ou θ > θ2 . Donc Φ est UPP parmi
les tests α-semblables sur la frontière Θ∗ . Il suffit enfin d’appliquer le lemme précé-
dent pour conclure que Φ est UPPSB.
Un autre problème, proche du précédent est celui du test :
H0 : θ = θ0 contre H1 : θ 6= θ0 .
c Michel CARBON
Théorème 18.8.2 Dans le cadre précédent, il existe un test UPPSB au seuil α

(0 < α < 1) tel que :


 1 quand T (x) < c1 ou T (x) > c2



Φ (x) = γi quand T (x) = ci , i = 1, 2 (18.12)




0 quand c1 < T (x) < c2

où les constantes γi et ci sont déterminées par :

 Eθ0 (Φ (X)) = α
(18.13)
Eθ0 (T (X) · Φ (X)) = α · Eθ0 (Φ (X))

Remarque 18.8.1 Un calcul facile montre que la dernière condition dans (18.13)
signifie que la dérivée de Eθ (Φ) est nulle en θ0 .
18.9 Tests gaussiens
Compte-tenu de l’importance des lois gaussiennes, nous indiquons ci-dessoussous

forme de tableau les principaux tests les concernant.
Il faut bien noter que ces tests n’ont de sens que si les échantillons sont effecti-
vement gaussiens, et ne servent à rien sans cette hypothèse que les esprits simplifi-
cateurs et pressés oublient souvent.
Nous indiquerons, pour chaque test, l’hypothèse ou les hypothèses à tester, la

région critique associée, la loi utilisée pour déterminer les constantes de la région
critique, les qualités éventuelles du test.
Il faut également aussi noter que la région de rejet est toujours de bon sens.
c Michel CARBON
18.9 Tests gaussiens 331
Hypothèses à tester Région critique Loi utilisée Qualités

m ≤ m0 vs. m > m0 ; X−m0
N (0, 1) UPP
avec σ 2 connu σ
m = m0 vs. m 6= m0 ; √
n

X − m0 > k N (0, 1) UPPSB
avec σ 2 connu σ
m ≤ m0 vs. m > m0 ; √
n X−m 0
>k Stn−1 UPPSB
avec σ 2 inconnu S0
m = m0 vs. m 6= m0 ; √ |X−m0 |
n S0 > k Stn−1 UPPSB
avec σ 2 inconnu
σ ≤ σ02 vs. σ 2 > σ02
2 P (Xi −X )2
σ02
>k χ2n−1 UPP
avec m inconnu
σ = σ02 vs. σ 2 6= σ02
2 P (Xi −X )2
σ02
∈
/ [C1 , C2 ] χ2n−1 UPPSB
avec m inconnu
Echantillons indépendants
(X1 , ...Xn1 ) , (Y1 , ..., Yn2 )
S102
N (m1 , σ12 ) , N (m2 , σ22 ) S202
∈
/ [C1 , C2 ] F(n1 −1,n2 −1) UPPSB
σ12 = σ22 vs σ12 6= σ22
avec m1 , m2 inconnus
√

|X−Y |
Echantillons indépendants A √
B
>k
(X1 , ...Xn1 ) , (Y1 , ..., Yn2 ) où
N (m1 , σ12 ) , N (m2 , σ22 ) A= n1 +n2 −2
1
Stn1 +n2 −2 UPPSB
+ n1
σ12 = σ22 = σ 2 inconnu n1 2
B= (n1 − 1) S102 +
m1 = m2 vs. m1 6= m2
(n2 − 1) S202
Exemple 1 (expérience de Weldon). On considère un dé à 6 faces. On s’intéresse

1
au nombre de fois où on a sorti le ”5” ou le ”6”. Si le dé est équilibré, on a : m = .
3
Weldon a fait une expérience, il a lancé un dé n = 315 672 fois et enregistré 106 602
fois une sortie de ”5” ou de ”6”. La fréquence observée est ici p = 0, 3377 (proche
de 1/3). Le nombre élevé permet d’assimiler la loi binomiale à une loi normale.
Cherchons à tester l’hypothèse d’équilibre, c’est-à-dire :
1 1
m= contre m 6= ,
3 3
avec σ 2 inconnu. La région critique C est de la forme :
√

1
 

 , n − 1 xn −



n 3 
C = (x1 , . . . , xn ) ∈ IR >K ,

 sn 

 
X − m0
où K est déterminé par P 1 (C) = α. On sait de plus que T = suit une
3
Sn
√
n−1
loi de Student à (n − 1) d.d.l. Pour n grand (c’est le cas ici), T suit, en bonne
c Michel CARBON
approximation une loi normale centrée réduite. Pour α = 5 %, on a par exemple :

K = 1, 96. Pour α = 1 %, on a : K = 2, 5758. Ici le T observé vaut :
0, 3377 − 0, 3333
Tobs = r = 5, 2273.
0, 3377(1 − 0, 3377)
315 672 − 1
Donc on rejette (à 5 % et à 1 %) le fait que le dé soit bien équilibré. Ce test est UPP
sans biais.
Exemple 2 (au bord de la rupture !).

1. Un fabricant de cordes affirme que les objets qu’il produit ont une tension
moyenne de rupture d’au moins 300 kg. Peut-on admettre le bien-fondé de son
affirmation (au niveau 5 %) si des expériences faites sur 10 cordes ont donné
pour tension de rupture (exprimée en kg) :
251 247 255 305 341

324 329 345 392 289
(on considèrera que la tension de rupture suit une loi gaussienne).

L’hypothèse à tester est :
m ≥ 300 contre m < 300,
avec σ 2 inconnu. La région critique a pour forme :

√ xn − 300

n
C = (x1 , . . . , xn ) ∈ IR n <K .
s0n
X n − 300 X n − 300
Bien sûr, T = = 0 suit une loi de Student à (n − 1) d.d.l.
Sn S
√ √ n
n−1 n
et K se détermine par :
P300 (C) = 0, 05 ⇔ P (T < K) = 0, 05.
Ici : K = −1, 833. Calculons :

1
xn = (251 + · · · + 289) = 307, 8
10
1 P 2 1
s2n = xi − x2n = (2512 + · · · + 2892 ) − 307, 82 = 2 036.
n 10
On a donc :
307, 8 − 300
Tobs = r = 0, 5186.
2 036
9
On accepte donc, au risque 5 %, l’affirmation du fabricant. Ce test est UPP
sans biais.
c Michel CARBON
18.9 Tests gaussiens 333
2. Le fabricant indique que l’écart-type de la tension de rupture ne dépasse pas

30 kg. Tester cette affirmation au seuil 5 %.
Il s’agit de tester :
σ ≤ 30 = σ0 contre σ > 30,
avec m inconnu. La région critique est de la forme :

2
n nsn
C = (x1 , . . . , xn ) ∈ IR >K .
σ02
nSn2
Or, T = 2
suit, sous H0 , une loi du χ2 à (n − 1) d.d.l. . K se détermine
σ0
par : P (T > K) = 5 %. Ici, K = 16, 9. Le T observé vaut :
10 × 2 036
tobs = = 22, 62.
900
On doit donc rejeter l’hypothèse que σ ≤ 30 kg. Ce test est UPP.

3. Le fabricant affirme que l’écart-type de la tension de rupture est de 30 kg.
Tester cette affirmation au seuil 5 %.
L’hypothèse à tester est :
σ = 30 = σ0 contre σ 6= 30,
avec m inconnu. La région critique est de la forme :
ns2n

n
C= (x1 , . . . , xn ) ∈ IR ∈
/ [c2 , c1 ] .
σ02
nSn2
T = 2 suit une loi du χ2 à (n − 1) d.d.l. c1 et c2 se déterminent par :
σ0
P (T < c2 ) + P (T > c1 ) = 0, 05.
On choisit c1 et c2 sous la contrainte supplémentaire :
P (T < c2 ) = P (T > c1 ) = 0, 025.
Or : P (T > c1 ) = 0, 025 donne c1 = 19 et
P (T < c2 ) = 1 − P (T ≥ c2 ) = 0, 025 ⇒ P (T ≥ c2 ) = 0, 972
donne c2 = 2, 7. Ainsi c = [2, 7; 19].
Le T observé vaut toujours Tobs = 22, 62. Donc, on rejette l’hypothèse que σ = 30
kg.
c Michel CARBON
18.10 Test du rapport des vraisemblances

Dass le lemme de Neyman-Pearson, pour tester une hypothèse simple θ = θ0
contre une hypothèse simple θ = θ1 (on rejettait H0 ), on a vu qu’on privilégiait
θ = θ1 si cette valeur paraît plus vraisemblable que θ = θ0 , c’est-à-dire si le rapport
l(X, θ1 )
est grand.
l(X, θ0 )
Plaçons-nsous dans le cadre paramétrique réél, de dimension r (Θ ⊂ Rr ), avec
les hypothèses composites suivantes :

 H0 : θ ∈ Θ0
H1 : θ ∈ Θ1

sup l(x, θ)
θ∈Θ0
On choisira donc, de manière analogue alors H1 si le rapport est assez
sup l(x, θ)
θ∈Θ1
sup l(x, θ)
θ∈Θ0
petit, c’est-à-dire si le rapport est assez petit.
sup l(x, θ)
θ∈Θ
Définition 18.10.1 On appelle rapport des maxima de vraisemblances la quantité :

sup l(x, θ)
θ∈Θ0
λ=
sup l(x, θ)
θ∈Θ
C’est cette quantité qui intervient dans le test dit test du rapport des vraisem-
blances.
On dira que, dans le test de H0 contre H1 , on effectue un test du rapport des
vraisemblances en prenant une région critique de la forme : W = {λ ≤ k}.
Si θ̂0 est l’estimateur du maximum de vraisemblance de θ lorsque que θ ∈ Θ0 , et
si θ̂ est l’estimateur du maximum de vraisemblance de θ lorsque que θ ∈ Θ, on a :
l(x, θ̂0 )
λ=
l(x, θ̂)
L’utilisation de λ est asymptotique, et justifiée par le résultat suivant :
Théorème 18.10.1 Considérons le test H0 : θ1 = θ1∗ , · · · , θp = θp∗ (p ≤ r) contre
H1 = H0c .
La fonction −2 ln λ est asymptotiquement pivotale sous H0 (i.e. ne dépend pas
de θ), et suit asymptotiquement une loi du χ2p .
La région critique du test est :
W = {−2 ln λ ≥ a} ,
où a est le fractile d’ordre 1 − α du χ2p .
c Michel CARBON
18.10 Test du rapport des vraisemblances 335
Exemple 18.10.1 Soient X1 , X2 , · · · , Xn n variables aléatoires i.i.d. de loi de Pois-

son P(θ), avec θ > 0. On veut tester :

 H0 : θ = θ0
H1 : θ 6= θ0

au seuil 0,05. La vraisemblance s’écrit :

n
X
xi
θ i=1
l(x, θ) = e−nθ Qn
i=1 (xi !)
— Sous H0 : θ̂0 = θ0
— Sur R+ : θ̂ = x
Ainsi : nx
−n(θ0 −x) θ0
λ=e
x
Par suite :

θ0
−2 ln λ = 2n(θ0 − x) − 2nx ln
x

θ0 − x
= 2n(θ0 − x) − 2nx ln 1 +
x
Sous H0 , si n est grand, x est proche de θ0 , et on peut alors écrire :
(θ0 − x)2
−2 ln λ ∼ n ,
x
qui suit un χ21 .
La région critique du test est donc :
(θ0 − x)2

W = n ≥a ,
x
où a est le fractile d’ordre 0,95 du χ21 ou bien :

( r )
x
w= |θ0 − x| ≥ 1, 96
n
c Michel CARBON
c Michel CARBON
Chapitre 19
Tests et intervalles de confiance
J’avais raison de ne pas me soucier des applications [de mon théorème] : elles
vinrent plus tard.
Jacques Hadamard
Nous allons maintenant examiner des tests et des intervalles de confiance basés
sur des estimateurs efficaces d’un paramètre θ (qui peut être un vecteur).
Dans ce chapitre, nous allons examiner les tests et intervalles de confiance de
Wald, du rapport de vraisemblances et du score, et nous commencerons par le cas
d’un seul paramètre réel θ.
19.1 Cas d’un seul paramètre réel θ

19.1.1 Test de Wald
On suppose que les variables aléatoires X1 , · · · , Xn sont i.i.d. et on considère un
estimateur efficace θ̂n de θ au sens où il satisfait à :
√
L
n θ̂n − θ −−−−→ N (0, I −1 (θ)) , (19.1)
n→+∞
comme par exemple un estimateur θ̂n du maximum de vraisemblance sous les hypo-
thèses usuelles du théorème 11.3.10 .
Si Iˆn est un estimateur convergent de I(θ), il s’ensuit que :
√ q
L
n θ̂n − θ Iˆn −−−−→ N (0, 1) , (19.2)
n→+∞
et que :
uα/2 uα/2
θ̂n − p < θ < θ̂n + p (19.3)
n Iˆn n Iˆn
est un intervalle de confiance pour θ avec un niveau de confiance de 1 − α. Ici , uα/2
est tel que P (U > uα/2 ) = α/2 où U une loi normale centrée réduite.
337
338 CHAPITRE 19. TESTS ET INTERVALLES DE CONFIANCE
Si I(θ) est unefonction

continue de θ, comme cela est usuellement le cas, on sait
alors que : Iˆn = I θ̂n est un estimateur convergent de I(θ).
Un autre estimateur convergent pourrait être suggéré par le fait que :
2
∂
I(θ) = −E ln fθ (X)
∂θ2
Sous des hypothèses de régularité standards, on peut montrer que :
1 00 P
− ln θ̂n −−−−→ I(θ),
n n→+∞
et alors, le membre de gauche de l’expression ci-dessus fournit un estimateur convergent

de I(θ).
Pour tester l’hypothèse :

H0 : θ = θ0 (19.4)
contre l’hypothèse alternative bilatérale :
H1 : θ 6= θ0 (19.5)
au niveau asymptotique α, alors (19.3) conduit au test de Wald dont la région

d’acceptation est :
uα/2 uα/2
θ0 − p < θ̂n < θ0 + p , (19.6)
n Iˆn n Iˆn
ou, de manière équivalente, de région de rejet :
uα/2
θ̂n − θ0 ≥ p . (19.7)

n Iˆn
Comme le calcul du niveau de ce test est basé uniquement sur la loi de θ̂n en
θ0 , on peut alors, dans (19.6) et dans (19.7) remplacer Iˆn par I (θ0 ), et rejeter H0
lorsque : uα/2
θ̂n − θ0 ≥ p . (19.8)

n I (θ0 )
Clairement, si on cherche à tester H0 contre l’hypothèse alternative unilatérale
θ > θ0 plutôt que contre θ 6= θ0 , alors la région de rejet sera remplacée par :
uα
θ̂n − θ0 ≥ p . (19.9)
n I (θ0 )
19.1.2 Test du rapport de vraisemblances

Une autre méthode pour tester (19.4) est d’utiliser le test du rapport de vrai-
semblances, qui rejette l’hypothèse nulle H0 quand le maximum de vraisemblance
divisé par la vraisemblance sous H0 :

Ln θ̂n
(19.10)
Ln (θ0 )
c Michel CARBON
19.1 Cas d’un seul paramètre réel θ 339
est suffisamment grand. Dans l’expression ci-dessus, θ̂n est l’estimateur du maximum
de vraisemblance.
En prenant le logarithme, ceci est équivalent à rejeter H0 lorsque :

∆n = ln θ̂n − ln (θ0 ) (19.11)
est suffisamment grand. Là encore, ln désigne le logarithme de la vraisemblance L.

Le résultat suivant explicite le comportement asymptotique de ∆n :
Théorème 19.1.1 Sous les hypothèses habituelles réclamées pour le comportement

asymptotique du maximum de vraisemblance (voir le théorème 11.3.10), si θ̂n désigne
ce maximum de vraisemblance, alors sous H0 , 2∆n a pour loi asymptotique une loi
du χ2 à 1 degré de liberté.
Démonstration :
Pour tout (x1 , · · · , xn ), on exprime ln θ̂n et ln0 (θ0 ) par un développement de
Taylor pour obtenir :
1 2
ln θ̂n − ln (θ0 ) = θ̂n − θ0 ln0 (θ0 ) + θ̂n − θ0 ln00 (θn∗ ) . (19.12)
2

Comme on sait que : ln0 θ̂n = 0, on en déduit que :
1 2
− ln0 (θ0 ) = θ̂n − θ0 ln00 (θ0 ) + θ̂n − θ0 ln000 (θn∗∗ ) , (19.13)
2
où θn∗ et θn∗∗ sont situés entre θ0 et θ̂n .

En portant (19.13) dans (19.12), on obtient :
2 l00 (θ ) 1 l00 (θ∗ ) 1 l000 (θ∗∗ )
n 0 n n
∆n = −n θ̂n − θ0 − + θ̂n − θ0 n n . (19.14)
n 2 n 2 n
Le troisième terme tend vers 0 en probabilité, ln00 (θ0 ) /n et ln00 (θn∗ )/n tendent tous les
deux vers −I (θ0 ) en probabilité. Il s’ensuit alors que 2∆n a la même loi limite que :
2
n θ̂n − θ0 I (θ0 ) , (19.15)
ce qui permet de conclure la preuve.
On a même prouvé unpeu plus que le théorème, c’est-à-dire que les statistiques
2
de test 2∆n et n θ̂n − θ0 I (θ0 ) sont asymptotiquement équivalentes sous H0 au
sens où leur différence tend vers 0 en probabilité. Il en découle alors que le test de
Wald et le test du rapport de vraisemblances sont asymptotiquement équivalents.
c Michel CARBON
Exemple 19.1.1
Soient X1 , · · · , Xn des variables aléatoires i.i.d. de loi N (θ, 1). On a déjà vu que :
θ̂n = X n . Pour tester l’hypothèse nulle : θ = 0, on peut remarquer que :
n √
1X
ln (θ) = − (xi − θ)2 − n ln 2π
2 i=1
et alors : n n
X X
2∆n = x2i − (xi − x)2 = nx2 .
i=1 i=1
Le test du rapport de vraisemblances alors a une zone de rejet définie par :
nx2 ≥ vα
où vα est tel que P (χ21 > vα ) = α.

Puisque I (θ0 ) = 1, le test de Wald a pour zone de rejet :
√
n |x| ≥ uα/2 .
Dans ce cas, les deux zones de rejet ne sont pas seulement asymptotiques, elles sont
rigoureusement les mêmes et leur niveau est exactement α.
L’adaptation du test de rapport de vraisemblances au cas unilatéral θ > θ0 est

moins simple que dans le cas du test de Wald.
19.1.3 Test du score

Les deux tests précédents, test de Wald et test du rapport de vraisemblance,
nécessitent l’évaluation du maximum de vraisemblance θ̂n . On va considérer main-
tenant un troisième test, le test de Rao ou test du score, pour lequel cela n’est pas
nécessaire.
Le test de H0 : θ = θ0 contre H1 : θ > θ0 est localement le plus puissant s’il
maximise la pente γ 0 (θ0 ) de la fonction puissance γ(θ) en θ = θ0 .
Ce test rejette H0 pour de grandes valeurs de :
∂ n
X fθ0 (xi )
[fθ (x1 ) · · · fθ (xn )] |θ=θ0
∂θ
= 0
= ln0 (θ0 ) . (19.16)
fθ0 (x1 ) · · · fθ0 (xn ) i=1
f θ 0 (x i )
Or, on sait que :

1 L
√ ln0 (θ0 ) −−−−→ N (0, I(θ0 )) .
n n→+∞
La région de rejet localement la plus puissante est alors de la forme :

l0 (θ )
pn 0 ≥ uα (19.17)
n I (θ0 )
au niveau asymptotique α.
c Michel CARBON
19.1 Cas d’un seul paramètre réel θ 341
La région de rejet bilatérale correspondante est donnée par :
|l0 (θ )|
pn 0 ≥ uα/2 (19.18)
n I (θ0 )
Il est à noter que les tests du score et de Wald sont asymptotiquement équivalents,
ce qui provient du fait que :
1 √
P
− √ ln0 (θ0 ) − n θ̂n − θ0 I (θ0 ) −−−−→ 0 , (19.19)
n n→+∞
conséquence de résultats antérieurs.
Exemple 19.1.2
Considérons un échantillon théorique X1 , · · · , Xn provenant d’une loi logistique
de densité :
e(x−θ)
fθ (x) = 2 .
[1 + e(x−θ) ]
Dans ce cas précis, l’estimateur du maximum de vraisemblance n’a pas d’ex-
pression explicite, et donc les tests de Wald et du rapport de vraisemblances sont
évidemment difficiles, voire impossible à expliciter.
Cherchons, via un test du score, à tester H0 : θ = θ0 contre H1 : θ > θ0 .
Pour cette loi logistique, on a :
n
X n
X
1 + e(xi −θ)

ln (θ) = (xi − θ) − 2 ln
i=1 i=1
et n
X 2e(xi −θ)
ln0 (θ) = −n + (xi −θ)
.
i=1
1 + e
Un calcul direct donne : I(θ) = 1/3 pour tout θ.
Le test du score rejette alors H0 quand :
r n
3 X e(xi −θ0 ) − 1
≥ uα .
n i=1 e(xi −θ0 ) + 1
Les résultats obtenus pour les tests de Wald, du rapport de vraisemblances et du

score sont résumés dans le théorème suivant :
Théorème 19.1.2 Sous les hypothèses du théorème (19.1.1), le test de Wald (19.7),
le test du score (19.18) et le test du rapport de vraisemblances pour lequel ∆n défini
par (19.11) rejette H0 lorsque :
p
2∆n ≥ uα/2 , (19.20)
sont asymptotiquement équivalents sous H0 et ont tous un niveau asymptotique α.
c Michel CARBON
Ces trois tests différent quelque peu par leur commodité et leur degré d’interpréta-
tion.
Les tests du rapport de vraisemblances et de Wald nécessitent de calculer préa-

lablement un estimateur efficace θ̂n tandis que le test du score n’en a pas besoin,
étant donc le plus commode à utiliser de ce point de vue. D’autre part, le test de
Wald, étant basé sur une "studentisation" de la différence
p
θ̂n − θ0 n I (θ0 ) ,
est plus facilement

interprétable, et possède l’avantage que, après avoir remplacé
I (θ0 ) par I θ̂n , il permet de construire des intervalles de confiance pour θ.
Contrairement aux deux autres tests, le test de Wald a l’inconvénient d’être

seulement asymptotiquement invariant par reparamétrisation. Les deux autres tests
le sont exactement. Pour s’en assurer,
soit η = g (θ) avec g différentiable et stricte-
ment croissante. Alors η̂n = g θ̂n et grâçe à (19.16), on a :
p
p I(θ)
I ∗ (η) = . (19.21)
g 0 (θ) ,
Alors, la statistique du test de Wald pour tester η = η0 est :

h ip p g θ̂n − g(θ0 ) 1
g θ̂n − g(θ0 ) ∗
n I (η0 ) = n I (θ0 ) θ̂n − θ0 · 0 .
θ̂n − θ0 g (θ0 )
Le produit des deux derniers termes du produit du membre droit de l’expression

ci-dessus tend vers 1 lorsque θ̂n → θ0 .
Les tests de Wald, du score et du rapport de vraisemblances, qu’ils soient uni-

latères ou bilatères, sont convergents au sens où, pour toute alternative fixée, la
probabilité de rejeter tend vers 1 lorsque la taille de l’échantillon tend vers l’infini.
19.2 Cas d’un paramètre vectoriel θ de Rk

Dans ce chapitre, nous avons supposé jusqu’ici que le modèle dépendait d’une
seul paramètre θ réel. On va supposer maintenant que θ est un vecteur de dimension
k. On va chercher encore une fois à tester :
H0 : θ = θ0 = θ10 , · · · , θk0

(19.22)
contre H1 : θ 6= θ0 .
c Michel CARBON
19.2 Cas d’un paramètre vectoriel θ de Rk 343
19.2.1 Test de Wald

Les considérations ayant conduit au test de Wald (voir (19.7) se généralisent
facilement. Considérons un estimateur θ̂n = θ̂1n , · · · , θ̂kn de θ, efficace au sens où
il vérifie :
√ √
L
n θ̂1n − θ10 , · · · , n θ̂kn − θk0 −−−−→ N 0, I −1 (θ0 ) .

(19.23)
n→+∞
Alors, on en tire que la forme quadratique associée :

0 k X
X n
n θ̂n − θ I(θ) θ̂n − θ = n Iij (θ) θ̂in − θi θ̂jn − θj (19.24)
i=1 j=1
a pour loi limite une loi du χ2 à k degrés de liberté. Si vα est tel que P (χ2k > vα ) = α,
et si Iîj (θ) est un estimateur convergent de Iij (θ), alors les ellipsoïdes
k X
X n
n Iîj θ̂in − θi θ̂jn − θj < vα (19.25)
i=1 j=1
constituent les ensembles de confiance pour le vecteur θ avec une confiance asymp-
totique de 1 − α.
√ √
Dans (19.23), la loi conjointe des variables n θ̂1n − θ1 , · · · , n θ̂kn − θk
peut également être utilisée pour obtenir des intervalles de confiance simultanés
pour chacun des k paramètres θ1 , · · · , θk .
Une région d’acceptation pour tester H0 peut être obtenue en remplaçant θ par
θ0 dans (19.25), comme cela fut fait pour (19.6). Cependant, puisque le calcul du
niveau est basé sur la loi de θ̂n en θ0 , on peut maintenant remplacer Iîj par Iij (θ0 )
dans (19.25) et donc, en généralisant (19.7), on obtient le région de rejet du test de
Wald :
X k X n
Wn = n Iij (θ0 ) θ̂in − θi0 θ̂jn − θj0 ≥ vα (19.26)
i=1 j=1
au niveau asymptotique α.
19.2.2 Test du score

On cherche toujours à tester H0 (voir (19.22)). On sait que la loi conjointe des
statistiques de score, pour i = 1, · · · , k :

0 ∂
li (θ0 ) = ln (θ) ,
∂θi θ=θ0
sous des hypothèses d’existence usuelles, vérifie :

1 0 1 0 L
√ l1 (θ0 ) , · · · , √ lk (θ0 ) −−−−→ N (0, I (θ0 )) . (19.27)
n n n→+∞
c Michel CARBON
De ce comportement asymptotique, la forme quadratique associée est telle que le

test du score :
 
l10 (θ0 )
1 ..
Rn = (l10 (θ0 ) , · · · , lk0 (θ0 )) I −1 (θ0 )   ≥ vα (19.28)
 
n .
0
lk (θ0 )
a pour niveau asymptotique α.

Puisque n1 I −1 (θ) est la matrice de variances-covariances asymptotique de

θ̂1n − θ10 , · · · , θ̂kn − θk0 ,
alors (19.28) peut aussi s’écrire :

n X
X n
Rn = σij (θ0 ) li0 (θ0 ) lj0 (θ0 ) ≥ vα , (19.29)
i=1 j=1

où σij (θ0 ) est la covariance asymptotique entre les variables θ̂in − θi0 et θ̂jn − θj0 .
19.2.3 Test du rapport de vraisemblances

Si ∆n est défini comme dans (19.11), alors le théorème 19.1.1 se généralise comme
on pourrait l’espérer. De manière plus précise, sous les hypothèses du théorème
11.3.10, si θ̂n est l’estimateur du maximum de vraisemblance de θ, la loi de 2∆n a
pour loi-limite celle d’un χ2 à k degrés de liberté.
Tous ces résultats sont résumés et légèrement renforcés dans le théorème suivant
qui est une extension du théorème 19.1.2.
Théorème 19.2.1 Sous les hypothèses du théorème 11.3.10, les tests de Wald (19.26),
du score (19.29) et du rapport des vraisemblances où l’on rejette quand
2∆n ≥ vα (19.30)
sont asymptotiquement équivalents sous H0 et ont tous α comme niveau asympto-

tique.
Exemple 19.2.1
On considère n variables aléatoires X1 , · · · , Xn indépendantes et de même loi
N (ξ, σ 2 ).
On cherche ici à tester :
H0 : ξ = ξ0 , σ = σ0 . (19.31)
Les estimateurs du maximum de vraisemblance (voir l’exemple 11.1.2) sont :

n
1X 2
ξˆ = X ; 2
σ̂ = Xi − X (19.32)
n i=1
c Michel CARBON
19.3 Cas d’hypothèses composites 345
et la matrice d’information et son inverse valent respectivement :

2
2
1/σ 2 0 −1 2 σ 0
I ξ, σ = et I (ξ, σ ) = . (19.33)
0 1/(2σ 4 ) 0 2σ 4
Il s’ensuit que la statistique de Wald est :
n 2 n 2
Wn = 2 X − ξ0 + 4 σ̂ 2 − σ02 . (19.34)
σ0 2σ0
La statistique du score peut être déterminée de manière analogue. La statistique du
rapport de vraisemblances vaut ici :
2
n X − ξ0 nσ̂ 2 2 2

2∆n = + − n − n ln σ̂ − ln σ0 . (19.35)
σ02 σ02
L’équivalence asymptotique de ces tests statistiques sous H0 peut être obtenue direc-
tement en utilisant un développement de Taylor de ln σ̂ 2 − ln σ02 .
19.3 Cas d’hypothèses composites

L’hypothèse qui vient d’être étudiée, dans le cas de plusieurs paramètres, est
simple. Les lois, sous cette hypothèse, sont complètement spécifiées. On va mainte-
nant examiner le cas, beaucoup plus fréquent en pratique, où l’hypothèse nulle est
composite.
Supposons encore une fois que le paramètre θ est vectoriel : θ = (θ1 , · · · , θk ).
Cette fois, l’hypothèse nulle est de la forme :
H0 : g1 (θ) = a1 , · · · , gr (θ) = ar , 1 ≤ r < k. (19.36)
En reparamétrisant adéquatement, on testera plutôt l’hypothèse nulle :
H0 : θ1 = θ10 , · · · , θr = θr0 , 1 ≤ r < k. (19.37)
Pour tester H0 contre des alternatives telles que θi 6= θi0 pour au moins un i, on peut
utiliser la généralisation de la partie test du rapport de vraisemblances du théorème
19.1.2.
Théorème 19.3.1
Supposons
que les hypothèses du théorème 11.3.10 soient véri-
fiées, et que θ̂1n , · · · , θ̂kn sont des estimateurs convergents du maximum de vrai-
semblance du paramètre vectoriel (θ1 , · · · , θk ). Supposons de plus que les hypothèses
correspondantes valent pour le paramètre vectoriel (θr+1 , · · · , θk ) lorsque θi = θi0
ˆ ˆ
pour tout i = 1, · · · , r, et que θ̂r+1,n , · · · , θ̂k,n sont des estimateurs du maximum de
vraisemblance du paramètre vectoriel (θr+1 , · · · , θk ) sous H0 .
En généralisant (19.10), considérons la statistique du rapport de vraisemblances :

Lx θ̂n
, (19.38)
ˆ
Lx θ̂n
c Michel CARBON
ˆ 0 ˆ ˆ

0
où θ̂n = θ1 , · · · , θr , θ̂r+1,n , · · · , θ̂k,n . Alors, sous H0 , en posant :
ˆ

∆n = ln = ln θ̂n − ln θ̂n , (19.39)
la statistique 2∆n a pour loi-limite un χ2r .
Considérons les extensions des tests de Wald et du score pour tester l’hypothèse
(19.37), basés sur les comportements asymptotiques respectifs suivants :
√ √ X
(r)

L
n θ̂1n − θ1 , · · · , n θ̂rn − θr −−−−→ N 0, (θ) (19.40)
n→+∞
et
1 ∂ 1 ∂ L
ln (θ) −−−−→ N 0, I (r) (θ) ,

√ ln (θ), · · · , √ (19.41)
n ∂θ1 n ∂θr n→+∞
P(r)
où (θ) et I (r) (θ) sont respectivement les sous-matrices formées des coins en
haut à gauche, constituées de l’intersection
P des r premières rangées et colonnes de
la matrice de variances-covariances (θ) et de la matrice d’information I(θ).
Les formes quadratiques associées :
0 X(r) −1
n θ̂n − θ (θ) θ̂n − θ (19.42)
et
0
1 ∂ ∂ (r) −1 ∂ ∂
ln (θ), · · · , ln (θ) I (θ) ln (θ), · · · , ln (θ) (19.43)
n ∂θ1 ∂θr ∂θ1 ∂θr
suivent des lois du χ2 à r degrés de liberté.
c Michel CARBON
Chapitre 20
Tests d’ajustement
Un mathématicien est une machine pour transformer le café en théorèmes.

Paul Erdös
20.1 Introduction
Une question usuelle, concernant un échantillon X1 , · · · , Xn de variables i.i.d.,
est de vouloir tester si les Xi ont été tirés selon une loi spécifiée ou tirées dans une
famille de lois précises.
Une des difficultés dans ce type de tests est que la classe des hypothèses alterna-
tives est vraiment très large et ne peut plus être décrite par un modèle paramétrique.
En conséquence, bien que certains résultats asymptotiques d’optimalité soient ici pré-
sentés, ils sont assez isolés. Aucune théorie asymptotique optimale générale n’existe
en ce domaine.
À cause de l’importance du problème d’ajustement, on va tout de même consi-
dérer ce problème sans trop nous soucier de l’optimalité. Nous allons présenter les
principales méthodes et examinerons certaines de leurs forces et faiblesses.
Dans le but de simplifier un problème vraiment compliqué, on va considérer ici
le cas où X1 , · · · , Xn sont des variables aléatoires i.i.d. de loi P , et on cherchera
à tester l’hypothèse nulle H0 : P = P0 où P0 est une loi complètement spécifiée.
Bien que cette hypothèse ne soit pas fréquemment complètement vérifiée dans les
applications, il est possible de couvrir les principaux éléments du problème.
Dans le cas où les observations sont à valeurs réelles, on peut transformer le pro-
blème en utilisant la fonction de répartition F ; le problème revient alors à tester :
H0 : F = F0 . On pourra typiquement considérer le cas où F0 est la fonction de ré-
partition d’une loi uniforme sur [0, 1]. Ce cas précis peut être généralisé au problème
de tester l’hypothèse nulle que les X1 , · · · , Xn sont i.i.d. de fonction de répartition
F sur R. Pour ce faire, on définit Yi = F (Xi ), et alors les Yi sont i.i.d. de loi U[0, 1]
sous H0 . Le test consiste alors à tester l’hypothèse que les variables Y1 , · · · , Yn sont
i.i.d. de loi uniforme sur [0, 1].
347
348 CHAPITRE 20. TESTS D’AJUSTEMENT
Soit F̂n la fonction de répartition empirique définie par :

n
1X
F̂n (t) = 1{Xi ≤t} . (20.1)
n i=1
Le théorème de Glivenko-Cantelli (voir chapitre 5) affirme que F̂n converge presque

sûrement uniformément vers F :

p.s.
sup F̂n (t) − F (t) −−−−→ 0 (20.2)

t∈R n→+∞
Pour tester l’hypothèse nulle H0 : F = F0 , il est clair qu’on peut baser un test
statistique sur une mesure de l’écart entre F̂n et F0 . Si d désigne une métrique
quelconque sur l’espace des lois, alors d(F̂n , F0 ) pourrait servir de statistique de
test.
Un test classique d’un tel choix est d = dK , la métrique de Kolmogorov-Smirnov,
qui fut historiquement le premier test d’ajustement. Il est à noter qu’il est convergent
ponctuellement contre toute hypothèse alternative. Ce test sera étudié dans la sec-
tion 19.2 suivante. Bien sûr, d’autres choix sont possibles, comme la statistique de
Cramér-von Mises et celle de Anderson-Darling. En fait, ces derniers choix donnent
des tests plus puissants que le test de Kolmogorov-Smirnov. On terminera, dans la
section 19.5, par des tests de gaussianité.
Dans la section 19.4, on étudiera le classique test du χ2 , et on donnera ses pro-
priétés asymptotiques.
20.2 Test de Kolmogorov-Smirnov

Supposons que X1 , · · · , Xn sont n variables aléatoires i.i.d. de fonction de répar-
tition F , et considérons le problème de tester l’hypothèse nulle : H0 : F = F0 contre
H1 : F 6= F0 .
La statistique associée au test d’ajustement de Kolmogorov-Smirnov est :
√ √
Tn = sup n F̂n (t) − F0 (t) = n dK F̂n , F0 , (20.3)

t∈R
où dK est la distance de Kolmogorov-Smirnov :
dK (F, G) = sup |F (t) − G(t)|, .

t∈R
On peut remarquer que : dK (F, G) = 0 si et seulement si F = G.

La loi de Tn est la même pour toute fonction de répartition continue F . Notons
sn,1−α le quantile d’ordre (1 − α) de Tn . Le test de Kolmogorov-Smirnov rejette
l’hypothèse nulle si Tn > sn,1−α .
Étudions le comportement asymptotique de Tn . Pour cela, notons :
√ h i
Bn (t) = n F̂n (t) − F0 (t) . (20.4)
c Michel CARBON
20.3 Extensions du test de Kolmogorov-Smirnov 349
Pour chaque t, Bn (t) est une variable aléatoire réelle, et donc on peut considérer
Bn (.) comme un processus sur [0, 1], appelé processus empirique.
Grâce au théorème central-limite multivarié, sous H0 , alors pour tous t1 , · · · , tk ,
on a :
L
[Bn (t1 ), · · · , Bn (tk )] −−−−→ [B(t1 ), · · · , B(tk )] , (20.5)
n→+∞
où [B(t1 ), · · · , B(tk )] est P

de loi normale multivariée de moyenne nulle et de matrice
de variances-covariances dont le terme général σi,j est donné par :

F0 (ti ) (1 − F0 (ti )) si i = j
σi,j = (20.6)
F0 (min(ti , tj )) − F0 (ti )F0 (tj ) sinon
Par continuité, il s’ensuit que, pour t1 , · · · , tk , on a :

√
L
max n F̂n (ti ) − F0 (ti ) −−−−→ max |B(ti )| . (20.7)
1,··· ,k n→+∞ 1,··· ,k
Pour tout dire, B(.) peut être représenté comme un processus aléatoire sur [0, 1]
appelé pont brownien.
On en déduit que Tn a une loi-limite absolument continue et strictement crois-
sante sur ]0, +∞[. Plus prosaïquement, Kolmogorov (1933) a montré que, si F0 est
continue, alors, pour tout d > 0, on a :
+∞
X
(−1)k+1 exp −2k 2 d2 .

P (Tn > d) −−−−→ 2
n→+∞
k=1
La convergence vers la loi-limite est relativement lente.
20.3 Extensions du test de Kolmogorov-Smirnov

La base du test de Kolmogorov-Smirnov est une mesure de l’écart entre la fonc-
tion de répartition F0 (sous H0 ) et la fonction de répartition empirique F̂n .
Un autre exemple d’une mesure de l’écart entre F0 et la fonction de répartition
empirique F̂n est fourni par la classe des statistiques de Cramér-von Mises :
Z +∞ h i2
Vn = n F̂n (x) − F0 (x) ψ(x) dF0 (x) .
−∞
En choisissant ψ(x) = 1, on est conduit à la statistique connue de Cramér-von Mises.

Si on choisit :
ψ(x) = {F0 (x) [1 − F0 (x)]}−1 ,
on tombe sur la statistique de Anderson-Darling.
Les tests basés sur ces types de statistiques permettent de tester des hypothèses
nulles composites. Par exemple, supposons que nous voulions tester le fait que la
fonction de répartition sous-jacente soit Fθ pour θ ∈ Θ0 , où Θ0 est un certain espace
de paramètres. Supposons que θ̂n soit un estimateur raisonnable de θ. Alors, un test
c Michel CARBON
statistique, comme expliqué ci-dessus, est défini comme une mesure d’écart entre F̂n
et Fθ̂n . Par exemple, pour tester la normalité, avec une moyenne µ et une variance
σ 2 non spécifiées, un test de type Kolmogorov-Smirnov est donné par :

x − X n
sup F̂n (x) − Φ

, (20.8)
x∈R σ̂n

où Φ(.) est la fonction de répartition d’une loi normale N (0, 1) et X n , σ̂n sont les
estimateurs du maximum de vraisemblance pour (µ, σ) sous le modèle gaussien. Il
est facile de constater que, sous l’hypothèse nulle, la loi de (20.8) ne dépend pas de
(µ, σ), et les valeurs critiques peuvent être obtenues par simulation.
20.4 Test du χ2 de Pearson

Supposons que les X1 , · · · , Xn , variables aléatoires i.i.d. de fonction de répartition
F , prennent un Pnombre fini de valeurs : a1 , · · · , ak+1 avec les probabilités respectives
p1 , · · · , pk+1 ( pi = 1) et soient Yi (pour i = 1, · · · , k + 1) le nombre de variables
X, parmi les X1 , · · · , Xn , égales à ai .
On cherche à tester :
H0 : F = F0 (20.9)
Le test de χ2 de Pearson a l’avantage de la simplicité et de la flexibilité. On
va se concentrer sur les Yi définies ci-dessus. La loi conjointe de (Y1 , · · · , Yk+1 ) est
multinomiale M (p1 , · · · , pk+1 ; n), donnée par :
n! yk+1
P (Y1 = y1 , · · · , Yk+1 = yk+1 ) = py11 · · · pk+1 . (20.10)
y1 ! · · · yk+1 !
où les pi et les yi sont tels que :
k+1
X k+1
X
pi = 1 et yi = n . (20.11)
i=1 i=1
En termes de variables Y , l’hypothèse H0 à tester se réduit à :

(0)
H0 : pi = pi pour i = 1, · · · , k + 1 , (20.12)
contre l’hypothèse composite :
(0)
∃ i ∈ {1, · · · , k + 1} tel que pi 6= pi . (20.13)
La statistique de test est alors :
k+1 2 .
X Yi (0) (0)
Q=n − pi pi . (20.14)
i=1
n
La région de rejet associée est donc :

{Q ≥ Ck } (20.15)
Le résultat suivant fournit le comportement asymptotique de Q sous H0 .
c Michel CARBON
20.4 Test du χ2 de Pearson 351
Théorème 20.4.1 La loi de Q sous H0 tend, quand n tend vers l’infini, vers un χ2
à k degrés de liberté.
Démonstration : Les résultats de convergence concernant les Yi /n vers des lois

normales et le comportement des formes quadratiques associées prouvent que :
k X
k
X Yi (0) Yj (0) L
n aij − pi − pj −−−−→ χ2k , (20.16)
i=1 j=1
n n n→+∞
où les aij sont donnés par :
1 1


 + si j=i
 pi pk+1

aij = (20.17)

 1

 si j 6= i .
pk+1
Le membre gauche de (20.16) vaut :

k 2 k k
X 1 Yi (0) n X X Yi (0) Yj (0)
n (0)
− pi + (0) − pi − pj . (20.18)
i=1 pi
n pk+1 i=1 j=1 n n
Le dernier terme est :

" k
X Yi #2 . 2 .
(0) (0) Yk+1 (0) (0)
n − pi pk+1 = n − pk+1 pk+1 , (20.19)
i=1
n n
et le résultat en découle.
Alors (20.15) définit un test de H0 de niveau asymptotique α si on détermine Ck
tel que : Z +∞
χ2k = α . (20.20)
Ck
Il est aisé de démontrer le corollaire suivant :
Corollaire 20.4.1 Le test (20.15) avec Ck donné par (20.20) est convergent contre
toute alternative fixée p 6= p(0) .
Démonstration :
(0)
Soit (p1 , · · · , pk+1 ) une alternative avec pj 6= pj pour au moins un entier j
(0)
(j = 1, · · · , k + 1). On va supposer par exemple que pi 6= pi pour un i précis. On
a alors :
√ √

Yi 0 Yi
n − pi n − pi
n n √ pi − p0i
p = p + n p 0 . (20.21)
p0i p0i pi
On sait que Yi suit une loi binomiale B(pi , n). Le premier terme du membre droit de
(20.21) converge en loi vers une loi normale N (0, pi qi /p0i ) et donc (20.21) converge
c Michel CARBON
en probabilité vers +∞ ou −∞, en fonction du signe de pi − p0i . Dans tous les cas,
P
Q −−−−→ ∞ et P (Q ≥ Ck ) tend alors vers 1.
n→+∞
On peut aussi donner une approximation de la puissance du test. Étudions la

puissance du test, non contre une alternative
√ fixée, mais contre une suite d’alterna-
(n) (0)
tives pi tendant vers pi à la vitesse 1/ n telles que :
√ (n) (0)

n pi − pi −−−−→ ∆i , (20.22)
n→+∞
k+1
X Pk+1 (n) (0)

où ∆i = 0 puisque i=1 p i − p i = 0.
i=1
On obtient le résulat suivant :
Théorème 20.4.2 La loi-limite de la stistique Q sous les alternatives (20.22) est

un χ2 non-centré avec k degrés de liberté, et dont le paramètre de non-centralité est :
k+1
X ∆2i
λ= (0)
. (20.23)
i=1 pi
Les applications du test du χ2 ne sont pas restreintes au cas où les Xi ne prennent

qu’un nombre fini de valeurs. On peut aussi l’appliquer en regroupant plusieurs
valeurs dans le cas de variables aléatoires prenant une infinité de valeurs.
Par exemple, pour effectuer le test, avec n variables aléatoires i.i.d. X1 , · · · , Xn
dont la loi sous-jacente est une loi de Poisson de paramètre λ0 , on pourrait décider
de regrouper ensemble toutes les observations dépassant un certain entier k0 .
Si Y0 , Y1 , · · · , Yk0 , Yk0 +1 désignent le nombre de variables Xi égales respectivement
à 0, 1, · · · , k0 , ou supérieures à k0 , le test (20.15) peut alors s’appliquer pour tester
l’hypothèse nulle H0 : P = P(λ0 ).
De manière analogue, si on veut tester que les variables aléatoires i.i.d. X1 , · · · , Xn
suivent une loi normale ou n’importe quelle loi de fonction de répartion continue F0 ,
on peut partitionner l’axe réel en k + 1 intervalles :
] − ∞, a1 ], ]a1 , a2 ], · · · , ]ak−1 , ak ], ]ak , +∞[ ,
et poser a0 = −∞ et ak+1 = +∞. Si Yi désigne le nombre d’observations tombant

dans l’intervalle ]ai−1 , ai ] pour chaque i = 1, · · · , k + 1, alors (Y1 , · · · , Yk+1 ) suit une
loi multinomiale M(p1 , · · · , pk+1 ; n), avec :
pi = F (ai ) − F (ai−1 ) (20.24)

(0)
En notant pi les probabilités (20.24) sous l’hypothèse nulle H0 , le test (20.15) est
un test de H0 de niveau asymptotique α.
Contrairement au test de Kolmogorov-Smirnov, le test du χ2 n’est pas convergent
contre toutes les alternatives H1 : F 6= F0 puisqu’il y a de très nombreuses lois
(0)
autres que F0 pour lesquelles pi = pi pour tout i = 1, · · · , k + 1 et pour lesquelles
c Michel CARBON
20.5 Tests de gaussianité 353
la zone de rejet a une probabilité qui tend vers α plutôt que vers 1, quand n tend
vers l’infini.
(0)
Dans beaucoup d’applications, au lieu de F0 et donc des probabilités pi dans
(20.20), on spécifiera plutôt une famille paramétrique Fθ , c’est-à-dire que H0 devient :
(0)
H0 : pi = pi (θ1 , · · · , θr ) . (20.25)
Si les θ étaient connus, le test serait alors basé sur la statistique :

h i2
(0)
k+1
X Yi − npi (θ1 , · · · , θr )
X2 = (0)
(20.26)
i=1 npi (θ1 , · · · , θr )
avec k > r. La loi asymptotique de X2 est un χ2k sous H0 .

En général, les θj sont inconnus et il est naturel de les remplacer par des estima-
teurs convergents θ̂1 , · · · , θ̂r . Un tel remplacement changera bien entendu la loi de
X2 , ce changement dépendant des estimateurs choisis.
Peut-être que la méthode la plus naturelle consiste à estimer les θj par les esti-
mateurs θ̂j minimisant (20.26), encore appelés estimateurs du χ2 -minimal.
Sous des hypothèses de régularité adaptées, la loi de la statistique qui en résulte :
h i2
k+1 Y − np(0) θ̂ , · · · , θ̂
X i i 1 r
X̂2 = (20.27)
(0)
i=1 np i θ̂1 , · · · , θ̂r
tend vers un χ2k−r sous H0 .

L’approximation par un χ2 de la loi de Q (défini par (20.14)) ou de la statistique
définie par (20.27) ne fonctionne pas bien lorsque l’espérance E (Yi ) d’une au moins
des cellules de base est très petit. Dans un tel cas, il y a lieu de regrouper de telles
cellules avec des cellules adjacentes de manière à pallier à ce défaut.
20.5 Tests de gaussianité

Nous allons finalement brièvement discuter de quelques tests de l’hypothèse que
F0 est une loi de la famille des lois gaussiennes. Soient X1 , · · · , Xn n variables aléa-
toires de fonction de répartition F et considérons cette fois l’hypothèse nulle :
N (ξ, σ 2 ), ξ ∈ R, σ > 0 .

H0 : F est une f.d.r. associée aux lois normales
(20.28)
Nous allons examiner succinctement quelques-uns des nombreux tests pour ce
problème précis.
c Michel CARBON
20.5.1 Tests des moments

Ces premiers tests sont dus à Pearson et sont basés sur les troisième et quatrième
moments. Puisque la loi normale est symétrique vis-à-vis de sa moyenne ξ, son
moment centré d’ordre trois est nul. Ce moment d’ordre trois normalisé :
p E (Xi − ξ)3
β1 = (20.29)
σ 3/2
est une mesure de l’asymétrie de la loi F . Il est alors naturel de rejeter l’hypothèse
de normalité si le moment d’ordre trois normalisé :
p M3
b1 = 3/2 (20.30)
M2
n
1X k
est, en valeur absolue, trop important, où Mk est défini par : Mk = Xi − X .
n i=1
√
La loi asymptotique de b1 peut être obtenue aisément :
√ p p L
n b1 − β1 −−−−→ N (0, τ 2 ) , (20.31)
n→+∞
pourvu que les lois F aient des moments finis jusqu’à l’ordre six. Plus précisément,
ici, on a :
√ 2 √ √ √ 2
2 ∂ b1 ∂ b1 ∂ b1 ∂ b1
τ = var(M3 ) + 2cov(M2 , M3 ) + var(M2 ) , (20.32)
∂M3 ∂M2 ∂M3 ∂M2
où les dérivées ci-dessus sont évaluées à partir des moments estimés de la population.
Dans le cas gaussien, les moments centrés :
µk = E (Xi − ξ)k

(20.33)
valent respectivement :
µ1 = µ3 = · · · = 0 et µ2k = 1 · 3 · 5 · · · (2k − 1)µk2 . (20.34)
On peut remarquer que : τ 2 = 6.
Un développement similaire est possible également pour tester la normalité contre
une hypothèse de loi à queue épaisse. Ce test est basé sur le moment normalisé
d’ordre quatre :
M4
b2 = 2 . (20.35)
M2
On peut montrer, sous l’hypothèse H0 de normalité, que la statistique :
√
n(b2 − 3)
√ (20.36)
24
est asymptotiquement normale N (0, 1). Hélas, la convergence vers la loi normale est
vraiment lente. Pour des tailles n petites ou relativement petites, la loi de (20.36)
est très asymétrique et l’approximation gaussienne n’est pas du tout recommandée
pour des tailles n < 1000.
c Michel CARBON
20.5.2 Test du χ2
On peut aussi considérer l’approche classique du χ2 avec un nombre fixe de k + 1
cellules délimitées par les points a1 , a2 , · · · , ak . Si les paramètres de nuisance ξ et
σ 2 sont estimés, comme par exemple en minimisant (20.26), la statistique résultante
X̂2 définie en (20.27) a pour loi-limite un χ2k−2 . Dans cette optique, il raisonnable
d’utiliser les estimateurs standards connus :
n
ˆ 2 1X 2
ξ = X et σ̂ = Xi − X (20.37)
n i=1
qu’on sait être asymptotiquement efficaces, plutôt que d’utiliser les estimateurs du
χ2 -minimum. Malheureusement, la loi-limite n’est plus une loi du χ2 ... Heureusement
qu’il existe de meilleurs tests !
20.5.3 Tests de Kolmogorov- Smirnov, Cramér-von Mises et

Anderson-Darling
Les statistiques de Kolmogorov- Smirnov, Cramér-von Mises et Anderson-Darling
définies précédemment peuvent être utilisées pour tester la normalité en les appli-
Xi − X
quant stricto sensu aux variables . La théorie asymptotique de ces tests
S
dépasse largement le niveau de ce cours.
20.5.4 Tests de Shapiro-Wilk

La dernière classe de tests que nous examinons, qui fournit des tests de normalité
assez puissants, est basée sur des statistiques d’ordre.
Soient X1 , · · · , Xn une échantillon théorique de fonction de répartition F0 et
soient X(1) ≤ · · · ≤ X(n) les statistiques d’ordre associées. Alors les espérances des
statistiques d’ordre :
ain = E X(i) , i = 1, · · · , n , (20.38)
dépendent à la fois de i et de n. On rappelle quelques résultats standards :
1. Si E |X1 | < +∞, alors les espérances (20.38) existent pour tout i = 1, · · · , n.
X n
2. On a : ain = nE(Xi ) . En effet, cela provient de la remarque immédiate
i=1
n
X n
X
que : X(i) = Xi .
i=1 i=1
3. Théorème 20.5.1 (de Hoeffding)
Soit Gn (x) la fonction de répartition des n constantes a1n , · · · , ann , c’est-à-
dire :
Card{i : ain ≤ x}
Gn (x) = . (20.39)
n
Alors :
Gn (x) −−−−→ F0 (x) en tout point de continuité de F0 . (20.40)
n→+∞
c Michel CARBON
Revenons au cas où les X1 , · · · , Xn sont des variables aléatoires i.i.d.. On cherche

à tester l’hypothèse de normalité exprimée dans (20.28). Les espérances des statis-
tiques d’ordre bin pour une loi normale N (ξ, σ 2 ) vérifient :

bin = E X(i) = ξ + σ ain , (20.41)
où les ain sont les espérances des statistiques d’ordre pour une loi normale N (0, 1).
Intuitivement, sous H0 , les X(i) devraient être proches des bin et cela est conforté
par le théorème de Hoeffding. Cela suggère donc de tester H0 au moyen du coefficient
de corrélation des bin et des X(i) :
n
X
bin − bn X(i) − X
i=1
W0 = s n
s n (20.42)
X 2 X 2
bin − bn X(i) − X
i=1 i=1
Comme un coefficient de corrélation reste identique par transformations linéaires

des variables, on peut, dans (20.42), remplacer les bin par les ain , auquel cas on a :
an = 0.
n n n
X 2 X 2 X
Notons que : X(i) − X = Xi − X et ain X = 0. Ainsi W 0 peut
i=1 i=1 i=1
s’écrire : n
X
ain X(i)
i=1
W0 = s n
. (20.43)
p X 2
a2in Xi − X
i=1
0
Sous l’hypothèse nulle, on devrait avoir W proche de 1. Ainsi H0 sera rejetée pour
de petites valeurs de W 0 . C’est le test de Shapiro-Wilk.
Une alternative à W 0 est parfois utilisée en remplaçant les espérances des statis-
tiques d’ordre ain par :
0 −1 i
ain = Φ . (20.44)
n+1
Une autre manière encore est de remplacer les ain par les a00in définis par :
   
a001n a1n
 ..   ..  −1
 .  =  . V , (20.45)
00
ann ann
où V est la matrice des variances-covariances des X(i) donnée par :

vij = E X(i) − ain X(j) − ajn (20.46)
Les lois-limites de n (W − E(W )) et n (1 − W 0 ) appartiennent à la famille des
lois des variables : n
X
γi Yi2 − 1 ,

(20.47)
i=1
c Michel CARBON
où les γi sont des réels et les Yi sont des variables aléatoires indépendantes de loi
N (0, 1).
√ Sous une alternative à H0 fixée, le facteur de normalisation n’est plus n
mais n et la loi-limite est gaussienne.
20.5.5 Résumé
En résumé, il est assez conseillé de ne pas trop utiliser les tests du χ2 ou le test
de Kolmogorov-Smirnov, qui ne sont pas suffisamment puissants, mais il est plutôt
recommandé d’utiliser les tests de moments basés sur les statistiques b1 et b2 , le test
de Anderson-Darling et le test de Shapiro-Wilk.
c Michel CARBON

2 Cours Complet - Polystatinf - 4

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

2 Cours Complet - Polystatinf - 4

Transféré par

Droits d'auteur :

Formats disponibles

STT- 7115

Statistique mathématique avancée

1 Variables aléatoires - Lois de probabilité 13

2 Moments et transformations de variables 69

3 Quelques inégalités classiques 105

4 Convergences stochastiques 111

5 Loi des Grands Nombres et Théorème Central Limite 121

6 Convergence faible et continuité 131

7 Modèles Statistiques 139

8 Exhaustivité – Complétion – Liberté 171

8.5.2 Paramètre vectoriel . . . . . . . . . . . . . . . . . . . . . . . . 189

9 Estimation sans biais 193

10 Inégalité d’information 209

10.1 Cas d’un paramètre unidimensionnel . . . . . . . . . . . . . . . . . . 209

11 Méthode du maximum de vraisemblance 219

12 Estimation bayésienne 245

13 Estimateurs minimax et estimateurs admissibles 261

14 Estimation non paramétrique de la densité 269

15 Propriétés asymptotiques des estimateurs 289

16 Généralités sur les tests 297

17 Test d’hypothèses simples 307

18 Tests à hypothèses multiples 315

18.3.1 Familles à rapport de vraisemblances monotone . . . . . . . . 318

19 Tests et intervalles de confiance 337

20 Tests d’ajustement 347

20.5.5 Résumé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 357

Le travail d’un statisticien se décline selon plusieurs champs d’études. Habituel-

Variables aléatoires - Lois de

Je pense que, si en ouvrant un dictionnaire au hasard, on tombait sur le mot

1.1.1 Introduction des premiers chapitres

1.1.2 Les phénomènes aléatoires

On peut fournir des exemples variés de tels phénomènes :

— Promenade d’un ivrogne : un pas en avant, deux pas en arrière...

1.1.3 Deux idées majeures et incontournables

La loi des grands nombres

l’expérience aléatoire. Ce modèle permet de quantifier les probabilités de réalisations

1.2 Un peu d’histoire

Figure 1.1 – Siméon Poisson Figure 1.2 – Blaise Pascal

Figure 1.3 – Pierre de Fermat Figure 1.4 – Christiaan Huygens

Figure 1.5 – Jacques Bernoulli Figure 1.6 – Abraham de Moivre

Abraham de Moivre (1667-1754), dans "Doctrines of chances" (1733), précisa

Figure 1.7 – Pierre-Simon Laplace Figure 1.8 – Irénée-Jules Bienaymé

Figure 1.9 – Andrei Markov Figure 1.10 – A. M. Lyapunov

La théorie de la mesure et de l’intégration, due essentiellement à Borel (1871-

1956) à Henri Lebesgue (1875-1941), permet d’asseoir complètement la théorie du

Figure 1.11 – Henri Lebesgue Figure 1.12 – Andrey Kolmogorov

Figure 1.13 – Paul Lévy Figure 1.14 – Kiyoshi Itô

simulations comme le pilotage des centrales nucléaires, etc....

Nous allons développer cette théorie dans les chapitres à venir.

1.4 Notion d’expériences aléatoires

Ω2 = {P ile, F ace, T ranche}

Ω3 = R3 = {(x, y, z) : coordonnées du centre de gravité de la pièce}

l’exemple b) précédent, on pourra prendre Rd+ comme espace Ω . L’espace Ω4 précé-

1.5 Notion d’événement

La seconde étape de la formalisation sera celle d’événement aléatoire, c’est-à-dire

1.5.1 Algèbre de Boole des événements

On imposera cependant à cette classe de parties des conditions de stabilité de

On dit souvent algèbre au lieu de algèbre de Boole.

1.5.2 Théorème de représentation

1. Soient A ⊂ Ω et B ⊂ Ω deux événements , alors A∪B est un événement réalisé

et qui est réalisé si A est réalisé et pas B.

Si, de plus, les ensembles A∗ et A∗ coïncident, alors on écrit :

La proposition qui suit se démontre aisément.