Vous êtes sur la page 1sur 120

Probabilités et Statistique

Jean-Michel JOLION
Département Génie Industriel∗
3ème Année
Version électronique : http://rfv.insa-lyon.fr/˜jolion/STAT/poly.html

May 26, 2006


INSA Lyon - Bât. J. Verne - 69621 Villeurbanne Cedex - tél : 04 72 43 87 59 - Fax : 04 72 43 80 97 - Email :
Jean-Michel.Jolion@insa-lyon.fr

1
Sommaire

1 Probabilités I-1
1.1 Notions de probabilités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . I-1
1.2 Analyse combinatoire (rappels) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . I-1
1.2.1 Factorielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . I-1
1.2.2 Arrangements de p objets parmi n . . . . . . . . . . . . . . . . . . . . . . . . . . . I-1
1.2.3 Permutations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . I-1
1.2.4 Combinaisons de p parmi n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . I-2
1.2.5 Répétitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . I-2
1.3 Epreuves et Evènements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . I-2
1.4 Espace probabilisé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . I-3
1.4.1 Axiomatique de Kolmogorov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . I-3
1.4.2 Propriétés élémentaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . I-3
1.5 Probabilité conditionnelle - Théorème de Bayes . . . . . . . . . . . . . . . . . . . . . . . . I-4
1.5.1 Théorème des probabilités composées . . . . . . . . . . . . . . . . . . . . . . . . . I-4
1.5.2 Conséquences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . I-4
1.5.3 Théorème de Bayes - Probabilités des causes . . . . . . . . . . . . . . . . . . . . . I-5
1.6 Le paradoxe de Bertrand . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . I-5

2 Variables aléatoires II-1


2.1 Variable aléatoire : définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-1
2.2 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-1
2.2.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-1
2.2.2 Propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-1
2.2.3 Fonction de répartition d’une v.a. discrète . . . . . . . . . . . . . . . . . . . . . . . II-2
2.3 Fonction de répartition d’une v.a. continue . . . . . . . . . . . . . . . . . . . . . . . . . . II-2
2.4 Couple de variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-2
2.4.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-2
2.4.2 Cas d’un couple de v.a. continues . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-2
2.4.3 Cas d’un couple de v.a. discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-3
2.4.4 Distribution conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-3
2.5 Loi d’une fonction d’une ou plusieurs variables aléatoires . . . . . . . . . . . . . . . . . . . II-3

2
2.5.1 Transformation d’une variable aléatoire . . . . . . . . . . . . . . . . . . . . . . . . II-3
2.5.2 Densité de probabilité d’une somme de V.A. indépendantes . . . . . . . . . . . . . II-4
2.6 Moyenne et espérance mathématique d’une v.a. . . . . . . . . . . . . . . . . . . . . . . . . II-4
2.6.1 Notion de moyenne pour une v.a. discrète . . . . . . . . . . . . . . . . . . . . . . . II-4
2.6.2 Espérance mathématique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-5
2.7 Moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-6
2.7.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-6
2.7.2 Quelques moments particuliers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-7
2.7.3 Variance, covariance et écart-type . . . . . . . . . . . . . . . . . . . . . . . . . . . II-7
2.7.4 Variable centrée réduite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-8
2.7.5 Coefficient de corrélation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-8
2.7.6 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-9
2.7.7 Inégalités de Bienaymé - Tchebyshev - Markov . . . . . . . . . . . . . . . . . . . . II-9
2.8 Quelques lois de probabilités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-10
2.8.1 Les valeurs principales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-10
2.8.2 Liaisons entre lois de probabilités . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-10
2.9 Quelques relations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-13
2.10 Loi des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-14
2.10.1 Convergence stochastique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-14
2.10.2 Théorème central limite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-15
2.11 Simulation d’une variable aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-16
2.11.1 Méthode générale par transformation inverse . . . . . . . . . . . . . . . . . . . . . II-16
2.11.2 Loi uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-16
2.11.3 Loi exponentielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-16
2.11.4 Loi binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-17
2.11.5 Loi de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-17
2.11.6 Loi normale : ℵ(µ, σ 2 ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-17
2.12 Autres indicateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-17
2.12.1 Histogramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-17
2.12.2 Médiane . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-18
2.12.3 Mode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-18
2.12.4 Autres moyennes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-18

3
3 Estimation III-1
3.1 Estimation ponctuelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III-1
3.1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III-1
3.1.2 Estimateur convergent . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III-2
3.1.3 Estimateur sans biais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III-2
3.1.4 Estimateur efficace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III-4
3.1.5 Robustesse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III-5
3.2 Méthode du maximum de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . . . III-5
3.3 Estimation par intervalle de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III-7
3.3.1 Estimation d’une proportion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III-8
3.3.2 Estimation d’une moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III-9
3.3.3 Estimation d’une variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III-9
3.4 Estimation robuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III-10
3.4.1 Interprétation de données: l’approche bayésienne . . . . . . . . . . . . . . . . . . . III-10
3.4.2 Le traitement de l’a priori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III-11
3.4.3 Le traitement de l’a posteriori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III-11
3.4.4 Le cas monodimensionnel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III-12
3.4.5 Le cas général . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III-12
3.4.6 Estimation itérative . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III-14
3.5 Régression linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III-14
3.5.1 Formalisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III-15
3.5.2 Résolution dans le cas d’une distribution normale des écarts . . . . . . . . . . . . . III-15
3.5.3 Le cas de la droite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III-16
3.5.4 Intervalle de confiance sur le coefficient de corrélation . . . . . . . . . . . . . . . . III-17
3.6 Filtre de Kalman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III-17
3.7 Estimation d’un mode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III-18
3.8 Estimation d’une densité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III-19

4 Tests d’hypothèse IV-1


4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-1
4.1.1 Hypothèses et erreurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-1
4.1.2 Tests bilatéral et unilatéral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-1
4.1.3 Région d’acceptation et région critique . . . . . . . . . . . . . . . . . . . . . . . . . IV-2

4
4.1.4 Choix d’un test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-2
4.1.5 Influence de l’échantillonnage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-3
4.2 Test entre deux hypothèses simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-3
4.2.1 La méthode de Neyman et Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-3
4.2.2 Test de la moyenne d’une loi normale d’écart-type connu . . . . . . . . . . . . . . IV-4
4.2.3 Test de la moyenne d’une loi normale d’écart-type inconnu . . . . . . . . . . . . . IV-5
4.2.4 Test d’une variance de loi normale, la moyenne étant connue . . . . . . . . . . . . IV-6
4.2.5 Test d’une variance de loi normale, la moyenne étant inconnue . . . . . . . . . . . IV-6
4.2.6 Test d’une proportion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-7
4.3 Test entre hypothèses composées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-7
4.3.1 Tests UMP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-7
4.3.2 Test d’une moyenne de loi normale, l’écart-type étant connu . . . . . . . . . . . . . IV-8
4.3.3 Test d’une moyenne de loi normale, l’écart-type étant inconnu . . . . . . . . . . . . IV-9
4.3.4 Test d’une variance de loi normale, la moyenne étant connue . . . . . . . . . . . . IV-9
4.3.5 Test d’une variance de loi normale, la moyenne étant inconnue . . . . . . . . . . . IV-10
4.3.6 Test d’une proportion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-10
4.4 Test de comparaison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-10
4.4.1 Comparaison de deux moyennes . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-11
4.4.2 Comparaison de deux variances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-12
4.4.3 Comparaison de deux proportions . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-12
4.5 Test du rapport des vraisemblances maximales . . . . . . . . . . . . . . . . . . . . . . . . IV-12
4.6 Test d’adéquation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-13
4.6.1 Test du χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-13
4.6.2 Test de Kolmogorov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-14
4.6.3 Test de Cramer-Von Mises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-14
4.7 Test d’indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-15
4.7.1 Test des différences premières . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-15
4.7.2 Test de Spearman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-15
4.8 Test de comparaison d’échantillons . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-16
4.8.1 Test des variances de Fisher-Snédécor . . . . . . . . . . . . . . . . . . . . . . . . . IV-16
4.8.2 Test de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-17
4.8.3 Test de Spearman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-17

5
4.9 Analyse de la variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-18
4.9.1 Les données de l’analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-18
4.9.2 Le test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-19
4.9.3 Analyse des contrastes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-19

5 Le Contrôle Statistique de Process: SPC V-1


5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . V-1
5.2 Capabilité d’un processus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . V-2
5.2.1 Etude de la capabilité des processus . . . . . . . . . . . . . . . . . . . . . . . . . . V-2
5.2.2 Indicateurs généralisés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . V-3
5.2.3 Les cartes de contrôle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . V-4

6 Tables T-1
T-1 Fonction de répartition de la loi normale centrée réduite . . . . . . . . . . . . . . . . . . . T-1
T-2 Fractiles de la loi normale centrée réduite . . . . . . . . . . . . . . . . . . . . . . . . . . . T-2
T-3 Fractiles de la loi du χ2 à ν degrés de liberté . . . . . . . . . . . . . . . . . . . . . . . . . T-3
T-4 Valeurs f de la variable de Fisher-Snédécor F (ν1 ; ν2 ) ayant la probabilité 0.10 d’être dépasséesT-5
T-5 Valeurs f de la variable de Fisher-Snédécor F (ν1 ; ν2 ) ayant la probabilité 0.05 d’être dépasséesT-6
T-6 Valeurs f de la variable de Fisher-Snédécor F (ν1 ; ν2 ) ayant la probabilité 0.01 d’être dépasséesT-8
T-7 Table de distribution de T (Loi de Student) . . . . . . . . . . . . . . . . . . . . . . . . . . T-10
T-8 Table du coefficient de corrélation des rangs de Spearman de deux variables aléatoires
indépendantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . T-11
T-9 Fonction de répartition de la statistique de Cramer-Von Mises . . . . . . . . . . . . . . . . T-13
T-10 Table du test de Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . T-14

7 Exercices VII-1
7-1 Probabilités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . VII-1
7-2 Variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . VII-4
7-3 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . VII-9
7-4 Tests d’hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . VII-13
7-5 SPC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . VII-16
7-6 Sujets généraux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . VII-17
7-6 .1 Problème 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . VII-17
7-6 .2 Problème 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . VII-19

6
7-6 .3 Problème 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . VII-21
7-6 .4 Problème 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . VII-24

8 Bibliographie Bib-1

7
Introduction
Ce polycopié est un support du cours de “Probabilités-Statistique” de 3ème année du département
Génie Industriel de l’INSA de Lyon. Il regroupe les éléments fondamentaux vus dans ce cours. Il couvre
plus que ce qui est réellement abordé en cours car il a également vocation à introduire des concepts plus
avancés (comme les statistiques robustes ou la maı̂trise des systèmes) en termes de culture générale.
Il n’existe pas de recueil des annales des examens des années précédentes car les exercices et problèmes
figurant dans ces examens sont introduits chaque année dans la nouvelle liste des exercices fournies en
fin de polycopié, avec le plus souvent des élements de correction.
Le contenu de ce polycopié n’engage que son auteur, dans le cadre de ce cours de l’INSA de Lyon.
Toute reproduction partielle ou totale, pour toute utilisation est assujétie à la demande formulée
auprès de l’auteur.
Une version électronique est disponible sur le site web http://rfv.insa-lyon.fr/ jolion/STAT/poly.html

8
1 Probabilités

1.1 Notions de probabilités

Il existe plusieurs manières de définir une probabilité. Principalement, on parle de probabilités inductives
ou expérimentales et de probabilités déductives ou théoriques. On peut les définir comme suit :
Probabilité expérimentale ou inductive : la probabilité est déduite de toute la population concernée.
Par exemple, si sur une population d’un million de naissances, on constate 530000 garçons et 470000
filles, on dit que P[garçon] = 0.53
Probabilité théorique ou déductive : cette probabilité est connue grâce à l’étude du phénomène sous-
jacent sans expérimentation. Il s’agit donc d’une connaissance a priori par opposition à la définition
précédente qui faisait plutôt référence à une notion de probabilité a posteriori. Par exemple, dans le cas
classique du dé parfait, on peut dire, sans avoir à jeter un dé, que P[”obtenir un 4”] = 16 .
Comme il n’est pas toujours possible de déterminer des probabilités a priori, on est souvent amené à
réaliser des expériences. Il faut donc pouvoir passer de la première à la deuxième solution. Ce passage
est supposé possible en terme de limite (i.e. avec une population dont la taille tend vers la taille de la
population réelle).

1.2 Analyse combinatoire (rappels)

1.2.1 Factorielle

Si une action peut être obtenue de n1 façons différentes, puis suivant cette action, de n2 façons différentes
indépendantes des précédentes, puis . . . alors, le nombre de possibilités correspondant à l’ensemble de ces
actions est N = pi=1 ni
Q

Qn
On appelle factorielle n et l’on note n! le nombre : n! = i=1 i
R ∞ x−1 −u
On peut aussi définir la factorielle grâce à la fonction Γ : Γ(x) = 0 u e du
qui a les propriétés suivantes : Γ(n + 1) = n! pour n entier et Γ(x + 1) = xΓ(x).
La formule
√ de Stierling permet de construire une estimation de la factorielle très valable pour n ≥ 10 :
n
n! ≈ n e −n 1 1
2πn(1 + 12n + 288n 2 + . . .)

1.2.2 Arrangements de p objets parmi n

Nombre de possibilités de ranger p objets choisis parmi n : Apn = n!


(n−p)! = n(n − 1) . . . (n − p + 1).

1.2.3 Permutations

Arrangement de n objets parmi n en tenant compte de l’ordre : Pn = Ann = n!.


Par exemple, il y a 6 = 3! permutations possibles de 3 symboles a, b, c : (a, b, c), (a, c, b), (b, a, c),
(b, c, a), (c, a, b), (c, b, a).

I-1
1.2.4 Combinaisons de p parmi n

Apn Apn
On ne tient pas compte de l’ordre des objets dans le rangement : Cpn = n!
p!(n−p)! = p! = Pp .

La notation anglosaxonne pour les combinaisons est un peu différente : Cnp ≡ (np ).
Propriétés :
• Cn0 = Cnn = 1
• Cnp = Cnn−p
p−1 p
• Cnp = Cn−1 + Cn−1
Pn p
• p=1 Cn = 2n

1.2.5 Répétitions

Soient n objets dont on dispose une infinité d’exemplaires. On en choisit p parmi ces n classes d’objets.
Il peut donc y avoir répétitions du même objet. Dans ce cas, on obtient de nouveaux indicateurs :
0
Anp = np
0 p (n+p−1)!
Cnp = Cn+p−1 = p!(n−1)!

Toujours dans le même contexte, on cherche le nombre de possibilité d’avoir a fois le 1er objet, b
0
fois le 2ème objet, . . . k fois le nème objet. Le nombre de permutations est donné par : Pn (a, b, . . . , k) =
(a+b+...+k)!
a!b!...k!

1.3 Epreuves et Evènements

Une expérience est dite aléatoire si ses résultats ne sont pas prévisibles avec certitude en fonction des
conditions initiales.
On appelle épreuve la réalisation d’une expérience aléatoire.
On appelle évènement la propriété du système qui une fois l’épreuve effectuée est ou n’est pas
réalisée.
Exemple : Soient l’expérience aléatoire ”lancer deux dés discernables” (et non pipés si l’on veut
vraiment une expérience aléatoire) et l’évènement A ”obtenir un total des nombres > 10”.
A se réalise pour les épreuves (6,5), (5,6), (6,6).

Correspondance entre les opérateurs logiques et les ensembles (la relation liant ces notations est un
isomorphisme, on peut donc employer n’importe laquelle).

I-2
Logique Ensemble
état du système élément w ∈ Ω
évènement A partie {A} ⊂ Ω
évènement certain espace entier Ω
évènement impossible partie vide ∅
évènement contraire A ou Ac partie complémentaire {A} = CA/Ω
l’évènement B entraine l’évènement A {B} ⊂ {A}
A et B intersection {A} ∩ {B}
évènements incompatibles A ⇒ BetB ⇒ A parties disjointes {A} ∩ {B} = ∅
A ou B (ou non exclusif) réunion {A} ∪ {B}
ou exclusif somme {A} + {B} = ({A} ∪ {B}) − ({A} ∩ {B})

A partir de ces notions, on peut préciser le calcul de probabilités d’un évènement A :


nombre de cas f avorable
probabilité théorique : P (A) = nombre total de cas .
0
probabilité expérimentale : P (A) = nombre d épreuves qui réalisent A
nombre total d0 épreuves . Cette approche (aussi appellée ap-
proche fréquentiste) ne permet pas de donner une valeur ni même un sens à la probabilité d’un évènement
non répétable du genre ”neigera-t-il le 25 octobre 2990” ce qui limite de fait le champ d’application du
calcul des probabilités.
Pour les fréquentistes, seules ont un sens les probabilités calculées a posteriori sur la base de la
répétition d’un grand nombre d’évènements identiques; pour les subjectivistes, au contraire, la notion de
probabilité a priori, évaluable en fonction d’un sentiment individuel d’incertitude, peut avoir un sens.

1.4 Espace probabilisé

1.4.1 Axiomatique de Kolmogorov

A chaque évènement, on associe un nombre positif compris entre 0 et 1, sa probabilité. Afin d’éviter
toute discussion sur cette notion, la théorie moderne des probabilités repose sur l’axiomatique suivante :
Définition 1
On appelle probabilité sur (Ω,=) (où Ω est l’ensemble des évèvements et = une classe de parties de Ω),
ou loi de probabilité, une application P de = dans [0, 1] telle que :
- P (Ω) = 1
S P
- pour tout ensemble dénombrable d’évènements incompatibles A1 , A2 , . . . , An on a P ( Ai ) = P (Ai ).

Définition 2
On appelle espace probabilisé le triplé (Ω,=,P )
Une loi de probabilité n’est donc rien d’autre qu’une mesure positive de masse totale 1. On peut donc
relier la théorie des probabilités à celle de la mesure.

1.4.2 Propriétés élémentaires

De l’axiomatique de Kolmogorov, on peut déduire les propriétés suivantes :

I-3
Propriété 1 : P (∅) = 0
Propriété 2 : P (A) = 1 − P (A)
Propriété 3 : P (A) ≤ P (B) si A ⊂ B
Propriété 4 : P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
Propriété 5 : P ( Ai ) ≤
S P
i P (Ai ) (Il n’y a stricte égalité que si les évènements Ai sont deux à deux
incompatibles.)
Propriété 6 : Continuité monotone séquentielle. Soient A1 ⊃ A2 ⊃ . . . ⊃ An ⊃ ∅.

Si lim An = ∅ alors lim P (An ) = 0


n→∞ n→∞

S
Propriété 7 : Théorème des probabilités totales : Soit Ω = Bi un système complet d’évènements (i.e.
tel que {Bi } constitue une partition de Ω). ∀A : P (A) = i P (A ∩ Bi )
P

Remarque : P (A) = 0 6⇒ A = ∅. De même, P (A) = 1 6⇒ A = Ω.

1.5 Probabilité conditionnelle - Théorème de Bayes

1.5.1 Théorème des probabilités composées

Soient deux évènements A et B réalisés respectivement n et m fois au cours de N épreuves. On a donc


n m
P (A) = N et P (B) = N . Si de plus A et B sont réalisés simultanément k fois, on a P (A ∩ B) = Nk .
Que peut-on déduire sur la probabilité de l’évènement B sachant que l’évènement A est réalisé ? Cette
probabilité est appellée probabilité conditionnelle de B sachant A et se note P(B/A). Dans notre
cas, on a P (B/A) = nk .

P(A∩B) P(A∩B)
Par définition, on a P(B/A) = P(A) et P(A/B) = P(B) .

1.5.2 Conséquences

Deux évènements A et B sont dits indépendants si P (A ∩ B) = P (A).P (B) ou encore si P (B/A) = P (B)
(l’information sur la réalisation de A n’apporte rien à l’évènement B) et P (A/B) = P (A).
Attention :
1) indépendant 6= incompatible.
2) P (A ∩ B) = P (A).P (B) ↔ A et B sont indépendants uniquement si vous pouvez prouver que
P (A ∩ B) = P (A).P (B) théoriquement. En pratique, i.e. sur des valeurs numériques, on ne peut pas
induire l’indépendance à partir de cette égalité constatée numériquement. On ne peut que supposer très
probable cette indépendance.
Si deux évènements A et B sont indépendants, alors il en est de même de A et B c , Ac et B, Ac et B c .
Tn
Soit A0 , A1 , . . . , An une suite d’évènements ayant une intersection commune non nulle, i.e. P ( k=0 Ak ) 6=
∅, on a alors
n
!
\
P Ak = P (A1 |A0 )P (A2 |A0 ∩ A1 ) . . . P (An |A0 ∩ A1 . . . ∩ An−1 )P (A0 )
k=0

I-4
1.5.3 Théorème de Bayes - Probabilités des causes

Soit un évènement A qui peut dépendre de N causes Ci différentes et incompatibles deux à deux (on ne
peut avoir deux causes réalisées simultanément). Etant donnée la réalisation de l’évènement A, quelle
est la probabilité que ce soit Ci qui en soit la cause ?
On peut écrire que A = N i=1 A ∩ Ci car {Ci } constitue un système complet (les causes sont incompat-
S

ibles deux à deux et toutes les causes possibles à A sont supposées connues). Donc d’après le théorème
des probabilités totales, on a P (A) = i P (A ∩ Ci ).
P

En appliquant le théorème des probabilités conditionnelles, on a


P (A ∩ Ci ) = P (A).P (Ci /A) = P (Ci ).P (A/Ci ) donc

P(Ci /A) = PNP(Ci )P(A/Ci )


k=1
P(Ck )P(A/Ck )

Exemple : Deux machines M1 et M2 produisent respectivement 100 et 200 objets. M1 produit 5% de


pièces défectueuses et M2 en produit 6%. Quelle est la probabilité pour qu’un objet défectueux ait été
fabriqué par la machine M1 ?
L’évènement constaté, A, est donc la présence d’une pièce défectueuse et les causes sont les machines
M1 et M2 . Compte tenu des productions de ces machines, on a P (M1 ) = 13 et P (M2 ) = 23 . De plus, les
5 6
probabilités conditionnelles de l’évènement A selon les machines sont P (A|M1 ) = 100 et P (A|M2 ) = 100 .
En reportant ces valeurs dans la formule générale, on obtient

1 5
3× 100 5
P (M1 |A) = = ≈ 0.29
5
( 13 × 100 ) + ( 23 × 6
100 )
17

1.6 Le paradoxe de Bertrand

Ce paradoxe est un exemple classique permettant de mesurer la limite des définitions de probabilités.
Considérons un triangle équilatéral et son cercle circonscrit. On tire une corde au hasard. Quelle est
la probabilité que sa longueur soit supérieure à celle du côté du triangle ?
On doit à Renyi les remarques suivantes :
Première solution. Comme la longueur de la corde est déterminée par la position de son milieu,
le choix de la corde peut consister à marquer un point au hasard à l’intérieur du cercle. La probabilité
pour que la corde soit plus longue que le côté du triangle équilatéral inscrit est alors égale à la probabilité
pour que le milieu de la corde soit intérieur au cercle inscrit dans ce triangle qui est de rayon moitié.
Si on admet que la répartition de ce point est uniforme dans le cercle, on trouve pour la probabilité
demandée :
π(r/2)2 1
πr2
= 4

Deuxième solution. La longueur de la corde est déterminée par la distance de son milieu au centre
du cercle. Par raison de symétrie, nous pouvons considérer que le milieu de la corde est pris sur un rayon
donné du cercle et supposer que la répartition de ce point sur le rayon est uniforme. La corde sera plus
longue que le côté du triangle équilatéral inscrit si son milieu est à une distance du centre inférieure à
r/2; la probabilité recherchée est alors 1/2.

I-5
Troisième solution. Par raison de symétrie, nous pouvons supposer qu’on a fixé une des extrémités
de la corde en P0 . L’autre sera choisie au hasard sur la circonférence. Si on admet que la probabilité que
l’autre extrémité P tombe sur un arc donné de la circonférence est proportionnelle à la longueur de cet
arc, la corde P0 P est plus grande que le côté du triangle équilatéral inscrit quand P se trouve sur l’arc
P1 P2 (tel que P1dP0 P2 = π3 ) dont la longueur est le 1/3 de celle de la circonférence; la probabilité est donc
de 1/3.
Il est clair que les trois hypothèses de répartition sont également réalisable. Il n’y a pas cependant de
réel paradoxe car il s’agit simplement d’un choix de conditions expérimentales de tirage des cordes qui
conduisent à des évènements différents.
Pour en savoir plus : http://www-ensps.u-strasbg.fr/enseignants/harthong/Hist/BERTRAND.HTM

I-6
2 Variables aléatoires

2.1 Variable aléatoire : définitions

Une variable aléatoire (V.A.) est une application de l’ensemble des épreuves dans le corps des réels. Elle
est caractérisée par l’ensemble des probabilités associées à tous ses états possibles.
Définition 1 Tout ensemble de parties d’un ensemble Ω, stable par réunion, intersection et complémentarité
s’appelle une tribu sur Ω.
Soit A une tribu de parties de Ω. Le couple (Ω, A) s’appelle un espace probabilisable ou mesurable
et A est l’ensemble des évènements.
Si Ω peut être muni d’une topologie, alors la tribu engendrée par la classe des ouverts de Ω est appellée
tribu borélienne.
Définition 2 Une variable aléatoire X est une application mesurable d’un espace probabilisé
(Ω,=,P ) dans le corps des réels < muni de sa tribu borélienne (<,B) (i.e. ensemble des intervalles de la
forme ] − ∞, a[).
Définition 3 Pour tout borélien B (i.e. B ∈ B), on définit une loi de probabilité de X sur (<,B)
et l’on note PX :

PX (B) = P ({w|X(x) ∈ B}) = P ({X −1 (B)})

Définition 4 Une v.a. X est discrète si Card[=] est fini ou dénombrable.


Dans ce cas, X ne peut prendre, avec une probabilité non nulle, qu’un nombre fini de valeurs partic-
ulières x1 , x2 , . . . , xn . On note généralement les probabilités par P (X = xi ) = pi .
Définition 5 Une v.a. X est continue si elle peut prendre toute valeur sur un segment de la forme
[a, b], ] − ∞, a], [b, +∞[, ] − ∞, +∞[ et telle que ∀x0 , P (X = x0 ) = 0.
Définition 6 Une v.a. X est mixte si 1) ∀i ∈ I ⊂ N , P (X = xi ) = pi 6= 0, 2)
P
i∈I pi < 1 et 3)
∃i P (X ∈]xi , xi+1 [6= 0

2.2 Fonction de répartition

2.2.1 Définition

La fonction de répartition (FR) d’une v.a. X est l’application F de < dans [0, 1] définie par

F(x) = P(X < x)

2.2.2 Propriétés

• F est non décroissante.


• F est continue à gauche.
• F est continue à droite dans le cas des v.a. continues.

II-1
• F (−∞) = 0 et F (+∞) = 1
• P (a ≤ X < b) = F (b) − F (a)

2.2.3 Fonction de répartition d’une v.a. discrète

Soit X une v.a. discrète pouvant prendre les valeurs x1 , x2 , . . . , xn de probabilités respectivement
p1 , p2 , . . . , pn avec x1 < x2 < . . . < xn .
Pi=k
F (x) = i=1 pi où k est donné par xk ≤ x < xk+1 .

2.3 Fonction de répartition d’une v.a. continue

Soit X une v.a. continue. Sa fonction de répartition est continue à gauche et à droite. Il existe donc une
fonction f telle que l’on puisse écrire :

Z x
dF (x)
f (x) = ou F (x) = f (u)du
dx −∞

Par définition, f est appellée densité de probabilité de X, ou en abrégé, ddp de X. Cette fonction
a les propriétés suivantes :
R +∞
• −∞ f (x)dx = 1
• ∀x, f (x) ≥ 0
R x2
• P (X ∈]x1 , x2 [) = F (x2 ) − F (x1 ) = x1 f (u)du
R x0
• P (X = x0 ) = x0 f (u)du = 0
R x0 +dx0
• P (X ∈]x0 , x0 + dx0 [) = x0 f (u)du = f (x0 )dx0 = dF (x0 )

2.4 Couple de variables aléatoires

2.4.1 Définitions

Soient X et Y deux v.a. définies sur le même espace probabilisé. On appelle fonction de répartition
conjointe de X et Y , la fonction F définie par :

F (X, Y ) = P (X ∈] − ∞, x] ∩ Y ∈] − ∞, y]) = P (X < x et Y < y)

On a par définition, F (−∞, −∞) = 0 et F (+∞, +∞) = 1.

2.4.2 Cas d’un couple de v.a. continues

On note f la ddp conjointe de X et Y et l’on a par définition :


Z x Z y
F (x, y) = f (u, v)dudv
−∞ −∞

II-2
avec les propriétés suivantes :
• ∀x, y : f (x, y) ≥ 0
R +∞ R +∞
• −∞ −∞ f (u, v)dudv = 1
On peut également définir une fonction de répartition marginale de X, notée FX par FX (x) =
P (X < x) = F (x, +∞) (idem pour Y , FY (y) = F (+∞, y)).

2.4.3 Cas d’un couple de v.a. discrètes

On note Pij = P (X = xi ∩ Y = yj ) pour i ∈ I et j ∈ J.

2.4.4 Distribution conditionnelle

Soient X et Y deux v.a. continues de FR conjointe F et de ddp conjointe f . Comment peut-on évaluer
la probabilité conditionnelle P (X ∈ I1 /Y ∈ I2 ) ?
On définit la fonction de répartition conditionnelle F (x/Y = y0 ) par

Rx
f (u, y0 )du
F (x/Y = y0 ) = R −∞
+∞
−∞ f (v, y0 )dv

et la densité de probabilité conditionnelle f (x/Y = y0 ) par

dF (x/Y = y0 )
f (x/Y = y0 ) =
dx

Si les deux v.a. sont indépendantes, alors on a

F (x/Y = y0 ) = FX (x)

f (x/Y = y0 ) = fX (x)

2.5 Loi d’une fonction d’une ou plusieurs variables aléatoires

Dans la pratique, on est souvent amené à manipuler des variables aléatoires qui sont des transformations
ou des combinaisons de variables aléatoires connues. C’est pourquoi on dispose de règles de passage d’une
loi à une autre, pour des transformations simples.

2.5.1 Transformation d’une variable aléatoire

Transformation d’une loi discrète Soit X une v.a. discrète de loi PX . Alors, la loi de la v.a.
U = ψ(X) est définie par :

P (U = k) = P (ψ(X) = k) = P (X = ψ −1 (k)) = PX (ψ −1 (k))

II-3
où ψ −1 désigne la fonction réciproque de ψ.
Transformation d’une loi continue Soit X une v.a. continue dont la loi admet la densité de prob-
abilité fX et ψ une fonction monotone et dérivable. Alors, la densité de la loi de la v.a. U = ψ(X) est
définie par :
fU (u) = |(ψ −1 )0 (u)|fX (ψ −1 (u))
où ψ −1 désigne la fonction réciproque de ψ.
On peut par ces propriétés montrer en particulier que la v.a. U = F (X) où F est la fonction de
répartition de la loi de la v.a. X, suit une loi uniforme sur l’intervalle [0, 1].
Exemple : Soit U = ψ(X) = X 2 . On a ψ −1 (u) = (u) et donc (ψ −1 )0 (u) = 12 u−1/2 . En application de
p

la propriété précédente, on obtient




1
fU (u) =
√ fX ( u)
2 u

2.5.2 Densité de probabilité d’une somme de V.A. indépendantes

Soient X et Y deux v.a. continues de ddp f (x) et g(y). Si X et Y sont indépendantes, alors la densité
de probabilité h(z) de la v.a. Z définie par Z = X + Y est donnée par

Z +∞ Z +∞
h(z) = f ? g(z) = f (x)g(z − x)dx = f (z − y)g(y)dy
−∞ −∞

Cette propriété se généralise quel que soit le nombre de variables dans la somme. On peut aussi
additionner des variables aléatoires discrètes.
Soient X et Y deux v.a. discrètes à valeurs dans DX et DY . La loi de S = X + Y est définie par :
 P
i∈DX ,k−i∈DY P (X = i, Y = k − i)
P

 i∈DX P (X = i, S = k) =
P (S = k) = ou
 P P (X = k − j, Y = j)
 P
j∈DY P (S = k, Y = j) = j∈DY ,k−j∈DX

En particulier, si X et Y sont indépendantes, on a :


 P

 i∈DX ,k−i∈DY P (X = i)P (Y = k − i)
P (S = k) = ou
 P P (X = k − j)P (Y = j)

j∈DY ,k−j∈DX

On peut aussi passer par les propriétés de l’opérateur espérance mathématique (voir section suivante).

2.6 Moyenne et espérance mathématique d’une v.a.

2.6.1 Notion de moyenne pour une v.a. discrète

Soit X une v.a. discrète prenant ses valeurs dans {x1 , . . . , xn } et dont les probabilités associées sont
P (X = xi ) = pi .
Par définition, on appelle moyenne théorique ou espérance mathématique de X, et l’on note
E(X), la valeur E(X) = ni=1 xi pi .
P

II-4
On ne connait cette v.a. que par le moyen d’un échantillon de taille N (dont on supposera qu’il est
significatif par rapport au nombre de valeurs possible, n, de la v.a., i.e. N  n). Chaque évènement
P
X = xi se réalise ki fois dans l’échantillon (N = i ki ).
1 Pn
La moyenne expérimentale est définit par N i=1 ki xi .

Si on admet que la proportion kNi tend vers la propabilité théorique pi pour un échantillon de taille
infinie (N → ∞) alors on peut estimer la moyenne théorique par la limite de la moyenne expérimentale.

2.6.2 Espérance mathématique

Soit X une v.a. On définit l’espérance mathématique de X et l’on note E(X) la valeur

R +∞ R +∞
E(X) = −∞ x dF(x) = −∞ x f (x) dx

où F est la fonction de répartition de X.


Cette intégrale est dite au sens de Stieljes. Soit X une v.a. définie sur [a, b[. On peut discrétiser
la v.a. X en introduisant une nouvelle v.a. discrète Y en découpant l’intervalle [a, b] en n intervalles
[xi−1 , xi ] tels que
X ∈ [xi−1 , xi [→ Y = ξi , ξi ∈ [xi−1 , xi ] et donc
R xi
P (Y = ξi ) = P (X ∈ [xi−1 , xi [) = xi−1 f (u)du = F (xi ) − F (xi−1 )

Grâce à un échantillon de taille N , on peut calculer une moyenne expérimentale de Y ( N1 ni=1 ξi ki )


P

qui tend vers la moyenne théorique ni=1 ξi P (Y = ξi ) si N → ∞. Si de plus, on découpe en une infinité
P

d’intervalles de la forme [xi−1 , x [ (n → ∞), alors on obtient la moyenne théorique de la v.a. X par
Rb i
Pn
ξ
i=1 i |F (x i ) − F (xi−1 )| → a xdF (x) = E(X)

Remarque : L’espérance mathématique n’est pas toujours définie. C’est en particulier le cas de la loi de
1 R +∞ 1
Cauchy dont la ddp est donnée par f (x) = π(1+x 2 ) car l’intégrale −∞ π(1+x2 ) dx diverge.

Propriétés : Les propriétés de l’espérance mathématique proviennent de celle de l’opérateur intégral et


en particulier la linéarité. Soit X une v.a. et a une constante.

E(a) = a
E(aX) = aE(X)
E(X + a) = E(X) + a

Soient X1 et X2 deux v.a. et a et b deux constantes.

E(a1 X1 + a2 X2 ) = a1 E(X1 ) + a2 E(X2 )

Plus généralement, pour toute fonction h, positive, continue, à support compact


Z ∞ Z ∞
E[h(X)] = h(x)dFX (x) = h(x)fX (x)dx
−∞ −∞

Exemple : Soient X et Y deux v.a. continues indépendantes de même loi f . On souhaite trouver la loi
X
de la variable aléatoire U = X+Y . On a donc

II-5
X x
Z Z
E[h( )] = h( fX,Y (x, y)dxdy
X +Y <2 x+y

Les deux variables étant indépendantes, on a fX,Y (x, y) = fX (x)fY (y). Soit le changement de vari-
ables suivant :  
x
 u = x+y
  x = uv

v =x+y ⇔ y = v(1 − u)
 (x, y) ∈ D ⊂ <2
  (u, v) ∈ ∆ ⊂ <2

+ +

dont le jacobien est


∂x ∂x v u
∂(x, y) ∂u ∂v
j(u, v) = = = =v

∂(u, v) ∂y ∂y −v 1−u

∂u ∂v
Ce qui nous donne
Z Z Z
E[h(U )] = h(u)|j(u, v)|f (uv)f (v(1 − u))dudv = h(u)fU (u)du
<2

d’où l’on déduit la densité de probabilité fU


Z
fU (u) = vf (uv)f (v(1 − u))dv
<+

Supposons maintenant que ces deux variables aléatoires suivent une loi exponentielle de paramètre
λ = 1, f (x) = e−x . On a alors
Z ∞ Z ∞
fU (u) = ve−uv e−v(1−u) dv = ve−v dv = 1
0 0

La v.a. U suit donc une loi uniforme. Comme on doit avoir uv > 0 et v(1 − u) > O, cela donne v > 0 et
u ∈]0, 1[.

2.7 Moments

La notion de moment permet d’introduire celle d’indicateur résumant et/ou caractérisant une variable
aléatoire. On y retrouvera la moyenne comme cas particulier.

2.7.1 Définitions

Moment
R +∞ n
d’ordre n. On appelle moment d’ordre n de la v.a. X et l’on note αn la valeur αn = E(X n ) =
−∞ x dF (x).

Pour les v.a. discrètes, cela donne : αn =


P n
i xi P (X = xi )
Moment d’ordre n rapporté à l’abscisse a. On appelle moment R +∞
d’ordre n de la v.a. X rapporté
à l’abscisse a , et l’on note αa,n , la valeur αa,n = E((X − a) ) = −∞ (x − a)n dF (x).
n

Moment centré d’ordre n. R +∞


On appelle moment centré d’ordre n de la v.a. X et l’on note µn la
valeur µn = E((X − E(X)) ) = −∞ (x − E(x))n dF (x). Le moment centré d’ordre n d’une v.a. est donc
n

le moment d’ordre n de cette v.a. rapporté à l’abscisse particulière qu’est sa moyenne (µn = αE[X],n ).

II-6
2.7.2 Quelques moments particuliers

• µ1 = E(X − E(X)) = E(X) − E(X) = 0


• α1 est la moyenne.
• µ2 = α2 − α12 • µ2 est la variance (voir plus loin).
Très souvent, pour des raisons d’efficacité, les moments souhaités, i.e. µk , sont calculés à partir
des moments simples, i.e. αk . En effet, le calcul d’un moment centré nécessite le calcul préalable de
l’espérance mathématique, il y a donc 2 pas de calculs au lieu d’un seul pour les moments non centrés.
• µ3 = α3 − 3α1 α2 + 2α13
• µ4 = α4 − 4α1 α3 + 6α12 α2 − 3α14
µ2 , µ3 et µ4 sont utilisés pour caractériser la forme d’une distribution. Pour cela, on construit des
indicateurs sans dimension :
µ3
Le coefficient d’asymétrie (skewness) : γ1 = 3 . Ce coefficient est nul pour une distribution parfaite-
(µ2 ) 2
ment symétrique, inférieur à zéro si la distribution est plus étendue vers la gauche (les valeurs inférieures
à la moyenne), et supérieur à zéro dans le cas contraire.
Le coefficient d’aplatissement (kurtosis) : γ2 = (µµ24)2 . γ2 est toujours supérieur à 1. De plus, on a
toujours γ2 ≥ 1 + (γ1 )2 . Plus que l’aplatissement, le coefficient γ2 mesure l’importance des “queues” de
distribution. Cet indicateur vaut 3 dans le cas de la loi de Gauss (cf chapitre sur les principales lois de
probabilité). Il est inférieur à 3 pour une distribution moins large que la loi de Gauss et supérieur à 3
pour une distribution plus large.
Remarque : Ces indicateurs ne sont utilisables, i.e. n’ont de sens, que dans le cas d’une distribution
unimodale (un seul maximum).

2.7.3 Variance, covariance et écart-type

La variance est définie par

µ2 = E((X − E(X))2 ) = σ 2 = variance de X = V(X) = E(X2 ) − E(X)2

Elle traduit la dispersion de la distribution de la v.a. autour de sa valeur moyenne. Etant un carré,
la dimension de la variance n’est pas celle de la moyenne. C’est pourquoi on utilise plus souvent l’écart
type, noté σ, qui est la racine de la variance.
On dit aussi que la variance traduit la notion d’incertitude. Plus la variance est faible, moins le
résultat de l’expérience aléatoire est incertain. A la limite, une v.a. de variance nulle conduit à des
expériences strictement identiques (i.e. le phénomène est complètement déterministe, il n’y a donc plus
aucune raison de garder la notion de variable aléatoire).
La variance a également des propriétés intéressantes vis à vis de la combinaison linéaire de v.a. :
Soient X1 et X2 deux v.a.

V(X1 + X2 ) = V(X1 ) + V(X2 ) + 2cov(X1 , X2 )

où cov(X, Y ) est la covariance des v.a. X et Y définie par :

II-7
cov(X, Y ) = µ1,1 = E(XY ) − E(X)E(Y ) = E[(X − E(X))(Y − E(Y ))]

La covariance peut être vue comme le moment centré conjoint d’ordre 1 de deux v.a. Si les deux v.a.
sont indépendantes, alors leur covariance est nulle (mais la réciproque n’est pas vraie en général).

Par ailleurs, soit X une v.a. et a et b deux constantes. On a V(aX + b) = a2 V(X)

2.7.4 Variable centrée réduite

On appelle variable aléatoire centrée réduite, une v.a. Y construite par : Y = X−E[X]
√ .
V [X]

C’est le moyen le plus classique pour normaliser une v.a. Par construction, on obtient E[Y ] = 0 et
V [Y ] = 1.

2.7.5 Coefficient de corrélation

La relation entre deux v.a. peut être quantifiée par la covariance comme vue précédemment. Cependant,
à l’image de la moyenne et de la variance, la covariance est un moment donc possède une dimension
ce qui la rend plus difficile à interpréter. C’est pourquoi on utilise plus généralement le coefficient de
corrélation, indicateur sans dimension, défini par

cov(X,Y ) µ1,1
ρ(X, Y ) = σX σY =√
µ2 (X) µ2 (Y )

Le coefficient de corrélation mesure la qualité de la relation linéaire entre deux variables aléatoires X
et Y (i.e. de la forme Y = aX + b). On a les propriétés suivantes :
• ∀X, Y : ρ(X, Y ) ∈ [−1, 1].
• Si X et Y sont indépendantes, alors ρ(X, Y ) = 0 (la réciproque n’est pas vraie en général).
• ∀X, Y ∀a1 , a2 , b1 , b2 ∈ < (a1 a2 6= 0) : ρ(a1 X + b1 , a2 Y + b2 ) = sign(a1 a2 )ρ(X, Y )
• Si il existe une relation linéaire entre X et Y alors ρ(X, Y ) = ±1.
On peut réécrire la relation sur la variance d’une somme de v.a. en utilisant le coefficient de
corrélation :

σ 2 (X1 + X2 ) = σ 2 (X1 ) + σ 2 (X2 ) + 2ρ(X1 , X2 )σ(X1 )σ(X2 )

Et en généralisant, on obtient

i=n
X i=n
X X j=n
i=n−1 X
σ2( Xi ) = σ 2 (Xi ) + 2 ρ(Xi , Xj )σ(Xi )σ(Xj )
i=1 i=1 i=1 j>i

II-8
2.7.6 Exemple

Soit X une v.a. continue et uniforme sur [− a2 , a2 ] (i.e. équiprobabilité de toutes les valeurs). L’uniformité
de X conduit à une densité de probabilité constante :

 0
 si x < − a2
1
f (x) = a si − a2 ≤ x ≤ a
2
si x > a2

 0

Le calcul des moments donne :


a
R +∞ n 1 R +2 n 1 a n+1
αn = E(X n ) = −∞ x dF (x) = a − 2 x dF (x) = a(n+1) [( 2 )
a − (− a2 )n+1 ]
1
donc α2p+1 = 0 et α2p = 2p+1 × ( a2 )2p
a2
La moyenne (n = 1, p = 0) de X est donc nulle et la variance (n = 2, p = 1) est égale à 12 .

2.7.7 Inégalités de Bienaymé - Tchebyshev - Markov

E[g(X)]
Inégalité de Tchebyshev : P (g(X) ≥ k) ≤ k où k est un réel positif et g une fonction positive.
E(X n )
En posant, g(X) = X n , on obtient l’inégalité de Markov : P (X n ≥ k n ) ≤ kn .

De même, si l’on pose g(X) = (X − E(X))2 et k = t2 σ 2 , on obtient l’inégalité de Bienaymé-


Tchebyshev : P ((X − E(X)) ≥ tσ) ≤ t12 .
Cette inégalité est la plus connue des trois. Elle est valable quelle que soit la v.a. X, ce qui est une
propriété très intéressante. Malheureusement, elle n’a que peu d’applications pratiques car la majoration
qu’elle fournit est la plupart du temps excessive.

II-9
2.8 Quelques lois de probabilités

2.8.1 Les valeurs principales

Loi Type Prob. ou ddp Moyenne Variance


0-1 D P (X = 0) = 1 − p et P (X = 1) = p p p(1 − p)
n2 −1
Uniforme D P (X = x) = n1 , x ∈ [1, n] n+1
2 12
Binomiale D P (X = x) = Cnx px (1 − p)n−x pour x ∈ [0, n] np np(1 − p)
1 1−p
Géométrique D P (X = x) = p(1 − p)x−1 pour x = 1, 2, . . . p p2
n−1 n n n(1−p)
Pascal D P (X = x) = Cx−1 p (1 − p)x−n p p2
e−λ λx
Poisson D P (X = x) = x! pour λ > 0 et x = 1, 2, . . . λ λ
1 a+b (b−a)2
Uniforme C f (x) = b−a avec a ≤ x ≤ b 2 12
(x−µ)2
Gauss C f (x) = √2πσ1
e− 2σ2 pour x ∈ < µ σ2
Cauchy C f (x) = π(a2a+x2 ) non défini non défini
k k−1 −λx
Gamma C f (x) = λ x Γ(k)e , x > O k
λ
k
λ2
x
Exponentielle C f (x) = a1 e− a pour x > 0 et a > 0 a a2
x2 q
Rayleigh C f (x) = σx2 e− 2σ2 pour x > 0 σ π
2 σ 2 (2 − π2 )
Laplace C f (x) = a2 e−a|x| 0 2
a2
m x
χ2 C f (x) = m 1 m x 2 −1 e− 2 m 2m
2 2 Γ( 2 )
n+1
n
Student C f (x) = √
2
(n+1)/2 0 n−2 ; n>2
2
nπΓ( n
2
) 1+ xn
β
Weibull C f (x) = βxβ−1 e−x Γ(1 + β1 ) Γ(1 + β2 ) − E 2 (x)

Type : D ≡ loi discrète ; C ≡ loi continue.

2.8.2 Liaisons entre lois de probabilités

Loi 0-1 : on appelle aussi cette loi, loi de Bernoulli. La v.a. associée à une telle loi est considérée comme
la fonction indicatrice d’un évènement de probabilité p. C’est un cas particulier de la loi Binomiale.
Loi binomiale : On obtient une v.a. de loi binomiale B(n, p) par une somme de n v.a. de loi 0-1 (p).
En d’autres termes, la loi binomiale est la loi associée à n répétitions, dans des conditions identiques
et indépendamment, d’une expérience aléatoire dont l’issue est l’apparition ou la non apparition d’un
évènement. La somme de deux lois binomiales de même paramètre est une loi binomiale.
Loi géométrique : La loi géométrique est la loi du nombre d’essais nécessaires pour faire apparaı̂tre un
évènement de probabilité p.
Loi de Pascal d’ordre n : C’est la loi du nombre d’essais nécessaires pour observer exactement n fois
un évènement de probabilité p. Cette loi est la somme de n lois géométriques indépendantes
Loi de Poisson (magistrat français du XIXème siècle) : On obtient une v.a. de loi de Poisson à partir
d’une v.a. de loi binomiale B(n, p) pour laquelle on a n → ∞ et p → 0 et np → λ 6= ∞. On peut aussi
introduire la loi de Poisson par la notion de processus de Poisson. Soit un phénomène tel qu’un seul
évènement puisse se produire à la fois (non simultanéı̈té des réalisations) et que le nombre d’évènements
se produisant pendant une période T ne dépend que de la durée de cette période. Supposons enfin
l’indépendance des évènements. Soit E(N ) = cT l’espérance mathématique d’un nombre N d’évènements
pendant la période de durée T avec la cadence c. c désigne donc le nombre moyen d’évènements par

II-10
unité de temps. nOn démontre alors que la probabilité d’obtenir n évènements pendant un temps T est
P (N = n) = (cTn!) e−cT .

Figure 1: Densité de probabilité de la loi de Poisson de paramètre λ = 10.

La somme de deux lois de Poisson de paramètres λ1 et λ2 est une loi de Poisson de paramètre λ1 + λ2 .
Loi Normale ou loi de Gauss-Laplace : C’est incontestablement la loi la plus connue. On la doit
à Moivre qui, en 1738, a trouvé cette loi comme limite de la loi binomiale. On utilisera la notation
suivante : ℵ(moyenne, variance) = ℵ(µ, σ 2 ). On la retrouve comme modèle le plus courant pour les
distributions d’erreurs de mesure autour d’une valeur “vraie”. Elle joue aussi un rôle important en terme
de comportement asymptotique des autres lois de probabilités, comme le montre le théorème central
limite. Une propriété intéressante de cette loi est sa conservation vis à vis de la combinaison linéaire :
Soient {Xi } un ensemble de p v.a. normales de paramètres (µi , σi2 ) deux à deux indépendantes, leur
somme pondérée par les coefficients αi est une v.a. normale de paramètres la somme pondérée des
paramètres ( αi µi , αi2 σi2 )
P P

Loi exponentielle : Si Y suit une loi de Poisson, et traduit le nombre d’apparitions d’un certain
phénomène aléatoire dans un intervalle de temps t, alors la variable aléatoire 1/Y représente l’intervalle de
temps séparant deux apparitions d’un évènement donné. Cette nouvelle variable suit une loi exponentielle
de paramètre a où a est le paramètre de la loi de Poisson. En fiabilité, cette loi est très utilisée pour
représenter la durée de vie de circuits électroniques. L’espérance a est souvent appelée le MTBF (Mean
Time Between Failure) et a1 le taux de défaillance. La loi exponentielle est un cas particulier de la loi
Gamma pour k = 1.
La loi exponentielle est souvent utilisée pour son caractère sans mémoire. Soit X une variable aléatoire
suivant une loi exponentielle. Soient u et t deux réels strictement positifs, on a

P (X > t + u|X > t) = P (X > u)

Cela signifie que la probabilité d’être dans un intervalle [t, t + u] dépend uniquement de la largeur de
l’intervalle et pas de sa position absolue (d’où le vocable “d’effet sans mémoire“).

II-11
Figure 2: Densité de probabilité de la loi normale centrée réduite.

Figure 3: Densité de probabilité de la loi exponentielle de paramètre a = 3.

Loi de Weibull : Cette loi est aussi très utilisée pour caractériser la fiabilité des matériels. Elle est
reliée à la loi exponentielle par la relation suivante : X suit une loi de Weibull de paramètre β si X β suit
une loi exponentielle. On dit que β est le paramètre de forme : β > 1 correspond à un matériel qui se
dégrade avec le temps (usure); β < 1 à un matériel qui se bonifie avec le temps; β = 1 (cas où la loi est
exponentielle) à un matériel sans usure (pannes purement accidentelles).

II-12
Figure 4: Densité de probabilité de la loi de Weibull de paramètre β = 2.

Loi Gamma : Soit une v.a. normale X de paramètres (µ, σ) et soit Y une v.a. construite par
2
Y = 12 (X−µ)σ2
. Y suit une loi Gamma de paramètres (λ, k) = ( 21 , 1). La distribution gamma est une
généralisation de la loi exponentielle. En effet, si la loi exponentielle corrrespond à la distribution de
probabilité du temps séparant l’apparition de deux évènements donnés, la loi gamma fournit la distri-
bution de probabilité du temps qui s’écoule entre la Kème et la (K+r)ème apparition de l’évènement.
La loi gamma est appliquée comme modèle de probabilité pour prévoir la durée de vie des appareils qui
subissent une usure tels les véhicules automobiles ou les appareils mécaniques.
Loi du χ2 : Le paramètre m est le nombre de degrés de liberté de cette loi. Cette distribution permet
de définir la loi de la v.a. χ2m = m 2
P
1 xi où les xi sont des v.a. normales centrées réduites indépendantes.
Pour m tendant vers l’infini, cette loi tend asymptotiquement vers une loi normale. La somme de deux
v.a. du χ2 à respectivement a et b degrés de liberté, est une nouvelle v.a. de loi du χ2 à a + b degrés de
liberté. On peut aussi relier cette loi à la loi Gamma avec (k, λ) = (m/2, 1/2).
q
Loi de Rayleigh : C’est la loi de la norme, i.e. R = x21 + x22 où x1 et x2 sont des v.a. normales
centrées. C’est aussi la loi de la dérivée de la loi normale. La loi de Rayleigh apparaı̂t souvent pour
décrire le bruit en sortie de certains récepteurs de transmissions.
Loi de Student : Si X : ℵ[0, σ 2 ], et si Y (indépendante

de X) est telle que Y 2 /σ 2 suit une loi du χ2
X n
à n degrés de liberté, alors la variable T = Y suit une loi de Student à n degrés de liberté. Cette loi
sert essentiellement pour les tests statistiques d’hypothèses.

2.9 Quelques relations

En statistique, on est souvent amené à construire les variables aléatoires suivantes :

II-13
X̄ = n1 i=n
P
i=1 Xi
1 Pi=n
S 2 = n−1 i=1 (Xi − X̄)
2
√ X̄−µ
T = n S

Dans le cas, fréquent, où l’on admet ou vérifie, que les Xi sont des lois normales de même paramètrage
(µ, σ), alors
X̄ suit une loi normale ℵ(µ, √σn ).
S 2 suit une loi du χ2 à n − 1 degrés de liberté.
T suit une loi de Student n − 1 degrés de liberté.
Par ailleurs, on sait que seules les affinités (et en particulier les sommes) conservent les lois normale,
binomiale, uniforme et Gamma (à paramètres entiers).

Xi : B(ni , p)
Pk
(Xi ) indépendantes Y : B( i=1 ni , p)
Y = ki=1 Xi
P

Xi : P(λi )
Pk
(Xi ) indépendantes Y : P( i=1 λi )
Y = ki=1 Xi
P

Xi : N (µi , σi2 )
Pk Pk 2 2
(Xi ) indépendantes Y : N( i=1 ai µi , i=1 ai σi )
Y = ki=1 ai Xi
P

Xi : E(λ)
(Xi ) indépendantes Y : G(k, λ)
Y = ki=1 ai Xi
P

Xi : G(a, pi )
Pk
(Xi ) indépendantes Y : G(a, i=1 pi )
Y = ki=1 Xi
P

Xi : χ2 (γi )
Pk
(Xi ) indépendantes Y : χ2 ( i=1 γi )
Y = ki=1 Xi
P

2.10 Loi des grands nombres

2.10.1 Convergence stochastique

On s’intéresse à la loi d’une suite de v.a. indentiques, et plus particulièrement à la convergence à l’infini.
Pour étudier cette convergence, il existe de nombreux outils dont nous résumons ici les principaux.
Convergence en loi. Soit une suite de v.a. Xn de F.R. Fn (x), et soit X une v.a. de FR F (x). On dit
que la suite Xn converge en loi vers la v.a. X ssi Fn (x) converge vers F (x).
Convergence en probabilité. On dit que la suite Xn converge en probabilité vers la v.a. X ssi ∀η, 
(donnés arbitrairement petits) ∃n0 tel que n > n0 ⇒ P (|Xn − X| > ) < η
Cette définition est une généralisation du théorème de Bernouilli (dans le cas où X est une constante).
En conséquence de ce théorème, on sait que dans une série d’épreuves indépendantes, la fréquence relative
de l’évènement A converge en probabilité vers P(A) quand le nombre d’épreuves croit indéfiniment.

II-14
Convergence en moyenne. On dit que la suite Xn converge en moyenne d’ordre p vers la v.a. X ssi
E(|Xn − X|p ) → 0 pour n tendant vers l’infini. La plus utilisée de ces convergences est la convergence
en moyenne quadratique (p = 2).
La convergence moyenne d’ordre 2 implique la convergence en moyenne d’ordre 1 (ou convergence en
moyenne) qui implique la convergence en probabilité qui implique la convergence en loi. Cette dernière
est donc la convergence la plus stricte.
Exemple : Théorème de De Moivre-Laplace : Soit Xn une suite de v.a. binomiales B(n, p). √Xn −np
np(1−p)
converge en loi vers une loi normale centrée réduite ℵ(0, 1). On admet généralement que cette convergence
est bonne si np > 5 et n(1 − p) > 5. Par exemple, soit une v.a. X : B(40, 0.3). Le critère est validé.
Soit à approximer la valeur de P (X = 11). La valeur exacte est 0.1319 d’après les tables. D’après le
x− 1 −np x+ 1 −np
théorème, on obtient une valeur approchée de P (X = x) par P (X = x) ≈ P ( √ 2 <N < √ 2 )
np(1−p) np(1−p)

Cette formule d’approximation avec une loi ℵ(12, 8.4) donne
P (X = 11) ≈ P ( 10.5−12

8.4
< N < 11.5−12

8.4
) = P (−0.52 < N < −0.17) = P (0.17 < N < 0.52) =
0.6895 − 0.5675 = 0.131 Soit une erreur de moins de 1%.

2.10.2 Théorème central limite

Le théorème central limite est l’un des résultats les plus importants de la théorie des probabilités. De
façon informelle, ce théorème donne une estimation très précise de l’erreur que l’on commet en approchant
l’espérance mathématique par la moyenne arithmétique. Ce phénomène a d’abord été observé par Gauss
qui l’appelait loi des erreurs; mais ce dernier n’en a pas donné de démonstration rigoureuse. La preuve
du théorème a été apportée part Moivre et Laplace; le théorème porte donc parfois leurs noms.
Ce théorème est fondamental car il justifie toutes les approximations par la loi normale.
Théorème :
Soit Xn une suite de v.a. de même loi d’espérance µ et d’écart type σ. Alors la v.a. √1 ( X1 +X2 +...+Xn −nµ )
n σ
converge en loi vers une v.a. normale centrée réduite ℵ(0, 1).
Exemples : La moyenne expérimentale ou arithmétique ( X1 +X2n+...+Xn ) converge donc vers une loi
normale de moyenne µ, la moyenne théorique, et d’écart-type √σn .

q Une proportion Fn tend vers une loi normale de moyenne la proportion théorique p et d’écart-type
p(1−p)
n .

Comme cas particulier de ce théorème, on retrouve également la convergence d’une suite de loi bi-
nomiale vers la loi normale (théorème de Bernoulli). Ce théorème justifie l’utilisation de la loi normale
lorsqu’il y a répétition d’expériences identiques. Par contre, ce théorème reste strict sur les conditions
d’applications. On considère souvent que ce théorème reste valable même si les distributions individuelles
sont différentes, pour autant que la variance de chacun des termes individuels soit négligeable vis-à-vis
de la variance de la somme. C’est en fait un théorème plus général du à Lindeberg.
Théorème :
Soient X1 , X2 , . . . , Xn des v.a. indépendantes, pas forcément de même loi, centrées et de variance σi2 .
Pi=n
Xi , s2n = i=n 2
P
Soient Sn = i=1 i=1 σi et Fi (x) la fonction de répartition de la v.a. Xi . Si la condition
suivante est réalisée

II-15
n Z
!
1 X
∀ > 0 lim X 2 dFi (x) =0
n→∞ s2n i=1 |Xi |>sn i

alors

Sn L
→ ℵ(0, 1)
sn

La condition de Lindeberg exprime que les v.a. XiS−µ i


i
sont “uniformément petites” avec une grande
probabilité. Le résultat veut dire qu’à force d’ajouter de telles variables, on finit par obtenir une loi
normale. Autrement dit, si une variable est la résultante d’un grand nombre de causes, petites, à effet
additif, cette variable suit une loi normale. C’est à cause de cette interprétation que la loi normale est
très souvent employée comme modèle (malheureusement pas toujours à raison).
Enfin, notons que ces théorèmes supposent l’existence des moments des v.a. On ne peut donc pas les
utiliser par exemple pour des v.a. suivant une loi de Cauchy (dans ce cas particulier, la somme produit
une v.a. qui a toujours une loi de Cauchy et cela quel que soit le nombre d’éléments dans la somme).

2.11 Simulation d’une variable aléatoire

Très souvent en simulation, on est amené à utiliser des échantillons fictifs de réalisations d’une v.a. de
loi déterminée. Nous abordons ici un ensemble de méthodes de construction de tels échantillons

2.11.1 Méthode générale par transformation inverse

Soit à construire un échantillon de n réalisations d’une v.a. X de fonction de répartition F . Soit Y la v.a.
définie par Y = F (X). Cette v.a. suit une densité de probabilité uniformément distribuée sur l’intervalle
[0, 1]. Sa fonction de répartition G est telle que G(y) = P [Y < y] = y.
Soient y1 , . . . , yn un échantillon de taille n d’une v.a. uniformément distribuée sur [0, 1]. Les yi
peuvent être considérés comme des réalisations de la v.a. Y . Pour calculer les réalisations de xi , il
suffira alors de calculer la valeur de xi qui correspond à une valeur yi de sa fonction de répartition :
X = F −1 (Y ) ⇒ xi = F −1 (yi )

2.11.2 Loi uniforme

La construction d’un échantillon fictif d’une v.a. de loi quelconque nécessite en premier lieu la construction
d’un échantillon fictif d’une v.a. uniforme entre 0 et 1. Pour une loi uniforme, on ne pourra donc pas se
servir de la méthode générale. On utilisera alors soit des tables de nombres au hasard, soit des algorithmes
de génération de nombres pseudo-aléatoires (fonction random classique sur les machines par exemple).

2.11.3 Loi exponentielle


x x
f (x) = a1 e− a pour x > 0 et a > 0. On a le résultat suivant F (x) = 0x f (u)du = 1 − e− a . La méthode
R

générale par transformation inverse nous donne x = F −1 (y). Si on remplace y par 1 − y (ce qui est
x
possible sans conséquence car la distribution uniforme est symétrique), alors on obtient 1 − y = e− a . On
a donc xi = −a Ln yi .

II-16
2.11.4 Loi binomiale

f (k) = Cnk pk (1 − p)n−k . p et n doivent être connus. On pose alors k0 = 0 et on génère n nombres
aléatoires yi uniformément distribués et pour chaque yi , on fait le test
si yi ≤ p alors faire ki = ki−1 + 1
si yi > p alors faire ki = ki−1
kn sera la valeur de la réalisation d’une v.a. binomiale de paramêtres n et p. Cet algorithme utilise
la propriété qui relie la loi binomiale à la loi 0-1 (p).

2.11.5 Loi de Poisson


k
f (k) = e−λ λk! . On utilise le fait que les intervalles de temps séparant deux évènements successifs suivant
une loi de Poisson sont distribués exponentiellement. On génère donc les intervalles t1 . . . tn distribués
suivant une loi exponentielle de moyenne 1. La réalisation k de la variable aléatoire de Poisson de
paramètre λ sera alors déterminée par l’inégalité

k
X k+1
X
ti < λ < ti
i=0 i=0

avec ti = −Ln yi ( yi : v.a. uniforme [0,1] et ti v.a. exponentielle de moyenne 1).

2.11.6 Loi normale : ℵ(µ, σ 2 )

On utilise le théorème central limite. La distribution de la moyenne Ȳ d’une v.a. Y tend vers une loi
normale lorsque la taille n de l’échantillon est suffisamment grande, et ceci quelle que soit la distribution
de la v.a. YP. On peut donc prendre Y : v.a. uniforme sur [0,1]. Donc E(Y ) = 12 et V (Y ) = 12 1
. La v.a.
n
y −n
définie par √ ni
i=1 2
tend vers une loi normale centrée réduite.
12

Pour obtenir une échantillon de v.a. normale de moyenne µ et de variance σ 2 , on utilisera la relation

n
r " #
12 X n
xi = µ + σ yi −
n i=1 2

En pratique, on utilise n ≈ 100.

2.12 Autres indicateurs

Il existe d’autres indicateurs permettant de caractériser une v.a. Ils ne sont pas issus du calcul des
moments.

2.12.1 Histogramme

L’histogramme est analogue à la courbe de densité. L’ordonnée associée à chaque abscisse est égal à la
fréquence d’apparition de la valeur dans l’échantillon. Dans le cas d’une v.a. discrète, la construction de

II-17
l’histogramme ne pose pas de problème. Par contre, pour une v.a. continue, il est nécessaire de résumer
les valeurs à reporter sur la courbe en classes.
La détermination du nombre de classes d’un histogramme est délicate et il n’existe aps de règle
absolue. Un trop faible nombre de classes fait perdre de l’information et aboutit à gommer les différences
pouvant exister entre des groupes de l’ensemble étudié. En revanche, un trop grand nombre de classes
aboutit à des graphiques incohérents où certaines classes deviennent vides ou presque car n, la taille de
l’échantillon, est fini.
Sturges propose comme limite maximale du nombre de classes

nc = [1 + Log2 (n)]
où [ ] désigne la partie entière. Ainsi pour 100 mesures, il ne faudrait pas construire d’histogrammes de
plus de 7 classes.

2.12.2 Médiane

Par définition, la médiane est la valeur correspondant au milieu de la fonction de répartition d’une v.a.
Z x̃
1
x̃ : dF (x) =
−∞ 2

Si la loi de la v.a. est symétrique, alors la médiane est égale à l’espérance mathématique. la médiane
n’est pas unique. C’est une indicateur insensible aux valeurs extrèmes ce qui en fait un outil très
intéressant dans le domaine des statistiques robustes.
Si l’on part d’un échantillon de n réalisations triées par ordre croissant, la médiane sera obtenue par
x +x
x̃ = x(n+1)/2 si n est impair. Si n est pair, on prend conventionnellement x̃ = n/2 2 n/2+1
Exemple : La médiane de la série {1, 3, 2, 19, 6, 7, 0} est 3 (la valeur 3 est la 4ème dans la série triée
({0, 1, 2, 3, 6, 7, 19}) alors que la moyenne est 5.43.
Lorsque l’on ne connait qu’une répartition en classes, on cherche la classe médiane [ei−1 , ei ] telle que
F (ei−1 ) < 0.5 et F (ei ) > 0.5. On détermine alors x̃ par une interpolation linéaire de la forme
0.5 − F (ei−1 )
x̃ = ei−1 + (ei − ei−1 )
F (ei )

2.12.3 Mode

Par définition, le mode d’une v.a. est sa valeur la plus probable


xmode : P (X = xmode ) = M axx P (X = x)

Le mode n’est pas unique. Il n’est strictement défini que pour une v.a. discrète car pour toute v.a.
continue, on a ∀ x P (X = x) = 0. Cependant, nous verrons dans le chapitre sur l’estimation qu’il est
possible de trouver une valeur que l’on assimile au mode pour les v.a. continues.

2.12.4 Autres moyennes

Dans la pratique, il peut arriver que la nature des réalisations d’un échantillon ne soit pas adaptée à
l’utilisation de la moyenne classique. Il existe d’autres possibilités

II-18
pQ n
• La moyenne géométrique : µg = i=1 xi
Qn
n i=1 xi
• La moyenne harmonique : µh = Pn
x i=1 i

Il est très dur de connaı̂tre les lois de comportements de ces indicateurs particuliers. Il doivent donc
être utilisés avec précaution.

II-19
3 Estimation

On considère généralement deux types d’estimation: l’estimation ponctuelle (on cherche à estimer une
valeur) et l’estimation par intervalle de confiance où l’on estime la probabilité que la valeur vraie d’un
paramètre appartienne à un intervalle donné.

3.1 Estimation ponctuelle

3.1.1 Introduction

A partir de données d’échantillons représentatifs, on va induire des résultats sur la population-mère (i.e.
population dans laquelle les échantillons ont été prélevés).
Plus exactement, soit θ un paramètre inconnu 1 intervenant dans la loi de probabilité d’une variable
aléatoire X. La loi de probabilité de cette variable aléatoire doit être connue analytiquement (on choisit
parmi les modèles existants la loi la plus appropriée au phénomène observé). Seule la valeur numérique
du paramètre θ intervenant dans cette loi de probabilité est inconnue.
Soient x1 , . . . , xi , . . . , xn les n valeurs prises par la v.a. X dans un échantillon de taille n prélevé dans
la population-mère.
On appelle estimateur de θ, et l’on note Tn , la fonction qui aux valeurs xi de l’échantillon fait
correspondre la valeur du paramètre θ. On note la valeur numérique de cette estimation par

θ̂ = Tn (x1 , . . . , xn )

Par définition, Tn est une fonction des réalisations d’une v.a., Tn est donc une v.a. dont on peut
chercher à déterminer les caractéristiques (loi, ddp, FR, moments, . . . ).
Exemple: On observe un phénomène de production de pièces manufacturées. Chaque pièce est associée
à une mesure (un indicateur de qualité par exemple). Comme on ne peut pas vérifier chaque mesure, on
procède à un échantillonnage qui nous fournit donc un échantillon. Supposons que la connaissance de la
nature de cet indicateur nous permet de faire l’hypothèse qu’il obéit à une loi de probabilité normale. Le
problème est maintenant, au vue de l’échantillon {xi }, de proposer une valeur pour la moyenne de cette
loi normale. Il faut procéder à une estimation du paramètre vrai µ qui se traduit par la valeur µ̂. Il y a
une infinité de manière possible parmi lesquelles on peut citer
1
• µ̂ =
P
n i xi

• µ̂ =médiane{xi }
• µ̂ =mode{xi }
• µ̂ = x7
Quel est le meilleur estimateur de la moyenne ? Existe-t-il ?
Sur ce simple exemple, est résumé le problème fondamental de l’estimation: quelle est la définition
mathématique de meilleur?
La réponse est simple, il n’en existe pas. Alors comment comparer les estimateurs. Pour cela, on se
sert de plusieurs critères, le plus souvent liés au bon sens:
1
Dans la suite, nous considèrerons que θ est un scalaire mais les raisonnements peuvent bien sûr être étendus au cas de
l’estimation d’un vecteur de paramètres, par exemple le vecteur (moyenne,variance) définissant une loi normale.

III-1
le biais: On souhaite que l’estimation ne soit pas systématiquement décalée par rapport à la valeur
vraie.
la précision: Si l’on répète l’estimation sur un autre échantillon, on souhaite obtenir une estimation
cohérente, donc peu de variation d’un échantillon à l’autre. On parlera aussi d’efficacité.
la convergence: Si l’on peut estimer la valeur du paramètre sur toute la population-mère, la valeur de
l’estimation obtenue doit être la valeur vraie du paramètre.
la compléxité: Toute estimation nécessite un calcul donc un temps. On s’attachera donc à évaluer la
complexité du calcul en fonction de la taille des données (i.e. n).
la robustesse: Dans tout cas concrèt, il existe des sources de perturbations. On souhaite que l’estimation
ne soit pas sensible à la présence de valeurs abérantes (outliers en anglais).
Ces différents critères ne sont pas forcément compatibles entre eux, et l’on retrouve des dilemmes
classiques, précision vs robustesse, convergence vs complexité.

3.1.2 Estimateur convergent

Un estimateur Tn est convergent si la valeur estimée tend en probabilité vers la valeur vraie du paramètre,
soit:
∃n0 : ∀n > n0 ∀ξ, ν (arbitrairement petits) P (|Tn (x1 , . . . , xn ) − θ| < ξ) > 1 − ν
Si l’estimation est exhaustive (l’échantillon est égal à la population-mère), alors la valeur vraie du
paramètre est connue.

3.1.3 Estimateur sans biais

Un estimateur Tn est dit sans biais lorsque son espérance mathématique est égale à la valeur vraie du
paramètre.
E(Tn ) = θ

Un estimateur Tn est dit asymptotiquement sans biais si le biais diminue si la taille de l’échantillon
augmente:
lim E(Tn ) = θ
n→∞

Exemples:
1
• X : N (θ, 1): X̄ =
P
n xi est un estimateur convergent sans biais de la moyenne vraie de cette v.a.
1
• X : N (4, θ): S 2 = (xi − 4)2 est un estimateur convergent sans biais de la variance vraie de cette
P
n
v.a.
• X : N (µ, θ) (µ est supposée inconnue): S 2 = n1 (xi − X̄)2 est un estimateur convergent avec biais de
P

la variance vraie de cette v.a. Cet estimateur est considéré sans biais asymptotiquement.
1
• X : N (µ, θ) (µ est supposée inconnue): S 2 = (xi − X̄)2 est un estimateur convergent sans biais
P
n−1
de la variance vraie de cette v.a.
La différence entre ces deux derniers exemples se limite au dénominateur de la formule de calcul de S.
Le deuxième estimateur est sans biais car il prend en compte par le terme n − 1 le fait qu’il faut utiliser
une estimation préalable de la moyenne pour pouvoir faire l’estimation de la variance, i.e. il n’y a donc

III-2
plus n données disponibles (ou degrés de libertés) mais n − 1. Cette appréciation intuitive peut bien sûr
être démontrée.
Soit S 2 = n1 (xi − X̄)2 un estimateur de la variance. On pose comme hypothèse que l’échantillon
P

{xi } est constitué de n réalisations de V.A. indépendantes 2 à 2 et de même nature que la V.A. X inconnue
et dont on veut estimer la variance. Pour estimer le biais de S 2 , on calcule l’espérance mathématique de
l’estimateur  2
1 X 1X 
V̂ [X] = Xi − Xj
n n j

où Xi est la V.A. associée à la réalisation xi .


 2
1 X 1X 
E[V̂ [X]] = E[ Xi − Xj ]
n n j

Soit µ = E[X].
 2
h 1 X i 1X
E V̂ [X] = E[ Xi − µ − (Xj − µ) ]
n n j

En posant Yi = Xi − µ, on obtient une V.A. centrée et de même variance que Xi .


2 
 
1 X 1X  
h i
E V̂ [X] = E  Yi − Yj 
n n j

On simplifie l’équation précédente en tenant compte de la linéarité de l’opérateur espérance mathématique.


 2 
h 1 X  i 1X  
E V̂ [X] = E  Yi − Yj 
n i
n j

 
h 1X  2 2 X
i 1 X
E V̂ [X] = E Yi − Yi Yj + 2 ( Yj )2 
n i n j
n j
   
h i 1X h i 2 X X 1 X X
E V̂ [X] = E Yi2 − E Yi Yj  + E ( Yj )2 
n i
n2 i j
n3 i j
 
h i 1 X h 2i 2 XX 1 X X
E V̂ [X] = E Yi − 2 E [Yi Yj ] + 2 E Yi Yj 
n i
n i j
n i j
h i 1 X h 2i 1 XX
E V̂ [X] = E Yi − 2 E [Yi Yj ]
n i n i j

Pour aller plus loin, on tient compte de quelques propriétés :

• ∀i 6= j, E[Yi Yj ] = 0 car les V.A. sont indépendantes 2 à 2.

• V [Y ] = E[Y 2 ] car Y est centrée.

• ∀i, V [Yi ] = V [Y ] d’après la propriété énoncée sur Xi et V [Y ] = V [X] par propriété de la variance.

III-3
h i 1X 1 X h 2i
E V̂ [X] = V [Yi ] − 2 E Yi
n i n i
h i 1 n−1 n−1
E V̂ [X] = V [Y ] − V [Y ] = V [Y ] = V [X]
n n n

On constate bien un biais qui se traduit par le facteur n−1 n . Pour le compenser, on multiplie
n
l’estimateur V̂ par n−1 et on obtient un nouvel estimateur sans biais (car E[aV̂ ] = aE[V̂ ])
 2
n
1 X
xi −
1X
V̂ [X] = xj 
n−1 i
n j


En développant cette formule, on obtient une forme plus efficace

!2
1 X 2 1 X
V̂ [X] = xi − xi
n−1 i n(n − 1) i

3.1.4 Estimateur efficace

La variance d’un estimateur représente sa précision. Pour tous les estimateurs (ayant même moyenne),
il est possible de trouver celui dont la précision sera la meilleure, i.e. dont la variance sera la plus faible.
On parle alors d’estimateur à variance minimum.
Lorsque l’on compare deux estimateurs, on dira également que Tn est plus efficace que Tn∗ si V (Tn ) <
V (Tn∗ ).
Une estimation est liée à un échantillon de taille finie. Si la population-mère est de taille infinie,
il n’est pas possible d’avoir accès à la valeur vraie θ. La précision que l’on pourra obtenir sur Tn ne
pourra donc pas descendre en deça d’une certaine limite (borne inférieure de la variance de l’estimateur
ou Minimum Variance Bound (MVB)) qui est déterminée par l’inégalité de Cramer-Rao:

τ 0 (θ)2
V (Tn ) ≥
I(θ)

où I(θ), appelée quantité d’information de l’échantillon, est définie par:


" 2 #
∂LnL(X, θ)
I(θ) = E
∂θ

L(X, θ) est appelée fonction de vraisemblance et se calcule par:


n
Y
L(x1 , . . . , xn , θ) = f (x1 , θ)f (x2 , θ) . . . f (xn , θ)
i=1

f désignant la ddp de la v.a. X et

∂τ (θ)
τ (θ) = E[Tn ] τ 0 (θ) =
∂θ

III-4
Si un estimateur atteint la limite inférieure, on parle alors de MVB estimateur. On démontre aussi
que cet estimateur est obligatoirement convergent et sans biais.
Remarque: La notion d’information a été proposée dans les années 20 par le chercheur anglais Ronald
A. Fisher (considéré comme le père de la statistique mathématique). La démarche de Fisher est la
suivante: si l’on s’intéresse aux caractéristiques d’une population nombreuse (voire infinie, c’est le cas
limite auquel on est en permanence ramené), on ne peut ni connaı̂tre ni traiter les informations trop
abondantes relatives à chacun des individus qui la composent. Le problème devient donc d’être capable
de décrire correctement la population au moyen d’indicateurs de synthèse pouvant être fournis par des
échantillons issus de la population à étudier. Plus les données chiffrées que l’on peut extraire d’un
échantillon représentent correctement la population de référence et plus l’information contenue dans cet
échantillon doit être considérée comme élevée.
Partant de cette hypothèse, Fisher a définie techniquement l’information comme la valeur moyenne
du carré de la dérivée du logarithme de la loi de probabilité étudiée. La célèbre inégalité de Cramer
permet alors de montrer que la valeur d’une telle information est proportionnelle à la faible variabilité
- c’est à dire au fort degré de certitude - des conclusions qu’elle permet de tirer. Cette idée, qui est à
la racine de toute la théorie de l’estimation et de l’inférence statistique, est exactement celle que l’on
retrouvera vingt ans plus tard chez Shannon, exprimée cette fois en des termes non plus statistiques mais
probabilistes.

3.1.5 Robustesse

Le terme “robuste” a été pour la première fois introduit en statistique par G.E.P. Box en 1953. Un
estimateur est dit robuste si il est insensible à des petits écarts sur les hypothèses pour lesquelles il a été
optimisé. Il y a deux sens au terme “petit”: de petites variations sur toutes les données, ou des écarts
importants sur un petit nombre de données. C’est le deuxième aspect qui est le plus mal pris en compte
par les estimateurs classiques.
Ainsi, la robustesse traduit le plus souvent la résistance de l’estimation aux données abérentes. On
la définit mathématiquement par le plus petit nombre de données extrèmes qui modifie la valeur de
l’estimation ramené à la taille de l’échantillon.
Considérons un échantillon constitué de n valeurs identiques a, auquel on ajoutera une perturbation
sous la forme de valeurs extrèmes b  a. Pour estimer l’espérance mathématique, on peut utiliser la
moyenne arithmétique qui donne bien sûr a sur l’échantillon. Cependant, cette estimation est modifiée
dès l’introduction d’une nouvelle valeur, b, sa robustesse est donc de n1 . Par contre, la médiane de cet
échantillon n’est pas modifiée si l’on ajoute une valeur extrème. En fait, la médiane ne sera modifiée
que si le nombre de valeurs extrèmes est supérieur au nombre de valeurs initiales. On en déduit que la
n
−1
robustesse de l’estimateur médiane est égale à 2 n dont la valeur asymptotique est 21 .

3.2 Méthode du maximum de vraisemblance

Le critère d’efficacité permet de comparer des estimateurs. On peut aussi s’en servir pour construire
un estimateur. Soit X une variable aléatoire de densité de probabilité f (x, θ) connue analytiquement
mais dont l’un des paramètres θ est inconnu (numériquement). Le problème consiste donc à construire
une expression analytique fonction des réalisations de cette variable dans un échantillon de taille n,
permettant de trouver la valeur numérique la plus vraisemblable pour le paramètre θ.
Si {x1 , . . . , xn } sont des réalisations indépendantes de la v.a., on peut dire que

III-5
x1 X1
   
 ..  ~  .. 
~x =  .  est une réalisation d’un vecteur aléatoire X =  .  dont les composantes Xi sont
xn Xn
indépendantes deux à deux.
L’approche retenue consiste à chercher la valeur de θ qui rend le plus probable les réalisations que
l’on vient d’obtenir. La probabilité d’apparition a priori de l’échantillon en question peut alors être
caractérisée par le produit des probabilités d’apparition de chacune des réalisations (puisque celles-ci
sont supposées indépendantes deux à deux).

n
~ = ~x) =
Y
P (X f (xi , θ)
i=1

La méthode du maximum de vraisemblance consiste à rechercher la valeur de θ qui rend cette prob-
abilité maximale. Comme nous l’avons vu plus haut, le produit des valeurs f (xi , θ) est aussi noté
L(x1 , . . . , xn , θ) et appelé fonction de vraisemblance. La valeur θ̂ qui rend maximum la fonction de
vraisemblance L est donc la solution de:
∂LnL ∂ 2 LnL
= 0 ⇒ θ̂ : <0
∂θ ∂θ2
L’emploi du logarithme sur la fonction L permet de passer de la maximisation d’un produit à celle d’une
somme, le résultat restant le même car la fonction logarithme est monotone strictement croissante.
Propriétés de la fonction de vraisemblance:
R
• <n L(~x, θ)d~x = 1
R ∂L(~
x,θ)
• <n ∂θ d~ x =0
h i
∂LnL(~x,θ)
•E ∂θ =0
 
x,θ) 2 ∂ 2 LnL(~
 h i
1 ∂L(~ x,θ)
•E L(~
x,θ) ∂θ = −E ∂θ2

Théorème: Si il existe un estimateur efficace sans biais, il sera donné par la méthode du maximum de
vraisemblance.
∂L(~
x,θ)
Théorème: L’estimateur efficace Tn existe si ∂θ = A(θ)[Tn − τ (θ)] où A(θ) ne dépend pas des
observations xi . On peut alors montrer que
0
τ (θ)
V [Tn ] =

A(θ)

Cette approche est très théorique mais possède l’avantage d’être parfaitement formalisée.
Exemple 1: Soit X une loi normale N (µ, σ) avec σ connu mais µ inconnue. L’objectif est de construire
un estimateur de la valeur µ, étant donné un échantillon de réalisation ~x = (x1 , . . . , xn ). Pour cela, on
part de la fonction de vraisemblance de cet échantillon:

n n xi −µ 2
1 1

e− 2
Y Y
L(~x, µ) = f (xi , µ) = √ σ

i=1 i=1 2πσ

n xi −µ 2

− 12
Y
L(~x, µ) = K e σ

i=1

III-6
n 2
1X xi − µ

LnL(~x, µ) = K 0 −
2 i=1 σ

n 
∂LnL 1X xi − µ̂

= 0 ⇒ µ̂ : =0
∂µ σ i=1 σ

n
1X
µ̂ = xi
n i=1

La moyenne arithmétique est l’estimateur le plus efficace de l’espérance mathématique dans le cas de
la loi normale. Quel est le biais de cet estimateur ?

n
~ = 1X
µ̂n (X) Xi
n i=1

où Xi est une v.a. N (µ, σ).

n n
1X 1X
E[µ̂] = E[ Xi ] = E[Xi ] = µ
n i=1 n i=1

de part la propriété de linéarité de l’opérateur espérance mathématique. L’estimateur est donc sans
biais.

3.3 Estimation par intervalle de confiance

Cette nouvelle approche est souvent préférée dans la pratique car elle introduit la notion d’incertitude.
On cherche à déterminer l’intervalle [a, b] centré sur la valeur numérique estimée du paramèter inconnu θ
contenant la valeur vraie avec un probabilité α fixée a priori. Cette probabilité permet de s’adapter aux
exigences de l’application.

P [a < θ < b] = α

L’intervalle [a, b] est appelé intervalle de confiance et α est le coefficient de confiance. Une
estimation par intervalle de confiance sera d’autant meilleure que l’intervalle sera petit pour un coefficient
de confiance grand.
La donnée de départ, outre l’échantillon, sera la connaissance de la loi de probabilité du paramètre à
estimer. Comme il n’existe pas de résolution générale de ce problème, nous allons aborder successivement
les cas les plus fréquents (estimation d’une proportion, d’une moyenne, d’une variance de loi normale).

III-7
3.3.1 Estimation d’une proportion

Soit une population dont les individus possèdent un caractère A avec une probabilité p (loi 0/1). On
cherche à déterminer cette probabilité inconnue en prélevant un échantillon de taille n dans cette popu-
lation. On constate que x parmi les n individus possèdent le caractère A. Que peut-on en déduire, i.e.
la proportion fn = nx approxime la valeur vraie p, mais avec quelle confiance.
Soit Fn = nx ; Fn est une v.a. construite par la somme de n variables aléatoires 0/1 et de même
paramètre, p. C’est donc, d’après le théorème central limite, une
q variable aléatoire dont la loi de proba-
bilité tend vers une loi normale de moyenne p et d’écart-type p(1−p)n . Cette approximation est valable
uniquement si la taille de l’échantillon est suffisamment grande (i.e. n > 30 en pratique).
Construisons l’intervalle de confiance autour de p sous la forme:

P (|fn − p| < t) = 1 − α

où α q
est le risque (a priori, on construit un intervalle symétrique). fn est une réalisation d’une v.a.
N (p, p(1−p)
n ). donc on peut par normalisation et centrage obtenir une nouvelle v.a. U

fn − p
u= q : N (0, 1)
p(1−p)
n

On en déduit donc l’intervalle de confiance sous la forme:


 s s 
p(1 − p) p(1 − p) 
P [a < θ < b] = P  fn − u < p < fn + u =1−α
n n

q
La valeur t = u p(1−p)n est donc un résultat de calcul. La valeur de u sera lue sur une table de loi
normale N (0, 1). Il existe par ailleurs différentes manières pour approximer la valeur de p:
• soit par la proportion fn :
 s s 
fn (1 − fn ) fn (1 − fn ) 
P [a < θ < b] = P  fn − u < p < fn + u =1−α
n n

• soit par majoration: en effet, quelle que soit la valeur de p, le produit p(1 − p) est majoré par 14 .

u u
 
P [a < θ < b] = P fn − √ < p < fn + √ ≥1−α
2 n 2 n

Exemple: Soit un échantillon de taille n = 100 et une proportion estimée fn = 0.6. Quelle est la
confiance dans cette valeur ou bien quel intervalle donne une confiance de 0.9 (risque de 10%?

r r
0.6 × 0.4 0.6 × 0.4 p − 0.6
t : P (0.6 − u < p < 0.6 + u ) = P (−t < < t) = 0.9
100 100 0.049

Par lecture dans la table de la loi normale, on obtient P (X < u) = 0.95 → u = 1.645. L’intervalle à
90% de confiance autour de la proportion estimée est donc [0.5194; 0.6808].

III-8
3.3.2 Estimation d’une moyenne

Deux cas sont à envisager:


• La variable aléatoire mesurée est normale et le nombre de réalisations est quelconque.
• La variable aléatoire mesurée n’est pas normale et le nombre de réalisations est supérieur à 30 (dans
ce cas, la distribution de la moyenne tend vers une loi normale d’après le théorème central limite).
Soit donc une v.a. X suivant une loi normale de moyenne µ inconnue et d’écart-type σ. On dispose
d’un échantillon de n réalisations xi de cette v.a. Comme précédemment, l’intervalle de confiance sur la
moyenne est:
σ σ
 
P [a < µ < b] = P m − t √ < µ < m + t √ =α
n n

où m est la moyenne arithmétique calculée à partir de l’échantillon. Pour aller plus loin, nous devons
considérer deux cas
1- La variance σ 2 est connue.
La valeur
√ σ joue le rôle d’une constante dans la formule de l’intervalle de confiance et la nouvelle v.a.
Y = (m−µ)
σ
n
suit toujours une loi normale. La valeur de t est donc lue dans une table de la loi normale.
2- La variance σ 2 est inconnue.
Dans ce cas, σ joue le rôle d’une v.a. Soit s2 l’estimation de σ 2 que l’on obtient par:

n
1 X
s2 = (xi − m)2
n − 1 i=1

2
Comme X suit une loi normale, on sait que la quantité n Sσ2 suit une loi du χ2 à n − 1 degrés de liberté.

(M −µ) n
La nouvelle variable aléatoire Y = S suit donc une loi de Student à n − 1 degrés de liberté.
L’intervalle de confiance est alors:
s s
 
P [a < µ < b] = P m − t√ < µ < m + t√ =α
n n

où t est lue dans une table de Student pour n − 1 degrés de liberté.
A posteriori, on peut être intéressé par la taille minimale de l’échantillon tel que l’intervalle de
confiance, pour un coefficient de confiance α donné, soit tel que ses bornes inférieures et supérieures ne
s’écartent pas de plus de k% de la valeur moyenne. On impose donc t √σn ≤ kµ, ce qui conduit à
 2
t2 σ
n≥
k2 µ

On approche µ par m et σ par s si l’écart-type est inconnu.

3.3.3 Estimation d’une variance

Nous n’aborderons que le cas de l’estimation de la variance σ 2 d’une v.a. X normale de moyenne µ à
partir d’un échantillon de n valeurs.

III-9
Si µ est connue (très rare), alors l’intervalle de confiance à α% (risque) est définit par
 
nν nν 

2 ; 2
χ1− α (n) χ α (n)
2 2

avec ν = n1 (xi − µ)2 et où χ21− α (n) et χ2α (n) sont les quantiles d’ordre 1 − α α
de la loi du χ2 à n
P
2 et 2
2 2
degrés de liberté.
2
Si µ est inconnue. La quantité n Sσ2 définie dans le paragraphe précédent suit une loi du χ2 à n − 1 degrés
de liberté. L’intervalle de confiance à α% (risque) est définit par

 
ns2 ns2
 ; 
χ21− α (n − 1) χ2α (n − 1)
2 2

où χ21− α (n − 1) et χ2α (n − 1) sont les quantiles d’ordre 1 − α2 et α


2 de la loi du χ2 à n − 1 degrés de liberté.
2 2

On obtient le résultat suivant :


" #
h
2 nS 2 i
P χ <k =P <k =α
σ2

(attention, α représente ici la confiance) avec k lu sur une table du χ2 pour n − 1 degrés de liberté, d’où
l’on tire : " #
2 nS 2
P σ > =α
k
1 Pn
avec S 2 = n i=1 (xi − m)2 .

3.4 Estimation robuste

Nous allons dans ce paragraphe reprendre le problème de l’estimation au tout début afin de montrer
qu’il est possible de dériver des estimateurs très différents de ceux que nous avons abordés jusque là.
Ces estimateurs relèvent du domaine que l’on nomme les statistiques robustes et dont Legendre (le
créateur de la méthode des moindres carrés) a été le précurseur puisque parlant des écarts entre les
données et l’interprétation, il déclarait (en 1805 dans sa première publication sur les moindres carrés):
Si parmi ces erreurs, certaines apparaissent trop importantes pour être admises, alors les observations qui
ont générées ces erreurs seront rejetées, comme provenant d’expériences trop peu fiables, et les inconnues
seront déterminées grâce aux autres observations, qui de ce fait induiront moins d’erreurs.

3.4.1 Interprétation de données: l’approche bayésienne

Soient g un ensemble de données, i.e. un échantillon, et C un contexte (C englobera tout ce qui n’est
pas directement en relation avec le processus sous-jacent aux données). Le problème de l’estimation est
un cas particulier d’un problème plus général qui est celui de l’interprétation des données. Soit i cette
interprétation. Notre problème est donc de déterminer i connaissant g et C. Une approche possible
est de choisir l’interprétation la plus probable. C’est à dire chercher i qui maximise la probabilité
conditionnelle P [i|g, C]. Cette probabilité n’est pas directement évaluable mais on peut se servir du
théorème de Bayes.

III-10
P [i, g, C] = P [i|g, C]P [g, C] = P [g|i, C]P [i, C] = P [g|i, C]P [i|C]P [C]

P [g|i,C]P [i|C]P [C]


d’où l’on déduit P [i|g, C] = P [g,C]

La maximisation de cette expression se faisant sur l’interprétation i, on peut supprimer le dénominateur


et ne pas tenir compte de la probabilité du contexte P [C]. Si de plus on suppose que le contexte
est indépendant des données, on trouve l’interprétation la plus probable en maximisant le produit
P [g|i]P [i|C].
Dans cette expression, P [g|i] est la validation a posteriori des données par l’interprétation. P [i|C] est
l’a priori, indépendant des données. Ce deuxième terme traduit le biais qui fait que l’on ne part jamais
avec tous les modèles équiprobables (soit parce que l’on tient compte de l’application sous-jacente, soit
par habitude ou connaissance).

3.4.2 Le traitement de l’a priori

Malheureusement, on ne sait pas traduire l’a priori et donc sa probabilité, c’est pourquoi, on suppose
toujours qu’il est soit négligeable soit qu’il contraint suffisamment l’application pour que toutes les in-
terprétations possibles soient de la même catégorie.
Prenons le cas de l’interprétation de données bruitées. Dans ce cas, on suppose que les données g
sont des prélèvements d’un phénomène f perturbé par un bruit additif b, ce qui nous donne g = f + b.
Dans ce cas, la probabilité traduisant l’a priori s’écrit P [f, b|C]. Si le bruit n’est pas corrélé avec le
phénomène f , on obtient en fait un produit de deux probabilités P [f |C]P [b|C]. La maximisation de ce
produit ne conduit pas à une solution unique car les complexités de f et b s’équilibrent. En effet, pour
un jeu de données fixé, plus le modèle sera d’ordre faible plus il faudra supposer un modèle de bruit
complexe. A l’inverse, pour n données, on peut toujours envisager une forme polynomiale de degré n − 1
qui prédit exactement tous les points, et dans ce cas, le bruit b est nul, donc de complexité très faible.
Mais avons-nous l’habitude de manipuler des modèles d’ordre très élevé ?

3.4.3 Le traitement de l’a posteriori

L’a posteriori traduit l’écart entre les données et la prédiction faite par l’interprétation / modèle. Afin
de formaliser cet écart, il est nécessaire de faire des hypothèses sur la distribution des données et plus
particulièrement sur la distribution des écarts entre les données et le modèle. Les hypothèses minimales
sont généralement au nombre de trois. Soient gj une donnée de l’échantillon et ĝj la prédiction du modèle.
• Symétrie: P [gj − ĝj > 0] = P [gj − ĝj < 0]
• Décroissance avec le module: P [|gj − ĝj |] décroit quand |gj − ĝj | croit.
Qn
• Indépendance des erreurs: P [g|i] = j=1 P [gj − ĝj ]
Pour aller plus loin, on suppose le plus souvent que la distribution des erreurs suit une loi normale
de moyenne nulle (pas de biais) et d’écart-type σ. On peut donc construire la fonction de vraisemblance
e2
j
− 12
P
par L(i) = Ke σ2

où ej = gj − ĝj .
On peut alors en déduire un estimateur par la recherche du maximum de vraisemblance, ce qui conduit
à la méthode des moindres carrés qui est abordée dans la suite de ce chapitre.

III-11
Depuis l’origine des statistiques, les statisticiens ont toujours adoré le fait que la distribution de la
somme d’un très grand nombre de petites variations aléatoires converge toujours vers une distribution
normale (cf Théorème central limite).
Le principal problème de ce choix est que la probabilité d’un écart égal à 20 fois σ est de l’ordre de
2 × 10−88 ce qui est beaucoup trop faible pour traduire la fréquence d’apparition d’un écart très fort du
à une donnée abérente. De plus, dans le cas de la loi normale, 95% des écarts doivent se trouver à au
plus 2 fois l’écart type.
On peut donc être amené à choisir des distributions dont la décroissance est moins rapide. Par
exemple, on peut utiliser la distribution de Cauchy, ou une distribution exponentielle.

3.4.4 Le cas monodimensionnel

Prenons le cas de l’estimation d’un paramètre représentant un échantillon. Soit a ce paramètre. Si l’on
fait l’hypothèse d’une distribution normale des écarts, on aboutit à l’estimateur moyenne. Par contre,
si l’on suppose que la distribution est exponentielle (f (x) = Ke−|x| ), on aboutit à un autre estimateur
(toujours par la méthode du maximum de vraisemblance) tout aussi simple, la médiane.
Ces deux estimateurs peuvent être comparés grâce aux indicateurs que nous avons évoqués au début
de ce chapitre. Ils sont tous les deux convergents et sans biais. La complexité de la moyenne est de O(n)
alors que celle de la médiane est de O(n log n) car il faut faire un tri des données, la moyenne est donc
plus rapide à calculer. Par contre, la robustesse de la moyenne est asymptotiquement nulle alors que celle
de la médiane est asymptotiquement de 0.5 ce qui traduit une bien meilleure résistance au bruit, i.e. aux
données abérentes.

3.4.5 Le cas général


Qn
Reprenons le cas général. On veut maximiser la probabilité P [g|i] = j=0 J(ej ) où ej est l’écart sur la
jème donnée et J la distribution des écarts.
La maximisation de cette probabilité peut se réécrire sous la forme d’une minimisation d’une fonction
de coût C(a) où a est le vecteur des paramètres du modèle / interprétation i.

n
!
X gj − ĝ(j, a)
C(a) = ρ
j=1
σj

avec ρ = log(J −1 ) et où σj traduit l’incertitude sur la jème donnée et permet de relativiser la valeur de
chaque écart.

Soit ψ(x) = dx (x). La minimisation de C conduit à résoudre le système de k (nombre de paramètres)
équations:
n
!
X 1 gj − ĝ(j, a) ∂ĝ(j, a)
ψ =0
j=0
σj σj ∂ak

Ce système n’a bien sur pas de solution générale et il convient de l’étudier en fonction du choix de ρ,
ce qui donne une classe d’estimateurs connus sous le nom de M-estimateurs.
• Modèle de Legendre:
C’est le cas le plus connu car il correspond à l’hypothèse de normalité de la distribution des écarts.
On pose ρ(x) = x2 et ψ(x) = 2x

III-12
• L-estimateur:
Egalement très utilisé, cet estimateur utilise ρ(x) = |x| et donc ψ(x) = sgn(x) ce qui conduit à
l’estimateur médian.
• Modèle de Cauchy / Lorentz:
Comme nous l’avons vu précédemment, ce modèle permet de par la plus lente décroissance de la loi
de Cauchy, de mieux rendre compte des apparitions de données abérentes.
ρ(x) = ln(1 + 12 x2 ) et ψ(x) = x
1+ 21 x2
. La système à résoudre est alors non linéaire et il faut avoir
recours à des résolutions itératives.
• Modèle de Huber:
(
0.5x2 si |x| ≤ w
ρ(x) =
w|x| − 0.5w2 sinon

 −w
 si x < −w
ψ(x) = x si |x| ≤ w

 w si x > w
Dans ce modèle, on utilise un seuil w qui permet d’avoir à la fois une décroissance rapide (i.e.
quadratique) si l’écart x est faible et de réduire la décroissance (donc augmenter l’importance) des écarts
forts (au delà du seuil). Il réalise un bon compromis entre le modèle de Legendre et celui du L-estimateur.
• Modèle de Tuckey:
Le modèle de Tuckey est du même type que celui de Hubert mais un peu plus complexe car il permet
de s’affranchir de la sensibilité au choix du seuil w.
   
 1 1 − 1 − x 2 3

6 cS si |x| ≤ cS
ρ(x) =
 1
6 sinon
   2
x 2
x 1− si |x| < cS

ψ(x) = cS
 0 sinon

La valeur cS est appelée point de rejet (rejection point) et joue le rôle du seuil de Hubert. La
valeur c est la constante de confiance est vaut 2.795 (cette valeur a été déterminée pour obtenir une
bonne adéquation à des écarts distribués normalement). La valeur S est un facteur de dimension qui
permet d’adapter le seuil à l’étalement de la distribution des écarts. On peut assimiler S à un écart-type
et utiliser l’estimateur correspondant mais Tuckey propose un estimateur plus robuste, la médiane des
écarts absolus (Median of Absolute Deviation) qui vaut

S = 1.4826 med (|ej − med(ej )|)

On peut aussi déterminer le point de rejet en pourcentage du volume de données. Par exemple, on
ellimine les α % plus grandes et plus petites valeurs des écarts. Une valeur généralement recommandée
est α = 15%. La médiane est le cas extrème de cet estimateur tronqué avec α = 50%.
• R-estimateur (Jaeckel, 1972):
Le R-estimateur est un cas particulier car il ne s’appuie plus sur des relations linéaires mais tient

III-13
compte essentiellement du classement des écarts. La fonction de cout C est la suivante:
X
C(a) = a(Rj )ej
j

où Rj est le rang de l’écart ej dans la liste triée des écarts. La fonction a(Rj ) est normalisée telle que
a(Rj ) = 0. Par exemple, Wilcoxon a proposé la fonction suivante a(Rj ) = Rj − n+1
P
2 .

Les tests de Kolmogorov-Smirnov et de Spearman sont d’autres exemples de R-estimateurs.


• Le modèle L.M.S. (Least Median of Squares, Rousseeuw, 1984):
Le vecteur de paramètres a est la solution de M ina med{e2j }. Si la robustesse de cet estimateur,
n−p+2 1 p+1 log n).
2n+1 , est asymptotiquement égale à 2 , sa complexité est relativement élevée O(n

3.4.6 Estimation itérative

Tous les estimateurs que nous avons abordés sont des méthodes directes, et, le plus souvent, il faut faire
un compromis entre efficacité et faible complexité d’une part, et robustesse d’autre part.
Pour cela on peut procéder en plusieurs étapes pour essayer de combiner tous les avantages. Dans un
premier temps, un estimateur classique non robuste permet de quantifier l’adéquation de chaque donnée
au modèle, i.e. par l’écart. Chaque donnée est alors affectée d’un poids, le plus souvent inversement
proportionnel à l’écart. On peut alors itérer le processus d’estimation. L’hypothèse sousjacente est qu’une
donnée abérente aura un écart initial fort et donc une adéquation et un poids faibles. Il n’interviendra
donc que très peu dans la deuxième phase d’estimation. Le processus peut être itéré jusqu’à convergence
de l’estimation.
Prenons pour exemple l’estimation de l’espérance mathématique par la moyenne arithmétique à partir
d’un échantillon {xi , i = 1 . . . n}. On peut résumer le processus par l’algorithme suivant:
1 Pi=n
1. Première estimation (k = 1): mk = n i=1 xi
2. Calcul des écarts: ei = xi − mk
ψ(ei )
3. Calcul des poids: wi = ei (cf le chapitre précédent pour diverses possibilités pour ψ).
Pi=n
w i xi
4. Nouvelle estimation (itération k + 1): mk = Pi=1
i=n
i=1
wi

|mk −mk+1 |
5. test de convergence: Si non convergence (par exemple mk >  et k < kmax ) alors retour au pas
2.
Dans cet exemple, on augmente la robustesse au bruit avec comme coût une complexité un peu plus
forte (O(kn) au lieu de O(n)). En pratique, on utilise peu d’itérations car le processus a tendance à
rejeter de nouveaux points (i.e. wi ≈ 0) à chaque itération. Le risque est donc non négligeable de voi
le processus converger vers une estimation reposant sur très peu de données (une seule réalisation à la
limite). On peut, pour éviter cet écueil, arréter le processus lorsque α% de la population initiale a un
poids nul ou quasi-nul. Puisque l’objectif de l’itération est de recherche la robustesse, on fixe le plus
souvent αmax = 50%.

3.5 Régression linéaire

La régression linéaire est un cas particulier d’estimation très usité car très bien formalisé et correspondant
à des modèles simples (car linéaires). C’est l’outil de base de la modélisation de données. Une approche

III-14
très générale de ce problème est fournit dans le cours d’approche conceptuelle des systèmes. Nous ne
traiterons ici que de la facette statistique de ce problème mathématique.

3.5.1 Formalisation

Soit une fonction f de <p → < telle que f (~x) = f (x1 , . . . , xp ) = y.

On souhaite modéliser f par une approximation linéaire fˆ caractérisée par un vecteur de paramètres
a (a ∈ <p ) telle que fˆ(~x, a) = pi=1 ai xi .
P

L’objectif sera d’estimer le vecteur a à partir d’un jeu de données {(~xj , yj ), j = 1 . . . n}. Pour cela,
on peut donc reprendre la formalisation du chapitre précédent. a sera obtenu par minimisation de la
fonction de coût C(a):

n   n
ρ fˆ(~xj , a) − yj =
X X
C(a) = ρ(ej )
j=1 j=1

(On supposera par simplicité que toutes les données ont la même incertitude, ce qui permet de ne pas
faire intervenir les termes σj .)

3.5.2 Résolution dans le cas d’une distribution normale des écarts

Nous avons vu qu’il est nécessaire dans ce type de problème de faire un choix sur la nature de la
distribution des écarts. Nous adopterons le choix classique de la distribution normale. Dans ce cas, nous
avons vu que cela revient à utiliser ρ(x) = x2 . On obtient alors le système d’équations linéaires suivant:

n
X ∂ fˆ(~xj , a)
2 ej = 0 k = 1, . . . , p
j=1
∂ak

Soit n  
fˆ(~xj , a) − yj xjk = 0 k = 1, . . . , p
X

j=1

n
X n
X
(xj1 xjk a1 + xj2 xjk a2 + . . . + xjp xjk ap ) = yj xjk
j=1 j=1

Ce système étant linéaire, il a une solution unique â sauf si le déterminant du système est nul. On
peut montrer que ce cas intervient si il existe une relation linéaire d’ordre m < p entre les vecteurs ~xj . On
dit alors que le système est surdimensionné et un traitement des données est nécessaire afin d’elliminer
préalablement cette dépendance. La dimension du nouveau vecteur de paramètres recherché est alors de
p − m.
Le système à résoudre est de plus symétrique. On peut donc faire appel à des techniques spécifiques
telles que la décomposition LU (méthode directe de complexité O(p3 )) ou les algorithmes Gauss-Seidel
ou Jacobi (méthodes itératives de complexité O(bp2 ) où b est le nombre d’itérations nécessaires à la
convergence). Pour plus de détails sur ces techniques, référez vous au cours d’analyse numérique ou à
tout bon livre sur la résolution de systèmes linéaires.

III-15
3.5.3 Le cas de la droite

Nous abordons ici le cas limité où le modèle est une droite. On parle aussi de regression linéaire simple.
On a alors f (x) = y et fˆ(x, a) = αx + β. Le système linéaire à résoudre s’écrit:

 P  P 
n n
x2j α + xj β = nj=1 xj yj
P

Pj=1  j=1
n
xj α + nβ = n yj
P

j=1 j=1

xj − ( xj )2 6= 0.
P 2 P
Ce système a une solution unique si et seulement si n

 P P P
n xi yi −( xi )( yi )
 â =
 P 2 P 2
P n2 P xi −(P xi ) P
 b̂ = xi
Pyi −( Pxi )( xi yi )
x2i −(

n xi ) 2

On peut considérer que les données {xj } constituent un échantillon d’une v.a. X que l’on peut
caractériser par sa moyenne Ê[X] et sa variance V̂ [X] estimées. La condition d’existence d’une solution
est donc Ê[X 2 ] − Ê[X]2 = V̂ [X] 6= 0 ce qui équivaut à dire qu’il faut simplement que les données de
l’échantillon ne soient pas toutes identiques. Le système peut alors se réécrire sous la forme:

(
Ê[X 2 ] α + Ê[X] β = Ê[XY ]
Ê[X] α + β = Ê[Y ]

dont la solution analytique est:



 â = Ê[XY ]−

2
Ê[X]Ê[Y ]
2
= Cov(X,Y )
Ê[X ]−Ê[X] V̂ [X]
2
 b̂ = Ê[Y ]Ê[X 2]−Ê[X]Ê[XY

2
]
= Ê[Y ] − âÊ[X]
Ê[X ]−Ê[X]

Les v.a. X et Y sont reliées par


p la relation Y = ā X + b̄ où ā et b̄ sont les valeurs vraies. On a vu dans
ce cas que Cov(X, Y ) = ρ(X, Y ) V [X] V [Y ] et V [Y ] = ā2 V [X]. On peut donc relier la valeur estimée
â à la valeur vraie ā par: s
V [Y ]
â = ρ(X, Y ) = ρ(X, Y ) |ā|
V [X]

L’estimation sera donc parfaite si les v.a. X et Y sont parfaitement corrélées (i.e. ρ(X, Y ) = ±1).
Plus cette corrélation sera faible, moins bonne sera l’estimation. Le coefficient de corrélation est donc un
bon indicateur de la qualité de la régression linéaire simple. De même, pour le paramètre b, on sait que
E[Y ] = ā E[X] + b̄. Donc,

b̂ = ā Ê[X] + b̄ − â Ê[X] = (1 − ρ(X, Y ))Ê[X]ā + b̄

Là encore, l’estimation sera d’autant meilleure que la corrélation sera proche de 1. Cependant, on
constate que Ê[X] et ā interviennent comme un gain sur l’erreur due à la corrélation non parfaite.
L’estimation de b̄ sera donc plus vite dégradée que celle de ā.

III-16
3.5.4 Intervalle de confiance sur le coefficient de corrélation

On peut déterminer un intervalle de confiance sur le coefficient de corrélation r (afin de quantifier la


qualité de la régression) grâce à l’introduction de la transformation zr donnée par :

1 1+r
 
zr = log
2 1−r
et
e2zr − 1
r=
e2zr + 1

L’intervalle de confiance est défini par


 s s 
1 1 
1 − α = confiance = P zr − zα/2 < ξ < zr + zα/2 = P (zinf < ξ < zsup )
n−3 n−3

avec P (Y < zα/2 ) = 1 − α/2 où Y est une loi normale centrée réduite.
Grâce à la relation liant les variables z et r, on peut obtenir l’intervalle de confiance sur r.
Exemple : Soit r = 0.54 obtenu sur un échantillon de taille n = 69. On souhaite construire l’intervalle
de confiance à 99% autour de cette valeur.
On obtient successivement zr = 0.604. Dans la table de la loi normale, on lit z0.995 = 2.575 et donc
P (0.293 < ξ < 0.927) = 0.99. Par inversion, on obtient l’intervalle de confiance sur l’estimation du
coefficient de corrélation : P (0.285 < ρ < 0.729) = 0.99.

3.6 Filtre de Kalman

Dans tous les problèmes d’estimation que nous venons d’aborder, on suppose toujours connu et fixe un
échantillon de données. L’estimation est un travail a posteriori à partir de cet échantillon. Dans certains
contextes (lorsque l’échantillon est très grand, ou qu’il correspond à un échantillonnage continu donc sans
fin réel) on peut être amené à estimer les paramètres sans attendre d’avoir la totalité de l’échantillon. A
chaque nouvelle donnée disponible, on cherchera donc à mettre à jour la valeur de l’estimation (il n’est
bien sûr pas question de recommencer l’estimation à chaque fois, ce qui serait trop couteux). On parle
alors d’estimation incrémentale.
Nous aborderons dans ce chapitre la technique la plus classique qui réalise une régression linéaire
incrémentale, le filtre de Kalman.
Soit (θ1 , S1 ) l’estimation initiale et son incertitude (θ ∈ <p , et S est une matrice p × p). De même,
soit (θi , Si ) l’estimation courante (calculée grâce aux i premières données) et son incertitude. On suppose
l’arrivée d’une nouvelle donnée yi+1 (yi+1 ∈ <n ) pour laquelle on connait aussi son incertitude notée Wi+1
(Wi+1 est une matrice n × n). Le problème est donc le maintenant de trouver la nouvelle estimation θi+1
et son incertitude, Si+1 .
Le principe de cette mise à jour est traduit par la relation:

θi+1 = θi + K(yi+1 − Mi+1 θi )

Comment cela s’interprète-t-il? La matrice Mi+1 est une matrice n × p qui permet de passer de
l’estimation θi au domaine des données. Le terme Mi+1 θi est la prédiction de la (i + 1)ème donnée à

III-17
partir de l’estimation calculée sur les i premières. Le terme yi+1 − Mi+1 θi traduit donc l’écart entre la
prédiction et la donnée réelle. On peut aussi dire que cet écart est l’innovation apportée par la nouvelle
donnée. Cette innovation va servir à mettre à jour l’estimation. Cette mise à jour est une simple addition
où l’on fait cependant intervenir un gain sur la partie innovation, la matrice K appelée gain de Kalman.
Le gain de Kalman doit tenir compte des incertitudes relatives de l’estimation courante et de la
donnée. Si l’incertitude de la donnée Wi est négligeable devant celle du modèle Si , on devra avoir un gain
fort, i.e. la donnée est fiable. A l’inverse, si l’incertitude de la donnée est grande par rapport à celle de
l’estimation, le gain doit être très faible, i.e. la donnée étant peu fiable, il est normal qu’elle ne modifie
pas ou peu l’estimation courante. Ces remarques se traduisent par la relation suivante:

t
K = Si Mi+1 t
(Wi+1 + Mi+1 Si Mi+1 )−1

L’emploi de la matrice M est rendu nécessaire par le fait que les matrices d’incertitudes ne sont pas
de même rang.
Il ne reste plus qu’à mettre à jour l’incertitude de l’estimation qui tient compte de l’incertitude
courante et du gain de Kalman par la relation:

Si+1 = (I − KMi+1 )Si

Prenons un exemple simple, p = n = 1 et Mi = 1 ∀i. On obtient les formules suivantes:

θi+1 = θi + K(yi+1 − θi ) = (1 − K)θi + Kyi+1


Wi+12 S
i
Si+1 = 2 +S 2
Wi+1 i
Si2
K= 2 +S 2
Wi+1 i

On peut montrer que l’estimation obtenue par ce processus après m données est égale à celle que l’on
obtiendrait si l’on estimait directement le vecteur θ sur l’échantillon de m données.

3.7 Estimation d’un mode

Nous avons vu dans un des chapitres introductifs que la notion de mode n’était définie que pour les
variables aléatoires discrètes. Il existe cependant une généralisation au v.a. continue.
Rappel: xmode est le mode de la v.a. discrète X ssi P (X = xmode ) = M axx P (X = x).
Définition: Soit X une v.a. continue. On appele mode de X la valeur xmode qui satisfait à
xsup − xinf
xmode =
2
avec Z xsup Z xi+T
f (x)dx = M axi f (x)dx
xinf xi

et T = sup − inf .
Ce qui veut dire que xmode est le milieu de l’intervalle [xinf , xsup ] le plus dense dans la distribution
des valeurs de X.

III-18
Comment peut-on estimer cette valeur à partir d’un échantillon? On choisit dans un premier temps
la valeur de T (le plus souvent, on fixe T = n2 ). On recherche ensuite l’intervalle le plus dense, i.e.
M ini (xi+T −xi ), la liste des réalisations xi étant préalablement triée par valeurs croissantes. L’estimation
finale du mode est obtenue conformément à la définition, par le mileu de l’intervalle retenu.
Les principaux inconvénients de cette estimation sont la compléxité O(nlogn) et surtout la très forte
dépendance entre l’estimation et la valeur choisie a priori pour T . Afin de tester cette sensibilité, on peut
bien sûr faire varier légèrement T (au prix d’une complexité accrue) et tester la variance de l’estimateur.

3.8 Estimation d’une densité

Nous avons vu précédemment que les tests d’adéquation ne permettait que de valider ou non une hy-
pothèse sur la nature d’une loi de probabilité en s’appuyant essentiellement sur une distribution em-
pirique, c’est à dire le plus souvent sur l’histogramme. Si il existe des règles simples sur la détermination
du nombre de classes, il peut arriver que la nature de la loi soit difficile à déduire a priori de la forme de
l’histogramme.
La théorie de l’estimation permet de proposer des solutions visant à obtenir une bien meilleure ap-
proximation de la densité réelle à partir d’un histogramme.
La première approche consiste à estimer la densité de la v.a. X en x par ni , le nombre d’occurences
de réalisations xi appartenant à la ième classe associée à la valeur x. La densité est donc la même quelque
soit la position de x entre les extrémités de cette classe.
Une première amélioration consiste à utiliser une fenêtre mobile. On construit autour de x une classe
de longueur h: Ix = [x − h2 , x + h2 [, et on compte de nouveau le nombre d’occurences appartenant à cette
fenêtre: fˆ(x) = Card{xi : x − h2 ≤ xi < x + h2 }. On peut également écrire
n
1X x − xi
fˆ(x) = K( )
n i=1 h

1
où K est la fonction indicatrice de l’intervalle [−1/2, 1/2[: K(u) = 0 si u ≥ 2 ou u < − 21 , et K(u) = 1 si
− 21 ≤ u < 21 . K( x−x
h ) vaut donc 1 si xi ∈ Ix .
i

Cette méthode donne une estimation peu régulière. Si l’on veut une fonction lisse, il est alors possible
de généraliser la formule précédente en utilisant des noyaux, i.e. fonctions K, plus continus. En pratique,
u 2
on utilise souvent des noyaux symétriques et très fréquemment un noyau gaussien K(u) = √1 e− 2 ou

3

u2
 √
parabolique K(u) = 4√ 5
1 − 5 pour |u| < 5.

Ce dernier noyau est appelé noyau d’Epanechnikov. Il a des propriétés mathématique intéressantes.
La constante h est appelée constante de lissage. Son rôle est déterminant, à l’image de la largeur des
classes de l’histogramme: si h est faible, fˆ sera très peu régulière, si h est grand, fˆ sera très (trop) lisse.
Bien que l’on sache que h doit être proportionnel à n−1/5 , sa valeur optimale se détermine souvent
empiriquement.
Il n’est pas nécessaire que K soit une densité positive en tout point. On peut tout à fait envisager
d’utiliser des noyaux prenant des valeurs négatives, par exemple le noyau proposé par M.Lejeune: K(u) =
105 2 2 1 − 3u2 pour |u| ≤ 1.
 
64 1 − u

III-19
4 Tests d’hypothèse

4.1 Introduction

4.1.1 Hypothèses et erreurs

Une utilisation courante des statistiques est la notion de test. Un test est un mécanisme qui permet de
trancher entre deux hypothèses au vu des résultats d’un échantillon. Dans les cas qui nous intéressent,
ces hypothèses porteront sur des estimations (valeur d’un moment, égalité de variances, nature d’une loi
de probabilité . . . ). Soient H0 et H1 ces deux hypothèses, dont une et une seule est vraie. La décision
aboutira à choisir H0 ou H1 . Il y a donc 4 cas possibles dont les probabilités sont résumées dans le
tableau suivant:

H0 vraie H1 vraie
H0 décidée 1−α β
H1 décidée α 1−β

α et β sont les erreurs de première et deuxième espèce:


• α est la probabilité de décider H1 alors que H0 est vraie.
• β est la probabilité de décider H0 alors que H1 est vraie.
Ces deux erreurs sont antogonistes, plus α sera grand (resp. petit), plus β sera petit (resp. grand).
Le fait d’imposer un α faible conduit à une règle de décision plus stricte qui aboutit le plus souvent à
n’abandonner l’hypothèse H0 que dans des cas rarissimes et donc à conserver cette hypothèse quelque
fois à tort. Le compromis entre les valeurs de α et β est donc souhaitable bien que difficile à réaliser.
On appelle puissance d’un test la quantité 1 − β.
Dans la pratique des tests statistiques, il est de règle de se fixer α comme donné (les valeurs les plus
courantes sont 0.05, 0.01 ou 0.1) de préférence en fonction du risque de première espèce. En effet, H0
joue le plus souvent un rôle prédominant par rapport à l’hypothèse H1 . Cela est la conséquence du fait
que H0 joue le rôle d’hypothèse de référence alors que H1 est souvent limitée à l’hypothèse contraire. Par
exemple, on peut avoir H0 : m = m0 ce qui est relativement facile à tester et dans ce cas, H1 est tout
simplement m 6= m0 .
Cette pratique est liée au fait que l’évaluation d’un test passe par l’évaluation de fonctions complexes
qui ont été tabulées pour de nombreuses valeurs de α mais ne sont pas connues ∀ α. On est donc
amené à choisir a priori α. Cependant, l’apparition de plus en plus fréquente de processus numériques
d’approximation rapides et précis permet une autre approche consistant à rechercher la plus petite valeur
de α pour laquelle l’hypothèse H0 reste vraie.

4.1.2 Tests bilatéral et unilatéral

Avant d’appliquer tout test statistique, il s’agit de bien définir le problème posé. En effet, selon les
hypothèse formulées, on applique soit un test bilatéral, soit un test unilatéral.
Un test bilatéral s’applique quand on cherche une différence entre deux estimations, ou entre une
estimation et une valeur donnée sans se préoccuper du signe ou du sens de la différence. Dans ce cas, la
zone de rejet (cf section suivante) de l’hypothèse principale se fait de part et d’autre de la distribution
de référence.

IV-1
Un test unilatéral s’applique quand on cherche à savoir si une estimation est supérieure (ou inférieure)
à une autre ou à une valeur donnée. La zone de rejet de l’hypothèse principale est située d’un seul côté
de la distribution de probabilité de référence.
Certains test comme l’analyse de la variance ou le test du χ2 sont pratiquement toujours unilatéraux.

4.1.3 Région d’acceptation et région critique

Quelle est la démarche générale? α étant fixé, il faut choisir une variable de décision, variable qui
doit apporter de l’information sur le problème posé, à savoir le choix entre les deux hypothèses. La loi
de cette variable doit être parfaitement connue dans au moins une hypothèse (le plus souvent H0 ) afin
de ne pas introduire de nouvelles inconnues dans le problème. On appelle alors région critique, et l’on
note W , l’ensemble des valeurs de la variable de décision qui conduisent à écarter H0 au profit de H1 .
On peut relier W à α par P (W |H0 ) = α.
On appelle région d’acceptation, et l’on note W la région complémentaire de la région critique.
On a également des relations avec les erreurs de première et deuxième espèce: P (W |H0 ) = 1 − α et
P (W |H1 ) = 1 − β. La zone ou région d’acceptation correspond à l’intervalle dans lequel les différences
observées entre les réalisations et la théorie sont attribuables aux fluctuations d’échantillonnage. La
région critique ou zone de rejet correspond donc aux intervalles dans lesquels les différences sont trop
grandes pour être le fruit du hasard d’échantillonnage.
La construction d’un test est la détermination a priori de la région critique sans connaitre le résultat
de l’expérience. On peut donc résumer cette démarche de la manière suivante:
• Choix de H0 et H1
• Détermination de la variable de décision
• Allure de la région critique en fonction de H1
• Calcul de la région critique en fonction de α
• Calcul éventuel de la puissance du test 1 − β
• Calcul expérimental de la variable de décision
• Conclusion du test: rejet ou acceptation de H0

4.1.4 Choix d’un test

Plusieurs tests de conception très différente sont souvent disponibles pour soumettre à une épreuve de
vérité une hypothèse principale. Dans un tel cas, le test qui fournit l’erreur β la plus petite, pour une
même valeur de α, est par définition le plus puissant (celui ayant la plus grande valeur de la puissance de
test 1 − β). En effet, il peut détecter les plus petites différences entre les populations sans pour autant
augmenter l’erreur de première espèce.
La majorité des tests statistiques repose sur le respect d’un certain nombre de conditions. Selon le
degré de respect de ces conditions d’application, la validité des résultats se trouve plus ou moins affectée
et elle l’est d’autant plus que le test est moins robuste. Ainsi, la robustesse d’un test équivaut à sa
tolérance vis-à-vis du respect des conditions.
Si le statisticien dispose de plusieurs tests pour vérifier une hypothèse, il choisira bien sûr le plus
puissant et le plus robuste.

IV-2
Les tests peu puissants augmentent la probabilité de commettre une erreur de deuxième espèce.
Or, cette erreur peut s’avérer particulièrement grave. En effet, en médecine par exemple, une analyse
qui classerait comme malade un individu bien portant peut avoir des conséquences aussi graves qu’une
analyse qui classerait comme bien portants des individus malades (erreur de première espèce). Dans de
tels cas, il y a intérêt à tracer la courbe de puissance du test, aussi appelée courbe caractéristique
d’efficacité qui indique la probabilité de prendre une bonne décision si H1 est vraie. La puissance est
mesurée par la valeur de 1 − β pour un α donné.

4.1.5 Influence de l’échantillonnage

Pour comparer les moyennes, les variances ou les autres paramètres estimés de deux échantillons, il faut
prendre en considération la technique conduisant à la constitution des deux échantillons. Si la sélection
des éléments est aléatoire, et si le choix des éléments du premier échantillon n’a aucune influence sur le
choix des éléments du second, les deux échantillons sont alors appelés indépendants.
Si l’on prélève aléatoirement des paires d’éléments, et non les éléments eux-mêmes, on constitue deux
échantillons appariés. Dans ce cas, le premier élément de chaque paire appartient au premier échantillon
et le deuxième est affecté au second. Parfois, la paire déléments peut se rapporter au même individu sur
lequel on mesure la même variable à deux occasions différentes, par deux moyens différents par exemple.
La technique de l’échantillonnage apparié présente l’avantage d’éliminer un maximum de sources de
variations non reliées au facteur que l’on étudie. En règele générale, plus les critères d’appariement des
données sont nombreux, plus grand sera cet avantage.
Dans ce qui suit, nous allons aborder quelques tests classiques. Cette liste ne se veut pas exhaustive.
Reportez-vous à des ouvrages plus spécialisés pour une approche plus systématique des tests statistiques.

4.2 Test entre deux hypothèses simples

4.2.1 La méthode de Neyman et Pearson

Soit X une v.a. de densité f (x, θ) où θ est un paramètre réel inconnu. L(x, θ) désignera la densité de
l’échantillon x.
Un test entre deux hypothèses simples se traduit par:

(
H0 : θ = θ 0
H1 : θ = θ 1

Supposons l’erreur de première espèce α connu. On a vu que l’on peut relier α à une région de l’espace
<n par: Z
P (W |H0 ) = α = L(x, θ0 )dx
W

On cherche par ailleurs le test le plus puissant, donc celui qui maximise:
Z
P (W |H1 ) = 1 − β = L(x, θ1 )dx
W

La solution est donnée par le théorème de Neyman et Pearson.

IV-3
Théorème: La région critique optimale est définie par l’ensemble des points x de <n tels que:
L(x, θ1 )
> kα
L(x, θ0 )

En conséquence de ce théorème, on peut montrer:


• 1 − β > α (le test est alors dit sans biais).
• si n → ∞ alors 1 − β → 1 (le test est convergent).

4.2.2 Test de la moyenne d’une loi normale d’écart-type connu

Soit X une v.a. normale de moyenne m et d’écart-type σ connu. Au vu d’un échantillon de n réalisations
indépendantes xi , on désire savoir si la moyenne m est égale à m0 ou à m1 , ce qui se résume par:
(
H 0 : m = m0
H 1 : m = m1

Les fonctions de vraisemblance, ou densité, de l’échantillon sont:

n 
1
 
1
P
− (xi −m0 )2
L(x, m0 ) = √ e 2σ 2 i
2πσ

n 
1
 
1
P
− (xi −m1 )2
L(x, m1 ) = √ e 2σ 2 i
2πσ

La région critique est définie par le ratio de ces deux fonctions. En passant par un opérateur loga-
rithme, on obtient facilement:
X X
(xi − m1 )2 − (xi − m0 )2 ≤ 2σ 2 Ln(k)
i i

1 P
En posant: x̄ = n i xi , on obtient:

m0 + m1 σ 2 Ln(k)
 
x̄ − (m0 − m1 ) ≤
2 n

Si m0 < m1 , on aboutit à:

m0 + m1 σ2
x̄ ≥ − Ln(k) =λ
2 n(m1 − m0 )

La région critique est donc définie par l’inégalité x̄ ≥ λ qu’il faut maintenant déterminer. Pour cela,
nous introduisons l’erreur α. Cette erreur est définie par: α = P (H1 |H0 ). Nous décidons H1 si x̄ ≥ λ,
donc α = P (X ≥ λ|H0 ) où X est la v.a. dont x̄ est une réalisation. X étant une v.a. normale, la
distribution de X est également normale de moyenne m et d’écart-type √σn .

On a alors (la condition H0 étant vraie)


α = P (X ≥ λ) avec X : ℵ[m, √σn ].

IV-4
 √ 
X−m (λ−m0 ) n
α=P √0
σ/ n
≥ σ

X−m
La quantité Y = √0
σ/ n
suit une loi normale centrée réduite donc:
 √ 
(λ−m0 ) n
α=P Y ≥ σ avec Y : ℵ[0, 1].

Si la
√ valeur de α est fixée, on peut par lecture dans une table de la loi normale, trouver la valeur de
(λ−m0 ) n
σ et donc celle de λ.
La règle de décision du test est donc:
Si x̄ > λ Alors décider H1 Sinon accepter H0
Par un raisonnement équivalent, on peut évaluer l’erreur de deuxième espèce et donc la puissance du
test. √ !
(λ − m1 ) n
β = P (X < λ|H1 ) = P Y <
σ
X−m
avec Y = √1
σ/ n
v.a. normale centrée réduite.

4.2.3 Test de la moyenne d’une loi normale d’écart-type inconnu

Le raisonnement précédent s’applique jusqu’à la détermination de λ.

√ !
X − m0 (λ − m0 ) n
α=P √ ≥
s/ n s

où s désigne l’estimation de l’écart-type inconnu σ.

La quantité Y = X−m√ 0 ne suit plus une loi normale centrée réduite car le dénominateur n’est plus
s/ n
une constante mais une réalisation de l’estimateur de la variance de la variable X. s est obtenue par
1 X
s2 = (xi − x̄)2
n−1 i

Par construction, S 2 suit une loi du χ2 . Y est donc une v.a. suivant une loi de Student à n − 1 degrés
de liberté. Ce qui nous donne:
 √ 
(λ−m0 ) n
α=P Y ≥ σ avec Y : Student(n-1).

Là encore, il est possible grâce à une table de la loi de Student de trouver la valeur du seuil et donc
celle de λ. La règle de décision est toujours la même.
De même, par un raisonnement analogue, on accède à l’erreur de deuxième espèce et à la puissance
du test.

√ !
(λ − m1 ) n
β = P (X > λ|H1 ) = P Y <
s

X−m
avec Y = √ 1
s/ n
v.a. de Student à n − 1 degrés de liberté.

IV-5
4.2.4 Test d’une variance de loi normale, la moyenne étant connue

Soit X une v.a. normale de moyenne m connue. On suppose que l’écart-type inconnu ne peut prendre
que deux valeurs σ0 et σ1 . Au vu d’un échantillon de n réalisations indépendantes xi , on désire savoir si
la variance σ 2 est égale à σ02 ou à σ12 , ce qui se résume par:
(
H0 : σ = σ 0
H1 : σ = σ 1

L’estimateur de la variance sera


1X
s2 = (xi − m)2
n i

(On utilise 1/n et non pas 1/(n − 1) car la moyenne est connue.)
Les fonctions de vraisemblance, ou densité, de l’échantillon sont:
h i
n 1
P
1 − (x −m)2

2σ 2 i i
L(x, σ0 ) = √ e 0
2πσ0

h i
n 1
P
1 − (xi −m)2

2σ 2 i
L(x, σ1 ) = √ e 1
2πσ1

La région critique est définie par le ratio de ces deux fonctions. En passant par un opérateur loga-
rithme, on obtient facilement:
σ1 1X 1 1
   
nLn + (xi − m)2 2 − 2 ≤ Ln(kα )
σ0 2 i σ1 σ0

Dans le cas σ1 > σ0 , on obtient

ns2 2σ12 σ1
 
2 ≥ 2 2 Ln(kα ) − nLn( )
σ0 σ0 − σ1 σ0

nS 2
La valeur de kα est déterminée à partir de l’erreur de première espèce. La quantité σ02
suit une loi
du χ2 à n degrés de liberté. La valeur seuil sera donc lue dans une table du χ2n .

4.2.5 Test d’une variance de loi normale, la moyenne étant inconnue

Ce cas est plus fréquent que le précédent. Toujours grâce au raisonnement induit par le théorème de
Neyman et Pearson, on aboutit aux résultats suivants:
1 nS 2
La variable de décision est S 2 = n−1 2 2
i (Xi − X) qui est telle que σ 2 suit une loi du χ à n − 1
P
2
degrés de liberté. La région critique est définie par S > k et k est déterminé par
nk
P (S 2 > k) = P (χ2n−1 > )=α
σ02

La règle de décision du test est donc:

Si S 2 > k Alors décider H1 Sinon accepter H0

IV-6
4.2.6 Test d’une proportion

Soit une population très grande où la proportion d’individus possédant le caractère A est égale à p. On
pense que cette proportion ne peut avoir que deux valeurs p0 ou p1 . Au vu d’un échantillon de taille n,
on désire prendre une décision quant à la valeur de cette proportion, avec une signification α.
x
A partir de l’échantillon, l’estimateur de la proportion théorique sera la fréquence empirique fn = n
où x est le nombre d’individus possédant le caractère A dans l’échantillon.
Les hypothèses sont donc
(
H 0 : p = p0
H 1 : p = p1

La règle de décision est donnée par


(
si fn ≥ π alors H1
si fn < π alors H0

où π désigne la région critique.


fn est une réalisation d’une v.a. Fn dont la loi de probabilité peut être déterminée grâce au théorème
central limite. Si la taille de l’échantillon est suffisamment grande (en
q pratique, n > 30), on admet que
p(1−p)
la loi de Fn tend vers une loi normale de moyenne p et d’écart-type n . Ce qui nous conduit à

α = P (Fn ≥ π|H0 vraie)


q
p(1−p)
avec Fn : ℵ[p, n ].

Sous l’hypothèse H0 , on obtient


" √ √ # " √ #
(Fn − p0 ) n (π − p0 ) n (π − p0 ) n
α=P p ≥p =P Y ≥ p
p0 (1 − p0 ) p0 (1 − p0 ) p0 (1 − p0 )

√n −p0 )
où Y = (F n
est une v.a. normale centrée réduite.
p0 (1−p0 )

La valeur du seuil critique est lue dans une table de la loi normale.
L’erreur de seconde espèce et la puissance du test sont données par:
" √ #
(π − p1 ) n
β=P Y ≤ p
p1 (1 − p1 )

√n −p1 )
où Y = (F n
est une v.a. normale centrée réduite.
p1 (1−p1 )

4.3 Test entre hypothèses composées

4.3.1 Tests UMP

Dans un premier temps, considérons que la formulation générale reste la même pour l’hypothèse princi-
pale:
H0 : θ = θ 0

IV-7
Par contre, l’hypothèse H1 est formée d’un ensemble d’hypothèse simples.

H1 : θ ∈ Ξ avec θ0 6∈ Ξ

Les exemples les plus courants sont:


)
H1a : θ > θ0
tests unilatéraux.
H1b : θ < θ0

H1c : θ 6= θ0 test bilatéral.


L’erreur de première espèce étant fixée, on pourra déterminer une région critique W0,i associée à
chaque valeur θi de Ξ, et une valeur βi de l’erreur de seconde espèce. La courbe βi = g(θi ) pour toutes
les valeurs θi de Ξ est appelée courbe d’efficacité.
Le test est dit uniformément le plus puissant (Uniformely Most Powerful) ou UMP si les régions
critiques W0,i ne dépendent pas des valeurs θi de Ξ.
Théorème: S’il existe un test UMP, la puissance de ce test est supérieure à la puissance associée à tout
autre test.
Plus généralement, H0 peut elle-même être composée. α dépend alors de θ selon les valeurs de θ ∈ Ξ0 .
On devra donc exiger α(θ) ≤ α donné.
Le théorème de Lehmann assure l’existence de tests UMP dans les cas suivants:
( (
H0 : θ < θ0 H0 : θ ≤ θ1 ou θ ≥ θ2
et
H1 : θ ≥ θ 0 H1 : θ 1 < θ ≤ θ 2

Par contre, il n’existe pas de tests UMP pour les cas : H0 : θ1 ≤ θ ≤ θ2 contre H1 : θ > θ2 ou θ < θ1 ,
et a fortiori, H0 : θ = θ0 contre H1 : θ 6= θ0 .
Nous allons maintenant introduire quelques exemples. Pour une liste plus exhaustive, reportez-vous
à la bibliographie.
Les règles de décision ne changent pas dans le principe. Il s’agit toujours de trouver une valeur seuil
et de décider H1 au delà du seuil et H0 en deça du seuil.

4.3.2 Test d’une moyenne de loi normale, l’écart-type étant connu

Test unilatéral
Soit X une v.a. normale de moyenne m et de variance σ 2 connue. Au vu d’un échantillon de n
réalisations indépendantes xi , on veut choisir entre les deux hypothèses:

H 0 : m = m0
H1 : m < m 0

Comme toujours, l’erreur de première espèce α est fixée. Par ailleurs, la moyenne m sera estimée par
la moyenne arithmétique x̄. La construction du test est similaire à ce que nous avons vu pour le cas du
test simple d’une moyenne. On aboutit à:

" √ √ #
(X − m0 ) n (λ − m0 ) n
α=P ≤
σ σ

IV-8
avec X : ℵ[m0 , √σn ].

On remarque que la valeur du seuil de décision λ est indépendante de la valeur de m sous l’hypothèse
H1 . Il s’ensuit que le test est uniformément le plus puissant.

La variable Y = X−m √ 0 suit une loi normale (en effet σ est connue et joue donc le rôle d’une constante)
σ/ n
centrée et réduite. La valeur du seuil sera donc déduite d’une table de la loi normale. Il en est de même
pour l’erreur de deuxième espèce et pour la puissance du test.
Test bilatéral
Soit X une v.a. normale de moyenne m et de variance σ 2 connue. Au vu d’un échantillon de n
réalisations indépendantes xi , on veut choisir entre les deux hypothèses:
H 0 : m = m0
H1 : m 6= m0

Comme toujours, l’erreur de première espèce α est fixée. Par ailleurs, la moyenne m sera estimée par
la moyenne arithmétique x̄. La construction du test est obtenue en remarquant que l’hypothèse H1 peut
se décomposer en deux hypothèses élémentaires:
H10 : m < m0
H100 : m > m0

A chacune de ces deux hypothèses sera associé un seuil de décision λ0 et λ00 . On peut conclure que le
test ne sera pas UMP puisque le seuil de décision λ dépend du sens de l’inégalité.
La détermination des seuils est simple puisque les deux hypothèses H10 et H100 sont disjointes. On a
α = P ((X ≥ λ00 ) ou (X ≤ λ0 )) = P (X ≥ λ00 ) + P (X ≤ λ0 ) = α00 + α0

Il en résulte une infinité de valeurs possibles pour λ0 et λ”. Cependant, la loi de X étant symétrique
(loi normale), on prend généralement α00 = α0 = α2 ce qui conduit naturellement à des valeurs de λ
symétriques par rapport à m0 . Chaque cas est en fait une application du test précédent mais pour une
valeur moindre de α.
" √ √ #
α (X − m0 ) n (λ − m0 ) n
=P Y = ≥
2 σ σ

avec X : ℵ[m0 , σ] Y ℵ[0, 1].


La valeur du seuil est donc déduite d’une table de la loi normale. Il en est de même pour l’erreur de
deuxième espèce et pour la puissance du test.

4.3.3 Test d’une moyenne de loi normale, l’écart-type étant inconnu

Les deux tests, bilatéral et unilatéral, se construisent selon le même procédé. Les valeurs de décision
seront lues dans des tables de Student à n − 1 degrés de liberté.

4.3.4 Test d’une variance de loi normale, la moyenne étant connue

Les deux tests, bilatéral et unilatéral, se construisent selon le même procédé. Les valeurs de décision
seront lues dans des tables du χ2 à n degrés de liberté.

IV-9
4.3.5 Test d’une variance de loi normale, la moyenne étant inconnue

Les deux tests, bilatéral et unilatéral, se construisent selon le même procédé. Les valeurs de décision
seront lues dans des tables du χ2 à n − 1 degrés de liberté.

4.3.6 Test d’une proportion

Les deux tests, bilatéral et unilatéral, se construisent selon le même procédé. Les valeurs de décision
seront lues dans des tables de loi normale.
Dans le cas du test bilatéral, on s’appuie sur le fait que la proportion empirique
q Fn suit approxi-
p(1−p)
mativement une loi normale de moyenne p, la proportion théorique, et d’écart-type n . La région
critique du test est alors:

s
p(1 − p)
|Fn − p| > uα/2
n

où uα/2 est lu dans une table de la loi normale N (0, 1).
Exemple: Sur un échantillon de 200 individus d’une commune, 30% sont favorables à l’implantation
d’un centre commercial. Ceci contredit-il l’hypothèse selon laquelle un habitant sur trois y est favorable
?
Cet ennoncé conduit à la construction d’un test bilatéral d’hypothèses de proportion:

H0 : p = 0.33
H1 : p 6= 0.33

q
0.33×0.67
avec α = 0.05, on lit u = 1.96 d’où la région d’acceptation: |Fn − 0.33| > 1.96 200 = 0.065 soit
W̄ = [0.265, 0.395].
Comme |fn − 0.33| = 0.03 < 0.065, on ne peut pas rejeter H0 au seuil α = 0.05.

4.4 Test de comparaison

Soient X1 et X2 deux variables aléatoires définies sur deux populations mères comparables (éventuellement
égales). La loi de X1 (resp. X2 ) dépend d’un paramètre inconnu θ1 (resp. θ2 ). On souhaite tester
l’hypothèse ”ces deux paramètres sont égaux” contre l’hypothèse complémentaire ”ces deux paramètres
son différents”, soit

H0 : θ1 = θ2 contre H1 : θ1 6= θ2

Pour effectuer ce test, on dispose d’un échantillon de taille n1 (resp. n2 ) de X1 (resp. X2 ) permettant
une estimation ponctuelle Tn1 (resp. Tn2 ) de θ1 (resp. θ2 ). On suppose de plus que les v.a. X1 et X2
sont normales ou approximativement normales.
En supposant H0 vraie, on détermine un risque de première espèce α, une zone de rejet associée à
deux valeurs critiques c1 et c2 telles que

IV-10
α
P (Z < c1 ) = P (Z > c2 ) =
2
où Z est une fonction de Tn1 et Tn2 .
Si Z appartient à la zone de rejet, on rejette H0 sinon, on accepte H0 au risque α.

4.4.1 Comparaison de deux moyennes

Soient X1 et X2 deux lois normales de moyennes µ1 et µ2 , et d’écart types σ1 et σ2 . On teste

H0 : µ1 = µ2 contre H1 : µ1 6= µ2 au risque α

On utilise le test de Student (dans sa version la plus générale).


On dispose de deux échantillons de tailles n1 et n2 sur lesquels on peut faire des estimations de
moyennes m1 et m2 et de d’écart types s1 et s2 .
Si les écart types σ1 et σ2 sont connus, on calcule
m1 − m2
z=r
σ12 σ22
n1 + n2

On rejette H0 au risque α si z 6∈ [−t1− α2 , t1− α2 ] où la valeur t1− α2 est lue dans la table de la loi normale
centrée réduite.
Si les écart types σ1 et σ2 sont inconnus, il faut tenir compte de la taille des échantillons
a) Si n1 et n2 sont tous les deux supérieurs à 30, on calcule
m1 − m2
z=r
s21 s22
n1 −1 + n2 −1

On rejette H0 au risque α si z 6∈ [−t1− α2 , t1− α2 ] où la valeur t1− α2 est lue dans la table de la loi normale
centrée réduite.
b) Si n1 ou n2 est inférieur à 30 et σ1 = σ2 on calcule
m1 − m2
z= q
σ̂ n11 + n12

où s
n1 s21 + n2 s22
σ̂ =
n1 + n2 − 2

On rejette H0 au risque α si z 6∈ [−t1− α2 ;n1 +n2 −2 , t1− α2 ;n1 +n2 −2 ] où la valeur t1− α2 ;n1 +n2 −2 est lue dans
la table de Student à n1 + n2 − 2 degrés de liberté.
c) Si n1 ou n2 est inférieur à 30 et σ1 6= σ2 on calcule
m1 − m2
z=r
s21 s22
n1 −1 + n2 −1

IV-11
On rejette H0 au risque α si z 6∈ [−t1− α2 ;ν , t1− α2 ;ν ] où la valeur t1− α2 ;ν est lue dans la table de Student
à ν degrés de liberté; ν est l’entier le plus proche de
i2
s21 s22
h
n1 −1 + n2 −1
s41 s42
(n1 −1)n21
+ (n −1)n 2
2 2

Le test de Student est assez robuste mais si l’on s’éloigne trop des conditions de normalité, il est
préférable d’utiliser un test non paramétrique.

4.4.2 Comparaison de deux variances

Avec les mêmes notations que précédemment, on teste

H0 : σ1 = σ2 contre H1 : σ1 6= σ2 au risque α

n1 s21 n2 s22 ŝ21


On calcule ŝ21 = n1 −1 , ŝ22 = n2 −1 et z = ŝ22
.

On rejette H0 au risque α si z 6∈ [F α2 (n1 − 1, n2 − 1), F1− α2 (n1 − 1, n2 − 1)] où la valeur Fα est lue
dans la table de Fisher-Snédécor à n1 − 1 et n2 − 1 degrés de liberté.
1
Remarque : F α2 (n1 − 1, n2 − 1) = F1− α (n1 −1,n2 −1)
2

4.4.3 Comparaison de deux proportions

Soit p1 (respectivement p2 ) la proportion d’individus d’une certaine modalité A dans la population mère
M1 (resp. M2 ). On extrait un échantillon de taille n1 (resp. n2 ) dans la population M1 (resp. M2 ). On
teste à partir de ces échantillons, on dispose d’une estimation f1 (resp. f2 ) de p1 (resp. p2 ) qui suit une
loi F1 (resp. F2 ).

H0 : p1 = p2 contre H1 : p1 6= p2 au risque α.

On suppose que n1 F1 et n2 F2 suivent approximativement des lois normales. On calcule

n1 f1 +n2 f2 f1 −f2
p̂ = n1 +n2 puis z = q
p̂(1−p̂)( n1 + n1 )
1 2

On rejette H0 au risque α si z 6∈ [−t1− α2 , t1− α2 ] où la valeur t1− α2 est lue dans la table de la loi normale
centrée réduite.

4.5 Test du rapport des vraisemblances maximales

Ce test est fort utile là où les méthodes précédentes ont echoué.
Test de H0 : θ = θ0 contre H1 : θ 6= θ0 où θ est un paramètre vectoriel de dimension p.
On construit la quantité suivante:
L(x, θ0 )
λ=
supθ L(x, θ)

IV-12
On a donc 0 ≤ λ ≤ 1. λ est intuitivement une statistique convenable pour un test car plus il est fort,
plus l’hypothèse H0 est vraisemblable. Cela revient à remplacer dans H1 θ par son estimation θ̂ par la
méthode du maximum de vraisemblance. La région critique du test sera donnée par : λ < K.
Théorème: La distribution de −2ln(λ) est asymptotiquement celle d’un χ2p dans l’hypothèse H0 .
De ce théorème, on déduira le procédé d’estimation de la région critique.
On peut étendre cette approche au test entre deux hypothèses composées. Il suffit de former la
quantité suivante:
supθ∈Ξ0 L(x, θ)
λ=
supθ∈Ξ1 L(x, θ)
pour laquelle le théorème précédent est toujours valable.

4.6 Test d’adéquation

Dans cette partie, on suppose que la loi de probabilité de la variable aléatoire X, dont on dispose d’un
échantillon, est inconnue. Une première remarque s’impose: les tests d’adéquation ne permettent
pas de trouver la loi d’une v.a., mais seulement d’accepter ou de rejeter une hypothèse
simple émise a priori.
Ainsi, il est nécessaire de faire une étude sommaire préalable de l’échantillon afin de formuler des
hypothèses plausibles quant à la loi de probabilité de X: la v.a. X est-elle discrète ou continue? Est-elle
définie pout tout x, ou seulement pour x > 0? L’histogramme en fréquence obtenu est-il symétrique
par rapport à la valeur moyenne? Existe-t-il une relation simple entre moyenne estimée et variance
estimée? Les réponses à ces différentes questions, de même que la nature de la variable représentée par
X permettent dans la plupart des cas d’émettre une hypothèse plausible.

4.6.1 Test du χ2

Soit {x1 . . . xn } un échantillon de n réalisations indépendantes de la v.a. X. Soit L(x) la loi de distribution
inconnue de X. L’hypothèse de départ sera que la loi de distribution est L∗ (x). Ceci permet de formuler
le test:
H0 : L(x) = L∗ (x)
H1 : L(x) 6= L∗ (x)

Les paramètres de L∗ seront soient connus soit estimés.


A partir de l’échantillon, on construit un histogramme en fréquence de k classes Ci . On note Oi le
nombre d’observations de X faites dans la classe Ci (avec bien sûr i Oi = n). Si la v.a. suit la loi L∗
P

alors l’effectif théorique Ei de la classe Ci est donné par: Ei = np∗i où p∗i est la probabilité pour que la
v.a. X suivant la loi L∗ prenne une valeur sur le domaine définissant la classe Ci .
L’écart entre la réalité issue de l’échantillon et la théorie issue de l’hypothèse H0 est mesurée par
l’indicateur

k k
X (np∗i − Oi )2 X Oi2
I= = −n
i=1
np∗ i np∗
i=1 i

Sous l’hypothèse H0 , on peut considérer que l’écart Ei −Oi entre distribution théorique et distribution
empirique est distribué normalement. Dans ces conditions, I tend vers une loi du χ2 à ν degrés de liberté
(ν = nombre de classes - 1 - nombre de paramètres nécessaires à la spécification complète de p∗i ).

IV-13
La région d’acceptation du test est l’intervalle (0, χ2ν,1−α ) tel que la probabilité d’une variable du χ2
à ν degrés de liberté prenne une valeur dans cet intervalle soit égale à 1 − α (α étant l’erreur de première
espèce relative au test). Si la valeur de l’indicateur est supérieure à χ2ν,1−α , alors on décide l’hypothèse
H1 .
Il n’est guère possible de déterminer l’erreur de deuxième espèce (et donc la puissance du test), la loi
de probabilité de X n’étant pas spécifiée sous l’hypothèse H1 . On ne peut donc pas déterminer la loi de
probabilité de l’indicateur sous cette hypothèse.
Pour que la loi (sous l’hypothèse H0 ) de l’indicateur d’écart tende effectivement vers une loi du χ2 ,
il est nécessaire que l’effectif 0i d’une classe Ci soit en pratique supérieur à 5. Dans le cas
contraire, il faudra procéder à un regroupement des classes jusqu’à ce que cette contrainte soit satisfaite.

4.6.2 Test de Kolmogorov

Soit {x1 . . . xn } un échantillon de n réalisations indépendantes de la v.a. X. Soit L(x) la loi de distribution
inconnue de X. L’hypothèse de départ sera que la loi de distribution est L∗ (x). Ceci permet de formuler
le test:
H0 : L(x) = L∗ (x) ∀x
H1 : ∃ x L(x) 6= L∗ (x)

On suppose que tous les paramètres de la loi L∗ sont connus.


Soit S(x) la fonction de répartition empirique aléatoire à partir de l’échantillon. S(x) qui est
l’histogramme cumulé peut être considéré comme une estimation de la fonction de répartition de L(x)
notée FL . L’indicateur d’écart de ce test est la valeur absolue de la distance maximum entre S(x) et
FL (x):
I = maxx |FL (x) − S(x)|

La valeur de α étant fixée, on acceptera l’hypothèse H0 si I < w1−α,n . Les valeurs w1−α,n sont lues
sur les tables de Kolmogorov (il existe aussi des procédures numériques pour les estimer).

4.6.3 Test de Cramer-Von Mises

Soit {x1 . . . xn } un échantillon de n réalisations indépendantes de la v.a. X de fonction de répartition F


inconnue. L’hypothèse de départ sera que la fonction de répartition est F ∗ (x). Ceci permet de formuler
le test:
H0 : F (x) = F ∗ (x) ∀x
H1 : ∃ x F (x) 6= F ∗ (x)

On suppose que tous les paramètres de la fonction F ∗ sont connus.


L’indicateur d’écart de ce test est:
Z +∞
I= [F ∗ (x) − F (x)]2 dF (x)
−∞

La distribution de cet indicateur a été tabulée. On démontre que

n 2
1 2i − 1

− F ∗ (xi )
X
I= +
12n i=1 2n

IV-14
où les valeurs de l’échantillon sont ordonnées en ordre croissant.
On rejette H0 si la valeur de cet indicateur est supérieure à une valeur que la v.a. I a une probabilité
α de dépasser.
Le test de Cramer-Von Mises a les mêmes applications que le test de Kolmogorov. La différence
entre ces deux tests réside dans le fait que pour le test de Kolmogorov seul l’écart maximum entre la
distribution empirique et la distribution d’ajustement entre en considérarion alors que l’indicateur d’écart
du test de Cramer-Von Mises prend mieux en compte l’ensemble des données en ce sens que la somme des
écarts intervient. Le test de Kolmogorov est donc beaucoup plus sensible à l’existence de points abérents
dans un échantillon que le test de Cramer-Von Mises. On pense généralement que ce dernier test est plus
puissant, mais cela n’a pas été démontré théoriquement.

4.7 Test d’indépendance

Dans la plupart des tests que nous venons de présenter, on suppose toujours les valeurs de l’échantillon
indépendantes. C’est une condition nécessaire. Il est donc souvent utile de vérifier cette hypothèse par
un test.

4.7.1 Test des différences premières

Soit un échantillon de n valeurs xi successives d’une v.a. X. On désire tester l’indépendance des
réalisations xi . Cette indépendance constitue l’hypothèse principale H0 .
Le principe de ce test consiste à calculer les différences successives xi − xi−1 , puis à compter le nombre
de différences positives et négatives. Si H0 est vraie alors il doit y avoir autant de différences positives
que de différences négatives.
On construit donc la v.a. Y par

yi = 1 si xi+1 − xi > 0
yi = 0 si xi+1 − xi < 0

P
A priori, on suppose qu’il n’y a pas de différences nulles. On note S = i Yi le nombre de différences
premières positives.
Sous l’hypothèse H0 , P (Yi = 0) = P (Yi = 1) = 12 . L’espérance mathématique de la v.a. S est donc
E(S) = n−1 n+1
2 et l’on peut montrer que sa variance vaut V (S) = 12 . Pour n suffisamment grand (en
pratique, on fixe n > 12), la quantité S−E(S)
√ est approximativement une loi normale centrée réduite.
V (S)

Pour une erreur de première espèce α, on accepte l’hypothèse H0 si la quantité



S − n−1
2 √

√ 12
n+1
est inférieure à la valeur K1− α2 lue dans une table de la loi normale.

4.7.2 Test de Spearman

Soit xi une réalisation de la v.a. X. Nous désirons savoir si les xi peuvent être considérés comme des
réalisations indépendantes les unes des autres. Pour cela, Spearman propose le raisonnement suivant:

IV-15
si les réalisations sont indépendantes, l’échantillon ne présente pas de structure, i.e. d’ordre privilégié.
On testera donc la présence de dépendance en comparant l’ordre de l’échantillon recueilli avec celui issu
d’une procédure de tri. Cette comparaison se fait grâce au coefficient de corrélation. Sous l’hypothèse
H0 d’indépendance, le coefficient de corrélation doit être nul. Ce test est souvent utilisé comme test de
tendance de séries chronologiques.
Soit R(xi ) le rang occupé par la réalisations xi dans la série ordonnée des xi (le rang initial étant bien
sur i). On note ρS le coefficient de corrélation de Spearman, donné par

P h n+1
ih
n+1
i
Cov(R(Xi ), i) i R(Xi ) − 2 i− 2 6T
ρS = p = n(n2 −1)
=1−
V (R(Xi ))V (i) n(n2 − 1)
12

− i]2 .
P
où T = i [R(Xi )

Soit rS la valeur prise par ρS pour l’échantillon considéré. La distribution de ρS sous l’hypothèse H0
est
√ tabulée. Cependant, pour un échantillon de grande taille (n > 30) on peut considérer que la quantité
n − 1ρS est approximativement distribuée selon une loi normale centrée réduite.
Si la quantité |rS | est inférieure au quantile α du coefficient de corrélation de Spearman, alors on
accepte l’hypothèse H0 , sinon il y a rejet.
Si n > 30, on peut se servir des valeurs d’une table de la loi normale centrée réduite.

4.8 Test de comparaison d’échantillons

Toujours en considérant la propriété d’indépendance, on va maintenant s’intéresser au cas de la com-


paraison de deux échantillons, par le biais de paramètres estimés (le plus souvent la moyenne et/ou la
variance). L’hypothèse est : relativement à la variable étudiée, ces deux échantillons ont-ils été prélevés
indépendamment l’un de l’autre. Par soucis de simplicité de formulation des hypothèses, on retiendra,
pour H0 , l’hypothèse négative qui se traduit par le fait que les variables observées ne sont pas significa-
tivement différentes.
De plus, on supposera que les échantillons ont des tailles comparables. Des tests entre populations
de tailles très différentes peuvent être trouvés dans la littérature, et en particulier dans l’ouvrage de
B.Scherrer (cf Bibliographie).

4.8.1 Test des variances de Fisher-Snédécor

Ce test ne s’applique qu’au cas de deux échantillons gaussiens:

X1 : ℵ[m1 , σ1 ] et X2 : ℵ[m2 , σ2 ]

On choisit le plus souvent de tester les variances avant les moyennes. Ces dernières ne sont testées
que si le premier test retient l’hypothèse de non indépendance.
ni Si2
On construit les quantités σi2
où Si2 est l’estimateur de la variance de la variable aléatoire Xi . Cette
quantité suit une loi du χ2ni −1 . Sous l’hypothèse H0 d’égalité des variances (σ1 = σ2 ), la quantité

n1 S12
n1 −1
Fn1 −1;n2 −1 = n2 S22
n2 −1

IV-16
suit une loi de Fisher-Snédécor.
En pratique, on met toujours au numérateur la plus grande des deux quantités afin d’obtenir une
variable de décision dont la valeur est supérieure à 1. La région critique est de la forme F > k (avec
donc k > 1). La valeur de k est reliée à l’erreur de première espèce et peut être lue dans une table de
Fisher-Snédécor.

4.8.2 Test de Student

Ce test s’applique à la comparaison de deux échantillons gaussiens de même variance. Il est donc souvent
la suite logique du test de Fisher-Snédécor. On dispose des données suivantes:
ni Si2
• Les v.a. σi2
suivent une loi du χ2 à ni − 1 degrés de liberté.

• La moyenne arithmétique x̄1 (resp. x̄2 ) est une réalisation d’une v.a. X 1 (resp. X 2 ) suivant une loi
normale de moyenne m1 (resp. m2 ) et d’écart-type √σn1 (resp. √σn2 ).

n1 S12 +n2 S22


• La quantité σ2
suit une loi du χ2 à n1 + n2 − 2 degrés de liberté.
q
1 1
• La v.a. X 1 − X 2 est une v.a. normale de moyenne m1 − m2 et d’écart-type σ n1 + n2 .

La variance σ étant inconnue, on construit une variable de Student définie par


X 1 −X
q2 −(m1 −m2 )
1
σ n1
+ n1
2
Tn1 +n2 −2 = r
n1 S12 +n2 S22
σ 2 (n1 +n2 −2)

d’où l’on peut faire disparaı̂tre le paramètre inconnu σ

X 1 − X 2 − (m1 − m2 ) √
Tn1 +n2 −2 = r  n1 + n2 − 2
1 1 2 2
n1 + n2 (n1 S1 + n2 S2 )

Sous l’hypothèse H0 , la région critique est de la forme |T | > k. Comme habituellement, la valeur
seuil k est reliée à l’erreur de première espèce et peut être trouvée dans une table de Student.
Il faut noter pour finir que le test de Student est robuste car il s’applique également lorsque l’hypothèse
d’égalité des variances n’est plus valide. Il faut cependant pour cela que les tailles des échantillons soient
grandes (quelques dizaines d’observations pour chaque échantillon).

4.8.3 Test de Spearman

On peut ici réutiliser le coefficient de corrélation de Spearman qui va indiquer le degré de liaison existant
entre le classement des éléments d’un échantillon selon la variable x et le classement des mêmes éléments
selon la variable y. Une forte valeur du coefficient de corrélation de Spearman indiquera une liaison entre
les deux variables (puisqu’induisant des classements linéairement liés). Cette approche n’a de sens que
si les échantillons des v.a. X et Y sont appariés.
Pour calculer le coefficient de corrélation de Spearman, il s’agit de calculer le rang de chaque élément
dans la série croissante de valeurs de x et de y puis de calculer la différence de classement di où i dénote

IV-17
le i-ème élément de l’échantillon. L’indicateur de Spearman est donné par :
Pi=n 2
d
i=1 i
rs = 1 − 6
n(n2 − 1)

Il existe des versions plus sophistiquées de cet indicateur qui tiennent compte des ex-aequos dans les
classements (cette correction n’est nécessaire que si ce nombre d’ex aequos devient important).
Sous l’hypothèse d’indépendance entre les deux variables, on peut montrer que
1
E[Rs ] = 0 et V [Rs ] =
n−1
où Rs est la variable aléatoire associée à l’indicateur de Spearman. De plus, si l’effectif est grand (n ≥ 30),
cette vatiable aléatoire suit approximativement une loi normale. On peut donc construire un test sur la
variable √
ZRs = Rs n − 1
qui suit une loi normale centrée réduite. On retrouve un test équivalent à un test de moyenne de loi
normale. Dans le cas d’un test bilatéral, avec un risque de α, la règle de décision est

Si | n − 1rs | > zα/2 alors H1 sinon H0 et P (Y < zα/2 ) = 1 − α/2 où Y désigne la loi normale centrée
réduite.
Pour les petits échantillons, il est nécessaire d’avoir recours à une table spécifique de Spearman.

4.9 Analyse de la variance

L’analyse de la variance est un ensemble de techniques permettant de comparer plusieurs échantillons


de données. Cette comparaison est le plus souvent limitée à celle des moyennes dans un cas gaussien.
On l’utilise également pour étudier l’effet d’un facteur qualitatif externe. Nous nous limiterons ici à une
présentation résumée dans le cas où il y a un seul facteur explicatif.

4.9.1 Les données de l’analyse

Pour chaque réalisation Ai (i = 1 . . . k) d’un facteur explicatif A, on dispose d’un échantillon x1i , . . . , xni i
P
dont la moyenne est x̄i . La taille totale de la population est donc n = i ni .
On considère que chaque échantillon est issu d’une v.a. Xi suivant une loi ℵ[mi , σi ]. En terme de
test, nous avons donc
H 0 : m1 = m2 = . . . = mk = m
H1 : ∃i, j mi 6= mj

On pose xji = mi + ji où ji est une perturbation dont la variation obéit à une v.a. normale centrée et
d’écart-type σ. On peut aussi adopter un modèle similaire mais plus général de la forme xji = µ + αi + ji
où µ est une valeur moyenne constante et αi l’effet du niveau i du facteur explicatif.
Dans le cas où l’hypothèse H0 est rejetée, l’étude se poursuit par l’estimation des valeurs moyennes
mi (ou µ et αi selon le modèle utilisé).

IV-18
4.9.2 Le test

On note X la moyenne totale que l’on obtient par


k X n
i k
1X 1X
X= xji = ni X i
n i=1 j=1 n i=1

La variance totale S 2 est estimée par


k X n
i
1X
S2 = (xj − X)2
n i=1 j=1 i

On montre facilement que cette variance totale peut se décomposer en la somme de la variance des
moyennes, SA 2 (aussi appelée variance inter-classes) plus la moyenne des variances, S 2 (aussi appelée
R
variance intra-classes).

k k X i n
1X 1X
S 2 = SA
2 2
+ SR = ni (X i − X)2 + (xj − X i )2
n i=1 n i=1 j=1 i

La variance SA2 représente la variation du au facteur explicatif A, la variance S 2 est elle considérée
R
comme la variabilité résiduelle.
On peut réécrire cette variance résiduelle en faisant intervenir les variances de chaque échantillon
k
2 1X 2
SR = ni S i
n i=1

n S2 nSR2
Chaque quantité iσ i suit une loi du χ2 à ni −1 degrés de liberté. Donc la quantité σ suit également
une loi du χ2 à n − k degrés de liberté.
nS 2
Sous l’hypothèse H0 , les v.a. Xi sont de même loi donc on a également le fait que la quantité σ
2
nSA
suit une loi du χ2 à n − 1 degrés de liberté, et σ , une loi du χ2 à k − 1 degrés de liberté.
On peut donc construire l’indicateur de notre test par
2
SA
k−1
F (k − 1, n − k) = 2
SR
n−k

dont la loi est celle de Fisher-Snédécor.


Si la valeur de l’indicateur est supérieure à la valeur critique d’une variable de Fisher-Snédécor (pour
une erreur de première espèce α), alors on conclut à l’influence du facteur explicatif A, i.e. on rejete
l’hypothèse H0 .

4.9.3 Analyse des contrastes

Le rejet de l’hypothèse H0 ne signifie pas que toutes les moyennes sont différentes. Il est possible qu’un
seul couple (mi , mj ) ne valide pas l’hypothèse. On est alors intéressé par une analyse plus fine des
différences mi − mj que l’on appele souvent contraste.

IV-19
Une approche possible repose sur un résultat du à Scheffé: l’évènement
s s
1 1 1 1
mi − mj − S σ̂ + ≤ x̄i − x̄j ≤ mi − mj + S σ̂ +
ni nj ni nj

a lieu avec une probabilité 1 − α donnée par

S2
P (Fk−1;n−k ≤ )=1−α
k−1
où σ̂ est le carré moyen résiduel que l’on peut estimer par la quantité
s
2
nSR
σ̂ =
n−k

On peut montrer que l’hypothèse H0 a été rejetée si au moins un des contrastes est significativement
différent de 0.
Le test de chaque contraste est donc
s
1 1
si |x̄i − x̄j | > S σ̂ + alors mi 6= mj
ni nj

p
S sera estimé par S = (k − 1)Fα (k − 1; n − k)
Attention, ce test est parallèle, il n’y a donc pas nécessairement de transitivité des résultats. On peut
donc tout à fait avoir la configuration m1 = m2 et m2 = m3 et m1 6= m3 .

IV-20
5 Le Contrôle Statistique de Process: SPC

5.1 Introduction

La notion de qualité est bien sûr très importante dans la production et les statistiques y contribuent en
fournissant des outils de mesure mais aussi de décision les plus objectifs possibles. Si l’on suit Montgomery,
la qualité est inversement proportionnelle à la variabilité. L’accroissement de la qualité s’obtient donc par
la réduction de cette variabilité. Celle-ci s’exprime bien en termes statistiques par le biais de la variance
même si cela n’est pas suffisant. C’est pourquoi il existe de nombreux indicateurs. Afin de les utiliser au
mieux il est nécessaire d’en bien connaı̂tre et comprendre les hypothèses sousjacentes.
Dans un système de production quel qu’il soit (production de produits manufacturiers, de services ou
d’information), la variabilité provient de l’absence de répétitivité parfaite. Les causes principales en sont
l’usure des machines et des matériaux, les opérateurs, les méthodes de transformation et l’environnement.
On considère le plus souvent deux classes de variabilité

• la variabilité inhérente au processus (et peu modifiable) qui induit la notion de distribution des
mesures (le plus souvent admise par les entreprises comme étant une distribution normale);

• la variabilité externe qui induit le plus souvent un biais dans les distributions par rapport à cette
hypothèse de normalité.

Le contrôle statistique de process (SPC : Statistical Process Control) tente de modéliser ces causes
et leurs effets. Il s’agit plus d’une méthodologie que d’une simple liste d’outils. Cette méthodologie est
composée de trois objectifs:

1. Process control qui tente de maintenir le processus sur sa cible en termes de positionnement nominal
et de tolérances.

2. Process capability qui tente de déterminer la variabilité inhérente à un processus pour établir des
spécifications réalistes utilisables en particulier à des fins de comparaisons.

3. Process change qui induit des modifications du processus dans un but d’amélioration (c’est la partie
action du SPC).

Le SPC est associé à une grande liste d’outils dont les plus connus sont:

• flowchart;

• run charts;

• pareto charts and analysis;

• cause and effect diagrams;

• frequency histograms;

• control charts;

• process capability studies;

• acceptance sampling plans;

V-1
• scatter diagrams.

Tous ces outils utilisent des données de type échantillon et propose une visualisation (le plus souvent
graphique) de la variabilité du processus étudié. Ce chapitre ne va évoquer que la notion de capabilité.
La bibliographie contient les références principales introduisant tous ces outils.

5.2 Capabilité d’un processus

Le contrôle statistique de process permet de garantir par des outils statistiques que le processus est sous
contrôle. Il permet ainsi de garantir à tout moment des conditions de travail satisfaisantes. Il est basé
sur une connaissance et un suivi du processus. Un processus est sous contrôle s’il est statistiquement
stable. Pour une fabrication comportant différents process, l’étude porte sur chacun des process pris
séparemment, sur le principe d’éléments placés en série.
La mise en place de ce système de contrôle requiert au préalable:

1. Une étude de la capabilité des différents process sur lesquels se basent les contrôles.

2. La détermination de la loi de probabilité pour chaque processus.

3. La réalisation de cartes de contrôle pour un suivi de l’évolution du processus.

4. La détermination des réactions à adopter pour chacun des phénomènes défaillants mis en évidence
par les autocontrôles.

5. Une formation sur les autocontrôles pour les opérateurs directement concernés.

6. La mise en place définitive des autocontrôles dans les ateliers.

5.2.1 Etude de la capabilité des processus

Pour qu’un processus puisse être déclaré sous contrôle, il est indispensable de connaı̂tre sa capabilité
et que cette valeur soit acceptable. Cet indicateur permet de déterminer si le processus est capable de
produire dans l’intervalle de tolérance requis.
Les indicateurs de capabilité les plus courants sont:

• Cp = U SL−LSL
6σ . Le CAP (coefficient d’aptitude process) est calculé à partir d’un film de production
traçant l’évolution de 50 à 100 valeurs mesurées de manière consécutive. Il représente le rapport
entre l’intervalle de tolérance (U SL = Upper Specification Limit et LSL = Lower Specification
Limit) et 6 fois l’écart type (σ) de l’échantillon.

• Cpk = min(U SL−µ,µ−LSL)


3σ où µ est l’espérance mathématique de la distribution sousjacente (i.e. la
valeur théorique).
U SL−LSL
• Cpm = √ où ξ est la moyenne expérimentale et T la valeur nominale (sauf contrindication,
2
6 σ +(ξ−T )2
on prendra T = µ).
min(U SL−ξ,ξ−LSL)
• Cpmk = √ .
3 σ 2 +(ξ−T )2

V-2
Dans la pratique, la valeur nominale T est le plus souvent la valeur de l’espérance mathématique µ.
Tous ces indicateurs ont été construits et tabulés sous l’hypothèse de la loi normale pour la distribution
sousjacente.
Par exemple, pour implanter un contrôle statistique, le coefficient Cp doit être égal ou supérieur à
1.33. Ce coefficient, très utilisé dans le monde industriel, est assujéti à des hypothèses qui ne sont pas
toujours vérifiées. Tout d’abord, on ne compare que des écarts à la valeur moyenne sans tenir compte
de la répartition de ces écarts. On fait donc une hypothèse de symétrie de la distribution des mesures.
Il faut donc, au moins par un tracé, s’assurer de la validité de cette hypothèse. Ensuite, les valeurs de
référence (cf. tableau ci-dessous) sont obtenues dans le cas de la Loi normale et ne sont bien sûr valables
que dans ce contexte.

Capabilité Classement
< 0.67 Très mauvaise
0.67 Très mauvaise
1 Mauvaise
1.33 Très moyenne à moyenne
1.67 Moyenne à bonne
2 Bonne à très bonne
>2 Excellente

L’amélioration de la capabilité peut donc être obtenue soit par une révision de l’intervalle de tolérance
dans le sens d’un élargissement, soit par la fiabilisation du process pour diminuer la dispersion sur les
valeurs mesurées.
L’importance des hypothèses peut être montrée sur le coefficient Cp . Lorsque celui-ci est faible, cela
n’induit pas obligatoirement que la qualité du processus l’est également. En effet, cela peut provenir
de la non adéquation de l’hypothèse de normalité (ou au minimum de l’hypothèse de symétrie). Le
raisonnement est également valable pour les fortes valeurs de Cp . En particulier, ce coefficient n’est pas
adapté à des distributions de type Gamma pourtant fréquentes dans les cas réels (sauf si le coefficeint
d’asymétrie est proche de 0, i.e. la valeur de référence de la loi normale). Un test d’adéquation préalable
à toute interprétation est donc requis.

5.2.2 Indicateurs généralisés

Compte tenu des limitations des indicateurs classiques de capabilité, des indicateurs généralisés ont été
proposés. Ils permettent de prendre en compte la non normalité de la distribution. Cependant, ils sont
moins connus et donc moins bien acceptés par le milieu professionnel.
Soit un échantillon de valeurs {xi , i = 1 . . . n} trié en ordre croissant. Les indicateurs de Chang et Lu
sont définis par

0 U SL−LSL
• Cp = Up −Lp
0 U SL−m
• CpU = Up −m
0 m−LSL
• CpL = m−Lp
0 0 0
• Cpk = min(CpU , CpL )

V-3
0 U SL−LSL
• Cpm = r 2
Up −Lp
6 6
+(m−T )2

0 min(U SL−T,T −LSL)


• Cpmk = r  2
Up −Lp
3 6
+(m−T )2

avec

x n +1 +x n
• m, la médiane qui remplace la moyenne (m = x n+1 si n est impair et m = 2
2
2
si n est pair).
2

• Up et Lp sont les valeurs correspondant aux quantiles 99.865% de l’échantillon, c’est à dire

99.865n + 0.135
Up = xku + ( − ku )(xku +1 − xku )
100
99.865 + 0.135n
Lp = xkl + ( − kl )(xkl +1 − xkl )
100
avec ku = b 99.865n+0.135
100 c et kl = b 99.865+0.135n
100 c (bc est l’opérateur partie entière).

Ces indicateurs donnent les mêmes résultats que les précédents en présence de la loi normale et une
meilleure appréhension lorsque celle-ci n’est pas vérifiée. En effet, la valeur de référence 6σ correspond
au quantile 99.865% mais uniquement dans le cas de la loi normale. Ces indicateurs sont donc bien des
généralisations.

5.2.3 Les cartes de contrôle

Deux types de cartes sont possibles.


Cartes de contrôle à valeurs individuelles Elles se composent de relevés des valeurs sous forme
de graphique. Ces cartes sont composées de trois zones: bon, surveillance, rejet (au delà des valeurs
extrèmes U SL et LSL). La valeur cible est mise en évidence. L’objectif est de se situer au plus proche
de cette valeur. Dans la zone de surveillance, on accepte la production mais on est plus attentif à des
phénomènes tels que la stagnation dans la zone (plusieurs points consecutifs), une tendance vers le seuil
rejet, . . . L’outil graphique est un plus donnant les moyens de régler au mieux le process en se basant sur
un suivi.
Cartes de contrôle par attribut On utilise un calibre. Elles sont à caractère qualitatif (bon, mauvais
par défaut, mauvais par excès). L’atout est de pouvoir suivre plusieurs caractéristiques sur une même
carte.

V-4
Figure 5: Exemple de carte de contrôle où figurent les valeurs de référence ansi que le résultat de la
mesure m(x).

V-5
5B

6 Tables

T-1 Fonction de répartition de la loi normale centrée réduite

Probabilité de trouver une valeur inférieure à u.

T-1
T-2 Fractiles de la loi normale centrée réduite

Valeur de u telle que P rob(X < u) = P , P est donnée.

T-2
T-3 Fractiles de la loi du χ2 à ν degrés de liberté

T-3
Fractiles de la loi du χ2 à ν degrés de liberté (suite)

T-4
T-4 Valeurs f de la variable de Fisher-Snédécor F (ν1 ; ν2 ) ayant la probabilité 0.10
d’être dépassées

T-5
T-5 Valeurs f de la variable de Fisher-Snédécor F (ν1 ; ν2 ) ayant la probabilité 0.05
d’être dépassées

T-6
Valeurs f de la variable de Fisher-Snédécor F (ν1 ; ν2 ) ayant la probabilité 0.05 d’être
dépassées (suite)

T-7
T-6 Valeurs f de la variable de Fisher-Snédécor F (ν1 ; ν2 ) ayant la probabilité 0.01
d’être dépassées

T-8
Valeurs f de la variable de Fisher-Snédécor F (ν1 ; ν2 ) ayant la probabilité 0.01 d’être
dépassées (suite)

T-9
T-7 Table de distribution de T (Loi de Student)

Valeurs de T ayant la probabilité P d’être dépassées en valeur absolue.

T-10
T-8 Table du coefficient de corrélation des rangs de Spearman de deux variables
aléatoires indépendantes

Valeurs r de RS ayant une probabilité α d’être dépassée en valeur absolue: P (|RS | > r) = α

T-11
Table du coefficient de corrélation des rangs de Spearman de deux variables aléatoires
indépendantes (suite)

Valeurs r de RS ayant une probabilité α d’être dépassée en valeur absolue: P (|RS | > r) = α

T-12
T-9 Fonction de répartition de la statistique de Cramer-Von Mises

Valeurs de z telles que P (I < z) = 1 − α.

T-13
T-10 Table du test de Kolmogorov-Smirnov

Valeurs de dn telles que P = P rob(supx |Fn∗ (x) − F (x)| < dn )

T-14
Table du test de Kolmogorov-Smirnov (suite)

Valeurs de dn telles que P = P rob(supx |Fn∗ (x) − F (x)| < dn )

T-15
7 Exercices

Ce chapitre regroupe quelques excercices d’application des concepts illustrés dans les chapitres de ce
polycopié. Ils constituent une base pour vous permettre de tester vos connaissances.

7-1 Probabilités

1- Trois personnes entrent dans une pièce où se trouvent 7 chaises différentes. De combien de manières
différentes peut-on placer les 3 personnes?
7!
Réponse : A37 = 4! = 210

2- Quel est le nombre maximum d’immatriculations qu’il est possible de réaliser dans le cas des imma-
triculations de véhicules français?
3- Un train de marchandises se compose de 14 wagons dont 6, 3, 4 et 1 sont à laisser respectivement en
4 gares différentes, A, B, C, D. De combien de manières ces wagons peuvent-ils être disposés pour que
les wagons à retirer soient toujours en queue de train?
4- Soient A, B et C des évènements aléatoires définis sur une même épreuve. On considère maintenant
deux nouveaux évènements : E1 = A B c C c et E2 = A (B C). (a) Montrer que E1 et E2 sont
T T T S
S
incompatibles. (b) Que signifie l’évènement E1 E2 ? (c) Calculer P (E1 ) et P (E2 ) sachant que P (A) =
T T T T T
0.6, P (B) = 0.4, P (C) = 0.3, P (A B) = 0.2, P (B C) = 0.1, P (A C) = 0.1 et P (A B C) = 0.05.
5- Un circuit électronique est composé de 10 blocs identiques en série, chacun de ces blocs peut être
formé d’un élément unique ou de deux éléments identiques en parallèle (dans ce cas on supposera qu’il
suffit qu’un des deux éléments fonctionne pour que le bloc fonctionne). On admet que chaque élément a
une probabilité égale à 0.02 de tomber en panne pendant les 5000 premières heures de fonctionnement
et que les pannes des divers éléments sont des évènements indépendants. Calculer les probabilités d’une
panne de circuit pendant les 5000 premières heures de fonctionnement, si chaque bloc est formé d’un seul
élément(a), si chaque bloc est formé de deux éléments(b), si n blocs sont fomés d’un seul élément(c).
Combien faut-il de blocs à 2 éléments pour garantir une probabilité de panne du circuit inférieure à
10%(d).
Réponse : (a) 0.18 (b) 0.004 (c) 1 − (1 − 0.022 )10−n (1 − 0.02)n (d) 5

6- On dispose de N boules dont D sont rouges. On tire (sans remise) n boules. Quelle est la probabilité
de tirer d boules rouges ?
d C D−d
Cn N −n
Réponse : p = CND


7- La demande d’un produit P pendant 1 mois peut prendre les valeurs d suivantes avec les probabilités
P (d):
(d, P (d)) ∈ {(0, 0.1), (1, 0.1), (2, 0.2), (3, 0.3), (4, 0.2), (5, 0.1)}

a) Pourquoi peut-on parler de probabilité ?


b) De quel stock minimum doit-on disposer en début de mois pour que le risque de rupture de stock
soit inférieur ou égal à 0.3 ?

VII-1
8- On sait que les jumeaux peuvent être de vrais jumeaux, dans ce cas ils ont même sexe, ou de faux
jumeaux, et dans ce cas la probabilité pour qu’ils aient même sexe est 0.5. On suppose connue la
probabilité p pour que deux jumeaux soient de vrais jumeaux. (a) Déterminer en fonction de p la
probabilité pour que deux jumeaux soient de même sexe. (b) Déterminer la probabilité pour que deux
jumeaux soient de vrais jumeaux sachant qu’ils ont même sexe.
1+p 2p
Réponse : (a) 1 ; (b) 1+p


9- Les clients d’une entreprise ont été répartis en plusieurs catégories en fonction du volume d’affaires
annuel traité avec eux et en fonction du fait que l’on a déjà eu pour eux ou non des créances impayées.
Les résultats de ce décompte sont donnés dans le tableau ci-dessous:

Volume d’affaire annuel 0 à 10 000 (C1 ) 10 000 à 100 000 (C2 ) + de 100 000 (C3 )
Clients ayant déjà eu des 100 25 10
impayés (I)
Clients n’ayant jamais eu 1 200 350 150
d’impayés (I)

Déterminez pour un client choisi au hasard les probabilités suivantes: P (C1 ), P (C2 ), P (C3 ), P (I|C1 ),
P (I|C2 ), P (I|C3 ), P (C1 |I), P (C2 |I), P (C3 |I). Y a-t-il dépendance entre le volume d’affaires et l’existence
d’impayés ?
Réponse : P (C1 ) = 0.708, P (C2 ) = 0.204, P (C3 ) = 0.088, P (I|C1 ) = 0.08, P (I|C2 ) = 0.07, P (I|C3 ) =
0.06, P (C1 |I) = 0.74, P (C2 |I) = 0.19, P (C3 |I) = 0.07. Il y a dépendance entre le volume d’affaires et
l’existence d’impayés d’après l’analyse des termes P (Ci et I) et P (Ci )P (I).

10- Pour juger de l’efficacité d’une campagne publicitaire ayant porté sur un produit P , on a sondé 1500
personnes, 1000 dans une région R1 et 500 dans une région R2 . Seule la région R2 avait été concernée
par la campagne. Les résultats sont les suivants:

Connaissent le produit P et Connaissent le produit P et Ne connaissent pas le pro-


le consomment ne le consomment pas duit P
Région R1 80 150 770
Région R2 50 130 320

a) Déterminer pour chacune des régions: la probabilité qu’une personne connaisse le produit P , la
probabilité qu’une personne consomme le produit P et la probabilité qu’elle consomme le produit P
sachant qu’elle le connait.
11- La probabilité pour qu’une ampoule électrique ait une durée de vie supérieure à 2 ans est de 0.2.
Sachant qu’un lustre est formé de 5 ampoules, donnez la loi modélisant le phénomène ”il faut changer n
ampoules en 2 ans” et les probabilités correspondant aux valeurs 0 et 5 de n.
Réponse : L’évènement ”une ampoule à changer” peut être modélisé par une loi (0, 1)p=0.8 . La
loi de l’évènement ”il faut changer une ampoule en 2 ans” est donc une loi binomiale (si l’on suppose
l’indépendance entre les 5 ampoules). P (0) = C50 0.80 0.25 = 0.00032 et P (5) = 0.32768.

12- Soient deux urnes contenant respectivement 100 boules rouges et 100 boules noires. On prend 32
boules rouges de la première urne pour les mettre dans la seconde, puis on mélange et on reprend 32

VII-2
boules de la 2ème urne pour les remettre dans la première. Quelle est la probabilité qu’il y ait plus de
boules rouges dans la première urne que dans la deuxième ?
13- Un lot de n articles présente un mélange des produits de trois usines : n1 articles de l’usine U1 ,
n2 de l’usine U2 et n3 de l’usine U3 . Pour les articles de l’usine U1 , la probabilité de fonctionner sans
défaillance pendant un temps τ est p1 , p2 pour l’usine U2 et p3 pour l’usine U3 . On tire au hasard un
article, calculer la probabilité que l’article fonctionnera sans défaillance pendant un temps τ .
14- On considère trois lots d’articles de même type, le premier compte d1 articles défectueux parmi les
n1 articles. De même, on compte d2 (resp. d3 ) articles défectueux parmi les n2 (resp. n3 ) articles du
deuxième (resp. troisième) lot d’articles. On choisit au hasard l’un des lots pour en tirer au hasard deux
articles. Le premier article est défecteux. Quelle est la probabilité que le second article soit défecteux lui
aussi ?
Réponse : Soient les états D1 et D2 indiquants que les premier et deuxième articles sont défecteux.
Ce que l’on cherche est donc P (D2 |D1 ).
En se servant de la formule de Bayes, on a
T
P (D1 D2 )
P (D2 |D1 ) =
P (D1 )

Les deux articles provenant d’un des trois lots, on introduit les lots par
\ 3
X \ \ 3
X \
P (D1 D2 ) = P (D1 D2 Li ) = P (D1 ) P (Li |D1 )P (D2 |D1 Li )
1 1

donc
3
X \
P (D2 |D1 ) = P (Li |D1 )P (D2 |D1 Li )
1

De la même manière, on estime les autres probabilités conditionnelles par


P (Li )P (D1 |Li )
T
P (D1 Li )
P (Li |D1 ) = = P3
P (D1 ) 1 P (Li )P (D1 |Li )

Les probabilités qui nous sont nécessaires sont

∀i, P (Li ) = 31
P (D1 |Li ) = ndii
di −1
P (D2 |D1 Li ) =
T
ni −1

donc
di
P (Li |D1 ) = Pn3i di
1 ni

Le tout recombiné donne P3 di (di −1)


1 ni (ni −1)
P (D2 |D1 ) = P3 di
1 ni


!
0
15- Soient deux v.a. discrètes indépendantes Xi de type (P (Xi = 1) = pi ). (a) Déterminez la
1
pi
loi de la v.a. Z1 = min(X1 , X2 ). (b) Déterminez la loi de la v.a. Z2 = max(X1 , X2 ). (c) Déterminez la
loi du couple (Z1 , Z2 ). (d) Les v.a. Z1 et Z2 sont elles indépendantes ?

VII-3
7-2 Variables aléatoires

1- On admet que le nombre de défauts sur le verre d’une ampoule obéit à une loi de Poisson de paramètre
λ = 4. Calculer les probabilités des évènements suivants: (a) Aucun défaut. (b) Plus de 2 défauts. (c)
Entre 3 et 7 défauts.
Réponse : (a) 0.018 (b) 0.762 (c) 0.711

2- Soit une loi uniforme continue U définie sur l’intervalle symétrique [−a, +a]. Quels sont la moyenne
et l’écart type de cette variable aléatoire. On procède à une accumulation d’expériences identiques
(n réalisations indépendantes de la loi U ). Que se passe-t-il quand n devient grand pour la variable
U1 +U2 +...+Un
n ?
3- Dans une entreprise de 200 salariés, il se produit en moyenne 4 accidents du travail par mois. On
suppose que tous les salariés ont la même probabilité d’avoir un accident. Quelle loi peut modéliser le
nombre mensuel d’accidents du travail ?
4- Soit X une v.a. N (1, σ) (où σ = 2). Calculer P (X > 5). Donner une borne de cette probabilité en
utilisant l’inégalité de Bienaymé-Tchebyshev. Commentaire.
q x2
√ 1 e− 2σ2 dx
π R +∞
5- Montrer par le calcul que E(X) = σ 2 pour X v.a. de Raleigh. (On rappelle que −∞ 2πσ
=
1.)
Réponse: Soit X la v.a. suivant une loi de Raleigh
Z ∞
x − x22
E[X] = x. e σ dx
0 σ2
Posons
x − x22
U 0 (x) = e σ dx
σ2
et
V (x) = x
On en déduit
x2
U (x) = −e− σ2
et
V 0 (x) = dx

Donc 2 Z ∞
x x2
E[X] = [−xe− σ2 ]∞
0 + e− σ2 dx
0
√ Z ∞
1 x2
E[X] = σ 2π √ e− σ2 dx
0 σ 2π

La forme intégrale est égale à P (Y > 0) pour une loi normale de moyenne nulle et d’écart type σ.
Par symétrie de cette loi, cette probabilité vaut 0.5. Donc le résultat final est
r
π
E[X] = σ
2

VII-4
6- Soit Y = i=10 2
i=1 Xi avec Xi : N (0, 1) deux à deux indépendantes. Quelle est la loi de Y ? Donner les
P

valeurs de E(Y ) et V ar(Y ).


Réponse : Par définition, Y suit une loi du χ2 dont l’espérance mathématique est 10 et la variance
20.

7- On envisage l’achat d’une machine de valeur 140000 euros et dont la durée de vie est 2 ans. Les
dépenses de fonctionnement de ce matériel seraient de 43050 euros par an. On pourrait fabriquer 1000
pièces par an. L’entrepreneur estime que chaque année, la probabilité d’écouler cette production est de
0.9. Par contre, en cas de récession, l’une ou l’autre des années, on ne pourra écouler plus de 750 pièces.
Le prix de vente d’une pièce (imposé par la concurence) est de 500 euros la première année. Pour la
seconde année, il y a une probabilité de 0.5 pour qu’il se maintienne, une probabilité 0.1 pour qu’il monte
de 10% et une probabilité 0.4 pour qu’il baisse de 5%. Dans les questions suivantes, il vous est demandé
de formaliser chaque question en termes de v.a. avant de procéder aux calculs.
a) Calculer l’espérance mathématique et la variance du nombre de pièces écoulées pour l’ensemble des
deux années.
b) Calculer l’espérance mathématique du chiffre d’affaires réalisé la première année, puis la seconde année
(les quantités écoulées et le prix de vente sont supposés indépendants).
c) Quelle est l’espérance mathématique du gain procuré par cet investissement sur l’ensemble des deux
années ?
8- La demande d’un produit P par mois à une entreprise suit une loi normale. Elle a une probabilité 0.1
d’être inférieure à 15000 unités, et une probabilité 0.1 d’être supérieure à 25000.
a) Déterminer les paramètres de la loi normale.
b) La marge sur coût variable unitaire est de 10 euros. Les charges fixes mensuelles sont de 175000 euros.
Déterminer la loi de probabilité suivie par le résultat mensuel. En déduire la probabilité que le seuil de
rentabilité mensuel soit atteint.
c) Quelle est la loi de probabilité du résultat trimestriel ? Quelle est la probabilité que le seuil de
rentabilité trimestriel soit atteint ? Quelle commentaire peut-on faire en comparant les probabilités
mensuelles et trimestrielles ?
Réponse : (a) (µ, σ) = (20000, 3901) (b) Loi normale de paramètres (µ, σ) = (25000, 39010). Prob(seuil
de rentabilité atteint) = 0.7389. (c) Loi normale de paramètres (µ, σ) = (75000, 67567). Prob(seuil de
rentabilité atteint) = 0.8665. Il est plus simple d’atteindre un objectif sur 3 mois que 3 fois sur 1 mois.

9- Au contrôle de la fabrication, une pièce est rejetée si une au moins de ses deux dimensions ne répond
pas aux normes tolérées, soit une variation de 0.1mm en plus ou en moins pour la longueur X, et 0.02mm
en plus ou en moins pour la largeur Y . Les normes de fabrication sont pour X: 4cm et pour Y : 0.3cm.
Les moyennes de X et Y sur des échantillons de 300 pièces sont respectivement 4.1cm et 0.301cm. Les
5 0.4
écarts types sont égaux à: σX = 100 mm et σY = 100 mm. Quel pourcentage de rebus obtient-on à la
sortie de l’atelier de production ?
10- Donnez la valeur de P rob(|X| < 5) sachant que X est une variable aléatoire normale de moyenne 1
et d’écart-type 2.
Réponse : P (|X| < 5) = P (−5 ≤ X ≤ 5) = P (X ≤ 5) − P (X ≤ −5). Par centrage réduction, on
pose Y = X−1
2 . P (|X| < 5) = P (Y < 2) − P (Y < −3) = P (Y < 2) + P (Y < 3) − 1. Par lecture dans la

VII-5
table de la loi normale (0,1), on obtient P (|X| < 5) = 0.9772 + 0.99865 − 1 = 0.9759.

11- Une usine produit 9000 unités d’un produit sur un intervalle de temps t. Pour cette même période, la
demande, exprimée en milliers d’unités, concernant ce produit peut être considérée comme une variable
aléatoire suivant une loi exponentielle de paramètre 3. Quelle est la probabilité que la demande dépasse
la production ? Quelle devrait être la production pour que cette probabilité soit inférieure à 4% ?
Réponse : P (Dde > P rod) = 0.05. Pour descendre cette probabilité à 0.04, la production doit être
supérieure à 9657 unités.

12- Soient Xi , i = 1 . . . n, n V.A. continues, uniformes sur [0, t[. On construit une nouvelle variable par
Mn = M ax(X1 , X2 , . . . , Xn ).
a) Calculez P (Mn < a) pour a < t. Que se passe-t-il quand n tend vers l’infini ?
b) Démontrer la nature de Mn par une convergence en probabilité.
13- Une machine déréglée produit des pièces dont 31 sont défectueuses. Donnez la loi qui modélise le
nombre de pièces défectueuses. Dans un lot de 39 pièces fabriquées par cette machine, calculez le nombre
moyen de pièces défectueuses et la probabilité associée à ce nombre.
Réponse : Une pièce est défectueuse ou non. Ce comportement peut tout à fait se modéliser par
une variable de type binaire de paramètre P (X = 1) = 1/3. Dans un lot, si on suppose l’indépendance
entre les évènements, l’apparition de pièces défectueuses s’apparente alors à une somme de lois binaires
indépendantes 2 à 2. On obtient une loi binomialeB(n, p) = B(39, 13 ). Le nombre moyen théorique de
pièces défectueuses est donc E[B] = n × p = 13.
De même, la probabilité de ce nombre est donnée par

13 1 13 2 26
P (B = 13) = C39 ( ) ( ) = 0.135
3 3


14- Donnez la valeur de t telle que P rob(X < t) = 0.90 sachant que X est une variable aléatoire de
Student à 20 degrés de liberté.
Réponse : La table de Student ne donne que P (|X| < t). Cependant, comme la loi de Student est
symétrique, nous avons
P (X < t) = 0.9 ↔ P (|X| < t) = 0.8
d’où t = 1.325.

15- Montrez que la variance théorique d’une v.a. suivant une loi de Rayleigh de paramètre σ est σ 2 (2− π2 ).
(intégration par partie U V = [U V ] − U V 0 ).
R 0 R

p
Réponse: L’espérance mathématique d’une loi exponentielle est E = σ π/2et sa densité de proba-
2 2
bilité est f (x) = σx2 e−x /(2σ ) . La variance est définie par
Z ∞
V = E[X 2 ] − E[X]2 = x2 f (x)dx − E 2
0
Z ∞ 3
x 2 /(2σ 2 )
V = e−x dx − E 2
0 σ2

VII-6
On fait une intégration par partie

x −x2 /(2σ2 )
V (x) = −x2 et U 0 (x) = − e dx
σ2
Ce qui nous donne
2 /(2σ 2 )
V 0 (x) = −2xdx et U (x) = e−x
et Z ∞
2 2 2 /(2σ 2 )
V = [−x2 e−x /(2σ ) ]∞
0 + 2xe−x dx − E 2
0
2 /(2σ 2 ) π
V = 2σ 2 [−e−x ]∞ 2 2
0 − E = 2σ − σ
2
2

Donc
π
V = σ 2 (2 − )
2

16- Donnez la valeur de t telle que P rob(X > t) = 0.70 sachant que X est une variable aléatoire de
Student à 20 degrés de liberté.
Réponse : Cette probabilité n’a de sens que si t est négatif. En effet, la loi de Student est symétrique
autour de 0 et donc P (X > 0) = 0.5. On a donc P (X < t) = 0.3) et par symétrie, P (X > |t|) = 0.3).
Donc la valeur de t est donc obtenue par la lecture de la probabilité P (|X| < |t|) = 0.4 ce qui nous donne

t = −0.533


17- Donnez la valeur de α telle que P rob(|X| < 1.25) = α sachant que X est une variable aléatoire
normale de moyenne 0.5 et d’écart-type 1.
Réponse :

α = P (X < 1.25) − P (X < −1.25)

α = P (Y < 0.75) − P (Y < −1.75)

où Y est une variable aléatoire normale centrée réduite.

α = P (Y < 0.75) − 1 + P (Y < 1.75) = 0.7734 − 1 + 0.9599

α = 0.7333


18- Donnez la valeur de t telle que P rob(X < t) = 0.90 sachant que X est une variable aléatoire du χ2
à 25 degrés de liberté.
Réponse : Lectude directe dans la table du χ2 à 25 ddl : t = 34.382.


VII-7
19- Donnez la valeur de f telle que P rob(F < f ) = 0.95 sachant que F est une variable aléatoire de
Fisher-Snédécor F (10, 25).
Réponse : Lecture directe dans la table de Fisher-Snédécor : f = 2.24.

20- On considère la fonction f définie par
2
f (x) = Ce−αx

Déterminez C de sorte que f soit une densité de probabilité sur <.


Réponse : Pour intégrer cette fonction, on va construire d’abord la solution d’une intégrale double
associée à un couple de variables indépendantes. Soit la fonction fX,Y définie par
2 +y 2 )
fX,Y (x, y) = fX (x)fY (y) = C 2 e−α(x

Définissons un domaine Pη du plan par x ≥ 0, y ≥ 0 et x2 + y 2 ≤ η 2 (un quart de disque).


Calculons tout d’abord l’intégrale de fX,Y sur ce domaine
RR
I(η) = Pη fX,Y (x, y) dx dy
2 −α(x2 +y 2 ) dx dy
RR
= C Pη e

Faisons le changement de variables polaires (x, y) = (ρcos(θ), ρsin(θ)) dont le jacobien est
∂x ∂x

cos(θ) −ρsin(θ)
∂(x, y) ∂ρ ∂θ
j(ρ, θ) = = = =ρ

∂(ρ, θ) ∂y ∂y
sin(θ) ρcos(θ)

∂ρ ∂θ

L’intégrale devient donc


R π/2 R
η 2 2
I(η) = C 2 0 −αρ dρ dθ
0 ρe
π/2 η 2
= C 2 0 dθ 0 ρe−αρ dρ
R R
−αρ2
= C 2 π2 [ −e2α ]η0
2
π
= C 2 4α (1 − e−αη )

Afin de couvrir le plan, nous pouvons passer d’abord à la limite par


π
lim I(η) = C 2
η→∞ 4α

L’intégrale sur le plan entier est donc


π
C2
α
Dans cette intégrale double, les deux variables sont indépendantes, donc cette intégrale double est le
carré de l’intégrale simple et nous avons
Z ∞ √
C π
f (x)dx = √
−∞ α

La fonction f sera une densité de probabilité si cette intégrale est unité, d’où l’on déduit
α
C=
π

VII-8
1
Dans le cas d’une loi normale, α = 2σ 2
ce qui nous redonne bien

1
C= √
σ 2π

7-3 Estimation

1- Soit X une loi normale d’espérance µ connue et de variance σ 2 inconnue. Construisez l’estimateur σ̂ 2
de cette variance par la méthode du maximum de vraisemblance. Quel est son biais ?
2- Construisez l’estimateur λ̂ du paramètre d’une loi de Poisson par la méthode du maximum de vraisem-
blance.
3- Une machine fabrique des pièces à une cadence qui ne permet pas de faire un controle qualité total.
On procède donc à un prélèvement d’un échantillon de n pièces qui sont testées. Sur cet échantillon,
n = 30, on constate un pourcentage de 5% de pièces défectueuses. L’entreprise ayant commandée ces
pièces impose un pourcentage maximum de rebut de 6%. Que pouvez-vous conseiller au fabricant des
pièces ?
4- Soit l’échantillon {(xi , yi ), i = 1, . . . , n} avec xi = i et yi = 3.13, 5.26, 5.5, 7.47, 8.1, 9.39, 9.86, 10.59, 12.1, 12.94.
Déterminer les paramètres d’un modèle linéaire de la forme y = ax+b approximant au mieux ces données.
Quelle est la confiance dans ce modèle ?
5- On dispose d’un échantillon provenant d’une loi normale N (µ, σ). On estime les paramètres par
µ̂ = n1 xi et σ̂ 2 = n−1 1 P
(xi − µ̂)2 . Les valeurs obtenues sont, n = 30 et σ̂ 2 = 80. Quelle est la
P

probabilité pour que la valeur vraie de l’écart type soit supérieure à 8 ?


6- On dispose d’un ensemble de 101 mesures provenant d’un échantillonnage que l’on associe à une v.a.
N (µ, σ), µ et σ étant inconnus. La variance estimée est s2 = 20. Donner l’intervalle de confiance sur σ 2
pour α = 0.1.
7- A partir d’un échantillon de 10 réalisations, on estime la moyenne d’une variable aléatoire normale.
L’écart-type étant également inconnu, on l’estime. On obtient les valeurs 3 pour la moyenne et 9 pour
l’écart-type. Quel est l’intervalle de confiance (α = 0.9) autour de la moyenne ?
Réponse : [−2.21, 8.21]

8- A partir d’un échantillon de 30 valeurs, on estime la moyenne d’une variable aléatoire normale. L’écart-
type étant inconnu, on l’estime également et on obtient les valeurs m = 5 et s = 5. Quelle est la confiance
d’un intervalle de largeur 1 autour de la moyenne ?
Réponse : P (4 < µ < 6) = 0.7158

9- Un quotidien publie tous les mois la cote du chef du gouvernement à partir d’un sondage réalisé
sur un échantillon représentatif de 1000 personnes. En janvier, la cote publiée était de 38% d’opinions
favorables, en février de 36%. Un journaliste commente alors ces valeurs par ”Le chef du gouvernement
perd 2 points !!” Commentez ce commentaire.
Réponse: On construit un intervalle de confiance autour des proportions. Avec un seuil de 95%, on
obtient respectivement [35, 41] et [33, 39] pour les valeurs 38% et 36%. Les deux intervalles ayant une

VII-9
intersection non vide, on ne peut pas conclure qu’il y ait eu baisse ou augmentation
q de la cote du chef
pn (1−pn )
de gouvernement. La largeur de l’intervalle de confiance est donnée par t n avec t = 1.96 pour
un seuil de sonfiance de 0.95, n = 1000 et pn = 0.36 ou 0.38.

10- Le chiffre d’affaires mensuel de l’entreprise JET suit une loi normale de moyenne µ inconnue mais
dont l’écart type est connu et égal à 50 Keuros. Sur les douze derniers mois, la moyenne des chiffres
d’affaires mensuels a été de 200 Keuros. Donnez une estimation de µ par intervalle de confiance au niveau
0.98.
Réponse : µ ∈ [166.37; 233.63]

11- Dans une station service, on suppose que le montant des chèques essence suit une loi normale de
moyenne µ et d’écart type σ. On considère un échantillon de taille 50 et on obtient une moyenne de 20
euros et un écart-type de 5 euros. Donnez une estimation de µ par intervalle de confiance au niveau 0.95.
Réponse : On doit procéder au calcul d’un intervalle de confiance sur une moyenne d’une loi normale
dont l’écart-type est inconnu et estimé. Cet intervalle est définit par
u×s
P (|m − µ| < √ ) = α
n
où m (respectivement s) est la moyenne (respectivement l’écart-type) estimée et u est lue dans une table
de la loi de Student à n − 1 = 49 degrés de liberté.
Ce qui donne, u = 2.02 et comme intervalle de confiance

µ ∈ [18.57, 21.43]


12- Dans une production continue de pièces manufacturières, on fait un contrôle de qualité par prélèvement
avec un échantillon de 100 pièces.
1. Pour chaque pièce, on procède à un contrôle de poids. On admet que cette mesure peut être modélisée
par une variable aléatoire exponentielle de paramètre a. Le paramètre de cette loi étant inconnu, on
estime les moments et l’on obtient respectivement, 5 g et 3. g pour la moyenne expérimentale, m, et
l’écart-type, s. Quelle est la confiance d’un intervalle de largeur 0.2 ?
Réponse: La variable aléatoire poids suit une loi exponentielle de paramètre a qui est aussi sa moyenne
théorique. On accède à ce paramètre par l’estimation de la moyenne. L’on a donc à déterminer un
intervalle de confiance autour de la moyenne estimée, i.e. IC(a) = IC(m). On est pas dans le cas d’une
loi normale mais l’échantillon est de grande taille, on peut donc appliquer la règle standard
ts
ICα : P (|a − m| < √ ) = α
n

La largeur de cet intervalle est 0.1 donc


ts
0.1 = √ ⇒ t = 0.3333
n

Dans la table de la loi de Student à 99 ddl, on constate que pour des ddl de 80 et 120, il n’y pas de
changements notables et l’on repère

VII-10
0.387 − 0.333
α = 0.3 − 0.1 × ≈ 0.26
0.387 − 0.254


2. Sur cet échantillon, on estime à 5% le taux de pièces défectueuses. Quel est l’intervalle de confiance à
90% autour de cette valeur ? Conclusion.
Réponse: Il s’agit de déterminer un intervalle de confiance d’une proportion qui est donné par

s
p(1 − p)
α = P rob(|p − fn | < u )
n

On utilisera l’approximation p = fn dans l’évaluation de la racine car la valeur expérimentale est


loin de 0.5. La valeur de u est lue dans une table de la loi normale centrée réduite et correspond à
P (|Y | < u) = 0.9 soit P (Y < u) = 0.95 avec Y : ℵ(0, 1). La lecture donne u = 1.645 et l’on obtient
l’intervalle de confiance suivant :
IC90% = 5% ± 3.6%

La fluctuation est très importante (du même ordre que l’estimation) et rend difficilement interprétable
la valeur obtenue pour la proportion. Il faut soit réduire la confiance, soit augmenter la taille de
l’échantillon. Ces remarques restent relatives aux attendus de l’application.

3. Donnez la taille minimale de l’échantillon pour que la largeur de cet intervalle soit au plus égale à 2%.
Réponse: En reprenant les résultats de la question suivante, on a
s
fn (1 − fn )
2u ≤ 0.02
n

avec fn = 0.05 et u = 1.645. Donc on obtient

n ≥ 1285


13- Sur un échantillon de 20 valeurs, on procède à une régression linéaire et on obtient les valeurs suivantes
pour les moyennes expérimentales : X = 6., Y = 9.7, XY = 60., X 2 = 52.5 et Y 2 = 95. Calculer les
paramètres â et b̂ de la droite de régression. Quelle est la confiance dans le modèle ? Conclusion.
Réponse : D’après les formules, on a
â = 60−6×9.7
52.5−36 = 0.109
b̂ = 9.7 − â × 6 = 9.05
ρ̂ = √ 60−6×9.7 2 = 0.46
(52.5−36)(95−9.7 )

La qualité du modèle estimée par le coefficient de corrélation ρ̂ est très faible, le modèle linéaire n’est
pas adapté.


VII-11
14- Dans une production continue de pièces manufacturières, on fait un contrôle de qualité par prélèvement
avec un échantillon de 80 pièces.
1. Pour chaque pièce, on procède à un contrôle dimensionnel. On admet que cette mesure peut être
modélisée par une variable aléatoire normale ℵ(µ, σ 2 ). Les paramètres de cette loi étant inconnus, on
les estime et l’on obtient, respectivement, 10 cm et 0.20 cm pour la moyenne expérimentale, m, et
l’écart-type, s. Quelle est la confiance d’un intervalle de largeur 0.1 autour de la moyenne ?
Réponse: Il s’agit de déterminer un intervalle de confiance d’une moyenne d’une loi normale, son
écart-type étant inconnu. Donc cet intervalle est donné par

s s
α = P rob(m − t √ < µ < m + t √ )
n n

avec 0.1 = 2t √sn d’où t = 2.236. On sait par ailleurs que t est à lire dans la table de la loi de Student
pour 79 degrés de liberté. Compte tenu de la faible variation autour de 80 on approxime la lecture par
celle de la ligne 80 degrés de liberté. On obtient

0.05 2.
1−α=p 2.236
0.02 2.39

et donc
2.39 − 2.236
p = 0.02 + (0.05 − 0.02) = 0.032
2.39 − 2.

La confiance de l’intervalle de largeur 0.1 autour de la moyenne expérimentale est 96.8%.



2. Sur cet échantillon, on estime à 4% le taux de pièces défectueuses. Quel est l’intervalle de confiance à
90% autour de cette valeur ? Conclusion.
Réponse: Il s’agit de déterminer un intervalle de confiance d’une proportion qui est donné par

s
p(1 − p)
α = P rob(|p − fn | < u )
n

On utilisera l’approximation p = fn dans l’évaluation de la racine car la valeur expérimentale est


loin de 0.5. La valeur de u est lue dans une table de la loi normale centrée réduite et correspond à
P (|Y | < u) = 0.9 soit P (Y < u) = 0.95 avec Y : ℵ(0, 1). La lecture donne u = 1.645 et l’on obtient
l’intervalle de confiance suivant : IC90% = 4% ± 3.6%.
La fluctuation est très importante (du même ordre que l’estimation) et rend difficilement interprétable
la valeur obtenue pour la proportion. Il faut soit réduire la confiance, soit augmenter la taille de
l’échantillon. Ces remarques restent relatives aux attendus de l’application.

3. Sur le même échantillon, quelle est la probabilité que la valeur vraie de σ soit supérieure à 0.25 cm ?
Réponse: Il s’agit de déterminer un intervalle de confiance d’une variance d’une loi normale. Donc
cet intervalle est donné par

VII-12
nS 2
P rob(σ 2 > = 0.252 ) = α
k
où S 2 est la variance expérimentale avec biais donnée par
n
1X
S2 = (xi − m)2
n 1

On sait que v
u n
u 1 X
s = 0.2 = t (xi − m)2
n−1 1
donc

79
S 2 = 0.22 × = 0.0395
80

nS 2
k = 0.252 donc k = 50.56. La valeur k est reportée dans la table de la loi du χ2 à 79 degrés de
liberté.

0.005 50.376
α 50.56
0.01 52.725
et donc
50.56 − 50.376
α = 0.005 + (0.01 − 0.005) = 0.00539
52.725 − 50.376

La probabilité que l’écart-type vrai soit plus grand que 0.25 est donc 0.54%.


7-4 Tests d’hypothèses

1- La répartition des durées de 670 vols Paris-Alger est donnée dans le tableau suivant:

Durée Nombre % % cumulé


1.9-1.95 19 2.8 2.8
1.95-2. 19 2.9 5.7
2.-2.05 39 5.8 11.5
2.05-2.1 48 7.2 18.7
2.1-2.15 87 12.9 31.6
2.15-2.2 94 14.1 45.7
2.2-2.25 104 15.5 61.2
2.25-2.3 92 13.7 74.9
2.3-2.35 57 8.5 83.4
2.35-2.4 44 6.6 90.0
2.4-2.45 28 4.2 94.2
2.45-2.5 26 3.9 98.1
2.5-2.55 13 1.9 100

VII-13
Cette distribution est-elle normale ?
2- Soit la suite de valeurs: 23, 14, 41, 50, 43, 70, 63, 91, 85, 113, 122, 134, 117, 108, 96. Cette suite constitue-
t-elle un échantillon formé de réalisations indépendantes ?
Réponse : On peut tout d’abord utiliser le test de Spearman. Pour cela, on construit la table suivante

i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
SI 23 14 41 50 43 70 63 91 85 113 122 134 117 108 96
R 2 1 3 5 4 7 6 9 8 12 14 15 13 11 10
ST 14 23 41 43 50 63 70 85 91 96 108 113 117 122 134

où i est le rang initial des valeurs de la séquence initiale SI et R le rang final de la valeur de la deuxième
6×64
ligne dans séquence triée ST. L’indicateur de Spearman a donc pour valeur 1 − 15×224 = 0.886. D’après
la table de Spearman, on rejete l’hypothèse d’indépendance quelque soit la valeur du risque.
On peut aussi utiliser le test des différences premières. On construit alors la table suivante

SI 23 14 41 50 43 70 63 91 85 113 122 134 117 108 96


yi - + + - + - + - + + + - - -

où les yi sont les signes des différences


√ entre deux valeurs consécutives. L’indicateur des différences
premières est donc Ind = |7−7|

16
12 = 0. On accepte donc l’hypothèse d’indépendance quelque soit le
risque.
Si les deux tests sont contradictoires, c’est qu’ils ne testent pas la même nature d’indépendance.

3- On dispose d’un échantillon de 500 valeurs dont on veut savoir si il correspond à une distribution de
type loi normale. On procède à un test du χ2 et la valeur de l’indicateur est 30. Sachant que l’on a
constitué 17 classes, déterminer si l’adéquation est acceptable.
Réponse : Le nombre de degrés de liberté du test est ν = 17 − 3 = 14 (on doit estimer les deux
paramètres de la loi normale). Par lecture dans la table du χ2 on obtient les valeurs suivantes

p v
0.99 29.141
p 30
0.995 31.319

Par une approximation locale, on a alors


30 − 29.141
p = 0.99 + (0.995 − 0.99) × = 0.992
31.319 − 29.141
L’hypothèse est donc acceptable jusqu’à un risque de 0.8% ce qui est très faible.

4- On dispose de deux échantillons dont on sait qu’ils sont liés à deux variables aléatoires X1 et X2 dont
les lois sont, respectivement, N (µ1 , σ1 ) et N (µ2 , σ2 ). Quel test proposez-vous pour tester l’indépendance
de ces deux échantillons ?
5- On introduit une modification sur une chaı̂ne de production et l’on souhaite en mesurer l’impact. Pour
cela, on utilise un indicateur de performance lié au nombre de clients servis dans les délais. On obtient
les valeurs suivantes au cours de l’expérimentation:

VII-14
Indicateur
Mesure avant après
1 148 165
2 155 155
3 144 132
4 129 152
5 154 133
6 144 145
7 132 151
8 147 145
9 151 144
10 119 143

Commenter l’impact de la modification sur la chaı̂ne de production.


6- On dispose d’un échantillon de n matériels identiques et on note les durées de vie en heures x1 , x2 , . . . , xn .
On obtient les valeurs:
x1 = 133 x2 = 169 x3 = 8 x4 = 122 x5 = 58

Tester le caractère exponentiel de la loi de fiabilité par les tests de Kolmogorov-Smirnov et Cramer-Von
Mises.
7- Le temps X mis par une machine A pour fabriquer une pièce suit une loi normale de paramètres
µ = 48min et σ = 5min. La machine A tombant en panne, on fabrique la même pièce avec une machine
B. On suppose que le temps de fabrication suit une loi normale de même écart type. Pour un échantillon
de 25 pièces réalisées, on a obtenu un temps moyen de fabrication, m = 51min. La machine B est-elle
aussi performante que la machine A au risque 0.05 ?
Réponse : On teste l’hypothèse H0 : m = 48 avec un test bilatéral ou unilatéral. Dans les deux cas,
la conclusion est que la machine B est moins performante.

8- Après une enquète sur un échantillon de 500 ménages, on a constaté que 415 ménages possèdaient une
voiture. Au risque 5%, cela contredit-il l’hypothèse que 80% des ménages possèdent une voiture ? Quel
est l’intervalle de confiance au risque 5% autour de la valeur trouvée ?
Réponse : Il s’agit dans un premier temps de réaliser un test bilatéral sur un proportion. L’hypothèse
H0 porte sur la valeur vraie 0.8 (H0 : p = 0.8 contre H1 : p 6= 0.8).
La région critique du test est donnée par
r
0.8 × 0.2
|fn − 0.8| > u α2 = 0.018u α2
500
où u α2 est lu dans la table de la loi ℵ(0, 1).
Pour α = 5%, on obtient u = 1.96 et donc
|fn − p| > 0.035

Dans notre exemple, fn = 0.830, donc |fn − p| = 0.03 < 0.035, on peut donc accepter l’hypothèse H0 .
Cependant, on se trouve au voisinage de la valeur seuil.
L’intervalle de confiance à 95% autour de la valeur trouvée fn est définie par
r
0.83 × 0.17
P (|p − 0.83| < u )=α
500

VII-15
où u est lu dans la table de la loi ℵ(0, 1). On trouve u = 1.96 et donc l’intervalle [0.797, 0.863].
La valeur vraie 0.8 est bien dans l’intervalle mais de justesse de même que pour le test précédent. Il
y a donc une sensibilité à envisager en fonction de la valeur du risque dans les deux cas.

9- Une entreprise fait un test de conformité sur un produit qu’elle fabrique par une analyse de sa chaı̂ne de
production. Une étude théorique permet de conduire à un pourcentage de conformité C = 97%. Compte
tenu de la valeur marchande des pièces, on veut procéder à un test bilatéral sur cette proportion par
rapport à la valeur nominale au risque 0.5%. Commentez le choix de ce risque. On réalise le prélèvement
d’un échantillon de taille n = 30 et on obtient Cn = 0.933. Doit-on rejeter la valeur théorique ?
Réponse : Le risque de 0.5% est très très faible et conduira très vraisemblablement à une acceptation
systématique sans réelle signification. Ce risque peut cependant se justifier par la valeur marchande
élevée des pièces qui pousse à ne pas les mettre au rebut sauf si on est sûr de leur non conformité.
On construit le test suivant :

H0 : C = 0.97
H1 : C 6= 0.97

La région critique est donnée par

s
C(1 − C)
|Cn − C| > uα/2
n

où la valeur de uα/2 est lue dans une table de la loi normale N (0, 1).
Dans notre cas, on a P (Y < u) = 0.9975 → u = 2.81 et donc l’écart maximal entre estimation et
valeur théorique est s
0.97(1 − 0.97)
|Cn − C|max = 2.81 = 0.0875 = λ
30

L’écart constaté sur l’échantillon est 0.97 − 0.933 = 0.037 < λ, on accepte donc l’hypothèse H0 sur la
valeur théorique.


7-5 SPC

1- Sur une chaı̂ne de production, on procède à une campagne de mesures (n = 100). Cet échantillon
est caractérisé par sa moyenne x̄ = 70 et son écart-type σ = 5. Les spécifications de cette production
sont (LSL, µ, T, U SL) = (50, 70, 75, 100). Calculer les 4 indicateurs de capabilité. Que pouvez-vous en
déduire ? Interprétation.
Réponse : Les indicateurs sont

Cp 1.67
Cpk 1.33
Cpm 1.18
Cpmk 0.94

VII-16
Cp est supérieur à 1.33, on peut donc envisager d’implanter un contrôle statistique. Mais les trois
autres indicateurs sont moins satisfaisant. Une campagne plus approfondie est nécessaire.

2- On souhaite construire une carte-contrôle pour une fabrication dans laquelle on considère comme
acceptable une proportion de pièces défectueuses p1 = 0.02.
(a) Sachant qu’on prélève un échantillon de taille n, quelle est la loi de la v.a. K, nombre de pièces
défectueuses contenue dans l’échantillon ?
(b) Déterminer les nombres k1 et k2 tels que

Prob(K < k1 ) = 0.95

Prob(K < k2 ) = 0.99

sachant que n = 100.


(c) Construisez la carte de contrôle. Indiquez en le mode d’emploi.
(d) En utilisant cette carte contrôle, quelle est la probabilité de laisser la fabrication se poursuivre alors
que la proportion de défecteux est en réalité p2 = 0.04 ou p2 = 0.08 ? Qu’en pensez-vous ?

7-6 Sujets généraux

7-6 .1 Problème 1

1- (8 pts) Une machine fabrique des pièces rectangulaires dont les deux côtés sont X et Y . Cette machine
est sujette à des dérèglements qui induisent, indépendamment, des variations dans les cotes théoriques
qui rendent aléatoires les cotes mesurées. Une analyse systématique des pièces a montré que ces erreurs
sont faibles en valeur, symétriques et de même amplitude et variation pour les deux cotes.
1.1 (1 pt) Proposer un modèle (loi) pour les deux variables X et Y .
Compte tenu des hypothèses sur les erreurs, on peut faire une hypothèse de répartition selon des lois
normales. On posera X : ℵ(E[X], σ 2 ) et Y : ℵ(E[Y ], σ 2 ). Les amplitudes et variations des deux variables
étant les mêmes, on peut faire l’hypothèse d’égalité des variances.
A partir de ces deux variables, on construit deux nouvelles variables aléatoires d’erreur EX et EY par
EX = X − E[X] et EY = Y − E[Y ]. Afinqde simplifier le test de validité des pièces, on impose une seule
tolérance sur la norme de l’erreur, N = EX 2 + E 2 . On supposera par la suite que V ar[X] = V ar[Y ].
Y

1.2 (2 pts) Quelles sont les lois (avec moyennes et écarts types) des variables aléatoires EX et EY ?
Par simple propriété de la loi normale, on obtient EX : ℵ(0, σ 2 ) et EY : ℵ(0, σ 2 ).
1.3 (2 pts) Quelle est la loi de la variable aléatoire N ?
Compte tenu de l’hypothèse d’indépendance entre les variables et par définition, la variable N suit une
loi de Raleigh.
1.4 (3 pts) On prélève un échantillon relatif à la variable aléatoire N . Cependant, celui-ci est perturbé
par des données non significatives. On ne peut pas se fier au calcul de la moyenne empirique ni à celui
de la variance pour déterminer le paramètre σN de la loi. Proposez une autre méthode pour estimer le
paramètre de la loi.

VII-17
La densité de probabilité de la loi de Raleigh est donnée par

2
x − x2
f (x) = 2 e 2σN
σN

La densité de Raleigh est une fonction unimodale (courbe de Gauss légèrement asymétrique). Elle a
donc un seul maximum qui est situé à la valeur qui annule sa dérivée donnée par
2
0 1 − x2 2x2
f (x) = 2 e 2σN (1 − 2 )
σN 2σN
qui s’annule pour x = σN .
On peut donc, à partir de la densité empirique, repérer la valeur maximale, i.e.,
q le mode, et en déduire
une estimation de σ et de fait de la moyenne empirique puisque celle-ci vaut σ π2 .

2- (6 pts) On considère une unité de production organisée en ı̂lots. Sur chacun, on résume la qualité de
la production par une mesure calibrée entre -1 et 1. On désire tester l’architecture et particulièrement les
effets de propagation des dysfonctionnements d’approvisionnement en provenance du stock central. Sous
l’hypothèse de répartition uniforme des dysfonctionnements, on peut déterminer les valeurs théoriques de
la moyenne et de la variance de l’indicateur de qualité. Pour la configuration concernée, composée de
250 ı̂lots, et sous cette hypothèse, on obtient les valeurs vraies suivantes : E[Q] = 0., V [Q] = 0.05. Une
série de mesures sur les ı̂lots conduit à l’estimation suivante : Ê[X] = 0.035. Que pouvez-vous conclure ?
L’estimateur d’une moyenne peut être considéré comme une variable aléatoire de loi normale (l’échantillon
est de taille significative). Soit M cet estimateur, on a donc M : ℵ(E[X], V [X]
n ).

Pour tester la valeur l’hypothèse, on va se ramener à un test sur la valeur de la moyenne théorique,
variance connue. On procède au test bilatéral suivant :
H0 : E[X] = 0
H1 : E[X] 6= 0
Nous choisissons un risque de 5%.
La règle de décision fait intervenir P (Y > t) = 0.025 avec Y loi normale centrée et réduite. La table
correspondante nous donne t = 1.96. La détermination du seuil de la région critique du test donne

λ = E[X] + √ = 0 + 0.028
250

La règle de décision est donc

si |E[X] − Ê[X]| < 0.028 alors E[X] = 0 sinon E[X] 6= 0.

Donc dans notre cas, on conclut au rejet de l’hypothèse H0 .


On peut aussi raisonner à l’envers en recherchant la valeur du risque associée à l’hypothèse H0 . Dans
ce cas,

λ = 0.035 = E[X] + √ → t = 2.475
250
Par lecture dans la table de la loi normale, on obtient P (Y > 2.475) = 1 − 0.9933 = 0.67%. L’erreur de
première espèce est donc très très faible (inférieure à 1%) ce qui revient à dire que l’on est dans un cas
où l’on serait amener à ne jamais rejeter l’hypothèse H0 .

VII-18
Ces deux approches donne donc un même raisonnement qui conduit à conclure que l’hypothèse de
distribution uniforme des dysfonctionnements n’est pas validée par les données empiriques.
3- (3 pts) Une machine fabrique des pièces dont la longueur suit une loi normale de paramètres µ et
σ. On veut procéder à un test bilatéral sur la moyenne pour tester cette valeur par rapport à la valeur
nominale qui est 100 cm au risque 5%. Pour cela, on réalise un prélèvement d’un échantillon de taille
n = 100 et on obtient µ̂ = 99 cm et σ̂ = 2 cm. Doit-on rejeter H0 ?
On procède au test bilatéral suivant :
H0 : µ = 100
H1 : µ 6= 100

La règle de décision fait intervenir P (Y > t) = 0.025 avec Y loi de Student à 99 degrés de liberté. La
table correspondante nous donne t = 1.99. La détermination du seuil de la région critique du test donne
tσ̂
λ=µ+ √ = 100 + 0.398
100

La règle de décision est donc

si |µ − µ̂| < 0.398 alors µ = 100 sinon µ 6= 100.

Donc dans notre cas, on conclut au rejet de l’hypothèse H0 .

5- (3 pts) Afin de tester l’adéquation d’une loi à la loi exponentielle à partir d’un échantillon (de 50
valeurs), on procède à deux tests. Le test du χ2 (8 classes) accepte l’adéquation. Par contre, sur le même
échantillon, le test de Kolmogorov-Smirnov rejette l’hypothèse. Que pouvez-vous conclure ?
On peut préférer le test du KS qui est plus contraignant car pour le test du χ2 , on a 8 classes pour un
échantillon de taille 50 soit en moyenne 6 valeurs par classes ce qui est peu.

7-6 .2 Problème 2

1- (8 pts) Une machine fabrique des pièces rectangulaires dont les deux côtés sont X et Y . Cette machine
est sujette à des dérèglements qui induisent, indépendamment, des variations dans les cotes théoriques
qui rendent aléatoires les cotes mesurées. Une analyse systématique des pièces a montré que ces erreurs
sont indépendantes, faibles en valeur, symétriques et de même moyenne et variation pour les deux cotes.
1.1 (2 pts) Proposer un modèle (loi) pour les deux variables X et Y .
Compte tenu des hypothèses sur les erreurs, on peut faire une hypothèse de répartition selon des lois
normales. On posera X : ℵ(E[X], σ 2 ) et Y : ℵ(E[Y ], σ 2 ). Les amplitudes et variations des deux variables
étant les mêmes, on peut faire l’hypothèse d’égalité des variances.
A partir de ces deux variables, on construit une variable aléatoire d’erreur normalisée par
1 (X + Y − E[X + Y ])2
N=
2 V ar[X + Y ]

1.2 (3 pts) Quelle est la loi (avec moyenne et écarts type) de la variable aléatoire N ?
On obtient une loi Gamma de paramètres (λ, k) = (0.5, 1). Par définition, nous avons
k
E[N ] = λ =2
k
p
V [N ] = λ2
=4 ⇒ V [N ] = 2

VII-19
La densité de probabilité est donnée par

λk xk−1 e−λx 1 x
f (x) = = e− 2
Γ(k) 2

1.3 (3 pts) On prélève un échantillon relatif à la variable aléatoire N dont on souhaite vérifier la
loi. Cependant, celui-ci est perturbé par des données non significatives. On ne peut pas se fier au calcul
de la moyenne empirique ni à celui de la variance pour valider l’adéquation de la loi au modèle établit.
Proposez, en la justifiant, une autre méthode.
Puisque l’on connait la loi théorique avec ses paramètres, on peut construire, pour chaque valeur de
l’échantillon, une mesure de validité pourt rejeter ou accepter cette valeur. Ensuite, sur les données non
perturbées, on pourra procéder à un test de type KS ou χ2 .

2- (6 pts) On considère une unité de production organisée en n ı̂lots. Sur chacun, on résume la qualité
de la production par une mesure. Une analyse a montré que cette mesure, sur chaque ı̂lots, i suit une
loi normale Xi de paramètres µi et σi . Pour tester le comportement global, on construit une mesure
Mn = ni Xi2 . On utilise le carré pour se ramener à une mesure d’amplitude sans prendre en compte le
P

signe.
2.1 (1 pt) Quelle est la loi de la variable Mn ?
Il n’y a pas de loi connue pour cette variable aléatoire.
2.2 (3 pts) Proposez, en le justifiant, une nouvelle mesure Tn dont on pourrait exploiter la loi.
Si on procède à un centrage réduction des Xi donnant ainsi les variables Yi avant d’en faire la somme,
alors la nouvelle loi n X
Tn = Xi2
i
suivrait une loi du χ2 à n degrés de liberté. Cette opération peut se justifier si on veut compenser des
problèmes de calibrage entre les mesures Xi .
2.3 (2 pts) Sur une campagne de mesures, on obtient une réalisation de cette variable aléatoire,
tn = 137. Sachant qu’il y a 100 ı̂lots, donnez la valeur que cette nouvelle variable prenne une valeur
inférieure à cette mesure.
Pour une loi du χ2 à 100 degrés de libertés, on a les valeurs suivantes :
P (Tn < 135.8) = 0.99
P (Tn < 140.16) = 0.995

Par approximation linéaire entre ces deux valeurs, on obtient


137 − 135.8
P (Tn < 137) = 0.99 + 0.005 × = 0.9914
140.16 − 135.8

3- (3 pts) Une entreprise fait un test de validité sur un produit qu’elle fabrique. Une étude théorique
donne un pourcentage de rebuts p = 0.05. On veut procéder à un test bilatéral sur cette proportion par
rapport à la valeur nominale au risque 5%. Pour cela, on réalise un prélèvement d’un échantillon de
taille n = 100 et on obtient fn = 0.065 cm. Doit-on rejeter H0 ?
Le test d’hypothèse est donc :
H0 : p = 0.05
H1 : p 6= 0.05

VII-20
au risque 5%.
La région critique du test est alors
s
p(1 − p)
|Fn − p| > uα/2
n

où uα/2 est lu dans la table de la loi normale centrée réduite. Pour α = 0.05, on lit u = 1.96 d’où la
q
0.05×0.95
région critique |Fn − 0.05| > 1.96 100 = 0.0218. Comme |fn − 0.05| = 0.015, on peut accepter H0
au risque 5%.

4- (3 pts) Afin de tester l’adéquation d’une loi à la loi binomiale à partir d’un échantillon (de 80 valeurs),
on procède à deux tests. Le test du χ2 (10 classes) accepte l’adéquation. Par contre, sur le même
échantillon, le test de Kolmogorov-Smirnov rejette l’hypothèse. Que pouvez-vous conclure ?
L’application du test du χ2 se fait dans de bonnes conditions puisque le nombre d’échantillons et
le nombre de classes sont significatifs. On peut donc accepter le résultat du test. Le rejet du test du
KS indique simplement qu’une approche plus restrictive donne un résultat contraire. Une analyse de
l’échantillon est donc nécessaire pour savoir si il n’a pas été perturbé.

7-6 .3 Problème 3

1- (6 pts) On souhaite établir un contrôle statistique de fabrication sur une unité de production. Sur
un échantillon de taille 100, on procède à une estimation de la mesure de référence. On obtient une
moyenne de 70 et un écart type de 7.
1.1 (3 pts) Construisez l’intervalle de confiance à 90% autour de l’estimation de l’écart type.
On doit tout d’abord faire une hypothèse sur la distribution des mesures. Afin de pouvoir faire un
intervalle de confiance sur la moyenne, on supposera que les données sont distribuées selon une loi
normale.
Comme la moyenne est inconnue (et donc estimée), l’intervalle de confiance est donné par
 
ns2 ns2
 ; 
χ21− α (n − 1) χ2α (n − 1)
2 2

avec n = 100 et α = .90


D’après la table du χ2 on obtient

χ21− α (n − 1) = χ20.95 (99) = 123.25


2

χ2α (n − 1) = χ20.05 (99) = 77.046


2

et donc l’intervalle de confiance sur l’écart type est

7 × 10 7 × 10
 
√ ;√ = [6.31; 7.98]
123.25 77.05

VII-21
1.2 (1 pt) On définit la capabilité Cp de l’unité de production par Cp = 50/(6σ̂) où σ̂ est l’estimation
de l’écart-type. Quelles sont les valeurs extrèmes de cette capabilité à 90% de confiance ?
Les valeurs extrèmes sont données par

50
Cp (min) = = 1.045
6 × 7.98
et
50
Cp (max) = = 1.32
6 × 6.31

1.3 (2 pts) En vous référant à la table page V-3, qualifiez les capabilités obtenues.
En se référant à la table de la page V-3 du polycopié, on déduit que les capabilités min et max sont entre
mauvaises (1) et très moyennes (1.33). Il est donc difficile d’implanter un contrôle statistique sur cette
unité de production. Ce commentaire, interprétant la capabilité, est rendu possible par l’hypothèse de
loi normale formulée au début.
2- (6 pts) Dans un processus de production, un système de surveillance arrète le processus si un indicateur
de sécurité atteint une valeur de référence. On estime à p la probabilité que cet indicateur atteigne la
valeur de référence sur une unité de temps. Après chaque unité de temps, l’indicateur est réinitialisé.
Celui-ci est sans mémoire. On note X la variable aléatoire qui donne la durée de fonctionnement (en
nombre d’unités de temps) du processus sans interruption.
2.1 (2 pts) Quelle est la loi de la variable X ?
La loi de X est une loi géométrique de paramètre p (loi du nombre d’essais pour faire appraı̂tre un
évènement de probabilité p).
2.2 (2 pts) On constate que P rob(X = 10) = 0.0165. Sachant que p est très petit, proposez une
estimation de p.
La probabilité d’une loi géométrique de paramètre p est
P (X = x) = p(1 − p)x−1

Pour p très petit, on peut approximer cette probabilité par P (X = x) ≈ p(1 − (x − 1)p). Donc
0.0165 = p − 9p2
d’où
p ∈ {0.02; 0.09}

Par remplacement, on trouve aisément que la deuxième valeur constitue une erreur d’approximation
car ne redonnant pas la probabilité correcte (P (X = 10) = 0.039). C’est donc l’approximation p = 0.02
que l’on retiendra.
2.3 (2 pts) Quelle est la probabilité que le processus se déroule sans interruption sur 23 unités de
temps ?
En application des résultats précédents, on trouve

P (X = 23) = 0.02 × (1 − 0.02)22 = 0.0128

3- (3 pts) Une entreprise fait un test de conformité sur un produit qu’elle fabrique par une analyse
de sa chaı̂ne de production. Une étude théorique permet de conduire à un pourcentage de conformité

VII-22
C = 97%. Compte tenu de la valeur marchande des pièces, on veut procéder à un test bilatéral sur cette
proportion par rapport à la valeur nominale au risque 0.5%. Commentez le choix de ce risque. On réalise
le prélèvement d’un échantillon de taille n = 30 et on obtient Cn = 0.933. Doit-on rejeter la valeur
théorique ?
Le risque de 0.5% est très très faible et conduira très vraisemblablement à une acceptation systématique
sans réelle signification. Ce risque peut cependant se justifier par la valeur marchande élevée des pièces
qui pousse à ne pas les mettre au rebut sauf si on est sûr de leur non conformité.
On construit le test suivant :

H0 : C = 0.97
H1 : C 6= 0.97

La région critique est donnée par


s
C(1 − C)
|Cn − C| > uα/2
n

où la valeur de uα/2 est lue dans une table de la loi normale N (0, 1).
Dans notre cas, on a P (Y < u) = 0.9975 → u = 2.81 et donc l’écart maximal entre estimation et
valeur théorique est s
0.97(1 − 0.97)
|Cn − C|max = 2.81 = 0.0875 = λ
30

L’écart constaté sur l’échantillon est 0.97 − 0.933 = 0.037 < λ, on accepte donc l’hypothèse H0 sur la
valeur théorique.
4- (2 pts) Afin de tester l’adéquation d’une loi à la loi binomiale à partir d’un échantillon, on dispose de
25 valeurs. Quel test préconisez-vous ? Pourquoi ?
Dans ce cas, avec un très faible échantillon, il n’est pas envisageable de réellement utiliser le test du χ2 .
On préfèrera donc un test de Kolmogorov-Smirnov. On peut aussi préférer le test de Cramer-Von Mises
qui est plus puissant (au sens de la puissance du test, 1 − β).
5- (3 pts) Démontrez que l’estimateur du maximum de vraisemblance du paramètre λ d’une loi de Poisson
est la moyenne expérimentale.
La fonction de vraisemblance de la loi de Poisson est donnée par
i=n
Y λxi e−λ
L(~x, λ) =
i=1
xi !

Soit en passant par le logarithme,


i=n
X
log L(~x, λ) = (xi × log(λ) − λ − log(xi !))
i=1

En dérivant par rapport au paramètre λ, on obtient

∂ log L(~x, λ) i=n


Pi=n
X 1 i=1 xi
= (xi × − 1) = −n
∂ i=1
λ λ

VII-23
L’estimateur de λ au sens du maximum de vraisemblance est obtenu en annulant cette expression, on
retouve donc bien la formule de la moyenne expérimentale

Pi=n
i=1 xi
λ̂ =
n

7-6 .4 Problème 4

1- (6 pts) Le merle à plastron est un oiseau qui en automne erre dans les bois clairs et les buissons des
montagnes. En 1968, une station ornithologique du Col de la Golèze située dans les Alpes françaises, a
capturé 48 merles à plastron au filet durant les 89 jours d’ouverture de la station. On note X la variable
aléatoire qui donne le nombre de merles capturés en fonction du nombre de jours.
1.1 (2 pts) Quelle est la loi de la variable X ?
Réponse : Si la répartition dans le temps des captures de merles à plastron est aléatoire, la distribution
de probabilité obéit à une loi de Poisson. En effet, chaque épreuve consiste en la capture d’un merle.
Cette capture se produit ou non un jour J donné. La probabilité qu’elle se produise le jour J est donc
1/89 = 0.011. Cette probabilité est faible et le nombre d’épreuves est important (48). Si ces épreuves
sont indépendantes (pas de phénomène d’habituation chez les merles), on peut faire l’hypothèse de la loi
de Poisson.
1.2 (2 pts) Quelle est la valeur du paramètre de cette loi ?
Réponse : Dans le cas de la loi de Poisson, le paramètre λ est obtenu par

1
λ = n × p = 48 × = 0.539
89

1.3 (2 pts) Quelle est la probabilité de capturer 2 merles en une journée ?


Réponse : La valeur est donnée par

e−0.539 0.5392
P (X = 2) = = 0.085
2!

2- (4 pts) Une entreprise fait un test de conformité sur deux machines. Sur des échantillons de tailles
respectivement pour les deux machines, 75 et 55, les nombres de défauts sont, respectivement pour les
deux machines, 7 et 5. Les deux machines sont-elles aussi fiables au risque 5% ?
Réponse : On veut tester l’hypothèse d’égalité des proportions théoriques de défauts sur les deux ma-
chines.

H 0 : p1 = p2
H1 : p1 6= p2

Pour cela, on construit l’indicateur


f1 − f2
z=q
p̂(1 − p̂)( n11 + 1
n2 )

avec
n1 f1 + n2 f2
p̂ =
n1 + n2

VII-24
Dans notre cas, on obtient
5+7
p̂ = = 0.0923
55 + 75
et
0.0909 − 0.0933
z=q = −0.0467
1 1
0.0923(1 − 0.0923)( 55 + 75 )

La région d’acceptation est définie par

[−t1− α2 , t1− α2 ]

où t1− α2 = t0.975 est lue dans la table de la loi normale centrée réduite par P (Y < t0.975 ) = 1.96.
Sans ambiguı̈té (0.0467 << 1.96), les deux machines sont équivalentes.
3- (4 pts) Soit X, une variable représentant le résultat des étudiants à un examen de mathématique. Sur
les 500 étudiants, on en a choisi 50 au hasard (sans remise). Leurs points sont les suivants : 40 élèves
ont eu 60 points; 5 élèves ont eu 50 points et les autres 30 points. Donner un intervalle de confiance
pour la moyenne échantillon à un niveau de confiance de 99%.
Réponse: Comme on ne sait rien sur la variable, on ne peut pas faire d’hypothèse de loi normale mais on
a plus de 30 valeurs pour faire les estimations. Donc on peut procéder aux estimations des moments.

40 5 5
m= × 60 + × 50 + × 30 = 56
50 50 50

40 5 5
s2 = × (60 − 56)2 + × (50 − 56)2 + × (30 − 56)2 = 84
50 50 50
50
On peut aussi utiliser un estimateur sans biais qui donne, s2 = 49 84 = 85.71
Pour la moyenne, cela donne m = 56 et pour l’écart type, on a s = 9.26.
On veut P (a < µ < b) = 0.99. On prend un intervalle symétrique de la forme P (m− √tsn < µ < m+ √tsn )
où t est lue dans une table de la loi de Student à 49 degrés de libertés, soit environ t = 2.69 ce qui nous
donne finalement un intervalle de confiance de la forme:

I99% = [52.5; 59.5]

4- (3 pts) Déterminez la valeur de l’espérance mathématique de la loi Gamma. (On rappelle que le
domaine de définition de cette loi est <+ .)
Réponse : La loi Gamma a pour densité de probabilité

λk xk−1 e−λx
f (x) =
Γ(k)

Et son espérance mathématique est

λk xk−1 e−λx
Z +∞
E[] = x dx
0 Γ(k)
Z +∞ k k −λx
λ x e
E[] = dx
0 Γ(k)

VII-25
On rappelle de plus que Z +∞
Γ(x) = ux−1 e−u du
0

On pose tout d’abord y = λx, avec dy = λdx. On obtient alors


Z +∞ k −y Z +∞
y e 1 1
E[] = dy = y k e−y dy = Γ(k + 1)
0 λΓ(k) λΓ(k) 0 λΓ(k)

La fonction Γ() est telle que


Γ(k + 1) = kΓ(k)
Donc

k
E[] =
λ

On peut aussi obtenir ce résultat par intégration par partie, en posant

U 0 (y) = e−y dy U (y) = −e−y


V (y) = y k V 0 (y) = ky k−1

On obtient alors
ky k−1 e−y
Z +∞
E[] = [−y k e−y ]+∞
0 + dy
0 λΓ(k)
Soit
ky k−1 e−y
Z +∞
k
E[] = dy = Ik−1
0 λΓ(k) λΓ(k)
où Z +∞
Ik = y k e−y dy
0

Par récurrence, on obtient alors


Z +∞
k.(k − 1) . . . 1 k! k k
E[] = I0 = e−y dy = [−e−y ]+∞
0 =
λΓ(k) λΓ(k) 0 λ λ
k
E[] =
λ

5- (3 pts) Dans l’hôpital Hiks, la salle Igrec contient 30 patients contaminés par le virus Zed. Le traitement
que l’on fournit, guérit avec une probabilité de réussite de 4/7. Quelles sont les probabilités de ne pas
guérir 10 patients ? Et 25 patients ?
Réponse : On suppose que tous les patients sont équivalents en regard du traitement. Soit la variable
aléatoire X, vrai/faux, associé à l’évènement ”ne pas guérir un patient”. On construit, par répétition,
une variable aléatoire Y de type binomiale. Y = n est donc associé à l’évènement, ”ne pas guérir n
patients”. On peut donc dire que

10 4 20 3 10
P (ne pas guérir 10 patients) = P (Y = 10) = C30 ( ) ( ) = 0.0865
7 7
De même, on obtient

25 4 5 3 25
P (ne pas guérir 25 patients) = P (Y = 25) = C30 ( ) ( ) ≈ 5.5 × 10−6
7 7

VII-26
8 Bibliographie

Cette bibliographie ne se veut pas représentative des centaines de livres couvrant le domaine des prob-
abilités et statistiques. Il s’agit simplement de la liste des documents qui ont été utilisés lors de la
réalisation de ce polycopié.

[Cha 94] P.Chang & K.Lu (1994) PCI Calculations for Any Shape of Distribution with Percentile, Qual-
ity World-Technical Supplement, Sep., 110–114.

[Deh 96] O.Deheuvels (1996) La probabilité, le hasard et la certitude, Presses Universitaires de France,
Que sais-je, 3.

[Dio 97] E.Dion (1997) Invitation à la théorie de l’information, Edition du Seuil, Collection Point Sci-
ences.

[Dud 73] R.O.Duda & P.E.Hart (1973) Pattern Classification and Scene Analysis, John Wiley & Sons,
New York.

[Gho] D. Ghorbanzadeh (1998) Probabilités : Exercices corrigés, Editions Technip.

[Gou 81] C.Goujet & C.Nicolas (1981) Mathématiques Appliquées: probabilités, initiation à la recherche
opérationnelle, Masson.

[Iso 95] ISO Standard (1995) Statistical methods for Quality Control, 4th edition, ISO Standards Hand-
book.

[Joh 93] N.L.Johnson & S.Kotz (1993) Process Capability Indices, Chapman & Hall.

[Kun 91] M.Kunt (1991) Techniques modernes de traitement numérique des signaux, Presses polytech-
niques et universitaires romandes.

[Mon 96] D.C.Mongomery (1996) Introduction to Statistical Quality Control, 3rd edition, Wiley and sons,
Inc.

[Per 00] G.Perrin (2000) Effects of non-normality on Cost of Quality, University of Nottingham, Divi-
sion of Manufacturing Engineering and Operations Management.

[Pre86] W.H.Press, B..Flannery, S.A.Teukolsky & W.T.Vetterling, Numerical Recipes: The Art of
Scientific Computing, Cambridge University Press, 1986.

[Rea96] J.P.Reau & G.Chauvat, Probabilités et statistiques. Excercices et corrigés, Armand Colin, Col-
lection cursus TD, série économie, 1996.

[Sap 90] G.Saporta (1990) Probabilités, Analyse des données et statistique, Edition Technip.

[Sch 84] D.Schwartz (1984) Méthodes statistiques à l’usage des médecins et des biologistes, Flammarion,
Médecine-Sciences, Collection Statistique en biologie et médecine.

[Sch 80] J.J.Schwarz (1980) Combinatoire et Probabilités, Polycopié de cours, Département Informa-
tique, INSA Lyon.

[Sch 80b] J.J.Schwarz (1980) Statistique: rappels de cours et exemples, Polycopié de cours, Département
Informatique, INSA Lyon.

[Sch 88] B.Scherrer (1988) Biostatistique, Edition Gaetan Morin.

Bib-1
De même, les liens suivants (valides au moment du tirage du polycopié) sont quelques points d’entrée
sur le Web. Cette liste s’intensifiera si vous trouvez des liens intéressants et que vous m’en faites part.

• http://www.statsoft.com/textbook/stathome.html : une bible en anglais de tout ce que vous pouvez


réver en statistique.

• http://www.fourmilab.com/rpkp/experiments/contents.html : pour ceux qui s’intéressent au pou-


voir de la pensée sur les nombres.

• http://www.dagnelie.be : une introduction sur les livres de statistiques de Pierre Dagnelie.

• http://www.cons-dev.org/elearning/stat/St1.html : un cours très complet sur les tests.

Bib-2