Vous êtes sur la page 1sur 102

Statistiques appliquées

2B-comdev

Syllabus

Sébastien de Valeriola

Année académique 2017-2018


Statistiques appliquées (2B-comdev, M. de Valeriola)

2
Table des matières

Contrat didactique 5
Organisation des séances de cours . . . . . . . . . . . . . . . . . . . . . . . 5
Modalités d’évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1 Introduction 7
1.1 Vocabulaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.2 Quelques outils . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.3 Lettres de l’alphabet grec . . . . . . . . . . . . . . . . . . . . . . . . 16
1.4 Sources . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2 Statistique descriptive 19
2.1 Décrire des données : les tableaux . . . . . . . . . . . . . . . . . . . . 19
2.2 Décrire des données : les graphiques . . . . . . . . . . . . . . . . . . . 22
2.3 Décrire des données : les indicateurs . . . . . . . . . . . . . . . . . . 29

3 Probabilités 41
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.2 Quelques rappels de théorie des ensembles . . . . . . . . . . . . . . . 42
3.3 Modèle probabiliste discret . . . . . . . . . . . . . . . . . . . . . . . . 43
3.4 Quelques règles de calcul . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.5 Analyse combinatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.6 Probabilité conditionnelle et indépendance . . . . . . . . . . . . . . . 56
3.7 Probabilité totale et formule de Bayes . . . . . . . . . . . . . . . . . 58

4 Variables aléatoires discrètes 61


4.1 Distribution d’une variable discrète . . . . . . . . . . . . . . . . . . . 61
4.2 L’espérance et la variance . . . . . . . . . . . . . . . . . . . . . . . . 63
4.3 La distribution uniforme . . . . . . . . . . . . . . . . . . . . . . . . . 68
4.4 La distribution binomiale . . . . . . . . . . . . . . . . . . . . . . . . 68
4.5 La distribution géométrique . . . . . . . . . . . . . . . . . . . . . . . 73
4.6 La distribution de Poisson . . . . . . . . . . . . . . . . . . . . . . . . 76

5 Variables aléatoires continues 79


5.1 Distribution d’une variable continue . . . . . . . . . . . . . . . . . . . 79
5.2 La distribution uniforme . . . . . . . . . . . . . . . . . . . . . . . . . 85

3
Statistiques appliquées (2B-comdev, M. de Valeriola)

5.3 La distribution exponentielle . . . . . . . . . . . . . . . . . . . . . . . 87


5.4 La distribution normale . . . . . . . . . . . . . . . . . . . . . . . . . 89
5.5 La distribution log-normale . . . . . . . . . . . . . . . . . . . . . . . 91

6 Théorèmes fondamentaux 93
6.1 L’inégalité de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . 93
6.2 L’inégalité de Bienaymé-Tchebychev . . . . . . . . . . . . . . . . . . 94
6.3 La loi des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . 96
6.4 La stabilité de la loi normale pour l’addition . . . . . . . . . . . . . . 97
6.5 Le théorème central limite . . . . . . . . . . . . . . . . . . . . . . . . 98

4
Contrat didactique

Organisation des séances de cours


Les séances de cours seront divisées en deux groupes : les cours magistraux
(±50%) et les séances d’exercice (±50%). Les étudiants sont tenus d’arriver à l’heure ;
un étudiant en retard doit attendre l’heure suivante pour entrer dans la salle de cours.
Le silence est exigé en classe, et les téléphones doivent être éteints. Les ordinateurs
portables sont tolérés si et seulement si ils sont utilisés pour des raisons liées au
cours (prise de notes, lecture du syllabus, etc.) ; il est donc interdit de consulter des
sites n’ayant aucun rapport avec le cours pendant celui-ci.
Trois documents sont disponibles sur iCampus :
1. un syllabus théorique reprenant le contenu cours ; ce syllabus doit être com-
plété avec les notes prises au cours par les étudiants ; les étudiants ayant raté
des cours doivent donc se rattraper à l’aide des notes d’étudiants ayant assisté
aux cours manqués ;

2. un syllabus d’exercices ;

3. un recueil de tables statistiques.


Les étudiants sont tenus de se munir de ces documents pour les séances de cours.

Modalités d’évaluation
La matière d’examen correspond à tout ce qui a été couvert au cours, noté au
tableau ou pas.
L’évaluation prendra la forme d’un examen écrit composé des éléments suivants :
1. un ensemble de questions portant sur des points de théorie, pour ±20% du
total de l’examen ;

2. un ensemble d’exercices similaires à ceux qui ont été faits au cours (c’est-à-dire
des exercices où la méthode à appliquer est la même, mais dans des contextes
et avec des paramètres différents), pour ±60% du total de l’examen ;

3. un ensemble d’exercices légèrement différents de ceux qui ont été faits au cours
(mais bien entendu faisables), pour ±20% du total de l’examen.

5
Statistiques appliquées (2B-comdev, M. de Valeriola)

La durée de l’examen sera indiquée sur les feuilles ; elle ne correspond pas à la
durée de réservation de la salle dans laquelle l’examen se déroule.
Le matériel autorisé le jour de l’examen est le suivant, à l’exclusion de quoi que
ce soit d’autres :

1. une carte d’étudiant ou une carte d’identité ;

2. de quoi écrire (mais pas de trousse) ;

3. une calculatrice (l’utilisation de la calculatrice des téléphones est bien enten-


du interdite), ainsi qu’une pile de rechange ou une deuxième calculatrice de
rechange (le prêt de calculatrice entre étudiants est interdit) ; la mémoire
des calculatrices programmables sera effacée par un surveillant au début de
l’examen ;

4. une collation raisonnable.

Les couvre-chefs sont interdits le jour de l’examen, y compris les casques anti-
bruit. Il en va de même pour les écouteurs et les bouchons anti-bruit.

6
Chapitre

Introduction

Plutôt que de commencer par une définition aride de notre objet d’étude, intro-
duisons-le par un exemple motivant. Admettons que nous souhaitons étudier la po-
pulation belge sous toutes ses coutures, et que nous tentons de déterminer quel est
l’âge moyen des Belges.
Pour ce faire, il vient intuitivement a l’esprit deux méthodes, a savoir :

• le recensement, qui consiste à interroger chacun des N Belges sans exception


aucune et à enregistrer leur âge ;

• l’échantillonnage, qui consiste à prélever au hasard au sein de la population


totale un échantillon de taille n < N puis à calculer la moyenne des âges
des individus sélectionnés ; la moyenne calculée sur cet échantillon sera alors
considérée comme un indicateur de la moyenne de la population totale.

Recenser représente une opération lourde, fastidieuse, lente, coûteuse et souvent


de précision illusoire. En effet, au fur et a mesure de la progression des opérations
de recensement, la population change, puisqu’elle se modifie par les naissances et
par les décès. Des lors, nous n’obtiendrons qu’un résultat approché et coûteux.
Échantillonner présente les avantages du contrôle de l’économie de la méthode et
de l’exactitude de la mesure de la moyenne de l’âge sur l’échantillon, mais présente le
désavantage de l’imprécision de l’extrapolation à la population de l’analyse effectuée
sur l’échantillon.
Cet exemple simple indique une partie des problèmes que se destine a résoudre
la statistique. Il n’est bien sûr qu’une application parmi de très nombreuses autres,
et la statistique est aujourd’hui utilisée dans des domaines très divers de la société :

• les sondages sont élaborés pour estimer les tendances électives, ou pour prévoir
les résultats des élections ;

• les clients sont échantillonnés pour récolter des informations sur leurs produits
préférés ;

7
Statistiques appliquées (2B-comdev, M. de Valeriola)

• les chercheurs en médecine mènent des expériences pour détermine l’effet des
médicaments et de certains environnements sur l’homme, dans le but de dé-
couvrir comment traiter différentes maladies ;

• les ingénieurs échantillonnent les caractéristiques d’un produit donné parallè-


lement à des variables de contrôle, afin d’identifier les variables qui entrent en
jeu dans sa qualité ;

• les appareils électroniques lancés sur le marché sont échantillonnés pour déter-
miner s’ils peuvent effectivement être envoyés aux clients ou s’il est nécessaire
de conserver le lot ;

• les économistes observent différents indices de santé économique sur une pé-
riode de temps et utilisent cette information pour prédire l’évolution future de
l’économie.

Les statisticiens eux-mêmes ne sont pas tous d’accord sur une définition univer-
selle de la statistique, comme le montrent ces quelques exemples :

• Trésor de la langue française : « Branche des mathématiques ayant pour objet


l’analyse (généralement non exhaustive) et l’interprétation de données quan-
tifiables » ;

• Stuart et Ord (1991) : « Branche de la méthode scientifique qui s’occupe des


données obtenues en comptant ou en mesurant les propriétés de populations » ;

• Rice (1995) : « Principalement composée de procédures d’analyse de données,


et plus particulièrement de données qui, dans un vague sens au moins, ont un
caractère aléatoire » ;

• Freund et Walpole (1987) : « Science du développement d’inférences sur base


de données observées et du problème de la prise de décision face à l’incerti-
tude » ;

• Mood, Graybill, et Boes (1974) « Technologie de la méthode scientifique qui


possède deux buts : premièrement, élaborer des expériences et des investiga-
tions ; deuxièmement, établir des inférences ».

Sans prétendre donner une définition qui réconcilie toutes celles-là, contentons-
nous d’en relever les éléments qui y reviennent le plus couramment. On peut ainsi
dire qu’il s’agit d’une discipline des mathématiques dont le principe est l’analyse d’un
ensemble de données réelles, raison pour laquelle on la qualifie parfois de théorie de
l’information..
Elle est composée de deux sous-disciplines. La statistique descriptive désigne l’en-
semble des méthodes qui permettent de représenter les données sous une forme
quelconque et de les résumer à l’aide de valeurs caractéristiques, afin de rendre ces
données immédiatement exploitables.

8
Chapitre 1

La statistique inférentielle désigne l’ensemble des méthodes qui permettent d’étendre


à une population les propriétés d’un échantillon sélectionné au sein de celle-ci, et
de valider ou d’infirmer des hypothèses formulées a priori à son propos. Elle per-
met donc de prédire, avec un certain risque d’erreur, les paramètres inconnus de
la population à partir des caractéristiques d’un échantillon extrait de cette même
population.
Une autre discipline des mathématiques joue un grand rôle dans l’étude de la
statistique : la théorie des probabilités, avec laquelle elle forme les sciences de l’aléa-
toire. D’une part, les phénomènes observés et décrits par la statistique descriptive
peuvent être représentés par des modèles ou par des lois dont la définition repose sur
des notions définies dans la théorie des probabilités. D’autre part, les méthodes de
la statistique inférentielle reposent sur des résultats issus de cette théorie. Ces deux
disciplines ne sont pas fondamentalement opposées (comme on le lit trop souvent),
mais se complètent l’une l’autre.
Il faut cependant distinguer entre leurs points de vue et objectifs respectifs :

Probabilités Statistique
général −→ spécifique général ←− spécifique
population −→ échantillon population ←− échantillon
modèle −→ données modèle ←− données

Des milliards d’euros sont dépensés chaque année par les industries et les gouver-
nements de tous les pays du monde pour collecter des données, que ce soit via des
expériences, des sondages ou d’autres procédures. Ces montants gigantesques sont
dépensés dans l’unique but d’obtenir des informations à propos des phénomènes me-
surables dans tous les domaines (dans les sphères économiques, scientifiques, etc.),
et donc de mieux les comprendre.
Depuis les années 2000, ce fait est encore plus vrai : les ensembles de données
disponibles se multiplient, et avec eux les efforts déployés pour récolter celles-ci. Les
décideurs, depuis les entrepreneurs de PME jusqu’aux membres des gouvernements,
font face à des quantités formidables d’informations, qu’il s’agit de comprendre et
d’utiliser (voir par exemple la figure 1.1).
Les contributions de la statistique sont donc plus que jamais cruciales, et ce à
tous les niveaux de notre société.

9
Statistiques appliquées (2B-comdev, M. de Valeriola)

Figure 1.1: Couverture du numéro de The Economist du 6 mai 2017 (copyright


The Economist)

1.1 Vocabulaire
La grande collection d’objets, d’individus, d’éléments, etc. sur laquelle se porte
notre intérêt est appelée la population. Elle peut être réelle et finie (par exemple
l’ensemble des Belges) ou infinie et virtuelle (par exemple, toutes les pièces d’un
certain type qui seront produites par une usine donnée dans le futur). Ce processus
est illustré à la figure 1.2. Les éléments de celle-ci sont parfois appelés unités de
population.
Le sous-ensemble prélevé dans cette collection, et sur lequel les techniques statis-
tiques sont appliquées, est l’échantillon. L’effectif d’une population ou d’un échan-
tillon est le nombre d’éléments dont elle ou il est composé(e).
Une variable (ou un caractère statistique) est une propriété étudiée sur les in-
dividus d’une population donnée. Une série statistique est un ensemble de valeurs
observées relatives à une variable. Les variables seront notées par des majuscules
(X, Y, Z), les valeurs par des minuscules (x, y, z). Une modalité est une valeur que
peut prendre une variable.
On distingue deux types et quatre sous-types de variables :

10
Chapitre 1

Population d’effectif 16

1 2 3 4 Échantillon de cette
population, d’effectif 4

5 6 7 8 2 7

9 10 11 12 13 14

13 14 15 16

Figure 1.2: Illustration de l’échantillonnage

1. une variable qualitative décrit des qualités (les modalités ne peuvent être ad-
ditionnées) :
(a) une variable nominale a pour modalités des catégories ;
(b) une variable ordinale a pour modalités des numéros d’ordre ;
2. une variable quantitative décrit des quantités (les modalités peuvent être ad-
ditionnées) :
(a) une variable discrète a un ensemble de modalités fini ou infini dénom-
brable (on peut en faire une liste) ;
(b) une variable continue a un ensemble de modalités infini indénombrable
(on ne peut pas en faire une liste).
Quelques exemples :
• la couleur des yeux (dont les modalités sont « bleu », « brun », etc.) est une
variable qualitative nominale ;
• le rang obtenu par un sportif dans un tournoi (dont les modalités sont 1er ,
2ème , etc.) est une variable qualitative ordinale ;
• le résultat d’un lancer de dé (dont les modalités sont les nombres entiers de 1
à 6) est une variable quantitative discrète ;
• la température d’un malade (dont les modalités sont les nombres réels dans
l’intervalle [30; 42]) est une variable continue.

11
Statistiques appliquées (2B-comdev, M. de Valeriola)

Une statistique est une quantité calculée à partir des valeurs d’un échantillon. Par
exemple, la consommation moyenne de lait des ménages belges est une statistique
calculée à partir d’un échantillon de ménages belges prélevé au hasard au sein de la
population belge totale.

1.2 Quelques outils


1.2.1 Symbole de sommation
L’utilisation de points de suspension dans l’écriture d’une somme n’est ni pratique
(c’est une notation plutôt longue) ni rigoureuse (on ne décrit pas vraiment les termes
qui sont représentés par les∑...). Pour cette raison, les mathématiciens ont recours
au symbole de sommation .
L’idée est de décrire les termes de la somme à l’aide d’une variable muette (qu’on
note souvent par une lettre minuscule, par exemple i, j, k ou l), qui prend des valeurs
entières successives entre une valeur minimum∑ et une valeur maximum. L’expression
de ces termes est placée à droite du symbole , tandis que les valeurs minimum et
maximum sont respectivement placées en-dessous et au-dessus de celle-ci.
Par exemple, on peut réécrire la somme des n premiers nombres entiers de la
façon suivante :
∑ n
1 + 2 + ... + (n − 1) + n = j.
j=1

L’idée est la même pour une la somme de n termes plus compliqués :

n+4 ∑j+4
n
1+4 2+4 n−1+4
+ + ... + + = .
11 22 (n − 1)n−1 nn j=1
jj

D’une manière plus générale, on note donc, pour une fonction f quelconque,

n ∑
n ∑
n
f (1) + f (2) + ... + f (n − 1) + f (n) = f (j) = f (k) = f (θ).
j=1 k=1 θ=1

On ne saurait trop insister sur le fait que la somme est une quantité qui ne dépend
pas de la variable muette, raison pour laquelle nous pouvons librement modifier
celle-ci, comme dans la dernière expression. Elle dépend cependant bien de la valeur
maximale que prend la variable muette (n dans l’exemple).
Lorsque la somme porte sur plusieurs variables différentes, on utilise plusieurs
symboles de sommation et plusieurs variables muettes. Par exemple, pour calculer
la population européenne totale, on peut faire la somme de la population de chaque
âge dans chaque pays :


28 ∑
125 ∑
125 ∑
28
pop(pays, âge) = pop(pays, âge),
pays=1 âge=0 âge=0 pays=1

12
Chapitre 1

où nous avons inversé les deux symboles de sommation, puisque sommer les âges
(pour chaque pays) puis sommer les pays est équivalent à sommer les pays (pour
chaque âge) puis sommer les âges.
Ajoutons enfin que le même genre de notation existe aussi pour le produit, qui
fonctionne exactement de la même façon :


n
f (1) · f (2) · ... · f (n − 1) · f (n) = f (j).
j=1

1.2.2 Exponentielle
Lorsqu’un nombre réel est multiplié plusieurs fois par lui-même, on note ce nombre
de fois en exposant, c’est-à-dire en haut à droite de ce nombre. Ainsi, on écrit

25 = 2 · 2 · 2 · 2 · 2.

De manière plus générale, si a est un nombre réel quelconque et n est un entier


positif, on écrit
an = |a · a · {z
... · a · a}
n facteurs

Lorsqu’on multiplie deux puissances du même nombre, celles-ci s’additionnent


(règle d’addition des exposants). Ainsi,

22 · 23 = (2 · 2) · (2 · 2 · 2) = 2 · 2 · 2 · 2 · 2 = 25

et
an · am = (a ... · a}) · (a
| · {z | · {z
... · a}) = |a · {z
... · a} = an+m ,
n facteurs m facteurs n+m facteurs

où m est un entier positif.


Lorsqu’une puissance est appliquée à une puissance, celles-ci se multiplient (règle
de multiplication des exposants) :

(an )m = an·m .

Signalons que, par convention, la puissance 0 de tout nombre réel strictement


positif vaut 1 :
a0 = 1.
Les puissances négatives signifient que l’on divise par la puissance positive cor-
respondante :
1
a−n = n .
a
On peut aussi appliquer à a des exposants fractionnaires, qui correspondent aux
racines : √ ( 1/n )n
a1/n = n a est le nombre tel que a = a.

13
Statistiques appliquées (2B-comdev, M. de Valeriola)

Si on choisit un nombre réel x, il est possible en utilisant une suite de fractions,


de définir ax . Si on considère que x est une variable réelle, on obtient la fonction
exponentielle :
a· : R → R+ : x 7→ ax .
Un cas particulier très important est celui où a = e = 2, 7182 le « nombre
d’Euler ». Sans entrer dans les détails, mentionnons qu’on peut en général écrire

ai ≈ 1 + K(a) · i pour tout nombre positif a.

Par exemple, K(2) = 0, 6931 et K(3) = 1, 0986. La caractéristique qui rend la


constante e particulière est la suivante : K(a) = 1 si et seulement si a = e ≈ 2, 7182.

1.2.3 Logarithme
Il est utile d’inverser la fonction exponentielle, par exemple, afin de déterminer
l’exposant qu’il est nécessaire d’appliquer à une quantité pour obtenir un résultat
donné :
ax = b ⇔ x = loga (b).
Le nombre x est le logarithme de b en base a s’il est la puissance à laquelle il faut
élever la quantité a pour obtenir b.
Puisque cette fonction est l’inverse de l’exponentielle, elle jouit de propriétés qu’on
peut considérer comme les transposées des caractéristiques de celles-ci :

loga (1) = 0,

loga (a) = 1,

loga (x · y) = loga (x) + loga (y),

( )
x
loga = loga (x) − loga (y),
y

loga (xn ) = n · loga (x).

Comme cas particulier important, mentionnons le logarithme en base e, qu’on


appelle logarithme naturel ou népérien et qu’on note ln = loge . La plupart des
calculatrices ne donnent accès au logarithme que dans cette base-là. La formule
suivante permet de changer de base :

logc (b)
loga (b) = .
logc (a)

Calculer loga (b) sur une calculatrice se fera donc en divisant ln b par ln a.

14
Chapitre 1

1.2.4 Dérivée et intégrale


La dérivée d’une fonction (qui se note avec un apostrophe après le symbole utilisé
pour désigner la fonction) donne son accroissement, c’est-à-dire la façon dont elle
croît ou décroît. Il n’est dès lors pas étonnant qu’en physique, la vitesse soit la
dérivée de la position, et que l’accélération soit la dérivée de l’accélération. La dérivée
possède les propriétés suivantes :

(f (x) + k)′ = f ′ (x)


(f (x) + g(x))′ = f ′ (x) + g ′ (x)
(f (x)g(x))′ = f ′ (x)g(x) + f (x)g ′ (x)
( )′
f (x) f ′ (x)g(x) − f (x)g ′ (x)
=
g(x) g(x)2

(f (g(x))) = f ′ (g(x))g ′ (x)

La primitive est la « notion inverse », au sens où dériver une primitive ou primi-


tiver la dérivée revient à ne rien faire (à une constante près).
Une fois que la primitive d’une fonction est connue, on peut en calculer l’intégrale,
qui correspond à l’aire sous la courbe du graphe d’une fonction entre deux bornes :
si F est la primitive de f ,
∫ b
f (x)dx = [F (x)]ba = F (b) − F (a).
a

L’intégrale jouit des propriétés générales suivantes :


∫ b ∫ b ∫ b
(cf (x) + dg(x))dx = c f (x)dx + d g(x)dx
a a a
∫ c ∫ b ∫ c
f (x)dx = f (x)dx + f (x)dx.
a a b

Nous renvoyons le lecteur à des manuels de mathématiques générales du secon-


daire pour plus de détails à propos de la dérivée, de la primitive et de l’intégrale.
La table 1.1 donne les dérivées et primitives de quelques fonctions usuelles.

15
Statistiques appliquées (2B-comdev, M. de Valeriola)

Fonction Dérivée Primitive


k 0 kx + C

xn+1
x (n ̸= 0, −1)
n
nx n−1
+C
n+1
1
− x12 log x + C
x
1
log x x log x − x + C
x

ex ex ex + C

Table 1.1: Dérivées et primitives de quelques fonctions usuelles

1.3 Lettres de l’alphabet grec


Nous utiliserons souvent des lettres de l’alphabet grec, qu’il faut pouvoir pronon-
cer.

α β γ δ ϵ ζ η θ

A B Γ ∆ E Z H Θ

alpha beta gamma delta epsilon zeta eta theta


ι κ λ µ ν ξ o π

I K Λ M N Ξ O Π

iota kappa lambda mu nu xi omicron pi


ρ σ τ υ ϕ χ ψ ω

P Σ T Y Φ X Ψ Ω

rho sigma tau upsilon phi khi psi omega

Table 1.2: Lettres de l’alphabet grec

1.4 Sources
Les principales sources utilisées pour la rédaction de ce syllabus sont les suivantes :

16
Chapitre 1

• F. Vaguener, Notes des cours Statistiques II, Statistiques III et Introduction


à économétrie, [inédit], 2017 ;

• D. Wackerly, W. Mendenhall et R. Scheaffer, Mathematical statistics


with applications, Thomson, 2008 ;

• F. Mazerolle, Statistique descriptive, Gualino, 2006 ;

• R. Veysseyre, Statistique et probabilités pour l’ingénieur, Dunod, 2014 ;

• J.-P. Lecoutre, Statistique et probabilités, Dunod, 2008.

17
Statistiques appliquées (2B-comdev, M. de Valeriola)

18
Chapitre

Statistique descriptive

2.1 Décrire des données : les tableaux


Considérons une population d’objets produits par une usine et prêts pour expé-
dition, décrite dans la table 2.1.

Code Couleur Ordre d’expédition Nombre d’exemplaires Prix [€]


P01 blanc 1 100 19, 50
P02 rouge 1 50 14, 95
P03 noir 6 25 21, 50
P04 blanc 6 25 10, 00
P05 noir 3 100 4, 99
P06 noir 7 50 12, 20
P07 noir 5 200 2, 50
P08 noir 1 75 30, 00
P09 blanc 7 100 15, 50
P10 rouge 4 100 15, 50
P11 rouge 4 75 11, 99
P12 noir 2 100 5, 70
P13 blanc 1 25 14, 00
P14 blanc 2 50 19, 95
P15 noir 1 25 4, 30

Table 2.1: Population d’objets produits par une usine et prêts pour expédition

Le tableau constitue l’outil de représentation le plus simple de la distribution


d’une variable associée à une population, c’est-à-dire de la façon dont ses valeurs
sont réparties.
Dans le cas d’une variable qualitative nominale, celui-ci est généralement composé
de trois colonnes (voir la table 2.2) :

19
Statistiques appliquées (2B-comdev, M. de Valeriola)

1. les modalités de la variable (à chaque ligne, une modalité xi ) ;

2. l’effectif (parfois appelé fréquence absolue) de chacune de ces modalités dans


la population étudiée (à chaque ligne, le nombre d’unités de population ni
présentant la modalité correspondante) ;

3. la fréquence relative de chacune de ces modalités :

ni ∑
k
fi = , où N = nj est l’effectif total.
N j=1

Modalité Effectif Fréquence


blanc 5 5
15
≈ 0, 33

3
rouge 3 15
= 0, 2

noir 7 7
15
≈ 0, 46

Table 2.2: Tableau de fréquence pour une variable qualitative nominale

Dans le cas d’une variable qualitative ordinale, on fait le même tableau, en y


ajoutant deux colonnes (voir la table 2.3) :

i
1. l’effectif cumulé Ni = nj (à chaque ligne l’effectif des modalités inférieures
j=1
ou égales à la modalité correspondante) ;
Ni
2. la fréquence relative cumulée : Fi = N
.

Dans le cas d’une variable quantitative discrète, on fait le même tableau (voir la
table 2.4).
Dans le cas d’une variable quantitative continue, dresser le même tableau n’aurait
pas beaucoup de sens, puisque beaucoup de modalités se retrouveraient toutes seules
et le tableau n’apporterait pas beaucoup d’information. C’est pour cette raison qu’on
regroupe les valeurs prises par la variable en m intervalles [a1 , a2 ], ]a2 , a3 ], ..., ]am , am+1 ].
Le tableau est ensuite dressé comme précédemment, avec une colonne supplémen-
taire donnant le centre de chaque intervalle (ai + ai+1 )/2 (voir la table 2.5).
On peut mentionner quelques règles qu’il est généralement bon suivre (mais qui
ne sont pas universelles) :

• les intervalles ne doivent pas forcément être de la même longueur (surtout le


premier et le dernier), mais c’est plus facile à manipuler si c’est le cas ;

• l’union de ces intervalles doit couvrir l’étendue des valeurs de la variable ;

20
Chapitre 2

Modalité Effectif Fréquence Effectif cumulé Fréquence cumulée


1 5 5
15
≈ 0, 33 5 5
15
≈ 0, 33

2 2 2
15
≈ 0, 13 7 7
15
≈ 0, 46

3 1 1
15
≈ 0, 06 8 8
15
≈ 0, 53

4 2 2
15
≈ 0, 13 10 10
15
≈ 0, 66

5 1 1
15
≈ 0, 06 11 11
15
≈ 0, 73

6 2 2
15
≈ 0, 13 13 13
15
≈ 0, 86

7 2 2
15
≈ 0, 13 15 15
15
=1

Table 2.3: Tableau de fréquence pour une variable qualitative ordinale

Modalité Effectif Fréquence Effectif cumulé Fréquence cumulée


25 4 4
15
≈ 0, 26 4 4
15
≈ 0, 26

50 3 3
15
= 0, 20 7 7
15
≈ 0, 46

75 2 2
15
≈ 0, 13 9 9
15
= 0, 6

100 5 5
15
≈ 0, 33 14 14
15
≈ 0, 93

200 1 1
15
≈ 0, 06 15 15
15
=1

Table 2.4: Tableau de fréquence pour une variable quantitative discrète

• les limites des intervalles ne doivent pas se retrouver dans les données (afin
d’éviter des ambiguïtés sur l’intervalle auquel appartient chaque donnée) ;

• le nombre d’intervalles doit être bien choisi : s’il est trop petit ou trop grand,
le tableau ne donne que peu d’information ; on construit le plus souvent entre
4 et 20 intervalles.

21
Statistiques appliquées (2B-comdev, M. de Valeriola)

Intervalle Centre Effectif Fréquence Effectif Fréquence


cumulé cumulée
[1, 80; 7, 80] 4, 80 4 4
15
≈ 0, 26 4 4
15
≈ 0, 26

]7, 80; 13, 80] 10, 80 3 3


15
= 0, 20 7 7
15
≈ 0, 46

]13, 80; 19, 80] 16, 80 5 5


15
≈ 0, 33 12 12
15
= 0, 8

]19, 80; 25, 80] 22, 80 2 2


15
≈ 0, 13 14 14
15
≈ 0, 93

]25, 80; 31, 80] 28, 80 1 1


15
≈ 0, 06 15 15
15
=1

Table 2.5: Tableau de fréquence pour une variable quantitative continue

2.2 Décrire des données : les graphiques


L’outil le plus commun pour représenter graphiquement une variable qualita-
tive ou quantitative discrète est le diagramme en barres (figure 2.1). Il suffit pour
construire celui-ci de reprendre le tableau de la distribution de la population et de
dessiner, pour chaque modalité, une barre dont la largeur importe peu et dont la
hauteur est égale soit à l’effectif, soit à la fréquence.
0.625
250
200

0.5
0.375
150

0.25
100

0.125
50
0

femme homme femme homme

Figure 2.1: Exemple de diagramme en barres

L’outil le plus commun pour représenter graphiquement une variable quantitative


continue est l’histogramme. Pour construire celui-ci, on reprend le tableau de la
distribution : les intervalles correspondent maintenant à des subdivisions de l’axe
horizontal. Sur chacun de ces intervalles, un rectangle est construit, dont la largeur
est égale à la taille de l’intervalle et la hauteur est égale :
1. à l’effectif de cet intervalle (fréquence absolue, la somme des fréquences absolues

22
Chapitre 2

est égale à l’effectif total) ;


2. à la proportion de données situées dans cet intervalle (fréquence relative, la
somme des fréquences relatives est égale à 1) ;
3. au rapport entre la fréquence absolue et la largeur de l’intervalle, de telle sorte
que la surface du rectangle soit égale à la fréquence relative (densité, la somme
des surfaces des rectangles est égale à 1).
Considérons par exemple une population de bébés dont on étudie le poids à la
naissance [kg] (table 2.6). Les trois types d’histogrammes pour cet exemple sont

3,6 3,4 3,2 4,0 3,8 4,6 4,4 3,6 3,6 2,8 3,6 4,0

Table 2.6: Poids à la naissance d’une population de bébés

donnés :
1. à la table 2.7 et la figure 2.2 pour la fréquence absolue ;
2. à la table 2.8 et la figure 2.3 pour la fréquence relative ;
3. à la table 2.9 et la figure 2.4 pour la densité.

Intervalle Données dans cet intervalle Fréquence absolue


[2,7 ; 3,1] 2,8 1

]3,1 ; 3,5] 3,2 ; 3,4 2

]3,5 ; 3,9] 3,6 ; 3,8 ; 3,6 ; 3,6 ; 3,6 5

]3,9 ; 4,3] 4,0 ; 4,0 2

]4,3 ; 4,7] 4,4 ; 4,6 2

Table 2.7: Tableau de l’histogramme de fréquence absolue pour les poids de bébés

Insistons encore sur l’importance de choisir un nombre d’intervalles adapté à la


taille de la population considérée. Si ce nombre est trop petit (figure 2.5), le « résu-
mé » des données est trop peu précis, et l’histogramme ne nous apprend pas grand
chose. Si au contraire il est trop grand (figure 2.6), la plupart des données se re-
trouvent seules dans leur intervalle, et le graphe n’est pas plus utile que de regarder
le tableau brut de nombres. Quelle que soit la taille de la population, on ne sélec-
tionne en général pas moins de 4 et pas plus de 20 intervalles. La plupart des logiciels
statistiques (comme SAS, R, etc.) tracent automatiquement des histogrammes qui
suivent ces conseils généraux.

23
Statistiques appliquées (2B-comdev, M. de Valeriola)

5
4
Fréquence absolue

3
2
1
0

2.7 3.1 3.5 3.9 4.3 4.7

poids [kg]

Figure 2.2: Graphe de l’histogramme de fréquence absolue pour les poids de bébés

Intervalle Données dans cet intervalle Fréquence relative


1
[2,7 ; 3,1] 2,8 12
= 8, 33%

2
]3,1 ; 3,5] 3,2 ; 3,4 12
= 16, 66%

5
]3,5 ; 3,9] 3,6 ; 3,8 ; 3,6 ; 3,6 ; 3,6 12
= 41, 66%

2
]3,9 ; 4,3] 4,0 ; 4,0 12
= 16, 66%

2
]4,3 ; 4,7] 4,4 ; 4,6 12
= 16, 66%

Table 2.8: Tableau de l’histogramme de fréquence relative pour les poids de bébés

Les histogrammes sont très couramment utilisés pour décrire des données. Leur
intérêt dépasse ce simple aspect exploratoire, puisqu’on peut en faire une interpré-
tation probabiliste. Puisque la somme des fréquence relatives vaut 1, on peut voir
le graphe comme une table de probabilités (la notion de probabilité sera développée
rigoureusement plus tard, mais nous pouvons nous contenter d’une définition naïve
pour l’instant). Si une donnée est sélectionnée au hasard dans la population, la pro-
babilité qu’elle appartienne à un intervalle donné est égale à la surface du rectangle

24
Chapitre 2

0.4
0.3
Fréquence relative

0.2
0.1
0.0

2.7 3.1 3.5 3.9 4.3 4.7

poids [kg]

Figure 2.3: Graphe de l’histogramme de fréquence relative pour les poids de bébés

Intervalle Données dans cet intervalle Densité


8,33%
[2,7 ; 3,1] 2,8 0,4
= 0, 2083

16,66%
]3,1 ; 3,5] 3,2 ; 3,4 0,4
= 0, 4166

41,66%
]3,5 ; 3,9] 3,6 ; 3,8 ; 3,6 ; 3,6 ; 3,6 0,4
= 1, 0416

16,66%
]3,9 ; 4,3] 4,0 ; 4,0 0,4
= 0, 4166

16,66%
]4,3 ; 4,7] 4,4 ; 4,6 0,4
= 0, 4166

Table 2.9: Tableau de l’histogramme de densité pour les poids de bébés

correspondant si on considère un histogramme de densité.


Ainsi, dans notre exemple, la probabilité qu’une donnée tirée au hasard parmi les
poids considérés appartienne à l’intervalle ]3,9 ; 4,3] vaut 2/15, soit 16,66%. Puisque
l’intervalle ]3,5 ; 3,9] est celui qui est associé au plus grand rectangle, c’est aussi
l’intervalle dans lequel une donnée tirée au hasard a le plus de chance de se trouver.
Dans un histogramme de densité, la somme des aires des rectangles est égale

25
Statistiques appliquées (2B-comdev, M. de Valeriola)

1.0
0.8
0.6
Densité

0.4
0.2
0.0

2.7 3.1 3.5 3.9 4.3 4.7

poids [kg]

Figure 2.4: Graphique de l’histogramme de densité pour les poids de bébés


0.8
0.6
Fréquence relative

0.4
0.2
0

2.3 3.5 4.7

poids [kg]

Figure 2.5: Histogramme avec un trop petit nombre d’intervalles

26
Chapitre 2

0.30
0.25
Fréquence relative

0.20
0.15
0.10
0.05
0.00

2.75
2.85
2.95
3.05
3.15
3.25
3.35
3.45
3.55
3.65
3.75
3.85
3.95
4.05
4.15
4.25
4.35
4.45
4.55
4.65
poids [kg]

Figure 2.6: Histogramme avec un trop grand nombre d’intervalles

à 1. Ceci revient à dire que l’aire qui est située sous (et donc l’intégrale de) la
« courbe » formée des « côtés supérieurs » de ces rectangles est égale à 1. On peut
alors construire un autre type de graphe (figure 2.7) :
• on considère une série de taille infinie ;
• on trace des histogrammes en divisant l’axe des données en des intervalles de
plus en plus petits ;
• les rectangles ont donc des largeurs de plus en plus petites, mais la somme de
leurs aires est toujours égale à 1 ;
• à la limite (quand on considère un nombre infini d’intervalles), on obtient la
fonction de densité.
C’est un outil très important par lequel on caractérise des « familles » de populations
qui se comportent de manière similaire. Remarquons que l’intégrale de (ou l’aire
sous) la fonction de densité est égale à 1.
Notons qu’on peut construire des variations des histogrammes présentés jusqu’ici,
dont le principe est très similaire ; par exemple, on voit parfois des histogrammes
horizontaux, des histogrammes de fréquences cumulées et des polygones de fréquence
(figure 2.8).
D’autres types de graphes sont parfois utilisés, aussi bien dans le secteur privé que
dans la littérature scientifique. Par exemple, le graphe en camembert (en anglais pie

27
Statistiques appliquées (2B-comdev, M. de Valeriola)

5 intervalles 10 intervalles 20 intervalles

50 intervalles 100 intervalles Fonction de densité

Figure 2.7: De l’histogramme à la fonction de densité


J ●
8e+04

I
25000

H
G
F
15000


4e+04

E ●

D
C
5000

B ●

A
0e+00

● ● ● ●
0
0

5000

10000

15000

20000

25000

30000

A B C D E F G H I J A B C D E F G H I J

Figure 2.8: Variations sur le thème de l’histogramme

charts), où les fréquences relatives deviennent des secteurs angulaires, des « parts
de tarte ». On considère cependant généralement qu’ils sont à proscrire :

1. l’œil humain compare beaucoup plus facilement des hauteurs/longueurs (de


rectangles) que des angles (de secteurs) ;

2. faire tourner un graphe en camembert change parfois la façon dont nous perce-
vons les données, par exemple en donnant l’impression que les secteurs situés
en bas sont plus gros ;

28
Chapitre 2

3. lorsque les données sont divisées en beaucoup de catégories, il devient très


difficile de lire un tel graphe, même dans le cas où des couleurs sont utilisées
pour colorier les différents secteurs ;

4. ...

Les choses deviennent pire encore lorsque des « effets » sont ajoutés au graphe (3D,
ombres, etc., voir figure 2.9).
0.30

27 %
B 17%
0.25

C 14% A 17%
0.20

17 % 17 %

14 % 14 %
0.15

G 5%
0.10

7% F 7%
5% D 27%
0.05

E 14%
0.00

A B C D E F G

B 17% B 17%
C 14% A 17% C 14% A 17%

G 5% G 5%
F 7% F 7%
D 27% D 27%
E 14% E 14%

Figure 2.9: Pie charts : des graphiques à éviter

2.3 Décrire des données : les indicateurs


Les histogrammes procurent des informations utiles concernant la distribution
d’un ensemble de données, mais les graphes ne sont généralement pas très adaptés à
la production d’inférences. En effet, beaucoup d’histogrammes différents (bien que
similaires) peuvent être construits à partir d’une même population (en effectuant
des choix différents pour le nombre, la largeur et la position des intervalles). Pour
élaborer des inférences et mesurer la qualité de celles-ci, il est nécessaire de dis-
poser d’outils définis rigoureusement permettant de résumer certains aspects de la
population étudiée.
Il s’agira donc ici – et dans les chapitres suivants – de définir, pour une série
donnée, des quantités mathématiques véhiculant de l’information à propos de cette

29
Statistiques appliquées (2B-comdev, M. de Valeriola)

série, et d’étudier leurs propriétés. Ces indicateurs possèdent des propriétés proba-
bilistes qui nous permettront d’élaborer des inférences et d’estimer la qualité des
inférences élaborées.
On distingue plusieurs types d’indicateurs, qui répondent à des questions diffé-
rentes :

• Où se situent les données ?

– mesures de tendance centrale :


∗ moyenne ;
∗ mode ;
∗ médiane ;

• Comment se répartissent les données ?

– mesures de position :
∗ quantiles ;
– mesures de dispersion :
∗ étendue ;
∗ écart interquartile ;
∗ variance ;
∗ écart-type ;
∗ coefficient de variation ;

• Quelle forme prennent les données ?

– mesures de forme :
∗ coefficient de dissymétrie ;
∗ coefficient d’aplatissement.

2.3.1 Mesures de tendance centrale


Dans le premier de ces groupes, la moyenne arithmétique est sans doute la plus
connue :

Définition 2.1 La moyenne d’une série statistique y1 , y2 , . . . , yn (notée y) est


la somme de toutes ces valeurs, divisée par n :

1∑
n
y= yi .
n i=1

30
Chapitre 2

Puisqu’elle est la somme des valeurs de la série, la moyenne s’exprime dans les
mêmes unités que la série elle-même. La moyenne d’un ensemble de prix libellés
en € sera ainsi par exemple elle-même exprimée en €. On montre aisément que la
moyenne d’échantillon est linéaire : pour tous c, λ ∈ R

y+c=y+c ; λy = λy.

Notons au passage qu’il existe d’autres types de moyennes, parmi lesquelles :

• la moyenne géométrique :
v
u n
u∏
y=t
n
yi
i=1

• la moyenne harmonique :
n
y= ∑
n
1
yi
i=1

• les moyennes pondérées :


n ∑
n
w
y = wi yi avec wi = 1.
i=1 i=1

Elles ne nous intéressent cependant pas directement ici, raison pour laquelle nous
écrirons souvent simplement « moyenne » (en anglais, mean) pour désigner la
moyenne arithmétique.
Exemple(moyenne pondérée). Un cas classique de moyenne pondérée est celui
du calcul des indices des prix, qui modélisent l’évolution dans le temps de la valeur
d’un panier de biens de consommation x1 , x2 , ..., xn .
Considérons par exemple l’indice de Laspeyres, qui est utilisé par l’INSEE (Insti-
tut national de la statistique et des études économiques) pour le calcul de l’inflation
en France.
Soient πt (xi ) et κt (xi ) le prix et la quantité consommée du produit xi durant
l’année t. L’indice de prix de l’année T est alors égal à


n
πT (xi ) π0 (xi )κ0 (xi )
IT = wi où wi = ∑
n .
π0 (xi )
i=1 π0 (xi )κ0 (xi )
i=1

Le poids wi représente la « place » du produit xi dans le panier initial. L’indice I


est donc la moyenne des évolutions des biens, pondérée par leur importance dans le
panier. ♢

31
Statistiques appliquées (2B-comdev, M. de Valeriola)

Définition 2.2 Le mode d’une série statistique (noté yM ), est la valeur ou les
valeurs de la variable qui correspond(ent) à l’effectif maximum.

Lorsque la valeur observée le plus fréquemment est unique, on parle de distribu-


tion unimodale. Lorsque diverses valeurs possèdent le même effectif maximum, on
parle de distribution multimodale.
densité

densité

Figure 2.10: Distributions unimodale et bimodale

Définition 2.3 La médiane d’une série statistique ordonnée y1 ≤ y2 ≤ ... ≤ yn


(notée y1/2 ) est la valeur telle que le nombre d’observations de la série ordonnée
qui la précèdent est égal au nombre d’observations qui la suivent.

Si la taille n de la série statistique est un nombre impair, alors

y1/2 = y(n+1)/2 .

Par exemple,

y1 y2 y3 y4 y5 y6 y7 y8 y9 y1/2
3 7 11 34 43 43 45 120 123 43

S’il s’agit d’un nombre pair, alors

yn/2 + yn/2+1
y1/2 = .
2

Par exemple,

y1 y2 y3 y4 y5 y6 y7 y8 y9 y10 y1/2
7+11
0 0 2 5 7 11 24 25 40 40 2
=9

32
Chapitre 2

2.3.2 Mesures de position et de dispersion


Les mesures de tendance centrale ne font que situer le « centre » de la distribution
des données ; toutes seules, ces quantités ne procurent donc pas une description
adéquate d’un ensemble de données. Ainsi, deux tels ensembles peuvent avoir des
distributions très différentes, et pourtant des moyennes égales (par exemple, figure
2.11). La différence entre les deux distributions tracées tient dans la dispersion des
densité

densité

Figure 2.11: Distributions très différentes avec des moyennes égales

données de part et d’autre de la moyenne.

Définition 2.4 Pour 0 < p < 1, le p-quantile d’une série statistique ordonnée
y1 ≤ y2 ≤ ... ≤ yn (noté yp ) est la valeur telle que le nombre d’observations de
la série ordonnée qui la précèdent est égal à ⌊n · p⌋, la partie entière de n · p
(c’est-à-dire le plus grand entier inférieur ou égal à n · p).

La proportion de données inférieures à yp est donc p et la proportion de données


supérieures à yp est 1 − p.
Certains quantiles ont des noms spécifiques : la médiane (p = 0, 5), les quartiles
(p = 0, 25 ; p = 0, 75), les déciles (p = 0, 1 ; p = 0, 2 ; ... ; et p = 0, 9) et les
percentiles (p = 0, 01 ; p = 0, 02 ; ... ; p = 0, 99).

Définition 2.5 L’écart interquartile d’une série statistique y1 ≤ y2 ≤ ... ≤ yn


(noté EI) est la différence entre le troisième et le premier quartile :

EI = y0,75 − y0,25 .

Définition 2.6 L’étendue d’une série statistique y1 , y2 , . . . , yn (notée et) est la


différence entre la valeur maximale et la valeur minimale de cette série :

et = max yi − min yi
i i

33
Statistiques appliquées (2B-comdev, M. de Valeriola)

Définition 2.7 L’écart moyen arithmétique d’une série statistique y1 , y2 , . . . , yn


(noté em ) est la moyenne arithmétique des écarts, en valeur absolue, entre les
valeurs observées yi et la moyenne arithmétique y, de ces valeurs observées :

1∑
n
em = |yi − y| .
n i=1

Cet indicateur est néanmoins beaucoup moins utilisé que celui qui suit, la va-
riance, même s’ils se ressemblent fort au premier abord.
La mesure de dispersion la plus connue est la variance (en anglais, variance),
qui dépend directement des déviations (des distances) des données de la série par
rapport à leur moyenne.

Définition 2.8 La variance d’une série statistique y1 , y2 , . . . , yn (notée s2 ) est


la moyenne des carrés des écarts entre ces valeurs et leur moyenne :

1∑
n
2
s = (yi − y)2 .
n i=1

On montre aisément les propriétés suivantes de la variance d’échantillon : pour


tous c, λ ∈ R
1∑ 1∑
n n
2
(yi + c − y + c) = (yi − y)2
n i=1 n i=1
1 ∑( )2 1∑
n n
λyi − λy = λ2 (yi − y)2 .
n i=1 n i=1
Il est important de noter qu’on peut aussi définir la variance en divisant par n − 1
plutôt que par n (nous reviendrons sur cette remarque plus loin dans le cours) :
1 ∑
n
s̃2 = (yi − y)2 .
n − 1 i=1
Puisqu’elle est la somme de carrés des écarts, la variance s’exprime dans les unités
de la série au carré : la variance d’une série de prix en € est donc exprimée en €2 ,
ce qui peut s’avérer délicat.
Pour cette raison notamment, on définit donc l’écart-type (en anglais, standard
deviation).

Définition 2.9 L’écart-type d’une série statistique est la racine carrée de sa


variance : √
s = s2 .

34
Chapitre 2

Le coefficient de variation permet la comparaison entre la dispersion de deux


distributions observées de moyennes différentes.

Définition 2.10 Le coefficient de variation d’une série statistique est le quotient


de l’écart-type par la moyenne :
s
V = .
y

2.3.3 Règle empirique


L’écart-type peut être utilisé pour donner une idée de la variabilité d’un ensemble
de données. Le théorème de Tchebysheff permet de le faire en tout rigueur, mais il
n’est pas encore à notre portée et sera étudié plus tard.
En attendant, nous pouvons utiliser la règle empirique suivante. Un nombre im-
portant d’ensembles de données collectées dans le monde réel possèdent une distribu-
tion en cloche, c’est-à-dire une distribution qui ressemble à la distribution normale
(à propos de laquelle nous reparlerons en détail).
Cette ressemblance approximative donne lieu à la règle empirique suivante : Règle
empirique Pour des données présentant une distribution approximativement normale
(en cloche),

• l’intervalle [m − s; m + s] contient à peu près 68% des données ;

• l’intervalle [m − 2s; m + 2s] contient à peu près 95% des données ;

• l’intervalle [m − 3s; m + 3s] contient presque toutes les données.

Lorsque la distribution d’un ensemble de données est connue, des calculs proba-
bilistes peuvent être effectués sur ces données. Les probabilités ont été présentées
comme des aires sous les histogrammes de fréquence. De la même manière, les pro-
babilités mentionnées dans la règle empirique correspondent aux aires sous la courbe
normale (figure 2.12).
Exemple. Illustrons l’utilisation de cette règle empirique par un exemple.
Supposons que les résultats des étudiants à un examen possèdent une distribution
normale de moyenne m = 13 et d’écart-type s = 2. Nous pouvons donc déduire de
la règle empirique qu’approximativement 68% des étudiants obtiennent un résultat
entre 11 et 15, 95% entre 9 et 17 et presque tous entre 7 et 19. La connaissance de
la moyenne et de l’écart-type donne donc une assez bonne idée de la distribution
des résultats.
Supposons qu’un étudiant est tiré au hasard parmi ceux qui ont passé l’examen.
Quelle est la probabilité que son résultat soit situé entre 11 et 15 ? Par la règle
empirique, on peut dire que 0,68 est une réponse approchée mais satisfaisante à
cette question. ♢

35
Statistiques appliquées (2B-comdev, M. de Valeriola)

Densité

Densité
68 % 95 % ~ 100 %

m−s m m+s m−2s m m+2s m−3s m m+3s

Figure 2.12: Illustration de la règle empirique

2.3.4 Mesures de forme


Deux distributions présentant les mêmes indicateurs de tendance centrale et de
dispersion ne sont pas pas pour autant égales ; par exemple, les deux distributions
de la figure 2.13 sont dans ce cas. Elles possèdent la même moyenne et la même
8

8
6

6
4

4
2

2
0

1 2 3 4 5 1 2 3 4 5

Figure 2.13: Distributions différentes de mêmes moyenne et variance

variance, mais sont fort différentes ! Intuitivement, l’une est symétrique, l’autre est
dissymétrique.

Définition 2.11 Le coefficient de dissymétrie d’une série statistique


y1 , y2 , . . . , yn (noté γ1 ) est égal au quotient de la moyenne des cubes des
écarts par le cube de l’écart-type :

n
1
n
(yi − y)3
i=1
γ1 =
s3

C’est le signe de ce coefficient qui détermine « de quel côté la distribution

36
Chapitre 2

penche » :
• si γ1 > 0, la distribution est dissymétrique à gauche ;
• si γ1 = 0, la distribution est symétrique ;
• si γ1 < 0, la distribution est dissymétrique à gauche.
Notons que la division par s3 fait en sorte que cet indicateur est sans unités.
Même si les moyennes, variances et coefficients de dissymétrie de deux distribu-
tions sont égaux, ces distributions peuvent être différentes (figure 2.14).
15

15
10

10
5

5
0

1 2 3 4 5 1 2 3 4 5

Figure 2.14: Distributions différentes de mêmes moyenne, variance et coefficient


d’asymétrie

Définition 2.12 Le coefficient d’aplatissement ou kurtosis d’une série statis-


tique y1 , y2 , . . . , yn (noté γ2 ) est égal au quotient de la moyenne des écarts à
l’exposant 4 par le quatrième exposant de l’écart-type :

n
1
n
(yi − y)4
i=1
γ2 =
s4

La kurtosis est une indicateur de l’« épaisseur » de la distribution. Notons que la


division par s4 fait en sorte que cet indicateur est sans unités.
La ressemblance de plusieurs de ces indicateurs est frappante :
1∑
n
variance : (yi − y)2
n i=1
1∑
n
numérateur du coefficient de dissymétrie : (yi − y)3
n i=1
1∑
n
numérateur de la kurtosis : (yi − y)4
n i=1

37
Statistiques appliquées (2B-comdev, M. de Valeriola)

Ils sont des cas particuliers (pour r = 2, 3, 4) de moments centrés.

Définition 2.13 Soit r un nombre entier positif. Le moment centré d’ordre r


d’une série statistique y1 , y2 , . . . , yn est égal à

1∑
n
βr = (yi − y)r .
n i=1

Avec cette notation, on a


β3 β4
s 2 = β2 ; γ1 = ; γ2 = .
3/2
β2 β22
Cette définition ouvre donc la porte à une famille infinie d’indicateurs. Cependant,
les moments d’ordre plus grand que 4 sont rarement utilisés, parce qu’ils manquent
d’une interprétation intuitive.

2.3.5 Boîtes à moustache


Un graphique en boîte à moustache est une façon de résumer la dispersion d’une
série statistique en représentant sur un graphique cinq valeurs : le minimum, le
maximum, les quartiles et la médiane (figure 2.15).

7 10 16 22 33 34 43 50 52 57
58 58 63 71 75 82 82 84 95 97

Table 2.10: Données de la boîte à moustaches de la figure 2.15

min 1er quartile médiane 3e quartile max

Figure 2.15: Boîte à moustaches correspondant aux données de la table 2.10

La boîte permet de comparer des séries statistiques et d’avoir en un coup d’œil


une idée de leurs dispersions et situations relatives (figure 2.16).
La position de la médiane dans la boîte permet de déduire approximativement la
forme de la distribution :

38
Chapitre 2

X 1 1 3 5 5 8 8 10 13 13 15 16 16 17 20
Y 7 8 9 9 10 10 10 10 11 11 11 12
Z 5 7 8 11 12 12 13 14 14 14 14 15 15 15

Table 2.11: Données de la boîte à moustaches de la figure 2.16


20
15
10
5

X Y Z

Figure 2.16: Boîte à moustaches correspondant aux données de la table 2.11

1. la distribution est symétrique si la médiane est au milieu de la boîte ;

2. la distribution est asymétrique à gauche si la médiane est dans la partie droite


de la boîte ;

3. la distribution est asymétrique à droite si la médiane est dans la partie gauche


de la boîte.

De la même façon, la taille des moustaches permet de faire le même genre de déduc-
tions :

1. la distribution est symétrique si les moustaches sont de la même taille ;

2. la distribution est asymétrique à gauche si la moustache gauche est plus grande


que la droite ;

3. la distribution est asymétrique à droite si la moustache droite est plus grande


que la gauche.

39
Statistiques appliquées (2B-comdev, M. de Valeriola)

40
Chapitre

Probabilités

3.1 Introduction
Dans la vie de tous les jours, le terme « probabilité » désigne une mesure de la
confiance qu’on a en la réalisation d’un événement futur. Si nous pouvons accepter
cette définition très intuitive comme une interprétation valable et pratique de cette
notion, elle est insuffisante pour comprendre pleinement le concept correspondant,
les calculs qui la font intervenir et la façon dont elle permet d’élaborer des inférences.
Le concept de probabilité est nécessaire pour manipuler des phénomènes phy-
siques, biologiques ou sociaux qui génèrent des observations qui ne peuvent être
prédites avec certitude. Par exemple, la pression artérielle d’une personne à un mo-
ment donné ne peut pas être prédite avec certitude, et nous ne connaissons jamais
la charge exacte qu’un pont pourra supporter avant de s’effondrer dans une rivière.
De tels événements ne peuvent être prédits avec certitude, mais la fréquence relative
avec laquelle ils se produisent dans une longue série d’essais est souvent remarqua-
blement stable. Les événements possédant cette propriété sont appelés aléatoires, ou
stochastiques.
Le rôle que joue la probabilité dans la réalisation des inférences sera discuté en
détail lorsque nous aurons donné une base adéquate à la théorie des probabilités.
Considérons un joueur qui souhaite déterminer si un dé à six faces est équilibré ou
pas. La population conceptuelle d’intérêt correspond ici à l’ensemble des résultats
qui seraient générés si le dé était lancé encore et encore, à l’infini. Si le dé était
parfaitement équilibré, un sixième des unités de population seraient des 1, un sixième
des 2, un sixième des 3, etc., c’est-à-dire la distribution suivante (figure 3.1).
En suivant la méthode scientifique, le joueur propose l’hypothèse selon laquelle
le dé est équilibré, et il cherche à produire des observations réelles pour contredire
la théorie, si elle est fausse. Un échantillon de dix lancers est généré en lançant
le dé dix fois ; les dix lancers donnent tous des 1. Le joueur considère cette série
d’événements et conclut que son hypothèse n’est pas conforme au monde réel et donc
que le dé n’est pas équilibré. Le raisonnement employé par le joueur suggère que la
probabilité joue un rôle dans l’élaboration d’inférences : il a rejeté son hypothèse (et

41
Statistiques appliquées (2B-comdev, M. de Valeriola)

Fréquence relative

1/6
0

1 2 3 4 5 6

Figure 3.1: Distribution du lancer d’un dé à six faces

a conclu que le dé était déséquilibré), non pas parce qu’il est impossible d’obtenir
dix 1 en dix lancers d’un dé équilibré, mais parce que ce résultat est très improbable.
Son évaluation de la probabilité était probablement subjective, c’est-à-dire que le
joueur n’a sans doute pas calculé la probabilité d’obtenir dix fois 1 en dix lancers,
mais il avait un sentiment intuitif que cet événement était très peu probable si le dé
était équilibré. Il convient de noter que sa décision était basée sur la probabilité de
l’échantillon observé.
La nécessité de disposer d’une théorie des probabilités qui fournisse une méthode
rigoureuse pour trouver un nombre (une probabilité) qui est en accord avec la fré-
quence relative réelle d’occurrence d’un événement dans une longue série d’essais est
évident si l’on imagine un résultat différent pour l’échantillon produit par le joueur.
Supposons, par exemple, qu’au lieu de dix 1, il ait observé cinq 1, deux 2, un
3, un 4 et un 6. Est-ce un résultat « suffisamment improbable » pour rejeter notre
hypothèse selon laquelle le dé est équilibré et conclure qu’il est déséquilibré (en faveur
du 1) ? Certains résultats expérimentaux sont incompatibles avec une hypothèse
donnée et conduisent à son rejet sans ambiguïté.
Cependant, de nombreux résultats expérimentaux tombent dans une « zone
grise » où une évaluation rigoureuse de la probabilité qu’ils se réalisent doit être
effectuée. C’est pour cette raison que doit être développée une théorie rigoureuse
des probabilités qui permet de calculer la probabilité d’observer des résultats don-
nés.

3.2 Quelques rappels de théorie des ensembles


Pour pouvoir élaborer une théorie des probabilités rigoureuse, nous avons be-
soin d’une base de théorie des ensembles. Nous utiliserons des lettres majuscules,
A, B, C, . . . pour désigner des ensembles de points. Si les éléments de l’ensemble A
sont a1 , a2 et a3 , nous écrirons
A = {a1 , a2 , a3 }.
Soit S l’ensemble de tous les éléments considérés ; c’est-à-dire que S est l’ensemble

42
Chapitre 3

univers. Pour deux ensembles A et B, nous dirons que A est un sous-ensemble de


B, ou A est contenu dans B (noté A ⊂ B), si chaque point dans A est également
dans B. L’ensemble vide, noté ∅, est l’ensemble ne comportant aucun point ; ainsi,
∅ est un sous-ensemble de tous les ensembles.
L’union de deux ensembles A et B, notée A ∪ B, est l’ensemble de tous les points
dans A ou B ou les deux, c’est-à-dire que l’union de A et B contient tous les points
qui se trouvent dans au moins un des ensembles. L’opérateur logique associé à l’union
est ou, puisque x ∈ A ∪ B si x ∈ A ou x ∈ B.
L’intersection de A et B, notée A ∩ B, est l’ensemble de tous les points dans A
et B à la fois. L’opérateur logique associé à l’intersection est et, puisque x ∈ A ∩ B
si x ∈ A et x ∈ B.
Si A est un sous-ensemble de S, alors le complément de A, noté A, est l’ensemble
des points qui sont dans S mais pas dans A. Notons que A ∪ A = S et A ∩ A = ∅.
Deux ensembles A et B sont disjoints ou mutuellement exclusifs si A ∩ B = ∅ ;
les ensembles mutuellement exclusifs n’ont pas de points communs.
Considérons le problème de la section précédente. Soit S l’ensemble de tous les
résultats possibles d’un unique lancer de dé :
S = {1, 2, 3, 4, 5, 6}.
Soient les ensembles
A = {1, 2}, B = {1, 3}, et C = {2, 4, 6}.
On calcule facilement que
A ∪ B = {1, 2, 3}, A ∩ B = {1}, et A = {3, 4, 5, 6}.
Notons également que B et C s’excluent mutuellement, alors que ce n’est pas le cas
de A et C.
Sans en donner la démonstration, donnons quatre règles de calcul très utiles.
D’abord les règles de distributivité :
A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C)

A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C)
Ensuite les règles de De Morgan :
A∩B =A∪B

A∪B =A∩B

3.3 Modèle probabiliste discret


Nous utiliserons le terme expérience pour décrire des observations obtenues à
partir de situations complètement incontrôlables (par exemple le cours d’une action),
ainsi que ceux obtenus dans des conditions contrôlées en laboratoire.

43
Statistiques appliquées (2B-comdev, M. de Valeriola)

Définition 3.1 Une expérience est le procédé au cours duquel une observation
est effectuée.

Parmi les exemples d’expériences, citons les lancers de pièces et de dés, les me-
sures de score de QI d’un individu, ou la détermination du nombre de bactéries par
centimètre cube dans une portion d’aliment.
Lorsqu’une expérience est effectuée, elle produit un ou plusieurs résultats, qui
sont appelés événements (notés par des lettres majuscules).
Voici des exemples d’événements associés à l’expérience consistant à lancer un
dé à six faces : A : obtenir un résultat impair ;̃ B : obtenir un résultat < 5 ;̃ C :
obtenir un 2 ou un 3 ; E1 : obtenir un 1 ; E2 : obtenir un 2 ; E3 : obtenir un 3 ; E4 :
obtenir un 4 ; E5 : obtenir un 5 ; E6 : obtenir un 6.
Il existe une différence entre les événements mentionnés : si on observe l’événement
A (un nombre impair), on observe forcément E1 , E3 ou E5 . Ainsi, l’événement A, qui
peut être décomposé en trois autres événements, est appelé événement composé. En
revanche, les événements E1 , E2 , E3 , E4 , E5 et E6 ne peuvent pas être décomposés
et sont donc appelés des événements simples.
Un événement simple ne peut se produire que d’une manière, alors qu’un événe-
ment composé peut se produire de plusieurs manières distinctes. Certains concepts
de la théorie des ensembles sont utiles pour exprimer les relations entre les événe-
ments associés à une expérience. Parce que les ensembles sont des collections de
points, nous pouvons associer un point distinct, appelé un point d’échantillonnage,
à chaque événement simple associé à une expérience.

Définition 3.2 Un événement simple est un événement qui ne peut être décom-
posé. Chaque événement simple correspond à un seul et même point d’échan-
tillonnage. La lettre E avec un indice sera utilisée pour désigner un événement
simple ou le point d’échantillonnage correspondant.

Ainsi, nous pouvons penser à un événement simple comme un ensemble composé


d’un seul point, à savoir, l’unique point d’échantillonnage associé à l’événement.

Définition 3.3 L’espace d’échantillonnage associé à une expérience est l’en-


semble composé de tous les points d’échantillonnage possibles. Un espace d’échan-
tillonnage sera noté S.

Il est facile de voir que l’espace d’échantillonnage associé au lancer d’un dé est
composé de six éléments, qui correspondent au six résultats possible de ce lancer :

S = {E1 , E2 , E3 , E4 , E5 , E6 }.

On peut de même imaginer des espace d’échantillonnage dont le nombre de points


d’échantillonnage est infini mais dénombrable (c’est-à-dire qu’on peut en faire une
liste), comme le nombre de bactéries par centimètre cube dans une portion d’aliment.

44
Chapitre 3

Définition 3.4 Un espace d’échantillonnage est discret s’il contient soit un


nombre fini, soit un nombre dénombrable de points d’échantillonnage distincts.

Lorsqu’une expérience se déroule une seule fois, on observe un seul événement


simple (par exemple, si on lance un dé et qu’on observe un 1, on ne peut pas au
même moment observer un 2). Ainsi, le point d’échantillonnage unique E1 associé à
l’observation d’un 1 et le point d’échantillonnage unique E2 associé à l’observation
de 2 sont distincts, et les ensembles correspondants {E1 } et {E2 } sont des ensembles
mutuellement exclusifs.
De la même manière, on dira que les événements E1 et E2 sont mutuellement
exclusifs ; de même, tous les événements simples correspondent à des ensembles
mutuellement exclusifs et sont donc des événements deux à deux mutuellement ex-
clusifs. Pour ce qui concerne les expériences avec des espaces d’échantillons discrets,
les événements composés peuvent être considérés comme des collections de points
d’échantillonnage ou, de manière équivalente, en tant qu’unions d’ensembles des
points d’échantillonnage uniques associés aux événements simples correspondants.
Par exemple, dans le cas du lancer d’un dé, l’événement A (observer un nombre
impair) se produira si et seulement si l’un des événements simples E1 , E2 ou E3 se
produit :
A = {E1 , E2 , E3 } ou A = E1 ∪ E2 ∪ E3 .
De même, B (observer un nombre inférieur à 5) peut être écrit comme
B = {E1 , E2 , E3 , E4 } ou B = E1 ∪ E2 ∪ E3 ∪ E4 .
La règle pour déterminer quels événements simples sont inclus dans un événement
composé est la suivante : un événement simple Ei est inclus dans l’événement A si
et seulement si A se produit chaque fois que Ei se produit.

Définition 3.5 Un événement d’un espace d’échantillonnage discret S est une


collection de points d’échantillonnage, c’est-à-dire, tout sous-ensemble de S.

Il est possible de construire un modèle probabiliste pour une expérience avec


un espace d’échantillonnage discret S en attribuant un nombre appelé probabilité à
chaque événement simple de S. Nous allons choisir une définition de ce nombre, qui
représente une mesure de notre confiance en la réalisation de l’événement sur une
seule répétition de l’expérience, de telle sorte qu’il soit conforme à notre intuition
tout en étant rigoureux et utile.
Il y a plusieurs manières de définir la probabilité. Au xviie siècle, un joueur
passionné, le Chevalier de Méré, un personnage célèbre de la cour de Louis XIV,
s’adressa à Blaise Pascal pour l’aider à estimer ses chances de gain ou de perte dans
un jeu de hasard. Il s’ensuivit une correspondance féconde entre Blaise Pascal et
Pierre Fermat, dans laquelle est né le calcul des probabilités.
Les problèmes posés à cette époque relevaient essentiellement des jeux de hasard,
et plus précisément des jeux de dés, de cartes et de roulette dont les deux principales
caractéristiques sont les suivantes :

45
Statistiques appliquées (2B-comdev, M. de Valeriola)

1. ils ne contiennent qu’un ensemble fini de résultats possibles ;

2. les événements simples correspondants ont les mêmes chances de se réaliser.

Dans ces conditions, il était naturel de considérer le rapport entre le nombre de cas
favorables au joueur et le nombre de cas possibles comme une mesure des chances
de gain du joueur :
nombre de cas favorables
P (A) = .
nombre de cas possibles
Cette définition est néanmoins insatisfaisante :

1. elle n’est utilisable que si l’espace d’échantillonnage est fini : si celui-ci est
infini, il est impossible de calculer le nombre de cas possibles (et parfois le
nombre de cas favorables) ;

2. elle ne convient que pour des cas où les événements simples sont équiprobables :
on ne peut dès lors pas calculer de probabilité dès qu’un événement simple a
plus ou moins de chances de se réaliser que les autres événements simples, une
situation qui se rencontre assez souvent (penser à un dé pipé, à la disparité
hommes/femmes, etc.).

Il faut donc trouver une autre façon de définir la probabilité.


La bonne façon de poser cette définition est de penser à la notion de fréquence re-
lative : la probabilité doit être définie de telle sorte qu’elle corresponde à la fréquence
relative observée lorsque l’expérience correspondant à l’événement en question est
répétée un très grand nombre de fois.
Cette fréquence relative stable à long terme fournit une mesure de notre confiance
en la réalisation d’un événement aléatoire qui est intuitivement valable si nous vou-
lons effectuer une prédiction de la survenance future de cet événement.
Il est impossible, par exemple, de prédire avec certitude l’apparition du côté face
sur un seul lancer d’une pièce équilibrée, mais nous sommes disposés à déclarer avec
une certaine assurance que la fraction de faces apparaissant dans une longue série de
lancers est très proche de 0,5. Le fait que cette fréquence relative soit couramment
utilisée comme mesure de la confiance dans le résultat d’un lancer unique apparaît
clairement quand on considère un pari.
Prenons le cas d’un joueur qui parie sur le résultat d’un seul lancer : même
s’il ne s’intéresse pas vraiment à la fréquence relative de l’apparition de face dans
une longue série de lancers, c’est tout de même cette valeur qu’il prend en compte
lorsqu’il évalue ses chances.
Tentons d’attribuer une probabilité « empirique » à un événement quelconque ;
pour ce faire, il est évident que réaliser l’expérience aléatoire une seule fois est
insuffisant. Par contre, si nous répétons l’expérience un grand nombre N de fois, et
que nous appelons k(N ) le nombre de fois que l’événement se réalise, nous constatons
une certaine stabilité ou régularité au fur et à mesure que N grandit. De cette
stabilité statistique, nous pouvons tirer une conclusion très importante en énonçant
la définition empirique de la probabilité.
46
Chapitre 3

Définition 3.6 Soient S un espace d’échantillonnage et A un événement. La


probabilité que A se réalise (notée P (A)) est la limite de la fréquence de surve-
nance de A lorsque N , le nombre de répétitions de l’expérience aléatoire, tend
vers l’infini :
k(N )
P (A) = lim = lim fA (N ),
N →∞ N N →∞

où nous avons noté fA (N ) la fréquence relative de A après N répétitions de


l’expérience.

La figure 3.2 illustre la convergence de la fréquence relative d’obtenir 6 sur un dé


équilibré vers la probabilité correspondante.
0.5
Fréquence fA = k N

0.25
1/6
0

1 100 200 300 400 500

Nombre de lancers N

Figure 3.2: Exemple de convergence vers la fréquence relative : obtenir 6 sur un dé


équilibré

Cette définition est une définition empirique : elle est utile pour comprendre la
notion et s’en forger une intuition, mais elle ne mène pas à grand chose mathéma-
tiquement. Pour obtenir une définition mathématiquement rigoureuse, nous allons
prendre le problème à l’envers :

1. lister les propriétés désirables que la probabilité empirique possède ;

2. définir la probabilité comme une fonction qui jouit de ces propriétés en ne


fixant pas la valeur que doit prendre la probabilité dans la majorité des cas ;

47
Statistiques appliquées (2B-comdev, M. de Valeriola)

3. fixer (arbitrairement) une valeur à la probabilité qui soit en accord avec l’in-
tuition de fréquence relative.
En analysant la notion de fréquence relative, nous constatons que trois conditions
doivent être respectées :
1. la fréquence relative d’occurrence d’un événement doit être supérieure ou égale
à zéro. Une fréquence relative négative n’a pas de sens ;
2. la fréquence relative de l’ensemble de l’espace d’échantillonnage S doit être
égale à 1. Comme tout résultat possible de l’expérience est un point de S, il
s’ensuit que S doit se produire chaque fois que l’expérience est effectuée ;
3. si deux événements sont mutuellement exclusifs, la fréquence relative de leur
union est la somme de leurs fréquences relatives respectives.
Ces conditions se formalisent de la manière suivante :

Définition 3.7 Soit S un espace d’échantillonnage associé à une expérience. La


probabilité P est une fonction qui associe un nombre à chaque événement A de
S de telle sorte que les conditions suivantes soient satisfaites :

1. P (A) ≥ 0.

2. P (S) = 1.

3. Si A1 , A2 , A3 . . . est une famille dénombrable d’événements mutuellement


exclusifs de S (c’est-à-dire que Ai ∩ Aj = ∅ pour tous i ̸= j), alors



P (A1 ∪ A2 ∪ A3 ∪ . . . ) = P (Ai ).
i=1

La troisième condition implique que, si A1 , A2 , A3 . . . , An est une famille finie


d’événements mutuellement exclusifs, alors

n
P (A1 ∪ A2 ∪ A3 ∪ · · · ∪ An ) = P (Ai ).
i=1

Comme annoncé, cette définition n’explique pas comment fixer la probabilité d’un
événement particulier. Cela signifie que toutes les manières de fixer cette probabilité
sont conformes à cette définition mathématique ; cependant, celles qui ne reflètent
pas la notion de fréquence relative sont inutiles, puisqu’elles mènent à des résultats
qui n’ont rien à voir avec le monde réel.
Pour les espaces d’échantillonnage discrets, il suffit d’assigner des probabilités à
chaque événement simple.
Si un dé équilibré est utilisé pour l’exemple du lancer de dé, il semble raisonnable
de supposer que tous les événements simples auront la même fréquence relative à long

48
Chapitre 3

terme. Nous attribuerons donc une probabilité de 1/6 à chaque événement simple :
P (Ei ) = 1/6, pour i = 1, 2, . . . , 6. Cette attribution de probabilités est conforme à
la condition 1.
Pour voir que la condition 2 est satisfaite, calculons, à l’aide de la condition 3,

P (S) = P (E1 ∪ E2 ∪ · · · ∪ E6 ) = P (E1 ) + P (E2 ) + · · · + P (E6 ) = 1.

La condition 3 nous dit aussi qu’on peut calculer la probabilité d’un événement en
additionnant les probabilités des événements simples dont il est composé (rappelons
que des événements simples distincts sont toujours mutuellement exclusif). L’événe-
ment A (observer un nombre impair) est donc associé à la probabilité suivante :
1 1 1 1
P (A) = P (E1 ∪ E3 ∪ E5 ) = P (E1 ) + P (E3 ) + P (E5 ) = + + = .
6 6 6 2
Un grand nombre d’événements d’intérêt majeur dans le monde réel (que ce soit
pour le généticien, pour l’ingénieur ou pour l’homme d’affaires) s’expriment comme
des nombres, ce sont des événements numériques.
Ils incluent par exemple le nombre de patients présentant une mutation donnée
et développant une maladie particulière, le poids total qu’un pont peut supporter
avant de s’écrouler et la valeur du taux de change euro - dollar à un instant donné.
C’est la valeur que prend cette variable (disons Y ) qui nous intéresse, valeur
qui dépend du résultat d’une expérience aléatoire ; on formalise mathématiquement
cette notion comme suit.

Définition 3.8 Une variable aléatoire est une fonction Y : S → R qu’on peut
mesurer grâce aux éléments de S.

Dans ce cas, on s’intéresse donc à la probabilité que Y prenne une valeur donnée a
: par {Y = a} on désigne l’ensemble des points d’échantillonnage tels que la quantité
Y prend la valeur a. Cet ensemble de points d’échantillonnage peut être de taille
importante ; par exemple, on peut être intéressé par le résultat d’un seul des deux
dés lancés, auquel cas on aura

{Y = 1} = {(1, 1); (1, 2); (1, 3); (1, 4); (1, 5); (1, 6)}.

3.4 Quelques règles de calcul

Théorème 3.1 Si A est un événement, alors

P (A) = 1 − P (A).

Preuve : On peut décomposer l’espace d’échantillonnage selon A et son complé-


mentaire :
S = A ∪ A et donc P (S) = P (A) + P (A),

49
Statistiques appliquées (2B-comdev, M. de Valeriola)

puisque A et A sont mutuellement exclusifs. On obtient alors le résultat puisque


P (S) = 1. 
L’utilité de ce théorème tient dans le fait qu’il est parfois plus facile de calculer
P (A) que P (A).

Théorème 3.2 La probabilité de l’union de deux événements A et B est égale


à
P (A ∪ B) = P (A) + P (B) − P (A ∩ B).

Preuve : En traçant un diagramme de Venn, il est facile de vérifier

A ∪ B = A ∪ (A ∩ B) et B = (A ∩ B) ∪ (A ∩ B).

Ces décompositions faisant intervenir des événements mutuellement exclusifs, on


peut écrire

P (A ∪ B) = P (A) + P (A ∩ B) et P (B) = P (A ∩ B) + P (A ∩ B).

d’où on tire le résultat, en substituant l’expression obtenue dans l’équation de gauche


l’expression de P (A ∩ B) obtenue dans l’équation de droite. 
En particulier, si A et B sont mutuellement exclusifs, P (A ∩ B) = 0 et

P (A ∪ B) = P (A) + P (B).

3.5 Analyse combinatoire


Nous nous tournons maintenant vers l’analyse combinatoire afin d’acquérir quelques
outils nous permettant de dénombrer des points d’échantillonnage et donc de calcu-
ler des probabilités.
Dans de nombreux cas, ces résultats permettent de compter le nombre total
de points d’échantillonnage dans l’espace d’échantillonnage S et dans l’événement
considéré, fournissant ainsi une confirmation de la décomposition en événements
simples.
Lorsque le nombre d’événements simples dans un espace d’échantillonnage est
très important et que l’énumération manuelle de chaque point d’échantillonnage est
fastidieuse – voire impossible –, compter le nombre de points dans l’espace d’échan-
tillonnage et dans l’événement considéré peut être le seul moyen efficace de calculer
la probabilité d’un événement.
En effet, si l’espace d’échantillonnage contient N points d’échantillonnage équi-
probables et si l’événement A contient exactement NA points d’échantillonnage, on
voit facilement que
NA
P (A) = .
N
50
Chapitre 3

3.5.1 Règle m · n
Le premier résultat combinatoire est direct :

Théorème 3.3 Soient A = {a1 , a2 , . . . , am } et B = {b1 , b2 , . . . , bn } deux en-


sembles de taille m et n respectivement. Il est possible de former m · n paires
(ai , bj ) d’éléments contenant un élément ai de A et un élément bj de B.

Preuve : Il suffit de tracer une grille carrée de côtés m et n pour se convaincre de


ce résultat. 
L’ensemble des paires correspondantes s’appelle le produit cartésien de A et B,
et est noté A × B. Ce théorème s’étend sans problème à un nombre quelconque
d’ensembles à « croiser ». Par exemple, si on veut compter les triples (ai , bj , ck ) issus
d’ensembles A, B, C de tailles respectives m, n, p, il suffit d’appliquer le théorème au
deux ensembles A × B et C, formant ainsi des paires ((ai , bj ), ck ) équivalentes aux
triples (ai , bj , ck ). Le nombre d’éléments de A × B × C est donc égal à m · n · p.
Exemple. Considérons l’expérience qui consiste à lancer deux dés à six faces et dé-
nombrons l’espace d’échantillonnage S correspondant. Un point d’échantillonnage
pour cette expérience peut être représenté symboliquement comme une paire or-
donnée de nombres représentant les résultats sur les premier et deuxième lancers
respectivement. Ainsi, (4, 5) représente l’événement « le premier dé a donné un 4 et
le deuxième un 5 ».
L’espace d’échantillonnage S consiste en l’ensemble de toutes les paires possibles
(x, y), où x et y sont tous deux des nombres entiers entre 1 et 6. Le résultat du
premier dé est un élément de l’ensemble {a1 , a2 , a3 , a4 , a5 , a6 }, celui du second dé de
l’ensemble {b1 , b2 , b3 , b4 , b5 , b6 } ; on peut donc appliquer le théorème précédent avec
m = n = 6 et obtenir que le nombre d’éléments de S est égal à

m · n = 6 · 6 = 36.

Exemple. Calculons la probabilité que, dans un groupe de 20 personnes sélection-


nées au hasard, toutes aient des dates d’anniversaire différentes (en ne tenant pas
compte des années de naissance et en négligeant les années bissextiles).
Numérotons les jours de l’année de 1 à 365 ; un point d’échantillonnage pour
cette expérience consiste en un 20-uple de nombres entiers entre 1 et 365, la premier
nombre représentant la date d’anniversaire de la première personne, le deuxième
nombre celle de la deuxième personne, etc.).
En appliquant plusieurs fois le théorème précédent, on obtient que l’espace d’échan-
tillonnage S contient N = 36520 points.
Si on note A l’événement « tous ont des dates d’anniversaires différentes », nous
devons maintenant calculer NA , le nombre d’éléments de A ; un point d’échantillon-
nage dans A est un 20-uple de nombres entiers entre 1 et 365 tous différents.

51
Statistiques appliquées (2B-comdev, M. de Valeriola)

Le premier nombre de ce 20-uple peut donc être choisi librement, soit dans un
ensemble de taille 365 ; le second élément est lui aussi librement choisi, mais sous la
contrainte qu’il est différent du premier, et donc dans un ensemble de taille 364.
En répétant ce raisonnement, on obtient NA = 365 · 364 · ... · 346.
On obtient donc finalement la probabilité suivante :

NA 365 · 364 · ... · 346


P (A) = = = 0, 5886.
N 36520

3.5.2 Permutation
Les points d’échantillonnage associés à une expérience peuvent souvent être repré-
sentés symboliquement comme une suite de nombres ou de symboles. Dans certains
cas, il est clair que le nombre total de points d’échantillonnage est égal au nombre
de manières distinctes selon lesquelles ces symboles peuvent être disposés l’un à la
suite de l’autre.

Définition 3.9 Une permutation est une disposition ordonnée de n éléments


distincts.

Classer n objets distincts dans n catégories distinctes revient à faire une permu-
tation.

Théorème 3.4 Le nombre de permutations d’un ensemble de n objets est égal


à la factorielle de n :

Pn = n! = n · (n − 1) · (n − 2) · ... · 2 · 1.

Preuve : En appliquant la règle m · n, nous voyons que le premier objet peut être
librement choisi parmi les n objets totaux. Après le premier choix, le second peut
être choisi parmi les (n − 1) restant, le troisième parmi les (n − 2), et le nème doit
être placé dans la dernière place. Par conséquent, le nombre total de permutations
distinctes est égal à n!. 

Exemple. Calculons le nombre d’anagrammes du mot math. Puisque toutes les


lettres sont différentes, il s’agit d’une permutation sans répétition, et on a donc :

P4 = 4! = 4 · 3 · 2 · 1 = 24.

Vérifions ce résultat en énumérant ces anagrammes :

52
Chapitre 3

math maht mtah mtha mhat mhta

amth amht atmh athm ahtm ahmt

tamh tahm tham thma tmah tmha

hmat hmta hatm hamt htma htam


3.5.3 Arrangement

Définition 3.10 Un arrangement est une disposition ordonnée de r objets dis-


tincts parmi n (avec n ≥ r).

Sélectionner r objets distincts parmi n puis les classer en r catégories revient à


faire un arrangement.

Théorème 3.5 Le nombre d’arrangements de r objets parmi un ensemble total


de n objets est égal à
n!
Arn = n · (n − 1) · (n − 2) · ... · (n − r + 1) =
(n − r)!

Preuve : Nous voulons compter le nombre de façons de remplir r positions avec n


objets distincts. En appliquant la règle m · n, nous voyons que le premier objet peut
être librement choisi parmi les n objets totaux. Après le premier choix, le second
peut être choisi parmi les (n − 1) restant, le troisième parmi les (n − 2), et le rème
parmi les (n − r + 1). Par conséquent, le nombre total d’arrangements distincts est
égal à
Arn = n · (n − 1) · (n − 2) · ... · (n − r + 1).


Exemple. Les noms de 3 employés sont tirés au hasard d’un bol contenant les noms
des 30 employés d’une petite entreprise (on ne remet pas les noms déjà tirés dans le
bol).
La personne dont le nom est tiré en premier reçoit 100 €, et les personnes dont
les noms sont tirés en deuxième et en troisième reçoivent respectivement 50 € et
25 €. Combien de points d’échantillonnage sont associés à cette expérience ?
Puisque que les prix attribués sont différents, le nombre de points d’échantillon-
nage est le nombre d’arrangements ordonnés de r = 3 noms parmi le total de n = 30
noms possibles.

53
Statistiques appliquées (2B-comdev, M. de Valeriola)

Ainsi, le nombre de points d’échantillonnage dans S est


30!
A30
3 = = 30 · 29 · 28 = 24.360.
27!

3.5.4 Partition

Définition 3.11 Une partition de n objets distincts en k groupes est une façon
de diviser ces n objets en k groupes contenant chacun respectivement n1 , n2 , ..., nk
∑k
objets (avec ni = n).
i=1

Classer n objets distincts dans k catégories distinctes de telle sorte que chacune
reçoit nk de ces objets revient à faire une partition.

Théorème 3.6 Le nombre de partitions de n objets en k groupes est égal à


n! n!
N= = k .
n1 ! · n2 ! · ... · nk ! ∏
(ni !)
i=1

Preuve : N est le nombre de permutations de n objets distincts sous une contrainte


particulière : à l’intérieur de chacun des k groupes dans lesquels sont disposés les
objets, les permutations ne comptent pas. Si l’on effectue cette division en k groupes
puis qu’on permute les éléments de chacun de ces groupes, on obtient une permuta-
tion simple de l’ensemble de n objets. On a donc
P n = N · (n1 ! · n2 ! · ... · nk !)
et en isolant N , on obtient le résultat. 

Exemple. Un patron assigne 20 ouvriers à 4 chantiers différents, qui nécessitent


respectivement 6, 4, 5 et 5 travailleurs. Les quatre plus jeunes ouvriers rouspètent :
le patron déclare que la répartition a été décidée de manière aléatoire, mais ils
ont tous les quatre été assignés au premier chantier, le plus pénible. Calculons la
probabilité de cette répartition afin de voir si leur plainte est fondée ou pas.
Calculons d’abord la taille de l’espace d’échantillonnage. Il s’agit d’une partition
de n = 20 ouvriers dans 4 groupes de taille n1 = 6, n2 = 4, n3 = 5 et n4 = 5. Par le
théorème précédent on a donc
20!
N=
6!4!5!5!
Calculons maintenant la taille NA de l’événement A « les 4 plus jeunes sont affectés
au chantier 1 ». Nous devons donc compter le nombre de partitions des 20 ouvriers
dans lesquelles les 4 jeunes sont affectés au chantier 1.

54
Chapitre 3

Une fois les quatre jeunes placés dans le chantier 1, il reste 16 ouvriers à répartir
dans des groupes de taille 2, 4, 5 et 5. On obtient donc
16!
NA =
2!4!5!5!
On obtient donc finalement la probabilité :
16!
NA 2!4!5!5! 16!6!
P (A) = = 20!
= = 0, 0031.
N 6!4!5!5!
20!2!
Il est donc très peu probable que la répartition ait réellement été faite de manière
aléatoire. ♢

3.5.5 Combinaison

Définition 3.12 Une combinaison est la sélection de r objets dans un groupe


de n objets.

Sélectionner r objets distincts dans un groupe de n revient à faire une combi-


naison. C’est équivalent à classer les n objets du groupe total en deux catégories :
{sectionnés} et {non sélectionnés}.

Théorème 3.7 Le nombre de combinaisons est égal à


( )
n An n!
= Crn = r = .
r r! r!(n − r)!

Preuve : Sélectionner r objets dans un total de n équivaut à partitionner les n


objets en k = 2 groupes : d’une part les r objets sélectionnés ; d’autre part les n − r
objets restant. C’est un cas particulier du problème général de partitionnement ci-
dessus. On a ici k = 2, n1 = r et n2 = n − r. 

Exemple. Calculons la probabilité de gagner le gros lot au Lotto (six numéros de


1 à 45).
L’événement A : « gros lot » n’est composé que d’un seul point d’échantillonnage
(la sélection effectuée par le joueur) : NA = 1.
Pour calculer le nombre d’éléments de l’espace d’échantillonnage N , il faut utiliser
une combinaison, puisqu’il s’agit de choisir 6 numéros parmi 45 :
( )
45 45!
= = 8.145.060.
6 6!39!
On obtient donc une probabilité égale à
NA 1
P (A) = = = 0, 0000122%.
N 8.145.060
55
Statistiques appliquées (2B-comdev, M. de Valeriola)

3.6 Probabilité conditionnelle et indépendance


La réalisation d’un événement – et donc la probabilité qui lui est associée – dépend
parfois de la réalisation d’autres événements.
Par exemple, les pêcheurs amateurs s’intéressent à la probabilité qu’il pleuve au
cours de leurs séances de pêche. La probabilité qu’il pleuve pendant un jour donné,
si on ignore les conditions atmosphériques et tous les autres facteurs, correspond à
la proportion de jours où il pleut quand on considère une longue période de temps.
C’est la probabilité inconditionnelle de l’événement « pluie pendant un jour donné ».
Supposons maintenant que nous souhaitons calculer la probabilité de pluie pour
demain, mais que nous sommes au courant qu’il a plu presque en continu pendant
deux jours de suite, et qu’une tempête tropicale se dirige vers nous. Nous disposons
donc d’informations supplémentaires concernant s’il pleuvra ou pas demain et nous
sommes intéressés par la probabilité conditionnelle qu’il pleuvra compte tenu de
ces informations. La probabilité conditionnelle qu’il pleuve (étant donné les condi-
tions mentionnées) est beaucoup plus grande que la probabilité inconditionnelle qu’il
pleuve.

Définition 3.13 La probabilité conditionnelle qu’un événement A se produise


sachant qu’un événement B s’est déjà produit est égale à

P (A ∩ B)
P (A | B) = ,
P (B)

pourvu que P (B) > 0.

Exemple. Calculons par exemple la probabilité que le résultat du lancer d’un dé soit
1, sachant que ce résultat est impair ; intuitivement, puisqu’il existe trois nombres
impairs entre 1 et 6, on « ressent » que cette probabilité est égale à 1/3. En utilisant
la formule de la définition, on a

1
P (1 et impair) P (1) 1
P (1 | impair) = = = 6
3 = .
P (impair) P (1, 3, ou 5) 6
3


Vérifions la cohérence de cette définition avec la notion de fréquence relative.
Supposons qu’une expérience est répétée un grand nombre N des fois, de telle sorte
que les événements A et B se produisent selon le tableau suivant :

56
Chapitre 3

B B total
A n11 n10 n11 + n10
A n01 n00 n01 + n00
total n11 + n01 n10 + n00 N

On calcule alors approximativement les probabilités suivantes :


n11 + n10 n11 + n01 n11
P (A) ≈ ; P (B) ≈ ; P (A ∩ B) ≈
N N N

n11 n11
P (A | B) ≈ ; P (B | A) ≈
n11 + n01 n11 + n10
d’où on obtient
P (A ∩ B) P (A ∩ B)
P (A | B) ≈ ; P (B | A) ≈ .
P (B) P (A)
Il possible que la réalisation d’un événement A ne soit pas affectée par la réalisa-
tion ou la non-réalisation d’un événement B. Dans ce cas, il semble naturel de dire
que A et B sont indépendants.

Définition 3.14 Deux événements A et B sont indépendants (ce qu’on note


A B) si l’une des équations suivantes est vérifiée :
|=

P (A | B) = P (A)
P (B | A) = P (B)
P (A ∩ B) = P (A)P (B).

Dans le cas contraire, on dit que A et B sont dépendants.

La notion probabiliste d’indépendance est en accord avec notre usage quotidien


du mot si nous considérons soigneusement les événements en question. On peut
s’accorder pour dire que « fumer » et « contracter un cancer du poumon » ne
sont pas des événements indépendants et estimer intuitivement que la probabilité
de contracter un cancer du poumon, pour une personne qui fume, est supérieure à
la probabilité (inconditionnelle) de contracter un cancer du poumon. En revanche,
les événements « il pleut aujourd’hui » et « il a plu l’an passé à la même date » sont
peut-être bien indépendants.
Exemple. Considérons les trois événements suivants associés au lancer d’un dé :
A : résultat impair ; B : résultat pair ; C : résultat < 3
Pour déterminer si A B, vérifions si les probabilités correspondantes vérifient les
|=

conditions de la définition précédente ; on calcule :


1
P (A) = et P (A | B) = 0 puisque A ∩ B = ∅.
2
57
Statistiques appliquées (2B-comdev, M. de Valeriola)

Donc P (A) ̸= P (A | B) : A et B sont dépendants. Faisons le même exercice pour A


et C : on calcule
P (A ∩ C) P (1) 1
P (A | C) = = = .
P (C) P (1 ou 2) 2
Donc P (A) = P (A | C) : A et C sont indépendants. ♢

3.7 Probabilité totale et formule de Bayes

Définition 3.15 Soient k un entier positif et B1 , B2 , ..., Bk des ensembles tels


que

1. S = B1 ∪ B2 ... ∪ Bk ;

2. Bi ∩ Bj = ∅ pour i ̸= j.

Alors on appelle la collection d’ensembles {B1 , B2 , ..., Bk } une partition de S.

L’un des intérêts de l’existence d’une partition de S réside dans le fait que les
sous-ensembles de S peuvent être décomposés selon cette partition :
A = (A ∩ B1 ) ∪ (A ∩ B2 ) ∪ ... ∪ (A ∩ Bk ).

Exemple. À titre d’exemples de partitions, citons


{nombres entiers} = {nombres impairs} ∪ {nombres pairs},
{jours de l’année} = {lundis} ∪ {mardis} ∪ · · · ∪ {dimanches}.

Théorème 3.8 Soit {B1 , B2 , ..., Bk } une partition de S telle que P (Bi ) > 0
pour i = 1, ..., k. Alors, pour tout événement A, on a


k
P (A) = P (A | Bi )P (Bi ).
i=1

Preuve : Puisqu’il s’agit d’une partition de S, on peut décomposer A selon les Bi :


A = A ∩ S = A ∩ (B1 ∪ B2 ... ∪ Bk ) = (A ∩ B1 ) ∪ (A ∩ B2 ) ∪ ... ∪ (A ∩ Bk ).
Les éléments de cette décomposition sont deux à deux mutuellement exclusifs :
(A ∩ Bi ) ∩ (A ∩ Bj ) = ∅ pour i ̸= j. On peut donc écrire
P (A) = P (A ∩ B1 ) + P (A ∩ B2 ) + ... + P (A ∩ Bk )
= P (A | B1 )P (B1 ) + P (A | B2 )P (B2 ) + ... + P (A | Bk )P (Bk ).

58
Chapitre 3

Exemple. Un cours est donné à des étudiants inscrits dans deux filières différentes :
la A (40% des étudiants) et la B (60%). La probabilité de réussite à l’examen dépend
de la filière des étudiants : 80% de ceux qui sont inscrits en A et 75% de ceux qui
sont inscrits en B réussissent.
Calculons la probabilité qu’un étudiant choisi au hasard réussisse l’examen. Pour
cela, utilisons la formule de probabilité totale en utilisant la partition de la classe
en filières :

P (réussite) = P (réussite | filière A)P (filière A) + P (réussite | filière B)P (filière B)


= 0, 8 · 0, 4 + 0, 75 · 0, 6 = 0, 77


Il est parfois nécessaire de « renverser » une probabilité conditionnelle, c’est-à-
dire de calculer P (A | B) alors que c’est P (B | A) qui est disponible. C’est en un
sens l’objet de la formule de Bayes.

Théorème 3.9 Soit {B1 , B2 , ..., Bk } une partition de S telle que P (Bi ) > 0
pour i = 1, ..., k. Alors, pour tout événement A, on a

P (A | Bj )P (Bj )
P (Bj | A) = .

k
P (A | Bi )P (Bi )
i=1

Preuve : Cette formule découle directement de la formule de probabilité totale et


de la définition de probabilité conditionnelle :

P (Bj ∩ A) P (A | Bj )P (Bj )
P (Bj | A) = = k .
P (A) ∑
P (A | Bi )P (Bi )
i=1

Exemple. Considérons un test de dopage pour athlètes dont la sensibilité et la


spécificité sont toutes les deux égales à 99%, c’est-à-dire que la probabilité qu’il soit
positif lorsqu’il est effectué par un athlète dopé est égale à 0, 99 et que la probabilité
qu’il soit négatif lorsqu’il est effectué par un athlète non dopé est égale à 0, 99.
Supposons que 0, 5% des athlètes sont dopés et calculons la probabilité qu’un
athlète pour lequel le test s’est révélé positif soit effectivement dopé à l’aide de la

59
Statistiques appliquées (2B-comdev, M. de Valeriola)

formule de Bayes :

P (positif | dopé)P (dopé)


P (dopé | positif) =
P (positif | dopé)P (dopé) + P (positif | non dopé)P (non dopé)

0, 99 · 0, 005
=
0, 99 · 0, 005 + 0, 01 · 0, 995

= 0, 3322

60
Chapitre

Variables aléatoires
discrètes

4.1 Distribution d’une variable discrète


Dans le chapitre précédent, nous avons défini les variables aléatoires comme des
fonctions d’un espace d’échantillonnage dans R. On distingue deux cas parmi elles.
Les variables discrètes ne peuvent prendre qu’un nombre fini ou infini dénombrable
de valeurs (c’est-à-dire dont on peut dresser une liste). Les variables continues
prennent un nombre infini indénombrable de valeurs (c’est-à-dire dont on ne peut
pas dresser de liste).
Par exemple, le résultat du lancer de 4 dés, le nombre de pièces produites par une
usine et la population d’un pays sont des variables discrètes. La température du sol,
la temps d’attente à un guichet et le prix d’une action sont des variables continues.
On note généralement les variables aléatoires par des majuscules, et les valeurs
qu’elles prennent par des minuscules ; Y = y signifie donc que la variable Y prend
la valeur y.

Définition 4.1 La probabilité qu’Y prenne la valeur y, P (Y = y), est défi-


nie comme la somme des probabilités de tous les points d’échantillonnage de S
pour lesquels Y prend la valeur y. On la note p(y) et on l’appelle fonction de
probabilité.

Théorème 4.1 Soit Y une variable aléatoire discrète. Alors sa fonction de pro-
babilité satisfait

1. 0 ≤ p(y) ≤ 1 pour tout y ;



2. p(y) = 1, où la sommation est prise sur toutes les valeurs que peut
y
prendre Y .

61
Statistiques appliquées (2B-comdev, M. de Valeriola)

Définition 4.2 La distribution de probabilité (aussi appelée loi de probabilité)


de Y est la donnée, sous forme de formule, de tableau ou de graphe, de P (Y =
y) = p(y) pour toutes les valeurs y que peut prendre Y .

Connaître la distribution d’une variable aléatoire revient à savoir comment elle


se comporte « en toutes circonstances ».
Exemple. Le patron d’une usine choisit au hasard deux ouvriers parmi trois hommes
et trois femmes. Soit Y le nombre de femmes sélectionnées. Calculons la distribution
de Y .
Il n’est pas possible qu’Y prenne une valeur différente de 0, 1 ou 2 ; on a donc
p(y) = 0 pour (y )̸= 0, 1, 2. Le nombre total de façon de choisir deux ouvriers parmi
six est égal à 62 = 15. Ne sélectionner aucune femme revient à sélectionner deux
hommes parmi les trois :
(3 )
3 1
p(0) = P (Y = 0) = 2 = = .
15 15 5
Sélectionner une seule femme revient à choisir une femme parmi trois et un homme
parmi trois : (3 )(3 )
3·3 3
p(1) = P (Y = 1) = 1 1 = = .
15 15 5
Sélectionner deux femmes revient à choisir deux femmes parmi les trois :
(3 )
3 1
p(2) = P (Y = 2) = 2 = = .
15 15 5
y p(y)
0 0, 2
1 0, 6
2 0, 2
(3 ) ( 3 )
·
p(y) =
y
(6 )2−y
2
fonction de probabilité p(y)

0.6


0.4
0.2

● ●
0.0

● ● ● ● ● ●

−3 −2 −1 0 1 2 3 4 5

62
Chapitre 4

4.2 L’espérance et la variance


Nous avons observé que la distribution de probabilité d’une variable aléatoire
est un modèle théorique pour la distribution empirique des données associées à une
population réelle ; si le modèle est une représentation précise du monde réel, les
distributions théoriques et empiriques sont équivalentes.
Nous cherchons dès lors à définir des mesures quantitatives associées aux distri-
butions de probabilité qui soient cohérentes avec les outils descriptifs présentés pour
les populations.

Définition 4.3 Soient Y une variable aléatoire régulière et p sa fonction de


probabilité. Alors l’espérance de Y est

E [Y ] = y p(y).
y

Par l’expression volontairement floue « variable aléatoire régulière », nous dési-


gnons une variable aléatoire satisfaisant certaines conditions, que nous ne détaillons
pas ici mais dont l’existence est cruciale. Il en sera de même lorsque nous utiliserons
l’expression « fonction régulière ».
On désignera sous le nom de variable centrée une variable aléatoire d’espérance
nulle.
Si p est une description précise de la distribution empirique de la population,
alors E [Y ] est égale à µ, la moyenne de population.
Pour nous convaincre que l’espérance est cohérente avec la définition de moyenne
de population, considérons la variable aléatoire de l’exemple précédent.
Exemple. Considérons que nous répétons l’expérience liée à cette variable aléatoire
quatre millions de fois ; supposons que nous avons obtenu un million de cas où Y = 0,
deux millions de cas où Y = 1 et un million de cas où Y = 2, valeurs auxquelles on
peut s’attendre approximativement au vu de la fonction de probabilité de Y .
On peut donc calculer, sur cet échantillon, la moyenne d’échantillon, qui devrait
être proche de la moyenne de population puisque nous avons considéré un échantillon
de taille très importante :

1∑
n
1.000.000 · 0 + 2.000.000 · 1 + 1.000.000 · 2
µ≈m= yi =
n i=1 4.000.000

1 1 1 ∑ 3
= ·0+ ·1+ ·2= y p(y).
4 2 4 y=0


Bien souvent, nous ne voulons pas calculer l’espérance de Y , mais d’une fonction
de Y . Par exemple, un biologiste mesure la distance par rapport au nid à laquelle
il retrouve un aigle en train de chasser, mais ce qui l’intéresse vraiment, c’est l’aire

63
Statistiques appliquées (2B-comdev, M. de Valeriola)

totale du disque dans lequel cet aigle chasse : il observe une distance Y , mais veut
étudier πY 2 .
Bien évidemment, la fonction d’une variable aléatoire est aussi une variable aléa-
toire ; on peut donc lui appliquer tout ce qui a été défini pour les variables aléatoires.
On a notamment le résultat suivant.

Théorème 4.2 Soient Y une variable aléatoire régulière, p sa fonction de pro-


babilité et g une fonction réelle régulière. Alors on a

E [g(Y )] = g(y) p(y).
y

Nous pouvons dès lors utiliser ce théorème pour définir la variance d’une variable
aléatoire.

Définition 4.4 Soient Y une variable aléatoire régulière, µ son espérance et p


sa fonction de probabilité. Alors la variance de Y est
[ ] ∑
V [Y ] = E (Y − µ)2 = (y − µ)2 p(y).
y

L’écart-type de Y est la racine carrée de sa variance.

Si p est une description précise de la distribution


√ de la population, alors V [Y ] est
égale à σ , la variance de la population, et V [Y ] est égal à σ, l’écart-type de la
2

population.
On désignera sous le nom de variable réduite une variable aléatoire dont la variance
est égale à 1.
Exemple. Calculons l’espérance, la variance et l’écart-type de la population dont
la distribution est donnée par le tableau suivant :

y 0 1 2 3
1 1 3 1
p(y) 8 4 8 4


3
1 1 3 1
E [Y ] = µ = y p(y) = 0 · + 1 · + 2 · + 3 · = 1, 75
y=0
8 4 8 4
∑ 1 1
V [Y ] = σ 2 = (y − µ)2 p(y) = (0 − 1, 75)2 · + (1 − 1, 75)2 ·
y
8 4
3 1
+ (2 − 1, 75)2 · + (3 − 1, 75)2 · = 0, 9375
√ √ 8 4
V [Y ] = σ = 0, 9375 = 0, 97

64
Chapitre 4

Théorème 4.3 Soient Y une variable aléatoire régulière et c ∈ R. Alors on a

1. E [c] = c

2. E [cY ] = cE [Y ]

3. E [Y + c] = E [Y ] + c

Preuve :
∑ ∑ ∑
1. c = c p(y) = c p(y) = c puisque p(y) = 1
y y y

∑ ∑
2. E [cY ] = cy P (cY = cy) = c y P (Y = y) = cE [Y ]
y y

∑ ∑
3. E [Y + c] = (y + c) P (Y + c = y + c) = y P (Y = y) + c = E [Y ] + c
y y

Théorème 4.4 Soient Y une variable aléatoire régulière et c ∈ R. Alors on a

1. V [cY ] = c2 V [Y ]

2. V [Y + c] = V [Y ]

3. V [Y ] = E [Y 2 ] − E [Y ]2

Preuve :
[ ] [ ] [ ]
1. V [cY ] = E (cY − E [cY ])2 = E (cY − cE [Y ])2 = E c2 (Y − E [Y ])2 =
c2 V [Y ]

[ ] [ ]
2. V [Y + c] = E (Y + c − E [Y + c])2 = E (Y + c − E [Y ] − c)2 = V [Y ]

∑ ∑ ∑ ∑
3. V [Y ] = (y − µ)2 p(y) = y 2 p(y) + µ2 p(y) − 2µ y p(y)
y y y y
= E [Y ] + µ − 2µµ = E [Y ] − µ
2 2 2 2

65
Statistiques appliquées (2B-comdev, M. de Valeriola)


L’espérance est ce qu’on peut attendre « en moyenne » d’une variable aléatoire :
lorsqu’on répète une expérience un très grand nombre de fois et qu’on calcule la
moyenne des résultats obtenus, cette moyenne est proche de l’espérance.
Exemple. Calculons par exemple l’espérance du résultat d’un lancer de dé à six
faces :
1 1 1 1 1 1 21
E [dé] = 1 · +2· +3· +4· +5· +6· = = 3, 5.
6 6 6 6 6 6 6
L’espérance des gains d’un jeu étant ce qu’on peut espérer de ce jeu, elle correspond
au « juste prix » de ce jeu.
Un joueur vous propose le jeu suivant : vous lui donnez 4 €, et en échange il vous
donne un montant correspondant, en €, au résultat d’un lancer de dé à six faces. Ce
jeu est-il équilibré ?
L’espérance de vos gains en € dans ce jeu est égale à

E [−4 + dé] = −4 + E [dé] = −0, 5 < 0.

Il vaut donc mieux ne pas jouer à ce jeu ! ♢


Cette interprétation de l’espérance fait que celle-ci se retrouve dans de très nom-
breux aspects de la vie économique, financière, industrielle, etc.
Exemple. Par exemple, la « prime pure » (c’est-à-dire sans compter les divers
types de frais) d’un contrat d’assurance (ce qu’il faut payer à l’assureur pour qu’il
accepte d’assurer un bien) est égale à l’espérance du remboursement que l’assureur
devrait effectuer en cas de sinistre (en négligeant les taux d’intérêt). Si on suppose
qu’une maison de 300.000 € a 0, 05% de chances de brûler (et ainsi de disparaître
complètement) sur une année, l’espérance de l’indemnité est égale à

E [Y ] = 0€ · P (la maison ne brûle pas) + 300.000€ · P (la maison brûle)


= 0€ · 0, 9995 + 300.000€ · 0, 0005
= 150€.

La prime pure de ce contrat d’assurance incendie est donc égale à 150 €. Notons
qu’à la prime pure l’assureur doit ajouter ses frais de fonctionnement (pour payer
les salaires, les guichets, etc.), ainsi qu’un montant lui permettant de « ne pas faire
faillite trop souvent ». ♢
Puisqu’une somme de variables aléatoires est elle-même une variable aléatoire, on
peut en calculer l’espérance.

Théorème 4.5 Soient X et Y deux variables aléatoire régulières. Alors on a

E [X + Y ] = E [X] + E [Y ] .

66
Chapitre 4

Preuve : On peut écrire


∑∑
E [X + Y ] = (x + y)P (X = x et Y = y)
x y
∑∑ ∑∑
= xP (X = x et Y = y) + yP (X = x et Y = y).
x y x y

Par la définition de la probabilité conditionnelle et le théorème de la probabilité


totale on obtient pour le premier terme
( )
∑ ∑ ∑
x P (X = x | Y = y)P (Y = y) = xP (X = x) = E [X] .
x y x

Le deuxième terme se traite de la même façon. 


Puisqu’un produit de variables aléatoires est lui-même une variable aléatoire, on
peut en calculer l’espérance : attention, le résultat est cependant moins évident que
dans le cas de la somme !

Théorème 4.6 Soient X et Y deux variables aléatoire régulières indépendantes.


Alors on a
E [X · Y ] = E [X] · E [Y ] .

Preuve : On peut écrire


∑∑
E [X · Y ] = (x · y)P (X = x et Y = y)
x y
∑∑
= (x · y)P (X = x) · P (Y = y)
x y
∑ ∑
= xP (X = x) yP (Y = y)
x y

= E [X] · E [Y ] .

Théorème 4.7 Soient X et Y deux variables aléatoire régulières indépendantes.


Alors on a
V [X + Y ] = V [X] + V [Y ] .

Preuve : On peut écrire


[ ]
V [X + Y ] = E (X + Y )2 − (E [X] + E [Y ])2
[ ] ( )
= E X 2 + 2XY + Y 2 − E [X]2 + 2E [X] E [Y ] + E [Y ]2
( [ ] [ ]) ( )
= E X 2 + 2E [XY ] + E Y 2 − E [X]2 + 2E [X] E [Y ] + E [Y ]2 .

67
Statistiques appliquées (2B-comdev, M. de Valeriola)

Puisque X et Y sont indépendantes, on peut utiliser le théorème précédent pour


obtenir
( [ ] [ ]) ( )
V [X + Y ] = E X 2 + 2E [X] E [Y ] + E Y 2 − E [X]2 + 2E [X] E [Y ] + E [Y ]2
( [ ] ) ( [ ] )
= E X 2 − E [X]2 + E Y 2 − E [Y ]2
= V [X] + V [Y ] .

À nouveau, il faut bien noter ici qu’on fait une hypothèse d’indépendance !

4.3 La distribution uniforme

Définition 4.5 Une variable aléatoire Y qui peut prendre n valeurs y1 , y2 , ..., yn
possède une distribution uniforme si toutes ces valeurs sont équiprobables :
1
P (Y = yi ) = pour tout i = 1, 2, ..., n.
n

Exemple. Le résulta du lancer d’un dé (équilibré) à six faces est un parfait exemple
de variable aléatoire de distribution uniforme.
On a alors n = 6 et
1
P (Y = 1) = P (Y = 2) = P (Y = 3) = P (Y = 4) = P (Y = 5) = P (Y = 6) = .
6
Remarquons que ce n’est pas le cas de la somme des résultats du lancer de deux dés
à six faces, puisque certaines valeurs ont plus de chances de s’observer que d’autres
(par exemple dans ce cas P (Y = 7) = 1/6 alors que P (Y = 2) = 1/36). ♢

4.4 La distribution binomiale


Cette distribution décrit le résultat de la répétition d’un même événement aléa-
toire.

Définition 4.6 Une expérience binomiale est une expérience qui possède les
caractéristiques suivantes :

1. l’expérience consiste en un nombre fixe n d’essais identiques ;

2. chaque essai aboutit soit à un succès soit à un échec ;

3. la probabilité de succès pour un seul essai est égale à une certaine valeur p
et reste le même d’un essai à l’autre. La probabilité d’un échec est égale à
q =1−p ;

68
Chapitre 4

4. les essais sont indépendants ;

5. la variable aléatoire d’intérêt est Y , le nombre de succès observés au cours


des n essais.

Déterminer si une expérience particulière est une expérience binomiale nécessite


d’examiner chacune des caractéristiques listées de l’expérience. Il est important de
se rendre compte que le terme « succès » ne désigne pas nécessairement quelque
chose de « réussi », ou de « bon » : il s’agit seulement de désigner l’un des deux
résultats possibles de chacun des essais.
Exemple. Un système de détection d’objets volants se compose de quatre unités
radar identiques fonctionnant indépendamment l’une de l’autre. Supposons que cha-
cun ait une probabilité de 0, 95 de détecter un avion intrus.
Lorsqu’un avion entre dans la zone surveillée, la variable aléatoire d’intérêt est
Y , le nombre d’unités radar qui ne détectent pas l’avion. C’est bien une expérience
binomiale, avec n = 4, p = 0, 95 et q = 0, 05.
Si les radars communiquaient entre eux, pour profiter de l’information des autres
unités par exemple, ce ne serait pas le cas. On peut faire le même commentaire si
les radars avaient des taux d’efficacité différents. ♢
Pour construire la fonction de probabilité d’une telle expérience, calculons la
probabilité que le nombre de succès Y = y. Considérons un ensemble de n essais
ayant résulté en y succès (S) et n − y échecs (E) :

S
| SESEEESE
{z S S E ... E E S E}
n essais, dont y succès et n−y échecs

Puisque ces essais sont indépendants et possèdent tous la même probabilité de succès
et d’échec, la probabilité d’assister au résultat donné ci-dessus est

S S E S S S E E … S E S

↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ … ↓ ↓ ↓

p p q p p p q q … p q p = py q n−y

Comme cette suite de succès et d’échecs n’est évidemment pas la seule à pouvoir
survenir, il faut(sommer
) sur toutes les possibilités, qui sont toutes équiprobables ; il
n
y en a en tout y . On obtient donc finalement
( )
n
P (Y = y) = py q n−y .
y

69
Statistiques appliquées (2B-comdev, M. de Valeriola)

Définition 4.7 Une variable aléatoire Y possède une distribution binomiale


basée sur n essais avec probabilité de succès p (ce qui se note Y ∼ B(n, p)) si
( )
n
P (Y = y) = py q n−y .
y

Comme pour les autres distributions que nous verrons, il est possible d’obtenir
une expression pour les moments des variables aléatoires possédant une distribution
binomiale.

Théorème 4.8 Si Y ∼ B(n, p), alors

E [Y ] = np et V [Y ] = np(1 − p) = npq.

n = 10 ; p = 0,1 n = 10 ; p = 0,5
0.4

0.4
0.3

0.3
0.2

0.2
0.1

0.1
0.0

0.0

0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10

n = 20 ; p = 0,5 n = 50 ; p = 0,8
0.4

0.4
0.3

0.3
0.2

0.2
0.1

0.1
0.0

0.0

0 2 4 6 8 10 12 14 16 18 20 23 27 31 35 39 43 47

Figure 4.1: Distribution binomiale

Les coefficients de combinaison interviennent dans la formule du binôme de New-


ton :
∑ n ( )
n n n−i i
(a + b) = a b.
i=0
i

70
Chapitre 4

On a par exemple :
( ) ( ) ( )
2 2 2 2 2 2
(a + b) = a + ab + b = a2 + 2ab + b2
0 1 2
( ) ( ) ( ) ( )
3 3 3 3 2 3 2 3 3
(a + b) = a + a b+ ab + b = a3 + 3a2 b + 3ab2 + b3
0 1 2 3
( ) ( ) ( ) ( ) ( )
4 4 4 4 3 4 2 2 4 3 4 4
(a + b) = a + a b+ ab + ab + b
0 1 2 3 4
= a4 + 4a3 b + 6a2 b2 + 4ab3 + b4

Les termes de cette sommes ressemblent fort aux valeurs de la fonction de probabilité
de la distribution binomiale. En fait on peut écrire
∑n ( )
n n−y i ∑
n
n
1 = (q + p) = q p = P (Y = y).
y=0
y y=0

La planche de Galton (figure 4.2) est une expérience-exemple illustrant cette idée.

Figure 4.2: Exemple-expérience : la planche de Galton (image de Svjo, Wikimedia)

Exemple (distribution) : approche probabiliste. L’expérience a montré que


30% des personnes atteintes d’une certaine maladie se rétablissent. Une entreprise
pharmaceutique étudie un nouveau médicament, et fait des essais sur un groupe de
dix personnes atteintes de la maladie, dont neuf se rétablissent.
En faisant l’hypothèse que la substance qui leur a été distribuée n’est pas du tout
efficace, calculons la probabilité qu’on observe neuf rétablissements.

71
Statistiques appliquées (2B-comdev, M. de Valeriola)

Soit Y le nombre de personnes qui guérissent, une variable aléatoire qui possède
une distribution binomiale (n = 10, p = 0, 3). On calcule donc

P (Y ≥ 9) = P (Y = 9) + P (Y = 10)
( ) ( )
10 10
= 0, 3 · 0, 7 +
9
0, 310
9 10
= 0, 000138 + 0, 000006 = 0, 000144

Le résultat suggère donc que soit le médicament est inefficace et qu’on a observé un
événement très rare, soit le médicament est vraiment efficace. ♢

Exemple (distribution) : approche statistique. On demande à 20 employés


leur avis sur le recul de l’âge de le pension. Parmi eux, 6 se déclarent favorables, 14
défavorables. À quelle probabilité p correspond ce résultat, si on considère qu’on a
là une expérience binomiale ?
Si nous connaissions la valeur de p, nous saurions que la probabilité d’observer
6 succès parmi 20 essais (c’est-à-dire la probabilité d’observer ce que nous avons
observé) est égale à ( )
20 6
P (Y = 6) = p (1 − p)14 .
6
L’exercice est ici inverse : nous avons observé 6 succès et nous voulons déterminer
la valeur de p qui rend cette observation la plus vraisemblable.
Puisqu’on connaît la probabilité d’observer 6 succès, il faut maximiser cette fonc-
tion de p. Pour cela, cherchons à annuler sa dérivée :
(( ) ) ( ) ( )
d 20 6 20 20
p (1 − p) 14
= 0 ⇐⇒ 6 p (1 − p) −
5 14
14 p6 (1 − p)13 = 0
dp 6 6 6
⇐⇒ 6 (1 − p) − 14 p = 0
6
⇐⇒ p =
20
Ce point correspond bien à un maximum, et nous avons donc calculé la valeur la
plus vraisemblable pour p. Dans ce cas, cette valeur correspond à la proportion
intuitive calculée en divisant simplement les données de l’énoncé (6/20) ; ce ne sera
pas toujours le cas. ♢

Exemple (moments). On propose de jouer au jeu suivant : on lance quinze dés à


six faces, et vous recevez 3 € pour chacun des dés qui a un résultat supérieur ou égal
à 5. En échange de quelle somme est-il raisonnable d’accepter de jouer à ce jeu ?
Calculons pour répondre à cette question l’espérance des gains de ce jeu.
Le nombre Y de dés parmi les quinze dont le résultat est ≥ 5 est une variable
aléatoire binomiale avec paramètres n = 15 et p = P (dé ≥ 5) = 2/6. Son espérance
vaut donc :
2
E [Y ] = n · p = 15 · = 5.
6
72
Chapitre 4

L’espérance des gains de ce jeu vaut donc, si on paie pour y jour un prix noté J,

E [gains] = E [−J + 3 · Y ] = −J + 3E [Y ] = −J + 3 · 5 = −J + 15.

Il est donc raisonnable de jouer à ce jeu si le prix est inférieur ou égal à 15 €. ♢


Calculer P (Y = y) n’est pas difficile, mais il peut être fastidieux de calculer
P (Y ≤ y) si y est grand, parce que dans ce cas il faut sommer un grand nombre de
termes :
∑y
P (Y ≤ y) = P (Y = i).
i=0

Pour cette raison, on utilise des tables qui donnent les valeurs de P (Y ≤ y) en
fonction de y, de n et de p (figure 4.3).

Figure 4.3: Extrait d’une table binomiale

4.5 La distribution géométrique


La distribution géométrique est associée à une expérience similaire à l’expérience
binomiale : des essais indépendants sont effectués, qui n’ont que deux résultats
possibles (succès ou échec), associés à la même probabilité de survenance p.
Cependant, la variable aléatoire d’intérêt change : plutôt que de s’intéresser au
nombre de succès parmi n essais, la variable aléatoire géométrique Y est le « nu-
méro » de l’essai auquel le premier succès se produit. Ainsi, l’expérience consiste en
une série d’essais qui se conclut avec le premier succès. Par conséquent, l’expérience
pourrait se terminer par le premier essai si un succès est observé lors du premier
essai, ou l’expérience pourrait durer indéfiniment.
On aura ainsi
Y =1 si S (succès au premier essai)
Y =2 si ES (succès au deuxième essai)
Y =3 si EE S (succès au troisième essai)
Y =4 si EE ES (succès au quatrième essai)
... ... ... ...
Y =k si E
| E E{z... E E} S (succès au kème essai)
k−1 échecs

73
Statistiques appliquées (2B-comdev, M. de Valeriola)

Une seule configuration se présente donc :


P (Y = y) = P (y − 1 échecs puis 1 succès) = q q q ... q q p = q y−1 p
| {z }
y−1 échecs

Définition 4.8 Une variable aléatoire Y possède une distribution géométrique


basée sur des essais avec probabilité de succès p (ce qui se note Y ∼ G(p)) si

P (Y = y) = q y−1 p.

La distribution géométrique est souvent utilisée pour modéliser les distributions


des durées d’attente.

Théorème 4.9 Si Y ∼ G(p), alors


1 1−p
E [Y ] = et V [Y ] = .
p p2

p = 0,5
0.6
0.5
0.4
0.3
0.2
0.1
0.0

0 1 2 3 4 5 6 7 8 9 11 13 15 17 19 21

Figure 4.4: Distribution géométrique

Exemple (distribution) : approche probabiliste. Supposons que la probabilité


de dysfonctionnement d’un moteur pendant une période d’une heure est égale à
p = 0, 02. Calculons la probabilité qu’il survive deux heures.

74
Chapitre 4

Soit Y le nombre d’heures pendant lesquelles le moteur fonctionne, c’est-à-dire le


nombre d’heures avant qu’un dysfonctionnement se produise (ici un dysfonctionne-
ment est un « succès »). On a donc

P (survie 2 heures) = P (Y ≥ 3)
= 1 − P (Y ≤ 2)
= 1 − P (Y = 1) − P (Y = 2)
= 1 − p − pq
= 1 − 0, 02 − 0, 02 · 0, 98
= 0, 964

Exemple (distribution) : approche statistique. Supposons qu’on interviewe


la même population d’employés que précédemment à propos de leur opinion sur le
recul de l’âge de départ à la retraite, et qu’on s’arrête dès qu’une réponse favorable
est donnée (c’est-à-dire dès qu’on sélectionne au hasard au sein de cette population
un individu favorable à ce changement). Considérons que la cinquième personne
interrogée est la première à se déclarer favorable. À quelle probabilité p correspond
ce résultat, si on considère qu’on a là une expérience géométrique ?
Si nous connaissions la valeur de p, nous saurions que la probabilité que le cin-
quième essai soit le premier succès est égale à

P (Y = 5) = (1 − p)4 p.

L’exercice est ici inverse : nous avons observé que c’est le cinquième essai qui donne
le premier succès et nous voulons déterminer la valeur de p qui rend cette observation
la plus vraisemblable.
Puisqu’on connaît la probabilité que le cinquième essai donne le premier succès,
il faut maximiser cette fonction de p. Pour cela, cherchons à annuler sa dérivée :
d ( )
(1 − p)4 p = 0 ⇐⇒ −4 (1 − p)3 p + (1 − p)4 = 0
dp
⇐⇒ −4 p + (1 − p) = 0
1
⇐⇒ p=
5
Ce point correspond bien à un maximum, et nous avons donc calculé la valeur la
plus vraisemblable pour p. Dans ce cas, obtenir cette valeur est bien plus utile que
dans l’exercice illustrant le distribution binomiale, parce que p = 1/5 ne s’obtient
pas si facilement à partir des données du problème. ♢

Exemple (moments). On vous propose deux jeux. Dans le premier, on lance 4


pièces et vous recevez 1 € pour chaque pièce tombant sur pile. Dans le second, on
lance une pièce jusqu’à ce que pile apparaisse, et vous recevez en € le numéro d’ordre

75
Statistiques appliquées (2B-comdev, M. de Valeriola)

du premier pile (vous recevez 1 € si le premier lancer est un pile, 2 € si le premier


pile survient au deuxième lancer, etc.). Lequel choisir ?
Afin de départager ces jeux, calculons l’espérance de chacun d’eux, sachant que
les gains sont respectivement des variables binomiale et géométrique :

E [gains jeu 1] = n · p = 4 · 0, 5 = 2
1 1
E [gains jeu 2] = = = 2.
p 0, 5

Les deux jeux sont donc équivalents en termes d’espérance. Sont-ils pour autant
équivalents ?
Calculons leur variance, afin de voir si l’un est « moins risqué » que l’autre (une
variance plus importante signifie que les gains dévieront plus souvent de la moyenne,
et donc que le jeu est plus risqué) :

V [gains jeu 1] = n · p · (1 − p) = 4 · 0, 5 · 0, 5 = 1
1−p 1 − 0, 5
V [gains jeu 2] = = = 1.
p 0, 5

Les deux jeux sont donc similaires pour les deux indicateurs que nous avons calculés !

4.6 La distribution de Poisson


Supposons que nous voulons calculer la distribution de probabilité du nombre
d’accidents de voiture à une intersection donnée sur une période d’une semaine.
À première vue, cette expérience n’est pas une expérience binomiale (le résultat
est plus complexe que simplement succès/échec) ; on peut pourtant la « transfor-
mer » pour que ce soit le cas. Divisons la période d’une semaine en un nombre n
d’intervalles de temps suffisamment petits pour que dans chacun de ces intervalles
on ne puisse observer qu’un accident au plus. Le nombre total d’accidents sur la
semaine Y est la somme des nombres d’accidents sur tous les petits intervalles ; si
on considère que tous ces accidents sont indépendants, on a bien une expérience
binomiale.
La probabilité qu’un accident survienne sur l’un des n petits intervalles décroit
bien sûr au fur à mesure que leur taille diminue. Fixons cette probabilité à p = nλ ,
pour une constante λ >0. La distribution de Poisson s’obtient alors en faisant tendre
le nombre d’intervalles vers l’infini :
( )
n y λy
P (Y = y) = lim p (1 − p)n−y = e−λ .
n→∞ y y!

76
Chapitre 4

Définition 4.9 Une variable aléatoire Y possède une distribution de Poisson de


paramètre λ > 0 (ce qui se note Y ∼ P(λ)) si

λy −λ
P (Y = y) = e ,
y!
où e ≈ 2, 71828 est le nombre d’Euler.

Parce que la fonction de probabilité binomiale converge vers la fonction de pro-


babilité de Poisson, les variables aléatoires de Poisson peuvent être utilisées pour
approximer les variables aléatoires binomiales dont les paramètres n et p sont res-
pectivement grand et petit.
Cela fait donc de la distribution de Poisson une distribution des événements rares.

Théorème 4.10 Si Y ∼ P(λ), alors

E [Y ] = λ et V [Y ] = λ.

Poisson : lambda = 0.5 Poisson : lambda = 5


0.6

0.6
0.4

0.4
0.2

0.2
0.0

0.0

0 1 2 3 4 5 6 7 8 0 1 2 3 4 5 6 7 8 9 10 12

Poisson : lambda = 2 binomiale : n= 100 ; p = 0,5


0.6

0.6
0.4

0.4
0.2

0.2
0.0

0.0

0 1 2 3 4 5 6 7 8 9 10 12 0 1 2 3 4 5 6 7 8 9 10 12

Figure 4.5: Distribution de Poisson

Exemple (distribution) et tables. Supposons que le nombre Y de patrouilles


qu’un réseau policier effectue dans un quartier donné la nuit soit une variable aléa-

77
Statistiques appliquées (2B-comdev, M. de Valeriola)

toire de Poisson. En moyenne le quartier est parcouru par des agents deux fois par
heure.
Calculons la probabilité que le quartier ne soit pas du tout visité en une heure,
puis qu’il soit visité trois fois en une heure.
Le paramètre λ = 2 puisque c’est la moyenne de Y . On calcule :

20 −2
P (Y = 0) = e = 0, 1353.
0!
23
P (Y = 3) = e−2 = 0, 1804.
3!
De la même façon que pour la distribution binomiale, des tables sont données pour
calculer les valeurs de la fonction P (Y ≤ y). ♢

Exemple (moments). Pour assurer un troupeau de 50 vaches valant 1.000 €


chacune, un assureur demande une prime pure annuelle de 2.000 € (c’est-à-dire que
pour ce prix-là, il remplacera à ses frais en fin d’année les vaches mortes).
En supposant que le nombre de bêtes mortes chaque année suit une distribution
de Poisson, calculons le taux de mortalité annuel des vaches.
La prime pure est égale à l’espérance de l’indemnité à verser par l’assureur en cas
de sinistre (en négligeant les taux d’intérêt) :

E [indemnité] = E [nombre de morts] · 1.000€ = λ · 1.000€.

Puisque la prime vaut 2.000 €, on déduit que λ = 2 : on s’attend à ce que 2 vaches


meurent chaque année.
Cela donne donc un taux de mortalité dans le troupeau égal à 2/50 = 4%. ♢

78
Chapitre

Variables aléatoires
continues

5.1 Distribution d’une variable continue


Les variables aléatoires que nous considérons dans ce chapitre sont continues,
c’est-à-dire qu’elles prennent un nombre infini indénombrable de valeurs (c’est-à-
dire dont on ne peut pas dresser de liste), le plus souvent un intervalle réel I ⊂ R.
Pour comprendre ce qui change lorsqu’on passe du discret au continu, considé-
rons une suite de variables aléatoires prenant de plus en plus de valeurs différentes
(figure 5.1). Par exemple, un physicien fait passer un signal lumineux à travers une
suite de lentilles et observe l’instant auquel le dernier photon du faisceau franchit la
dernière lentille. Il fait d’abord ses mesures en divisant les 60 secondes en 6 intervalles
de 10 secondes. Puis il refait ses mesures en divisant la minutes en 12 intervalles
de 5 secondes, puis 30 intervalles de 2 secondes, 60 intervalles d’une seconde, 120
intervalles d’une demi seconde, etc. Si on trace des histogrammes de densité, la pro-
babilité que l’instant d’intérêt soit situé au milieu de la période d’observation est
égale à l’aire du rectangle correspondant à l’intervalle contenant l’instant t = 1/2.
Puisque la base de ces rectangles tend vers 0, la probabilité que le dernier photon
passe au cours de l’intervalle de temps contenant t = 1/2 tend elle aussi vers 0 ;
c’est donc aussi en un certain sens le cas de P (Y = 1/2).
La fonction de probabilité, qui est adaptée pour décrire les variables aléatoires dis-
crètes prenant un nombre fini de valeurs, n’est pas adaptée pour décrire les variables
aléatoires continues.
Plutôt que de considérer l’événement {Y = y} (à travers la fonction de proba-
bilité, qui a toutes les chances d’êtres nulle), on considère dans le cas des variables
aléatoires continues l’événement {Y ∈ [x, y]} (à travers la fonction de répartition,
qui, elle, est non nulle).

Définition 5.1 Soit Y une variable aléatoire. La fonction de répartition (en


anglais cumulative distribution function) de Y est définie par
F (y) = P (Y ≤ y) = P (Y ∈ ] − ∞, y]).

79
Statistiques appliquées (2B-comdev, M. de Valeriola)

P(I=0.5) P(I=0.5) P(I=0.5)


= 0.4603 = 0.281 = 0.1175

variable discrète (6 valeurs différentes) variable discrète (12 valeurs différentes) variable discrète (30 valeurs différentes)

P(I=0.5) P(I=0.5) P(I=0.5)


= 0.0589 = 0.0293 =0

variable discrète (60 valeurs différentes) variable discrète (120 valeurs différentes) variable continue

Figure 5.1: Du discret au continu...

La fonction de queue ou fonction d’excès est la notion symétrique :

F (y) = P (Y > y) = P (Y ∈ ]y, ∞[) = 1 − F (y).

Cette fonction existe évidemment aussi bien pour les variables aléatoires discrètes
que pour les variables aléatoires continues. Mieux que cela, d’après la « forme » de
sa fonction de répartition, on peut déterminer si une variable aléatoire est discrète
ou continue.

Exemple. Soit Y ∼ B(2; 0, 5). Calculons sa fonction de répartition F .

80
Chapitre 5

On sait des chapitres précédents que


1

 si y = 0
( ) ( )y ( )2−y 
1
4
2 1 1 si y = 1
p(y) = P (Y = y) = = 21
y 2 2 
 si y = 2

4
0 sinon


 0 si y < 0

 1 si 0 ≤ y < 1
⇐⇒ F (y) = 43

 si 1 ≤ y < 2

4
1 si y ≥ 2

Puisque Y est discrète, la fonction de répartition est constante entre deux valeurs
de Y , et « saute » en chacune d’elles (figure 5.2).
1.0
0.8
0.6
0.4
0.2
0.0

−1 0 1 2 3 4

Figure 5.2: Fonction de répartition d’une variable discrète

Théorème 5.1 Si F est une fonction de répartition, alors


1. F (−∞) = lim F (y) = 0 = P (Y ≤ −∞)
y→−∞

2. F (∞) = lim F (y) = 1 = P (Y ≤ ∞)


y→∞

81
Statistiques appliquées (2B-comdev, M. de Valeriola)

3. F est une fonction croissante : si y1 < y2 , alors F (y1 ) ≤ F (y2 )

Théorème 5.2 Une variable aléatoire dont la fonction de répartition est une
fonction continue est elle-même continue.

Si Y est une variable aléatoire continue, alors pour tout y, P (Y = y) = 0. En


effet, si ce n’était pas le cas, c’est-à-dire si on avait P (Y = y0 ) = p0 > 0 pour un y0 ,
F sauterait en y0 .
F

Figure 5.3: Fonction de répartition d’une variable continue

Définition 5.2 Soit F la fonction de répartition d’une variable aléatoire conti-


nue Y . Alors la fonction de densité (en anglais probability density function) est
définie par
dF
f (y) = = F ′ (y) lorsque cette dérivée existe.
dy

La fonction de répartition est donc l’intégrale de la fonction de densité (voir figure

82
Chapitre 5

5.4) : ∫ y
F (y) = f (x)dx.
−∞
densité f

F(y)

Figure 5.4: Lien entre fonction de densité et fonction de répartition

La fonction de densité n’a donc pas une valeur de probabilité : c’est l’aire sous
cette fonction qui correspond à une probabilité. Pour calculer la probabilité d’un
événement {Y ∈]x, y]}, il suffit de calculer des « écarts » de la fonction de répartition
(voir figure 5.5) :
P (Y ∈]x, y]) = P (x < Y ≤ y)
= F (y) − F (x)
∫ y
= f (x)dx
x

Théorème 5.3 Si f est la fonction de densité d’une variable aléatoire continue


Y , alors
1. f (y) ≥ 0 pour tout y ∈ R
∫∞
2. −∞ f (y)dy = 1 = F (∞)

83
Statistiques appliquées (2B-comdev, M. de Valeriola)

densité f

F(y) − F(x)

F(x)

x y

Figure 5.5: Écarts de la fonction de répartition

Définition 5.3 Soient Y une variable aléatoire continue et 0 < p < 1. Le pème
quantile (ou quantile p) de Y est la plus petite valeur Qp telle que

F (Qp ) = P (Y ≤ Qp ) = p.

Certains quantiles portent des noms particuliers :


1. le quantile 0,5 est la médiane ;
2. les quantiles 0,25 et 0,75 sont les quartiles ;
3. les quantiles « pourcentages » (c’est-à-dire pour les p tels que 100 p est entier)
sont les percentiles.
Les concepts d’espérance et de variance peuvent être définis pour des variables
aléatoires continues. En passant du domaine discret au domaine continu, la somme
est remplacée par une intégrale :

E [Y ] (discret) = y p(y)
tous les y

∫∞
E [Y ] (continu) = −∞
y f (y)dy

84
Chapitre 5

p ●

Qp
Figure 5.6: Visualisation du quantile sur le graphe de la fonction de répartition

Définition 5.4 Pour une variable aléatoire régulière et continue Y et une fonc-
tion réelle g, on définit
∫ ∞
E [Y ] = y f (y) dy
−∞
∫ ∞
E [g(Y )] = g(y) f (y) dy
−∞
∫ ∞
V [Y ] = (y − E [Y ])2 f (y) dy
−∞

La majorité des résultats concernant les moments et obtenus en discret sont aussi
vrais en continu.

5.2 La distribution uniforme

Définition 5.5 La variable aléatoire continue Y possède une distribution uni-

85
Statistiques appliquées (2B-comdev, M. de Valeriola)

forme sur l’intervalle [a, b] (ce qui se note Y ∼ U (a, b)) si


{
1
si a ≤ y ≤ b
f (y) = b−a
0 sinon

La fonction de répartition est très facile à obtenir :



∫ x 
0 si x < a
F (x) = f (y)dy = b−a si a ≤ x ≤ b
x−a
−∞ 

1 si x > b

Théorème 5.4 Si Y ∼ U (a, b), alors

a+b (b − a)2
E [Y ] = et V [Y ] = .
2 12
1/(b−a)
Densité
0

a b

Figure 5.7: Densité de la distribution uniforme

Exemple. Les arrivées des clients à un guichet suivent une distribution uniforme.

86
Chapitre 5

On sait que, pendant une période de 30 minutes donnée, un client est arrivé au
guichet.
Calculons la probabilité que le client soit arrivé durant les 5 dernières minutes de
la demi-heure en question.
L’heure d’arrivée est donc une variable aléatoire Y ∼ U(0, 30) (si on exprime le
passage du temps en minutes), de telle sorte que la fonction de densité est
{
1
30
si 0 ≤ y ≤ 30
f (y) =
0 sinon

On a donc
∫ 30 ∫ 30
1 5 1
P (25 ≤ Y ≤ 30) = f (y)dy = dy = = .
25 25 30 30 6

La distribution uniforme est très intuitive, et le résultat obtenu peut se déduire direc-
tement de l’énoncé, puisque les 5 dernières minutes de la demi-heure correspondent
à 1/6 de cette période. ♢

5.3 La distribution exponentielle

Définition 5.6 La variable aléatoire continue Y possède une distribution expo-


nentielle de paramètre λ > 0 (ce qui se note Y ∼ E(λ)) si
{
λe−λy si y ≥ 0
f (y) = .
0 sinon

La distribution exponentielle est très utilisée pour modéliser des temps d’attente
ou des durées de vie : on peut montrer que l’intervalle de temps qui sépare l’appari-
tion aléatoire de deux « accidents » modélisés par un processus de Poisson possède
cette distribution.
On montre aussi que la distribution exponentielle est la version continue de la
distribution géométrique.

Théorème 5.5 Si Y ∼ E(λ), alors


1 1
E [Y ] = et V [Y ] = .
λ λ2

Dans le cas de la distribution exponentielle, une formule fermée pour la fonction

87
Statistiques appliquées (2B-comdev, M. de Valeriola)

lambda = 1
1.4
lambda = 1,4
lambda = 0,5
1.2
1
Densité
0.6 0.8
0.4
0.2
0

0 1 2 3 4 5

Figure 5.8: Densité de la distribution exponentielle

de répartition s’obtient en intégrant directement la fonction de densité :


∫ y
F (y) = f (x)dx
−∞
∫ y
=λ e−λx dx
[0 −λx ]y
e

−λ 0
= 1 − e−λy .

Il n’est donc pas nécessaire d’avoir recours à une table pour calculer les valeurs de
F dans ce cas.
Exemple. La durée de vie Y d’un processeur d’un type particulier utilisé pour des
calculs très lourds est une variable aléatoire exponentielle. On sait que la durée de
vie moyenne est de 2 ans. Quelle est la probabilité qu’un processeur de ce type cesse
de fonctionner durant sa première année de service ?
Avant de calculer cette probabilité, il faut déterminer la valeur du paramètre λ
associé à Y , ce qui peut se faire à partir de l’information donnée dans l’énoncé à
propos de E [Y ] :
1 1
2 ans = E [Y ] = ⇒ λ= .
λ 2
88
Chapitre 5

On peut alors calculer

P (Y ≤ 1) = 1 − e−λ·1 = 1 − e−0,5 = 0, 3934.

5.4 La distribution normale

Définition 5.7 La variable aléatoire continue Y possède une distribution nor-


male de paramètres µ et σ (ce qui se note Y ∼ N (µ, σ 2 )) si
1 1 y−µ 2
f (y) = √ e− 2 ( σ ) .
σ 2π

La fonction de densité de cette distribution, qui est aussi appelée distribution de


Gauss, est « en cloche ».
Comme nous le verrons, cette distribution joue un rôle fondamental en statistique
et en probabilités.

Théorème 5.6 Si Y ∼ N (µ, σ 2 ), alors

E [Y ] = µ et V [Y ] = σ 2 .

Comme c’est le cas pour certaines distributions discrètes, les calculs mettant en
œuvre certaines distributions continues nécessitent l’utilisation de tables de valeurs
de F .
C’est le cas de la normale, puisque
∫ y
1 1 x−µ 2
F (y) = √ e− 2 ( σ ) dx
−∞ σ 2π

n’est pas une « fonction usuelle », c’est-à-dire qu’on ne la trouve pas sur la majorité
des calculatrices (figure 5.10).
La table donne les valeurs de F pour une variable aléatoire normale centrée et
réduite, c’est-à-dire Z ∼ N (0, 1).
Pour l’utiliser il faut donc généralement transformer le problème auquel on veut
l’appliquer pour faire apparaître une normale centrée réduite :
Y −µ
Y −→ .
σ
Cette nouvelle variable aléatoire est centrée et réduite :
[ ] [ ]
Y −µ 1 Y −µ 1
E = (E [Y ] − µ) = 0 et V = 2 V [Y ] = 1.
σ σ σ σ

89
Statistiques appliquées (2B-comdev, M. de Valeriola)

0.7
mu = 0 ; sigma = 1
mu = 4 ; sigma = 1
0.6
mu = 0 ; sigma = 2
mu = 0 ; sigma = 0,8
0.5
0.4
Densité
0.3 0.2
0.1
0

−10 −8 −6 −4 −2 0 2 4 6 8 10

Figure 5.9: Densité de la distribution normale

Figure 5.10: Extrait de la table normale

Exemple. Par exemple, considérons un physicien qui étudie la fréquence Y des


photons qui passent à travers une lentille. Celle-ci est une variable aléatoire normale
de moyenne µ = 500 THz et d’écart-type σ = 100 THz. Calculons la probabilité
qu’un photon observé corresponde à de la lumière ultra-violette, c’est-à-dire possède
une fréquence au-dessus de 785 THz.
Calculons pour cela
( ) ( )
Y −µ 785 − µ Y − 500
P (Y > 785) = P > =P > 2, 85
σ σ 100
La consultation de la table (à la ligne 2, 8 et à la colonne 0, 05) donne la valeur
0, 0022 : c’est la probabilité recherchée.

90
Chapitre 5

5.5 La distribution log-normale

Définition 5.8 La variable aléatoire continue Y possède une distribution log-


normale de paramètres µ et σ (ce qui se note Y ∼ LN (µ, σ 2 )) s’il existe une
variable aléatoire X ∼ N (µ, σ 2 ) telle que

Y = eX ,

ou, de manière équivalente, si


1 1 log y−µ 2
f (y) = √ e− 2 ( σ ) .
yσ 2π

Théorème 5.7 Si Y ∼ LN (µ, σ 2 ), alors


2 /2
( 2 ) 2
E [Y ] = eµ+σ et V [Y ] = eσ − 1 e2µ+σ .

mu = 0 ; sigma = 1
1.4

mu = 1 ; sigma = 1
mu = 0 ; sigma = 2
1.2

mu = 0 ; sigma = 0,3
1
Densité
0.6 0.8
0.4
0.2
0

0 1 2 3 4 5

Figure 5.11: Densité de la distribution log-normale

Exemple. Le cours après un an (en supposant un prix initial unitaire) de l’in-

91
Statistiques appliquées (2B-comdev, M. de Valeriola)

dice boursier Euro Stoxx 50 peut être modélisé comme une variable aléatoire Y ∼
LN (0, 05; 0, 20). Calculons la probabilité qu’un investisseur double au moins son ca-
pital en investissant dans cet indice, ainsi que le rendement auquel il peut s’attendre
en moyenne.
Puisque Y est log-normale, on va faire apparaître la variable normale sous-jacente,
X = log Y ∼ N (0, 05; 0, 20) :

P (Y ≥ 2) = P (log Y ≥ log 2)
( )
X − 0, 05 log 2 − 0, 05
=P ≥
0, 20 0, 20
( )
X − 0, 05
=P ≥ 0, 9657
0, 20
= 0, 166.

L’investisseur peut s’attendre en moyenne à un rendement égal à la moyenne de


Y :
2 2
E [Y ] = eµ+σ /2 = e0,05+0,2 /2 = 1, 0725.

92
Chapitre

Théorèmes
fondamentaux

6.1 L’inégalité de Markov

Théorème 6.1 Soit X une variable aléatoire positive. Alors pour tout a > 0,
on a
E [X]
P (X ≥ a) ≤
a

Preuve : Introduisons la fonction indicatrice suivante :


{
1 si X ≥ a
IX≥a (x) =
0 sinon.

On a évidemment X ≥ a IX≥a , et donc

E [X] ≥ E [a IX≥a ]
= a E [IX≥a ]
∫∞
=a IX≥a (x)fX (x)dx
0
∫∞
=a fX (x)dx
a
= a P (X ≥ a).

en supposant que X est continue ; si ce n’est pas le cas, la preuve est plus simple
encore. 

Exemple. Soit X la variable aléatoire correspondant aux résultats de 100 étudiants


lors d’un examen coté sur 20, qui est clairement positive puisque le résultat le plus

93
Statistiques appliquées (2B-comdev, M. de Valeriola)

bas est égal à 0 ; supposons également que la classe est d’un niveau médiocre et que
le résultat moyen est 4.
Appliquons à X l’inégalité de Markov pour a = 10 :
4
P (X ≥ 10) ≤ = 0, 4.
10
On apprend donc de ce résultat que si la moyenne est 4, au plus 40% des étudiants
ont réussi l’examen.
Cette conclusion est dans ce cas-ci très intuitive : comme la moyenne est de 4, la
somme du résultat de tous les étudiants est égale à 400. Si 40% des étudiants (c’est-
à-dire 40 étudiants) ont 10/20, la somme de leurs résultats vaut 400 ; tous les autres
ont forcément obtenu 0 puisqu’il n’est pas possible d’obtenir un résultat négatif. Il
est donc absolument impossible que 41 étudiants aient obtenu 10/20, puisqu’alors
on ne pourrait pas avoir une moyenne de 4/20. ♢

6.2 L’inégalité de Bienaymé-Tchebychev


Nous avons vu dans ce chapitre des exemples de distributions qui n’ont pas du
tout une forme de cloche. La règle empirique énoncée dans le chapitre 1 ne s’applique
donc pas bien pour ces distributions.
Par exemple, considérons une population de distribution géométrique (avec p =
0, 5) : comme on peut le voir à la figure 6.1, seules 43% des données se situent dans
l’intervalle
[ √ √ ] [
1 1−p 1 1−p √ √ ]
[µ − σ; µ + σ] = − ; + = 2 − 2; 2 + 2
p p2 p p2

Le résultat suivant donne une estimation similaire (bien que seulement sous la
forme d’une borne) sans faire aucune hypothèse sur la distribution.

Théorème 6.2 Soit Y une variable aléatoire régulière avec moyenne µ et va-
riance σ 2 . Alors, pour tout k > 0,
1 1
P (|Y − µ| < kσ) ≥ 1 − ⇔ P (|Y − µ| ≥ kσ) ≤
k2 k2

En prenant k = 1, 2, 3, on obtient donc :

k=1 P (|Y − µ| ≥ σ) ≤ 1 pas d’information


1
k=2 P (|Y − µ| ≥ 2σ) ≤ au plus 25% hors de [µ − 2σ; µ + 2σ]
4
1
k=3 P (|Y − µ| ≥ 3σ) ≤ au plus 11% hors de [µ − 3σ; µ + 3σ]
9

94
Chapitre 6

Fréquence

µ−σ µ µ+σ

Figure 6.1: Application (très peu convaincante) de la règle empirique dans le cas
d’une variable géométrique

Le théorème de Bienaymé-Tchebychev est un corollaire de l’inégalité de Markov :


il suffit d’appliquer ce résultat à X = (Y − µ)2 et a = k 2 .
Exemple. Le service marketing d’un grand supermarché a observé que le nombre
Y de clients par jour faisant leur course dans ce magasin est une variable aléatoire
de moyenne µ = 500 et d’écart-type σ = 50.
La distribution de probabilité de Y n’est cependant pas connue. Que peut-on dire
de la probabilité que, demain, le supermarché accueille entre 400 et 600 clients ?
Par le théorème de Bienaymé-Tchebychev, on a pour tout k > 0

1
P (|Y − 500| < k 50) ≥ 1 − .
k2
La valeur absolue à l’intérieur de la probabilité peut se réécrire :

|Y − 500| < k 50 ⇔ −k 50 < Y − 500 < k 50


⇔ 500 − k 50 < Y < 500 + k 50

En choisissant k = 2, on peut donc affirmer que la probabilité que, demain, le


supermarché accueille entre 400 et 600 clients est plus grande que 0, 75. ♢

95
Statistiques appliquées (2B-comdev, M. de Valeriola)

6.3 La loi des grands nombres


Le théorème de Bienaymé-Tchebychev permet d’obtenir un résultat fondamen-
tal en statistiques : la moyenne empirique tend vers l’espérance lorsque le nombre
d’éléments considérés tend vers l’infini.

Théorème 6.3 Soit Y1 , Y2 , ... une suite de variables aléatoires indépendantes de


même moyenne µ et de même variance σ 2 . Alors, pour tout ϵ > 0,
( )
Y1 + Y2 + ... + Yn
lim P
− µ ≥ ϵ = 0.
n→∞ n

∑n
Preuve : Calculons l’espérance et la variance de la variable aléatoire Xn = i=1 Yi /n :
[ n ]
1 ∑ 1∑
n

E [Xn ] = E Yi = E [Yi ] = =µ
n n i=1 n
[ n
i=1
]
1 ∑ 1 ∑
n
nσ 2 σ2
V [Xn ] = 2 V Yi = 2 V [Yi ] = 2 = .
n i=1
n i=1 n n
Appliquons dès lors à Xn le théorème de Bienaymé-Tchebychev avec k = ϵ :
( )
Y1 + Y2 + ... + Yn σ2
P − µ ≥ ϵ ≤ 2 ,
n nϵ
d’où on obtient le résultat en passant à la limite. 
Ce résultat appuie en quelque sorte a posteriori le choix de la définition fréquen-
tiste de la probabilité.
Pour voir cela, considérons un événement A quelconque, répétons l’expérience
associée à cet événement et nous considérons la suite de variable aléatoire définie
par {
1 si A s’est réalisé à la ième répétition de l’expérience,
Yi =
0 sinon.
L’espérance de Yi est égale à la probabilité que A se réalise :

E [Yi ] = Yi (B)P (B)
tous les événements simples B

= P (B) = P (A).
tous les événements simples B⊂A

La moyenne empirique des Yi est égale à la fréquence relative de réalisation de A


Y1 + Y2 + ... + Yn
Xn = = fA (n).
n
La loi des grands nombres montre donc que
lim fA (n) = P (A).
n→∞

96
Chapitre 6

6.4 La stabilité de la loi normale pour l’addition


La loi normale jouit d’une propriété très commode :

Théorème 6.4 Soient X, Y deux variables aléatoires normales. Alors X + Y


est aussi normale :

X ∼ N (µX , σX
2
) et Y ∼ N (µY , σY2 ) ⇒ X + Y ∼ N (µX + µY , σX
2
+ σY2 )
0.12

X ~ N(2,9)
Y ~ N(5,16)
X+Y ~ N(7,25)
0.08
Densité

0.04
0.00

−10 0 10 20

Figure 6.2: Densité de la somme de deux variables normales

Remarquons que ce théorème est vrai peu importe le lien qui unit X et Y : les
deux variables ne doivent pas nécessairement être indépendantes.
La preuve fait emploi de la fonction génératrice des moments, qui est aussi très
utile dans d’autres contextes.

Définition 6.1 La fonction génératrice d’une variable aléatoire régulière X est


définie par [ ]
MX (t) = E etX .

Son nom provient du fait qu’elle permet de retrouver tous les moments de la
variable X en la dérivant :
∫ ∫ ∫
dn MX (t) dn ∞
tx

dn ( tx ) ∞
= e fX (x)dx = e fX (x)dx = xn etx fX (x)d
dtn dtn −∞ −∞ dtn −∞

si bien qu’on a
∫ ∞
dn MX (t)
= xn fX (x)d = E [X n ]
dtn t=0 −∞

97
Statistiques appliquées (2B-comdev, M. de Valeriola)

et donc
dMX (t)
pour n = 1 : E [X] =
dt t=0
( )2
[ 2] d2 MX (t) dMX (t)
pour n = 2 : V [X] = E X − E [X] = 2

dt2 t=0 dt t=0

... ...

On calcule facilement MX dans le cas où X ∼ N (0, 1) :


∫ ∞
1
etx e− 2 x dx
1 2
MX (t) = √
2π −∞
∫ +∞
1 (x−t)2 −t2
=√ e−( 2 ) dx
2π −∞
∫ +∞
t2 1 (x−t)2
=e2 √ e− 2 dx
2π −∞
∫ +∞
2 1 x2
e− 2 dx
t
=e √2
2π −∞
t2
=e2

Il est alors facile de faire le calcul lorsque X ∼ N (µ, σ 2 ) en passant par Y =


(X − µ)/σ ∼ N (0, 1) :
[ ] [ ] [ ] [ ] σ 2 t2
MX (t) = E etX = E et(σY +µ) = E etσY eµ = eµ E etσY = eµ MY (tσ) = eµ+ 2 .

Preuve : Supposons que X ∼ N (µX , σX 2


) et Y ∼ N (µY , σY2 ) sont indépendantes.
Comme la fonction génératrice des moments contient toute l’information d’une
distribution, il suffit, pour montrer que X + Y est normale, de montrer que sa
fonction génératrice des moments est bien celle d’une normale :
[ ]
MX+Y (t) = E et(X+Y )
[ ]
= E etX etY
[ ] [ ]
= E etX E etY
2 t2
σX 2 t2
σY
= eµX + 2 eµY + 2

2 +σ 2 )t2
(σX Y
= eµX +µY + 2 .

6.5 Le théorème central limite


La distribution normale apparaît absolument partout dans le monde réel, et ce
pour une bonne raison, qui est exprimée dans le résultat suivant.
98
Chapitre 6

Théorème 6.5 Soit Y1 , Y2 , ..., Yn une suite de variables aléatoires indépendantes


et identiquement distribuées (iid) de moyenne µ et de variance σ 2 . Alors la
distribution de leur somme tend vers une normale :

n
Yi − nµ
L
i=1
√ −
→ N (0, 1).

Ce résultat, qui est connu depuis longtemps (démontré en 1733 pour un cas
particulier par De Moivre, puis dans le cas général en 1809 par Laplace), doit son
nom étrange à un article du mathématicien hongrois Pólya de 1920 intitulé Sur
le théorème central du calcul probabiliste, parmi ceux ayant rapport à la notion de
limite, et le problème des moments.
Comme nous le verrons dans les applications, ce résultat asymptotique est surtout
utilisé pour approximer la distribution de sommes d’un grand nombre de variables
indépendantes iid :

n
Yi − nµ ∑
n
L
i=1
√ −
→ N (0, 1) ⇒ Yi ≈ N (nµ, nσ 2 )
nσ i=1
( n )
1 ∑
ou √ Yi − nµ ≈ N (0, 1)
nσ i=1

si n est assez grand.


Preuve : Développons en série de Taylor la fonction génératrice des moments d’une
variable aléatoire X autour de t = 0 :
[ ]
[ tX ] 1 2 2 1 [ ]
MX (t) = E e ≈ E 1 + tX + t X + reste = 1+t E [X]+ t2 E X 2 + reste,
2 2
où « reste » est une expression dominée par t3 . La suite de variables qui nous intéresse
est la suivante :
∑n
Yi − nµ n ( ) [ ] [ ]
1 ∑ Yi − µ Yi − µ Yi − µ
Xn = i=1
√ =√ avec E = 0 et V = 1.
nσ n i=1 σ σ σ

On a donc
 n ( Y −µ )   ( )
∑ Yi −µ ( ) ( ( ))n
t √1 i

n t √1 ∏
n
t t
 n i=1 σ 
MXn (t) = E e  = E e n σ = M Yi −µ √ = M Y1 −µ √
i=1 i=1 σ n σ n

puisque les Yi sont indépendantes et identiquement distribuées. En utilisant le


développement de Taylor :
( ( )2 )n ( )n
t 1 t t2 1 2
MXn (t) ≈ 1 + 0 √ + (1 − 0) √ + reste = 1+ + reste → et /2 .
n 2 n 2n

99
Statistiques appliquées (2B-comdev, M. de Valeriola)

0.5

0.5

0.5

0.5
1 lancer 2 lancers 3 lancers 4 lancers

0.4

0.4

0.4

0.4
Densité
0.3

0.3

0.3

0.3
0.2

0.2

0.2

0.2
0.1

0.1

0.1

0.1
0.0

0.0

0.0

0.0
2 4 6 8 10 12 2 4 6 8 10 12 2 4 6 8 10 12 2 4 6 8 10 12
Valeur de la somme
0.5

0.5

0.5

0.5
5 lancers 6 lancers 7 lancers 8 lancers
0.4

0.4

0.4

0.4
0.3

0.3

0.3

0.3
0.2

0.2

0.2

0.2
0.1

0.1

0.1

0.1
0.0

0.0

0.0

0.0
2 4 6 8 10 12 2 4 6 8 10 12 2 4 6 8 10 12 2 4 6 8 10 12
0.5

0.5

0.5

0.5
9 lancers 10 lancers 11 lancers 12 lancers
0.4

0.4

0.4

0.4
0.3

0.3

0.3

0.3
0.2

0.2

0.2

0.2
0.1

0.1

0.1

0.1
0.0

0.0

0.0

0.0
2 4 6 8 10 12 2 4 6 8 10 12 2 4 6 8 10 12 2 4 6 8 10 12

Figure 6.3: Illustration du théorème central limite : densité de la somme du nombre


de piles sur n lancers

En admettant maintenant que, puisque la fonction génératrice des moments de la


suite Xn tend vers celle d’une normale N (0, 1), sa distribution aussi (ce résultat
découle du théorème de convergence de Lévy, que nous passons ici), on obtient le
résultat. 

Exemple. Les durées nécessaires pour servir les clients qui se présentent à un guichet
sont des variables aléatoires indépendantes de moyenne 1, 5 minutes et d’écart-type
1 minute. Calculons une approximation de la probabilité que 100 clients puissent
être servis en moins de 2 heures.
Pour cela, définissons la variable aléatoire Yi qui représente le temps nécessaire
pour servir le ième client ; nous voulons calculer
( 100 )

P Yi ≤ 120 .
i=1

Faisons apparaître la suite de variables aléatoires


∑100 sur laquelle porte le théorème
central limite en centrant et en réduisant i=1 Yi :
 100 
( 100 ) ∑
∑  i=1 Yi − 100 · µ 120 − 100 · µ 
P Yi ≤ 120 = P   √ ≤ √ .

i=1
100σ 100σ

100
Chapitre 6

En notant Z ∼ N (0, 1), on peut dès lors approximer à l’aide du théorème :


 100 

 i=1 Yi − 150 
P ≤ −3  ≈ P (Z ≤ −3) = 0, 0013.

10


L’énoncé du théorème concerne une somme de variables aléatoires, mais il peut
facilement être transformé pour concerner la moyenne correspondante :

n ∑
n
Yi − nµ 1
n
Yi − µ
i=1
√ = i=1
.
nσ √σ
n

Lorsqu’il s’agit d’estimer la moyenne d’une population, il peut donc nous servir à
choisir la taille de l’échantillon qui sera sélectionné pour inférer cette moyenne.
Dans ce cas, on prend le problème à l’envers, et on essaie de déterminer un n assez
grand pour que notre estimation soit assez précise. Cette application du théorème
central limite joue un rôle très important dans beaucoup de sciences expérimentales,
puisqu’elle indique au chercheur appliquant la méthode scientifique quelle est la
taille de l’échantillon qu’il doit considérer en fonction du degré de précision qu’il
veut atteindre avec une certaine probabilité.
Exemple. Considérons par exemple un biologiste qui désire calculer le taux de
croissance moyen d’un certain type de levure sous l’effet d’une réactif donné ; il sait
que l’écart-type de ses mesures est égal à 2 pm/jour. Il veut que son estimation
soit proche de la moyenne de population : il accepte que la déviation par rapport à
celle-ci soit plus petite que 0,5 pm/jour avec une probabilité de 95%. Calculons le
nombre de boîtes de Petri qu’il doit préparer pour obtenir une telle estimation.
Nous souhaitons donc déterminer pour quel n on a
( n )
1 ∑

P Yi − µ ≤ 0, 5 = 0, 95.
n
i=1

n 1

n
Pour cela on écrit (en notant Y = n
Yi )
i=1
( )
( n ) ( ) −0, 5
n
Y −µ 0, 5
P Y − µ ≤ 0, 5 = P −0, 5 ≤ Y ≤ 0, 5 = P
n
≤ ≤
√σ √σ √σ
n n n

qui peut être approximée en utilisant le théorème central limite. En notant Z ∼


N (0, 1), il suffit dès lors de trouver le n tel que
( √ √ )
−0, 5 n 0, 5 n ( √ √ )
P ≤Z≤ = P −0, 25 n ≤ Z ≤ 0, 25 n = 0, 95.
σ σ

101
Statistiques appliquées (2B-comdev, M. de Valeriola)

Une consultation de la table normale permet de trouver



0, 25 n = 1, 96 ⇔ n = 61, 46 ⇒ il suffit de prendre n = 62.

102

Vous aimerez peut-être aussi