Vous êtes sur la page 1sur 61

Statistique et Probabilités

Pour niveau S4 et S5D

2019–2020

Dr ZOROM
La statistique est d’un point de vue théorique une de Bachelor 1 ainsi que les notions d’analyses com-
science, une méthode et une technique. La statis- binatoire. Nous allons rappeler certaines notions
tique comprend : la collecte des données, le trai- d’algèbre 1 nécessaires à la compréhension du cours.
tement des données collectées, l’interprétation des Le cours va se dérouler en quatre chapitres : (Cha-
données, la présentation afin de rendre les données pitre 1-4)
compréhensibles par tous [4].
Ainsi la statistique est un domaine des 1. Chapitre 1 : Statistique descriptive
mathématiques qui possède une composante théorique avec
ainsi qu’une composante appliquée. La composante 2. Chapitre 2 : Probabilité
théorique est proche de la théorie des probabilités et
forme avec cette dernière, les sciences de l’aléatoire. 3. Chapitre 3 : Variables aléatoires
La statistique appliquée est utilisée dans presque 4. Chapitre 4 : Loi de probabilité
tous les domaines de l’activité humaine : ingénierie,
management, économie, biologie, informatique, etc.
♠ Les séances de TD sont très courtes et les ensei-
Ces distinctions ne consistent pas à définir plusieurs
gnants n’auront pas le temps de faire des rap-
domaines étanches. En effet, le traitement et l’in-
pels de cours pendant les séances. Il est donc
terprétation des données ne peuvent se faire que
impératif d’avoir lu et appris le cours avant
lorsque celles-ci ont été collectées. La statistique
de venir en TD.
possède des règles et des méthodes sur la collecte des
données, pour que celles-ci puissent être correctement ♠ Il est fortement recommandé d’avoir cherché les
interprétées [4]. exercices avant de venir en TD. La correction d’un
Dans le cours, nous aborderons la théorique de la exercice vous sera beaucoup plus profitable si vous
statistique et de la probabilité et nous utiliserons un avez réfléchi à l’exercice auparavant.
logiciel d’analyse de données . L’intérêt d’utiliser ce ♠ Les fiches de TD sont trop longues pour être traitées
logiciel est bien sûr s’abstenir du temps de calcul, fa- intégralement pendant les séances de TD. Les en-
ciliter la réalisation de graphiques. Mais cela introduit seignants traiteront un ou plusieurs exercices cor-
une complexité : la connaissance du vocabulaire et du respondant à chaque type d’exercice qui pourra
sens des concepts liés à la statistique et à la probabilité vous être demandé à l’examen. Il est toutefois
d’une part, liés au logiciel d’autre part. recommandé de chercher tous les exercices pour
vous entraı̂ner.
est un logiciel très utilisé dans de nombreuses
disciplines. Il permet l’analyse et le traitement de ♠ Si vous avez des problèmes ou des questions après
données. Il est totalement gratuit et collaboratif. Il les cours et les TD, n’hésitez pas à vous adresser
faut noter que le logiciel est alimenté par plusieurs pa- par mail à l’enseignant chargé du cours à l’adresse
ckages (librairies ou fonctions spécifiques) disponibles suivante (malicki.zorom@2ie-edu.org).
sur le site officiel de . + + Certaines parties du document sont conçues à
L’objectif de ce cours est d’acquérir les notions en partir de différents supports accessibles sur Internet.
statistique et probabilités nécessaires à la formation Voir la bibliographie.
ainsi que l’intitiation au logiciel . Comme pré-
requis, vous devez avoir des notions de mathématiques

1
Table des matières

1 Statistique descriptive 3
1.1 Introduction [1] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.1 Mesure et variable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.1.2 Typologies des variables statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.1.3 Méthodologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.4 Lien statistique/Probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2 Tableaux statistiques et graphiques [2] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.1 Tableaux statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.2 Représentations graphiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3 Mesures de tendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.3.1 Indicateurs de tendance centrale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.3.2 Indicateurs de dispersion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.3.3 Indicateurs de forme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.3.4 Indicateurs de concentration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.3.5 Liaison entre deux variables statistiques [6] . . . . . . . . . . . . . . . . . . . . . . . . . 21

2 Probabilités [12] 26
2.1 Espace fondamental et évènements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.1.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.1.2 Evènements remarquables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.1.3 Opérations sur les évènements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.1.4 Système complet d’évènements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.1.5 Espace probabilisable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.2 Probabilités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.2.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.2.2 Propriétés des probabilités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.2.3 Indépendance statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.3 Probabilités conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.3.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

2
2.3.2 Probabilités composées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.3.3 Probabilités totales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.3.4 Le théorème de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.4 Rappels sur les techniques de dénombrement [11] . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.4.1 Diagrammes arborescents ou arbres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.4.2 Arrangements et permutations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.4.3 Combinaisons . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.4.4 Permutations lorsque certains éléments sont semblables . . . . . . . . . . . . . . . . . . 35
2.4.5 Cas ou les éléments ne sont pas obligatoirement distincts . . . . . . . . . . . . . . . . . 36

3 Variables aléatoires 37
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.2 Variables aléatoires discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.2.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.2.2 Loi de probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.2.3 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.3 Variables aléatoires continues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.3.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.3.2 Fonction densité de probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.3.3 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.4 Espérance et Variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.4.1 Espérance mathématique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.4.2 Variables aléatoires discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.4.3 Variables aléatoires continues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.4.4 Propriétés de l’espérance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.4.5 Variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.4.6 Variables aléatoires discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.4.7 Variables aléatoires continues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.4.8 Propriétés de la variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.5 Couples de variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.5.1 Loi jointe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.5.2 Indépendance entre variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.5.3 Covariance et Corrélation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.5.4 Opérations sur les variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.5.5 Généralisation à n variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

4 Lois de Probabilité 47
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.2 Lois discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.2.1 Loi uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

3
4.2.2 Loi de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.2.3 Loi binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.2.4 Loi de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.2.5 Loi binomiale négative . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.2.6 Loi géométrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.3 Lois continues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.3.1 Loi uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.3.2 Loi normale ou loi de Laplace-Gauss . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.3.3 Loi normale réduite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.4 Approximation par des lois normales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.4.1 Théorème central limite (ou de tendance normale) . . . . . . . . . . . . . . . . . . . . . 56
4.4.2 Approximation de la loi binomiale par la loi normale . . . . . . . . . . . . . . . . . . . . 57
4.4.3 Approximation de la loi de Poisson par la loi normale . . . . . . . . . . . . . . . . . . . 57
4.5 Quelques conseils pour résoudre les problèmes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

4
Chapitre 1

Statistique descriptive

Les objectifs de cette partie sur la statistique des- Population statistique : l’ensemble des 100
criptive sont : apprendre les principales techniques de tiges ou des 100 mesures.
statistique descriptive univariée et bivariée, être ca- Unité statistique : chacune des tiges ou cha-
pable de mettre en oeuvre ces techniques de manière cune des 100 mesures.
appropriée dans un contexte donné, être capable d’uti-
liser les commandes de base du language et de
pouvoir appliquer les techniques de statistiques des- Une Population peut être plus ou moins bien
criptives au moyen du language . définis. Dans l’exemple de l’ensemble des pays, la
population est connue de manière exhaustive. Sou-
Introduction [1] vent, la notion de population doit être définie de
manière plus abstraite. Par exemple, si l’on veut
Les observations en étude statistique portent sur des étudier statistiquement la mise au point d’un vaccin,
individus ou unités statistiques, qui sont définis la population sera l’ensemble des malades actuels et
comme les éléments d’une population ou l’ensemble à venir. On parle alors de population hypothétique.
statistique. L’étude statistique porte sur la popula-
tion, en tant qu’ensemble d’entités, et non sur un in- Pour étudier une population, on va donc se
dividus particulier. concentrer sur un sous-ensemble restreint à quelques
individus : le choix de ces individus s’appelle
Exemple 1.1. – Une population peut être l’en- l’échantillonage. La méthode d’échantillonage doit
semble des pays d’un continent, et les individus assurer une certaine représentativité de la population
les pays eux-même. Historiquement, le vocabulaire globale. On se limitera dans ce chapitre à deux types
employé vient des recensements démographiques. d’échantillonage :
– Une usine fabrique des tiges métalliques utilisées
dans l’assemblage de certaines structures. Pour (1) L’échantillonage exhaustif ou recensement :
étudier la résistance à la traction de ces tiges, on chaque individu de la population est connu.
mesure cette résistance pour un lot de 100 tiges.
Propriété étudiée : la résistance à la traction (2) L’échantillonage aléatoire : les individus sont tirés
de tiges métalliques. aléatoirement parmi la population.

5
Mesure et variable les catégories sont naturellement ordonnées
ou en relation les unes par rapport aux
Un individus est décrit par un ensemble de critères
autres. Les modalités sont non-quantitatives
qu’on appellera variables ou caractères. Lorsqu’on
et indiquent uniquement une position dans
mène une étude statistique on s’intéresse à des unités
une série ordonnée (on ne peut pas mesurer
statistiques ou unités d’observation : par exemple
la différence qui existe entre deux positions).
des individus, des entreprises, des ménages. Dans la
Par exemple, un classement de préférence
pratique, on s’intéresse dans la plupart des cas à un
ou par jugement comme  j’aime un peu ,
nombre fini d’unités. Sur ces unités, on mesure un
 beaucoup ,  pas du tout .
caractère ou une variable, le chiffre d’affaires de l’en-
Variables quantitatives Les modalités sont de na-
treprise, le revenu du ménage, l’âge de la personne,
ture numériques et l’on peut effectuer des
la catégorie socioprofessionnelle d’une personne, la
opérations arithmétiques et des classements. Elles
précipitation. On suppose que la variable prend tou-
peuvent être de deux sortes :
jours une seule valeur sur chaque unité. Les variables
sont désignées par simplicité par une lettre majuscule discrète : les modalités prennent leurs valeurs
(X, Y, Z). Les valeurs possibles de la variable, sont ap- dans un ensemble fini ou dénombrable.
pelées modalités. L’ensemble des valeurs possibles ou La mesure est donc toujours exacte. Par
des modalités est appelé le domaine de la variable [5]. exemple, le nombre d’enfant par famille est
une variable discrète.
Typologies des variables statistiques continue : ici les variables prennent des valeurs
qui peuvent être arbitrairement proche les
Il existe deux sortes de variables : qualitatives ou unes des autres, et une valeur peut être aussi
quantitatives. précise que l’on veut. En réalité, comme les
Variables qualitatives Ces caractères ne sont pas mesures sont faites en précision finie, l’échelle
de nature numérique et aucune opération continue est une abstraction commode pour
arithmétique n’est possible (même si, parfois, elles modéliser les échelles possédant un grand
peuvent être codées par un nombre). Les valeurs nombre de valeurs (qui sont théoriquement
prises par ces variables sont appelées modalités. aussi proche qu’on veut les unes des autres).
On peut distinguer deux types de variables quali- Par exemple, la taille est une variable conti-
tatives : nue.
les variables nominales : ce sont les variables + + + Ces définitions sont à relativiser, l’âge
sur lesquels on ne peut faire ni opération est théoriquement une variable quantitative continue,
arithmétique, ni comparaison. L’échelle no- mais en pratique, l’âge est mesuré dans le meilleur des
minale est utilisée pour représenter les va- cas au jour près. Toute mesure est limitée en précision !
riables dont les catégories ne sont pas na- Exemple 1.2. – Les modalités de la variable sexe
turellement ordonnées. On peut coder ces sont masculin (codé M) et féminin (codé F). Le
catégories par des nombres. Exemple de va- domaine de la variable est {M, F }.
riables nominales : l’état civil, le sexe etc – Les modalités de la variable nombre d’enfants par
les variables ordinales : L’échelle ordinale est famille sont 0,1,2,3,4,5,. . .C’est une variable
utilisée pour représenter des variables dont quantitative discrète.

6
Méthodologie Probabilité Statistique
Espace fon- Population
damental
Epreuve Tirage (d’un individu),
Une étude statistique débute par la collecte des
expérimentation
données : les observations  brutes sont obtenues
Evènement Individu, observation
après enquête, mesures etc. C’est à ce niveau qu’inter-
élémentaire
vient les méthodes d’échantillonages (non abordées
Variable Caractère
dans ce chapitre).
aléatoire
Epreuves Echantillonnage
Une fois les données collectées, et avant d’apporter
répétées
des réponses précises aux questions posées au préalable
Nbre de Taille de l’échantillon, ef-
de l’étude, il convient d’analyser ces données. Cette
répétitions fectif total
analyse à pour but de synthétiser, résumer et struc-
d’une épreuve
turer l’information contenue dans les données à l’aide
Probabilité Fréquence observée
de tableaux, graphiques et résumés numériques. C’est
Loi de proba- Distribution observée ou
l’objet de la statistique descriptive, ou exploratoire,
bilité loi empirique
qui est l’objet de ce chapitre. Cette analyse se fait sur
Espérance Moyenne observée
l’échantillon qu’on a à disposition.
mathématique
Variance Variance observéee
Cette description des données n’est en général pas
suffisante. Une bonne étude statistique consiste en for-
muler et valider des hypothèses relative à la popu-
lation totale. Le but est d’étendre les résultats ob-
servés précédement à toute la population, en étudiant
le risque d’erreur possible. C’est le but de l’inférence
statistique (qui ne sera pas abordée dans ce chapitre).
Tableaux statistiques et graphiques [2]

Dans cette section, on considèrera des échantillons


de taille n, c’est-à-dire n individus ω1 , · · · , ωn is-
sus d’une population Ω. On notera en majuscule
(généralement X ou Y ) les variables statistiques. Les
Lien statistique/Probabilité modalités des variables statistiques seront notées avec
la minuscule correspondante et indicées, s’il y a lieu,
par le numéro de la modalité dans le cas discret ou
de la classe (ie un ensemble de modalité) dans le cas
Il existe des équivalences entre les termes utilisés en continue. La modalité prise par la variable X pour l’in-
statistique et la probabilié (voir le tableau ci-dessous). dividu ωn sera notée X(ωn ).

7
Tableaux statistiques HH Y
H y1 · yj · yJ
X HH
H
x1 n11 n1j n1J n1•
Tableau brut .. .. ..
. . . n1•
xi ni1 nij niJ ni•
On considère une étude statistique portant sur un .. .. ..
échantillon de taille n individus. On mesure plusieurs . . n1•.
variables statistiques, qui peuvent être qualitatives ou xI nI1 nIj nIJ nI•
quantitatives. La récolte initiale des données conduit n•1 n•j n•J n
à un tableau brut de la forme : où n ij désigne le nombre de fois où X à pris la
modalité xi et Y la modalité yj . Autrement dit, nij
représente le nombre d’individus qui possède à la fois
Individus variable 1 variable 2 ·
la caractéristique xi et la caractéritique yj . On définit
ω1 X(ω1 ) Y (ω1 ) · les quantités
ω2 X(ω2 ) Y (ω2 ) ·
.. .. .. ..
. . . . J
X X I
ωn X(ωn ) Y (ωn ) · n i• = n ij et n •j = nij
j=1 i=1
Les tableaux des données sont présentés qui représentent respectivement le nombre d’individus
généralement sous cette forme pour analyser les qui possèdent la modalitée xi et le nombre d’individus
données dans la pluspart des logiciels d’analyse de avec la modalitée yj .
données.
Tableau des fréquences
Variable discrète : On considère une variable
qualitative ou qualitative discrète X à valeurs dans
{x1 , · · · , xi , · · · , xK }. Si X est quantitative ou quali-
Tableau de contingence
tative ordinale, on suppose ses modalités ordonnées
tels que x1 < · · · < xi < · · · < xK . On commence par
Pour les variables qualitatives, on peut construire définir les quantités descriptives de bases.
un tableau de contingence. Ce tableau résume com-
ment une caractéristique dépend d’une autre. Pour
Définition 1.1.
des raisons pratiques, on se limite généralement au ta- Effectif ou fréquence absolue : On ap-
bleau de contingence de deux variables qualitatives X pelle effectif ou fréquence absolue de la
et Y de modalités respectives (x1 , · · · , xi , · · · , xI ) et modalité xk le nombre Nk d’individus
(y1 , · · · , yj , · · · , yJ ). Ce tableau donne le nombre d’in- qui ont pris la modalité xk :
dividus possédant simultanément la modalité xi de la
X
variable X et la modalité yj de la variable Y . Un tel Nk = X(ω)
tableau se présente sous la forme suivante, pour un ω∈Ω|X(ω)=xk
échantillon de taille n :

8
k
X modalité effectif fréquence fréquence
+ + + Nk = ni relative cum-
i=1 mulée
Définition 1.2. x1 n1 f1 F1
Fréquence relative : On appelle .. .. .. ..
. . . .
fréquence relative (ou simplement
xk nk fk Fk
fréquence) de la modalité xk le .. .. .. ..
nombre fk définit par : . . . .
xK nK fK FK
nk
fk = Les fréquences relative et cumulée peuvent être donnée
n sous forme de pourcentage.

Définition 1.3.
Fréquence relative cumulée : On ap- Exemple 1.3. Défauts relevés sur une pièce
pelle fréquence relative cumulée (ou sim- de tissu : Un fabricant de tissu essaie une nou-
plement fréquence cumulée) de la moda- velle machine ; il compte le nombre de défauts sur 75
lité xk le nombre Fk définit par : échantillons de 10 mètres. Il a trouvé les résultats sui-
vants :
k
X
Fk = fi
i=1

K
X
+ + + FK = fk = 1
k=1
On peut aussi définir les effectifs cumulés :

Définition 1.4. Nombre d’individus : les 75 échantillons.


Effectifs cumulés : On appelle effectif
Fréquence absolue associée à la valeur k, le nombre
cumulé de la modalité xk le nombre
nk : par exemple, sur les 75 échantillons examinés, 11
Nk définit par :
présentent k = 2 défauts, donc si k = 2, nk = 11.
k Fréquence relative associée à la valeur k : le quotient
X nk
Nk = ni = nFk .
i=1
n
11/75=0,146 est la fréquence relative associée à la
valeur k = 2.
La distribution des n observations de X peut être Fréquence cumulée absolue associée à la valeur k :
présentée sous la forme d’un tableau de fréquence le nombre d’échantillons ayant au plus k défauts (k
où figurent, pour chaque modalité xk , l’effectif nk , la compris).
fréquence relative fk et la fréquence cumulée Fk : 38 + 1 + 15 + 1 + 11 = 64 est la fréquence cumulée
absolue associée à la valeur k = 2.

9
Fréquence cumulée relative associée à la valeur k, à la classe K.
le nombre d’échantillons ayant au plus k défauts (k
compris) divisé par n. + + + Le nombre de classes ne devrait être ni
64/75=0,853 est la fréquence cumulée relative as- inférieur à 5, ni supérieur à 20 (il varie généralement
sociée à la valeur k = 2. entre 6 et 12). Ce choix est fonction du nombre d’ob-
servations et de leur dispersion [7].
+ + + Les fréquences relatives et les fréquences cu-
mulées relatives peuvent être utilisées pour comparer Définition 1.5.
deux ou plusieurs populations. Amplitude : L’amplitude Lk de la classe
+ + + Dans le cas d’une distribution continue, les k est donnée par Lk = max{X(ω), ω ∈
données sont en général regroupées en classes. Les Ck } − min{X(ω), ω ∈ Ck } c’est-à-dire la
fréquences absolues, relatives et cumulées sont définies longueur de l’intervalle. Si xk−1 et xk
par rapport aux classes et non par rapport aux valeurs sont les bornes respectivement inférieure
de la variable. et supérieure de la classe k alors Lk =
Variable continue Dans le cas où la variable X x k − xk−1

est continue, la réalisation d’un tableau de fréquence


nécessite au préalable une répartition en classes des Définition 1.6.
données. On doit définir a priori le nombre de classes Densité : La densité dk de la classe k est
nk
K et l’amplitude (ou l’étendue) de chaque classe. Ce donnée par dk =
Lk
choix doit résulte d’un compromis entre deux objectifs
antagonistes : résumer les données (K ne doit pas être
trop grand) sans perdre l’information pertinente (K Ce découpage en classes permet de se ramener au cas
ne doit pas être trop petit). Pour ce faire, un moyen discret décrit précédemment pour obtenir le tableau
 simple  est de diviser l’étendue des données en plu- de fréquences, en adaptant directement les définitions
sieurs intervalles de même longueur, puis l’on regroupe vues précédemment.
les classes d’effectifs trop petit (ie moins de 5 indivi- Exemple 1.4. Variable discrête : On complète le
dus). On peut utiliser une des deux règles suivantes tableau de l’exemple 1.3 des défauts relevés sur une
pour déterminer le nombre de classes : pièce de tissu en calculant les fréquences relatives
10 fi , toutes les fréquences absolues cumulées Ni et les
Règle de Sturge : K = 1 + log10 (n)
3 fréquences relatives cumulées Fi .
1
Règle de Yule : K = 2.5n 4

L’intervalle entre les classes est alors donné par Exemple 1.5. Variable continue : Essais de fia-
bilité de dispositifs électroniques 100 dispositifs
x max − x min identiques ont été soumis à un test de fiabilité ; on
Longueur de l0 intervalle =
K a noté la durée de vie, en heures, jusqu’à défaillance
(fin de l’aptitude du dispositif à remplir la fonction re-
, où xmax (resp.xmin ) désigne la plus grande (res. la
quise).
plus petite) valeur de prise par les X(ω), ω ∈ Ω.
On note Ck l’ensemble des individus qui appartiennent

10
Diagramme en barre ou tuyaux d’orgue
– Les modalités de la variable sont placées sur une
droite horizontale (attention : si la variable est
nominale, ne pas orienter cette droite car les mo-
dalités n’ont pas de relation d’ordre).
– Les effectifs ou les fréquences sont placées sur un
axe vertical. La hauteur du baton est proportion-
nelle à l’effectif.
– Les tuyaux ont une certaine épaisseur pour qu’il
n’y ait pas de confusion avec les diagrammes en
bâtons réservés à la variable quantitative discrète.
– Il doit y avoir un espace entre les tuyaux pour ne
pas les confondres avec les histogrammes réservés
aux variables quantitatives continues.

Effectif ou Fréquence

Représentations graphiques
X1 X2 X3 X4 Modalités
Lorsqu’on observe un caractère sur des indivi-
dus, les tableaux de chiffres définis précédemment
sont peu parlant. Ils sont cependant très utiles pour
construire des graphiques divers, qui permettent d’un Figure 1.1 – Diagramme en barres
seul coup d’oeil d’avoir une idée de la manière dont se
répartissent les individus. Diagramme en secteurs ou  camenbert 
– L’effectif total est représenté par un disque.
– Chaque modalité est représentée par un secteur
Variables qualitatives
circulaire dont la surface (pratiquement : l’angle
On considère une variable statistique qualitative au centre) est proportionnelle à l’effectif corres-
X prenant K modalités x1 , · · · , xk , · · · , xK . La seule pondant.
représentation qui nous intéresse est celle des effectifs Si ce type de graphique est couramment utilisé dans
Nk ou des fréquences fk . On utilise le tableau de les médias, c’est une très mauvaise représentation car
fréquence pour construire les graphiques définis par la il présente un risque d’interprétation : l’oeil distingue
suite. moins bien les différences entre secteurs (d’un camem-
bert) qu’entre hauteurs (d’un diagramme en barre).

11
Variables quantitatives répondre aux questions du style  combien d’indi-
vidus ont pris une valeur inférieure (ou supérieure)
Avant toute tentative de représentation, il y a lieu
à tant ? .
de distinguer entre variable discrète et variable classée
(regroupements en classes). Si pour une variable conti- diagrammes différentiels :
nue le regroupement en classes est nécessaire, lorsque Variables discrètes Pour les caractères quantitatifs
les modalités d’une variable discrète sont trop nom- discrets, la représentation graphique différentielle
Effectif ou Fréquence
breuses il est préférable de regrouper des modalités est le diagramme en bâtons où la hauteur des
pour obtenir une variable classée, afin que les gra- bâtons correspond à l’effectif Nk (ou la fréquence
phiques synthétisent l’information et restent lisibles. relative fk ) associé à chaque modalité du caractère
On considère une variable statistique quantitatives X xk .
prenant ses valeurs parmis K modalités ou classes
– Les valeurs discrètes prises par les modalités
x1 , · · · , xk , · · · , xK . On suppose les modalités (ou
sont placées sur l’axe des abscisses, ordonnées
classes) ordonnées telles que x1 < · · · < xk < · · · < xK .
comme il se doit.
On utilise le tableau de fréquence pour construire les
– Les effectifs ou fréquences sont placées sur l’axe
graphiques définis par la suite. Deux types de gra-
des ordonnées.
phiques sont intéressants à représenter :
– Les axes sont fléchés.
(1) Les diagrammes différentiels qui mettent en – La hauteur du baton est proportionnelle à l’ef-
évidence les différences d’effectifs (ou de fectif ou la fréquence.
fréquences) entre les différentes modalités ou – Attention : bien faire des batons et non des
classes. tuyaux ou des histogrammes.
Effectif ou Fréquence

X2 X3

X1

X4

X1 X2 X3 X4 Modalités

Figure 1.3 – Diagramme en batons

Exemple 1.6. Classement de 100 familles


en fonction du nombre d’enfants : On a re-
Figure 1.2 – Diagramme en secteurs
levé le nombre d’enfants de 100 familles choisies
au hasard. Le tableau ci-dessous donne les princi-
(2) les diagrammes cumulatifs qui permettent de pales caractéristiques de cette étude.

12
sont d’amplitudes égales, alors la hauteur des
rectangles est proportionnelle à l’effectif de la
classes.Avant toute construction d’histo-
gramme, il faut donc regarder si les classes
sont d’amplitudes égales ou non.
Les modalités (continues) sont représentés en abs-
cisses. Le cas des classes d’amplitudes égales ne
pose aucune difficulté car il suffit de reporter en
xi nombre d’enfants compris entre 0 et 7. ordonnée l’effectif (la fréquence). Si les classes sont
ni nombre de familles ayant xi enfants. d’amplitudes différentes, on reporte en ordonnée
fi fréquence relative des familles ayant xi enfants. nk
la densité dk = .
Fi fréquence cumulée des familles ayant au plus Lk
xi enfants.

Figure 1.5 – Histrogramme

+ + + L’histogramme est un outil statistique facile


à utiliser, donnant rapidement une image du compor-
tement d’un procédé et l’allure globale de la distri-
Figure 1.4 – Diagramme en bâtons de la distribution
bution ; il montre l’étalement des données et apporte
de l’exemple 1.6
ainsi des renseignements sur la dispersion et sur les va-
leurs extrêmes ; il permet de déceler, éventuellement,
des valeurs aberrantes.
Variables continues. Lorsque les caractères quanti- diagrammes cummulatifs. Les diagrammes cum-
tatifs sont continus, on utilise l’histogramme. mulatifs permettent de visualiser l’évolution des
Un histogramme est ensemble de rectangles fréquences cummulées ou des effectifs cummulés. On
contigus où chaque rectangle associé à chaque utilise en général la fonction de répartition em-
classe a une surface proportionnelle à l’effec- pirique dont la courbe correspond à l’évolution des
tif (fréquence) de cette classe. Si les classes fréquences cummulées. Elle se définie de la même

13
manière pour les variables quantitatives continues ou
discrètes.

Définition 1.7.
Fonction de répartition empirique :
Soit X une variable statistiques quan-
titative observée sur un échantillon
ω1 , · · · , ωn de taille n issue d’une popula-
tion Ω. On appelle fonction de répartition
empirique
 la fonction :
0,
 x < x01
i


 1X
Fb = Fi = nj , si x01 ≤ x < x0i+1
 n

 j=1 Figure 1.6 – Fonction de répartition empirique

1, si x ≥ x0I

Pour tout réel x,Fb est donc la proportion d’obser-


vations inférieurs ou égales à x. La fonction Fb est une
fonction en escalier. Le calcul pratique de Fb s’effectue
en ordonnant les n observations X(ω1 ), · · · , X(ωn ) par
ordre croissant. On note x01 , · · · , x0I les I valeurs dis-
tinctes obtenues et ni l’effectif de x0i .
On utilise la fonction de répartition empirique pour
répondre aux questions du style : Quel est le nombre
(ou le pourcentage) d’individus dont la valeur du ca-
ractère est inférieure ou égale à x ?
Polygone de fréquences
Il permet de représenter sous forme de courbe, la dis-
tribution des fréquences absolues ou relatives. Il est
obtenu en joignant, par des segments de droite, les
Les classes étant toutes de même amplitude, l’histo-
milieux des côtés supérieurs de chaque rectangle de
gramme est facile à tracer ; il suffit de construire des
l’histogramme. Pour fermer ce polygone, on ajoute à
rectangles dont l’aire est proportionnelle à la fréquence
chaque extrémité une classe de fréquence nulle.
des résistances de la classe correspondante.
Exemple 1.7. Étude de la dispersion d’un lot
de 400 résistances : On a contrôlé 400 résistances
dont la valeur nominale est égale à 100 kΩ et on a Courbes de fréquences cumulées
regroupé les résultats en classes d’amplitude 2 kΩqui Courbe cumulative croissante : on joint les points
représente environ le dixième de la dispersion totale ayant pour abscisses la limite supérieure des classes
de l’échantillon contrôlé. et pour ordonnées les fréquences cumulées croissantes

14
Figure 1.8 – Histogramme de la distribution de
l’exemple 1.7 et polygone de fréquence.

Mesures de tendance
Figure 1.7 – Courbe cumulative croissante (trait
plein) et courbe cumulative décroissante (trait poin- On considère sur un échantillon de n individus la
tillé) de la distribution de l’exemple 1.7 . variable statistique X = (X1 , X2 , · · · , Xn )

correspondant à la classe considérée (pour le premier Indicateurs de tendance centrale


point, on porte la valeur 0). Elle donne le nombre d’ob-
servations inférieures à une valeur quelconque de la Les mesures de tendance centrale permettent de
série. résumer un ensemble de données relatives à une va-
Courbe cumulative décroissante : la construc- riable quantitative. Elles permettent de déterminer une
tion de cette courbe est analogue à la précédente. valeur  typique  ou centrale autour de laquelle des
Les points ont pour abscisses, les limites inférieures données ont tendance à se rassembler.
des classes et pour ordonnées, les fréquences cumulées
décroissantes (pour le dernier point, la valeur est 0).
Elle donne le nombre d’observations supérieures à une Moyennes
valeur quelconque de la série.
L’indicateur le plus couramment utilisé est la
moyenne empirique ou moyenne arithmétique.
Exemple 1.8.

Définition 1.8.

15
Moyenne arithmétique : On appelle Définition 1.9.
moyenne arithmétique de X la quan- Moyenne tronquée d’ordre k : On ap-
tité : pelle moyenne tronquée d’ordre k de X la
n
quantité
X
Xi n−k
X1 + X2 + · · · + Xn i=1
1 X
X= = Xk = Xi
n n n − 2k
i=k+1

+ + + Sur une série discrète la moyenne est : X =


k
X Cette moyenne s’obtient en fait en supprimant les k
ni vi plus petites valeurs et les k plus grandes valeurs d’une
i=1
où vi est la modalité de la série et dans le cas observations.
n
Xk Il existe d’autres moyennes, dont on donne la définition
ni ci pour les plus courantes.
de série continue classée X = i=1 où ci représente
n Définition 1.10.
le centre de la classe i. Moyenne géométrique : On appelle
La moyenne possède, entre autre, la propriété moyenne géométrique de X la quantité
importante suivante :
v
u n
pn
uY
Proposition 1.1. Mg (X) = X1 X2 · · · Xn = t
n
Xi
i=1
La somme des écarts à la moyenne em-
pirique est nulle.
n
X n
X L’utilisation de la moyenne géométrique fait sens si
En effet, (Xi − X) = Xi − nX = 0 L’in- les valeurs ont un caractère multiplicatif.
i=1 i=1
convénient principal de la moyenne empirique comme
Définition 1.11.
indicateur de tendance centrale est d’être assez sen- Moyenne harmonique : On appelle
sible à la présence de valeurs  abérantes . Un indi- moyenne harmonique de X la quantité
cateur de tendance centrale plus robuste est donné par
la moyenne tronquée d’ordre k : n n
Mh (X) = 1 1 1 = n
+X1 X2 + ··· + Xn 1 X
Propriétés 1.3.1. – La moyenne arithmétique
permet de résumer par un seul nombre la série X i
i=1
statistique.
– Elle prend en compte toutes les valeurs de la série
et elle est facile à calculer. On utilise la moyenne harmonique lorsqu’on veut
– Elle est sensible aux valeurs extrêmes, il est par- déterminer un rapport moyen dans des domaines ou
fois nécessaire de supprimer des valeurs extrêmes ils existent des liens de porportionnalité inverse.
ou  aberrantes .

16
Définition 1.12. Quantiles
Moyenne quadratique :On appelle
moyenne quadratique de X la quantité Les quantiles permettent de donner des indications
v du type  1 personne sur 10 a moins de tel âge .
u n
u1 X
Mq (X) = t Xi2 La médiane est un indicateur de tendance centrale
n
i=1 (plus robuste que la moyenne empirique) qui divise la
population en deux parties, qui ont le même nombre
d’individus. Autrement dit, elle sépare l’échantillon
Définition 1.13. en deux parties égales.
Généralisation de la moyenne : On
peut généraliser la notion de moyenne de Médiane : La médiane Me est définie
X de la façon suivante, pour m ∈ R comme suit :
v
u n Définition 1.14. – Si n est impair alors
u1 X Me = X n+1 . la médiane est une valeur
Mm (X) = t n
Xim 2
n observée de la série
i=1 Xn+1 + Xn
– Si n est pair alors Me = .
2
on peut prendre pour valeur médiane,
+++ indifféremment l’une ou l’autre des
valeurs centrales ou n’importe quelle
On retrouve les moyennes définies valeur intermédiaire entre ces deux
précédemment avec cette définition très valeurs, par exemple, la moyenne
générale : arithmétique de ces deux valeurs, mais,
Pour m = 1, M1 (X) est la moyenne dans ces conditions, ce n’est pas une va-
arithmétique ; leur observée.
Pour m = −1, M−1 (X) est la moyenne
harmonique ; La formule de la médiane ci-dessous est valable pour
Pour m = 2, M2 (X) est la moyenne les variables discrètes. Si les variables sont continues,
quadratique ; la médiane Me obtenue est dans l’intervalle [xk−1 ; xk [
Lorsque m → 0 Mm (X) tend vers la avec la condition Fk−1 ≤ 0.5 < Fk par l’interpolation
0.5 − Fk−1
moyenne géométrique. linéaire : Me = xk−1 + (xk − xk−1 )
Fk − Fk−1

Théorème 1.1. Propriétés 1.3.2. – Le calcul de la médiane est


Inégalité des moyennes : Soient a ∈ R rapide.
et b ∈ R. Soit une variable statistique – La médiane n’est pas influencée par les valeurs
X sur N individus. On note M0 (X) la extrêmes ou aberrantes.
moyenne géométrique. – La médiane est influencée par le nombre des
Si a < b alors Ma (X) < Mb (X) données mais non par leurs valeurs, elle ne peut
donc pas être utilisée en théorie de l’estimation.

17
– Si la variable statistique est discrète, la médiane 6, 6, 14, 16, 18, 18
peut ne pas exister ; elle correspond seulement à Moyenne arithmétique 13, médiane 15
une valeur possible de cette variable. Série III : les deux séries précédentes réunies, 2, 5, 6,
– La médiane est le point d’intersection des courbes 6, 8, 11, 14, 14, 16, 18, 18
cumulatives croissante et décroissante. Moyenne arithmétique 10,72, médiane 11
– La médiane ne se prête pas aux combinaisons
Plus généralement, on peut définir une valeur qui
algébriques ; lamédiane d’une série globale ne peut
sépare l’échantillon en deux parties de tailles approxi-
pas être déduite des médianes des séries compo-
mativement égale à αN , où α ∈]a, b[. Une telle va-
santes.
leur est appelée quantile ou fractile empirique d’ordre
Exemple 1.9. Dispersion d’un lot de 400 α. Plusieurs définitions existent, et l’on donne la sui-
résistances ; Calcul de la moyenne arithmétique : vante :
1
X = 400 (93∗10∗1+95∗15+97∗40+· · ·+111∗10) = Définition 1.15.
400
101, 90 La moyenne arithmétique est égale à 101,90 Quantile d’ordre α : Soit α ∈]a, b[ Si
kΩ. Médiane : la série des observations comporte un αn ∈ n alors Qα = Xαn
nombre pair de classes. On peut définir une classe Sinon Qα = Xbαnc+1
médiane comme la moyenne des classes V et VI, c’est-
à-dire la classe fictive [101, 103[ donc une résistance Les quantiles les plus utilisés sont les quartiles
égale à 102 kΩ. Un calcul plus précis consiste à cher- et les déciles. Les quartiles divisent les observa-
cher la valeur de la résistance de l’individu occupant le tions en 4 parties (Q25% , Q50% , Q75% ). Les déciles
rang 200 (ou 200,5 !). Ne connaissant pas la distribu- divisent l’ensemble des observations en 10 parties :
tion à l’intérieur des classes, on fait une interpolation (Q10% , Q20% , Q30% , Q40% , Q50% , Q60% · · · )
linéaire. Le tableau de l’exemple 1.7 montre que cet in-
dividu appartient à la classe V. Enfin, un indicateur de position souvent utilisé
125 résistances ont une valeur nominale inférieure à dans le cas d’un caractère discret est le mode,
100 kΩ et 215 résistances ont une valeur nominale défini comme la valeur la plus fréquente dans la série
inférieure à 102 kΩ d’où le calcul de la médiane : d’observation (cette valeur n’est pas nécessairement
2 ∗ (200 − 125) unique). Dans le cas d’un caractère continu, cette
100 + = 101, 66.
215 − 125 notion ne s’applique pas directement, mais on peut
La médiane est égale à 101,66 kΩ. Donc, 200
définir une classe modale, lorsque les données ont
résistances ont une valeur nominale inférieure ou égale
été préalablement catégorisées.
à 101,66 kΩ et 200 résistances ont une valeur nomi-
nale supérieure à 101, 66 kΩ.
Les mesures données ci-dessus possèdent les deux
+ + + Le point d’intersection des deux courbes cu-
propriétés suivantes, qui permettent de savoir com-
mulatives a pour abscisse la médiane.
ment les données se comportent si elles subissent une
Exemple 1.10. On considère les séries d’observations translation ou un changement d’échelle. Intuitive-
suivantes. Série I : 5 observations classées par ordre ment, le  centre  d’une distribution doit  suivre la
croissant, 2, 5, 8, 11, 14 transformation car celle-ci ne pertube pas la position
Moyenne arithmétique 8, médiane 8 relative des points observés.
Série II : 6 observations classées par ordre croissant,

18
Application : boı̂te à moustaches Translation : Soit a ∈ R et la variable
Le diagramme en boı̂te à moustaches ou box-plot (Tu- statistique Y définie comme Y = X + a.
key)ou box-andWiskers plot permet de représenter Alors on a µY = µX + a, où µ désigne une
schématiquement les principales caractéristiques d’une mesure de tendance centrale (par exemple,
distribution en utilisant les quartiles. la moyenne ou la médiane).
La partie centrale de la distribution est représentée par
une boı̂te de largeur arbitraire et de longueur la dis-
Proposition 1.3.
tance interquartile, la médiane est tracée à l’intérieur.
La boı̂te à moustache résume la série à partir de ses Changement d’échelle : Soit a ∈ R
valeurs extrêmes, ses quartiles et sa médiane. Elle per- et la variable statistique Y définie comme
met une comparaison visuelle immédiate de plusieurs Y = aX. Alors on a µY = aµX , où µ
séries. La boı̂te rectangle est complétée par des mous- désigne une mesure de tendance centrale
taches correspondant aux valeurs suivantes : (par exemple, la moyenne ou la médiane).
– valeur supérieure : Q3 + 1, 5(Q3 − Q1 )
– valeur inférieure : Q1 − 1, 5(Q3 − Q1 ) Enfin, on peut se demander quels relations il
Les valeurs extérieures  aux moustaches sont existent entre la moyenne et la médiane. De manière
représentées par des étoiles ou des petits cercles et générale, il n’existe pas de lien entre la moyenne
peuvent être considérées comme aberrantes. et la médiane. Cependant, on comparera souvent la
I = Q3 − Q1 est appelé l’intervalle inter-quartile et moyenne et la médiane pour caractériser la distri-
comporte 50% des observations de la série. bution d’une série statistique :
On trace un rectangle de longueur l’inter-quartile et la
♣ Si la moyenne est supérieure à la médiane,
largeur proportionnelle à la racine carrée de la taille
on dit que la distribution des valeurs observées
de la série.
présente une dissymétrie positive.

Valeurs
♣ Si la moyenne est inférieure à la médiane,
atypiques ou
singulières ou
on dit que la distribution des valeurs observées
outliers présente une dissymétrie négative.
♣ Si la moyenne est égale à la médiane, on dit
que la distribution des valeurs observées est
symétrique.
Q1-I(Q3- Q1) Q1 Q2=Me Q3 Q3+I(Q3- Q1)
Xmin Xmax

Mode

Figure 1.9 – Exemple de boı̂te à moustaches (les Définition 1.16. Le mode est une moyenne de
astérisques ∗ représentent les valeurs aberrantes de la fréquence.
distribution)
Le mode : Le mode est la valeur de la
variable statistique la plus fréquente que
l’on observe dans une série d’observations.
Proposition 1.2.

19
Si la variable est une variable discrète, le mode s’ob- ♠ Les mesures calculées en fonction de la déviation
tient facilement. Si la variable est une variable conti- par rapport à une valeur centrale
nue, on définit une classe modale.
Propriétés 1.3.3. – Le mode n’existe pas toujours Étendue
et quand il existe, il n’est pas toujours unique.
Définition 1.17.
– Si après regroupement des données en classes, on
Étendue : L’étendu d’une série statis-
trouve deux ou plusieurs modes différents, on doit
tique est l’écart entre sa plus grande valeur
considérer que l’on est en présence de deux ou plu-
et sa plus petite.
sieurs populations distinctes ayant chacune leurs
caractéristiques propres ; dans ce cas, la moyenne e = max X − min X
arithmétique n’est pas une caractéristique de ten-
dance centrale.
Ce dernier indicateur est très peu robuste. On lui
Exemple 1.11. Dispersion d’un lot de 400 préferera souvent l’intervalle inter-quartile.
résistances : On ne peut pas définir une valeur mo- Un premier moyen de mesurer la dispertion des
dale en ne connaissant pas la distribution à l’intérieur données autour de la moyenne est l’écart moyen ab-
de chaque classe. On définit une classe modale, c’est solu.
la classe V.
Propriétés 1.3.4. – L’étendue est facile à calcu-
Exemple 1.12. Avec l’exemple 1.10 Série I : pas de
ler.
mode.
– Elle ne tient compte que des valeurs extrêmes de la
Série II : deux modes 6 et 18.
série ; elle ne dépend ni du nombre, ni des valeurs
Série III : les deux séries réunies, trois modes 6, 14
intermédiaires ; elle est très peu utilisée dès que le
et 18.
nombre de données dépasse 10.
– Elle est utilisée en contrôle industriel où le nombre
Remarque 1.1. Pour définir n’importe quelle ca- de pièces prélevées dépasse rarement 4 ou 5 ;
ractéristique (excepté la moyenne arithmétique), il faut elle donne une idée appréciable de la dispersion.
que les données soient classées en ordre croissant (ou Cependant, dès que cela est possible, on préfère
décroissant). Pour le calcul de la médiane, on peut prélever 15 à 20 unités et utiliser l’écart-type pour
trouver un résultat différent selon que les données sont apprécier la dispersion.
classées par ordre croissant ou décroissant.
Écart moyen absolu
Indicateurs de dispersion
Définition 1.18.
Comme le nom l’indique, les indicateurs de disper- Écart moyen absolu : L’écart moyen
tions permettent de mesurer comment les données se absolu est définie par la quantité
 répartissent . On peut définir deux types de mesure

de dispertions : n
1X
|Xi − X|
♠ Les mesures définies par la distance entre deux va- n
i=1
leurs représentatives de la distribution

20
Cette mesure à l’inconvénient mathématique de Proposition 1.5.
ne pas être dérivable partour (la valeur absolue n
σ ∗2 = σ2
n’est pas dérivable en 0). On corrige ce problème n−1
en mesurant la moyenne des écarts élevés au carré.
On obtient alors la définition de la variance empirique :
Enfin, pour avoir une quantité qui s’exprime dans
la même unité que la moyenne (l’unité de la variance
est l’unité de la moyenne élevée au carré), on utilise
Variance empirique
l’écarttype.
Définition 1.19.
Variance empirique : On appelle va-
Écart-type
riance empirique de la série statistique
X la quantité Définition 1.21.
n Écart-type : On définit l’écart type em-
2 1X
σ = (Xi − X)2 pirique comme la racine de la variance
n empirique :
i=1
v
u n
Un moyen pratique de calculer la variance √ u1 X
σ= σ =t 2 (Xi − X)2
empirique est donné par la proposition suivante : n
i=1

Proposition 1.4.
On appelle variance empirique de la série Les mesures de dispertions possèdent notamment les
statistique X la quantité propriétés suivantes :
n
1X 2 Proposition (Invariance par translation) Les
2
σ2 = Xi − X quantités de mesure de dispertion définies
n
i=1 ci-dessus sont invariantes par translation.
Proposition (Changement d’échelle) Soit a ∈ R
à démontrer
et Y = aX. On note σY2 (resp.σX2 ) la variance de
Cet estimateur pose un autre problème : il est 2 2 2
Y (resp. de X). On a σY = a σX et σY = aσX
biaisé. On utilise alors en pratique une version cor-
rigée
Propriétés 1.3.5. – L’écart-type caractérise la
dispersion d’une série de valeurs. Plus σ est petit,
Variance empirique corrigée plus les données sont regroupées autour de la
Définition 1.20. moyenne arithmétique X et plus la population est
Variance empirique corrigée : homogène ; cependant avant de conclure, il faut
faire attention à l’ordre de grandeur des données.
n
1 X 2 2 – L’écart-type permet de trouver le pourcentage de
σ ∗2 = Xi − X
n−1 la population appartenant à un intervalle centré
i=1
sur l’espérance mathématique.

21
– La variance tient compte de toutes les données, – Il permet d’apprécier l’homogénéité de la dis-
c’est la meilleure caractéristique de dispersion tribution, une valeur du coefficient de variation
(nombreuses applications en statistique). inférieure à 15 % traduit une bonne homogénéité
de la distribution.
Exemple 1.13. Séries d’observations de – Il permet de comparer deux distributions, même si
l’exemple 1.10 : les données ne sont pas exprimées avec la même
Série I unité ou si les moyennes arithmétiques des deux
Variance : 18 séries sont très différentes.
Écart-type : 4,24 – Quelques exemples de coefficient de variation : le
Série II coefficient de variation du régime nival est voisin
Variance : 26,33 de 0,1 ; celui d’un cours d’eau régulier de 0,3 mais
Écart-type : 5,13 il peut atteindre 0,5 et même 1 pour un cours d’eau
Série III (les deux séries réunies) irrégulier.
Variance : 28,75
Écart-type : 5,36
Indicateurs de forme

+ + + Pour une série discrète la variance est : Les indicateurs de forme donnent une idée de la
n
1 X symétrie et de l’aplatissement d’une distribution. Leur
σ2 = ni (vi − X)2 où vi représente la modalité
n usage est moins fréquent.
i=1
de la variable discrète et dans le cas d’une variable
n
1X
continue (intervalle) on a σ 2 = ni (ci − X)2 avec Distribution symétrique
n
i=1
ci est le centre de la classe i. Une série a une distribution symétrique si ses valeurs
sont également dispersées de part et d’autre de la va-
Coefficient de variation leur centrale, c’est-à-dire si le graphe de la distribution
- histogramme ou diagramme en bâton en fréquences
Définition 1.22. - admet une axe de symétrie.
Coefficient de variation : Il s’exprime, Dans une distribution parfaitement symétrique, Me =
sous la forme d’un pourcentage, par l’ex- X = M ode
pression suivante :
σ Coefficient d’asymétrie de Pearson
CV = ∗ 100
X
.
X − Me
δ=
σ
Propriétés 1.3.6. – Le coefficient de variation ne
dépend pas des unités choisies. . On a −1 ≤ δ ≤ 1.
– Il permet d’apprécier la représentativité de la – Si δ = 0 alors la symétrie parfaite.
moyenne arithmétique X par rapport à l’ensemble – Si δ < 0 alors la série étalée à gauche.
des données. – Si δ > 0 alors la série étalée à droite.

22
Coefficient de Yule tions groupées. pour un caractère continu, xi est rem-
placé par le centre de classe ci .
Q3 + Q1 − 2Me La valeur globale absolue partielle gi de la mo-
q= dalité i s’exprime par : gi = ni xi pour un caractère
Q3 − Q1
discret et gi = ni ci pour un caractère continu.
– Si q = 0 alors la symétrie parfaite. i
– Si q < 0 alors la série étalée à gauche.
X
La valeur globale absolue cumulée Gi = gj .
– Si q > 0 alors la série étalée à droite. j=1
gi
La valeur globale relative partielle qi = .
Applatissement G
r
X Gi
Une distribution est plus ou moins aplatie selon que La valeur globale relative cumulée Qi = qj =
G
les fréquences des valeurs voisines des valeurs centrales j=1
où r est le nombre de classe.
diffèrent peu ou beaucoup les une par rapport aux r
X
autres. L’indice de Gini est : ig = 1 − [F1 Q1 + (Fi −
coefficient d’aplatissement de Fisher ou kur- i=2
n r
m4 X X
tosis : a = 4 avec m4 = (xi − X)4 Fi−1 )(Qi + Qi−1 )] = 1 − [f1 Q1 + fi (Qi + Qi−1 )]
σ i=2
i
– Si a = 3 pour une distribution qui suit une loi Plus la distribution de X est inégalement répartie,
normale centrée réduite. plus la courbe de concentration s’éloigne de la
– Si a < 3 la concentration des valeurs de la série première bissectrice, la première bissectrice traduisant
autour de la moyenne est forte : la distribution l’équirépartition. La courbe en rouge de la figure 1.3.5
n’est pas aplatie. est appelée la courbe de Lorentz.
– Si a > 3 la concentration des valeurs autour de la
+ + + En pratique, lorsqu’on s’intéresse à la
moyenne est faible : la distribution est aplatie.
répartition d’une masse au sein d’une population, on
trace d’abord une courbe de LORENZ afin d’avoir
Indicateurs de concentration une idée visuelle de l’égalité ou de l’inégalité de
Ces caractéristiques sont utilisées pour une grandeur cette répartition. Ensuite, si l’on désire résumer cette
positive cumulative telle que le revenu, la consomma- inégalité par un chiffre, on calcule le coefficient de
tion ... GINI.
La concentration est définie pour les variables statis-
tiques positives en utilisant la notion de valeurs glo-
bales.
On appelle la valeur globale totale :
Xr Liaison entre deux variables statistiques [6]
G= xj pour un caractère discret et des observa-
liaison entre 2 variables quantitatives
j=1
tions non groupées. On dispose de deux séries x et y représentant l’ob-
r
servation des variables X et Y sur les mêmes n indi-
X
G= nj xj pour un caractère discret et des observa-
j=1 vidus : on a une série bidimensionnelle (x, y) de taille

23
Le graphique le plus adapté pour obser-
Qi ver les variations simultanées de deux va-
riables quantitatives est le nuage de points
(ou scatter-plot), représentant les n points
de coordonnées (xi , yi )dans un repère du
plan.

Indicateurs de liaison linéaire

Définition 1.23.
La covariance : de la population respec-
tivement de la population est définie par :
n
1X
cov(x, y) = ρ(x, y) = ρxy = (xi −
n
i=1
x)(yi − y) et cov ∗ (x, y) = ρ∗ (x, y) = ρ∗xy =
n
Fi 1 X
(xi − x)(yi − y)
n−1
i=1

Figure 1.10 – Courbe de concentration et indice de Propriétés 1.3.7. – c’ est une forme bilinéaire
Gini symétrique qui peut prendre toute valeur réelle et
dont la variance est la forme quadratique associée.
On a (idem pour cov ∗ (x, y)).
ρ(ax + by, z) = aρ(x, z) + bρ(y, z) ; ρ(x, ay + bz) =
n. Nous voulons mettre en évidence une éventuelle va- aρ(x, y)+bρ(x, z) ; ρ(x, y) = ρ(y, x) ; ρ(x, x) = σ 2 .
riation simultanée des deux variables statistiques X et – formule de Koenig generalisée : ρ(x, y) =
n−1
Y , appelée liaison. ρ(x, y)∗ = xy − xy
n
La liaison peut être
Lorsque le nuage de points est allongé suivant une di-
– causale : une variable X expliquant l’autre Y . rection de droite, on a affaire à une corrélation linéaire
– symétrique : les deux variables jouent des rôles entre x et y. L’intensité de la dépendance est alors me-
symétriques. surée par le coefficient de corrélation linéaire.

Sauf mention particulière, on s’interesse ici à une liai-


son symétrique. Visualisation : Définition 1.24.

24
Le coefficient de corrélation linéaire ou de choisir des échelles appropriées (automatique
de Pearson : le coefficient de corrélation avec la plupart des logiciels).
est égal à la covariance des séries centrées
Définition 1.25.
et réduites x∗ et y ∗ respectivement as-
La régression linéaire : Lorsqu’il y a
sociées à x et y : r(x, y) = ρ(x∗ , y ∗ ) avec
xi − x yi − y liaison fonctionnelle entre x et y on dit
x∗ = ) et y ∗ = ). qu’il y a régression de y en x ou y est
σx σy
Le coefficient de corrélation est égal à : expliquée par x si y = f (x). La courbes
r(x, y) = ρ(x,y) représentative de f (x) est appelée courbe
σx σy
de régression. Il y a régression linéaire
lorsque la courbe de régression est une
Propriétés 1.3.8. – Symétrie : r(x, y) = r(y, x). droite si et seulement si | r |= 1 . Lorsque
– Le coefficient de corrélation linéaire est compris r ' 1, le nuage de points est distribué au-
entre -1 et 1. tour d’une droite. On admet alors qu’ap-
proximativement y ' f (x), et que les
Evaluation du lien linéaire entre 2 variables différences constatées sont dues aux fluc-
quantitatives Il y a corrélation positive lorsque les tuations d’échantillon et diverses erreurs
variations de x et y se produisent dans le même d’observation qui surviennent de manière
sens, corrélation négative sinon. Plus les points sont aléatoire.
étroitement alignés, plus la corrélation est proche de Il existe alors deux réels a et b tels que
1. y ' ax + b. Y = aX + b est l’équation de
– | r |= 1 si l’on a une relation de type linéaire entre la droite de régression de y en x .
les variables.
– r = 0 si il n’existe aucun lien linéaire entre X et Calcul des coefficients de la droite de
Y . On dit que les variables sont non corrélées. régression :
+ + + La covariance dépend des unités de mesure On commence par chercher le ”meilleur” ajustement
dans lesquelles sont exprimées x et y. Le coefficient de linéaire sur nos données, au sens des moindres carrés :
corrélation est un indice de liaison  intrinsèque .
+ + + La covariance et le coefficient de corrélation
ne permettent de mettre en évidence qu’une relation
linéaire entre x et y.
+ + + Si deux variables sont statistiquement
indépendantes (aucun lien), la corrélation est nulle,
mais l’inverse est faux : il peut exister un lien autre
que linéaire entre elles.
+ + + Choix des échelles : Dans le cas de deux
variables homogènes (exprimées dans la même unité),
on prend la même échelle sur les deux axes ; dans le
cas de deux variables hétérogènes, il est préférable de
représenter les points de la série centrée et réduite

25
n
X – La fréquence conditionnelle nj/i est la distri-
a et bb sont tels que e2i = S(b ax − bb)2
a, bb) = (yi − b
bution de la variable Y quand on a fixé la modalité
b
i=1
est minimal. Ce sont les coefficients de la régression i pour la variable X ; on s’intéresse, par exemple,
ou estimations des moindres carrésde a et b. S(b a, bb) à la répartition des tailles des individus ayant tous
nij
∂S ∂S le même poids. Elle est définie par : nj/i =
sera minimum lorsque = = 0. ni•
∂b
a ∂bb – On définit de la même façon la fréquence condi-
Après résolution on obtient : a
b = nij
Pn
(xi − x)(yi − y) cov(x, y) tionnelle nj/i par : nj/i = .
i=1
Pn = et bb = y − b
ax. n•j
2 ρ2x
i=1 (xi − x) On s’intéresse, par exemple, à la répartition des
♣ La droite d’ajustement y = b ax + bb s’appelle droite poids des individus ayant tous la même taille.
de régression ou des moindres carrés. – Les fréquences relatives fij , fi• et f•j sont ob-
tenues en divisant les effectifs nij et les fréquences
♣ La valeur yi = b axi + bb s’appelle la ième valeur
marginales ni• et n•j par l’effectif total n.
estimée. C’est la valeur moyenne de Y lorsque
– Les distributions X et Y sont statistiquement
X = xi . C’est aussi la prévision de Y pour une
indépendantes si et seulement si : fij = fi• f•j pour
observation telle que X = xi .
toutes les valeurs des indices i et j.
♣ La valeur ei = yi − ybi s’appelle le ième résidu. On
n
X Définition 1.26.
peut montrer que : ei = 0
Le coefficient de Khi-deux : la me-
i=1
sure de la liaison entre X et Y va se
liaison entre 2 variables qualitatives faire en évaluant l’écart entre la situation
observée et la situation qu’on observerait
On suppose que les deux variables étudiées sont des si il y avait indépendance statistique. Cet
variables discrètes et que les caractères sont des ca- écart appelé coefficient de Khi-deux est :
p X q n n
ractères quantitatifs. Les tableaux statistiques portent X (nij − i•n •j )2
le nom de tableaux croisés ou tableaux de contingence. χ2 = ni• n•j .
i=1 j=1 n
Dans chaque case du tableau, on écrit l’effectif nij de
l’échantillon, c’est-à-dire le nombre de données tel que Plus χ2 est petit,
plus la liaison entre les
X = xi et Y = yj . On définit les fréquences absolues variables X et Y est forte.
suivantes :
q
Le χ2 n’étant pas borné, il est difficile d’apprécier
X
– Les fréquences marginales : ni• = nij et
j=1 l’importance de la dépendance ou de comparer deux
n•j = pi=1 nij
P
distributions. Il est donc important de quantifier ce
– La fréquence marginale ni• . est donc le nombre lien si elle existe entre les deux variables qualitatives.
d’individus possédant la modalité i du caractère X Nous donnons ici trois varaintes de coefficient
s :
quelle que soit la distribution du caractère Y ; par χ2
exemple tous les individus ayant le même poids – Coefficient de contingence :
χ2 + n
quelle que soit leur taille. χ2
– Les fréquences conditionnelles sont définies – Coefficient de Pearson : Φ2 =
n
pour chaque valeur de i et j. – Coefficient de Tschuprow : T =

26
Φ2
p où p et q désignent le nombre
(p − 1)(q − 1)
de modalités prises par les variables X et Y
respectivement. Ce coefficient est analogue à un
coefficient de corrélation linéaire 0 < T < 1

27
Chapitre 2

Probabilités [12]

Espace fondamental et évènements (1) au groupe sanguin et au facteur rhésus d’un indi-
vidu est
La théorie des ensembles qui est succinctement Ω = {A+, A−, B+, B−, AB+, AB−, O+, O−}
présentée dans ce chapitre constitue un outil puissant
dans plusieurs branches des mathématiques, notam- (2) au nombre de globules blancs Ω =
ment en probabilités. {1, 2, · · · , n, · · · }
(3) au taux de glycemie Ω = [0; 15] au-dela de 15,
Définitions l’individu n’est plus en état de subir une prise de
sang.
En face de situations dont l’issue est incertaine,
on a bien souvent envie d’attribuer à chacune des Ainsi pour une même épreuve, l’univers Ω peut être
éventualités possibles une vraisemblance plus ou moins fini (toutes les éventualités sont connues : cas (1) ou
grande. Afin de donner une rigueur mathématique à infini (toutes les éventualités ne sont pas connues : cas
ce concept, il est nécessaire tout d’abord de donner (2) et (3). Dans ces deux derniers cas, l’univers peut
quelques définitions. être dénombrable si on peut numéroter les éventualités
connues (cas (2)) ou bien continu comme dans le cas
– Une expérience ou une épreuve est qualifiee
du taux de glycemie (cas (3)).
d’aleatoire si on ne peut pas prévoir son résultat
et si, répétée dans des conditions identiques, elle Un évènement quelconque A est un
peut donner des résultats différents. ensemble d’évènements élémentaires et
– Le résultat d’une expérience noté ω constitue une constitue une partie de l’univers des
éventualité ou un évènement élémentaire. possibles Ω dont on sait dire a l’issue de
– L’ensemble des évènements élémentaires possibles l’épreuve s’il est réalisé ou non.
pour une expérience aléatoire donnée constitue
l’espace fondamental appelé univers ou uni-
vers des possibles noté Ω. Si ω ∈ A, alors A est réalisé. Mais si ω ∈ / A,
alors A n’est pas réalisé et c’est A, l’évènement
Exemple 2.1. Lors d’un contrôle sanguin, l’ensemble contraire qui est réalisé. Un évènement est donc une
des résultats possibles si l’on s’intéresse : assertion relative aux résultats d’une expérience.

28
Il est possible qu’un événement ne soit constitué L’évènement certain, noté Ω est toujours réalisé
que d’un seul événement élémentaire. Les évènements quelle que soit l’issue de l’épreuve. Il est constitué de
sont représentés par des lettres majuscules, A, B, C, toutes les éventualités et l’on impose que ce soit un
A1 , A2 , etc. évènement :
Exemple 2.2. Dans l’exemple 2.1 concernant les Ω ∈ ε(Ω)
groupes sanguins,
– l’évènement A ”l’individu est de rhésus positif” est L’évènement contraire ou complémentaire d’un
représenté par : A = {A+, B+, AB+, O+} avec évènement A, noté CA ou A est l’évènement qui est
A∈Ω réalisé si et seulement si A ne l’est pas. Il est donc
– l’évènement B ”l’individu est donneur universel” constitué des évènements élémentaires ω qui ne sont
est représenté par : B = {O−} un seul évènement pas dans A.
élémentaire
Dans le cadre de cet exemple, l’évènement A est réalisé ω∈A⇔ω∈
/A
si le résultat du typage donne l’un des 4 groupes san-
guins A+, B+, AB+, O+. Le complémentaire CA ou A correspond à la négation
logique non-A.
Remarque 2.1. √ Pour ce même exemple, le résultat
”la glycémie vaut 2” ne constitue pas un évènement
car il est impossible de savoir s’il est réalisé ou non. Exemple 2.3. Dans l’exemple concernant les groupes
Toute partie de Ω n’est pas forcément un évènement. sanguins, l’évènement contraire de A ”l’individu
Ainsi il faut toujours définir apres avoir déterminé est de rhésus positif” est constitué des évènements
l’univers Ω, l’ensemble des évènements noté ε(Ω). élémentaires suivants : A = {A−, B−, AB−, O−}.

Si Ω est fini, chaque partie A de l’univers Par définition, on obtient les relations suivantes :
Ω (A ⊂ Ω) est constituée d’un nombre fini
d’éventualités et dans ce cas l’ensemble
des évènements est tel que : ε(Ω) = P(A) A=A
l’univers des possibles

∅=Ω
L’ensemble des évènements de l’univers Ω est claire-
ment défini dans la suite du cours.
Ω=∅
Evènements remarquables
Léévénement impossible noté ∅ est l’événement qui
ne peut être réalisé quelle que soit l’issue de Opérations sur les évènements
l’épreuve. Bien que constitué d’aucune éventualité, ∅
est considéré comme un événement : Si l’on considère simultanément la réalisation de
deux évènements A et B, il est possible d’effectuer des
∅ ∈ ε(Ω) opérations sur ces ensembles.

29
L’intersection de deux évènements La réunion de deux évènements

On appelle intersection de deux On appelle réunion de deux évènements


évènements A et B, l’évènement qui est A et B, l’évènement qui est réalisé si et
réalisé si et seulement si A et B le sont. seulement si A ou B est réalisé. Il est donc
Il est donc constitué des éventualités constitué des éventualités appartenant à
appartenant à la fois à A et B. C’est un A ou à B . C’est un évènement noté A∪B
évènement noté A ∩ B tel que : tel que :
∀A, B ∈ ε(Ω), A ∩ B ∈ ε(Ω) ∀A, B ∈ ε(Ω), A ∪ B ∈ ε(Ω)
avec ω ∈ A ∩ B ⇔ (ω ∈ A et ω ∈ B) avec ω ∈ A ∪ B ⇔ (ω ∈ A ou ω ∈ B)

L’intersection A ∩ B correspond à la conjonction


L’intersection A ∪ B correspond à la disjonction lo-
logique  A et B .
gique  A ou B .
Exemples :
Proposer un schéma conceptuel et donner un exemple
Exemple 2.4. Proposer un schéma conceptuel et don- de réunion de deux évènements.
ner un exemple d’intersection de deux évènements. Quelques propriétés de la réunion (∪) :

Deux évènements A et B sont incompa-


♠ évènements complémentaires A ∪ A = Ω
tibles ou disjoints, s’ils ne peuvent être
réalisés simultanément. On a alors : ♠ élément neutre (∅) ∅ ∪ A = A
A∩B =∅
♠ élément absorbant (Ω) Ω ∪ A = Ω

Quelques propriétés de l’intersection (∩) : ♠ commutativité A ∪ B = B ∪ A

♠ associativité A ∪ (B ∪ C) = (A ∪ B) ∪ C
♣ évènements incompatibles A ∩ A = ∅
♠ distributivité avec l’ intersection (∪)
♣ élément neutre (Ω) Ω ∩ A = A A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C)

♣ élément absorbant (∅) ∅ ∩ A = ∅ +++++++++++++++++


Selon les lois de Morgan, nous avons :
♣ commutativité A ∩ B = B ∩ A

♣ associativité A ∩ (B ∩ C) = (A ∩ B) ∩ C A∪B =A∩B


♣ distributivité avec la réunion (∪)
A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C)
A∩B =A∪B

30
L’inclusion d’un événement On appelle espace probabilisable (Ω, C),
un objet forme de deux éléments :
Un événement A entraı̂ne un événement B – un espace d’éventualités Ω
si la réalisation de A implique celle de B. – un espace d’évènements C ⊆ P(Ω)
On dit que l’événement A est inclus dans avec
l’événement B.
(P1 ) A ∈ C ⇒ A ∈ C
[
A⊂B (P2 ) Ai ∈ C (∀i ∈ N∗ ) ⇒ Ai ∈ C
i
(P3 ) Ω ∈ C
L’implication logique  A⇒B  se traduit par l’in-
clusion A ⊂ B.
- - Ces trois axiomes ou propriétés suffisent à définir
un espace probabilisable
\ et on pourrait montrer qu’il
implique que ∅ ∈ C et Ai ∈ C
Système complet d’évènements i

A1 , A2 , . . . , An forment un système
complet d’évènements si les parties Probabilités
A1 , A2 , . . . , An de Ω constituent une
partition de Ω telle que : Le passage d’une description de type ensembliste des
À ∀i, Ai 6= ∅ phénomènes aléatoires à l’élaboration d’un véritable
Á ∀i 6= j, Ai ∩ Aj = ∅ modèle mathématique se fait en introduisant les me-
[ sures de probabilité.
 Ai = Ω
i
Définitions
Concept mathématique
+ + + Un système complet d’évènements est formé
de toutes les parties de Ω, c’est-à-dire des familles On appelle probabilité P toute appli-
d’évènements 2 à 2 incompatibles dont la réunion cation de l’ensemble des évènements
constitue l’évènement certain Ω. Ω dans l’intervalle [0, 1], tel que :
+ + + Le nombre de partitions possibles dans un P : ε(Ω) → [0, 1]
ensemble fini de n évènements est : A 7→ P (A)
si Card(Ω) = n alors Card(P(Ω)) = 2n satisfaisant les propriétés (ou axiomes)
suivantes
(P1 ) ∀A ∈ ε(Ω), P (A) ≥ 0
Espace probabilisable (P2 ) P (Ω) = 1
(P3 ) ∀A, B ∈ ε(Ω), si A ∩ B =
Supposons que l’ensemble des évènements constitue ∅ alors P (A ∪ B) = P (A) + P (B)
une classe C de P(Ω) , telle que : C ⊆ P(Ω)

31
+ + + Le concept mathématique de probabilité Exemple 2.5. (1) En tapant 5 lettres au hasard sur
modélise les notions intuitives de proportion et de une machine à écrire (possibilité de taper plu-
fréquence. Si l’on avance que la probabilité d’êre im- sieurs fois sur la même touche), la probabilité
munisé contre la tuberculose est de 0,8, on modélise d’obtenir le mot  lutte  est d’une chance sur
le fait qu’environ 80 % de la population est immunisé 12 millions. En effet il y a exactement 11 881
contre la tuberculose. 376 mots de 5 lettres possibles. (Arrangement avec
répétition)
Probabilités combinatoires (2) La probabilité d’obtenir un multiple de trois lors
du lancé d’un dé à 6 faces, non pipé est : A = 3, 6
Soit Ω un espace fondamental fini constitué de N d’où P(A)=2/6=1/3 avec k=2 et pi = 1/6
évènements élémentaires sur lequel on fait l’hypothèse
d’équiprobabilité de réalisation des N évènements Loi des grands nombres
élémentaires. On suppose ainsi que tous les évènements
élémentaires ont  la même chance  de se réaliser. Si l’on répète N fois une expérience dans
Dans ce cas la probabilite pi d’un évènement laquelle la probabilité d’apparition d’un
élémentaire quelconque ωi est telle que : événement A est P , la fréquence de cet
k
événement au cours des N expériences,
1 N
pi = avec pi = P (ωi ) tend vers P lorsque N tend vers l’infini.
N
Autrement dit N → ∞ ⇒ Nk → P
satisfaisant
(P1 ) ∀i, pi ≥ 0 Lorsque le nombre d’épreuves augmente indéfiniment,
X les fréquences observées tendent vers les probabilités et
(P2 ) pi = 1
les distributions observées vers les lois de probabilité.
i
Soit A un évènement quelconque constitué de k
Espace probabilisé
évènements élémentaires de Ω, on en deduit :
Nous définirons un espace probabilisé en utilisant
k X
l’axiomatique de Kolmogorov,
P (A) = avec P (A) = pi
N
ωi ∈A Définition 1 : On appelle probabilite
sur (Ω, C) une application P de C dans
Cette formule s’énonce souvent comme : l’intervalle [0, 1] telle que :
 – P (Ω) = 1
cardA nombre de cas favorables
P (A) = = – pour tout ensemble dénombrable
cardΩ nombre de cas possibles d’évènements incompatibles 2 à 2,

n n
Cette formule permet de ramener les calculs de pro-
[ X
on a : P ( Ai ) = P (Ai )
babilités à des décomptes d’évènements élémentaires i=1 i=1
effectués par des techniques d’analyse combinatoire Définition 2 : On appelle espace proba-
qui ne sont pas des probabilités. bilise, le triplet (Ω, C, P )

32
Ainsi un espace probabilisé désigne un espace fonda- + + + L’application de cette propriété est très utile
mental et ses évènements, muni d’une mesure de pro- lorsque le nombre d’évènements élémentaires de A, k,
babilités. est important et que le calcul des probabilités pi est
fastidieux.
Propriétés des probabilités
Evènement impossible
Des axiomes précédents découlent les propriétés ad-
ditives des probabilités, d’usage permanent. P (∅) = 0

Additivité
Inclusion
– Cas d’évènements incompatibles
Si A ⊂ B aors P (A) ≤ P (B)
Si A1 , A2 , . . . , Ai , . . . , An sont n
évènements incompatibles deux à
deux (Ai ∪ Aj 6= ∅ si i 6= j) alors : Indépendance statistique
P (A1 ∪ A2 ∪ . . . ∪ Ai ∪ . . . ∪ An ) =
P (A1 ) + P (A2 ) + . . . + P (Ai ) + . . . + P (An ) Définition 2.1. L’hypothèse d’indépendance entre
La probabilité de la réunion d’un en- évènements et plus généralement entre épreuves suc-
semble fini ou dénombrable d’évènements cessives est un préalable lors de l’établissement des lois
2 à 2 incompatibles est égale à la de probabilités.
somme de leur probabilité d’où :
n
X On dit que deux évènements A et B sont
P (∪i=1 Ai ) = P (Ai ) indépendants si l’on a : P (A ∩ B) =
i=1
P (A)P (B)
– Cas de deux évènements quelconques
Si A et B sont deux évènements quel- Ainsi si A et B sont deux évènements statistiquement
conques, alors : indépendants, la probabilité de la réalisation conjointe
de ces deux évènements est le produit de leur proba-
P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
bilité respective.
+ + + Il ne faut pas confondre évènements
indépendants et évènements incompatibles.
Evènement contraire
Supposons A et B à la fois indépendants et incompa-
Si A est un événement quelconque, alors tibles. On a alors :
P (A) = 1 − P (A) P (A ∩ B) = P (A)P (B) indépendants
P (A ∩ B) = P (∅) = 0 = P (A)P (B) d’où
nécessairement P (A) = 0 ou P (B) = 0.
Exemple 2.6. La probabilité lors du lancer d’un dé
non pipé d’obtenir  plus de 2  se traduit par A = Exemple 2.7. (1) Considérons le jeu qui consiste à
{3, 4, 5, 6} et A = {1, 2} d’où P (A) = 1 − P (A) = lancer un dé à 6 faces, non pipé. Soient les deux
1 − 2/6 = 4/6 = 2/3 évènements : A  le résultat est pair  et B  le

33
résultat est un multiple de trois  sont statistique- + + + n évènements peuvent être indépendants
ment indépendants. deux à deux, [P (Ai ∩ Aj ) = P (Ai ) × P (Aj )] avec i 6=
En effet, soit A = {2, 4, 6} ; B = {3, 6} ; A ∩ B = j sans etre independants au sens de la definition ci-
{6} dessus. Exercice d’application : On jette deux dés
ainsi P(A) =3/6 ; P(B) = 2/6 ; P (A ∩ B) = 1/6 non pipés et on considère les évènements suivants :
on verifie alors que : P (A ∩ B) = P (A)P (B) = A1  le premier dé donne un nombre pair 
3/6 × 2/6 = 6/36 = 1/6 A2  le deuxième dé donne un nombre pair 
(2) Si l’on considère une famille de deux enfants, A3  la somme des deux lancers est paire 
les deux évènements : A  enfants de sexe dif- Montrer que les 3 évènements A1 , A2 et A3 sont 2 à 2
ferent  et B  au plus une fille  ne sont pas sta- indépendants mais ne sont pas indépendants dans leur
tistiquement indépendants. En effet, l’espace pro- ensemble. La figure ci-dessous vous sera utile pour la
babilise Ω, contient 4 évènements élémentaires (si recherche de la solution.
l’on considère une famille ordonnée),Ω = A∪B =
{GG, GF, F G, F F } avec A = {GF, F G}, B =
{GG, GF, F G} et A ∪ B = {GF, F G}
d’où sous l’hypothèse d’équiprobabilite : P (A) =
1/2, P (B) = 3/4 et P (A ∩ B) = 1/2
On vérifie alors que : P (A ∩ B) 6= P (A)P (B) =
1/2 × 3/4 = 3/8 6= 1/2
Exercices d’application :
1. Montrer que si A est un évènement quelconque
alors A et ∅ sont indépendants ainsi que A et Ω
2. Si A et B sont deux évènements quelconques,
(i) A et B sont indépendants si et seulement si A
et B ou (A et B) sont indépendants.
(ii) A et B sont indépendants si et seulement si
A et B le sont.
Probabilités conditionnelles
Généralisation à n évènements
n évènements (n ≥ 2) , Définition
A1 , A2 , . . . , Ai , . . . , An sont dit
Soient deux évènements A et B d’un
indépendants dans leur ensemble (ou
espace probabilisé Ω avec P (B) 6= 0,
mutuellement indépendants) si on a :
on appelle probabilité conditionnelle de
P (A1 ∩ A2 ∩ . . . ∩ Ai ∩ . . . An ) =
l’évènement  A si B  (ou  A sachant
P (A1 ) × P (A2 ) × . . . × P (Ai ) × . . . × P (An )
n B ), le quotient
P (A ∩ B)
\ Y
ou P ( Ai ) = P (Ai ) P (A/B) = notée aussi PB (A)
i i=1 P (B)

34
On definit ainsi une probabilite sur Ω au sens de la Lorsque deux évènements sont indépendants, la pro-
définition donnée precedemment. babilité conditionnelle de A est la même que ce soit B
ou B qui est réalisé.

Théorème 2.1.
Exemple 2.8. Dans l’exemple du lancer d’un dé
Soit B un évènement de pro-
à 6 faces, non pipé, les deux évènements : A  le
babilité non nulle, alors :
PB : ε(Ω) → [0, 1] résultat est pair  et B  le résultat est un multiple
P (A ∩ B) de trois sont indépendants.
A 7→ P (A/B) = Ainsi la probabilité que la face soit paire sachant que
P (B)
c’est un multiple de 3 est :
si A = {2, 4, 6} ; B = {3, 6} ; A ∩ B = {6}
+ + + La probabilité P (A) est appelée la proba- et P (A) = 3/6 ; P (B) = 2/6 ; P (A ∩ B) = 1/6
bilité a priori et P (A/B) ou PB (A) la probabilité a P (A ∩ B) 1/6
P (A/B) = = = 1/2 = P (A)
posteriori car sa réalisation dépend de la réalisation de P (B) 1/3
B.

Probabilités totales
Probabilités composées
Théorème 2.2. Théorème 2.3.
Théorème : Formule des probabilités Théorème : Formule des probabilités
composées : Soit deux évènements A et totale : Si {A1 , A2 , . . . , Ai , . . . , An } est
B d’un espace probabilisé Ω. Alors, P (A ∩ un système complet d’évènements, quel
B) = P (B/A)P (A) = P (A/B)P (B) que soit l’évènement B, alors : P (B) =
P (B/A1 )P (A1 ) + P (B/A2 )P (A2 ) + . . . +
P (B/Ai )(Ai ) + . . . + P (B/An )P (An ) =
n
Si A et B sont deux évènements X
indépendants et que P (B) 6= 0 alors P (B/Ai )P (Ai )
i=1
ceci equivaut à affirmer que PB (A) =
P (A/B) = P (A)
Exemple 2.9. Une population animale comporte 1/3
Lorsque deux évènements sont indépendants, le fait de mâles et 2/3 de femelles. L’albinisme frappe 6 %
que l’un des évènements soit réalisé, n’apporte aucune des mâles et 0,36 % des femelles. La probabilité pour
information sur la réalisation de l’autre. Dans ce cas qu’un individu pris au hasard (dont on ignore le sexe)
la probabilité conditionnelle PB (A) (a posteriori ) est soit albinos est :
égale à la probabilité P (A) (a priori). Si A = {mâle} et A = {f emelle} constitue un
système complet d’évènements B = {albinos} et B =
Si A et B sont deux évènements {non albinos} sachant que P (B) = P (B/A)P (A) +
indépendants alors ceci équivaut à affir- P (B/A)P (A) alors P (B) = (0, 06 × 1/3) + (0, 0036 ×
mer que PB (A) = PB (A) = P (A). 2/3) = 0, 0224 soit 2,24% d’albinos dans cette popula-
tion.

35
Le théorème de Bayes Rappels sur les techniques de
Un corollaire au théorème des probabilités totales dénombrement [11]
est connu sous le nom de formule de Bayes.
Théorème 2.4. Diagrammes arborescents ou arbres
Théorème : Formule de Bayes : Exemple 2.11. On considère une urne qui contient
Si {A1 , A2 , . . . , Ai , . . . , An } st un systeme deux boules rouges, deux noires et une verte. On tire
complet d’évènements, et quel que soit deux boules sans remise. Il s’agit d’une expérience à
l’évènement B tel que P (B) 6= 0, alors : deux étapes où les différentes possibilités qui peuvent
P (B/Ai )P (Ai )
P (Ai /B) = n survenir sont représentées par un arbre horizontal.
X
P (B/Ai )P (Ai ) On obtient trois branches principales et trois
i=1 branches secondaires pour chaque étape sauf pour le
cas où une verte a été tirée en premier.
+ + + La formule de Bayes est utilisée de façon Le nombre de branches terminales de cet arbre
classique pour calculer des probabilités de causes dans donne le nombre d’éléments de l’univers.
des diagnostics (maladies, pannes, etc.). L’application R
du théorème de Bayes est à la base de toute une N

branche de la statistique appelée statistique baye- V

sienne. R R
N N
V V
Exemple 2.10. Dans une population pour laquelle 1
habitant sur 100 est atteint d’une maladie génétique N
V
A, on a mis au point un test de dépistage. Le résultat
du test est soit positif (T ) soit négatif (T ).
Lorsqu’on rencontre beaucoup d’étapes dans une
On sait que : P (T /A) = 0, 8 et P (T /A) = 0, 9
expérience et de nombreuses possibilités à chaque
On soumet un patient au test. Celui-ci est positif.
étape, l’arbre associé à l’expérience devient trop com-
Quelle est la probabilité que ce patient soit atteint de
plexe pour être analysé. Ces problèmes se simplifient
la maladie A soit PT (A) ou P (A/T ) ?
à l’aide de formules algébriques, comme on va le voir.
D’après la formule de Bayes : La démonstration de ces formules repose sur le fait
que dans le cas d’une expérience à deux étapes, par
P (A ∩ T P (T /A)P (A)
P (A/T ) = = exemple, un arbre qui aurait r branches principales
P (T ) P (T /A)P (A) + P (T /A)P (A) et s branches secondaires commençant à partir des r
0, 01 × 0, 8 branches principales aura rs branches terminales.
d’où P (A/T ) = = 0, 075
0, 01 × 0, 8 + 0, 1 × 0, 99
Ainsi avant le test, la probabilité d’être malade était de
Arrangements et permutations
P(A)=0,01 (probabilité a priori) et après le test la pro-
babilité d’être malade est de P (A/T ) = 0, 075 (proba- Envisageons un ensemble de n objets différents.
bilité a posteriori). Ainsi le test apporte un supplément Choisissons maintenant r de ces n objets et ordonnons
d’information. les.

36
Définition 2.2. Une disposition ordonnée de r objets Combinaisons
distincts pris parmi n est appelée arrangement de r
Définition 2.4. Un choix de r objets distincts pris
objets pris parmi n (on a obligatoirement r ≤ n).
parmi n sans tenir compte de leur ordre est appelé com-
Combien y en a-t-il ? binaison de r objets pris parmi n.
Pour compter le nombre total d’arrangements de r
Dans l’exemple précédent correspondant à l’en-
objets pris parmi n, il suffit de considérer les r posi-
semble des quatre lettres {a, b, c, d}, la combinaison
tions comme fixées et de compter le nombre de façons
{a, b} est la même que la combinaison {b, a} alors
dont on peut choisir les objets pour les placer dans
que l’arrangement (a, b) est différent de l’arrangement
ces r positions. C’est une expérience à r étapes où
(b, a).
l’on applique la technique du paragraphe précédent.
Combien y en a-t-il ? Le nombre total de combi-
Pour la première position, on a n choix possibles. Pour
naisons de r objets pris parmi n est noté Cnr . Pour
la deuxième position, on a n − 1 choix possibles...
trouver l’expression de Cnr , comparons le nombre d’ar-
Pour la r-ième position, on a n − r + 1 choix pos-
rangements et de combinaisons possibles de r objets
sibles. Si on désigne par Arn le nombre total d’arrange-
pris parmi n.
ments cherchés, l’arbre aura Arn branches terminales.
– Dans un arrangement on choisit r objets, puis on
On conclut
tient compte de leur ordre.
Proposition 2.1. – Dans une combinaison seul le choix des r objets
compte. Comme le nombre de façons d’ordonner
n! les r objets choisis est r!, on conclut qu’à chaque
Arn = n(n − 1)(n − 2) · · · (n − r + 1) = .
(n − r)! combinaison de r objets pris parmi n, on peut
associer r! arrangements et donc qu’il y a r! fois
Lemme 2.1. n! (lire “factorielle n”) est le produit de plus d’arrangements que de combinaisons.
tous les entiers jusqu’à n, n! = n(n−1)(n−2) · · · 3.2.1. On conclut
Par convention, 0! = 1.
Proposition 2.3.
Exemple 2.12. Les arrangements de deux
lettres prises parmi 4 lettres {a, b, c, d} Ar n(n − 1)(n − 2) · · · (n − r + 1) n!
2 4! Cnr = n = = .
sont au nombre de A4 = 2! = 12. Ce r! r! r!(n − r)!
sont : (a, b), (a, c), (a, d), (b, a), (b, c), (b, d),
(c, a), (c, b), (c, d), (d, a), (d, b), (d, c). Exemple 2.13. Le nombre de combinaisons de deux
4!
lettres prises parmi quatre {a, b, c, d} est C42 = 2!2! = 6.
Cas particulier : r = n Il s’agit d’ordonner n objets Ce sont : {a, b}, {a, c}, {a, d}, {b, c}, {b, d}, {c, d}.
entre eux, c’est-à-dire d’effectuer une permutation de
ces n objets. Permutations lorsque certains éléments sont sem-
blables
Définition 2.3. Une permutation de n éléments est
une disposition ordonnée de ces n éléments. Dans les paragraphes précédents, on a supposé que
les n objets étaient tous différents. Il arrive parfois que
Proposition 2.2. Les permutations de n éléments les n objets en contiennent un certain nombre qui sont
sont au nombre de Ann = n!. indiscernables.

37
Supposons qu’il n’y ait que k sortes d’objets dis- Cas ou les éléments ne sont pas obligatoirement dis-
tincts sur les n objets. Il y a tincts
– n1 objets de la 1-ère sorte,
Combien y a-t-il de manières de choisir r éléments
– n2 objets de la 2-ème sorte....
parmi n de façon ordonnée en n’imposant pas qu’ils
– nk objets de la k-ème sorte.
soient tous distincts les uns des autres ?
On a bien sûr n1 + n2 + · · · + nk = n.
En 1ère position, il y a n choix possibles. En 2ème
Pour déterminer le nombre total de permuta-
position, il y a encore n choix possibles... En rème
tions distinctes, comparons ce nombre cherché P
position, il y a toujours n choix possibles.
avec le nombre obtenu si on supposait les objets
Conclusion : Il y a donc nr choix pour les r éléments
différenciés. Plaçons nous dans le cas de l’exemple sui-
(r peut être supérieur à n dans ce cas).
vant : On cherche le nombre d’anagrammes du mot
P ROBABILIT E.
Choisissons un de ces anagrammes : le plus simple
est P ROBABILIT E.
– Si on différencie les lettres B, cette dispo-
sition peut provenir des deux permutations
P ROB1 AB2 ILIT E ou P ROB2 AB1 ILIT E, soit
2! possibilités.
– Si on différencie les lettres I, cette dispo-
sition peut provenir des deux permutations
P ROBABI1 LI2 T E ou P ROBABI2 LI1 T E, soit
encore 2! possibilités
A un anagramme correspond donc 2! × 2! = 4 per-
mutations, ce qui signifie qu’il y a 4 fois plus de permu-
tations que d’anagrammes. Le mot P ROBABILIT E
comprend 11 lettres. Il y a 11! permutations possibles.
11!
On a donc 2!2! = 9979200 anagrammes possibles.
Cas général. La différenciation des n1 premiers
objets donnera n1 ! fois plus d’éléments que ce qu’on
cherche, la différenciation des n2 premiers objets don-
nera n2 ! fois plus d’éléments que ce qu’on cherche, et
finalement on trouve que n! est n1 !n2 ! · · · nk ! fois plus
grand que le nombre cherché P. On conclut

Proposition 2.4. Le nombre d’anagrammes d’un mot


de n lettres, comportant seulement k < n lettres dis-
tinctes, en nombres n1 , . . . , nk est

n!
P= .
n1 !n2 ! · · · nk !

38
Chapitre 3

Variables aléatoires

Introduction
Dans la plupart des phénomènes aléatoires, le
résultat d’une épreuve peut se traduire par une  gran-
deur  mathématique, très souvent représentée par
un nombre entier ou un nombre réel. La notion
mathématique qui représente efficacement ce genre de
situation concrète est celle de variable aléatoire (notée
également v.a.). On se limitera ici au cas des variables
aléatoires réelles.
Etant donné un espace probabilisé d’es-
Exemple 3.1. Si l’on considère la constitution d’une
pace fondamental Ω et de mesure de pro-
fratrie de deux enfants, l’espace fondamental est
babilite P , on appelle variable aléatoire
constitué des évènements élémentaires suivant :
sur cet espace, toute application X de Ω
dans R telle que :

X : ε(Ω) → R
Ω = {GG, GF, F G, F F }
ω 7→ X(ω)

A chaque évènement élémentaire ω de Ω correspond Les valeurs possibles prises par la variable aléatoire X,
un nombre réel x associé à la variable aléatoire X.  nombres de fille dans la famille  sont : X(Ω) =
Comme l’indique le graphe, il n’y a pas obligatoire- {0, 1, 2}
ment autant de valeurs possibles prises par la variable
aléatoire X que d’évènements élémentaires. La valeur
x correspond à la réalisation de la variable X pour
l’évènement élémentaire ω.

39
Variables aléatoires discrètes
Définition
Une variable aléatoire est dite discrète
si elle ne prend que des valeurs discon-
tinues dans unn intervalle donné (borné
ou non borné). L’ensemble des nombres
entiers est discret. En règle générale,
toutes les variables qui résultent d’un
dénombrement ou d’une numération sont
de type discrètes.

Exemple 3.2. Les variables aléatoires, probabilité d’avoir un garçon est égale à celle d’avoir
– le nombre de petits par porté pour une espèce ani- une fille (1/2), alors la distribution de probabilité ou
male donnée (chat, marmotte, etc), loi de probabilité du nombre de filles dans une fratrie
– le nombre de bactéries dans 100 ml de préparation, de deux enfants est :
etc ...
sont des variables aléatoires discrètes. Ω X P (X = xi ) ou pi
G et G 0 1/4
Loi de probabilité F et G ou G et F 1 1/2
F et F 2 1/4
Une variable aléatoire est caractérisée par l’ensemble
des valeurs qu’elle peut prendre et par l’expression Ω :Ensemble des évènements possibles
mathématique de la probabilité de ces valeurs. Cette X : Valeurs de la variable aléatoire
expression s’appelle la loi de probabilité (ou distribu- P (X = xi ) ou pi : Probabilités associées à la variable
tion de probabilité) de la variable aléatoire. X
Remarque : Une loi de probabilité n’est établie que
X
La loi de probabilité d’une variable si pi = 1,la somme étant étendue à tous les indices
aléatoire discrète est entièrement i
déterminée par les probabilités pi i.
des évènements {X = xi }, xi parcou-
rant l’univers image X(Ω). La loi de Fonction de répartition
probabilité est donnée par les (xi , pi )i .
On appelle fonction de répartition d’une
variable aléatoire X, la fonction FX telle
Dans la suite du cours nous noterons P ({X = xi }) par que :
P (X = xi ) ou pi FX : R → R
Exemple : Dans le cas de la constitution d’une t 7→ FX (t) = P (X < t)
fratrie de deux enfants, si l’on fait l’hypothèse que la

40
Concrètement la fonction de répartition correspond à
la distribution des probabilités cumulées. Le plateau
atteint par la fonction de répartition
X correspond à la
valeur de probabilité 1 car pi = 1.
i
L’importance pratique de la fonction de répartition est
qu’elle permet de calculer la probabilité de tout inter-
valle dans R.
Les propriétés associées à la fonction de répartition (a) Diagramme en bâtons (b) Fonction de répartition
sont les suivantes :

Soit FX la fonction de répartition d’une


variable aléatoire discrète X alors : Variables aléatoires continues
(P1 ) ∀t ∈ R 0 ≤ FX (t) ≤ 1
(P2 ) FX est croissante sur R Définition
(P3 ) lim FX (t) = 0 et lim FX (t) = 1 Une variable aléatoire est dite continue
t→−∞ t→+∞
si elle peut prendre toutes les valeurs
(P4 ) si a ≤ b P (a ≤ X ≤ b) = FX (b) − dans un intervalle donné (borné ou non
FX (a) borné). En règle générale, toutes les va-
riables qui résultent d’une mesure sont de
type continu.
Exemple :
On considère l’évènement ω  lancer de 3 pièces . On
introduit une variable aléatoire X définie par X(ω) Exemples :
 nombre de piles de l’évènement ω . La loi de pro- Les variables aléatoires,
babilité de X est : – la masse corporelle des individus pour une espèce
Nombre de piles P (X = xi ) FX animale donnée,
1 1 – taux de glucose dans le sang,
0 3
2 8 – etc.
3 4
1 sont des variables aléatoires continues.
2 3 8
3 7
2 3
2 8 Fonction densité de probabilité
1
3 1
23 Dans le cas d’une variable aléatoire continue, la loi
Dans le cas d’une variable aléatoire discrète, on uti- de probabilité associe une probabilité à chaque en-
lise un diagramme en bâtons pour visualiser la distri- semble de valeurs définies dans un intervalle donné.
bution de probabilités et une fonction en escalier pour En effet, pour une variable aléatoire continue, la pro-
la fonction de répartition. babilité associée à l’évènement {X = a} est nulle, car
il est impossible d’observer exactement cette valeur.
On considère alors la probabilité que la variable

41
aléatoire X prenne des valeurs comprises dans un in- Une variable aléatoire X définie sur un
tervalle [a, b] tel que P (a ≤ X ≤ b). univers Ω, est dite absolument continue,
Lorsque cet intervalle tend vers 0, la valeur prise par s’il existe une fonction densité de proba-
X tend alors vers une fonction que l’on appelle fonction bilité
Rt f telle que : ∀t ∈ R P (X < t) =
densité de probabilité ou densité de probabilité. −∞ f (x) dx

On appelle densité de probabilité toute


application continue par morceaux : Fonction de répartition
f : R → R
telle que :
x 7→ f (x) Si comme pour les variables aléatoires discrètes, on
(P1 ) ∀x ∈ R f (x) ≥ 0 définit la fonction de répartition de X par :
R +∞
(P2 ) −∞ f (x) dx = 1 (en supposant que
R +∞ FX : R → R
−∞ f (x) dx existe t 7→ FX (t) = P (X < t)

f(x) alors la relation entre la fonction de répartition FX et


la fonction densité de probabilité f (x) est la suivante :
Rt
∀t ∈ R, FX (t) = P (X < t) = −∞ f (x) dx

La fonction de répartition FX (t) est la primitive (voir


cours d’analyse) de la fonction densité de probabilité
f (x), et permet d’obtenir les probabilités associées à
la variable aléatoire X, en effet :

Soit X une variable aléatoire absolument


continue de densité f et de fonction de
répartition FX , alors :
Figure 3.1 – fonction densité de probabilité
(P1 ) P (a ≤ X ≤ b) = FX (b) − FX (a) =
Rb
Soit une fonction densité de probabilité f (x) : a f (x) dx avec a < b

(1) l’aire hachurée en vert correspond à la probabilité (P2 ) ∀a ∈ R P (X = a) = 0 si f est


P (X ≤ −10) continue à droite du point a.
(2) l’aire hachurée en bleu correspond à la probabilité
P (10 ≤ X ≤ 15) + + + La propriété (P2 ) implique que P (X ≤ t) =
+ + + Cette fonction densité de probabilité est une P (X < t).
loi de probabilité car l’aire sous la courbe est égale à 1 La fonction de répartition correspond aux probabi-
pour toutes les valeurs de x définies. lités cumulées associées à la variable aléatoire continue
Réciproquement : sur l’intervalle d’étude (graphe ci-dessous).

42
f(x) FX(t) densité de probabilité.
La primitive de f (t), FT (t), fonction de répartition est
de la forme :

a a

(a) Fonction densité de probabilité (b) Fonction de répartition FX


f (x)

L’aire hachurée en vert sous la courbe de la fonc- (c) Fonction de densité de probabi- (d) Fonction de répartition
lité
tion densité de probabilité correspond à la probabilité
P (X < a) et vaut 0,5 car ceci correspond exactement à
la moitié de l’aire totale sous la courbe. Cette probabi-
lité correspond à la valeur de la fonction de répartition L’évolution de la recolonisation de l’étang par les
au point d’inflexion de la courbe (voir cours ana- canards colverts en fonction du temps est donnée par la
lyse). courbe rouge. On observe ainsi que plus de 50 % des
Les propriétés associées à la fonction de répartition canards se posent sur l’étang au cours des 2 premières
sont les suivantes : minutes qui suivent l’alerte. Au bout de 7 minutes,
tous les canards ont regagné l’étang. La distribution
Soit FX la fonction de répartition d’une des probabilités cumulées est donnée sur la courbe
variable aléatoire absolument continue X verte.
alors :
(P1 ) FX est continue sur R, dérivable en
tout point où f est continue et alors Espérance et Variance
FX0 = f
(P2 ) FX est croissante sur R Une loi de probabilité peut être caractérisée par cer-
taines valeurs typiques correspondant aux notions de
(P3 ) FX est à valeurs dans [0, 1] valeur centrale, de dispersion et de forme de distribu-
(P4 ) lim FX (t) = 0 et lim FX (t) = 1 tion.
t→−∞ t→+∞

Espérance mathématique
Exemple :
Dans une population de canards colverts, lors d’une L’espérance d’une variable aléatoire E(X) cor-
alerte, l’ensemble des individus quittent leur lieu de respond à la moyenne des valeurs possibles de X
repos. Ainsi à t = 0, la surface de l’étang est déserte pondérées par les probabilités associées à ces valeurs.
et la probabilité qu’un canard regagne l’étangR entre les C’est un paramètre de position qui correspond au
t
temps t1 et t2 (en minutes) est donnée par : t12 f (t) dt moment d’ordre 1 de la variable aléatoire X. C’est
avec f (t) = 2e−t − 2e−2t qui représente la fonction l’équivalent de la moyenne arithmétique X. En effet

43
lorsque le nombre d’épreuves n est grand, X tend vers Variables aléatoires continues
E(X) (voir le chapitre sur les estimations).
Si X est une variable aléatoire absolu-
ment continue de densité f , on appelle
espérance
R +∞ de X, le réel E(X) , défini par :
Variables aléatoires discrètes −∞ xf (x) dx si cette intégrale est conver-
gente.
Si X est une variable aléatoire discrète
définie sur un univers probabilisé Ω, on
appelle espérance de X, le réel défini par : Exemple :
Si on reprend l’exemple de la recolonisation de l’étang
X
E(X) = X(ω)P (ω)
ω∈Ω par les canards colverts, laR durée moyenneR pour la re-
+∞ +∞
colonisation est : E(T ) = 0 tf (t) dt = 0 2e−t −
2e−2t dt = 3/2. Sous ce modèle, la durée moyenne de
recolonisation pour l’ensemble de la population de ca-
+ + + Si X(Ω) est infini, on n’est pas sûr nards colverts est de 1,5 minutes.
que l’espérance existe. L’espérance mathématique est + + + Dans cet exemple, la variable étudiée t ne
également notée µ(X), µX ou encore µ si aucune confu- peut prendre que des valeurs dans [0, +∞[
sion n’est à craindre.
Nous pouvons donner une autre définition de Propriétés de l’espérance
l’espérance d’une variable aléatoire discrète X si à
ω ∈ Ω, on associe l’image x telle que X(ω) = x. Les propriétés de l’espérance valent aussi bien pour
une variable aléatoire discrète ou une variable aléatoire
Théorème :
absolument continue.

Si X et Y sont deux variables aléatoires


Si X est une variable aléatoire discrète de
définies sur un même univers Ω,admettant
loi de probabilité (xi , pi )i définit sur un
une espérance, alors :
nombre fini (n) d’évènements élémentaires
Xn (P1 ) E(X + Y ) = E(X) + E(Y )
alors : E(X) = xi p i (P2 ) ∀a ∈ R, E(aX) = aE(X)
i=1
(P3 ) Si X ≥ 0 alors E(X) ≥ 0
(P4 ) Si X est un caractère constant tel
que : ∀ω ∈ Ω, X(ω) = k alors
Exemples : E(X) = k
Si l’on reprend l’exemple d’une fratrie de deux en-
fants, l’espérance de la variable aléatoire  nombre de
filles  est : E(X) = 0 ∗ 1/4 + 1 ∗ 1/2 + 2 ∗ 1/4 = 1 +
R +∞+R +∞ + Dans le cas continu, E(X + Y ) =
d’où E(X) = 1 Si l’on observe un nombre suffisant de −∞ −∞ (x + y)f (x, y) dxdy. La propriété (P1 ) est
fratries de 2 enfants, on attend en moyenne une fille vérifiée quelques soient les relations de dépendance ou
par fratrie. d’indépendance statistique entre les deux variables.

44
Variance Exemple : Si l’on reprend l’exemple d’une fratrie
de deux enfants, la variance de la variable aléatoire
La variance d’une variable aléatoire V (X) est 2
 nombre de filles  est : V (X) = 1/4(0−1) +1/2(1−
l’espérance mathématique du carré de l’écart à
1)2 + 1/4(2 − 1)2 = 1/2
l’espérance mathématique. C’est un paramètre de dis-
V (X) = 1/2 et σ(X) = 0, 7
persion qui correspond au moment centré d’ordre 2 de
la variable aléatoire X. C’est l’équivalent de la variance
observée S 2 . En effet lorsque le nombre d’épreuves n Variables aléatoires continues
est grand,S 2 tend vers V (X) (voir le chapitre sur les Si X est une variable aléatoire conti-
estimations). nue donnée par sa densité de probabi-
lité alors la variance de X est leR nombre
Si X est une variable aléatoire ayant une +∞
réel positif tel que : V (X) = −∞ (x −
espérance E(X), on appelle variance de R +∞
X le réel : V (X) = E([X − E(X)]2 ) = E(X))2 f (x) dx = −∞ x2 f (x) dx−E(X)2
E(X 2 ) − [E(X)]2
Exemple :
+ + + Si X(Ω) est infini, il n’est nullement évident Dans le cadre de la recolonisation de l’étang par la
que V (X) existe. De plus comme [X − E(X)]2 ≥ 0 population de canard colvert, la variance de la loi de
nécessairement V (X) ≥ 0. Par définition, une variance probabilité est :
R +∞
est toujours positive. La variance est également notée V (T ) = −∞ (t − E(T ))2 f (t) dt = 5/4 avec σ = 1, 12
σ 2 si aucune confusion n’est à craindre.
Si X est une variable aléatoire ayant une Propriétés de la variance
variance V (X), pon appelle écart-type de
X, le réel : σ = V (X) Si X est une variable aléatoire admettant
une variance alors :
(P1 ) ∀a ∈ R, V (aX) = a2 E(X)
+ + + L’écart-type permet de disposer d’un pa-
(P2 ) ∀(a, b) ∈ R2 , V (aX + b) = a2 V (X)
ramètre de dispersion qui s’exprime dans les mêmes
unités que la variable aléatoire elle-même. Le terme (P3 ) V (X) = 0 ⇔ X = E(X)
 écart-type  se traduit en anglais par le faux-ami

 standard deviation .

Couples de variables aléatoires


Variables aléatoires discrètes
Si X est une variable aléatoire discrète de Loi jointe
loi de probabilité (xi , pi )i définie sur un Les définitions portant sur la loi jointe entre deux va-
nombre fini (n) d’évènements élémentaires riables aléatoires X et Y impliquent que ces dernières
alors la variance est égale à : V (X) = soient définies sur le même espace fondamental Ω. Si X
n n
X X et Y sont définies respectivement sur les espaces fon-
(xi − E(X))2 pi = x2i pi − E(X)2
i=1 i=1
damentaux Ω1 et Ω2 , alors il faut envisager un espace
qui englobe Ω1 et Ω2 appelé  espace-produit .

45
Il suffit alors de connaı̂tre la loi jointe des deux Variable XY : XY (Ω) = {0, 1, 2} dans ce cas
variables aléatoires ou loi de probabilité du couple E(XY ) = 1/2 et V (XY ) = 3/4
(X, Y ), la fonction définie par :

x, y → pxy = P ((X = x)et(Y = y) dans le cas Indépendance entre variables aléatoires


discret.
Les propriétés concernant l’indépendance statistique
entre deux variables aléatoires s’appliquent aussi bien
Dans le cas continu,pxy = P ((xa < X < xb ) et (yc <
aux variables aléatoires discrètes ou absolument conti-
Y < yd ) permet de définir la probabilité pour que
nues.
(X, Y ) soit dans un rectangle.
Théorème :
+ + + Ceci peut être généralisé à un nombre quel- Si X et Y sont deux variables aléatoires
conque de variables aléatoires. indépendantes définies sur le même uni-
Exemple : vers Ω alors : E(XY ) = E(X)E(Y )
On place au hasard deux billes rouge et verte dans
deux boites A et B. On note X, la variable aléatoire + + + L’application réciproque n’est pas vraie.
 nombre de billes dans la boite A  et Y , la variable La relation E(XY ) = E(X)E(Y ) n’implique pas
aléatoire  nombre de boites vides . forcément l’indépendance de deux variables aléatoires.

Exemple : Dans l’exemple concernant la répartition


des deux billes dans les 2 boites, la relation E(XY ) =
E(X)E(Y ) est vérifiée car : E(X) = 1 ; E(Y ) = 1/2
et E(XY ) = 1/2 cependant les variables aléatoires X
Les distributions de probabilités associées à chacune et Y ne sont pas indépendantes.
des variables X et Y ainsi que celle de la loi jointe En effet ρ0 0 = P ((X = 0) ∩ (Y = 0)) = 0 car il
sont indiquées ci-dessous. Pour chaque loi, la valeur est impossible d’avoir à la fois aucune bille dans la
de l’espérance et de la variance est également indiquée. boite A et aucune boite vide. Or on attend si X et Y
sont deux variables statistiquement indépendantes, à
xi 0 1 2
ce que P ((X = 0) ∩ (Y = 0)) == P (X = 0)P (Y =
pi 1/4 1/2 1/4 0) = 1/4 ∗ 1/2 = 1/8 6= 0
Variable X : X(Ω) = {0, 1, 2} dans ce cas E(X) = 1 Théorème :
et V (X) = 1/2
Si X et Y sont deux variables aléatoires
yi 0 1 indépendantes définies sur le même uni-
qi 1/2 1/2 vers Ω alors : V (X + Y ) = V (X) + V (Y )
Variable Y : Y (Ω) = {0, 1} dans ce cas E(Y ) = 1/2
et V (Y ) = 1/4 + + + L’application réciproque n’est pas vraie.
La relation V (X + Y ) = V (X) + V (Y ) n’implique pas
x i yj 0 1 2 forcément l’indépendance de deux variables.
ρi j 3/4 0 1/4

46
Exemple : Si X et Y sont deux variables aléatoires
Si l’on reprend l’exemple de la répartition de deux définies sur le même univers Ω et
billes dans deux boites, la distribution de probabilité indépendantes alors : cov(X, Y ) = 0
de la variable aléatoire (X + Y ) est :

xi + yj 0 1 2 3
ρi j 0 3/4 0 1/4 Les propriétés de la covariance sont les suivantes :
Variable X+Y : X + Y (Ω) = {0, 1, 2, 3} dans ce cas
E(X + Y ) = 3/2 et V (X + Y ) = 3/4

Comme V (X) = 1/2 et V (Y ) = 1/4 alors


Si X et Y sont deux variables aléatoires
V (X) + V (Y ) = 3/4 = V (X + Y ).
définies sur un même univers Ω alors :
(P1 ) ∀(a, b) ∈ R2 , V (aX + bY ) =
On retrouve ainsi la relation V (X + Y ) = V (X) + a2 V (X) + 2abcov(X, Y ) + b2 V (Y )
V (Y ) bien que X et Y ne soient pas indépendantes.
(P2 )

Covariance et Corrélation [cov(X, Y )]2 ≤ V (X)V (Y )

Lorsque l’on considère deux variables aléatoires si- |cov(X, Y )| ≤ ρ(X)ρ(Y )


multanément, il faut définir un indicateur de leur  liai- (P3 ) −1 ≤ R(X, Y ) ≤ 1
son  qui complète les paramètres qui les caractérisent
chacune séparément (espérance mathématique et va-
riance).

+ + + Si X et Y sont indépendantes, ρ = 0 mais la


Si X et Y sont deux variables aléatoires
réciproque est fausse. Il peut arriver, par hasard, que
définies sur le même univers Ω, on appelle
ρ = 0 sans que X et Y soient indépendantes.
covariance de ces deux variables, le réel :

cov(X, Y ) = E(XY ) − E(X)E(Y )


et coefficient de corrélation, le réel :
Opérations sur les variables aléatoires
cov(X, Y )
R(X, Y ) =
ρ(X)ρ(Y ) Il arrive souvent que l’on effectue des transforma-
tions sur les variables aléatoires par commodité de
calcul et il est important de savoir comment se com-
Il résulte de cette définition, le théorème suivant : portent les paramètres associés à cette variable.
Nous avons résumé ci-dessous quelques transforma-
Théorème : tions possibles avec a et b ∈ R

47
Translation de l’origine seule X → dont l’emploi est indispensable pour utiliser la plu-
X +b part des tables notamment les tables de la loi normale
– E(X + b) = E(X) + b réduite.
– V (X + b) = V (X)
Changement d’unités seul X → aX Généralisation à n variables aléatoires
– E(aX) = aE(X) Si l’on considère une épreuve à laquelle est
– V (aX) = a2 V (X) associée un espace fondamental Ω et une
Cas général X → aX + b variable aléatoire X et si l’on répète n fois,
– E(aX + b) = aE(X) + b de façon indépendante cette épreuve, on
– V (aX + b) = a2 V (X) obtient une suite X1 , X2 , · · · , Xi , · · · , Xn
variables aléatoires qui sont :
– définies sur le même espace fondamental
Il existe d’autres transformations de variables
– de même loi de probabilité
aléatoires qui conduisent à des valeurs de paramètres
– indépendantes
particulières.
alors : E(X1 + X2 + · · · + Xi + · · · + Xn ) =
n
Une variable aléatoire X est dite centrée
X
E(Xi ) (Propriété (P1 ) de l’espérance
si E(X) = 0. i=1
que les v.a. soient indépendantes ou non )
Exemple :
V (X1 + X2 + · · · + Xi + · · · + Xn ) =
La variable Y = X − E(X) est une variable aléatoire Xn
centrée car V (Xi ) (Propriété de la variance dans
i=1
E(Y ) = E[X − E(X] = E(X) − E(E(X)) le cas d’indépendance des v.a.)

or E(E(X)) = E(X) voir propriétés (P4 ) de


l’espérance ainsi E(Y ) = E(X) − E(X) = 0

Une variable aléatoire admettant une va-


riance est dite réduite si V (X) = 1.

Exemple :
X
La variable Y = √ est une variable aléatoire réduite
X
car V (Y ) = 1 (Démontrer en exercice)

A toute variable aléatoire X d’espérance E(X) et de


variance V (X) on peut associer la variable aléatoire
X − E(X)
p dite variable aléatoire centrée réduite et
V (X)

48
Chapitre 4

Lois de Probabilité

Introduction Loi uniforme

Définition
Il est toujours possible d’associer à une variable
aléatoire une probabilité et définir ainsi une loi Une distribution de probabilité suit une
de probabilité. Lorsque le nombre d’épreuves aug- loi uniforme lorsque toutes les va-
mente indéfiniment, les fréquences observées pour leurs prises par la variable aléatoire sont
le phénomène étudié tendent vers les probabilités équiprobables. Si n est le nombre de
et les distributions observées vers les distributions de valeurs différentes prises par la variable
1
probabilité ou loi de probabilité. aléatoire, ∀i, P (X = xi ) =
n
Identifier la loi de probabilité suivie par une variable
aléatoire donnée est essentiel car cela conditionne le
choix des méthodes employées pour répondre à une
question donnée.
Exemple :
La distribution des chiffres obtenus au lancer de dé (si
ce dernier est non pipé) suit une loi uniforme dont la
loi de probabilité est la suivante :
X 1 2 3 4 5 6
P (X = xi ) 1/6 1/6 1/6
1/6 1/6 1/6
Lois discrètes 6
1 X
avec pour espérance : E(X) = i = 3, 5 et pour
6
i=1
6
Par définition, les variables aléatoires discrètes variance V (X) = 1X
i2 − E(X)2 = 2, 92 où les va-
prennent des valeurs entières discontinues sur un in- 6
i=1
tervalle donné. Ce sont généralement le résultat de leurs xi correspondent au rang i de la variable X dans
dénombrement. la série.

49
Espérance et variance Loi binomiale
Dans le cas particulier d’une loi discrète Définition
uniforme où les valeurs de la variable Décrite pour la première fois par Isaac Newton
aléatoire X correspondent au rang xi = en 1676 et démontrée pour la première fois par le
i ∀i ∈ [0, 1] mathématicien suisse Jacob Bernoulli en 1713, la loi
n+1 n2 − 1
E(X) = et V (X) = binomiale est l’une des distributions de probabilité
2 12 les plus fréquemment rencontrées en statistique
appliquée.

Loi de Bernoulli Soit l’application Sn : Ωn → Rn avec


Définition Sn = X1 + X2 + · · · + Xi + · · · + Xn où Xi est
une variable de Bernoulli.
Soit un univers Ω constitué de deux éventualités, S
pour succès et E pour échec E = {E, S} sur lequel on La variable binomiale, Sn , représente le nombre
construit une variable aléatoire discrète, nombre de de succès obtenus lors de la répétition de n épreuves


succès  telle que au cours d’une épreuve, identiques et indépendantes, chaque épreuve ne
si S est réalisé, X = 1 pouvant donner que deux résultats possibles.
si E est réalisé, X = 0
Ainsi la loi de probabilité suivie par la
On appelle variable de Bernoulli ou va- somme de n variables de Bernoulli où la
riable indicatrice, la variable aléatoire X probabilité associée au succès est p, est la
telle que : loi binomiale de paramètres n et p.
n n
X : Ω → R avec X(Ω) = {0, 1} S n :Ω →R

n
X
Sn = Xi → B(n, p)
La loi de probabilité associée à la va- i=1
riable de Bernoulli X telle que,
P (X = 0) = q
P (X = 1) = p avec p + q = 1 La probabilité que Sn = k, c’est à dire l’obtention
est appelée loi de Bernoulli notée B(1, p) de k succès au cours de népreuves indépendantes est :

P (Sn = k) = Cnk pk q n−k
 
Il est facile de démontrer que l’on a bien une loi de
Espérance et variance probabilité car :
n n
z L’espérance de la variable de Ber- X X
P (Sn = k) = Cnk pk q n−k = (p + q)n = 1
noulli est E(X) = p
k=0 k=0
z La variance de la variable de Bernoulli
est V (X) = pq + + + Le développement du binôme de Newton
(p + q)n permet d’obtenir l’ensemble des probabilités

50
pour une distribution binomiale avec une valeur n
et p donnée. Il existe également des tables de la loi
binomiale où les probabilités sont tabulées pour des
valeurs n et p données.

Exemple :
Dans une expérience sur le comportement du rat,
rattus norvegicus, on fait pénétrer successivement n
rats dans un labyrinthe en forme de H. On étudie
alors la probabilité que k rats empruntent la branche
supérieure droite du H.
Figure 4.1 – Nombre de rats ayant emprunté la
branche supérieure droite du labyrinthe
A chaque épreuve, deux évènements peuvent se
produire : soit le rat suit l’itinéraire voulu (succès)
soit il ne l’emprunte pas (échec). Sachant qu’il y a Espérance et variance
4 itinéraires possibles (branches), la probabilité du
z L’espérance d’une variable binomiale
succès p = 1/4.
Sn est E(Sn ) = np
z La variance d’une variable binomiale
Hypothèse : Sn est V (Sn ) = npq

– si les rats n’ont pas été conditionnés, Exemple :


– si la branche supérieure droite ne comporte aucun Dans le cadre de l’étude de comportement du rat
élément attractif ou répulsif, , quel est en moyenne le nombre attendu de rats qui
– si le choix de l’itinéraire d’un rat n’affecte pas le vont emprunter l’tinéraire prévu si l’expérience porte
choix du suivant (odeurs) sur un lot de 20 rats ? Donnez également la variance
et l’écart type de cette variable ?
alors : la variable aléatoire X  itinéraire emprunté
pour x rats  suit une loi binomiale X → B(n, 41 )
Stabilité de la loi binomiale
dont la distribution des probabilités est la suivante Théorème :
si l’on étudie le comportement de 5 rats :
Si Sn et Sm sont deux variables
+ + + Il est possible d’obtenir aisément les valeurs indépendantes suivant des lois bino-
des combinaisons de la loi binomiale en utilisant le tri- miales respectivement Sn → B(n, p) et
angle de Pascal. De plus on vérifie que la somme des Sm → B(m, p) alors Sn +Sm → B(n+m, p)
probabilités est bien égale à 1.

51
devient très fastidieux. On va donc, sous certaines
conditions, trouver une approximation de pk plus
maniable.

Comportement asymptotique :

Si n → ∞ et p → 0
alors X : B(n, p) → P(λ) avec np → λ

+ + + Cette approximation est correcte si n ≥ 50


et np ≥ 5.

Exemple :
Soit une loi binomiale de parametres (100; 0, 01), les
valeurs des probabilites pour k de 0 a 5 ainsi que leur
approximation a 10−3 avec une loi de Poisson de pa-
rametre (λ = np = 1) sont donnees dans le tableau
ci-dessous :

Dans le cas de cet exemple où n = 100 et np =


Loi de Poisson
1, l’approximation de la loi binomiale par une loi de
La loi de Poisson découverte au début du XIX e poisson donne des valeurs de probabilités identiques à
siècle par le magistrat français Siméon-Denis Pois- 10−3 près.
son s’applique souvent aux phénomènes accidentels où
la probabilité p est très faible (p < 0, 05). Elle peut Loi de Poisson
également dans certaines conditions être définie comme
limite d’une loi binomiale. On appelle processus poissonnien (ou processus
de Poisson), le modèle probabiliste des situations qui
voient un flux d’évènements se produire les uns à la
Approximation d’une loi binomiale par la loi de Poisson suite des autres de façon aléatoire (dans le temps et

Lorsque n devient grand, le calcul des probabilités dans l’espace), obéissant aux conditions suivantes :
d’une loi binomiale ♣ la probabilité de réalisation de l’évènement au cours
d’une petite période ou sur une petite portion
P (Sn = k) = Cnk pk q n−k d’espace 4t est proportionnelle à 4t soit p4t

52
♣ elle est indépendante de ce qui s’est produit P (X > 0) = 1 − P (X = 0) = 1 − 0, 0067 = 0,9933
antérieurement ou à côté, soit 99,3 % de chance d’avoir au moins une colonie
♣ la probabilité de deux apparitions sur le même 4t bactérienne qui se développe dans la boite de Pétri.
est négligeable. (voir événement contraire)
Ainsi, des évènements qui se réalisent de façon
Comme pour la loi binomiale, il est possible d’utiliser
aléatoire comme des pannes de machines, des accidents
une formule de récurrence pour calculer les valeurs
d’avions, des fautes dans un texte, etc peuvent être
des probabilités successives : 
considérés comme relevant d’un processus poissonnien.
λ
P (X = k) = P (X = k − 1)
Une variable aléatoire X à valeurs dans R
k
suit une loi de Poisson de paramètre
λ (λ > 0) si les réels pk sont donnés par Espérance et variance
λk e−λ
P (X = k) = . On note : X → P(λ)
k! z L’espérance d’une variable aléatoire
de Poisson est E(X) = λ
+ + + Une loi de Poisson est donnée par sa loi de z La variance d’une variable aléatoire
probabilité : de Poisson est V (X) = λ
(1) ∀k, P (X = k) > 0
X λk e−λ X λk
Exemples :
X
(2) P (X = k) = = e−λ or
k! k! Dans le cadre de la culture bactérienne, le nombre
k≥0 k≥0 k≥0
X λk X X moyen de colonies attendu sur la boite de Pétri est :
= e−λ d’où P (X = k) = e−λ eλ E(X) = λ = 5 colonies
k!
k≥0 k≥0 k≥0
Exemple : Ainsi si l’on effectue plusieurs cultures bactériennes
Une suspension bactérienne contient 5000 (plusieurs boites de Pétri) à partir de la même solution
bactéries/litre. On ensemence à partir de cette initiale, on attend en moyenne cinq colonies pour
suspension, 50 boites de Pétri, à raison d’1 cm3 par l’ensemble des boites.
boite. Si X représente le nombre de colonies par boite,
alors la loi de probabilité de X est : En ce qui concerne la variance et l’écart-type ,
p
on aura : V (X) = λ = 5 et σ(X) = V (X) =
X → P(λ = 5)
2,24 colonies
La probabilité qu’il ’y ait aucune colonie sur la boite
de Pétri est : Stabilité de la loi de Poisson
50 e−5
P (X = k) = = 0,0067 soit approximative-
0! Si X et Y sont deux variables aléatoires
ment 0,67 % de chance. indépendantes suivant des lois de
Poisson respectivement X → P(λ) et
La probabilité qu’il n’y ait au moins une colonie Y → P(µ) alors X + Y → P(λ + µ)
sur la boite de Pétri est :

53
Loi binomiale négative Espérance et variance
Définition z L’espérance associée à une loi bino-
n
Sous le schéma de Bernoulli (épreuves identiques et miale négative est : E(X) =
p
indépendantes), on désire obtenir n succès et l’on
z La variance associée à une loi bino-
considère la variable aléatoire discrète X qui représente nq
miale négative est : V (X) = 2
le nombre d’épreuves indépendantes k nécessaire p
à l’obtention des n succès.

X suit une loi binomiale négative de


Loi géométrique
paramètres n et p notée BN (n, p) si :
n−1 n k−n
P (X = k) = Ck−1 p q avec k, n ∈ N et Lorsque le nombre de succès n est égal à
k≥n 1, la loi de la variable aléatoire discrète
X porte le nom de loi de Pascal ou loi
+ + + Dans le cas de la loi binomiale négative, géométrique de paramètre p telle que :
le nombre de succès n est connu et l’on cherche le P (X = k) = pq k−1 avec k ∈ N∗
nombre d’épreuves k, nécessaire pour obtenir les n
succès. Ainsi le dernier évènement est connu car les
épreuves cessent avec l’obtention du nième succès et En effet,
l’on choisit n − 1 objets parmi k − 1. Si l’on considère la variable aléatoire X  nombre
de naissances observées avant l’obtention d’une
Exemple : fille  avec p = 1/2 (même probabilité de naissance
Pour étudier le domaine vital d’une population de d’une fille ou d’un garçon), la loi suivit par X est une
poissons, des émetteurs radio sont fixés au niveau loi géométrique car :
de la nageoire dorsale après une légère anesthésie X = 1 si {X = F } avec P (X = 1) = p
locale. Suite à divers aléas, on considère que 30 % des X = 2 si {X = G ∩ F } avec P (X = 2) = qp 2
poissons équipés ne sont pas repérés par la suite. Si X = 3 si {X = G ∩ G ∩ F } avec P (X = 3) = qqp = q p
l’on considère qu’un minimum de 15 poissons doivent d’où X = k si {X = G ∩ G ∩ · · · ∩ k−1
G ∩ F } avec k − 1
être suivis pour avoir des résultats statistiquement {X = G} et donc P (X = k) = pq
acceptables, la variable aléatoire X  nombre de
poissons devant être équipés  suit une loi binomiale Espérance et variance
négative X → BN (15, 0.70)
z L’espérance associée à la loi
En posant comme hypothèse que les causes de pertes 1
géométrique est : E(X) =
de liaisons radio soient suffisamment nombreuses pour p
assurer l’indépendance entre chaque épreuve, la proba- z La variance associée à la loi
q
bilité d’être obligé d’équiper 20 poissons est de : géométrique est : V (X) = 2
p
19!
P (X = 20) = (0.70)15 (0.3)5 = 0.13
14!5!

54
Zd Zd
Lois continues 1
P (c ≤ X ≤ d) = f (x) dx = dx =
b−a
Par définition, les variables aléatoires continues c c
d−c
prennent des valeurs continues sur un intervalle donné.
b−a
(3) La fonction de répartition associée à la loi uni-
Loi uniforme
forme continue est telle que :
Définition FX (x) = 0 si x < a
FX (x) = 1 si x > b
La loi uniforme est la loi exacte de phénomènes x−a
continus uniformément répartis sur un intervalle. FX (x) = si a ≤ x ≤ b
b−a

La variable aléatoire X suit une loi uni- Espérance et variance


formee sur le segment [a, b] avec a < b si
sa densité de probabilité est donnée par : z L’espérance de la loi uniforme conti-
1 a+b
f (x) = si x ∈ [a, b] nue vaut : E(X) =
b−a 2
f (x) = 0 si x ∈ / [a, b] z La variance de la loi uniforme conti-
(b − a)2
nue vaut : V (X) =
12

Loi normale ou loi de Laplace-Gauss


Définition
On parle de loi normale lorsque l’on a affaire à
une variable aléatoire continue dépendant d’un grand
nombre de causes indépendantes dont les effets s’ad-
(a) Fonction de densité de probabi- (b) Fonction de répartition ditionnent et dont aucune n’est prépondérante (condi-
lité
tions de Borel). Cette loi acquiert sa forme définitive
avec Gauss (en 1809) et Laplace (en 1812). C’est
pourquoi elle porte également les noms de : loi de La-
Quelques commentaires : place, loi de Gauss et loi de Laplace-Gauss.
Elle jouit d’une importance fondamentale car un
(1) La loi uniforme continue étant une loi de proba- grand nombre de méthodes statistiques reposent sur
bilité, l’aire hachurée en rouge sur la figure elle. Ceci est lié au fait qu’elle intervient comme loi
ci-dessus vaut 1. Ceci implique que la valeur prise limite dans des conditions très générales.
1 Pour faire ressortir toute son importance et sa forme,
par f (x) vaut f (x) = .
b−a W.J. Youden, du National Bureau of Standards, a eu
(2) La probabilité que X ∈ [c, d] avec c < d avec l’ingénieuse idée de la présenter telle qu’elle apparaı̂t
c, d ∈ [a, b] vaut : ci-dessous.

55
La Une variable aléatoire absolument
loi normale continue X suit une loi normale
de paramètres (µ, σ) si sa densité
des erreurs
de probabilité est donnée par :
constitue l’une f : R → R
1 x−µ 2
des généralisations x 7→ f (x) = σ√2π e− 2 ( σ )
1

les plus étendues de avec µ ∈ R et σ ∈ R+


la philosophie naturelle On note X → N (µ, σ)
dans l’histoire de l’humanité.
Elle est un outil précieux pour la +∞
R
+ + + On admet que f (x) dx = 1 dans la me-
recherche en sciences physiques et −∞
sociales ainsi qu’en médecine, en agriculture sure où l’intégration analytique est impossible.
et en génie. Elle est indispensable à l’analyse et à
l’interprétation des données obtenues par Etude de la fonction densité de probabilité
l’observation ou La fonction f est paire autour d’un axe de symétrie
l’expérience. x = µ car f (x + µ) = f (µ − x) d’où DE = [µ, +∞[.

Ladérivé
 première
 f 0 (x) est égale à :
Exemple 4.1. – Ainsi la taille corporelle d’un ani- x−µ
f 0 (x) = − f (x)
mal dépend des facteurs environnementaux (dis- σ2
ponibilité pour la nourriture, climat, prédation, d’où f 0 (x) = 0 pour x = µ et f 0 (x) < 0 pour x > µ
etc.) et génétiques. Dans la mesure où ces facteurs
sont indépendants et qu’aucun n’est prépondérant, La dérivé seconde f 00 (x) est égale à : f 00 (x) =
(x − µ)2

on peut supposer que la taille corporelle suit une 1
− 2 1− f (x)
loi normale. σ σ2
– En métrologie, pour la distribution des erreurs d’où f 00 (x) = 0 pour x = µ + σ et f 00 (x) < 0 pour
d’observation. x>µ+σ
– En météorologie, pour la distribution de + + + Le paramètre µ et représente l’axe de
phénomènes aléatoires tels que la température et symétrie et le degré d’aplatissement de la courbe
la pression. de la loi normale dont la forme est celle d’une courbe
– En biologie, pour la distribution de caractères en cloche.
biométriques comme la taille ou le poids d’in- On peut effectuer quelques remarques à propos de
dividus appartenant à une population homogène. ces courbes.
En technologie, pour la distribution des cotes des a) La distribution est symétrique par rapport à la
pièces usinées. droite d’équation x = m. Donc l’aire sous la courbe de
– En économie, pour les fluctuations accidentelles part et d’autre de cette droite est égale à 0.5.
d’une grandeur économique (production, ventes, b) La distribution est d’autant plus étalée que σ est
....) autour de sa tendance, etc..... grand.

56
Espérance et variance

z L’espérance de la loi normale vaut :


E(X) = µ
z La variance de la loi normale vaut :
V (X) = σ 2

Stabilité de la loi normale

Théorème :

Soient X1 et X2 deux variables aléatoires


normales indépendantes de pa-
c) L’axe des abscisses est une asymptote et l’aire ramètres respectifs (µ1 , σ1 ), (µ2 , σ2 )
sous la courbe à l’extérieur de l’intervalle[m − 3σ, m + alors leur somme X1 + X2 est une va-
3σ] est négligeable. riable aléatoire normale de paramètres
p
Pour fixer les idées, on peut indiquer que (µ1 + µ2 , σ12 + σ22 )

p(m − σ < X < m + σ) = 0.6826 Ce théorème se généralise immédiatement à la


p(m − 2σ < X < m + 2σ) = 0.9544 somme de n variables aléatoires normales
p(m − 3σ < X < m + 3σ) = 0.9974. indépendantes.

Cela peut être visualisé sur le graphique ci-après. Loi normale réduite
Définition
Une variable aléatoire continue X suit
0.3413 0.3413
une loi normale réduite si sa den-
sité de probabilité est donnée par :
0.1337 0.1337 f : R → R
1 1 2
0.0201 0.0201 x 7→ f (x) = √ e− 2 x

!2.58 !1.96 !1 0 1 1.96 2.58
Aire = 0.6826

Aire = 0.9500 + + + f est bien une loi de probabilité car :


Aire = 0.9902
– ∀R, f (x) ≥ 0
+∞
R
– f est intégrable sur ] − ∞, +∞[ et f (x) dx = 1
Loi N (0, 1). −∞

57
Etude de la fonction densité de probabilité Calcul des probabilités d’une loi normale

La fonction f est paire car f (−x) = f (x) d’où DE = La fonction de répartition de la loi normale
[0, +∞[ réduite permet d’obtenir les probabilités associées à
La dérivé première est f (x) = −xf (x) avec f (x) ≤ 0 toutes variables aléatoires normales N (µ, σ) après
0 0

pour x ≥ 0 transformation en variable centrée réduite.


00 2
La dérivée seconde est f (x) = −f (x)+x f (x) = (x −2

1)f (x) qui s’annule pour x = 1 sur DE On appelle fonction π, la fonc-


tion de répartition d’une variable
normale réduite X telle que :
f : R → R
où
t 7→ π(t) = P (X < t)
Zt
1 1 2
P (X < t) = √ e− 2 t dt

−∞

Les propriétés associées à la fonction de


répartition π sont :
(1) π est croissante, continue et dérivable
sur R et vérifie : lim π(t) = 0 et
+ + + L’axe de symétrie correspond à l’axe des t→−∞
ordonnées (x = 0) et le degré d’aplatissement de la lim π(t) = 1
t→+∞
courbe de la loi normale réduite est 1. (2) ∀t ∈ R, π(t) + π(−t) = 1
∀t ∈ R, π(t) − π(−t) = 2π(t) − 1
Espérance et variance
Une application directe de la fonction π est la lec-
z L’espérance de la loi normale réduite
ture des probabilités sur la table de la loi normale
vaut : E(X) = 0
réduite.
z La variance de la loi normale réduite
vaut : V (X) = 1
Approximation par des lois normales
Théorème central limite (ou de tendance normale)
Relation avec la loi normale
Théorème 4.1. Soit une suite de variables aléatoires
Si X suit une loi normale N (µ, σ) alors réelles X1 , X2 , . . . , Xn définies sur le même espace de
X −µ
Z = , une variable centrée probabilité, suivant la même loi D et indépendantes.
σ Supposons que l’espérance µ et l’écart-type σ de D
réduite suit une la loi normale réduite
N (0, 1) existent et soient finis (σ 6= 0).
Considérons la somme Sn = X1 + X2 + . . . + Xn . Alors

58

l’espérance de Sn est nµ et son écart-type vaut σ n On approche la loi B(n, p) par la loi
. De plus, quand n est assez grand, la loi normale
√  n ≥ 30

N (nµ, σ n) est une bonne approximation de la loi de N (np, npq) dès que np ≥ 15
Sn . nq ≥ 15

Afin de formuler mathématiquement cette approxima-
tion, nous allons poser
Approximation de la loi de Poisson par la loi normale
Xn = Sn /n = (X1 + X2 + . . . + Xn )/n
On démontre qu’on peut aussi approcher la loi de
et Poisson par la loi normale pour les grandes valeurs du
Sn − nµ Sn − µ paramètre de la loi de Poisson. La seule qui puisse
Zn = √ = √
σ n σ/ n convenir est celle qui a même espérance et même
de sorte que l’espérance et l’écart-type de Zn valent √ On approche donc la loi P(λ) par la loi
variance.
N (λ, λ). En pratique, cela s’applique dès que λ ≥ 16.
respectivement 0 et 1 : la variable est ainsi dite centrée
et réduite.
On approche
√ la loi P(λ) par la loi
Alors la distribution de la variable somme X = X1 +
N (λ, λ) dès que λ ≥ 16
X2 + · · · + Xn se rapproche de la distribution normale
lorsque n tend vers l’infini.

Quelques conseils pour résoudre les


Approximation de la loi binomiale par la loi normale
problèmes
Une variable qui suit une loi binomiale B(n, p) peut
toujours être considérée comme une somme de n va- Voici, lorsqu’elle s’applique, une méthode de travail
riables de Bernoulli indépendantes de même paramètre qui peut guider votre démarche.
p. 1. Suite à l’énoncé du problème, identifier correcte-
ment à l’aide de mots la variable aléatoire que
X = X1 + · · · + Xn ,
vous allez considérer.
où Xi sont des variables de Bernoulli. Les hypothèses 2. Préciser les valeurs possibles que peut prendre
du théorème centrale limite étant vérifiées, on peut cette variable.
affirmer que, lorsque n tend vers l’infini, la loi bino- 3. Identifier correctement la loi de probabilité qu’elle
miale B(n, p) tend vers une loi normale. La loi normale suit en essayant de reconnaı̂tre dans le problème
qui l’approche le mieux est celle qui possède la même une situation type.

espérance np et le même écart-type npq, q = 1 − p. 4. Déterminer les paramètres de la loi.
Or la distribution binomiale est asymétrique sauf
5. Utiliser les formules théoriques ou les tables pour
lorsque p = 1/2. La distribution normale, elle, est
déterminer les probabilités demandées. Face à de
symétrique. L’approximation sera valable lorsque p
longs calculs et en l’absence de tables correspon-
n’est pas trop voisin de 0 ou 1 et sera d’autant
dant à vos ou votre paramètre, penser à approcher
meilleure que p est proche de 1/2 et que n est grand.
votre loi par une autre.
En pratique :

59
[7] Laurence Reboul, Rappels de Statistique des-
criptive http://iml.univ-mrs.fr/~reboul/
cours2.pdf
[8] Renée Veysseyre (2006), Aide-méoire statistique
et probabilités pour l’ingénieur, 2ème édition 448

Bibliographie pages
[9] Eric Traoré , Cours de statistique et probabilités
pour Bachelor 3, 46 pages.
[10] Anderson D.R., Sweeney D.J., William T.A. ,
Statistique pour l’économie et la gestion, 779
[1] Matthieu Kowalski (2009), Statistique descrip- pages.
tive : introduction, http://webpages.lss.
[11] Anderson J.P.(2008), probabilités et
supelec.fr/perso/matthieu.kowalski/
statistique en S5 IFIPS, 107 pages.
downloads/Enseignement/2008_2009/
http://www.math.u-psud.fr/~pansu/web_
StatDes/cours1.pdf, consulté le 29/08/2013
ifips/proba_S5-IFIPS.pdf
[2] Matthieu Kowalski(2009), Tableaux statis- [12] Dominique Mouchiroud, Cours de probabilités
tiques et graphiques, http://webpages.lss. et statistique du premier cycle universitaire
supelec.fr/perso/kowalski/downloads/ pour biologiste. http://spiral.univ-lyon1.
Enseignement/2008_2009/StatDes/cours2. fr/mathsv/
pdf, consulté le 29/08/2013
[3] Matthieu Kowalski(2009), Mesures de
tendance centrale et de dispersion,
http://webpages.lss.supelec.fr/perso/
kowalski/downloads/Enseignement/2008_
2009/StatDes/cours3.pdf, consulté le
29/08/2013
[4] wikipedia, définition de la statistique http:
//fr.wikipedia.org/wiki/Statistique,
consulté le 29/08/2013
[5] Yves Tillé (2010), Resumé du Cours de Sta-
tistique Descriptive http://www2.unine.ch/
files/content/sites/statistics/files/
shared/documents/cours_statistique_
descriptive.pdf
[6] Laurence Reboul, C-Liaison entre deux va-
riables statistiques http://iml.univ-mrs.fr/
~reboul/cours2bis.pdf

60

Vous aimerez peut-être aussi