Cours Statistique 2020 2021

Table des matières
1 La Statistique descriptive à une variable 3

1.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Vocabulaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Distribution statistique discrète . . . . . . . . . . . . . . . . . . . . . . 4
1.4 Distribution statistique groupée . . . . . . . . . . . . . . . . . . . . . . 8
1.5 Variable qualitative . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.5.1 Variable qualitative nominale . . . . . . . . . . . . . . . . . . . 11
1.5.2 Variable qualitative ordinale . . . . . . . . . . . . . . . . . . . . 12
1.6 Paramètres de position . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.7 Paramètres de dispersion . . . . . . . . . . . . . . . . . . . . . . . . . 19
2 Statistique descriptive à deux variables 22

2.1 Distributions marginales et distributions conditionnelles . . . . . . . 22
2.1.1 Dépendance et indépendance . . . . . . . . . . . . . . . . . . 24
2.1.2 Ajustement linéaire d’un nuage de points . . . . . . . . . . . . 24
3 Dénombrement et espace de probabilités 31

3.1 Dénombrement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.1.1 Ensembles finis . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.1.2 Arrangements et combinaisons . . . . . . . . . . . . . . . . . . 31
3.2 Espaces de probabilités . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.2.1 Expérience aléatoire et événements . . . . . . . . . . . . . . . 32
3.2.2 Lois de probabilités conditionnelles et indépendance . . . . . 35
4 Variables aléatoires discrètes 40

4.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.1.1 Variable aléatoire discrète . . . . . . . . . . . . . . . . . . . . . 40
4.1.2 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . 41
4.1.3 Quantiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.1.4 Espérance, variance, écart-type et moments . . . . . . . . . . . 44
4.1.5 Variables aléatoires discrètes indépendantes . . . . . . . . . . 45
4.2 Lois classiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.2.1 Loi uniforme discrète . . . . . . . . . . . . . . . . . . . . . . . . 46
4.2.2 Loi de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.2.3 Loi binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.2.4 Loi géométrique . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.2.5 Loi hypergéométrique . . . . . . . . . . . . . . . . . . . . . . . 49
1
MIP/FSTH Statistiques Descriptives et Probabilités 2020-2021
4.2.6 Loi de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
5 Variables aléatoires continues 53

5.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.1.1 Variable aléatoires réelles et densité de probabilité . . . . . . . 53
5.1.2 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . 54
5.1.3 Quantiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.1.4 Espérance, variance, écart-type et moments . . . . . . . . . . . 56
5.2 Lois usuelles continues . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.2.1 Loi uniforme sur [a, b] . . . . . . . . . . . . . . . . . . . . . . . 57
5.2.2 Loi exponentielle . . . . . . . . . . . . . . . . . . . . . . . . . . 59
5.2.3 Loi normale ou loi de Gauss-laplace . . . . . . . . . . . . . . . 61
5.2.4 Loi de Cauchy . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
5.3 Inégalité de markov et de Bienaymé-Tchebychev . . . . . . . . . . . . 73
6 Couple de variables aléatoires 74

6.1 Couple de variables aléatoires discrètes . . . . . . . . . . . . . . . . . 74
6.1.1 Loi conjointe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
6.1.2 Fonction de répartition conjointe . . . . . . . . . . . . . . . . . 74
6.1.3 Lois marginales . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
6.1.4 Lois conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . 75
6.1.5 Indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
6.2 Couple de variables aléatoires continues . . . . . . . . . . . . . . . . . 77
6.2.1 Fonction de répartition et densité . . . . . . . . . . . . . . . . . 77
6.2.2 Densités marginales . . . . . . . . . . . . . . . . . . . . . . . . 78
6.2.3 Indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
6.3 Covariance et coefficient de corrélation . . . . . . . . . . . . . . . . . . 81
https://myfsth.wordpress.com -2-
Chapitre 1
La Statistique descriptive à une

variable
1.1 Généralités
La statistique désigne l’ensemble des méthodes ou des techniques consistant à
collecter des données, à les traiter, les analyser et à les interpréter afin de tirer des
conclusions et prendre des décisions dans les situations d’incertitudes.
La statistique s’applique à la plupart des disciplines : agronomie, biologie, démogra-
phie, économie, sociologie,... On distingue deux catégories, la statistique descriptive
et la statistique inférentielle :
1. L’objectif de la statistique descriptive est de résumer et synthétiser l’informa-
tion contenue dans les données étudiés afin d’en déduire un certain nombre
de propriétés. On utilise à cette fin, des tableaux, des graphiques et on calcule
certains indicateurs ou caractéristiques.
2. Le but de la statistique inférentielle consiste à extrapoler à partir d’un échan-
tillon (une partie restreinte) de la population à étudier, le comportement de
la population dans son ensemble. En d’autre terme, elle généralise à une po-
pulation toute entière des propriétés constatées sur un échantillon. On peut
citer comme exemples, les sondages, les contrôle de qualité, ....
Remarque 1.1. La statistique descriptive ne s’applique que si les données ont été collectées
sur toute la population, alors que pour la statistique inférentielle ça ne concerne qu’un échan-
tillon de la population. On se limitera dans ce cours à la statistique descriptive seulement.
1.2 Vocabulaire
Population : ensemble des éléments sur lesquels porte l’étude ou l’activité sta-
tistique. Cet ensemble est généralement noté Ω.
( Étudiants, entreprises, plantes, pièces, produits,...).
Individu (ou unité statistique) : chaque élément de la population.
(Un étudiant, une plante, une pièce, un homme, une femme,...).
Échantillon : sous-ensemble issu de la population.
3
Variable : caractère (ou propriété) mesuré ou observé sur chaque individu notée
X, Y,...(Note, taille, poids, sexe, âge, couleur,...).
Modalités : les différentes valeurs possibles que peut prendre une variable sta-
tistique.
Série statistique : suite de valeurs prises par une variable X notées x1 , x2 , x3 , ...
Variable quantitative : ses modalités sont mesurables ou repérables.
Variable quantitative discrète : ses seules valeurs possible sont des nombres
isolée. (Nombre d’enfants, nombre d’ouvriers, nombre de pièces, ...).
Variable quantitative continue : ses valeurs possible sont en nombres infini
et a priori quelconques dans un intervalle. (Age, poids, diamètre d’une
pièce, température, vitesse,...).
Variable qualitative : ses modalités ne sont pas mesurables (profession, couleur,
numéro de telephone,...).
Variable qualitative nominale : ses modalités ne peuvent pas être ordon-
nées. (Couleur, profession, sexe, groupe sanguin,...).
Variable qualitative ordinale : ses modalités peuvent être ordonnées.(Chemises
classées par taille : XS, S, M, L, XL, XXL, XXXL).
Remarque 1.2. 1. Les caractères qualitatifs peuvent toujours être transformés en quan-
titatifs par codage. Exemple Masculin : 1, Féminin : 2. C’est ce qui se fait le plus géné-
ralement. Mais un tel codage est purement conventionnel et effectuer des opérations
algébriques sur ces valeurs numériques n’a pas de sens.
2. Certains caractères qualitatifs s’expriment à l’aide des nombres, mais ils n’ont pas de
sens quantitatif (Exemple : numéro de téléphone).
1.3 Distribution statistique discrète

Considérons une population de N individus décrite par une variable X dont les
k modalités sont x1 , x2 , ..., xk .
L’effectif (fréquence absolue) ni de la modalité xi est le nombre d’individus
présentant la modalité xi .
L’effectif total est N et on a
k
X
ni = N.
i=1
La fréquence (fréquence relative) fi de la modalité xi est définie par

ni
fi = .
N
On a évidement
k
X
fi = 1.
i=1
Le pourcentage pi de la modalité xi est pi = fi × 100%.
L’effectif cumulé croissant Ni :

N1 = n1 ,
N2 = n1 + n2 ,
..
.
Nk = n1 + n2 + ... + nk = N.
modalités xi x1 x2 x3 ... xk
effectifs ni n1 n2 n3 ... nk
effectifs cumulés n1 n1 + n2 n1 + n2 + n3 ... n1 + n2 + ...nk
croissants N i = N1 = N2 = N3 ... =N
La fréquence cumulée croissante Fi :
N1
F 1 = f1 = ,
N
N2
F 2 = f1 + f2 = ,
N
..
.
Nk
Fk = f1 + f2 + ... + fk = = 1.
N
Remarque 1.3. Il est également possible de cumuler les effectifs et les fréquences dans le sens
décroissant.
L’effectif cumulé décroissant Ni :
N1 = N,
N2 = N − n1 = N1 − n1 ,
N3 = N − n1 − n2 = N2 − n2 ,
..
.
Nk = N − n1 − n2 − ... − nk−1 = Nk−1 − nk−1 = nk .
modalités xi x1 x2 x3 ... xk
effectifs ni n1 n2 n3 ... nk
effectifs cumulés N N − n1 N − n1 − n2 ... N − n1 − n2 + ... − nk−1
décroissants N i = N1 = N2 = N3 ... Nk = nk
La fréquence cumulée décroissante Fi :
N1
F1 = 1 = ,
N
N2
F 2 = 1 − f1 = ,
N
N3
F 3 = 1 − f1 − f2 = ,
N
..
.
Nk
Fk = 1 − f1 − f2 − ... − fk−1 = .
N
La série statistique (xi , ni )1≤i≤k ou (xi , fi )1≤i≤k est appelée distribution statistique dis-
crète.
Exemple 1.
Un quartier est composé d’une population de 50 ménages, et la variable X représente
le nombre de personnes par ménage. Les valeurs ordonnées de X sont :
1111122222222233333333333
3333444444444455555566688
Tableau statistique
Effectifs Effectifs Fréquences Fréquences

xi cumulés cumulées
ni croissants Ni fi croissantes Fi
1 5 5 0.10 0.10
2 9 14 0.18 0.28
3 15 29 0.30 0.58
4 10 39 0.20 0.78
5 6 45 0.12 0.90
6 3 48 0.06 0.96
8 2 50 0.04 1
Représentation graphique
Figure 1.1 – Diagramme en batôns des effectifs
Figure 1.2 – Diagramme en batôns des effectifs cumulés croissants
Tableau statistique (fréquences cumulées décroissantes)
Effectifs Effectifs Fréquences Fréquences

xi cumulés cumulées
ni décroissants Ni fi décroissantes Fi
1 5 50 0.10 1
2 9 45 0.18 0.90
3 15 36 0.30 0.72
4 10 21 0.20 0.42
5 6 11 0.12 0.22
6 3 5 0.06 0.10
8 2 2 0.04 0.04
Courbe Cumulative
La courbe cumulative ou courbe des fréquences cumulées de la distribution (xi , fi )1≤i≤k
est la courbe représentative de la fonction F : R → [0, 1] définie par


 0 si x < x1
 Pi
F (x) = Fi = fj si xi ≤ x < xi+1

 j=1
1 si x ≥ xk .

Cette fonction est appelée fonction cumulative ou fonction de répartition.

La fonction de répartition F pour l’exemple précédent est définie par :


 0, si x < 1;
0.10, si 1 ≤ x < 2;




0.28, si 2 ≤ x < 3;




0.58, si 3 ≤ x < 4

F (x) =

 0.78, si 4 ≤ x < 5;
0.90, si 5 ≤ x < 6;




0.96, si 6 ≤ x < 8;




1, si x ≥ 8.

La courbe de F est la représentation graphique de la portion F (x) des individus de

la population dont le caractère prend une valeur inférieur ou égale à x.
Figure 1.3 – Courbe des fréquences cumulées
1.4 Distribution statistique groupée

Lorsque la variable quantitative discrète ou continue comprend un grand nombre
de valeurs, il est préférable de regrouper les valeurs en certains intervalles appelés
classes pour rendre les données statistiques plus lisibles.
Considérons une variable X dont les valeurs sont dans un intervalle.
On découpe cet intervalle en classes [e1 , e2 [, [e2 , e3 [, ..., [ep−1 , ep ] de même amplitude
(ei+1 − ei =constante). Pour choisir le nombre de classe, on utilise par exemple l’une
des deux règles suivantes :
1. Règle de Sturge : P = 1 + √ 3.3 × log10 (N );
2. Règle de Yule : P = 2.5 × 4 N ,
où N est l’effectif total. Le nombre J de classes est l’entier le plus proche de P . Nous
mentionnons que les deux formules sont presque pareils si N ≪ 200.
xmax − xmin
L’amplitude des classes est a = , où xmax (resp. xmin ) est la plus grande
J
(res. plus petite) valeur de X.
L’effectif ni de la classe [ei , ei+1 [ est le nombre de valeurs de X prises dans cette
classe.
ni
La fréquence fi de la classe [ei , ei+1 [ est le rapport fi = .
N
La série statistique ([ei , ei+1 [, ni )1≤i≤p−1 ou ([ei , ei+1 [, fi )1≤i≤p−1 est appelée distribu-
tion statistique groupée ou continue.
Un histogramme est un diagramme composé de rectangles contigus dont les aires
sont proportionnelles aux fréquences (ou effectifs) et dont les bases sont détermi-
nées par les classes.
Exemple : cas d’amplitudes égales. La variable X des tailles en cm de N = 20 étu-
diants est donnée par le tableau
Classes Effectifs Effectifs cumulés Fréquences Fréquences cumulées

[ei , ei+1 [ ni croissants Ni fi croissantes Fi
[145, 150[ 4 4 0.2 0.2
[150, 155[ 7 11 0.35 0.55
[155, 160[ 4 15 0.2 0.75
[160, 165[ 3 18 0.15 0.9
[165, 170[ 2 20 0.1 1
Figure 1.4 – Histogramme des fréquences
Cas d’amplitudes inégales. Lorsque les classes sont d’amplitudes inégales, les effec-
tifs ou fréquences ne permettent pas d’apprécier la distribution du caractère (ainsi la
fréquence d’un intervalle "étroit" ne peut pas être directement comparée à celle d’un
intervalle dix fois plus large !).
On ramène toutes les classes à une largeur standard, en calculant par proportionna-
lité les effectifs corrigés ou bien les fréquences corrigées correspondantes.
Soit a l’amplitude standard (choisis librement). Si la classe numéro i a pour effectif
ni et une fréquence fi et une amplitude ai alors
ni
— L’effectif corrigé de la classe est n∗i = ×a
ai
fi ni n∗
— La fréquence corrigée de la classe est fi∗ = ×a= ×a= i.
ai ai N N
On définit la densité d’effectifs d’une classe d’amplitude ai et d’effectif ni par
ni
di = .
ai
En générale on se contente de calculer soit la densité d’effectifs soit les effectifs cor-
rigés et pas les deux.
Exemple. Considérons la série statistique définie par le tableau suivant :
Classes [100,110[ [110, 120[ [120, 125[ [125, 130[ [130, 140[ [140,160[
Effectifs 12 24 20 22 14 8
Les effectifs se rapportant à des classes d’amplitudes inégales ne sont pas directe-
ment comparable. On doit donc corriger ces effectifs
Classes Effectifs Amplitude densité effectifs Fréquence
ni ai di corrigé n∗i corrigée fi∗
[100, 110[ 12 10 1.2 12 0.12
[110, 120[ 24 10 2.4 24 0.24
[120, 125[ 20 5 4 40 0.4
[125, 130[ 22 5 4.4 44 0.44
[130, 140[ 14 10 1.4 14 0.14
[140,160[ 8 20 0.4 4 0.04
Figure 1.5 – Histogramme des effectifs (corrigés)
Exemple. On s’intéresse à la consommation en litre par 100 km de N = 20 voitures :

6.11 6.05 5.98 5.77 5.18 5.66 5.28 5.11 5.58 5.49
5.62 5.33 5.55 5.45 5.76 5.23 5.57 5.52 5.8 6.0.
Par la règle de Sturges : P = 1 + 3.3 log10 (20) = 5.293.

On prend J=5.
xmax − xmin 6.11 − 5.11
L’amplitude a = = = 0.2.
J 5
Tableau statistique
Classes Effectifs Fréquences Fréquences cumulées
[5.11, 5.31[ 4 0.2 0.2
[5.31, 5.51[ 3 0.15 0.35
[5.51, 5.71[ 6 0.3 0.65
[5.71, 5.91[ 3 0.15 0.8
[5.91, 6.11] 4 0.2 1
Courbe Cumulative
La courbe cumulative des fréquences de la distribution ([ei , ei+1 [, fi ), 1 ≤ i ≤ p − 1
est la courbe de la fonction dite de répartition F définie par

0 si x < e1
x − ei x − ei


F (x) = Fi−1 + fi = Fi−1 + (Fi − Fi−1 ) si ei ≤ x < ei+1

 ei+1 − ei ei+1 − ei
1 si x ≥ ep ,
(avec F0 = 0).
Figure 1.6 – Courbe cumulative des fréquences
1.5 Variable qualitative

1.5.1 Variable qualitative nominale
On s’intéresse à la variable X = état-civil d’une population de N = 20 personnes.
Notons
C : célibataire, M : marié, V : veuf, D :divorcé.
Considérons la série statistique suivante :
MDMCCMCCCMCMVMVDCCMC
Tableau statistique
Modalités xi Effectifs ni Fréquences fi pi %

célibataire 9 0.45 45%
marié 7 0.35 35%
Veuf 2 0.10 10%
divorcé 2 0.10 10%
Diagramme en secteurs
Chaque modalité xi est représentée par un secteur dont l’aire est proportionnelle à
la fréquence :
αi◦ = 360◦ × fi .
Figure 1.7 – Diagramme en secteurs
1.5.2 Variable qualitative ordinale

On interroge une population de N = 50 personnes sur leur dernier diplôme ob-
tenu. On note :
Sd : Sans diplôme, P : Primaire, Se : Secondaire,

Su : Supérieur non-universitaire, U : Universitaire.
Sd Sd Sd Sd P P P P P P P P P P P Se Se Su
Se Se Se Se Se Se Se Se Se Se Se Se Su Su Su
Su Su Su Su U U U U U U U U U U U U Su
Les modalités étant ordonnées selon un gradient de codage de 1 (Sd) à 5 (U)

Tableau statistique
Diplômes Effectifs Fréquences( en %)

Sans diplôme 4 8%
Primaire 11 22%
Secondaire 14 28%
Supérieur non-universitaire 9 18%
Universitaire 12 24%
Figure 1.8 – Diagramme à bandes (barres) des fréquences (en %)
1.6 Paramètres de position

Le mode ou la classe modale est la valeur ou classe correspondante à la fréquence
(ou effectif) la plus élevée (si les classes sont d’amplitudes inégales, il s’agira de la
classe de fréquence corrigée la plus élevée ou de densité maximale).
Une distribution présentant un seul mode est appelée une distribution unimodale.
Une distribution bimodale est une distribution présentant deux modes. Une distri-
bution multimodale est une distribution présentant plusieurs modes. Elle est sou-
vent le reflet d’une population composée de plusieurs sous-populations distinctes.
Exemple.
Modalités xi Effectifs ni Fréquences fi

célibataire 9 0.45
marié 7 0.35
Veuf 2 0.10
divorcé 2 0.10
Le mode est x1 = célibataire correspondant à l’effectif n1 = 9.
Classes Effectifs Fréquences

[5.11, 5.31[ 4 0.2
[5.31, 5.51[ 3 0.15
[5.51, 5.71[ 6 0.3
[5.71, 5.91[ 3 0.15
[5.91, 6.11] 4 0.2
La classe modale est [5.51, 5.71[ et pour déterminer le mode, on utilise la formule
suivante :
d1
M0 = ei−1 + ai ,
d1 + d2
où ai = ei − ei−1 est l’amplitude de la classe modale [ei−1 , ei [,
d1 = ni − ni−1 et d2 = ni − ni+1 ou bien d1 = fi − fi−1 et d2 = fi − fi+1 .
ni et fi sont l’effectif et la fréquence de la classe modale.
ni−1 et fi−1 sont l’effectif et la fréquence de la classe qui précède la classe modale.
ni+1 et fi+1 sont l’effectif et la fréquence de la classe qui suit la classe modale.
Le mode Mo est déterminé par l’intersection des droites représentés dans la figure
suivante.
Figure 1.9 – Representation graphique du mode (cas continu)
On a ei−1 = 5.51 la borne inférieur de la classe modale [5.51, 5.71[ et son amplitude
est ai = 5.71 − 5.51 = 0.2.
d1 = 0.3 − 0.15 = 0.15 et d2 = 0.3 − 0.15 = 0.15. D’où
0.15
Mo = 5.51 + .0.2 = 5.51 + 0.1 = 5.61.
0.15 + 0.15
Exemple
Classes Effectifs
[0, 5[ 50
[5, 10[ 150
[10, 20[ 200
[20, 30[ 40
[30, 50] 60
Les classes sont d’amplitude inégales. On commence d’abord par calculer les effectifs
corrigés ou calculer les densités. Attention la classe modale n’est pas [10, 20[ même
si elle a l’effectif maximale !
Classes Effectifs Effectifs corrigés
[0, 5[ 50 10
[5, 10[ 150 30
[10, 20[ 200 20
[20, 30[ 40 4
[30, 50] 60 3
La classe modale est la classe [5, 10[. On applique la formule et on obtient
30 − 10 100
Mo = 5 + .5 = 5 + ≃ 8.33.
(30 − 10) + (30 − 20) 30
La médiane est la valeur qui partage la série statistique supposée rangée par ordre
croissant, en deux groupes de même effectifs.
Dans le cas d’une variable quantitative discrète, la médiane s’obtient en ordonnant
les valeurs dans l’ordre croissant puis :
- si l’effectif N est impair, alors la médiane est la valeur de rang N2+1 ;
- si l’effectif N est pair, alors la médiane est la moyenne des deux valeurs de
rang N2 et N2 + 1.
Exemples.
1. On considère la série statistique
0 0 1 1 2 2 3.
La médiane est la valeur du rang 4, donc Me = 1.

2. On considère la série statistique
0 0 1 1 2 2 3 4.
La médiane est Me = 1+2 2

= 1.5.
3. Si on veut déterminer la médiane d’une série statistique à partir d’un tableau (mo-
dalités, effectifs), on commence par remplir le tableau des effectifs cumulés crois-
sants.
Modalités xi Effectifs ni Effectifs cumulés croissants Ni
5 10 10
8 15 25
12 17 42
15 8 50
la moitié de l’effectif total étant 25. Donc La médiane est

x25 + x26 8 + 12
Me = = = 10.
2 2
Dans le cas d’une variable quantitative continue, la médiane Me est la valeur corres-
1 N
pondante à la fréquence cumulée (ou effectif cumulé ) :
2 2
1
F (Me ) = = 0.5.
2
Exemple. Considérons le tableaux statistique suivant
Classes Fréquences fi Fréquences cumulées Fi
[3, 5[ 0.24 0.24
[5, 10[ 0.109 0.349
[10,20[ 0.178 0.527
[20, 35[ 0.203 0.73
[35, 50[ 0.102 0.832
[50, 55[ 0.168 1
On a F (10) = 0.349 < 0.5 et F (20) = 0.527 > 0.5, donc la classe médiane est [10, 20[.
L’interpolation linéaire fournit
0.5 − 0.349
Me = 10 + 10 ≃ 18.48.
0.178
Les Quartiles
On appelle quartiles d’une série statistique le triplet des nombres (Q1 , Q2 , Q3 ) qui
divise la série en 4 groupes de même effectif. C’est-à-dire chaque groupe représente
25% de la population totale.
Le premier quartile Q1 est la plus petite valeur de la variable pour laquelle au moins
un quart des données sont inférieures ou égales à Q1 .
Le troisième quartile Q3 est la plus petite valeur de la variable pour laquelle au
moins trois quarts des données sont inférieures ou égales à Q3 .
Évidement le deuxième quartile Q2 n’est autre que la médiane. Q2 = M e.
Dans le cas d’une variable quantitative discrète, les quartiles s’obtiennent en ordon-
nant les valeurs dans l’ordre croissant puis :
N
- si l’effectif total N est multiple de 4 alors Q1 est la valeur de rang et Q3 est
4
3N
la valeur de rang ;
4
- si l’effectif total N n’est pas multiple de 4 alors Q1 est la valeur de rang immé-
N
diatement supérieur à et Q3 est la valeur de rang immédiatement supérieur
4
3N
à .
4
Remarque 1.4. D’une manière analogue, on appelle déciles d’une série statistique un 9-
uplet (D1 , D2 , ..., D9 ) qui divise la série en dix groupes de même effectifs. C’est-à-dire chaque
groupe représente 10% de la population totale. De plus D5 = Me .
Ainsi
- si l’effectif total N est multiple de 10 alors D1 , D2 , ..., D8 , D9 sont les valeurs
N 2N 8N 9N
de rang , , ..., , respectivement.
10 10 10 10
- si l’effectif total N n’est pas multiple de 10 alors D1 , D2 , ..., D8 , D9 sont les va-
N 2N 8N 9N
leurs de rang immédiatement supérieur à , , ..., , respectivement.
10 10 10 10
Exemple. Une étude sur le nombre d’employés dans les commerces du centre d’une
ville a donné les résultats suivants :
Nombre d’employés 1 2 3 4 5 6 7 8
Effectif 11 18 20 24 16 14 11 6
On a N = 120, le premier quartile est donc la valeur de rang 30 et le troisième quartile

est la valeur de rang 90. Ainsi Q1 = 3 et Q3 = 5.
Le premier décile est la valeur de rang 12, le deuxième décile est la valeur de rang
24,...,etc. Ainsi D1 = 2, D2 = 2, D3 = 3 D4 = 3, D5 = 4, D6 = 4, D7 = 5, D8 = 6
et D9 = 7. Dans le cas d’une variable quantitative continue, le premier quartile Q1
est la valeur correspondante à la fréquence cumulée (croissante) 0.25 et le troisième
quartile est la valeur correspondante à la fréquence cumulée (croissante) 0.75.
De même, le premier décile D1 est la valeur correspondante à la fréquence 0.10, le
deuxième décile D2 est la valeur correspondante à 0.20, ..., le neuvième décile D9 est
la valeur correspondante à 0.90.
Exemple. Une étude sur la durée de vie en heures de N = 200 ampoules électriques
a donné les résultats suivants :
Durée de vie (100h) [12 , 13[ [13 , 14[ [14, 15[ [15 , 16[ [16 , 17[
Effectifs 28 46 65 32 29
Pour calculer les quartiles Q1 , Q2 et Q3 . On commence par completer le tableau en

ajoutant les effectifs cumulés croissants.
Durée de vie (100h) [12 , 13[ [13 , 14[ [14, 15[ [15 , 16[ [16 , 17[
Effectifs 28 46 65 32 29
Effectifs cumulés croissants 28 74 139 171 200
Calcul de Q1 : On a N4 = 50, la plus petite valeur des effectif cumulés croissants

supérieur ou égale à 50 est 74. Cette valeur correspond à la classe [13, 14[. Puis par
interpolation linéaire, on obtient
Q1 − 13 50 − 28 11 310
= ⇐⇒ Q1 = 13 + = ≃ 13.48.
14 − 13 74 − 28 23 23
Calcul de Q2 = Me : On a 2N 4
= 100, la plus petite valeur des effectif cumulés su-
périeur ou égale à 100 est 139. Cette valeur correspond à la classe [14, 15[. Puis par
interpolation linéaire, on obtient
Q2 − 14 100 − 74 26 72
= ⇐⇒ Q2 = 14 + = = 14.4.
15 − 14 139 − 74 65 5
Calcul de Q3 : On a 3N4
= 150, la plus petite valeur des effectif cumulés supérieur ou
égale à 150 est 171. Cette valeur correspond à la classe [15, 16[. Puis par interpolation
linéaire, on obtient
Q3 − 15 150 − 139 11 490
= ⇐⇒ Q3 = 15 + = ≃ 15.34.
16 − 15 171 − 139 32 32
Calcul de D3 : On a 3N10
D3 − 13 60 − 28 16 315
= ⇐⇒ D3 = 13 + = ≃ 13.70.
14 − 13 74 − 28 23 23
Calcul de D9 : On a 9N10
D9 − 16 180 − 171 4 473
= ⇐⇒ D9 = 16 + = ≃ 16.31.
17 − 16 200 − 171 23 29
La moyenne arithmétique
La moyenne arithmétique x d’une variable quantitative discrète X est la somme pon-
dérée des valeurs possibles par les fréquences :
k k
X 1 X
x= f i xi = n i xi ,
i=1
N i=1
c’est-à-dire encore la somme des observations divisée par l’effectif total de la popu-
lation.
Remarque 1.5. Il existe d’autres moyennes comme la moyenne géométrique, la moyenne
harmonique, la moyenne interquartile ou les moyennes tronquées. Elles sont moins utilisées
car elles sont généralement réservées à des contextes particuliers.
Exemple. Le nombres d’enfants de 20 familles sont les suivants
1 0 2 1 3 2 2 1 0 2 2 2 4 0 1 2 1 2 2 3.
Avec cette forme brute, la moyenne est

1+0+2+1+3+2+2+1+0+2+2+2+4+0+1+2+1+2+2+3
x= = 1.65.
20
Avec un tableau de modalités et effectifs
Nombre d’enfants 0 1 2 3 4
Effectifs 3 5 9 2 1
La moyenne est
3×0+5×1+9×2+2×3+1×4 33
x= = = 1.65
20 20
Remarque 1.6. Dans le cas d’une variable quantitative continue X, on convient de calculer
la moyenne de la distribution ([ei , ei+1 [, fi ), 1 ≤ i ≤ p − 1
p−1 p−1
X 1 X
x= f i ci = ni .ci .
i=1
N i=1
ei + ei+1
où ci = est le centre de la classe [ei , ei+1 [.
2
Exemple
Centres des classes 12.5 13.5 14.5 15.5 16.5

Durée de vie (100h) [12 , 13[ [13 , 14[ [14, 15[ [15 , 16[ [16 , 17[
Effectifs 28 46 65 32 29
la moyenne est
28 × 12.5 + 46 × 13.5 + 65 × 14.5 + 32 × 15.5 + 29 × 16.5 361

x= = = 14.44.
200 25
Les indicateurs de tendance centrale
Les indicateurs de tendance centrale comme la moyenne x et la médiane Me et le
mode Mo sont des mesures qui indiquent la position où semble se rassembler les
valeurs de la population.
Le mode est la plus mauvaise mesure du centre, car la classe la mieux représentée
n’est pas nécessairement au centre de la distribution.
Si les valeurs extrêmes sont modifiées, la médiane ne change pas car elle n’est pas
sensible aux valeurs extrêmes. Par contre la moyenne change car elle tient compte de
toutes les valeurs.
On préférera la médiane ou la moyenne selon que l’on veut une mesure sensible ou
non aux valeurs extrêmes.
1.7 Paramètres de dispersion

L’étendue est l’écart entre les valeurs extrêmes de la variable, soit
e = xmax − xmin ,
où xmax (resp. xmin ) est la plus grand (res. plus petite) valeur.
Ce paramètre n’est pas défini exactement pour les distributions groupées, les valeurs
extrêmes n’étant plus connues avec exactitude après le groupement en classes.
L’écart interquartile est le nombre Q3 − Q1 . C’est la longueur de l’intervalle inter-

quartile [Q1 , Q3 ].
L’écart interdécile est le nombre D9 − D1 . C’est la longueur de l’intervalle interdécile
[D1 , D9 ].
Remarque 1.7. L’écart interquartile et L’écart interdécile mesure la dispersion de la série

statistique autour de la médiane. Cet écart n’est pas sensible aux valeurs extrêmes.
Diagramme en boîte
On construit un diagramme en boîte de la façon suivante :
- les valeurs du caractère sont représentées sur un axe (vertical ou horizontal) ;
- on place sur cet axe, le minimum, le maximum, les quartiles et la médiane de
la série statistique ;
- on construit alors un rectangle parallèlement à l’axe, dont la longueur est l’in-
terquartile et la largeur arbitraire.
Exemple. On donne les notes obtenues à un devoir dans une classe de 27 étudiants :
Notes 2 3 4 6 7 8 9 10 11 12 14 15 16 18 20
Effectifs 2 1 2 1 3 1 2 2 3 2 2 1 1 1 3
Q1 = 7, M e = 10 et Q3 = 14. L’intervalle interquartile est [7,14]. Cela signifie qu’au
moins la moitié des notes sont situées entre 7 et 14.
min Q1 Me Q3 max
0 2 4 6 8 10 12 14 16 18 20
50% 50%
La variance, l’écart-type et le coefficient de variation

La variance d’une variable quantitative discrète X est la moyenne des carrés des
écarts entre les valeurs de X et sa moyenne x :
k k
1 X X
V (X) = ni (xi − x)2 = fi (xi − x)2 .
N i=1 i=1
L’écart-type de la variable X est donné par

p
σ(X) = V (X).
Il sert à mesurer la dispersion de la série statistique autour de la moyenne. Plus il est
petit, plus les valeurs sont concentrées autour de la moyenne (on dit que la série est
homogène).
Le coefficient de variance est l’écart-type en valeur relative de la moyenne :
σ(X)
.
cv (X) =
x
Plus il est élevé, plus la dispersion relative autour de la moyenne est grande. Il est
sans unité et par suite on peut l’exprimé en pourcentage. Il permet ainsi de comparer
la dispersion de deux distributions qui n’ont pas la même unité de mesure.
Remarque 1.8.
1. La variance peut aussi s’écrire
k
1 X
V (X) = ni x2i − x2 .
N i=1
2. Dans le cas d’une variable quantitative continue, la variance (ainsi l’écart type) est définie
de la même manière avec les centres des classes jouent le rôle des valeurs xi .
Exemple. Soit la série statistique 2 3 4 4 5 6 7 9.
2+3+4+4+5+6+7+9
x= = 5.
8
22 + 32 + 42 + 42 + 52 + 62 + 72 + 92
V (X) = − 52 = 4.5.
8
Théorème 1.1. Changement d’origine et d’unité) Si X et Y sont deux variables en corres-
pondance par le changement d’origine b (constante) et le changement d’unité a (constante) :
Y = aX + b, alors
y = ax + b, V (Y ) = a2 V (X) et σ(Y ) = |a|σ(X).
Corollaire 1.1. — Si on fait augmenter chaque modalité d’une série de r%, alors la
r
moyenne de cette série se trouve multipliée par (1 + ).
100
— Si on fait diminuer chaque modalité d’une série de r%, alors la moyenne de cette série
r
se trouve multipliée par (1 − ).
100
Exemple. On suppose que la moyenne des notes d’un groupe d’étudiants est x = 10.
Si on augmente chaque note de 15%, cela revient à multiplier chaque note par 1.15.
Donc la moyenne devient y = 1.15x = 11.5.
Chapitre 2
Statistique descriptive à deux

variables
2.1 Distributions marginales et distributions condition-

nelles
L’objectif de cette partie est d’étudier sur une même population de n individus,
deux caractères différents X et Y et de rechercher s’il existe un lien entre ces deux
variables. Chacune des deux variables peut être, soit quantitatives, soit qualitatives.
Désignons par x1 , x2 , ..., xk les k modalités de la variable X
et par y1 , y2 , ..., yl les l modalités de la variable Y.
L’effectif nij est le nombre d’individus présentant à la fois la modalité xi et la modalité
yj . On a
X k X l
nij = n.
i=1 j=1
L’effectif ni• est le nombre d’individus présentant la modalité xi :

l
X
ni• = nij .
j=1
L’effectif n•j est le nombre d’individus présentant la modalité yj :

k
X
n•j = nij .
i=1
La fréquence fij du couple des modalités xi et yj est

nij
fij = .
n
On a
k X
X l
fij = 1.
i=1 j=1
Tableau de contingence des effectifs
23
X \Y y1 ... yj ... yl Total

x1 n11 ... n1j ... n1l n1•
.. .. .. .. .. .. ..
. . . . . . .
xi ni1 ... nij ... nil ni•
.. .. .. .. .. .. ..
. . . . . . .
xk nk1 ... nkj ... nkl nk•
Total n•1 ... n•j ... n•l n
Distributions marginales
Considérons la colonne marginale du tableau ci-dessus.
Les effectifs ni• définissent ce qu’on appelle la distribution marginale suivant X.
La fréquence marginale de la modalité xi est
ni•
fi• = .
n
On a
Xk
fi• = 1.
i=1
De façon analogue, la distribution marginale suivant Y est définie par les effectifs
marginaux n•j .
La fréquence marginale de la modalité yj est
n•j
f•j =
n
On a
Xl
f•j = 1.
j=1
Exemple. On s’intéresse à une éventuelle relation entre X = le sexe et Y = la couleur

des yeux de n = 200 personnes.
Tableau de contingence des effectifs :
X \Y Bleu vert Marron Total
Hommes n11 = 10 n12 = 50 n13 = 20 n1• = 80
Femmes n21 = 20 n22 = 60 n23 = 40 n2• = 120
Total n•1 = 30 n•2 = 110 n•3 = 60 n = 200
Tableau de contingence des fréquences :
X \Y Bleu vert Marron Total
Hommes f11 = 0.05 f12 = 0.25 f13 = 0.10 f1• = 0.40
Femmes f21 = 0.10 n22 = 0.30 f23 = 0.20 f2• = 0.60
Total f•1 = 0.15 f•2 = 0.55 f•3 = 0.30 1
Distributions conditionnelles La distribution de la variable X, la variable Y = yj
est appelée distribution conditionnelle de X si (sachant) Y = yj .
La fréquence conditionnelle fi|j (lire f, i si j) de la modalité xi liée par yj est
nij fij
fi|j = = .
n•j f•j
Exemple. La fréquence conditionnelle des personnes de sexe masculin sachant qu’ils

ont les yeux vert est
n12 50 f12 0.25
f1|2 = = ≃ 0.45 ou f1|2 = = ≃ 0.45.
n•2 110 f•2 0.55
Tableau statistique de X si Y = yj .
X \ Y = yj Effectifs Fréquences
x1 n1j f1|j
.. .. ..
. . .
xi nij fi|j
.. .. ..
. . .
xk nkj fk|j
Total n•j 1
De façon analogue on définit la distribution conditionnelle de Y si X = xi .
2.1.1 Dépendance et indépendance

Définition 2.1. On dit que deux variables statistique X et Y sont indépendantes si pour
tout i et j, on a
fi|j = fi• ou bien fj|i = f•j .
Proposition 2.1. X et Y sont indépendantes si pour tout i et j, on a
fij = fi• f•j ,
ou d’une façon équivalente si pour tout i et j, on a
N × nij = ni• × n•j .
Il suffit que l’une des 3 égalités précédentes ne soit pas vérifiée pour un certain couple (i, j)
donné pour que les deux variables ne soit pas indépendantes.
Exemple. Reprenons l’exemple précédent.
On a f21 = 0.10 et f2• × f•1 = 0.60 × 0.15 = 0.09.
Donc f21 ̸= f2• × f•1 . D’où X et Y ne sont pas indépendantes.
Lorsque deux variables ne sont pas indépendantes, on cherche à évaluer l’intensité
de leur liaison et dans le cas de deux variables quantitatives, on examine si on peut
les considérer liées par une relation linéaire.
2.1.2 Ajustement linéaire d’un nuage de points

Représentation graphique : le nuage de points
Il s’agit d’un graphique très commode pour représenter les observations simultanées
de deux variables quantitatives (discrètes).
Considérons deux variables X et Y dont les couple d’observations sur une popula-
tion de n individus, sont
(x1 , y1 ), (x2 , y2 ), ..., (xn , yn ).
On représente chaque couple d’observation (xi , yi ) par un point du plan Mi (xi , yi ).

L’ensemble de points Mi , i = 1, ..., n, est appelé nuage de points.
Exemple. Considérons les deux séries statistique sur une population de 16 individus
X : 1 1 2 2 2 3 4 5 5 5 6 7 8 8 9 10
Y :4 5 5 3 5 3 4 4 4 6 6 5 9 8 8 7
Figure 2.1 – Nuage de points
La covariance et Le coefficient de corrélation

La covariance des variables X et Y est définie par
n n
1X 1X
Cov(X, Y ) = (xi − x)(yi − y) = xi yi − x y.
n i=1 n i=1
Remarque 2.1. Dans le cas des données groupées dans un tableau de contingence, en termes
d’effectifs (ou fréquences) on peut écrire
k l k l
1 XX 1 XX
Cov(X, Y ) = nij (xi − x)(yj − y) = nij xi yj − x y,
n i=1 j=1 n i=1 j=1
k l
1 1
P P
où x = n
ni• xi (moyenne marginale de X) et y = n
n•j yj (moyenne marginale de Y )
i=1 j=1
Proposition 2.2.
1) Cov(X, Y ) = Cov(Y, X).
2) Cov(X, X) = V (X).
3) V (X + Y ) = V (X) + V (Y ) + 2Cov(X, Y ).
4) Cov(aX + b, Y ) = aCov(X, Y ), a, b ∈ R.
5) |Cov(X, Y )| ≤ σ(X)σ(Y ).
Le coefficient de corrélation est définie par
Cov(X, Y )
r(X, Y ) = .
σ(X)σ(Y )
Ce coefficient caractérise la liaison linéaire entre les deux variables.
Remarque 2.2.
1. −1 ≤ r(X, Y ) ≤ 1.
2. Si r(X, Y ) = ±1, les points du nuage sont alignées, c’est à dire, il y a une corrélation
linéaire parfaite entre X et Y :
Y = aX + b, a, b ∈ R.
3. Si r(X, Y ) est proche de 1 ou -1, on dit que X et Y sont fortement corrélées.

4. Si r(X, Y ) > 0, les points du nuage sont alignées le long d’une droite ascendante.
5. Si r(X, Y ) < 0, les points du nuage sont alignées le long d’une droite descendante.
6. Si r(X, Y ) = 0, il n’y a pas de liaison linéaire.
Remarque 2.3. Il convient de prêter attention toute particulière aux unités choisies pour
construire le nuage de points. En effet une unité sur l’un et/ou l’autre des axes écrase ce
nuage et peut laisser croire à un alignement qui n’a pas de sens statistique. Il faut donc faire
en sorte que celui-ci remplisse au mieux la figure quite pour cela à effectuer sur l’un et/ou
l’autre des axes un changement d’origine et/ou d’unité.
Droite de Mayer
L’idée la plus simple consiste à partager l’ensemble des points (xi , yi ) en deux sous-
ensembles E1 et E2 ayant à peu près le même nombre de points. On détermine G1 le
centre de gravité (le point moyen) de E1 et G2 le centre de gravité de E2 . La droite
de Mayer associée au nuage de point est la droite passant par les ponts G1 et G2 .
Exemple Le tableau présente l’évolution du budget publicitaire X et du chiffre d’af-
faire Y d’une société sur les 6 dernière années.
Budget publicitaire (en 104 DH) 8 10 12 14 16 18
Chiffre d’affaire (en 104 DH) 40 55 55 70 75 95
Sot G1 (x1 , y1 ) le point moyen associé au trois premier points du nuages et G2 (x2 , y2 )
le point moyen associé au trois derniers.
8 + 10 + 12 40 + 55 + 55
x1 = = 10 et y1 = = 50.
3 3
14 + 16 + 18 70 + 75 + 95
x2 = = 16 et y2 = = 80.
3 3
Donc G1 (10, 50) et G2 (16, 80). D’où la droite d’ajustement de Mayer (G1 , G2 ).
Figure 2.2 – Droite d’ajustement de Mayer
En supposant que cette evolution reste la même on peut par exemple estimer le
chiffre d’affaire à prévoir pour un budget de 220000 DH. Pour cela soit on utilise
le graphe ou bien l’equation de la droite de Mayer y = 5x. Ainsi pour x = 22, on
trouve y = 110, ce qui veut dire que pour un budget de 220000 DH, le chiffre d’affaire
prévisionnel est 1100000 DH.
On peut aussi estimer le budget publicitaire qu’il faudrait prévoir pour obtenir un
chiffre d’affaire de 1000000 DH. On a pour y = 100, x = 20. Ceci veut dire que pour
un chiffre d’affaire de 1000000 DH, le budget prévisionnel est 200000 DH.
Remarque 2.4. La construction de la droite de Mayer est extrêmement rapide et fournit

une droite tout à fait convenable lorsque les points de nuage sont presque alignés. Mais sa
grande simplicité ne permet pas d’obtenir une mesure de sa fiabilité. Nous allons présenter
maintenant une méthode nettement plus sophistiqué mais qui va nous permettre de découvrir
un nouveau paramètre statistique qui mesure le degré de confiance de cet alignement.
La droite de régression linéaire ou des moindre carrés de y en x.

Lorsque |r(X, Y )| est proche de 1 et le nuage de points a une forme linéaire ou ap-
proximativement linéaire, on cherche l’équation d’une droite qui s’ajuste au mieux
aux valeurs aux points du nuage.
Figure 2.3 – Droite de régression
Cette droite, dite droite de régression linéaire, est généralement déterminer par
la méthode des moindres carrés, c’est à dire de manière à rendre minimum la somme
des carrés des distances (comptées parallèlement à (oy)) entre cette droite et chaque
point du nuage.
Elle consiste à minimiser la fonction à deux variables
n
X n
X
φ(a, b) = Mi Hi2 = (yi − axi − b)2 .
i=1 i=1
Le minimum (â, b̂) peut donc être déterminer en annulant les dérivées partielles de
φ. On trouve ainsi (
a = Cov(X,Y
b V (X)
)
bb = y − ba x.
La droite de régression linéaire de Y en X est y = b ax + bb. Notons que cette droite

passe par le point moyen G(x, y).
Les valeurs ybi = b
a xi + bb sont appelées les valeurs ajustées (prédites).
Les écarts ei = yi − ybi sont appelées les résidus de la régression linéaire de Y en X.
La moyenne résiduelle est
n
1X
e= ei = 0.
n i=1
La variance résiduelle est la variance des résidus :
n
1X 2
V (e) = e
n i=1 i
Le coefficient de détermination noté R2 est par définition :

n
(ybi − y)2
P
i=1 V (Yb ) variance expliquée
R2 = n = =
P V (Y ) variance totale
(yi − y)2
i=1
Il représente la proportion de la variance expliquée par le modèle utilisé. Dans notre

cas, il permet donc de juger la qualité de cette régression linéaire.
Remarque 2.5. Dans le cas du modèle de regression linéaire, le coefficient de détermination

est le carré du coefficient de corrélation. R2 = r2 .
Exemple. On dispose des mesures de taille en cm et de poids en kg de 10 étudiants.
X(cm) 192 165 186 196 171 182 187 176 164 182
Y (Kg) 97 63 70 125 64 75 83 79 50 85
x = 180.1, y = 79.1,
σ(X) = 10.35, σ(Y ) = 19.77,
Cov(X, Y ) = 176.89
r(X, Y ) = 0.8643.
Le coefficient de détermination est R2 = r2 ≃ 74.71%, donc on a un assez bon qualité

d’ajustement (linéaire).
a ≃ 1, 6518, bb ≃ −218, 39
b
La droite de régression linéaire au sens des moindres carrées est
y = 1, 65x − 218, 39
Figure 2.4 – Droite de régression linéaire de Y en X.
Remarque 2.6. On peut déterminer de la même façon, la droite de regression de x en y. Soit

Mi (xi , yi ) un nuage de pints et D′ la droite d’équation x = α
by + βb (attention l’ordre est
′ ′
inversé). Notons Hi la projection de Mi sur D parallèlement à l’axe (ox) et posons
n
X n
X
′
φ (a, b) = Mi Hi2 = (xi − αyi − β)2 .
i=1 i=1
Alors il existe de même une unique droite rendant minimale la somme φ′ (a, b), cette droite
est appelée droite de regression de x en y ou encore droite des moindres carrés de x en y sous
la forme x = αy + β avec (
αb = Cov(X,Y
V (Y )
)
βb = x − αb y.
Il est bon de noter que les deux droites de regression passent par le point moyen G(x, y) et
que le produit des coefficients directeurs b b des droites de regression est égal à r(X, Y )2 .
a et α
Exemple. La statistique suivante indique pour les pays concernés les taux de chô-
mage X et le taux de d’inflation Y correspondant à l’année 1977 exprimés en pour-
centage.
Pays B D F I L NL
Chômage 6.5 4.5 4.9 7.2 0.6 4.5
Inflation 7.1 3.9 9.5 18.4 6.7 6.7
28.2 52.3
x= = 4.7, y = ≃ 8.7167
6 6
2
2 158.96 28.2 1321
V ar(X) = σ(X) = − = ≃ 4.4033,
6 6 300
2
2 584.21 52.3 76871
V ar(Y ) = σ(Y ) = − = ≃ 21.35305,
6 6 3600
276.9 28.2 52.3 3049
Cov(X, Y ) = − . = =≃ 5.0816
6 6 6 600
Soit y = ax + b l’équation de la droite de regression de y en x. On a :
Cov(X, Y ) 31.09
a= = ≃ 1.1768, b = y − ax ≃ 3.1859.
V ar(X) 26.42
Soit x = αy + β l’équation de la droite de regression de x en y. On a :
Cov(X, Y ) 31.09
α= = ≃ 0.2423, β = x − αy ≃ 2.5882.
V ar(Y ) 128.32
Le coefficient de corrélation entre le taux de chômage et le taux d’inflation vaut :
Cov(X, Y ) 31.09
r(X, Y ) = =√ ≃ 0.5339.
σ(X)σ(Y ) 26.42 × 128.32
Ce coefficient de corrélation est donc médiocre. Attention, il ne faut pas en conclure
a priori qu’il n’y a pas de relation entre les phénomènes de chômage et d’inflation.
En effet, la relation peut être d’une autre nature.
Chapitre 3
Dénombrement et espace de
probabilités
3.1 Dénombrement
3.1.1 Ensembles finis
Définition 3.1. On dit qu’un ensemble E ̸= ∅ est fini s’il existe n ∈ N∗ et une bijection de
{1, 2, ..., n} dans E. L’entier n est appelé cardinal de E et on note CardE = n. On convient
Card∅ = 0.
Proposition 3.1. Soit E un ensemble fini.

1) Si F est un ensemble en bijection avec E alors F est fini et CardE = CardF.
2) Si A ⊂ E alors A est fini et CardA ≤ CardE.
Proposition 3.2. Soient A et B deux ensembles finis.

1) Si A ∩ B = ∅ alors Card(A ∪ B) = CardA + CardB.
2) Si A ⊂ B alors Card(B\A) = CardB − CardA.
3) Card(A ∪ B) = CardA + CardB − Card(A ∩ B).
Proposition 3.3. Soit une famille (Ai )1≤i≤n formant une partition d’un ensemble
! Ω c’est-à-
n
[ [n Xn
dire Ai = Ω et Ai ∩ Aj = ∅ pour tout i ̸= j. Alors Card Ai = CardAi
i=1 i=1 i=1
Proposition 3.4. Soit (Ei )1≤i≤n une famille d’ensembles finis. Alors
Card(E1 × E2 × ... × En ) = CardE1 × CardE2 × ... × CardEn .
3.1.2 Arrangements et combinaisons

Définition 3.2. On appelle k-uplet d’un ensemble E tout élément (x1 , ..., xk ) de E k .
Proposition 3.5. Le nombre de k-uplets d’un ensemble à n éléments est nk .
Exemple. On lance une pièce de monnaie trois fois successive. Un résultat est 3-uplet
de E = {P, F }, donc le nombre de résultats est 23 .
32
Définition 3.3 (Arrangement). On appelle arrangement de k éléments d’un ensemble E,

tout k-uplet d’éléments deux à deux distincts de E.
Proposition 3.6. Le nombre d’arrangements de k éléments d’un ensemble à n éléments est
n!
Akn = n(n − 1)...(n − k + 1) = .
(n − k)!
Remarque 3.1. Lorsque k = n, on parle plutôt de permutation que d’arrangement et on a

n! est le nombre de permutations d’un ensemble à n éléments.
Définition 3.4 (Combinaison). On appelle combinaison de k éléments d’un ensemble E,

tout sous-ensemble de E ayant k éléments.
Proposition 3.7. Le nombre de combinaison de k éléments d’un ensemble à n éléments est
Ak

n n!
= Cnk = = n.
k k!(n − k)! k!
Remarque 3.2. On a
Cnk = Cn−1
k−1 k
+ Cn−1 pour tout 1 ≤ k ≤ n.
Cette relation permet de construire le triangle de Pascal :
11
12 1
13 3 1
14 6 4 1
15 10 10 5 1
..
.
Applications
On considère une urne contentant n boules. On tire au hasard un nombre k de boules
de cette urne.
1) Tirage avec remise
Le nombre de tirages successifs avec remise de k boules parmi n est nk .
2) Tirage sans remise
Le nombre de tirages successifs sans remise de k boules parmi n est Akn .
3) Tirage simultané
Le nombre de tirages simultanés de k boules parmi n est Cnk .
3.2 Espaces de probabilités

3.2.1 Expérience aléatoire et événements
Une expérience est dite aléatoire si l’on ne peut prévoir par avance son résultat.
Ensemble fondamental ou encore l’univers des possibles Ω est l’ensemble de tous
les résultats.
Un événement est une assertion, dont on peut dire si elle est vérifiée ou non une
fois le résultat de l’expérience connu.
Ω : événement certain.
∅ : événement impossible
{w}, où w ∈ Ω, événement élémentaire.
Exemple. Jet d’un dé à six faces numérotées : Ω = {1, 2, 3, 4, 5, 6}.
A : obtenir un nombre paire. A = {2, 4, 6}.
B : obtenir un nombre inférieur ou égale à 2. B = {1, 2}.
Exemple. On lance une pièce jusqu’a obtenir pile. Le nombre de jet peut être infini.
Ω = {1, 2, ..., n, ...} = N∗ , ensemble infini dénombrable.
Exemple. On observe la durée de vie d’une lampe.
Ω = [0, +∞[= R+ , ensemble infini non dénombrable.
Algèbre et tribu d’événements

Un événement étant un élément de P (Ω) obéit à la théorie des ensembles. Nous al-
lons indiquer dans le tableau ci-après comment certaines notions ensemblistes se
traduisent, en termes d’événements.
Ensemble Événement
On a observé le résultat w et w ∈ A L’événement A est réalisé
A=B Les événements A et B sont identiques
A⊂B L’événement A implique l’événement B
∅ Événement impossible
Ω Événement certain
A∩B Les deux événements A et B son réalisés
A∪B Un au moins des événement est realisé
A∩B =∅ Les événements A et B sont incompatibles
A = Ω\A L’événement A n’est pas réalisé
Définition 3.5. On appelle ensemble des événements, toute famille C de parties de Ω telle
que :
i) Ω ∈ C;
ii) ∀A ∈ C, A = A∁ ∈ C (événement contraire de A) ; S
iii) Pour toute famille (Ai )i∈I (I fini ou dénombrable) d’éléments de C, Ai ∈ C.
i∈I
C est appelé aussi tribu d’événements ou σ−algèbre et le couple (Ω, C) est appelé espace pro-
babilisable.
Définition 3.6. Un système complet d’événements est une famille (Ai )i∈I formant une par-
tition de Ω : [
Ai = Ω et Ai ∩ Aj = ∅ ∀i ̸= j.
i∈I
les Ai sont deux à deux disjoints

et Ω = A1 ∪ A2 ∪ A3 ∪ A4 ∪ A5
donc forment un système complet
d’événements de Ω.
Définition 3.7. On appelle probabilité sur (Ω, C) une application P : C → [0, 1] telle que
i) P (Ω) = 1;
ii) Pour toute famille (Ai )i∈I (I fini ou dénombrable) d’événements deux à deux incom-
patibles, on a !
[ X
P Ai = P (Ai ).
i∈I i∈I
Le triplet (Ω, C, P ) est appelé espace probabilisé.
Proposition 3.8.
1) P (∅) = 0.
2) P (A) = 1 − P (A).
3) Si A ⊂ B, alors P (A) ≤ P (B).
∪ B)= P (A) + P (B) − P (A ∩ B).
4) P (A
S P
5) P Ai ≤ P (Ai ).
i∈I i∈I
Théorème 3.1 (Théorème des probabilités totales 1e version).

Soit (Bi )i∈I Un système complet d’événements. Alors, pour tout événement A,
X
P (A) = P (A ∩ Bi ).
i∈I
Remarque 3.3.
Nous utilisons la formule des probabilités totales très souvent dans le cas où le système complet
d’événements se réduit deux éléments {B, B}. Celle-ci s’écrit alors :
P (A) = P (A ∩ B) + P (A ∩ B).
Exemple. Espaces de probabilités élémentaires

Considérons un ensemble Ω fini ou dénombrable. A chaque élément w ∈ Ω, on as-
socie un nombre p({w}) ≥ 0 tel que
X
p({w}) = 1.
w∈Ω
A chaque partie A de Ω, on associe le nombre :

X
P (A) = p({w}).
w∈A
On définit ainsi une probabilité sur (Ω, P(Ω)).

Supposons que Ω est fini. Pour chaque w ∈ Ω, on pose
1
p({w}) = .
Card Ω
On définit alors une probabilité uniforme par
Card A nombre de cas favorables
∀A ⊂ Ω, P (A) = =
Card Ω nombre de cas possibles
Attention Il faut bien faire attention que cette règle ne s’applique que dans le cas
d’équiprobabilité des événements élémentaires.
Dans les exercices, pour signifier qu’on est dans une situation d’équiprobabilité, on
a généralement dans l’énoncé des expressions de type : on lance un dé non pipé, les
boules dans l’urne sont indiscernables au toucher, on choisit au hasard un ... etc.
Exemple. On lancer deux dés non pipés.
A : la somme des deux chiffres est inférieur ou égale à 5.
On a
Ω = {1, 2, 3, 4, 5, 6}2 ,
A = {(1, 1), (1, 2), (1, 3), (1, 4), (2, 1), (2, 2), (2, 3), (3, 1), (3, 2), (4, 1)},
donc
card A 10
P (A) = = .
card Ω 36
3.2.2 Lois de probabilités conditionnelles et indépendance

Définition 3.8. Soient (Ω, C, P ) e.p. et B un événement de probabilité non nulle. On appelle
probabilité conditionnelle sachant B, l’application P (./B) : C → [0, 1] définie par
P (A ∩ B)
P (A/B) = , ∀A ∈ C.
P (B)
Cette application notée aussi PB définie une probabilité sur le même espace probabilisé.
Exemple. On lance deux dés non pipés.
A : la somme des deux chiffres est inférieur ou égale à 5.
B : les deux chiffres sont pairs.
Calcul de P (A/B)
On a B = {(2, 2), (2, 4), (2, 6), (4, 2), (4, 4), (4, 6), (6, 2), (6, 4), (6, 6)} et A∩B = {(2, 2)},
donc
1 9 1
P (A ∩ B) = , P (B) = , P (A/B) = .
36 36 9
Remarque 3.4. Soit un S un événement de probabilité non nulle.
L’application P (./S) = PS vérifie toutes les propriétés d’une probabilité. On a par exemple :
— PS (Ω) = 1 et PS (∅) = 0.
— PS (A) = 1 − PS (A).
— PS (A ∪ B) = PS (A) + PS (B) − PS (A ∩ B).
Propriété 3.1. (Formule des probabilités composées)

Pour tout événements A et B de probabilité non nulle, on a
P (A ∩ B) = P (A).P (B/A) = P (B).P (A/B).
Exemple. 85% d’une population sont vaccinés contre une maladie. On a constaté que
2% des individus vaccinés n’ont pas été immunisés contre cette maladie et ont tom-
bés malades.
Quelle est la probabilité qu’un individu soit vacciné et malade ?
Soit V l’événement "un individu vacciné" et M l’événement " un individu est ma-
lade".
85 2
La probabilité cherchée est P (V ∩ M ) = P (V ).P (M/V ) = . = 0.017.
100 100
Propriété 3.2. (Généralisation de la formule des probabilités composées)
Soient n événement A1 , A2 , ..., An d’un espace probabilisé vérifiant P (A1 ∩A2 ∩...∩An ) > 0.
On a
P (A1 ∩ A2 ∩ ... ∩ An ) = P (A1 ).P (A2 /A1 ).P (A3 /A1 ∩ A2 )... ∩ P (An /A1 ∩ A2 ∩ ... ∩ An−1 )
Exemple. Dans une urne qui contient deux boules rouges et trois noires, quatre per-
sonnes A, B, C et D tirent successivement (dans cet ordre) une boule sans la re-
mettre ; la première qui tire une rouge gagne. On suppose que toutes les boules ont
la même probabilité d’être tirées.
Calculons la probabilité de gain de chaque personne.
Notons pour i = 1, 2, 3, 4, l’événement Ri : "tirer une boule rouge au iième tirage",
et pour i = 1, 2, 3, l’événement Ni : "tirer une boule noire au iième tirage".
2
P (A) = P (R1 ) = .
5
3 2 3
P (B) = P (N1 ∩ R2 ) = P (N1 ).P (R2 /N1 ) = . = .
5 4 10
3 2 2 1
P (C) = P (N1 ∩ N2 ∩ R3 ) = P (N1 ).P (N2 /N1 ).P (R3 /N1 ∩ N2 ) = . . = .
5 4 3 5
P (D) = P (N1 ∩ N2 ∩ N3 ∩ R4 ) = P (N1 ).P (N2 /N1 ).P (N3 /N1 ∩ N2 ).P (R4 /N1 ∩ N2 ∩ N3 )
3 2 1 2 1
P (D) = . . . = .
5 4 3 2 10
Théorème 3.2. (Théorème des probabilités totales 2ième version)
Soit (Bi )i∈I Un système complet d’événements. Alors, pour tout événement A,
X
P (A) = P (Bi ).P (A/Bi ).
i∈I
Exemple. On choisit un dé au hasard parmi un lot de 200 dés dont on sait que 50
1
sont pipés. Pour un dé pipé, la probabilité d’obtenir 6 est . On lance le dé choisi et
2
on a obtenu 6. Quelle est la probabilité que ce dé soit pipé ?
Soit B l’événement "Le dé choisit est pipé" et A l’événement "le dé lancé donne 6".
La probabilité cherchée est P (B/A).
{B, B} est un système complet d’événements. En utilisant la formule des probabilités

totales (2ième version) on obtient
P (A) = P (B).P (A/B) + P (B).P (A/B)
50 1 150 1 1 1 3 1
= × + × = × + ×
200 2 200 6 4 2 4 6
1 1 1
P (A) = + = .
8 8 4
Maintenant en utilisant la définition des probabilités conditionnelles et la formule
des probabilités composées, on obtient
1 1
P (A ∩ B) P (B).P (A/B) 4
× 2 1
P (B/A) = = = 1 = .
P (A) P (A) 4
2
Définition 3.9 (Indépendance).
On dit que deux événements A et B sont indépendants si P (A/B) = P (A).
Conséquences 3.1.
1) Si A est indépendant de B, alors B et indépendant de A.
2) A et B sont indépendants si et seulement si P (A ∩ B) = P (A) × P (B).
Exemple. On jette un dé rouge et un dé vert non pipés et on considère les événe-
ments A : "le dé vert marque 6", et B : "le dé rouge marque 5". Montrons que ces
deux événements sont indépendants (bien entendu ce résultat est évident, il n’y a
pas d’influence d’un dé sur l’autre !).
On a Ω = {1, 2, 3, 4, 5, 6}2 et A = {(6, 1), (6, 2), (6, 3), (6, 4), (6, 5), (6, 6)},
B = {(1, 5), (2, 5), (3, 5), (4, 5), (5, 5), (6, 5)}, A ∩ B = {(6, 5)}. On obtient
Card A 6 1
P (A) = = =
Card Ω 36 6
Card B 6 1
P (B) = = =
Card Ω 36 6
card( A ∩ B) 1
P (A ∩ B) = = = P (A).P (B).
card Ω 36
Donc A et B sont bien indépendants.
Exercice. Si A et B sont indépendants, alors :
i) A et B sont indépendants.
ii) A et B sont indépendants.
iii) A et B sont indépendants.
Corrigé. i) Supposons A et B sont indépendants. En appliquant le théorème des
probabilité totales on obtient
P (A ∩ B) = P (A) − P (A ∩ B)
= P (A) − P (A).P (B)
= P (A)(1 − P (B))
P (A ∩ B) = P (A).P (B)
Donc A et B sont indépendants.
ii) Il suffit d’échanger les rôles de A et B.
iii) il suffit d’appliquer les résultats i) et ii).
Définition 3.10. Les événements A1 , A2 , ..., An sont dits mutuellement indépendants si,
pour tout I ⊂ {1, 2, ..., n}, !
\ Y
P Ai = P (Ai ).
i∈I i∈I
Première formule de Bayes

Soient A et B deux événements tels que P (A)P (B) ̸= 0. Alors
P (A/B)P (B)
P (B/A) = .
P (A)
Deuxième formule de Bayes

Soit (Bi )i∈I un système complet d’événements. Alors
P (A/Bi )P (Bi ) P (A/Bi )P (Bi )

P (Bi /A) = = P .
P (A) P (Bj ).P (A/Bj )
j∈I
Exercice. Trois machines A, B et C produisent respectivement 50%, 30% et 20% des

pièces d’une usine. Chacune de ces machines fabrique respectivement 3%, 4% et 5%
de pièces défectueuses.
On tire au hasard une pièce fabriquée par cette usine : elle est défectueuse.
Calculer la probabilité que cette pièce ait été produite par la machine A.
Corrigé.
Soit D l’événement "la pièce est défectueuse".
L’événement A : "la pièce est fabriquée par la machine A".
L’événement B : "la pièce est fabriquée par la machine B".
L’événement C : "la pièce est fabriquée par la machine C".
La probabilité cherchée est P (A/D).
Les événements A, B et C forment une système complet d’événements. En appli-
quant la deuxième formule de Bayes, on obtient
P (A ∩ D)
P (A/D) =
P (D)
P (A).P (D/A)
P (A/D) =
P (A).P (D/A) + P (B).P (D/B) + P (C).P (D/C)
0.50 × 0.03 15
= =
0.50 × 0.03 + 0.30 × 0.04 + 0.20 × 0.05 37
P (A/D) ≃ 0.4054.
la situation peut être représentée par l’arbre suivante :
Figure 3.1 – Arbre de probabilités pondéré
Règles : Arbre pondéré et calculs de probabilité

— La somme des probabilités inscrites sur les branches issues d’un même nœud
est égale à 1.
— La probabilité d’un chemin est le produit des probabilités figurant sur ses
branches. (probabilités composées)
— La probabilité d’un événement est la somme des probabilités de tous les che-
mins menant à un sommet où apparaît cet événement. (probabilités totales)
Figure 3.2 – Arbre de probabilités pondéré
Chapitre 4
Variables aléatoires discrètes
4.1 Généralités
4.1.1 Variable aléatoire discrète
Définition 4.1. Soit (Ω, C, P ) un espace probabilisé. On appelle variable aléatoire (v. a.)
réelle discrète toute fonction X : Ω → R telle que
i) X(Ω) = {xi : i ∈ I} avec I est fini ou dénombrable.
ii) Pour tout xi ∈ X(Ω), on a
[X = xi ] := X −1 (xi ) = {w ∈ Ω : X(w) = xi } ∈ C,
c-à-d [X = xi ] est un événement.

La famille (xi , pi )i∈I avec pi = P (X = xi ), s’appelle distribution ou loi de probabilité de la
v. a. X.
Remarque 4.1. L’univers des réalisations X(Ω) est aussi appelé support de la loi de pro-
babilité de X.
La loi de probabilité d’une variable aléatoire X est la donné de la liste des probabilités
P (X = xi ) pour toutes les réalisations xi ∈ X(Ω).
Si X ne prends qu’un petit nombre de valeurs, cette distribution (ou loi de probabilité) est
généralement présentée dans un tableau.
Valeurs de X x1 x2 ... xn
pi = P (X = xi ) p1 p2 ... pn
Noter que les événements [X = xi ], i ∈ I forme un système complet d’événements, donc

X
pi = 1.
i∈I
Si X(Ω) contient un grand nombre de réalisations ou infini, une telle représentation n’est
plus possible en pratique. on utilise alors la fonction de masse associée à la loi de probabilité.
Définition 4.2. La fonction de masse associée à la loi de probabilité de X est la fonction notée
fX qui à chaque réalisation xi ∈ X(Ω) fait correspondre la probabilité P (X = xi ) :
fX (xi ) = P (X = xi ), ∀xi ∈ X(Ω).
41
Exemple. On lance deux fois une pièce de monnaie régulière. L’ensemble des résul-
tats possibles est
Ω = {P, F }2 = {(P, P ), (P, F ), (F, P ), (F, F )}.
Soit X la v. a. représentant le nombre de faces obtenues. Alors le support de X est
X(Ω) = {0, 1, 2}.
La loi de probabilité de X :
xi 0 1 2
pi = P (X = xi ) 1/4 1/2 1/4
La fonction de masse fX :
Figure 4.1 – Fonction de masse
4.1.2 Fonction de répartition

Définition 4.3. Soit X une v. a. réelle discrète définie sur (Ω, C, P ). On appelle fonction de
répartition de X l’application F : R → [0, 1] définie par
F (x) = P ([X ≤ x]),
où [X ≤ x] = {w ∈ Ω : X(w) ≤ x}.
Remarque 4.2. La fonction de répartition F notée aussi FX , contrairement à la fonction
de masse fX , est définie pour toute valeur réelle x et pas uniquement pour les valeurs des
réalisations appartenant à X(Ω). Par exemple, si le support de la variable aléatoire X est
X(Ω) = {0, 1, 2}, on peut calculer FX (1.59) = P (X ≤ 1.59), FX (5) = P (X ≤ 5) ou même
FX (−3.2) = P (X ≤ −3.2). C’est pourquoi cette définition de la fonction de répartition est

valable tant pour les variables aléatoires discrètes, que pour les variables aléatoires continues
(voir chapitre 5).
si pi = P (X = xi ), i ∈ I est la loi de probabilité de X, alors
X
F (x) = pi .
{i:xi ≤x}
La quantité P (X ≤ x) est appelée probabilité cumulée car elle correspond au cumul c’est-à-
dire à la somme de toutes les probabilités associées à des réalisations xi ∈ X(Ω) inférieur ou
égale à x. Ainsi
Exemple. Soit X la variable aléatoire dont la loi de probabilité est donnée par le
tableau suivant
xi −4 −2 1 5
pi = P (X = xi ) 0.1 0.3 0.5 0.1
La fonction de répartition F de X est définie sur R par



 0 si x < −4,
0.1 si −4 ≤ x < −2,



F (x) = 0.4 si −2 ≤ x < 1,
0.9 si 1 ≤ x < 5,




1 si x ≥ 5

Représentation graphique de la fonction de répartition F .
Figure 4.2 – Fonction de répartition F de X
Proposition 4.1. Soit F la fonction de répartition d’une v.a. réelle discrète.

1) F est croissante.
2) lim F (x) = 0 et lim F (x) = 1.
x→−∞ x→+∞
3) F est continue à droite en tout x ∈ R.
4) F a une limite à gauche en tout x ∈ R, et
P (X = xi ) = F (xi ) − lim− F (t).

t→xi
4.1.3 Quantiles
Nous avons vu que la fonction de répartition est une fonction qui à toute valeur
x ∈ R associe la probabilité cumulative FX (x) = P (X ≤ x). Il est possible "d’inver-
ser" cette fonction de répartition à fin de déterminer la valeur de x qui correspond à
une certaine probabilité cumulative α = P (X ≤ x) avec α ∈ [0, 1]. On parle alors de
la fonction de répartition inverse ou de quantile d’ordre α.
Définition 4.4. Le quantile d’ordre α de la loi de probabilité de X, notée FX−1 (α) ou Qα est
la plus petite réalisation appartenant à X(Ω) associée à une probabilité cumulée supérieure
ou égale à α.
FX (Qα ) = P (X ≤ Qα ) ≥ α, ∀α ∈ [0, 1], ou encore
FX (FX−1 (α)) = P (X ≤ FX−1 (α)) ≥ α, ∀α ∈ [0, 1].
Interprétation d’un quantile est la suivante :
Si le quantile d’ordre α = 0.05 est égale à Q0.05 = FX−1 (0.05) = 2, cela signifie qu’il y
a 5% de chances que les réalisations de la variable aléatoire discrète X soit inférieur
ou égale à 2.
Exemple. Reprenons l’exemple du lancer d’une pièce de monnaie régulière deux fois.
Soit X la v. a. représentant le nombre de faces obtenues. Alors le support de X est
X(Ω) = {0, 1, 2} et la loi de probabilité de X est donnée par le tableau suivant :
xi 0 1 2
pi = P (X = xi ) 1/4 1/2 1/4
La fonction de répartition de X est représentée par
Déterminons les quantiles d’ordre α = 0.14 ,α = 0.75 et α = 0.50.

Q0.14 = FX−1 (0.14) est la plus petite réalisation de X c-à-d 0, 1 ou 2 telle que la proba-
bilité cumulée P (X ≤ Q0.14 ) soit supérieure ou égale à 0.14. graphiquement, on voit
que Q0.14 = 0. De la même façon, on vérifie que Q0.75 = 1 et Q0.5 = 1.
Remarque 4.3. Le quantile d’ordre α = 0.5 de la loi de probabilité d’une v.a. X est appelé
la médiane de X et il est noté
Me = Q0.5 = FX−1 (0.5)
4.1.4 Espérance, variance, écart-type et moments

Définition 4.5 (Espérance mathématique). Soit X une v. a. réelle discrète définie sur
(Ω, C, P ). On appelle espérance mathématique de X le réel, noté E(X) donné par
n
X
E(X) = xi P (X = xi ),
i=1
lorsque X(Ω) = {x1 , x2 , ..., xn }, ou

+∞
X
E(X) = xi P (X = xi ),
i=1
lorsque X(Ω) = {xi : i ≥ 1} et que cette série est absolument convergente.

Remarque 4.4. L’espérance E(X) s’interprète comme la valeur moyenne des valeurs prises
par X lorsque l’expérience est répétée un grand nombre de fois.
Lors d’un jeu, si E(X) = 0 on dit que le jeu est equitable.
Proposition 4.2. Soit X et Y deux v. a. réelles discrètes définies sur (Ω, C, P ), qui possèdent
une espérance. On a
1) Pour tout a ∈ R, E(a) = a.
2) Pour tout (a, b) ∈ R2 , E(aX + bY ) = aE(X) + bE(Y ).
En particulier E(aX + b) = aE(X) + b.
Théorème 4.1 (Théorème de transfert). Soit X une v. a. réelle discrète définie sur (Ω, C, P )
et f une fonction continue par morceaux définie sur un intervalle contenant X(Ω) à valeur
réelles. Alors f (X) est une v. a. discrète et on a
X
E (f (X)) = f (xi )P (X = xi ),
i
sous réserve de convergence absolue.

Définition 4.6 (Variance et écart-type). On appelle variance d’une v. a. réelle discrète X
la quantité, si elle existe
V (X) = E (X − E(X))2 .

C’est le réel sous réserve d’existence :

X
V (X) = (xi − E(X))2 P (X = xi ).
i
p
La quantité σ(X) = V (X) est appelée écart-type de X.
Remarque 4.5. La variance et l’écart-type servent à apprécier la dispersion des valeurs prises
par la variable aléatoire autour de sa moyenne.
Dans un jeu cala mesure les risques en gain ou en perte pris par le joueur.
Propriété 4.1. (Deuxième formule de la variance) V (X) = E(X 2 ) − (E(X))2
Proposition 4.3. Soit X une v. a. réelle discrète admettant une variance, alors
Pour tout (a, b) ∈ R2 V (aX + b) = a2 V (X).
Définition 4.7 (Moments). On appelle moment d’ordre r ∈ N∗ d’une v. a. réelle discrète

de X le nombre réel, s’il existe
X
E (X r ) = xri P (X = xi ).
i
On appele moment centré d’ordre r ∈ N∗ de X, le nombre réel, s’il existe

X
µr = E ((X − E(X))r ) = (xi − E(X))r P (X = xi ).
i
Exemple. Une urne contient 3 boules rouges et 4 boules noires. On tire successive-
ment avec remise 2 boule de l’urne.
Soit Ω = {R1 , R2 , R3 , N1 , N2 , N3 , N4 }2 et P probabilité uniforme. On mise au départ
10 Dh et on gagne 8 Dh par boule rouge obtenue.
Soit X la v. a. prenant pour valeur le gain final.
Loi de X :
xi -10 -2 6
P (X = xi ) 16
49
24
49
9
49
Espérance de X :
16 24 9 −22
E(X) = (−10) × + (−2) × +6× = .
49 49 49 7
Variance de X :
2
16
2 24 9 −22 1536
V (X) = (−10) × + (−2)2 × + 62 × − = ≃ 31.35.
49 49 49 7 49
Espérance et Variance de −7X + 5 :
E(−7X + 5) = −7E(X) + 5 = 27, V (−7X + 5) = (−7)2 V (X) = 1536.
4.1.5 Variables aléatoires discrètes indépendantes

Définition 4.8. Soit X et Y deux variables aléatoires discrètes définies sur (Ω, C, P ). On dit
que les v.a.d X et Y sont indépendantes si
∀x ∈ X(Ω), ∀y ∈ Y (Ω), P [(X = x) ∩ (Y = y)] = P (X = x).P (Y = y).
Il revient au même de dire que pour tout (x, y) ∈ X(Ω) × Y (Ω) les événements [X = x] et
[Y = y] sont indépendants.
Exemple .
On lance deux fois un dé équilibré numérotés de 1 à 6. On note X la v.a.d qui repré-
sente le numéro obtenu lors du premier lancer et Y la v.a.d qui représente le numéro
obtenu lors du deuxième lancer.
On a X(Ω) = Y (Ω) = {1, 2, 3, 4, 5, 6} et on a pour tout (x, y) ∈ X(Ω) × Y (Ω),
1 1 1 1
P [(X = x) ∩ (Y = y)] = , et P (X = x).P (Y = y) = × = .
36 6 6 36
Donc P [(X = x) ∩ (Y = y)] = P (X = x).P (Y = y). D’où X et Y sont indépendants.
Plus généralement on la définition suivante :
Définition 4.9. Soit X1 , X2 , ... et Xn des variables aléatoires discrètes définies sur (Ω, C, P ).
On dit que les v.a.d X1 , X2 , ... et Xn sont indépendantes si ∀x1 ∈ X1 (Ω), ∀x2 ∈ X2 (Ω),...
et ∀xn ∈ Xn
P [(X1 = x1 ) ∩ (X2 = x2 ) ∩ ... ∩ (Xn = xn )] = P (X1 = x1 ).P (X2 = x2 )...P (Xn = xn ).
Il revient au même de dire que pour tout (x1 , x2 , ..., xn ) ∈ X1 (Ω) × X2 (Ω) × ... × Xn (Ω) les
événements (X1 = x1 ), (X2 = x2 ),...(Xn = xn ) sont (mutuellement) indépendants.
4.2 Lois classiques

4.2.1 Loi uniforme discrète
Définition 4.10. on dit qu’une v.a.r X suit une loi uniforme discrète sur l’intervalle
[[1, n]] = {1, 2, ..., n} de N, si l’on a :
1
X(Ω) = [[1, n]] et ∀k ∈ [[1, n]], P (X = k) =
n
Nous écrivons alors X ,→ Un .
Situation concrète.
On choisit au hasard (c-à-d avec équiprobabilité) un objet parmi n objets numérotés
de 1 à n et on appelle X la variable aléatoire donnant le numéro de l’objet choisit.
Proposition 4.4. Si X ,→ Un alors
n+1 n2 − 1
E(X) = et V (X) = .
2 12
Exemple. On lance un dé non pipé numéroté de 1 à 6 et on considère la variable
aléatoire X donnant le numéro de la face obtenue.
1
On a X(Ω) = {1, 2, 3, 4, 5, 6} et ∀k ∈ X(Ω), P (X = k) = .
6
Donc X suit une loi uniforme discrète sur [[1, 6]] et on écrit X ,→ U6 .
6+1 62 − 1 35
On a E(X) = = 3.5 et V (X) = = ≃ 2.9.
2 12 12
On peut définir une loi uniforme discrète sur un ensemble non vide quelconque de
R.
Remarque 4.6. Soit {x1 , ..., xn } ⊂ R un ensemble de n éléments. on dit qu’une v.a.r X :
Ω −→ R suit une loi uniforme discrète sur {x1 , ..., xn } si
• X(Ω) = {x1 , ..., xn }.
1 1
• ∀k ∈ [[1, n]], P (X = xk ) = = .
n cardX(Ω)
2
x21 + ... + x2n

x1 + ... + xn x1 + ... + xn
Dans ce cas E(X) = et V (X) = − .
n n n
4.2.2 Loi de Bernoulli

Définition 4.11. Soit p ∈]0, 1[. On dit qu’une v. a. X suit la loi de Bernoulli de paramètre
p si
(i) X(Ω) = {0, 1};
(ii) P (X = 1) = p et P (X = 0) = 1 − p.
On note X ,→ B(1, p).
Une variable aléatoire de Bernouli illustre généralement toute experience aléatoire
n’ayant que deux issues possibles : le succès ou l’échec, effectuée une seule fois. Une
telle expérience est alors appelée épreuve de Bernoulli. On affecte alors 1 à la variable
en cas de succès et 0 en cas d’échec.
Dans une expérience aléatoire où on s’interesse à la réalisation d’un événement A
donné. La v.a X égale à 1 si A est réalisé et égale à 0 sinon est une variable aléatoire
de Bernouli.
Lancer une pièce où la probabilité d’amener pile est p ∈]0, 1[. Le fait d’amener pile
étant considéré comme un succès. X : le nombre de pile obtenu suit une loi de Ber-
nouli.
Effectuer un tirage d’une boule dans une urne contenant une proportion p de boules
blanches. X : le nombre de boules blanches obtenues suit une loi de Bernouli.
Proposition 4.5. Si X ,→ B(1, p), alors E(X) = p et V (X) = p(1 − p).
4.2.3 Loi binomiale

Définition 4.12. Soient n ∈ N∗ et p ∈]0, 1[. On dit qu’une v. a. X suit la loi binomiale de
paramètres n et p si
i) X(Ω) = {0, 1, 2, ..., n};
n k
ii) ∀k ∈ {0, 1, 2, ..., n}, P (X = k) = p (1 − p)n−k = Cnk pk (1 − p)n−k .
k
On note X ,→ B(n, p).
Si on effectue une épreuve de Bernouli de paramètre p. Elle n’a donc que deux is-
sues : le succès avec une probabilité p et l’échec avec une probabilité 1−p. Si on répète n fois
cette épreuve et si les n épreuves sont indépendantes c-à-d la probabilité de succès p
est la même à chaque épreuve. Alors la variable X donnant le nombre de succès au
cour de ces n épreuve suit une loi Binomiale de paramètres n et p.
Une v.a X qui suit une loi binomiale de paramètres n et p peut être vue comme une
somme de n variables aléatoires indépendantes de Bernouli Xi de paramètre p.

1 pour le succès,
X = X1 + X2 + ... + Xn où Xi :
0 sinon.
Proposition 4.6. Si X ,→ B(n, p), alors E(X) = np et V (X) = np(1 − p).
Remarque 4.7. le mot binomial vient du fait que lorsqu’on somme toutes ces probabilités,
on retrouve le développement du binôme de Newton,
n
X
Cnk pk (1 − p)n−k = (p + 1 − p)n = 1.
k=0
Exemple. On lance 4 fois un dé équilibré numéroté de 1 à 6 et on considère X la

variable aléatoire qui compte le nombre d’apparition de la face 6.
Montrons que X suit une loi binomiale et calculons E(X) et V (X).
Lancer un dé équilibré numéroté de 1 à 6 une fois est une épreuve de Bernouli de
1
paramètre p = . On a répéter cette épreuve 4 fois d’une façon indépendante. Donc la
6
variable aléatoire X donnant le nombre d’apparition de la face 6, compte le nombre
de succès de ces épreuves. Par consequent X suit la loi binomiale de paramètre n = 4
1 1
et p = et on écrit X ,→ B(4, ). On a
6 6
k 4−k
k 1 1 54−k
X(Ω) = {0, 1, 2, 3, 4} et ∀k ∈ X(Ω), P (X = k) = C4 1− = C4k 4 .
6 6 6
1 2
L’espérance de X est E(X) = n × p = 4 × = .
6 3
1 5 10
La variance de X est V (X) = n × p × (1 − p) = 4 × × = .
6 6 18
4.2.4 Loi géométrique

Définition 4.13. On dit q’une v.a.r X suit une loi géométrique de paramètre p si on a :
X(Ω) = N∗ et ∀k ∈ N∗ , P (X = k) = (1 − p)k−1 p.
Nous écrivons alors X ,→ G(p).
On effectue une épreuve de Bernoulli. Elle n’a donc que deux issues : le succès avec
une probabilité p ou l’échec avec une probabilité 1 − p. Puis on répète l’épreuve
jusqu’à l’apparition du premier succès de sorte que toutes les épreuves sont indépendantes
entre elles. Alors dans cette situation, X la variable aléatoire égale au rang de l’apparition
du premier succès suit une loi géométrique de paramètre p. On dit que X est le temps
d’attente du premier succès.
Remarque 4.8. On est donc dans les même hypothèses que pour la loi binomiale, mais le
nombre d’épreuves n’est pas fixé à l’avance. on s’arrête au premier succès.
1 1−p
Proposition 4.7. Si X ,→ G(p) alors E(X) = et V (X) = .
p p2
Remarque 4.9. Le mot géométrique vient du fait que lorsqu’on somme toutes ces probabilités,
on obtient une série géométrique.
+∞
X p
(1 − p)k−1 p = = 1.
k=1
1 − (1 − p)
Exemple.
On lance une pièce régulière jusqu’à obtenir pour la première fois face. Soit X la
variable aléatoire égale au nombre de lancers nécessaires pour obtenir face.
Calcul de la probabilité pour obtient face au bout de 5 lancers.
Lancer une pièce une fois est une épreuve de Bernouli. La probabilité d’obtenir face
1
(le succès) est p = . On répète cette expérience jusqu’à obtenir le premier succès.
2
1
Donc X suit une loi géométrique de paramètre p = .
2
La probabilité cherchée est
5−1 5
1 1 1 1
P (X = 5) = 1 − = = .
2 2 2 32
1
Calcul de E(X) : E(X) = = 2.
p
4.2.5 Loi hypergéométrique

Définition 4.14. Soit une urne contenant N boules dont a boules blanches et b boules noires
avec a + b = N . On effectue n tirage d’une boule sans remise (ou on prélève simultanément
n boules) avec n ≤ N . Le tirage sans remise est dit exhaustif. Soit X la variable aléatoire
représentant le nombre de boules blanches obtenues. La variable X est dite hypergéométrique
et on note X ,→ H(N, a, n). Cette loi depend de trois paramètres.
On a dans ce cas X(Ω) ⊂ [[0, n]] et plus précisément X(Ω) = [[max(0, n − b), min(n, a)]].
Cak Cbn−k
P (X = k) = , ∀k ∈ X(Ω).
CNn
Remarques 4.1. Si p est la proportion des boules blanches de l’urne et q celle des boules
a b
noires, on a p = et q = avec p + q = 1. Donc on a a = pN et b = qN = (1 − p)N et
N N
k n−k k n−k
CpN CqN CpN C(1−p)N
P (X = k) = = , ∀k ∈ X(Ω).
CNn CNn
et on note X ,→ H(N, p, n).
On sait que Cnp = 0 si p < 0 ou p > n. Ainsi P (X = k) = 0 si k excède a ou si n − k
excède b. C’est pour cela que la connaissance exacte de X(Ω) n’est pas fondamentale et on
peut écrire la loi de X sous la forme :
k n−k
Cak Cbn−k CpN C(1−p)N
∀k ∈ [[0, n]], P (X = k) = ou P (X = k) = .
CNn CNn
Proposition 4.8. Soit une variable aléatoire X ,→ H(N, p, n). Alors

1. L’espérance mathématique est donnée par E(X) = np.
(Formule identique à celle d’une loi binomiale).
N −n N −n
2. la variance est donnée par V (X) = npq = np(1 − p) .
N −1 N −1
N −n
Le rapport ρ = est appelé coefficient d’exhaustivité.
N −1
Exemple.
Chaque matin, un professeur interroge 4 étudiants pour tester leurs connaissance
du cours. Une indiscrétion lui permet de savoir que dans la classe composée de 45
étudiants, 10 ne connaissent pas le cours.
On se trouve dans la situation d’un ensemble E comprenant 45 éléments dont une
10
proportion d’une catégorie d’éléments (les étudiants ne connaissent pas le cours).
45
Le professeur interroge 4 étudiants successivement sans interroger deux fois le même
étudiant (ce qui correspond à 4 tirages successifs sans remise d’un élément de E)
alors la variable aléatoire X representant le nombre d’éléments des étudiants qui
ne connaissent pas le cours, obtenus suit une loi hypergéométrique H(45, 10, 4) ou
10
H(45, , 4) et on a
45
k 4−k
C10 C35
P (X = k) = 4
, ∀k ∈ {0, 1, 2, 3, 4}.
C45
10 8
L’espérance mathématique est E(X) = 4 × = ≃ 0.88.
45 9
10 35 45 − 4 574
La variance est V (X) = 4 × × × = ≃ 0.64.
45 45 45 − 1 891
Proposition 4.9. Soit une variable aléatoire X ,→ H(N, p, n). Lorsque N −→ +∞, alors
H(N, p, n) −→ B(n, p).
En pratique si N > 10n, alors on peut approcher la loi hypergéométrique par la loi binomiale.
4.2.6 Loi de Poisson

Définition 4.15. Soient λ > 0. On dit qu’une v. a. X suit la loi de paramètre λ si
i) X(Ω) = N;
k
ii) ∀k ∈ N, P (X = k) = λk! e−λ .
On note X ,→ P(λ).
Situation concrete.
La loi de Poisson modélise des situations où l’on s’intéresse au nombre d’occurrences
d’un événement dans un laps de temps déterminé ou dans une région donnée. Par
exemple :
Nombre d’appels téléphoniques qui arrivent à un standard en x minutes.
Nombre de clients qui se présentent à un guichet de banque en une heure.
Nombre de malades qui arrivent au urgence d’un hôpital en une nuit.
Le nombre de véhicules franchissant un poste de péage pendant une période de

temps.
le nombre de défauts de peinture par m2 sur la carrosserie d’un véhicule.
Les phénomènes ainsi étudiés sont des phénomènes d’attente.
Proposition 4.10. Si X ,→ P(λ), alors E(X) = λ et V (X) = λ.
Exemple. On considère X la variable aléatoire mesurant le nombre de clients se pré-

sentant au guichet d’un bureau de poste par intervalle de temps de durée 10 minutes
entre 14h30 et 16h30. X suit une loi de Poisson. On suppose que X ,→ P(5).
La probabilité qu’entre 14h30 et 14h40, 10 personnes exactement se présentent à ce
guichet vaut :
510
P (X = 10) = e−5 . ≃ 0.018.
10!
La probabilité qu’entre 15h10 et 15h20, au maximum 3 personnes se présentent à
ce guichet vaut :
P (X ≤ 3) = P (X = 0) + P (X = 1) + P (X = 2) + P (X = 3)
50 51 52 53
= e0 + e−5 . + e−5 . + e−5 .
0! 1! 2! 3!
P (X ≤ 3) ≃ 0.265
La probabilité qu’entre 15h50 et 16h, au moins une personne se présente à ce guichet

vaut :
P (X ≥ 1) = 1 − P (X < 1) = 1 − P (X = 0)
50
= 1 − e−5 .
0!
P (X ≥ 1) ≃ 0.993
Proposition 4.11. Soit une v.a. X ,→ B(n, p). On pose np = λ. On suppose que λ est une
constante positive fixée.
λk
lim P (X = k) = e−λ .
n→+∞ k!
On en déduit qu’une loi binomiale B(n, p) peut être approchée par une loi de Poisson P(λ)
lorsque n est suffisamment grand et p petit, avec λ = np.
En pratique, On peut estimer une bonne approximation avec des valeurs de l’ordre de :
n ≥ 30, p ≤ 0.1 et np ≤ 10.
Exemple. Suite à une vaccination contre le paludisme, dans une population à risque,
on estime à 2%, compte tenu du délai d’immunisation, la proportion de personne
qui seront pourtant atteintes de la maladie.
Quelle est la probabilité de constater, lors d’un contrôle dans un petit village de 100
habitants tous recrement vaccinés, plus d’une personne malade ? (on supposera l’in-
dépendance des éventualités).
Compte tenu des hypothèses, la v.a X qui compte le nombre de malade suit une loi
binomiale de paramètre n = 100 et p = 0.02. On a np = 2 et tous les conditions de

l’approximation par une loi de Poisson sont vérifiées. La probabilité cherchée est
P (X > 1) = 1 − P (X ≤ 1) = 1 − P (X = 0) − P (X = 1)
20 21
= 1 − e−2 − e−2
0! 1!
P (X > 1) = 0.5939..
L’application peu pratique de la loi binomiale aurait fournit
P (X > 1) = 1 − P (X = 0) − P (X = 1) = 1 − (0.98)100 − 2(0.98)99 = 0.5967..
L’approximation dans ce cas est excellente.
Chapitre 5
Variables aléatoires continues
5.1 Généralités
5.1.1 Variable aléatoires réelles et densité de probabilité
Définition 5.1. Soit (Ω, C, P ) un espace probabilisé. On appelle variable aléatoire réelle toute
fonction X : Ω → R telle que
Pour tout intervalle I ⊂ R, [X ∈ I] := X −1 (I) = {w ∈ Ω : X(w) ∈ I} ∈ C.
Cela exprime que l’image réciproque d’un intervalle quelconque de R est un événement.
En d’autre terme, une variable aléatoire est dite réelle si elle peut prendre toutes les valeurs
d’un intervalle de R.
On appelle loi de probabilité de X la donné de PX :
PX (I) = P (X ∈ I) = P (X −1 (I)), ∀I ∈ C.
Définition 5.2. (densité de probabilité)

Soit f : R −→ R une fonction. On dit que f est une densité de probabilité si les conditions
suivantes sont vérifiées.
1. f (x) ≥ 0 ∀x ∈ R.
2. f est continue presque partout, c-à-d peut ne pas être continue sur un ensemble dé-
nombrable de points de R.
Z +∞
3. f (x)dx = 1.
−∞
Définition 5.3. Soit f une densité de probabilité. On dit qu’une variable aléatoire X est de
densité de probabilité f si pour tout a, b ∈ R tels que a ≤ b, on a
Z b
P (a ≤ X ≤ b) = f (x)dx.
a
On dit que X est une variable aléatoire à densité ou continue.
Propriétés 5.1. Soit X une v.a. continue de densité f . On a

1. ∀a ∈ R, P (X = a) = 0.
54
Ra
2. P (X < a) = P (X ≤ a) = −∞
f (x)dx.
R +∞
3. P (X > a) = P (X ≥ a) = a
f (x)dx.
4. ∀a, b ∈ R, tels que a ≤ b, on a
Z b
P (a ≤ X ≤ b) = P (a < X ≤ b) = P (a ≤ X < b) = P (a < X < b) = f (x)dx.
a
5.1.2 Fonction de répartition

Définition 5.4. Soit X une v. a. réelle définie sur (Ω, C, P ) de densité de probabilité f . On
appelle fonction de répartition de X l’application F : R → [0, 1] définie par
Z x
F (x) = P (X ≤ x) = f (t)dt.
−∞
Proposition 5.1. Soit F la fonction de répartition d’une v.a.r X de densité f . Alors :

1. F est à valeurs dans [0, 1].
2. F est croissante sur R.
3. ∀a, b ∈ R, tels que a ≤ b, P (a < X ≤ b) = F (b) − F (a).
4. lim F (x) = 0 et lim F (x) = 1.
x→−∞ x→+∞
5. F est continue sur R.
6. F est derivable sur R sauf en au plus un nombre dénombrable de points et F ′ (x) =
f (x) si F est derivable en x.
Remarques 5.1. La probabilité pour que X appartienne à un intervalle de R pouvant se
calculer à partir de la fonction caractéristique F . Cette fonction caractéristique caractérise la
loi de X.
Par comparaison avec le cas discret, seul les deux dernières propriétés changent. F est main-
tenant continue au lieu d’être juste continue à droite. Ceci permet de distinguer la fonction
de répartition d’une v.a continue de celle d’une v.a. discrète.
La dernière propriété permet d’obtenir la densité f si on connaît la fonction de répartition F
en dérivant. Inversement si on connaît la densité f , on peut obtenir la fonction de répartition
F en integrant.
5.1.3 Quantiles
Tout comme dans le cas des variables discrètes, il est possible "d’inverser" la fonc-
tion de répartition à fin de determiner la valeur de x ∈ R qui correspond à une cer-
taine probabilité cumulée α = P (X ≤ x) avec α ∈ [0, 1]. On obtient alors la fonction
de répartition inverse ou le quantile d’ordre α. La définition du quantile est légère-
ment différente de celle présentée dans le cadre des variables aléatoires discrètes.
Définition 5.5. Soit X une variable aléatoire réelle, le quantile d’ordre α de la loi de proba-
bilité de X notée Qα ou FX−1 (α), est la réalisation appartenant à X(Ω) ⊆ R correspondant à
une probabilité cumulée égale à α.
FX (FX−1 (α)) = P (X ≤ FX−1 (α)) = α, ∀x ∈ [0, 1].
Interprétation d’un quantile est la suivante :

Si le quantile d’ordre α = 0.15 est égale à Q0.15 = FX−1 (0.15) = 3, cela signifie qu’il y a
15% de chances que les réalisations de la variable aléatoire réelle X soit inférieur ou
égale à 3.
Définition 5.6. (Médiane d’une v.a.)
La médiane d’une variable aléatoire X continue est la valeur Me de X pour laquelle la fonction
1
de répartition est égale à . C’est-à-dire le quantile d’ordre α = 0.5.
2
1
F (Me ) = P (X ≤ Me ) = .
2
Exemple. Soit f la fonction définie par

 0 si x ≤ 0,
1
f (x) = √ si 0 < x ≤ 1,
 2 x
0 si x ≥ 1.
Montrons que f est une fonction de densité d’une certaine variable aléatoire conti-
nue.
On a f (x) ≥ 0, ∀x ∈ R.
fZ est continue sauf
Z 1 en x = 0 et en x = 1.
+∞ √ 1
f (x)dx = f (x)dx = x 0 = 1.
−∞ 0
Donc f est une densité de probabilité.
Calculons sa fonction de répartition.
Rx
Si x ≤ 0 alors F (x) = −∞ 0 dt = 0.
R0 Rx 1 √ x √
Si 0 < x ≤ 1 alors F (x) = −∞ 0 dt + 0 2√ t
dt = t 0 = x.
R0 R1 1 Rx
Si x > 1 alors F (x) = −∞ 0 dt + 0 2√t dt + 1 0 dt = 1.

1 1 1
la médiane de X est Me = , car F = .
4 4 2
Exemple. (Détermination de la densité de la v.a. g(X))
Soit X une v.a. continue de densité f définie par

1, si 0 < x < 1,
f (x) =
0, sinon
Déterminer la densité de la v.a Y = eX .

Soit y ∈ R. Si y ≤ 0 alors FY (y) = P (Y ≤ y) = P (eX ≤ y) = P (∅) = 0.
Si y ∈]0, +∞[ alors FY (y) = P (Y ≤ y) = P (eX ≤ y) = P (X ≤ ln y) car la fonction

x −→ ex est bijective, et strictement croissante.
Donc Si y ∈]0, +∞[ alors FY (y) = FX (ln y).
En dérivant, on obtient fY (y) = (ln y)′ FX′ (ln y) = y1 .f (ln y).
Si 0 < ln y < 1, c-à-d 1 < y < e alors f (ln y) = 1 et donc fY (y) = y1 .
Sinon f (ln y) = 0 et donc fY (y) = 0.
En résumé la densité de Y = eX est définie par
1
y
, si 1 < y < e,
fY (y) =
0, sinon.
Remarque 5.1. Même si la fonction g n’est pas bijective, on peut parfois determiner la densité
Y = g(X) par dérivation de P (Y ≤ y) = P (g(X) ≤ y). Prenons l’exemple de g(x) = x2 .
Soit y ∈ R. FY (y) = P (Y ≤ y) = P (X 2 ≤ y).
Si y < 0 alors P (X 2 ≤ y) = 0 et donc fY (y) = 0.
√ √ √ √
Si y ≥ 0 alors FY (y) = P (X 2 ≤ y) = P (− y ≤ X ≤ y) = FX ( y) − FX (− y).
1 √ 1 √
En dérivant on obtient fY (y) = √ fX ( y) + √ fX (− y).
2 y 2 y
2
Finalement la densité de la v.a Y = X est donnée par
1 √ √
√
2 y
f X ( y) + f X (− y) , si y ≥ 0,
fY (y) =
0, sinon.
5.1.4 Espérance, variance, écart-type et moments

Définition 5.7 (Espérance). Soit X une v. a. réelle de densité f définie. On appelle espé-
rance (mathématique) de X le réel, noté E(X) donné par
Z +∞
E(X) = xf (x)dx,
−∞
lorsque cette intégrale est absolument convergente.
Proposition 5.2. Soient X et Y deux v. a. réelles à densité admettant une espérance et

a, b ∈ R. Alors,
E(aX + b) = aE(X) + b, E(X + Y ) = E(X) + E(Y ).
Théorème 5.1. (Théorème de transfert) // Soit X une v. a. réelle de densité f et ϕ une

fonction de R dans R telle que |ϕ|f soit integrable sur R. Alors, ϕ(X) possède une espérance,
et on a Z +∞
E (ϕ(X)) = ϕ(x)f (x)dx.
−∞
Définition 5.8 (Variance et écart-type). Soit X v. a. réelle de densité f. On appelle va-

riance de X la quantité, si elle existe
V (X) = E (X − E(X))2 .

C’est le réel sous réserve d’existence :

Z +∞
V (X) = (x − E(X))2 f (x)dx.
−∞
p
La quantité σ(X) = V (X) est appelée écart-type de X.
Proposition 5.3. Soient X une v. a. réelle à densité admettant une variance et a ∈ R. Alors,
V (X) = E(X 2 ) − (E(X))2 , V (aX + b) = a2 V (X).
Remarque 5.2. Soit X une v.a continue (ou discrete) d’espérance E(X) et d’écart-type
σ(X). La variable aléatoire définie par :
X − E(X)
X∗ =
σ(X)
est appelée v.a. centrée réduite associée à la v.a. X et on a E(X ∗ ) = 0 et σ(X ∗ ) = 1.
Définition 5.9. (Moments) // Soit X une v. a. réelle de densité f. On appelle moment
d’ordre r ∈ N∗ le nombre réel, s’il existe
Z +∞
r
E (X ) = xr f (x)dx.
−∞
On appele moment centré d’ordre r ∈ N∗ de X, le nombre réel, s’il existe

Z +∞
µr = E ((X − E(X)) ) =r
(x − E(X))r f (x)dx..
−∞
5.2 Lois usuelles continues

5.2.1 Loi uniforme sur [a, b]
Définition 5.10. On dit qu’une v.a.r X suit la loi uniforme continue sur [a, b] si elle a pour
densité f définie par 1
b−a
si x ∈ [a, b]
f (x) =
0 sinon
On note X ,→ U([a, b]).
Figure 5.1 – densité de probabilité de X ,→ U([a, b])
Proposition 5.4. Si X ,→ U([a, b]), alors sa fonction de répartition est la fonction


 0 si x < a
x−a
F (x) = si a ≤ x ≤ b,
 b−a
1 si x > b
Figure 5.2 – fonction de répartition de X ,→ U([a, b])
Proposition 5.5. Si X ,→ U([a, b]) alors X a une espérance et une variance.

a+b (b − a)2
E(X) = et V (X) = .
2 12
Propriété 5.1. Si X ,→ U([a, b]) alors pour tout intervalle [c, d] ⊂ [a, b], on a
d−c
P (c ≤ X ≤ d) = .
b−a
Situation concrete. On utilise généralement la loi uniforme continue lorsque la si-
tuation se ramène à choisir au hasard un nombre réel dans un intervalle.
Exemple. A l’arrêt donné d’un bus, un bus passe toutes les 10 minutes. Un voyageur
ignore les horaires et arrive à cet arrêt de bus. Quelle est la probabilité d’attendre le
bus exactement 3 minutes ? entre 2 et 4 minutes ? plus de 5 minutes ?
Soit T la variable aléatoire représentant le temps d’attente, en minutes. On peut sup-
poser que T suit la loi uniforme U[0, 10]), puisque la situation se ramène à choisir au
hasard un nombre entre 0 et 10.
La probabilité que ce voyageur attend exactement 3 minutes est P (T = 3) = 0.
La probabilité que ce voyageur attend entre 2 et 4 minutes est :
4−2 2 1
P (2 ≤ T ≤ 4) = = = .
10 − 0 10 5
La probabilité que ce voyageur attend plus de 5 minutes est
5−0 1
P (T > 5) = 1 − P (T ≤ 5) = 1 − F (5) = 1 − = .
10 − 0 2
0 + 10
L’attente moyenne de ce voyageur à cet arrêt de bus en minute est E(T ) = = 5.
2
5.2.2 Loi exponentielle

Définition 5.11. Soit θ > 0. On dit qu’une v. a. X suit la loi exponentielle de paramètre θ
si elle a pour densité f définie par

0 si x < 0
f (x) = −θx
θe si x ≥ 0.
On note X ,→ E(θ).
Figure 5.3 – densité de X ,→ E(θ)
Proposition 5.6. Si X ,→ E(θ), alors

1 1
E(X) = et V (X) = .
θ θ2
Proposition 5.7. Si X ,→ E(θ), alors sa fonction de répartition est la fonction

0 si x < 0
F (x) = −θx
1−e si x ≥ 0,
Figure 5.4 – fonction de répartition de X ,→ E(θ)
Exemple : Calcul des quantiles d’une loi exponentielle

On considère une v.a X à valeurs dans X(Ω) = R+ est distribuée selon une loi expo-
nentielle de paramètre θ = 2 et admettant une fonction de répartition F définie par
F (x) = 1 − e−θx , ∀x ∈ R+ .
Posons α = F (x) et inversons la fonction de répartition F ,
α = F (x) ⇐⇒ α = 1 − e−θx
⇐⇒ e−θx = 1 − α
ln(1 − α)
⇐⇒ F −1 (α) = x = −
θ
ln(1 − α)
le quantile d’ordre α est donc égale à F −1 (α) = − .
θ
Ainsi le quantile d’ordre α = 5% est égale à 0.0256 puisque
ln(1 − 0.05)
F −1 (0.05) = − = 0.0256.
2
Le quantile Q0.05 = 0.0256 s’interprète de la façon suivante : il y a 5% de chances que
les réalisations de la variable aléatoire X soient égale au seuil F −1 (0.05) = 0.0256,
c’est-à-dire
P (X ≤ 0.0256) = 0.05 = 5%.
Remarque 5.3. Pour toutes les lois de probabilités pour lesquelles il n’existe pas d’expression
analytique de la fonction de répartition, il n’existe pas non plus d’expression analytique des
quantiles. Ceux-ci sont alors approximés par des méthodes numériques.
Proposition 5.8. (phénomène sans mémoire)

Si X ,→ E(θ), alors pour tout réels t et s tels que 0 < s < t, on a
P (X < t|X > s) = P (X < t − s).
ou d’une façon équivalente
P (X > t|X > s) = P (X > t − s).
En effet :
P ((X < t) ∩ (X > s)) P (s < X < t)
P (X < t|X > s) = =
P (X > s) 1 − P (X ≤ s)
F (t) − F (s) (1 − e ) − (1 − eθs )
θt
= =
1 − F (s) 1 − (1 − eθs )
eθs − eθt
= = 1 − eθ(t−s)
eθs
= F (t − s)
P (X < t|X > s) = P (X < t − s).
P (X > t|X > s) = 1 − P (X < t|X > s) = 1 − P (X < t − s) = P (X > t − s).

Situation concrete. Une loi exponentielle modélise la duré de vie de la radioactivité,
ou d’un composant électronique, de décrire le temps écoulé entre deux moments,
en général la duré de vie d’un phénomène sans mémoire, ou sans vieillissement ou
sans usure. En d’autre terme, le fait que le phénomène a démarre à l’instant ou que
le phénomène à démarré depuis l’instant s revient au même.
Exemple.
La duré de vie, en heures, d’un composant électronique est une variable aléatoire X
qui suit une loi exponentielle de paramètre θ = 0.00005.
La probabilité que ce composant tombe en panne avant 10000 heures est
P (X ≤ 10000) = F (10000) = 1 − e−0.00005×10000 ≃ 0.4.
La probabilité que ce composant fonctionne au moins 15000 heures est
P (X ≥ 15000) = 1 − P (X < 15000) = 1 − F (15000) = e−0.00005×15000 ≃ 0.47.
La probabilité que ce composant tombe en panne entre la 10000 heures et la 15000

heures est
P (1000 ≤ X ≤ 15000) = F (15000) − F (10000) ≃ 0.53 − 0.4 ≃ 0.13.
Sachant que ce composant a fonctionner plus de 5000 heures. La probabilité qu’il

fonctionne au plus 15000 heures est
P (X ≤ 15000|X > 5000) = P (X < 15000−5000) = P (X < 10000) = P (X ≤ 10000) ≃ 0.4.

1 1
L’espérance de vie de ce composant est E(X) = = = 500000 heures.
θ 0.00005
5.2.3 Loi normale ou loi de Gauss-laplace

La loi normale est la loi de certains phénomènes continues qui fluctuent autour
d’une valeur moyenne µ, de manière aléatoire, résultante d’un grand nombre de
causes indépendantes dont les effets s’ajoutent sans que l’un d’eux soient dominant.
Par exemple la taille d’un individu en cm, influencée par la nourriture, l’environne-
ment, l’hérédité, le lieu géographique,... etc.
Définition 5.12. On dit qu’une v. a. X suit la loi normale centrée réduite si elle a pour
densité f définie par
1 x2
∀x ∈ R, f (x) = √ e− 2 .
2π
On note X ,→ N (0, 1).
Figure 5.5 – densité de X ,→ N (0, 1)
Remarque 5.4. Pour tout x ∈ R, la fonction de répartition de X ,→ N (0, 1) est donnée par
Z x
1 t2
Φ(x) = P (X ≤ x) = √ e− 2 dt.
2π −∞
x2
On ne connaît pas une expression explicite de la primitive de la fonction x −→ e− 2 . Donc
on a pas d’expression explicite de la fonction de répartition d’un v.a. suivant une loi normale
réduite. On la notera Φ.
Pour calculer Φ(x), on utilisera une calculatrice ou une table dite de la loi normale qui donne
des valeurs approché des probabilités.
Propriétés 5.2. Si X ,→ N (0, 1), alors ∀a, b ∈ R, tel que a ≤ b
1. P (X ∈ I) = Φ(b) − Φ(a), où I = [a, b], [a, b[, ]a, b] ou ]a, b[.
2. P (X ≤ a) = P (X < a) = Φ(a) et P (X ≥ a) = P (X > a) = 1 − Φ(a).
1
3. ∀x ∈ R, Φ(−x) = 1 − Φ(x). En particulier Φ(0) = .
2
Proposition 5.9. Si X ,→ N (0, 1), alors E(X) = 0 et V (X) = 1.
Théorème 5.2. Soit X une variable aléatoire qui suit une loi normale réduite. Pour tout réel
α ∈]0, 1[, il existe un unique réel strictement positif uα tel que
P (−uα ≤ X ≤ uα ) = 1 − α.
Preuve. On cherche un réel x strictement positif tel que P (−x ≤ X ≤ x) = 1 − α.
P (−x ≤ X ≤ x) 1−α
=
Φ(x) − Φ(−x) 1−α
=
Φ(x) − (1 − Φ(x)) 1−α
=
2Φ(x) − 1 1−α
=
2Φ(x) 2−α
=
α
Φ(x) = 1 − .
2
On sait que la fonction Φ est continue et strictement croissante sur ]0, +∞[. De plus
1
lim Φ(x) = Φ(0) = et lim Φ(x) = 1,
x−→0 2 x−→+∞
1 α
et 0 < α < 1 ⇐⇒ < 1 − < 1.
2 2
Donc d’après le théorème des valeurs intermédiaires, il existe un unique x = uα
strictement positif tel que Φ(uα ) = 1 − α2 . D’où le résultat.
α
Remarques 5.2. 1. P (−uα ≤ X ≤ uα ) = 1 − α ⇐⇒ P (X ≤ uα ) = 1 − .
2
2. Il est bon de retenir les valeurs de u0.01 = 2.58 et u0.05 = 1.96. Ainsi on obtient
P (−2.58 ≤ X ≤ 2.58) = P (−u0.01 ≤ X ≤ u0.01 ) = 1 − 0.01 = 0.99
P (−1.96 ≤ X ≤ 1.96) = P (−u0.05 ≤ X ≤ u0.05 ) = 1 − 0.05 = 0.95
Définition 5.13. Soient µ ∈ R et σ > 0. On dit qu’une v. a. X suit la loi normale de
paramètres µ et σ si elle a pour densité g définie par
1 (x−µ)2
∀x ∈ R, g(x) = √ e− 2σ2 .
σ 2π
On note X ,→ N (µ, σ).

1 x−µ
Remarque 5.5. ∀x ∈ R, g(x) = f , où f est la densité d’une loi normale centrée
σ σ
réduite.
Proposition 5.10. Si X ,→ N (µ, σ), alors E(X) = µ et V (X) = σ 2 .
Proposition 5.11. Si X suit la loi normale N (µ, σ) alors pour tout a, b ∈ R avec a ̸= b, la
variable aléatoire Y = aX + b suit la loi normale N (aµ + b, |a|σ).
En particulier on a
X −µ
X ,→ N (µ, σ) ⇔ Z = ,→ N (0, 1).
σ
Figure 5.6 – densités de X ,→ N (4, σ), où σ = 0.5, 1 et 2.
Remarque 5.6. On constate que plus l’écart-type σ est grand, plus la courbe s’étale autour
de la moyenne et plus le maximum est petit, en accord avec la signification de l’écart-type.
Utilisation de la table de la loi normale.
Considérons un extrait de la table de la loi centrée réduite.
z 0.05 0.06 0.07 0.08
0.9 0.8289 0.8315 0.8340 0.8365
1 0.8531 0.8554 0.8577 0.8599
1.1 0.9749 0.9770 0.8790 0.8810
1.2 0.8944 0.8962 0.8980 0.8997
1.3 0.9115 0.9131 0.9147 0.9162
Soit une variable aléatoire Z ,→ N (0, 1).

Calcul de P (Z ≤ 1.36) :
On écrit 1.36 = 1.3 + 0.06. Le nombre 0.9131 situé à l’intersection de la ligne 1.3 et
de la colonne 0.06 est la valeur de la fonction de répartition de Z au point z = 1.36.
C’est-à dire Φ(1.36) = 0.9131. D’où P (Z ≤ 1.36) = 0.9131.
Calcul de P (Z > 1.25) :
On a P (Z > 1.25) = 1 − P (Z ≤ 1.25) = 1 − Φ(1.25) = 1 − 0.8944 = 0.1056.
Calcul de P (Z ≤ −1.17) :
On a P (Z ≤ −1.17) = Φ(−1.17) = 1 − Φ(1.17) = 1 − 0.8790 = 0.121.
Calcul de P (0.95 < Z ≤ 1.28) :
On a P (0.95 < Z ≤ 1.28) = Φ(1.28) − Φ(0.95) = 0.8997 − 0.8289 = 0.0708.

Exemples de calcul inverse de la table :
Il arrive souvent que la probabilité P (Z < z) soit connue et que l’on doit trouver la
valeur de z déterminant cette probabilité. La valeur z est appelée seuil de probabilité
ou simplement seuil.
Trouver z tel que P (Z < z) = 0.67.
En cherchant dans la table de la loi normale standard, on trouve que Φ(0.44) = 0.67
et donc z = 0.44.
Trouver z tel que P (Z < z) = 0.95.
On cherche dans la table les valeurs les plus proches de 0.95, on trouve
Φ(1.64) = 0.9495 et Φ(1.65) = 0.9505.
On pose x1 = 1.64, y1 = 0.9495 et x2 = 1.65, y2 = 0.9505.
On cherche donc z = x tel que y = 0.95 ?
La formule d’interpolation linéaire donne
y − y1
x = x1 + × (x2 − x1 )
y2 − y1
0.95 − 0.9495
= 1.64 + × (1.65 − 1.64)
0.9505 − 0.9495
z = 1.645,
ce qui veut dire qu’on a 95% de la population étudiée ont une valeur inférieur à 1.645.
Trouver z tel que P (Z ≤ z) = Φ(z) = 0.146.
Dans la table, les valeurs de z ne commencent qu’à 0.5, donc on a pas de valeurs
proches de 0.146. Cela est du au fait que Φ(z) < 0.5 ⇐⇒ z < 0.
sachant maintenant que z < 0, on peut écrire Φ(z) = 1 − Φ(−z) = 0.146 soit encore
Φ(−z) = 1 − 0.146 = 0.854.
Par le tableau d’interpolation linéaire, on obtient
1.05 x 1.06
0.8531 0.854 0.8554
0.854 − 0.8531
x = 1.05 + × (1.06 − 1.05)
0.8554 − 0.8531
x = 1.053913
Donc −z = 1.054 et par suite z = −1.054.
Déterminer les quartiles de Z
Par symétrie, Q0.25 = −Q0.75 et Q0.50 = Me = 0.
Cherchons Q0.75 tel que Φ(Q0.75 ) = P (Z ≤ Q0.75 ) = 0.75.
D’après la table statistique de la loi normale standard, on lit les valeurs
Φ(0.67) = 0.7486 et Φ(0.68) = 0.7517.
Donc Par le tableau d’interpolation linéaire, on obtient
0.67 Q0.75 0.68
0.7486 0.75 0.7517
0.75 − 0.7486
Q0.75 = 0.67 + × (0.68 − 0.67)
0.7517 − 0.7486
Q0.75 = 0.6745
Donc le premier quartile Q0.25 = −0.6745 et le troisième quartile est Q0.75 = 0.6745.
Interpretation : 25% des valeurs de Z sont inférieures à −0.6745 et 75% des valeurs
de Z sont inférieures à 0.6745.
Déterminer le neuvième décile de Z
Le neuvième décile est le quantile d’ordre α = 0.9.
On va donc chercher Q0.9 tel que Φ(Q0.9 ) = P (Z ≤ Q0.9 ) = 0.9.
D’après la table de la loi normale centré réduite, on lit les valeurs
Φ(1.28) = 0.8997 et Φ(1.29) = 0.9015.
Donc Par le tableau d’interpolation linéaire, on obtient
1.28 Q0.9 1.29
0.8987 0.9 0.9015
0.9 − 0.8997
Q0.9 = 1.28 + × (1.29 − 1.28)
0.9015 − 0.8997
Q0.9 = 1.28166
Donc le neuvième décile est Q0.9 = 1.28166.
Par symétrie, on déduit aussi le premier décile Q0.1 = −Q0.9 = −1.28166.
Interpretation : 90% des valeurs de Z sont inférieures à 1.28166 et 10% des valeurs de
Z sont inférieures à −1.28166.
X − 15
Soit une variable aléatoire X ,→ N (15, 2). On pose Z = , alors Z ,→ N (0, 1).
2
Calcul de P (X < 16) :

X − 15 16 − 15 1
P (X < 16) = P < =P Z< = Φ(0.5)
2 2 2
P (X < 16) = 0.6915.
Calcul de P (X > 17) :

X − 15 17 − 15
P (X > 17) = P > = P (Z > 1) = 1 − Φ(1) = 1 − 0.8413
2 2
P (X > 17) = 0.1587.
Calcul de P (13 ≤ X ≤ 17) :

13 − 15 X − 15 17 − 15
P (13 ≤ X ≤ 17) = P ≤ ≤ = P (−1 ≤ X ≤ 1)
2 2 2
= Φ(1) − Φ(−1) = 2Φ(1) − 1
P (13 ≤ X ≤ 17) = 0.6826
Exercice.
Soit X une variable aléatoire qui suit une loi normale centrée réduite.
Déterminer l’intervalle I centré en 0 tel que P (X ∈ I) = 0.8.
(On donnera les bornes de l’intervalle avec une précision de 10−2 ).
On a 1 − α = 0.8 ⇐⇒ α = 0.2.
On doit donc avoir Φ(uα ) = 1 − α2 = 0.9.
C’est-à-dire uα = Φ−1 (0.9).
On trouve à l’aide de la table uα ≃ 1.28. Donc I = [−1.28; 1.28].
Propriétés 5.3. Soit X ,→ N (µ, σ) et Z ,→ N (0, 1) sa loi centrée réduite associée.

1. P (µ − σ ≤ X ≤ µ + σ) = P (−1 ≤ Z ≤ 1) = 2Φ(1) − 1 ≃ 0.6826.
2. P (µ − 2σ ≤ X ≤ µ + 2σ) = P (−2 ≤ Z ≤ 2) = 2Φ(2) − 1 ≃ 0.9544.
3. P (µ − 3σ ≤ X ≤ µ + 3σ) = P (−3 ≤ Z ≤ 3) = 2Φ(3) − 1 ≃ 0.9973.
Exemple. Dans un pays, la taille en centimètres des femmes adulte peut être modé-
lisée par une variable aléatoire X suivant la loi normale d’espérance µ1 = 165 cm et
d’écart-type σ = 6 cm.
Quelle est la probabilité qu’une femme choisie au hasard dans ce pays mesure entre
153 mètre et 177 mètre ?
La probabilité cherchée est P (156 ≤ X ≤ 177).
P (156 ≤ X ≤ 177) = P (165 − 12 ≤ X ≤ 165 + 12)

= P (µ − 2σ ≤ X ≤ µ + 2σ)
P (156 ≤ X ≤ 177) ≃ 0.9544
Approximation d’une loi binomiale par une loi normale
Théorème 5.3. (Théorème de Moivre-Laplace)

Soit X une v.a qui suit la loi binomiale B(n, p) et Z la loi centrée réduite associé à X. C’est-à
X − E(X) X − np
dire Z = =p . Alors
σ(x) np(1 − p)
Z b
1 2 /2
lim P (a ≤ Z ≤ b) = √ e−t dt
n−→+∞ 2π a
Remarque 5.7. Pour n assez grand pet p ni trop voisin de 0 ou de 1, la loi binomiale B(n, p)
est proche de la loi normale N (np, np(1 − p).
En pratique, on pourra faire l’approximation d’une loi binomiale par une loi normale si on a
les conditions suivantes : n ≥ 30, np ≥ 5, et np(1 − p) ≥ 5.
Cette approximation est importante car les probabilités relatives à la loi binomiale sont diffi-
ciles à calculer quand n est grand. Pour améliorer l’approximation, on effectue une "correction
de continuité" qui permet de lier loi discrète et loi continue de la manière suivante :
∀k ∈ [[0, n]], P (X = k) ≃ P (k − 0.5 ≤ Y ≤ k + 0.5),
∀k ∈ [[0, n]], P (X ≤ k) ≃ P (Y ≤ k + 0.5) et P (X ≥ k) ≃ P (Y ≥ k − 0.5),

∀a, b ∈ [[0, n]], P (a ≤ X ≤ b) ≃ P (a − 0.5 ≤ Y ≤ b + 0.5),
p
où Y suit la loi normale N (np, np(1 − p).
Exemple. On lance un dé équilibré 180 fois et on note X la variable aléatoire qui

représente le nombre d’apparition de la face 6.
En utilisant l’approximation normale et en effectuant au préalable une correction de
continuité, calculer les probabilité suivantes : P (X ≤ 20), P (X > 45) et P (X = 30).
Il faut d’abord
calculer
les paramètres de la loi normale correspondante à cette loi
1
binomiale B 180, .
6
r
1 p 1 5
E(X) = np = 180. = 30 et σ(X) = np(1 − p) = 180. . = 5.
6 6 6
Il faut vérifier qu’on se trouve dans les hypothèses de l’approximation :
n = 180 ≥ 30, np = 30 ≥ 5 et n(1 − p) = 150 ≥ 5.
Donc on peut approcher la loi binomiale B 180, 16 par la loi normale N (30, 5).
Calcul de P (X ≤ 20) :
P (X ≤ 20) = P (Y ≤ 20 + 0.5), où Y ,→ N (30, 5).

Y − 30 20.5 − 30
= P ≤
5 5
Y − 30
= P (Z ≤ −1.9) avec Z =
5
= 1 − Φ(1.9)
P (X ≤ 20) ≃ 0.0287
Calcul de P (X > 45) :
P (X > 45) = P (X ≥ 46)

≃ P (Y ≥ 46 − 0, 5) où Y ,→ N (30, 5)
= P (Y ≥ 45, 5)

45, 5 − 30 Y − 30
= P Z≥ avec Z =
5 5
= P (Z ≥ 3.1) = 1 − Φ(3.1)
= 1 − 0.9990
P (X > 45) ≃ 0.001.
Calcul de P (X = 30) :
P (X = 30) ≃ P (30 − 0.5 ≤ Y ≤ 30 + 0.5) où Y ,→ N (30, 5)

29.5 − 30 Y − 30 30.5 − 30
= P ≤ ≤
5 5 5
Y − 30
= P (−0.1 ≤ Z ≤ 0.1) avec Z =
5
= Φ(0.1) − Φ(−0.1)
= 2Φ(0.1) − 1
≃ 2 × 0.5398 − 1
P (X = 30) ≃ 0.0796
Le calcul exact de P (X = 30) avec la loi binomiale donne 0.07955977025.
Somme de lois normales indépendnates

Proposition 5.12. Soient X1 , ..., Xn n variables aléatoires réelles continues et définies sur le
même espace probabilisé, indépendantes et suivant respectivement les lois normales N (µ1 , σ1 ),
..., N (µn , σn ) alors la somme X = X1 + ... + Xn suit la loi normale N (µ, σ) de paramètres
v v
X n n
X
u n
X
u n
u uX
µ= E(Xi ) = µi , et σ = t V (Xi ) = t σi2 .
i=1 i=1 i=1 i=1
Corollaire 5.1. Soient Y1 , ..., Yn , n variables aléatoires réelles continues et définies sur le
même espace probabilisé, indépendantes et suivant la même loi normale N (µ, σ) alors la
n
1X σ
moyenne Y = Yi est une variable aléatoire qui suit la loi normale N µ, √ .
n i=1 n
Preuve. Il suffit d’appliquer la proposition précédente pour les variables aléatoires
Yi
Xi = , pout tout i ∈ [[1, n]].
n
Exemple. Soient X1 , X2 et X3 trois variables aléatoires indépendantes de loi normale
tells que E(X1 ) = 30, V (X1 ) = 10, E(X2 ) = 20 et V (X2 ) = 14, E(X3 ) = 50 et
V (X3 ) = 25. On pose X = X1 + X2 + X3 .
Déterminer la loi de X.
X est la somme de 3 v.a.r indépendantes suivant une loi normale, dont X suit une
loi normale N (µ, σ) de paramètres
µ = E(X)
= E(X1 ) + E(X2 ) + E(X3 )
= 30 + 20 + 50
µ = 100
p
σ = V (X)
p
= V (X1 ) + V (X2 ) + V (X3 )
√
= 10 + 14 + 25
σ = 7
D’où X ,→ N (170, 7).
5.2.4 Loi de Cauchy

Définition 5.14. Une variable aléatoire continue X suit une loi de Cauchy de paramètres
α > 0 (paramètre d’échelle) et x0 ∈ R (paramètre de position) si elle admet pour densité de
probabilité la fonction
1 α
f (x) = , ∀x ∈ R.
π α + (x − x0 )2
2
On note X ,→ CA(x0 , α).
Remarque 5.8. La loi de Cauchy n’admet ni espérance ni variance. Il en va de même pour

moment d’ordre supérieur.
Representation graphique. La figure ci-dessous

représente les courbes des densités
3
de loi de Cauchy CA(0, 1), CA(1, 1) et CA , 1 . Nous voyons l’allure de la densité
2
en fonction des paramètres.
Proposition 5.13. Si X et Y sont deux v.a.r. indépendantes qui suivent la loi normale
X
N (0, 1) alors la variable aléatoire suit la loi de Cauchy CA(0, 1).
Y
Proposition 5.14. Pour tout x ∈ R, la fonction de répartition de X ,→ CA(x0 , α) est donnée
par
1 1 x − x0
F (x) = + arctan .
2 π α
5.3 Inégalité de markov et de Bienaymé-Tchebychev

Faute de connaître une probabilité exacte, il suffit parfois de trouver une borne
supérieure ou inférieure à cette probabilité. Dans cette partie, on va presenter deux
inégalités permettant de "localiser" les valeurs prises par une variable aléatoire dis-
crete ou continue en fonction de sa moyenne et de sa variance.
Théorème 5.4. (Inégalité de markov)

Soit X une variable aléatoire positive d’espérance E(X). Alors,
E(X)
∀δ > 0, P (X ≥ δ) ≤ .
δ
Remarque 5.9. Par intuition, l’inégalité de Markov formalise le fait qu’une variable aléatoire
positive a peu de chances de prendre de grande valeurs.
Si on pose δ = αE(X) alors l’inégalité de Markov devient
1
∀α > 0, P (X ≥ αE(X)) ≤ .
α
Théorème 5.5. (Inégalité de Bienaymé-Tchebychev)
Soit X une variable aléatoire telle que E(X) et V (X) existent. Alors,
V (X)
∀δ > 0, P (|X − E(X)| ≥ δ) ≤ .
δ2
Remarque 5.10. Soit X un variable aléatoire. On note son espérance E(X) = µ et sa
variance V (X) = σ 2 .
Cette inégalité est dite inégalité de concentration. Elle donne un intervalle de fluctuation
σ2
]µ − δ, µ + δ[ pour X de niveau 1 − 2 avec δ > 0. En effet
δ
σ2
P (X ∈]µ − δ, µ + δ[) = P (|X − µ| < δ) = 1 − P (|X − µ| ≥ δ) ≥ 1 − 2 .
δ
Si on applique l’inégalité précédente pour δ = 2σ et δ = 3σ on obtient
σ2 3
P (X ∈]µ − 2σ, µ + 2σ[) = P (|X − µ| < 2σ) = 1 − P (|X − µ| ≥ 2σ) ≥ 1 − 2
=
4σ 4
σ2 8
P (X ∈]µ − 3σ, µ + 3σ[) = P (|X − µ| < 3σ) = 1 − P (|X − µ| ≥ 3σ) ≥ 1 − 2 = .
9σ 9
Ces propriétés sont encore une illustration du fait que l’écart-type mesure la dispersion de la
variable aléatoire autour de sa moyenne.
Exemple. Soit X une v.a telle que E(X) = 4 et σ = 2. Donnons une limite de la
probabilité que X soit comprise strictement entre 0 et 8.
3
P (0 < X < 8) = P (−4 < X − 4 < 4) = P (|X − 4| < 4) = P (|X − µ| < 2σ) ≥ .
4
On a au moins 75% de chances pour que les valeurs de la variable aléatoire X soient
comprise strictement entre 0 et 8.
Chapitre 6
Couple de variables aléatoires
6.1 Couple de variables aléatoires discrètes

6.1.1 Loi conjointe
Soit (X, Y ) un couple de variables aléatoire discrètes sur un un espace probabi-
lism (Ω, C, P ). On note dans toute la suite X(Ω) = {xi : i ∈ I} et Y (Ω) = {yj : j ∈ J},
où I, J ⊂ N.
Définition 6.1. La loi conjointe du couple (X, Y ) est la donnée de

pij = P ((X = xi ) ∩ (Y = yj )), (i, j) ∈ I × J.
PP
On a alors pij = 1.
i∈I j∈J
6.1.2 Fonction de répartition conjointe

Définition 6.2. Soit (X, Y ) un couple de v. a. réelles sur un espace probabilism (Ω, C, P ). On
appelle fonction de répartition conjointe du couple (X, Y ), l’application FX,Y : R2 → [0, 1]
définie par
FX,Y (x, y) = P (X ≤ x, Y ≤ y) = P ((X ≤ x) ∩ (Y ≤ y)).
6.1.3 Lois marginales

Définition 6.3. Les lois marginales du couple
P(X, Y ) sont les lois des variables X et Y.
La loi marginale de X : P (X = xi ) = pi• = pij .
j∈J
P
La loi marginale de Y : P (Y = yj ) = p•j = pij .
i∈I
Exemple. Une urne contient 4 boules blanches, 2 boules noires et 4 boules rouges. On
tire simultanément 3 boules au hasard. Soient X la variable prenant pour valeur le
nombre de boules blanches obtenus, et Y la variable prenant pour valeur le nombre
de boules noires obtenus.
Déterminer la loi conjointe du couple (X, Y ) et les lois marginale de Xet Y.
3
On a cardΩ = C10 = 120, X(Ω) = {0, 1, 2, 3} et Y (Ω) = {0, 1, 2}, et P la probabilité
uniforme.
75
X \Y 0 1 2 pi•
0 1/30 3/30 1/30 5/30
1 6/30 8/30 1/30 15/30
2 6/30 3/30 0 9/30
3 1/30 0 0 1/30
p•j 14/30 14/30 2/30 1
On remarque par exemple que (xi , yj ) = (3, 1) ∈
/ (X, Y )(Ω). En pratique, on pose
pij = 0.
6.1.4 Lois conditionnelles

Définition 6.4. La loi conditionnelle de X sachant Y = yj est la donnée de
P ((X = xi ) ∩ (Y = yj )) pij
P (X = xi /Y = yj ) = = , ∀i ∈ I.
P (Y = yj ) p•j
On a la même définition pour la loi conditionnelles de Y sachant X = xi .
Exemple. Avec l’exemple précédent, la loi conditionnelle de X sachant Y = 1 est
xi /Y = 1 0 1 2 3
P (X = xi /Y = 1) 3/14 8/14 3/14 0/14
La moyenne conditionnelle de X/Y = 1 est
3 8 3 0
E(X/Y = 1) = 0 × +1× +3× +3× = 1.
14 14 14 14
Remarque 6.1. Notons que E(Y /X) est une fonction de X, donc c’est une variable aléatoire
discrète dont la loi de probabilité est définie par l’ensemble de ses valeurs possibles, c’est-à-dire
{E(Y /X = xi ) /i ∈ I} et les probabilités correspondantes pi• = P (X = xi ). L’espérance de
E(Y /X) est donnée par
X
E(E(Y /X)) = pi• E(Y /X = xi ).
i∈I
Remarque 6.2. On vérifie que E(E(Y /X)) = E(Y ).

En effet
X
E(E(Y /X)) = pi• .E(Y /X = xi )
i∈I
X X
= pi• yj P (Y = yj /X = xi )
i∈I j∈J
X P (Y = yj , X = xi )
X
= pi• yj
i∈I j∈J
P (X = xi
XX pij X X
= pi• yj = yj pij
i∈I j∈J
p i•
j∈J i∈I
X
E(E(Y /X)) = yj p•j = E(Y )
j∈J
Théorème 6.1. Théorème

P de transfert Soit ϕ une fonction de R2 dans R telle que ϕ(X, Y ) soit
une v. a. vérifiant ϕ(xi , yj )pij converge absolument. Alors ϕ(X, Y ) possède une espérance,
i,j
et X X
E (ϕ(X, Y )) = ϕ(xi , yj )P ((X = xi ) ∩ (Y = yj )) = ϕ(xi , yj )pi,j
i,j i,j
6.1.5 Indépendance
Définition 6.5. On dit que X et Y sont indépendantes si
∀(i, j) ∈ I × J, P ((X = xi ) ∩ (Y = yj )) = P (X = xi )P (Y = yj ),
ou encore
∀(i, j) ∈ I × J, pij = pi• × p•j .
Proposition 6.1. Si X et Y sont indépendantes, admettant une espérance, alors la v. a. XY
admet une espérance, et
E(XY ) = E(X)E(Y ).
Proposition 6.2. Si X et Y sont indépendantes, alors toute fonction de X est indépendante
de toute fonction de Y .
Exemple. Reprenons l’exemple précédent
X \Y 0 1 2 pi•
0 1/30 3/30 1/30 5/30
1 6/30 8/30 1/30 15/30
2 6/30 3/30 0 9/30
3 1/30 0 0 1/30
p•j 14/30 14/30 2/30 1
1
On a par exemple p42 = 0 et p4• × p•2 = 30 × 14
30
.
Donc p42 ̸= p4• × p•2 et par suite X et Y ne sont pas indépendantes.
Exercice Soit (X, Y ) un couple de v. a. discrètes dont la loi est donnée par le tableau
suivant
X \Y 1 2 3 4
1 0.08 0.04 0.16 0.12
2 0.04 0.02 0.08 0.06
3 0.08 0.04 0.16 0.12
1. Déterminer les lois marginales du couple (X, Y ) et préciser si X et Y sont
indépendantes.
2. Vérifier que E(XY ) = E(X)E(Y ).
Corrigé 1) Les lois marginales du couple (X, Y ) sont données par le tableau :
X \Y 1 2 3 4 pi.
1 0.08 0.04 0.16 0.12 0.4
2 0.04 0.02 0.08 0.06 0.2
3 0.08 0.04 0.16 0.12 0.4
p.j 0.2 0.1 0.4 0.3 1
On remarque que toutes les probabilités des couples (xi , yj ) s’obtiennent en faisant
le produit des probabilités marginales
∀i ∈ [[1, 3]], ∀j ∈ [[1, 4]], pij = pi• × p•j
Donc X et Y Sont indépendantes.

2) Les espérances de X, Y et de XY se calcul à partir du tableau précédent
3
X
E(X) = xi pi• = 1 × 0.4 + 2 × 0.2 + 3 × 0.4
i=1
= 0.4 + 0.4 + 1.2
E(X) = 2
4
X 4
X
E(Y ) = yj p•j = 1 × 0.2 + 2 × 0.1 + 3.4 + 4 × 0.3
j=1 j=1
= 0.2 + 0.2 + 1.2 + 1.2
E(Y ) = 2.8
3 X
X 4
E(XY ) = xi yj pij
i=1 j=1
= 1 × 1 × 0.08 + 1 × 2 × 0.04 + 1 × 3 × 0.16 + 1 × 4 × 0.12
+ 2 × 1 × 0.04 + 2 × 2 × 0.02 + 2 × 3 × 0.08 + 2 × 4 × 0.06
+ 3 × 1 × 0.08 + 3 × 2 × 0.04 + 3 × 3 × 0.16 + 3 × 4 × 0.12
= 0.08 + 0.08 + 0.48 + 0.48 + 0.08 + 0.08 + 0.48 + 0.48 + 0.24 + 0.24 + 1.44 + 1.44
E(XY ) = 5.6
On a E(X)E(Y ) = 2 × 2.8 = 5.6 = E(XY ). Ceci est prévisible car X et Y sont

indépendantes.
6.2 Couple de variables aléatoires continues

6.2.1 Fonction de répartition et densité
Définition 6.6. Soit (X, Y ) un couple de variable aléatoires réelles sur un espace probabilisé
(ω, C, P ). On appelle fonction de répartition conjointe du couple (X, Y ), l’application
FX,Y : R2 −→ [0, 1] définie par
FX,Y (x, y) = P (X ≤ x, Y ≤ y) = P ((X ≤ x) ∩ (Y ≤ y))
Remarque 6.3. La valeur FX,Y (x, y) représente la probabilité de la zone hachurée indiquée
dans la figure
Figure 6.1 – Courbe des fréquences cumulées
Remarque 6.4. Si FX,Y est deux fois derivable par rapport aux deux variables, alors la loi
du couple (X, Y ) est dite absolument continue de densité f définie par
∂ 2 FX,Y
f (x, y) = .
∂x∂y
La fonction de répartition se calcule alors par double intégration
Z x Z y
F (X, Y )(x, y) = f (u, v)dudv.
−∞ −∞
Définition 6.7. Un couple de variables aléatoire (X, Y ) admet une densité s’il existe une
fonction f : R2 → R positive, dont l’intégrale sur R2 existe et vaut 1, et telle que
Z a Z b
2
∀(a, b) ∈ R , P ((X ≤ a) ∩ (Y ≤ b)) = f (x, y)dxdy.
−∞ −∞
Exemple. Le fonction f définie par

−(x+y)
e si x, y ≥ 0
f (x, y) =
0 sinon
est positive et
ZZ Z +∞ Z +∞
−x
f (x, y)dxdy = e dx e−y dy = 1.
R2 0 0
6.2.2 Densités marginales

Proposition 6.3. Soit (X, Y ) un couple de v. a. de densité f. Alors X et Y sont des variables
à densité, dont une densité pour X est :
Z +∞
fX : x 7→ f (x, y)dy.
−∞
et une densité pour Y est : Z +∞

fY : y 7→ f (x, y)dx.
−∞
Les fonctions fX et fY sont appelées densités marginales du couple (X, Y ).
Exemple. Soit (X, Y ) un couple de densité f définie sur R2 par
1 − x2 +y2
f (x, y) = e 2
2π
X a pour densité :
Z +∞ Z +∞
1 − x2 +y2 1 x2 1 y2 1 x2
fX (x) = e 2 dy = √ e− 2 √ e− 2 dy = √ e− 2 .
−∞ 2π 2π 2π 2π
| −∞ {z }
=1
On remarque que X ,→ N (0, 1).
Théorème 6.2. Théorème de transfert Soit (X, Y ) un couple de densité f et ϕ une fonction
de R2 dans R telle que |ϕ|f soit intégrable sur R2 . Alors, ϕ(X, Y ) possède une espérance, et
on a ZZ
E (ϕ(X, Y )) = ϕ(x, y)f (x, y)dxdy.
R2
6.2.3 Indépendance
Définition 6.8. On dit que X et Y sont indépendantes si
∀(x, y) ∈ R2 P (X ≤ x, Y ≤ y) = P ((X ≤ x) ∩ (Y ≤ y)) = P (X ≤ x)P (Y ≤ x).
Proposition 6.4. Soient X et Y deux variables aléatoires de densité fX et fY et soit f la

densité du couple (X, Y ). X et Y sont indépendantes si et seulement si
∀(x, y) ∈ R2 f (x, y) = fX (x)fY (y).
Dans ce cas on a E(XY ) = E(X)E(Y ).
Exercice. Soit la fonction définie par

−(x+2y)
2e si x ≥ 0
f (x) =
0 sinon
1. Déterminer les lois marginales de X et de Y .

2. Déterminer les densités conditionnelles de X sachant Y = y et de Y sachant
X = x.
3. X et Y sont-elles indépendantes ?
4. Calculer la moyenne de X et celle de Y .
Corrigé. 1) Loi marginale de X. Soit x ∈ R.

Z +∞ Z +∞
fX (x) = f (x, y)dy = 2e−x e−2y dy
−∞ 0
Z +∞
+∞
= −e−x −2e−2y dy = −e−x e−2y 0

0
−x
= −e (0 − 1)
fX (x) = e−x .
Loi marginale de Y . Soit y ∈ R.
Z +∞ Z +∞
fY (y) = f (x, y)dx = 2e−x e−2y dx
−∞ 0
Z +∞
+∞
= −2e−2y −e−x dx = −2e−2y e−x 0 = −2e−2y (0 − 1)
0
fY (y) = 2e−2y .
2) Pour tout y ∈ R, la densité conditionnelle de X sachant Y = y est donnée par
f (x, y)
∀x ∈ R, fX|Y =y (x) = .
fY (y)
Si x ̸∈]0, +∞[ alors f (x, y) = 0 et par suite fX|Y =y (x) = 0.
2e−x e−2y
Si x ∈]0, +∞[ alors fX|Y =y (x) = −2y
= e−x .
2e
Donc −x
e si x ∈]0, ∞[,
fX|Y =y (x) =
0 sinon
De la même façon, on obtient
−y
2e si y ∈]0, ∞[,
fY |X=x (y) =
0 sinon
3) X et Y sont-elles indépendantes ?
On remarque
∀x ∈ R, fX|Y =y (x) = fX (x).
Donc X et Y sont indépendantes.
On peut aussi voir que
∀y ∈ R, fY |X=x (y) = fY (y),
ce qui traduit le fait que X et Y sont indépendantes.
On peut aussi remarquer que
∀(x, y) ∈ R2 fX (x).fY (y) = f (x, y),
ce qui prouve que X et Y sont indépendantes.
4) L’espérance de X.
Z +∞ Z +∞
E(X) = xfX (x)dx = xe−x dx
−∞ 0
Z +∞
+∞ +∞
= −xe−x 0 + e−x dx = 0 + −e−x 0

0
E(X) = 1.
L’espérance de Y .
Z +∞ Z +∞
E(Y ) = yfY (y)dy = 2ye−2y dy
−∞ 0
Z +∞ +∞
+∞ 1 −2y
= −ye−2y 0 + −2y

e dy = 0 + − e
0 2 0
1
E(Y ) = .
2
6.3 Covariance et coefficient de corrélation

Soit h : R2 −→ R une fonction continue. L’espérance de h(X, Y ) se calcule pour
une loi de densité f par l’intégrale
Z Z
E(h(X, Y )) = h(x, y)f (x, y)dx dy.
R2
Dans le cas particulier où h(X, Y ) = (X −E(X))(Y −E(Y )), ceci définie la covariance
de X et Y .
Cov(X, Y ) = E (X − E(X))(Y − E(Y )) ,
Définition 6.9. On appelle covariance de X et Y le réel, s’il existe

Cov(X, Y ) = E (X − E(X))(Y − E(Y )) ,
Proposition 6.5.
1) Cov(X, Y ) = E(XY ) − E(X)E(Y ).
2) Cov(X, Y ) = Cov(Y, X).
3) Cov(X + Y, Z) = Cov(X, Y ) + Cov(X, Z).
4) Cov(aX + b, Y ) = aCov(X, Y ), ∀(a, b) ∈ R2 .
5) V (X + Y ) = V (X) + V (Y ) + 2Cov(X, Y ).
6) |Cov(X, Y )| ≤ σ(X)σ(Y ).
7) Si X et Y sont indépendantes, alors Cov(X, Y ) = 0.
Remarque 6.5. Si X et Y sont deux variables aléatoires indépendantes, alors
Z Z Z Z
E(XY ) = xyf (x, y)dx dy = xyfX (x)fY (y)dx dy
R2 R 2
Z Z
= xfX (x)dx yfY (y)dy
R R
E(XY ) = E(X)E(Y ).
Par consequent Cov(X, Y ) = E(XY ) − E(X)E(Y ) = 0.
Attention : la réciproque est généralement fausse, c-à-d si deux variables aléatoires ont une
covariance nulle, elles ne sont pas forcement indépendantes.
Définition 6.10. On appelle coefficient de corrélation linéaire de X et Y le réel, s’il existe
Cov(X, Y )
r(X, Y ) = .
σ(X)σ(Y )
On a alors
|r(X, Y )| ≤ 1.
Exercice . Soit un couple de variable aléatoire de densité

1
πR2
si (x, y) ∈ D(0, R)
f (x, y) =
0 sinon,
où D(0, R) = {(x, y) ∈ R2 : x2 + y 2 ≤ R2 }.
1) Déterminer les densités marginales de X et Y.
2) X et Y sont-elles indépendantes ?
3) Calculer Cov(X, Y ).
Corrigé . 1) La densité marginale de f .

Z +∞
Soit x ∈ R. On a fX (x) = f (x, y)dy.
−∞
Si x ∈
/ [−R, R] alors ∀y ∈ R, f (x, y) = 0 et donc fX (x) = 0.
Si x ∈ [−R, R] alors
f (x, y) ̸= 0 ⇐⇒ (x, y) ∈ D(0, R)
⇐⇒ x2 + y 2 ≤ R 2
⇐⇒ y 2 ≤ R 2 − x2
√
⇐⇒ |y| ≤ R2 − x2
√ √
f (x, y) ̸= 0 ⇐⇒ − R 2 − x2 ≤ y ≤ R 2 − x2 .
√
R2 −x2
2 √ 2
Z
1
Donc fX (x) = √ 2
dy = 2
R − x2 .
2
− R −x 2 πR πR
Finalement la densité marginale de X est donnée par
2 √
πR2
R2 − x2 si −R ≤ x ≤ R,
fX (x) =
0 sinon,
De la même façon, on obtient la densité marginale de Y ,
2 p
πR2
R2 − y 2 si −R ≤ y ≤ R,
fY (y) =
0 sinon,
2) X et Y sont-elles indépendantes ?.
On a
√ p
4 R 2 − x2 R2 − y 2 1
∀(x, y) ∈ [−R, R]2 , fX (x).fY (y) = 2 4
̸= = f (x, y).
π R πR2
Donc X et Y ne sont pas indépendantes.
3) Calcul de Cov(X, Y ).
On sait que Cov(X, Y ) = E(XY ) − E(X)E(Y ).
Z +∞ Z R √
2
E(X) = xfX (x)dx = x R2 − x2 dx = 0,
−∞ πR2 −R
√
car x −→ x R2 − x2 est une fonction impaire et on intègre sur [−R, R].
De même pour l’espérance de Y , on obtient
Z +∞ Z R p
2
E(Y ) = yfY (y)dy = y R2 − y 2 dx = 0,
−∞ πR2 −R
Z Z Z R Z R Z R Z R
1 1
E(XY ) = f (x, y)dx dy = 2
xydx dy = xdx ydy = 0.
R2 −R −R πR πR2 −R −R
Donc Cov(X, Y ) = 0.
Remarquer qu’on a un exemple de variables aléatoires dont la covariance est nulle,
pourtant elles ne sont pas indépendantes.

Cours Statistique 2020 2021

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours Statistique 2020 2021

Transféré par

Droits d'auteur :

Formats disponibles

Table des matières

1 La Statistique descriptive à une variable 3

2 Statistique descriptive à deux variables 22

3 Dénombrement et espace de probabilités 31

4 Variables aléatoires discrètes 40

4.2.6 Loi de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

5 Variables aléatoires continues 53

6 Couple de variables aléatoires 74

La Statistique descriptive à une

1.3 Distribution statistique discrète

La fréquence (fréquence relative) fi de la modalité xi est définie par

Le pourcentage pi de la modalité xi est pi = fi × 100%.

L’effectif cumulé croissant Ni :

Effectifs Effectifs Fréquences Fréquences

Figure 1.1 – Diagramme en batôns des effectifs

Figure 1.2 – Diagramme en batôns des effectifs cumulés croissants

Tableau statistique (fréquences cumulées décroissantes)

Effectifs Effectifs Fréquences Fréquences

Cette fonction est appelée fonction cumulative ou fonction de répartition.

La courbe de F est la représentation graphique de la portion F (x) des individus de

Figure 1.3 – Courbe des fréquences cumulées

1.4 Distribution statistique groupée

diants est donnée par le tableau

Classes Effectifs Effectifs cumulés Fréquences Fréquences cumulées

Figure 1.4 – Histogramme des fréquences

Figure 1.5 – Histogramme des effectifs (corrigés)

Exemple. On s’intéresse à la consommation en litre par 100 km de N = 20 voitures :

Par la règle de Sturges : P = 1 + 3.3 log10 (20) = 5.293.

Figure 1.6 – Courbe cumulative des fréquences

1.5 Variable qualitative

Modalités xi Effectifs ni Fréquences fi pi %

Figure 1.7 – Diagramme en secteurs

1.5.2 Variable qualitative ordinale

Sd : Sans diplôme, P : Primaire, Se : Secondaire,

Les modalités étant ordonnées selon un gradient de codage de 1 (Sd) à 5 (U)

Diplômes Effectifs Fréquences( en %)

Figure 1.8 – Diagramme à bandes (barres) des fréquences (en %)

1.6 Paramètres de position

Modalités xi Effectifs ni Fréquences fi

Le mode est x1 = célibataire correspondant à l’effectif n1 = 9.

Classes Effectifs Fréquences

Figure 1.9 – Representation graphique du mode (cas continu)

La médiane est la valeur du rang 4, donc Me = 1.

La médiane est Me = 1+2 2

la moitié de l’effectif total étant 25. Donc La médiane est

On a N = 120, le premier quartile est donc la valeur de rang 30 et le troisième quartile

Pour calculer les quartiles Q1 , Q2 et Q3 . On commence par completer le tableau en

Calcul de Q1 : On a N4 = 50, la plus petite valeur des effectif cumulés croissants

Avec cette forme brute, la moyenne est

Centres des classes 12.5 13.5 14.5 15.5 16.5

28 × 12.5 + 46 × 13.5 + 65 × 14.5 + 32 × 15.5 + 29 × 16.5 361

1.7 Paramètres de dispersion

L’écart interquartile est le nombre Q3 − Q1 . C’est la longueur de l’intervalle inter-

Remarque 1.7. L’écart interquartile et L’écart interdécile mesure la dispersion de la série

La variance, l’écart-type et le coefficient de variation

L’écart-type de la variable X est donné par

Exemple. Soit la série statistique 2 3 4 4 5 6 7 9.

y = ax + b, V (Y ) = a2 V (X) et σ(Y ) = |a|σ(X).

Statistique descriptive à deux

2.1 Distributions marginales et distributions condition-

L’effectif ni• est le nombre d’individus présentant la modalité xi :

L’effectif n•j est le nombre d’individus présentant la modalité yj :

La fréquence fij du couple des modalités xi et yj est

Tableau de contingence des effectifs