Cours Proba PDF

.
Table des matières
1 Statistique descriptive 5
1.1 Historique et définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2 Statistique à une variable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.1 Terminologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.2 Représentation des données . . . . . . . . . . . . . . . . . . . . . . . 9
1.2.3 Caractères de position et de dispersion . . . . . . . . . . . . . . . . . 18
1.2.4 Caractères de Dispersion . . . . . . . . . . . . . . . . . . . . . . . . . 31
1.3 Statistique à deux Variables . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
1.3.1 Représentation graphique - Nuage de points . . . . . . . . . . . . . . 36
1.3.2 Caractéristique des séries marginales . . . . . . . . . . . . . . . . . . 40
1.3.3 Ajustement affine par la méthode des moindres carrés . . . . . . . . . 42
1.3.4 Coefficient de corrélation . . . . . . . . . . . . . . . . . . . . . . . . . 45
2 Probabilités 47
2.1 Analyse combinatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
2.1.1 Cardinal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
2.1.2 Principe de Multiplication . . . . . . . . . . . . . . . . . . . . . . . . 48
2.1.3 Arrangements sans répétition . . . . . . . . . . . . . . . . . . . . . . 48
1
TABLE DES MATIÈRES TABLE DES MATIÈRES
2.1.4 Arrangements avec répétition . . . . . . . . . . . . . . . . . . . . . . 49
2.1.5 Permutation sans répétition . . . . . . . . . . . . . . . . . . . . . . . 50
2.1.6 Permutation avec répétition . . . . . . . . . . . . . . . . . . . . . . . 50
2.1.7 Combinaisons sans répétition . . . . . . . . . . . . . . . . . . . . . . 51
2.1.8 Récapitulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
2.1.9 Coefficients binomiaux . . . . . . . . . . . . . . . . . . . . . . . . . . 52
2.2 Notions de Probabilités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
2.2.1 Vocabulaires Probabilistes . . . . . . . . . . . . . . . . . . . . . . . . 54
2.2.2 Langage des événements . . . . . . . . . . . . . . . . . . . . . . . . . 55
2.2.3 Probabilité d’un événement aléatoire . . . . . . . . . . . . . . . . . . 55
2.2.4 Propriétés des probabilités d’un événement aléatoire . . . . . . . . . . 56
2.3 Probabilité conjointe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
2.3.1 Événements indépendants . . . . . . . . . . . . . . . . . . . . . . . . 58
2.3.2 Événements dépendants - Probabilité conditionnelle . . . . . . . . . . 58
3 Variables aléatoire 62
3.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
3.2 Variables aléatoires discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.2.1 Représentation graphique de la distribution de probabilité . . . . . . 64
3.2.2 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . . . . 64
3.3 Variables aléatoires continues . . . . . . . . . . . . . . . . . . . . . . . . . . 65
3.3.1 Fonction de densité de probabilité . . . . . . . . . . . . . . . . . . . . 66
3.3.2 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.3.3 Espérance mathématique d’une distribution de probabilité . . . . . . 68
3.3.4 Variance d’une distribution de probabilités . . . . . . . . . . . . . . . 69
3.3.5 Loi d’une fonction de variable aléatoire . . . . . . . . . . . . . . . . . 70
2
3.3.6 Fonction caractéristique d’une distribution de probabilité . . . . . . . 71
3.3.7 Propriétés de l’espérance mathématique et de la variance . . . . . . . 72
4 Lois de Probabilités 74
4.1 Lois Discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
4.1.1 Loi uniforme discrète . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
4.2 Loi Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
4.2.1 Loi Binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
4.3 Loi géométrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
4.3.1 Situation concrète . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
4.3.2 Distribution de probabilités . . . . . . . . . . . . . . . . . . . . . . . 79
4.3.3 Paramètres descriptifs de la distribution . . . . . . . . . . . . . . . . 79
4.4 Loi de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
4.4.1 Paramètres descriptifs de la distribution . . . . . . . . . . . . . . . . 81
4.5 Lois Continues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
4.5.1 Loi Uniforme Continue . . . . . . . . . . . . . . . . . . . . . . . . . 82
4.5.2 Loi Exponentielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
4.5.3 Loi de probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
4.5.4 Loi de Cauchy C(m, a) . . . . . . . . . . . . . . . . . . . . . . . . . . 84
4.5.5 Loi Normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
4.5.6 Paramètre descriptifs de la distribution . . . . . . . . . . . . . . . . . 84
4.5.7 Propriétés de la distribution normale . . . . . . . . . . . . . . . . . . 85
4.5.8 Approximation de la loi binomiale par la loi normale . . . . . . . . . 87
4.5.9 La correction de continuité . . . . . . . . . . . . . . . . . . . . . . . . 87
4.5.10 Approximation de la loi de Poisson par la loi normale . . . . . . . . . 87
4.5.11 Quelques exercices types . . . . . . . . . . . . . . . . . . . . . . . . . 88
3
5 Couples de variables aléatoires 91
5.1 CVAD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
5.1.1 Loi Conjointe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
5.1.2 Loi Marginale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
5.1.3 Loi de probabilité conditionnelle . . . . . . . . . . . . . . . . . . . . . 93
5.1.4 Cas de variables aléatoires indépendantes . . . . . . . . . . . . . . . . 94
5.2 CVAC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
5.2.1 Fonction de densité de probabilité conjointe . . . . . . . . . . . . . . 95
5.2.2 Densité de probabilité marginale . . . . . . . . . . . . . . . . . . . . . 95
5.2.3 Variables dépendantes . . . . . . . . . . . . . . . . . . . . . . . . . . 96
5.2.4 Variables indépendantes . . . . . . . . . . . . . . . . . . . . . . . . . 97
5.3 Espérance et Variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
5.3.1 Covariance de deux variables aléatoires . . . . . . . . . . . . . . . . . 98
4
Chapitre 1
Statistique descriptive
Ce chapitre introductif est consacré à l’étude de la statistique descriptive ainsi que des
différents termes qui en constituent le vocabulaire de base.
1.1 Historique et définition
L’histoire de la "statistique" remonte à une époque très ancienne. Les activités statis-
tiques (dénombrements) ont commencé bien avant la création du mot, l’application de la
méthode et de l’analyse statistique.
Depuis l’antiquité, les Empereurs réalisaient des dénombrements de populations humaines et
de terres pour les besoins de la guerre et de l’impôt. Il y a plus de 4000 ou 5000 ans, il existait
déjà en Chine des descriptions chiffrées de la population et de l’agriculture. Les Égyptiens de
l’époque des Pharaons procédaient au dénombrement de la population. A Rome, l’empereur
Auguste fit procéder à une vaste enquête en dénombrant les soldats, les navires et les revenus
publics. Jusqu’au moyen âge, les seules "statistiques" existante étaient les dénombrements
faits dans des buts divers : assiettes de l’impôt, répartition des terres, recrutement dans l’ar-
mée est effectués avec des méthodes diverses (recensements des personnes, enregistrements
de certains actes d’état civil ...). C’est à partir du XVIII siècle le mot "statistique" crée par
ACHENWAL en 1749 à partir du mot "STATISTA" (politique). Du simple dénombrement
de populations humaines et de terres, la statistique est devenue une science qui a retenu et
continue de retenir l’attention, non seulement des empereurs et de rois, mais surtout des
personnes de sciences. Puis en XVIII-XIX siècle, beaucoup de scientifiques de tous ordre ont
apporté leur contribution au développement de cette science PASCAL, HUYGENS, BER-
5
1.2 Statistique à une variable CHAPITRE 1. STATISTIQUE DESCRIPTIVE
NOULLI, MOIVRE, LAPLACE, GAUSS, MENDEL, PEARSON, FISCHER etc (traitement

et interprétation des observations dans le but de faire de la prévision. Problèmes traités :
démographie, calcul de taux de mortalité, 1ères interactions avec les probabilités). Vers la fin
du XX-XXI siècle, l’analyse statistique de plus en plus poussée grâce à la puissance de calculs
des ordinateurs qui permettent de traiter des masses de données de plus en plus importantes.
Aujourd’hui on constater que les statistiques sont partout. Ceci révèle que le monde moderne
est presque entièrement tourné vers le quantitatif et le mesurable. D’où l’intérêt de la sta-
tistique, comme discipline relativement récente, mais qui correspond parfaitement à cette
orientation du monde moderne.
Définition : La Statistique, c’est l’étude des variations observables. C’est une méthode qui
consiste à réunir des données chiffrées sur des ensembles nombreux, puis à les analyser et à
les interpréter.
La statistique grosso-modo est formée de trois grandes classes : la statistique descriptive, la
statistique inférentielle et la nouvelle branche qu’est la statistique exploratrice. Ce chapitre
est consacré à la statistique descriptive. La statistique descriptive comme son nom l’indique,
se propose de décrire les données, de les classer et de les présenter sous des formes claires et
compréhensibles. Elle est à la base par exemple de toute organisation du système d’informa-
tion d’une entreprise : statistiques de la production ou des ventes, statistiques financières,
statistiques des ressources humaines. Elle est aussi une importante composante en sciences
humaines de ce qu’on appelle les méthodes quantitatives. On va commencer par définir le
lexique qu’on va utiliser tout le long de ce chapitre.
1.2 Statistique à une variable
1.2.1 Terminologie
Définitions 1.2.1.
Population : Ensemble que l’on observe et qui sera soumis à une analyse statistique (Par
exemple la filière de MIPC, la population féminine, les fonctionnaires de la FST,..).
Chaque élément de cet ensemble est un Individu ou Unité statistique.
Échantillon C’est un sous ensemble de la population considérée. Le nombre d’individus
dans l’échantillon est la taille de l’échantillon.
6
Exemple 1.2.1.
On veut étudier la croissance économique de 200 petites et moyennes entreprises (PME) au
Maroc.
• Population : Les entreprises au Maroc.
• Individu : Chaque PME au Maroc.
• Échantillon : Les 200 PME au Maroc.
Définition 1.2.1. (Variable Statistique ou Caractère)

Une variable est une information dont on recueille (ou observe ou mesure) la valeur sur
chaque individu. On parle de variable parce que la valeur de l’information n’est pas la même
d’un individu à l’autre.
Par exemple : les Notes et les Mentions des étudiants à l’examen de Statistique, leur Sexe,
les Couleurs de leurs Yeux, le Chiffre d’Affaire par PME, le Nombre d’Enfants par Ménage.
Remarque 1.2.2.
On va réserver les dernières lettres de l’alphabet pour noter les variables : X, Y, Z, U...
Dans une population donnée, un caractère peut varier d’un individu à l’autre. On dit que
ce caractère présente différentes modalités.
7
Exemple 1.2.3.
1. Si l’on étudie la population des étudiants d’un amphithéâtre et que le caractère étudié
est l’âge, les modalités du caractère seront 18 ans, 19 ans, 20 ans, etc.
2. Si l’on étudie une population de voitures et que le caractère étudié est la couleur, les
modalités du caractère seront des couleurs : bleu, vert, blanc, etc.
Remarque 1.2.4. On emploie également le terme de variable statistique pour désigner un

caractère, les modalités du caractère étant les valeurs prises par cette variable.
Définition 1.2.2. (Série Statistique)

La série Statistique est une correspondance qui a chaque individu de la population étudiée
fait associer une valeur du caractère étudié.
Les valeurs d’une série statistique pour un caractère X sont notées : x1 , x2 , x3 , ..., xn .
Remarque 1.2.5. Les modalités d’un caractère doivent être :

Incompatibles : Chaque individu a une seule modalité.
Exhaustives : Tous les cas sont prévus.
On distingue deux types de variable :
Définition 1.2.3. (Variable qualitative)

Une variable statistique est dite de nature qualitative si ses modalités ne sont pas mesurables.
Exemple 1.2.6. Le sexe, la profession, la situation familiale sont quelques exemples de

variables qualitatives.
Les modalités d’une variable qualitative peuvent être classées sur deux types d’échelle :
nominale ou ordinale.
Définition 1.2.4. Variable qualitative nominale

Une variable statistique qualitative est dite définie sur une échelle nominale si ses modalités
ne sont pas naturellement ordonnées.
Exemple 1.2.7.
Nationalité : marocaine, allemande, française.
Groupe sanguin : A, B, O, AB.
8
Définition 1.2.5. Variable qualitative ordinale

Une variable statistique qualitative est dite ordinale si l’ensemble de ses modalités peut être
doté d’une relation d’ordre.
Exemple 1.2.8.
Niveau d’étude : primaire, secondaire, supérieur.
État mécanique d’une Voiture : mauvais, moyen, bon, excellent.
Définition 1.2.6. (Variable quantitative)

Une variable statistique est dite de nature quantitative si ses modalités sont mesurables. Les
modalités d’une variable quantitative sont des nombres liés à l’unité choisie, qui doit toujours
être précisée.
Il existe deux types de variables quantitatives : les variables discrètes et les variables
continues.
Définition 1.2.7. (Variable quantitative discrète)

L’ensemble des valeurs possibles (modalités) est dénombrable. Lorsque les modalités sont des
valeurs numériques isolées, comme le nombre d’enfants par ménage, on parle de variable
discrète.
Exemple 1.2.9. Âge, salaire, nombre de lit dans un hôpital, nombre d’étudiants par classe.
Définition 1.2.8. (Variable quantitative continue)

L’ensemble des valeurs possibles (modalités) est continu. Lorsque la variable, par exemple la
taille d’un individu, peut prendre toutes les valeurs d’un intervalle, ces valeurs peuvent alors
être regroupées en classes, et on parle dans ce cas de variable continue.
Exemple 1.2.10. Poids, taux du sucre, taille, taux du sel.
1.2.2 Représentation des données
On représente les variables statistiques sous forme de diagramme en bâtons, histogramme

ou de graphique circulaire à l’aide des fréquences de chaque valeur du caractère.
• Dans une population, on considère un échantillon de n individus sur lequel on observe une
variable X.
9
– Si X est quantitative discrète, on parlera des valeurs xi de la variable X.

– Si X est qualitative nominale ou ordinale, on parlera des modalités xi de la variable
X.
– Si X est quantitative continue, on parlera des classes Ci de la variable X.
Les tableaux et graphiques :
On considère une série statistique X à caractère quantitatif, dont les p valeurs sont
données par x1 , x2 , ..., xp d’effectifs associés n1 , n2 , ..., np avec n1 + n2 + ... + np = N .
1. À chaque valeur xi (ou classe Ci ) est associée une fréquence fi : c’est la proportion
d’individus associés à cette valeur.
ni
2. fi = est un nombre compris entre 0 et 1, que l’on peut écrire sous forme de pour-
N ∑p
∑p
∑p
ni ni N
centage et fi = = i=1 = = 1.
i=1 i=1
N N N
Si dans une série statistique X, les valeurs d’un caractère peuvent être ordonnées, on définit
l’effectif cumulé Nj de la valeur nj par la somme des effectifs de toutes les valeurs inférieures
ou égales à nj .
∑
j
Nj = ni avec 1 ≤ j ≤ p.
i=1
Il s’agit ici d’effectif cumulé croissant, on pourrait de même définir un effectif cumulé
décroissant en prenant la somme des effectifs de toutes les valeurs supérieures ou égales à ni .
On définit la fréquence cumulée Fj par :
Nj ∑ ni ∑
j j
Fj = = = fi avec 1 ≤ j ≤ p.
N i=1
N i=1
A) Cas des variables quantitatives discrètes :
Soit X une variable quantitative discrète dont le nombre de modalités n’est pas trop
grand. Alors on peut dresser un tableau des fréquences auquel on peut ajouter une colonne
supplémentaire où on met les fréquences cumulées.
En ce qui concerne la représentation graphique, un seul graphique s’associe avec les variables
quantitatives discrètes : le diagramme en bâtons.
Exemple 1.2.11.
Série A : Notes obtenues à un contrôle dans une classe de 40 élèves :
10
3−4−4−4−4−4−5−5−5−5−6−6−6−6−7−7−7−7−7−8−8−8−9−
9 − 13 − 13 − 14 − 14 − 14 − 15 − 15 − 15 − 15 − 16 − 16 − 16 − 17 − 17 − 17 − 17.
On présente le résultat dans le tableau suivant :

Notes xi 3 4 5 6 7 8 9 13 14 15 16 17
Effectifs ni 1 5 4 4 5 3 2 2 3 4 3 4
Fréquence fi 0,025 0,125 0,1 0,1 0,125 0,075 0,05 0,05 0,075 0,1 0,075 0,1
FC Fj 0,025 0,15 0,25 0,35 0,475 0,55 0,6 0,65 0,725 0,825 0,9 1
Effectifs
1
Notes
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
La longueur du bâton est proportionnelle à l’effectifs.
Remarque 1.2.12. Les bâtons ne doivent pas avoir d’épaisseur, car la variable prend exac-
tement les valeurs 1, 2,... On peut ajouter les fréquences sur les bâtons.
B) Cas de variables quantitatives continues.

Considérons maintenant un échantillon de données provenant d’une variable quantitative
continue ou discrète avec un grand nombre de modalités. Il est donc inconcevable de dresser
un tableau où on énumère les modalités d’une telle variable, il serait non analysable. Il faut
donc grouper ces données en classes de valeurs. Deux questions se posent alors :
• Combien de classes faut-il former ?
• Quelles seront les largeurs de chacune des classes ?
11
La réponse à la première question, dépend de la taille de l’échantillon, le nombre de classe

à former est donné par la formule de Sturges suivante :
10
Les nombres des Classes :K = 1 + log(n).
3
Ainsi, par exemple, si n = 150, il faut former
10
K =1+ log(150) = 8, 2536 ≈ 9.
3
(on arrondit à l’entier immédiatement supérieur). Une fois qu’on sait combien de classes à
former. On essaie de former des classes de même amplitude (largeur) et cette amplitude sera
égale à :
La pus grande observation-la plus petite observation xmax − xmin
A= = .
K K
On arrondit cette amplitude selon les données pour avoir des bornes de classes faciles à
manipuler.
Pour les différents indicateurs statistiques, on utilise pour les calculs les centres des classes
comme l’indique le tableau ci-dessous :
Classes [X0 ; X1 [ [X1 ; X2 [ ······ [Xp−1 ; Xp ]

Centre des classes x1 x2 ······ xp Xi +Xi+1
avec xi = 2
Éffectifs n1 n2 ······ np
np
Fréquences n1
N
n2
N
······ N
Exemple 1.2.13. Soit X, les recettes quotidiennes(en Dirhams) d’un petit magasin. On
a sélectionné un échantillon de taille n = 40 jours au hasard qui ont donné les résultats
suivants :
16, 00 − 58, 50 − 68, 20 − 78, 00 − 79, 45 − 142, 20 − 145, 3 − 186, 70 − 209, 05 − 216, 75 −
219, 70 − 247, 75 − 249, 10 − 256, 00 − 257, 15 − 262, 35 − 268, 60 − 269, 60 − 270, 15 − 284, 45 −
319, 00 − 332, 00 − 343, 29 − 350, 75 − 354, 90 − 372, 60 − 383, 20 − 389, 20 − 404, 55 − 420, 20 −
428, 50 − 432, 40 − 444, 60 − 446, 80 − 456, 10 − 458, 10 − 493, 95 − 511, 95 − 521, 05 − 621, 35.
10
Le nombre de classe à former est K = 1 + log(40) = 6, 34 ≈ 7 d’amplitude chacune égale
3
621, 35 − 16, 00
àA= = 86, 48 ≈ 90. Cette amplitude est arrondie à 90. Ce qui donne le
7
tableau des fréquences suivant, où les classes sont des intervalles fermés à gauche et ouverts
à droite sauf le dernier qui est un intervalle fermé des deux côtés.
12
Répartition des 40 semaines selon les recettes hebdomadaires du dépanneur
X=les recettes Effectifs Fréquences Fréquences Cumulées

[10; 100[ 5 0,125 0,125
[100; 190[ 3 0,075 0,200
[190; 280[ 11 0,275 0,475
[280; 370[ 6 0,150 0,625
[370; 460[ 11 0,275 0,900
[460; 550[ 3 0,075 0,975
[550; 640[ 1 0,025 1,00
Total n=40 1,00
Quand aux graphiques, on va ici privilégier trois graphiques pour les variables quantita-
tives continues.
• L’histogramme, qui est une suite de rectangles juxtaposés les uns aux autres dressés
au-dessus de chacune des classes, dont la largeur est égale à l’amplitude de la classe (prise
comme unité de mesure) et dont la surface reflète la fréquence de la classe qu’il représente.
13
Histogramme donnant la répartition des 40 semaines en fonction des recettes hebdomadaires
• Le polygone des fréquences, qui consiste à joindre le milieux des sommets des rectangles
d’un histogramme par une ligne en zig-zag et cette ligne se ferme en ajoutant aux deux
extrémités deux classes fictives de même amplitude que les autres, comme ça la surface
délimitée par l’histogramme est identique à celle délimitée par le polygone des fréquences.
Polygone des fréquences donnant la répartition des 40 semaines selon les recettes hebdomadaires.
• La courbe des fréquences cumulées. Comme son nom l’indique, elle consiste à
tracer le graphique des fréquences cumulées, en mettant les limites des classes sur l’axe
14
horizontal et les fréquences cumulées sur l’axe vertical, ces dernières se cumulant à la fin de
chacune des classes. Ce graphique aura l’allure d’une courbe croissante variant entre 0 et 1.
La courbe des fréquences cumulées de la répartition des 40 semaines selon les recettes
C) Cas de variables qualitatives.

On va considérer des exemples où on a des variables qualitatives observées sur un échantillon
en suivant le traitement possible de ces données.
Exemple 1.2.14. On a pris un échantillon de 50 achats de boissons non-alcoolisées ache-

tées dans une grande surface, en notant par : CC=Coca-Cola ; S=Sprite ; CL=Coca-Light ;
P=Poms ; PC=Pepsi-Cola. On a obtenu les résultats suivants :
CC − S − P C − CL − CC − CC − P C − CL − CC − CL − CC − CC − CC − CL − P C − CC −
CC − P − P − S − CC − CL − P C − CL − P C − CC − P C − P C − CC − P C − CC − CC −
P C −P −P C −P C −S −CC −CC −CC −S −P −CL−P −P C −CC −P C −S −CC −CL.
Alors ici la variable est X=Boisson non-alcoolisée, qui est une variable qualitative
nominale. Pour présenter ces données sous forme de tableau, on dresse un tableau, dans la
première colonne on énumère les cinq modalités de la variable, dans la seconde colonne on
donne l’effectif de chacune des modalités (c’est-à-dire le nombre de fois que cette modalité
se répète dans l’échantillon) et dans la troisième colonne, on donne la fréquence de chacune
des modalités.
15
Tableau des fréquences des boissons non-alcoolisées

X=Boisson Effectifs Fréquences
CC 19 0,38
CL 8 0,16
PC 13 0,26
P 5 0,10
S 5 0,10
Total n=50 1,00
En ce qui concerne la représentation graphique, on va donner deux graphiques qui résument

la même information contenue dans le tableau des fréquences.
• Le diagramme à barres (horizontales ou verticales). Où on met sur un axe les modalités
de la variable et sur l’autre axe l’effectifs ou les fréquences.
Répartition des ventes des boissons non alcoolisées selon la marque
Exemple 1.2.15. Dans une clinique spécialisée en oncologie, on identifie les différents types
de cancers qui affectent les 200 derniers patients qui s’y sont inscrits :
16
X=Types de cancers Effectifs Fréquences

Poumon 42 0,210
Sein 50 0,250
Colon 32 0,160
Prostate 55 0,275
Mélanome 9 0,045
Vessie 12 0,060
• Le deuxième graphique qu’on peut faire est le diagramme à secteurs (ou circulaire) qui est
une sorte de tarte où chaque modalité occupe une partie qui reflète sa fréquence.
Répartition des différents cancers selon le type
Formule pour calculer l’angle d’un secteur : angle= fréquence×360˚.
Exemple 1.2.16. Lors d’une enquête de satisfaction de la clientèle, une compagnie a de-
mandée à un échantillon de 60 clients d’indiquer leur degré de satisfaction vis-à-vis de leur
conseiller financier, sur une échelle de 1 à 7, le 1 correspondant à "pas du tout satisfait" et
le 7 correspondant à "extrêmement satisfait". On a obtenu les résultats suivants :
5−7−6−6−7−5−5−7−3−6−7−7−6−6−6−5−5−6−7−7−6−6−4−4−7−6−7−6−7−
6−5−7−5−7−6−4−7−5−7−6−6−5−3−7−7−6−6−6−6−5−5−6−6−7−7−5−6−6−6−6.
Ici la variable, "X =degré de satisfaction" est une variable qualitative ordinale. On peut
résumer l’information contenue dans ces données sous forme d’un tableau de fréquences ce
qui donne :
17
Tableau des fréquences du degré de satisfaction des clients.

X=Degré de satisfaction Effectifs Fréquences
1 0 0
2 0 0
3 2 0,0333
4 3 0,05
5 15 0,2
6 25 0,4167
7 18 0,3
Total n=60 1
Répartition du degré de satisfaction des clients
1.2.3 Caractères de position et de dispersion
A) Les mesures de tendance centrale : On appelle mesures de tendance centrale,

des valeurs de la variable susceptibles de nous donner une idée sur la donnée qui occupe le
centre d’une série statistique. On va décrire dans ce paragraphe, les trois plus importantes
mesures de tendance centrale que sont le mode, la moyenne et la médiane.
Définition 1.2.1. Le mode ou la classe modale d’une variable statistique X est la valeur
du caractère étudié qui a le plus grand effectif et on le note M od(X).
18
Remarque 1.2.17.
– Le mode est une importante mesure de tendance centrale pour les variables qualitatives
nominales.
– Une distribution peut avoir un seul mode et on dit qu’elle est uni-modale, ou plusieurs
modes et on dit qu’elle est multimodale.
Exemple 1.2.18. Dans l’exemple Diagramme en bâtons, le mode est « 7 »et « 4 », la dis-
tribution dans ce cas, elle est bi-modale.
Exemple 1.2.19. Si on reprend l’exemple des boissons non-alcoolisées, on avait le tableau

des fréquences suivant :
Tableau des fréquences des boissons non-alcoolisées

X=Boisson Effectifs Fréquences
CC 19 0,38
CL 8 0,16
PC 13 0,26
P 5 0,10
S 5 0,10
Total n=50 1,00
Alors, le mode de cette variable est M od(X) = Coca − Cola (CC), cela signifie que dans cet
échantillon, la boisson la plus fréquemment achetée est Coca-Cola.
Calcul du mode : effectifs groupés par classes d’amplitudes égales :

Soit le tableau où des données sont présentées par classes d’amplitudes égales. Dans ce cas,
pour calculer le mode, il faut appliquer la formule suivante :
d1
M od = xinf
i +A .
d1 + d2
Avec xinf
i = Borne inférieure de la classe modale.
A = Amplitude de la classe modale, d1 = ni − ni−1 et d2 = ni − ni+1 .
Exemple 1.2.20. Considérons la distribution de la variable statistique X suivante, où la

variable est quantitative continue avec des données groupées en classes :
19
X Effectifs ni
[10; 15[ 5
[15; 20[ 3
[20; 25[ 11
[25; 30[ 6
Ici, on a la valeur 11 qui représente le plus grand effectif donc on a [20; 25[ est la classe
modale et le mode :
d1 (11 − 3)
M od(X) = xinf
i +A = 20 + 5 ≈ 23.
d1 + d2 (11 − 3) + (11 − 6)
Les Moyennes
1) Moyenne Arithmétique
La moyenne arithmétique ou simplement la moyenne est la mesure de tendance centrale

la plus connue. Elle ne s’applique qu’aux variables quantitatives. On va décrire la méthode
pour calculer la moyenne d’une variable quantitative selon que les données sont en vrac,
groupées par valeurs ou groupées par classes.
Données en vrac ou brute
Définition 1.2.2. On considère une série statistique à caractère quantitatif prenant n

valeurs notées x1 , x2 , . . ., xn .
Ainsi la population totale a un effectif n. La moyenne de cette série est le nombre x défini
par :
∑
p
xi
x1 + x2 + · · · + xn i=1
x= =
n n
Exemple 1.2.21. On donne la série de notes obtenues par les élèves d’une classe :
15 12 3 20 8 0 18 2 14 6 16 4 14 4 15 6
5 15 16 3 7 17 13 6 13 18 2 15 5 4 14
15+12+3+20+8+0+18+2+14+6+16+4+14+4+15+6+5+15+16+3+7+17+13+6+13+18+2+15+5+4+14
31
= 10.
La moyenne de la classe est : x = 10
Données groupées par valeurs
20
Définition 1.2.3. On considère une série statistique à caractère quantitatif prenant p va-
leurs notées x1 , x2 , . . ., xp ; chaque valeur xi apparaissant ni fois dans la série. Ainsi la
population totale a un effectif N = n1 + n2 + · · · + np . La moyenne de cette série est le
nombre x défini par :
∑
p
ni xi
n1 x1 + n2 x2 + · · · + np xP i=1
x= =
n1 + n2 + · · · + np N
Cette moyenne est appelée moyenne pondérée par les effectifs.
Exemple 1.2.22. On donne la série de notes obtenues par les étudiants dans un contrôle
de statistique :
Note 5 7 10 11 13 15 16 19
Effectif 1 6 7 4 6 7 1 3
La moyenne de la classe est :

1 × 5 + 6 × 7 + 7 × 10 + 4 × 11 + 6 × 13 + 7 × 15 + 1 × 16 + 3 × 19
x= ≈ 11, 9
35
Chaque note est comptée autant de fois qu’elle apparaît dans les copies des étudiants. L’ef-
fectif de la note est aussi appelé poids ou coefficient.
Proposition 1.2.23. On considère une série statistique prenant p valeurs x1 , . . ., xp . Si la

distribution des fréquences associée à cette série est (f1 ; f2 ; . . . ; fp ), alors, la moyenne de
cette série est :
∑
p
x = f1 x1 + f2 x2 + · · · + fp xp = fi xi
i=1
Exemple 1.2.24. On donne la répartition des familles selon le nombre d’enfants en 1999 :
Nombre d’enfant 0 1 2 3 4 ou plus

Pourcentage 47 % 22 % 20 % 8% 3%
le nombre moyen d’enfant par famille en 1999 était de :
x = 0, 47 × 0 + 0, 22 × 1 + 0, 20 × 2 + 0, 08 × 3 + 0, 03 × 435 ≈ 0, 98
Données groupées par classes
21
Supposons qu’on est devant un tableau où les données provenant d’un échantillon sont
groupées par classes. Alors pour calculer la moyenne de cet échantillon, on va utiliser une
formule approximative, où chaque classe est assimilée à son centre et on utilise la même
formule que pour le cas où les données sont groupées par valeurs. Si on note par mi , le milieu
de la ième classe et qu’on suppose que la taille de l’échantillon est N et qu’il y a k classes,
∑ k
ni mi
i=1
alors la moyenne de l’échantillon est x̄ = .
N
Exemple 1.2.25. En reprenant l’exemple où X est la recette quotidienne d’un petit magasin,
on avait le tableau suivant auquel on a ajouté une colonne à gauche contenant le milieu des
classes :
mi X=les recettes Effectifs

55 [10; 100[ 5
145 [100; 190[ 3
235 [190; 280[ 11
325 [280; 370[ 6
415 [370; 460[ 11
505 [460; 550[ 3
595 [550; 640[ 1
Total n=40
Alors la moyenne de cet échantillon est :
∑
k
n i mi
i=1 55 × 5 + 145 × 3 + ... + 595 × 1
x̄ = = = 298 DH
N 40
Proposition 1.2.26. Soit X une variable quantitative dont la moyenne est x̄ et soit Y une
autre variable quantitative transformée linéaire de X, c’est-à-dire que Y = aX + b où a et b
sont des constantes réelles. Alors la moyenne de Y sera égale à ȳ = ax̄ + b.
On dit que la moyenne conserve la transformation linéaire entre les variables.
Exemple 1.2.27. Soit X, le nombre d’heures qu’un étudiant travaille à temps partiel par
semaine. Supposons qu’à partir d’un échantillon d’étudiants, on a pu trouver qu’en moyenne
le nombre d’heures travaillées par ces étudiants est égale à 14, 5 heures/semaine. Si le salaire
22
horaire est de 20 DH et que les patrons de ces étudiants leur offrent 300 DH par semaine
pour leurs déplacements, quel est le gain net moyen hebdomadaire de ces étudiants ? Posons
Y , le gain net hebdomadaire de ces étudiants alors Y = 20X + 300 , donc le gain moyen
hebdomadaire de cet échantillon d’étudiants est égal à ȳ = 20 × 14, 5 + 300 = 590 DH.
2) Moyenne géométrique
{ }
Définition 1.2.9. On appelle moyenne géométrique de la distribution (xi , ni )1≤i≤k que
l’on note G, la racine nème du produit des xni i
√ √
Πki=1 xni i xn1 1 × xn2 2 × ... × xnk k
n n
G= =
∑
k
où n = ni .
i=1
La moyenne géométrique est un instrument permettant de calculer des taux moyens

notamment des taux moyens annuels. Son utilisation n’a un sens que si les valeurs ont un
caractère multiplicatif (exemples : les prix de l’immobilier ancien ont augmenté ces trois
dernières années la façon suivante : 2, 4, 8. Taux de pauvreté moyen).
3) Moyenne Harmonique
{ }
Définition 1.2.10. La moyenne harmonique notée H, d’une distribution (xi , ni )1≤i≤k est
{ }
l’inverse de la moyenne arithmétique de la distribution ( x1i , ni )1≤i≤k ,
n 1
H= = ,
∑
k
1 ∑
k
fi
ni
i=1
xi i=1
xi
∑
k
où n = ni .
i=1
On utilise la moyenne harmonique lorsqu’on veut déterminer un rapport moyen dans des
domaines où il existe des liens de proportionnalité inverse par exemple pour une distance
donné, le temps de trajet est d’autant plus court que la vitesse est élevée.
Remarque 1.2.28.
23
– Un inconvénient de la moyenne arithmétique est qu’elle est très sensible aux valeurs
extrêmes de la série.
– La moyenne géométrique est peu sensible aux valeurs extrêmes de la série.
– En ce qui concerne la moyenne harmonique, elle est plus sensible aux plus petites
valeurs de la série qu’aux plus grandes.
Médiane
La médiane est la valeur de la variable qui divise l’échantillon en deux groupes d’égal effectif.
Il y a 50% des données qui sont inférieures ou égales à la médiane et 50% des données qui
sont supérieures ou égales à la médiane. La médiane se calcule pour des variables qualitatives
ordinales et pour des variables quantitatives. On note la médiane d’une variable X par
M ed(X). Dans ce qui suit on va décrire les façons de calculer une médiane dans les différents
cas possibles.
1) Cas d’une variable discrète.
Méthode de détermination de la médiane, les valeurs étant rangées par ordre croissant
Deux cas sont possibles :
– S’il y a un nombre impair d’observations : N = 2k + 1, où k ∈ N, alors la médiane est la
(k + 1)ième valeur du caractère.
– S’il y a un nombre pair d’observations : N = 2k, où k ∈ N, alors la médiane est la moyenne
xk + xk+1
des k ième et (k + 1)ième valeurs du caractère (i.e ).
2
Exemple 1.2.29 (nombre impair d’observations). On donne la série statistique suivante qui
comporte 11 valeurs : 11 = 2 × 5 + 1.
3 − 4 − 4 − 5 − 7 − 9 − 11 − 13 − 15 − 16 − 18.
ème
La médiane est la 6 valeur : médiane = x6 = 9.
Exemple 1.2.30 (nombre pair d’observations). On donne la série statistique suivante qui
comporte 10 valeurs : 10 = 2 × 5.
2 − 5 − 7 − 8 − 8 − 12 − 12 − 15 − 15 − 16.
x5 + x6 8 + 12
La médiane est la moyenne des valeurs de rangs 5 et 6 : médiane = = = 10
2 2
Exemple 1.2.31. Reprenons les données de l’exemple où X est le degré de satisfaction de
la clientèle, on avait le tableau suivant :
24
X=Degré de satisfaction Effectifs Fréquences

1 0 0
2 0 0
3 2 0,0333
4 3 0,05
5 15 0,2
6 25 0,4167
7 18 0,3
Total n=60 1
x30 + x31
Nombre d’observation 60 donc on a 60 = 30 × 2, alors la médiane est = 6. Ce qui
2
veut dire que dans cet échantillon 50% des clients ont un degré de satisfaction de 6 ou moins
et l’autre 50% un degré de satisfaction de 6 ou plus.
2) Cas d’une variable continue.

Dans le cas où on dispose d’un tableau de fréquences complet (incluant les fréquences cumu-
lées) des données groupées par classes. Il faut d’abord déterminer la classe médiane, qui est
la classe où les fréquences cumulées dépassent pour la première fois 50%. Cette classe aura
la forme : Cm = [binf , bsup [, alors on obtient la médiane par interpolation à l’intérieur de cette
classe médiane et on obtient la formule suivante :
(0, 5 − Fm−1 )
M ed(X) = binf + Am .
fm
Avec
• binf est la borne inférieure de la classe médiane.
• Fm−1 est la fréquence cumulée avant la classe médiane.
• fm est la la fréquence de la classe médiane.
• Am est l’amplitude de la classe médiane.
Exemple 1.2.32. En reprenant les données où X donne la recette quotidienne d’un petit
magasin, on retrouve le tableau des fréquences suivant :
25

[10; 100[ 5 0,125 0,125
[100; 190[ 3 0,075 0,200
[190; 280[ 11 0,275 0,475
[280; 370[ 6 0,150 0,625
[370; 460[ 11 0,275 0,900
[460; 550[ 3 0,075 0,975
[550; 640[ 1 0,025 1,00
Total n=40 1,00
Alors ici, la classe médiane est Cm = [280, 370[, binf = 280, Fm−1 = 0, 475, fm = 0, 15 et
Am = 90, ce qui donne une médiane égale à :
(0, 5 − Fm−1 ) (0, 5 − 0, 475)

M ed(X) = binf + Am = 280 + 90 = 295.
fm 0, 15
Ce qui veut dire qu’en se basant sur cet échantillon de données, 50% des recettes quotidiennes
de ce petit magasin sont inférieures ou égales à 295 DH et les autres 50% sont supérieures
ou égales à 295 DH.
Dans l’exemple suivant on va déterminer la Médiane graphiquement, on aura besoin

de définir la fréquence cumulée décroissante,
Définition 1.2.11. la fréquence cumulée décroissante d’une valeur est la somme des fré-
quence des valeurs supérieures ou égales à cette valeur.
Exemple 1.2.33. Considérons la distribution des notes par classe suivante :
Notes [0; 5[ [ 5 ; 10 [ [ 10 ; 15 [ [ 15 ; 20 [
Effectif 4 17 7 2
Fréquence en % 13 57 23 7
F.c.c. 13 70 93 100
F.c.d. 100 87 30 7
Polygone des fréquences cumulées croissantes et décroissantes du tableau ci-dessus :
26
Fréquence en %
100
F.c.d. F.c.c.
80
b
60
50 b
40
20
b
0 5 Médiane 10 15 Notes
On peut grâce à ces polygones déterminer la médiane de la série de deux manières :
1. Soit en déterminant le point du polygone d’ordonnée 50% : on trouve environ M = 8, 2.
2. Soit en lisant l’abscisse du point d’intersection des deux courbes.
Remarque 1.2.34. Le calcul de la médiane est basé sur l’ordre des observations et non sur
leur valeur. Contrairement à la moyenne, la médiane est insensible aux données extrêmes.
Dans le cas où les données sont très différentes, la médiane est une meilleure mesure de
tendance centrale.
Quartiles
Définition 1.2.4. Dans une série statistique de type quantitatif, le premier quartile et
le troisième quartile sont avec la médiane les trois valeurs du caractère qui séparent la
population en quatre groupes de mêmes effectifs.
La médiane sépare la série des valeurs ordonnées en deux parties d’effectifs égaux.
– Le premier quartile est la médiane de la première partie
– Le troisième quartile est la médiane de la seconde partie
Autrement dit :
– Le premier quartile est la plus petite valeur Q1 telle qu’au moins un quart des données
sont inférieures ou égales à Q1 .
27
– Le troisième quartile est la plus petite valeur Q3 telle qu’au moins trois quart des
données sont inférieures ou égales à Q3 .
Au moins 50 % des données Au moins 50 % des données

z }| {z }| {
Min Q1 Med Q3 Max
| {z }| {z }| {z }
Au moins 25 % Au moins 50 % des données Au moins 25 %
des données des données
Remarque 1.2.35. Les quartiles permettent d’avoir en quelques chiffres un résumé rapide
de la série statistique. Il ne présentent un réel intérêt que lorsque les données sont en grand
nombre. Leurs calculs se feront la plupart du temps avec la calculatrice ou avec un tableur.
Définition 1.2.5. Les éléments ci-dessus permettent de définir une représentation particu-
lière d’une série statistique appelée Boîte de Tuckey ou plus simplement Boîte à moustaches
Min Q1 Med Q3 Max
Exemple 1.2.36. Considérons la série statistique suivante :
2 − 5 − 7 − 8 − 8 − 12 − 12 − 15 − 15 − 16.
Il y a 10 valeurs, la médiane est égale à 10 et sépare la série en deux parties de 5

éléments.
Le premier quartile Q1 est égal à x3 : Q1 = 7 Le troisième quartile Q3 est égal à x8 :
Q1 = 15
Min = 2 ; Q1 = 7 ; med = 10 ; Q3 = 15 ; Max = 16
0 2 4 6 8 10 12 14 16 18 20
28
Remarque 1.2.37. Les effectifs cumulés croissants peuvent permettre de déterminer les
quartiles et la médiane d’une série
Exemple 1.2.38. On donne la série de notes obtenues par des étudiants de Groupe 1 MIPC
dans un contrôle de statistique :
4 − 4 − 4 − 4 − 5 − 5 − 5 − 5 − 6 − 6 − 6 − 7 − 7 − 7 − 7 − 7 − 8 − 8 − 9 − 9 − 13 − 13 − 14 −
14 − 14 − 15 − 15 − 15 − 15 − 16 − 16 − 16 − 17 − 17 − 17.
Notes 4 5 6 7 8 9 13 14 15 16 17
Effectifs 4 4 3 5 2 2 2 3 4 3 3
Ecc 4 8 11 16 18 20 22 25 29 32 35
Il y a 35 = 2 × 17 + 1 valeurs, la médiane est donc la 18ième valeur : med = 8.

Le premier quartile est au milieu de la première partie de 17 = 2×8+1 valeurs : Q1 = x9 = 6
Le troisième est au milieu de la deuxième partie de 17 valeurs : Q3 = x26 = 15
Propriétés 1.2.1. Le calcul des fréquences cumulées croissantes permet aussi d’obtenir les
quartiles.
Exemple 1.2.39. Voici les notes des étudiants de Groupe 2 MIPC
Classes [ 2; 4 [ [ 4; 6 [ [ 6 ; 8 [ [ 8 ; 10 [ [10 ; 12 [ [12 ; 14 [ [14 ; 16 [ [16 ; 18 [

Centres 3 5 7 9 11 13 15 17
Effectifs 5 8 2 4 5 8 5 3
Fr 0,125 0,20 0,05 0,10 0,12 0,2 0,13 0,075
Fc 0,125 0,325 0,375 0,475 0,60 0,80 0,925 1
Nous allons construire la courbe des fréquences cumulées croissantes et retrouver la mé-
diane et les quartiles graphiquement.
29
1
0, 925
0, 80
0, 75
0, 60
0, 50, 475
0, 375
0, 325
0, 25
0, 125
0 2 4 6 8 10 12 14 16 18 20
Q1 M ed Q3
Exemple 1.2.40. En reprenant les données où X donne la recette quotidienne d’un petit
magasin, on retrouve le tableau des fréquences suivant :

[10; 100[ 5 0,125 0,125
[100; 190[ 3 0,075 0,200
[190; 280[ 11 0,275 0,475
[280; 370[ 6 0,150 0,625
[370; 460[ 11 0,275 0,900
[460; 550[ 3 0,075 0,975
[550; 640[ 1 0,025 1,00
Total n=40 1,00
(a) Pour déterminer le premier quartile, les fréquences cumulées ont dépassé 25 % pour la
première fois au niveau de la classe [190; 280[, donc
(0, 25 − Fm−1
q1
) (0, 25 − 0, 20)
Q1 = bqinf1 + q1 Am = 190 + 90 = 206, 36.
fm 0, 275
Ce qui signifie que dans cet échantillon de données, 25% des journées, les recettes
quotidiennes de ce petit magasin ont été de 206,36 DH ou moins.
(b) Pour déterminer le deuxième quartile (on refait ce qu’on a déjà fait pour calculer la
médiane), les fréquences cumulées ont dépassé 50 % pour la première fois au niveau de
la classe [280; 370[, donc
(0, 5 − Fm−1 ) (0, 5 − 0, 475)
Q2 = binf + Am = 280 + 90 = 295.
fm 0, 15
Ce qui signifie que dans cet échantillon de données, 50 % des journées, les recettes
quotidiennes de ce petit magasin ont été de 295 DH ou moins.
30
(c) Pour déterminer le troisième quartile, les fréquences cumulées ont dépassé 75 % pour la
première fois au niveau de la classe [370; 460[, donc
q3 (0, 75 − Fm−1
q3
) (0, 75 − 0, 625)
Q3 = binf + q3 Am = 370 + 90 = 410, 91.
fm 0, 275
Ce qui signifie que dans cet échantillon de données, 75 % des journées, les recettes
quotidiennes de ce petit magasin ont été de 410,91 DH ou moins.
Remarque 1.2.41. Utilité des quartiles, en plus de leur utilisation comme mesures de po-
sition, s’utilisent pour détecter des données aberrantes dans toute série de données. Cette
détection se fait à l’aide d’un graphique en boîte (Box-plot) ou bien boîte à moustache.
1.2.4 Caractères de Dispersion
Les indices de tendance centrale définissent le comportement général des données. Mais
les données peuvent varier beaucoup autour de cette tendance. On doit donc définir un
indice qui caractérise la variabilité des données dans l’échantillon. Cet indice est appelé
indice de dispersion parce qu’il renseigne sur la dispersion ou l’éparpillement des données
autour notamment des paramètres de tendance centrale.
Nous étudierons quatre paramètres de dispersion parmi les principaux, en mettant plus
particulièrement l’accent sur la variance et l’écart-type :
1. L’étendue et le rapport de variation
2. L’intervalle interquartile
3. La variance et l’écart-type
4. Le coefficient de variation
Définition 1.2.6.
L’étendue d’une série statistique de type quantitatif est la différence entre la plus grande et
la plus petite valeur du caractère étudié.
Etendue = Maximum - Minimum
le Rapport de Variation (RV), c’est-à-dire le rapport de la valeur maximale de la distri-

bution à la valeur minimale de la même distribution.
M aximum
RV = .
M inimum
31
Exemple 1.2.42. Les notes d’élèves de deux classes au même examen ont donné les résultats
suivants :
Classe 1 9 11 12 13 7 5 11 9 13 12 14 17 8
Classe 2 7 8 10 17 16 13 19 8 14 11 15 3 11 15
Classe 1 Classe 2
Minimum 5 3
Maximum 17 19
Etendu 12 16
Rapport de Variation 3,4 6,3
Le rapport de variation nous apprend que dans la classe 1 la meilleure note est 3,4 fois plus
élevée que la note la plus faible. Ce rapport est plus important dans la classe 2 pour laquelle
il est 6,3.
Définition 1.2.7.
L’écart inter-quartile d’une série statistique de type quantitatif est la différence entre le
troisième quartile et le premier quartile du caractère étudié.
Écart inter-quartile = Q3 −Q1 .
La variance
La variance d’une variable mesurée sur un échantillon est égale à la moyenne des carrés des
écarts qui séparent chaque observation de la moyenne, son calcul diffère selon la nature des
données.
1) Le cas des données brute non groupées.

Soit X une variable quantitative mesurée sur un échantillon de taille n, et dont les valeurs
sont xi avec 1 ≤ i ≤ n, alors la variance de l’échantillon est
1 ∑( )2 ( 1 ∑ )
n n
s2x = Vx = xi − x̄ = x2i − x̄2 .
n i=1 n i=1
2) Le cas des données groupées, soit par valeurs, soit par classes.
Soit X une variable quantitative mesurée sur un échantillon de taille n, et dont les k valeurs
32
sont x1 , x2 , ..., xk avec des fréquences respectivement égales à f1 , f2 , ..., fk . Alors la variance
de X dans cet échantillon est égale à
1∑ ( )2 ∑ ( )2 ( ∑ )
k k k
s2x = Vx = ni xi − x̄ = fi xi − x̄ = fi xi − x̄2 .
2
n i=1 i=1 i=1
Remarque 1.2.43.
• Dans le cas d’une variable statistique continue, xi représente le centre de la ième classe.
• La variance corrigée de X est définie par :
n 2
s∗2
x = s .
n−1 x
Pour des raisons techniques, on préfère dans la suite de calculer la variance corrigée s∗2
x .
Exemple 1.2.44. (Le cas des données groupées par valeurs)

Un inspecteur en contrôle de qualité a extrait de sa base de données, un échantillon de 40
semaines où il a noté X, le nombre d’accidents de travail enregistrés par semaine. Il a obtenu
les résultats suivants :
2−0−4−2−2−1−3−2−0−5−4−3−2−4−5−6−6−4−2−0−3−4−4−2−
6 − 2 − 4 − 3 − 0 − 4 − 3 − 4 − 3 − 3 − 5 − 5 − 4 − 2 − 2 − 1.
On peut donc dresser le tableau des fréquences suivant.
N d’accidents par semaine Effectifs Fréquences

0 4 0,1
1 2 0,05
2 10 0,25
3 7 0,175
4 10 0,25
5 4 0,1
6 3 0,075
Total n=40 1
∑
p
ni x i
i=1 0 × 4 + 1 × 2 + ... + 6 × 3
La moyenne x̄ = = = 3, 025 accident par semaine.
n 40
∑
k ( )2 ( )2 ( )2 ( )2
s2x = Vx = fi xi −x̄ = 0, 1 0−3, 025 +0, 05 1−3, 025 +...+0, 075 6−3, 025 = 2, 68.
i=1
33
n 2 40
s∗2
x = sx = × 2, 68 = 2, 74.
n−1 39
Exemple 1.2.45. (Le cas des données groupées par classe)
En reprenant l’exemple où X est la recette quotidienne d’un petit magasin, on avait le tableau
suivant auquel on a ajouté une colonne à gauche contenant le milieu des classes :
mi X=les recettes Effectifs Fréquences

55 [10; 100[ 5 0,125
145 [100; 190[ 3 0,075
235 [190; 280[ 11 0,275
325 [280; 370[ 6 0,150
415 [370; 460[ 11 0,275
505 [460; 550[ 3 0,075
595 [550; 640[ 1 0,025
Total n=40 1
On a déjà calculé la moyenne de cet échantillon, x̄ = 298 DH,
∑
k ( )2 ( )2 ( )2 ( )2
s2x = Vx = fi mi −x̄ = 0, 125 55−298 +0, 075 145−298 +...+0, 025 595−298 = 19521.
i=1
n 2 40
s∗2
x = sx = × 19521 = 20021, 54.
n−1 39
L’écart type
L’écart type est la racine carrée de la variance :
√
sx = σx = Vx .
L’écart type corrigé est défini par :

√
n √
σx∗ = σx = s∗2 ∗
x = sx .
n−1
Si l’écart-type est faible, cela signifie que les valeurs sont assez concentrées autour de la
moyenne et si l’écart-type est élevé, cela veut dire au contraire que les valeurs sont plus
dispersées autour de la moyenne.
Coefficient de variation
Tous les indicateurs de dispersion que nous avons vu jusqu’à présent dépendent des unités
34
1.3 Statistique à deux Variables CHAPITRE 1. STATISTIQUE DESCRIPTIVE
de mesure de la variable. Ils ne permettent pas de comparer des dispersions de distributions

statistiques. Le coefficient de variation, qui est un nombre sans dimension, permet cette
comparaison lorsque les valeurs de la variable sont positives. Il s’écrit
σx
CV =
x̄
Si CV < 0, 5 alors la dispersion n’est pas importante et on dit que la variable est homogène.
Si CV > 0, 5 alors la dispersion est importante et on dit que la variable est hétérogène.
1.3 Statistique à deux Variables
On s’intéresse maintenant à l’étude simultanée de deux variables, notées X et Y , obser-

vées sur le même échantillon (le même ensemble d’individus).
L’objectif essentiel des méthodes présentées dans cette partie est de mettre en évidence une
éventuelle variation simultanée des deux variables, que nous appellerons alors liaison. C’est
en effet l’un des objectifs fondamentaux de la statistique que de mettre en évidence des
liaisons entre variables, ces liaisons exprimant certaines relations entre les phénomènes re-
présentés par ces variables. Par exemple, dans un groupe d’hommes adultes, on peut penser
qu’il existe une liaison entre la taille et le poids.
Les séries statistiques à deux variables peuvent être présentées de deux façons.
Présentation 1 :
On suppose que, suite à une étude faite, on s’intéresse à deux caractères quantitatifs (ie deux
variables numériques) sur une population donnée. À chaque individu de cette population, on
associe donc un couple (xi , yi ) de nombres réels où la variable xi est la valeur de la première
variable pour l’individu considéré et où la variable yi est la valeur de la seconde variable.
L’ensemble de ces couples forme une série statistique à deux variables ou encore série statis-
tique double.
Les résultats peuvent être résumés dans un tableau :
Valeurs du 1er caractère xi x1 x2 x3 ... xk
Valeurs du 2ème caractère yi y1 y2 y3 ... yk
Exemple 1.3.1.
• Au près des étudiants pris au hasard parmi une section de MIPC, on observe les notes
35
d’Analyse 3 X et de statistique Y .
• Une entreprise mène une étude sur la liaison entre les dépenses mensuelles en publicité X
et le volume des ventes Y qu’elle réalise.
1.3.1 Représentation graphique - Nuage de points
Définition 1.3.1. Si à chaque individu de la population on associe le point Ai de coordonnées

(xi , yi ) dans un même repère, l’ensemble des points obtenus est appelé le nuage de points
associé à cette série statistique.
Définition 1.3.2. En notant x̄ et ȳ les moyennes respectives des séries X et Y , le point G

de coordonnées (x̄, ȳ) est appelé point moyen du nuage.
Exemple 1.3.2. L’étude du coût de maintenance annuel d’une installation de chauffage

dans un immeuble de bureaux, en fonction de l’âge de l’installation, a donné les résultats
suivants :
Age xi (années) 1 2 3 4 5 6
Coût yi (kDH) 7,55 9,24 10,74 12,84 15,66 18,45

Objectif : Y’a-t-il un lien crédible entre l’âge de l’installation et le coût de maintenance ?
Si oui, peut-on le quantifier, et peut-on, par exemple, prévoir le coût de maintenance d’une
installation de 7 ans ? 8 ans ? 10 ans ?
Caractère 2
20 (Coût de
maintenance) ×
18
16 ×
14
×
12
×
10 ×
8 ×
6
4
2
0 Caractère 1
0 1 2 3 4 5 6 7(Age de l’installation)
Le point moyen G a pour coordonnées (3, 5 ; 12, 41).
36
Présentation 2 :
Cette présentation d’une série à deux variables (discrète ou continue) peut être sous forme
d’un tableau de contingence, qui peut être défini comme :
1. Un tableau à double entrée ou à deux dimensions.

2. Un tableau avec deux variables X et Y , tel que les n modalités de X sont désignées
par x1 , x2 , ..., xi , ..., xk et les m modalités de Y sont désignées par y1 , ..., yj , ..., ym .
3. Un tableau avec k lignes et m colonnes comme illustré dans le tableau ci-dessous,
tel que n et m sont les nombres de modalités de la variable X et de la variable Y
respectivement.
Tableau de contingence
X\Y d1 ou y1 ··· dj ou yj ··· dm ou ym Total

c1 ou x1 n11 ou f11 ··· n1j ou f1j ··· n1m ou f1m n1• ou f1•
.. .. .. .. .. .. ..
. . . . . . .
ci ou xi ni1 ou fi1 ··· nij ou fij ··· nim ou fim ni• ou fi•
.. .. .. .. .. .. ..
. . . . . . .
ck ou xk nk1 ou fk1 ··· nkj ou fkj ··· nkm ou fkm nk• ou fk•
Total n•1 ou f•1 ··· n•j ou f•j ··· n•m ou f•m N
Avec dm = [lm , lm+1 [ et ck = [hk , hk+1 [ sont les classes des variables statistiques Y et X
respectivement dans le cas continue.
Nous notons par fij la fréquence du coulpe (xi , yi ). Cette fréquence est donnée par :
nij ∑∑ k m
fij = , avec N = nij .
N i=1 j=1
Nous avons la propriété suivante,

∑
k ∑
m
fij = 1.
i=1 j=1
Lois marginales : Sur la marge du tableau de contingence, on peut extraire les données
seulement par rapport à X et seulement par rapport à Y .
Effectifs et fréquences marginale par rapport à Y : nous avons, pour j = 1, ..., m
∑
k
n•j ∑
k
n•j = nij , et f•j = = fij .
i=1
N i=1
37
Effectifs et fréquences marginale par rapport à X : nous avons, pour i = 1, ..., k

∑
m
ni• ∑
m
ni• = nij , et fi• = = fij .
j=1
N j=1
Nous avons les propriétés suivantes :
∑
k ∑
m ∑
k ∑
m
ni• = n•j = N, et fi• = f•j = 1.
i=1 j=1 i=1 j=1
Exemple 1.3.3. Nous considérons 10 salariés qui sont observés à l’aide de deux variables
"âge" et "salaire". Les informations brutes (pas encore traitées) sont données dans le tableau
suivant,
Salaire 6000 7400 7500 8200 8200 8207 8900 9100 9950 10750
Age 15 26 20 43 47 37 52 34 50 44
1. Déterminer le tableau de contingence (X : âge, Y : salaire). Pour l’âge et pour le

salaire, former respectivement des classes de pas de 10 ans et de 1000 DH.
2. Calculer f21 , f12 , f45 , f33 .
3. Déterminer les effectifs marginaux de X et de Y . Tracer le nuages de points.
4. Déterminer le tableau statistique des deux séries marginales X et Y .
Solution :
En utilisant les hypothèses, nous considérons les classes suivants,

Pour l’âge : [15, 25[; [25, 35[; [45, 55[.
Pour le salaire (×1000) : [6, 7[; [7, 8[; [8, 9[; [9, 10[; [10, 11[.
Pour les classes nous avons :
xmax − xmin 52 − 15
Nombre de classe (âge) = = = 3, 7 ≈ 4 classes.
Aâge 10
ymax − ymin 10750 − 6000

Nombre de classe (salaire) = = = 4, 75 ≈ 5 classes.
Asal 1000
Cette série statistique est représentée par le tableau suivant,
38
Age\Salaire × 1000 [6, 7[ [7, 8[ [8, 9[ [9, 10[ [10, 11[ ni• fi•
[15, 25[ 1 1 0 0 0 2 0,2
[25, 35[ 0 1 0 1 0 2 0,2
[35, 45[ 0 0 2 0 1 3 0,3
[45, 55[ 0 0 1 2 0 3 0,3
n•j 1 2 3 3 1 10 1
f•j 0,1 0,2 0,3 0,3 0,1 1
De ce fait nous avons
n12 1 n21 0 n45 0 n33 2
f12 = = = 0, 1, f21 = = = 0, f45 = = = 0, et f33 = = = 0, 2.
N 10 N 10 N 10 N 10
Le nuage de points est tracé, à partir des données brutes, dans la figure suivante.
Enfin, les deux tableaux statistiques de X et de Y sont donnés, respectivement, par

Y =Salaire×1000 n•j f•j dj le centre
X =Âge ni• fi• ci le centre
[6, 7[ 1 0,1 6,5
[15, 25[ 2 0,2 20
[7, 8[ 2 0,2 7,5
[25, 35[ 2 0,2 30
[8, 9[ 3 0,3 8,5
[35, 45[ 3 0,3 40
[9, 10[ 3 0,3 9,5
[45, 55[ 3 0,3 50
[10, 11[ 1 0,1 10,5
39
1.3.2 Caractéristique des séries marginales
Dans le cas d’une variable statistique à deux dimensions X et Y , les moyennes sont
données respectivement par
1 ∑ ∑
k k
x̄ = ni• xi = fi• xi , Moyenne de X.
N i=1 i=1
Et
1 ∑ ∑
m m
ȳ = n•j yj = f•j yj , Moyenne de Y .
N j=1 j=1
Dans le cas continu, xi et yj représentent respectivement le centre des classes de X et Y .
Exemple 1.3.4. Nous calculons x̄ et ȳ pour l’exercice traité précédemment. Nous avons la
moyenne d’âge
1( )
x̄ = 40 + 60 + 120 + 150 = 37 ans.
10
Et la moyenne du salaire
1( )
ȳ = 6, 5 + 15 + 25, 5 + 28, 5 + 10, 5 × 1000 = 8600 DH.
10
Nous définissions maintenant la variance de X et la variance de Y comme suit

1 ∑ ∑
k k
V ar(x) = x¯2 − (x̄)2 , ¯2
avec x = 2
ni• xi = fi• x2i .
N i=1 i=1
Et
1 ∑ ∑
m k
V ar(y) = y¯2 − (ȳ)2 , ¯2
avec y = 2
n•j yj = f•j yj2 .
N i=1 i=1
Série conditionnelle :
La notion de série conditionnelle est essentielle pour comprendre l’analyse de la régression.
Un tableau de contingence se compose en autant de séries conditionnelles suivant chaque
ligne et chaque colonnes.
(a) Série conditionnelle par rapport à X :
Elle est noté par X/yj (ou Xj ) et on dit que c’est la série conditionnelle de X sachant
que Y = yj . Nous calculons dans ce cas la fréquence conditionnelle fi/j (f i sachant j), pour
i = 1, ..., k, par
nij fij
fi/j = = .
n•j f•j
40
Nous avons aussi la moyenne conditionnelle x¯j , c’est à dire la moyenne des valeurs de X sous
la condition yj , elle est définie par
∑
k
1 ∑
k
x¯j = fi/j xi = nij xi .
i=1
n•j i=1
√
Pour l’écart-type conditionnel, nous avons σXj = V ar(Xj ) avec
∑
k
V ar(Xj ) = fi/j (xi − x¯j )2 = x¯2j − (x¯j )2 .
i=1
(b) Série conditionnelle par rapport à Y :
Elle est noté par Y /xi (ou Yi ) et on dit que c’est la série conditionnelle de Y sachant que
X = xi . Nous calculons dans ce cas la fréquence conditionnelle fj/i (f j sachant i), pour
j = 1, ..., m, par
nij fij
fj/i = = .
ni• fi•
Nous avons aussi la moyenne conditionnelle ȳi , c’est à dire la moyenne des valeurs de Y sous
la condition xi , elle est définie par
∑
m
1 ∑
m
ȳi = fj/i yj = nij yj .
j=1
ni• j=1
√
Pour l’écart-type conditionnel, nous avons σYi = V ar(Yi ) avec
∑
m
V ar(Yi ) = fj/i (yi − ȳi )2 = y¯i2 − (ȳi )2 .
j=1
Définition 1.3.3.
On appelle covariance de la série statistique double de variables X et Y le nombre réel :
1 ∑∑ 1 ∑∑
k m k m
Cov(x, y) = σxy = xy − x̄ȳ = nij xi yj − x̄ȳ = nij (xi − x̄)(yj − ȳ).
N i=1 j=1 N i=1 j=1
Remarque 1.3.5.
• La covariance est un paramètre qui donne la variabilité de X par rapport à Y .
• La covariance est une notion qui généralise la variance, En effet,
Cov(x, x) = σx2 = V (x).
41
• Dans le cas où nous avons un tableau des données brutes "représentation 1" (nous n’avons
pas d’effectifs), nous avons les formules suivantes :
1 ∑ 1 ∑ 1 ∑
n n n
x̄ = xi , ȳ = yi , et xy = x i yi .
N i=1 N i=1 N i=1
Définition 1.3.4. (Indépendance des Variables X et Y )

On dit que deux variables statistiques X et Y sont indépendantes si et seulement si, pour
tout i et j,
fij = fi• × f•j .
Il suffit que cette égalité ne soit pas vérifiée dans une seule cellule pour que les deux variables
ne soient pas indépendantes. De manière équivalente, pour tout i et j,
N × nij = ni• × n•j .
Dans ce cas, si X et Y sont indépendantes alors Cov(X, Y ) = 0 (réciproque est fausse).
1.3.3 Ajustement affine par la méthode des moindres carrés
Les points de l’exemple précédents ne sont pas alignés. Néanmoins, ces points semblent
se distribuer approximativement autour d’une droite.
La méthode des moindres carrés permet de déterminer l’équation de la "meilleure" droite

passant dans le nuage de points, ainsi que de quantifier la "qualité de l’alignement des points"
du nuage.
On considère un nuage de points Ak (xk ; yk ).
Pour une droite quelconque, on peut définir la "distance" de la droite au nuage de points
par la somme des distances Ak Hk .
Ainsi, la "meilleure" droite passant dans le nuage de points est celle dont la distance au
nuage de points est la plus petite.
42
A4
×
H5
A3
×
H4
×
A1 H2 H3 A5
×
H1
×
A2
Il existe une unique droite telle que la somme des distances
∑
n ∑
n
S(a, b) = A1 H12 + A2 H22 + ··· + An Hn2 = Ak Hk2 = e2i
k=1 k=1
soit minimale. Cette droite est appelée droite de régression de y en x, ou encore

droite des moindres carrés.
Cette droite de régression passe par le point moyen G(x; y).
En effet, Appelons ei = Ak Hk le résidu de la i-ème observation et sa valeur absolue

représente la distance entre les points Ak = (xi , yi ) et Hk = (xi , yi∗ ) avec yi∗ = axi + b.
Les résidus étant positifs ou négatifs, leur somme peut être de faible valeur pour une
courbe mal ajustée. On évite cette difficulté en considérant la somme des carrés des résidus (la
somme de valeurs absolues n’étant pas pratique pour des développements mathématiques).
∑
Cette somme S.(a, b) = ni=1 e2i dépend des paramètres a, b à ajuster. On choisira ces
∑
paramètres de manière qu’elle soit minimale. ni=1 e2i est appelé variation résiduelle et nous
donne une mesure de l’ampleur de l’éparpillement des observations yi autour de la courbe
d’ajustement. Nous voudrions que les erreurs entre la valeur observée yi et la valeur ajustée
yi∗ soit minimales.
Il nous faut déterminer les deux paramètres a et b.

∑
La variation résiduelle s’écrit S.(a, b) = ni=1 (yi − b − axi )2 .
43
∂S ∂S
S(a, b) sera minimum lorsque = = 0.
∂a ∂b
On calcule
∂S ∑ n
= −2 (yi − b − axi ),
∂b i=1
∂S ∑ n
= −2 (yi − b − axi )xi .
∂a i=1
∑
En distribuant l’opérateur , il vient
∑
n ∑
n
yi − nb − a xi = 0,
i=1 i=1
∑
n ∑
n ∑n
xi yi − b xi − a x2i = 0,
i=1 i=1 i=1
ce qui conduit à deux équations dites normales

∑
n ∑
n
nb + a xi = yi , (1.1)
i=1 i=1
∑
n ∑n ∑n
b xi + a x2i = xi yi . (1.2)
i=1 i=1 i=1
En résolvant le système, on obtient
∑n
(x − x̄)(yi − ȳ)
∑n i
a = i=1 ,
i=1 (xi − x̄)
2
et la première équation normale permet de déterminer b,
b. = ȳ − ax̄
Remarque 1.
∂S ∂S
1. = = 0 ne sont que des conditions nécessaires de minimalité pour S. L’étude des
∂a ∂b
dérivées secondes montre effectivement que les valeurs trouvées minimisent S(a, b).
2. La seconde équation signifie que la droite d’ajustement passe par le point (x̄, ȳ) appelé
point moyen du nuage.
44
3. Cette droite des moindres carrés est appelée droite de régression de y en x. Elle est
unique.
4. Si on avait cherché à exprimer la relation entre x et y par x = b′ + a′ y, on aurait

obtenu la droite de régression de x en y qui minimise la somme des carrés des distances
entre les points Ai = (xi , yi ) et Hi = (b′ + a′ yi , yi ).
Proposition 1.3.6.
La droite de régression notée D(y/x) de Y en X à pour équation y = ax + b. Avec
Cov(x, y)
a= et b = ȳ − ax̄
V (x)
.
Ou bien la droite de régression notée D(y/x) de X en Y à pour équation x = a′ y + b′ . Avec
Cov(x, y)
a′ = et b′ = x̄ − a′ ȳ
V (y)
.
Exemple 1.3.7. La droite de réegression de l’exemple précédent a pour équation y = 2, 17x+

4, 83.
Retrouver cette éequation et en utilisant ce modèle estimer le coût de maintenance pour une
installation de 7 ans, de 8 ans, puis de 10 ans.
1.3.4 Coefficient de corrélation
Les coefficients de corrélation permettent de donner une mesure synthétique de l’intensité

de la relation entre deux caractères et de son sens lorsque cette relation est monotone.
Définition 1.3.5.
La quantité
Cov(x, y)
ρxy = .
σx σy
s’appelle le coefficient de corrélation.
Proposition 1.3.8.
Le coefficient de corrélation est compris entre [−1, 1] ou encore |ρxy | ≤ 1.
Remarque 1.3.9. Le coefficient ρxy mesure le degré de liaison linéaire entre X et Y .
45
1. Plus le module de ρxy est proche de 1 plus X et Y sont liées linéairement.
2. Plus le module de ρxy est proche de 0 plus il y a l’absence de liaison linéaire entre X
et Y .
3. Le coefficient de corrélation ρxy permet de justifier le fait de l’ajustement linéaire. On

adopte les critères numériques suivants :
(a) Si |ρxy | < 0, 7 alors l’ajustement linéaire est refusé (droite refusée).
(b) Si |ρxy | ≥ 0, 7 alors l’ajustement linéaire est accepté (droite acceptée).
Exemple 1.3.10. Dans un TP de physique, on a les données suivantes :
xi 0 0,5 1,1 1,5 1,9

mi 0 10 20 30 40
La variable mi représente les différentes masses appliquées comme dans le schéma ci-dessous
et la variable xi les hauteurs induits depuis l’état initial.
1. Déterminer la droite de régression D(m/x).
2. Déterminer la droite de régression D(x/m).
3. Tracer le nuage de point et les deux droites. Représenter le point de coordonnée (x̄, ȳ).
4. Peut-on déterminer x si m = 51, 75 Kg ?
46
Chapitre 2
Analyse combinatoire et Notions de

probabilités
2.1 Analyse combinatoire
L’analyse combinatoire est une branche des mathématiques qui étudie comment compter
les objets. Elle fournit des méthodes de dénombrement particulièrement utiles en théries des
probabilités. Le but de l’analyse combinatoire (techniques de dénombrement) est d’apprendre
à compter le nombre d’éléments d’un ensemble fini de grande cardinalité.
2.1.1 Cardinal
Définition 2.1.1. Le cardinal d’un ensemble fini E, noté Card(E), est le nombre d’éléments
de E. L’ensemble des parties de l’ensemble E est notée P(E).
Exemple 2.1.1. Si E = {a, b, c}, nous avons Card(E) = 3 et
P(E) = {{∅}, {a}, {b}, {c}, {a, b}, {a, c}, {b, c}, {a, b, c}}.
Propriétés 2.1.1. (Propriétés des cardinaux)

• Soit E un ensemble fini. Toute partie A de E est finie et Card(A) ≤ Card(E). Une partie
A de E est égale à E si et seulement si le cardinal de A est égal à celui de E.
• Soient A et B deux parties d’un ensemble fini E et Ac le complémentaire de A dans E.
1. Card(A ∪ B) = Card(A) + Card(B) − Card(A ∩ B).
2. Card(A\B) = Card(A) − Card(A ∩ B).
47
2.1 Analyse combinatoire CHAPITRE 2. PROBABILITÉS
3. Card(Ac ) = Card(E) − Card(A).

4. Si A et B sont disjointes, alors Card(A ∪ B) = Card(A) + Card(B).
• Soient E et F deux ensembles finis. Nous avons :
1. Card(E × F ) = Card(E) × Card(F ).
2. Card(P(E)) = 2Card(E) .
2.1.2 Principe de Multiplication
Si la réalisation d’un événement A se fait en k étapes présentant respectivement

n1 , n2 , ..., nk possibilités, alors le nombre total de possibilités de réalisation de A est égale au
produit : n1 × n2 × ... × nk .
Exemple 2.1.2.
Pour former un code, on choisit au hasard deux lettres de l’alphabet suivies de trois chiffres
non nuls. Combien peut-on former de codes distincts ?
Les cinq étapes pour former un code présentent respectivement 26, 26, 9, 9, 9 possibilités. Donc
le nombre de codes possibles est : 262 × 93 = 492804.
2.1.3 Arrangements sans répétition
Envisageons un ensemble de n objets différents. Choisissons maintenant r de ces n objets

et ordonnons les.
Définition 2.1.1. Une disposition ordonnée de r objets distincts pris parmi n est appelée
arrangement de r objets pris parmi n (on a obligatoirement r ≤ n).
Combien y en a-t-il ?
Pour compter le nombre total d’arrangements de r objets pris parmi n, il suffit de consi-
dérer les r positions comme fixées et de compter le nombre de façons dont on peut choisir les
objets pour les placer dans ces r positions. C’est une expérience à r étapes où l’on applique
la technique du paragraphe précédent (Principe de multiplication).
Il s’agit encore du principe de multiplication à une expérience à k étapes :

- 1ère étape : n1 = n choix possibles.
48
- 2ème étape : n2 = (n − 1) choix possibles.

-· · · · · ·
- rième étape : nr = (n − r + 1) choix possible.
Donc :
Arn = n × (n − 1) × .. × (n − r + 1)
(n − r) × (n − r − 1) × ... × 2 × 1
= n × (n − 1) × .. × (n − r + 1) × .
(n − r) × (n − r − 1) × ... × 2 × 1
Le nombre d’arrangements est :

n!
Arn = .
(n − r)!
Proposition 2.1.3.
n!
Arn = n(n − 1)(n − 2) · · · (n − r + 1) = .
(n − r)!
Rappel 1. n! (lire “factorielle n”) est le produit de tous les entiers jusqu’à n,
n! = n(n − 1)(n − 2) · · · 3.2.1. Par convention, 0! = 1.
Exemple 2.1.4. Les arrangements de deux lettres prises parmi 4 lettres {a, b, c, d}
4!
sont au nombre de A24 = 2!
= 12. Ce sont : (a, b), (a, c), (a, d), (b, a), (b, c), (b, d),
(c, a), (c, b), (c, d), (d, a), (d, b), (d, c).
Remarque 2.1.5. On fait appel au nombre d’arrangement, Arn , lorsqu’on dénombre le

nombre de façon de choisir, au hasard r éléments parmi n avec prise en compte de l’ordre
et sans répétition.
2.1.4 Arrangements avec répétition
Définition 2.1.2. On dispose de n objets distincts. Un arrangement avec répétition des ces
n objets pris r à la fois est une manière de choisir r objets parmi n, le même objet pouvant
être pris plusieurs fois (d’où les répétitions et l’ordre compte).
Combien y a-t-il de manières de choisir r éléments parmi n de façon ordonnée en n’im-

posant pas qu’ils soient tous distincts les uns des autres ?
En 1ère position, il y a n choix possibles. En 2ème position, il y a encore n choix possibles...

En rème position, il y a toujours n choix possibles.
49
Conclusion : Il y a donc nr choix pour les r éléments (r peut être supérieur à n dans ce
cas).
Remarque 2.1.6. On fait appel au nombre nr lorsqu’on dénombre le nombre de façon de

choisir au hasard r éléments parmi n avec prise en compte de l’ordre et avec répétition.
Exemple 2.1.7. Vous achetez une valise à code 4 chiffres. Combien de possibilités avez-vous
de choisir un code ?
k = 4 avec n = 10, donc le nombre total de code possible est 104 = 10000 possibilités.
2.1.5 Permutation sans répétition
Cas particulier d’arrangement sans répétition (r = n) :

Il s’agit d’ordonner n objets entre eux, c’est-à-dire d’effectuer une permutation de ces n
objets.
Définition 2.1.3. Une permutation de n éléments est une disposition ordonnée de ces n
éléments.
Proposition 2.1.8. Les permutations de n éléments sont au nombre de Ann = n!.
2.1.6 Permutation avec répétition
Dans les paragraphes précédents, on a supposé que les n objets étaient tous différents. Il
arrive parfois que les n objets en contiennent un certain nombre qui sont indiscernables.
Supposons qu’il n’y ait que k sortes d’objets distincts sur les n objets. Il y a
– n1 objets de la 1-ère sorte,
– n2 objets de la 2-ème sorte....
– nk objets de la k-ème sorte.
On a bien sûr n1 + n2 + · · · + nk = n.
Pour déterminer le nombre total de permutations distinctes, comparons ce nombre cherché

P avec le nombre obtenu si on supposait les objets différenciés. Plaçons nous dans le cas de
l’exemple suivant : On cherche le nombre d’anagrammes du mot P ROBABILIT E.
Choisissons un de ces anagrammes : le plus simple est P ROBABILIT E.
50
– Si on différencie les lettres B, cette disposition peut provenir des deux permutations
P ROB1 AB2 ILIT E ou P ROB2 AB1 ILIT E, soit 2! possibilités.
– Si on différencie les lettres I, cette disposition peut provenir des deux permutations
P ROBABI1 LI2 T E ou P ROBABI2 LI1 T E, soit encore 2! possibilités.
Un anagramme correspond donc 2! × 2! = 4 permutations, ce qui signifie qu’il y a 4 fois plus

de permutations que d’anagrammes. Le mot P ROBABILIT E comprend 11 lettres. Il y a
11!
11! permutations possibles. On a donc 2!2!
= 9979200 anagrammes possibles.
Cas général. La différenciation des n1 premiers objets donnera n1 ! fois plus d’éléments
que ce qu’on cherche, la différenciation des n2 premiers objets donnera n2 ! fois plus d’éléments
que ce qu’on cherche, et finalement on trouve que n! est n1 !n2 ! · · · nk ! fois plus grand que le
nombre cherché P. On conclut
Proposition 2.1.9. Le nombre de permutations avec répétition d’un groupe de n éléments

composé de k sous groupes différents, contenant respectivement n1 , . . . , nk éléments identiques
est
n!
P= .
n1 !n2 ! · · · nk !
Exemple 2.1.10. Quel nombre d’anagrammes différentes peut-on former avec les lettres du
mot "Anticonstitutionnellement" ?
2.1.7 Combinaisons sans répétition
Définition 2.1.2. Un choix de r objets distincts pris parmi n sans tenir compte de leur
ordre est appelé combinaison de r objets pris parmi n.
Dans l’exemple précédent correspondant à l’ensemble des quatre lettres {a, b, c, d}, la
combinaison {a, b} est la même que la combinaison {b, a} alors que l’arrangement (a, b) est
différent de l’arrangement (b, a).
Combien y en a-t-il ? Le nombre total de combinaisons de r objets pris parmi n est

( ) ( )
noté Cnr ou nr . Pour trouver l’expression de nr , comparons le nombre d’arrangements et
de combinaisons possibles de r objets pris parmi n.
– Dans un arrangement on choisit r objets, puis on tient compte de leur ordre.
51
– Dans une combinaison seul le choix des r objets compte. Comme le nombre de fa-
çons d’ordonner les r objets choisis est r!, on conclut qu’à chaque combinaison de r
objets pris parmi n, on peut associer r! arrangements et donc qu’il y a r! fois plus
d’arrangements que de combinaisons.
On conclut la proposition suivante :
Proposition 2.1.11.
( )
r Ar n(n − 1)(n − 2) · · · (n − r + 1) n!
r
Cn = = n = = .
n r! r! r!(n − r)!
Exemple 2.1.12. Le nombre de combinaisons de deux lettres prises parmi quatre {a, b, c, d}
()
est 24 = 2!2!
4!
= 6. Ce sont : {a, b}, {a, c}, {a, d}, {b, c}, {b, d}, {c, d}.
2.1.8 Récapitulation
Conditions Le nombre de tirages Un exemple usuel

possibles est le
nombre de :
r ≥ n Les r éléments ne sont r-listes Tirages .
pas nécessairement d’éléments de successifs avec
tous distincts mais E, soit : nr remise de r
sont ordonnés objets parmi n
r<n Les r éléments sont Arrangements de r Tirages successifs
tous distincts et éléments de E, soit : sans remise de r
ordonnés Arn objets parmi n.
r=n Les n éléments sont Permutations des n Anagrammes .
tous distincts et éléments de E, soit : d’un mot formé
ordonnés n! de lettres toutes
distinctes
r<n les p éléments sont Combinaisons de r Tirages simultanés de
tous distincts et non éléments( de
) E, soit r objets parmi n.
ordonnés r
n
2.1.9 Coefficients binomiaux
Le triangle de Pascal se construit ligne par ligne : chaque terme est l’addition des deux
nombres de la ligne supérieure qui lui sont adjacents.
52
Exemple 2.1.13. On voit que le 4 est égal à 3 + 1.

Ce triangle permet de déterminer les coefficients binomiaux sans connaître la formule. Par
()
exemple, le nombre 34 = 3!1!
4!
se lit à l’intersection de la ligne n = 4 et de la diagonale p = 3.
Vous connaissez les identités binomiales depuis longtemps déjà :
(a + b)0 = 1.
(a + b)2 = a2 + 2ab + b2
(a + b)3 = a3 + 3a2 b + 3ab2 + b3 .
Mais quelles sont les formules pour des degrés supérieurs ? En comparant les formules de
degré 0, 1, 2 et 3 avec les lignes 0, 1, 2 et 3 du triangle de Pascal, vous constaterez que les
coefficients des identités binomiales correspondent avec les nombres du triangle. Donc :
(a + b)4 = a4 + 4a3 b2 + 6a2 b2 + 4ab2 + b3 .

(a + b)5 = a5 + 10a4 b1 + 10a3 b2 + 10a2 b3 + 5ab4 + b5
ect.
Soit n un nombre entier strictement positif.

La formule générale du binôme de Newton est :
( ) ( ) ( ) ( ) ( ) n ( )
n 0 n 1 n−1 2 n−2 2 k n−k k n n ∑ k n−k k
(a + b) = a + a b a b + ... + a b + ... + b = a b .
n n n n n k=0
n
En étudiant bien le triangle de Pascal,

( on) peut
( )observer les propriétés suivantes :
0 n
Il y a toujours un 1 dans les bords : = = 1.
n n
53
2.2 Notions de Probabilités CHAPITRE 2. PROBABILITÉS
( ) ( )
n−p p
Le triangle est symétrique par rapport à la verticale : = .
( ) ( ) ( n ) n
p p+1 p+1
Par la construction du triangle, on a : + = .
( ) ( ) n ( n ) n+(1 )
n n n n+1
Vérifiez encore que : + + ... + = .
n n+1 n+m−1 n+m
2.2 Notions de Probabilités
2.2.1 Vocabulaires Probabilistes
Historiquement, la notion de probabilité s’est dégagée à partir d’exemples simples em-

pruntés aux jeux de hasard (le mot hasard vient de l’arabe az-zahr : le dé).
Nous allons introduire cette notion en l’associant à un exemple : le jeu de dé.
Définitions 2.2.1.
• Une "expérience aléatoire" ou "épreuve aléatoire" est une expérience due au ha-
sard, c’est à dire dont on ne peut pas prévoir à l’avance le résultat, mais dont on connaît
toutes les issues possibles (Exemple : L’expérience est le jet d’un dé cubique ordinaire.
Le résultat de l’expérience est le nombre indiqué sur la face supérieure du dé).
• Les résultats d’une telle expérience sont appelés "éventualités" ou "événements élé-
mentaires" ou "issues"
• L’ensemble des éventualités est appelé "univers" et est souvent noté U ou Ω (Exemple :
Ω = {1, 2, 3, 4, 5, 6}).
• Un événement est une partie de Ω, c’est-à-dire un sous ensemble de l’univers, ou
encore un ensemble d’éventualités (Exemple : L’événement obtenir un nombre pair est
le sous-ensemble A = {2, 4, 6} de Ω).
• On dit que l’événement A est réalisé si le résultat de l’expérience appartient à A
(Exemple : Si la face supérieure du dé indique 5, A n’est pas réalisé. Si elle indique 4,
A est réalisé.)
• Si un événement ne contient qu’un seul élément, on dit que c’est un événement élé-
mentaire (Exemple : B = {1} est un des 6 événements élémentaires de Ω).
54
2.2.2 Langage des événements
Définitions 2.2.2.
Soit A et B deux événements liés à une expérience aléatoire dont l’univers est noté Ω.
• L’événement contraire de A dans Ω est l’événement qui contient les éléments de
Ω qui ne sont pas dans A. C’est le complémentaire de A dans Ω et il est noté A.
• L’événement «A et B» est l’événement qui contient tous les éléments de Ω qui sont
à la fois dans A et B. Cet événement est noté A∩B.
• L’événement «A ou B» est l’événement qui contient tous les éléments de Ω qui
sont soit dans A soit dans B. Cet événement est noté A∪B.
• On dit que les événements A et B sont incompatibles ou disjoints lorsqu’ils n’ont
pas d’éléments en commun, c’est à dire lorsque A∩B=∅.
Proposition 2.2.1. (Lois de De Morgan)

Pour tous événements A et B, A ∪ B = A ∩ B et A ∩ B = A ∪ B.
2.2.3 Probabilité d’un événement aléatoire
Définition 2.2.1. Si l’univers Ω est constitué de n événements élémentaires {ei }, une me-
sure de probabilité sur Ω consiste à se donner n nombres Pi ∈ [0, 1], les probabilités des
événements élémentaires, tels que
∑
n
Pi = 1.
i=1
Si l’événement A est la réunion disjointe de k événements élémentaires {ei }, avec 0 < k < n,
la probabilité de A vaut, par définition,
∪
k ∑
k ∑
k
P (A) = P ( {ei }) = P (ei ) = Pi .
i=1 i=1 i=1
Par suite, 0 ≤ P (A) ≤ 1.
La signification concrète de la probabilité d’un événement A est la suivante. Dans une

expérience aléatoire, plus P (A) est proche de 1, plus A a de chances d’être réalisé ; plus P (A)
est proche de 0, moins il a de chances d’être réalisé.
55
Probabilité uniforme ou équiprobabilité :

Tous les Pi valent 1/n. La probabilité d’un sous-ensemble à k éléments vaut alors
k Card(A)
P (A) = =
n Card(Ω)
.
On exprime aussi cette propriété par la formule

Nombre de cas favorables
P (A) = .
Nombre de cas possibles
2.2.4 Propriétés des probabilités d’un événement aléatoire
Les propriétés suivantes découlent de la définition (2.2.1).
Proposition 2.2.2. Si A et B sont incompatibles, i.e., si leur intersection A ∩ B est vide,

alors
P (A ∪ B) = P (A) + P (B).
! "
#
Proposition 2.2.3. Si B est un sous-ensemble de A,
B ⊆ A ⇒ P (B) ≤ P (A).
En effet, A = B ∪ (A \ B). Or B et A \ B sont incompatibles (A \ B est l’ensemble des

éléments de A qui ne sont pas éléments de B). Donc P (A) = P (B) + P (A \ B). Comme
P (A \ B) est positive, on obtient le résultat annoncé.
! # "
56
Proposition 2.2.4. On appelle ∅ l’évènement impossible, puisqu’il n’est jamais réalisé. Sa

probabilité vaut P (∅) = 0.
Proposition 2.2.5. On note Ā l’évènement contraire de A. C’est le complémentaire de A

dans Ω. Sa probabilité vaut
P (Ā) = 1 − P (A).
!
_ "
!
Proposition 2.2.6. (Théorème des probabilités totales).

Si A et B sont deux sous-ensembles de Ω,
P (A ∪ B) = P (A) + P (B) − P (A ∩ B).
Preuve :
P (A) = P (A \ B) + P (A ∩ B) car A \ B et A ∩ B sont incompatibles. De même P (B) =
P (B \ A) + P (A ∩ B) car B \ A et A ∩ B sont incompatibles. De plus, P (A ∪ B) = P (A \
B) + P (B \ A) + P (A ∩ B), car A \ B , B \ A et A ∩ B sont incompatibles. En additionnant,
il vient P (A ∪ B) = P (A) + P (B) − P (A ∩ B).
!
! " "
#
Proposition 2.2.7. (Généralisation du théorème des probabilités totales ou règle

de l’addition).
Si A1 , . . . , Ak forment une partition de Ω, i.e. ils sont deux à deux disjoints (i ̸= j ⇒
∪
Ai ∩ Aj = ∅), et Ω = kj=1 Aj , alors
∑
k
P (Aj ) = 1.
j=1
57
2.3 Probabilité conjointe CHAPITRE 2. PROBABILITÉS
Dans cette situation, on dit parfois que les Aj forment un système complet d’évènements.
"3 "5
"1
"2 "4
!
2.3 Probabilité conjointe
La probabilité que deux événements A et B se réalisent est appelée probabilité conjointe

de A et B, notée P (A ∩ B) et s’énonçant probabilité de A et B. Le calcul de cette probabilité
s’effectue de manière différente selon que A et B sont dépendants ou indépendants, c’est-à-
dire selon que la réalisation de l’un influence ou non celle de l’autre.
2.3.1 Événements indépendants
Exemple 2.3.1. Je lance un dé rouge et un dé vert et je cherche la probabilité d’obtenir un

total de 2. Je dois donc obtenir 1 avec chacun des deux dés. La probabilité d’obtenir 1 avec
le dé rouge est 1/6 et demeurera 1/6 quelque soit le résultat du dé vert. Les deux événements
“obtenir 1 avec le dé rouge” et “obtenir 1 avec le dé vert” sont indépendants.
Proposition 2.3.2. Si deux événements sont indépendants, la probabilité qu’ils se réalisent

tous les deux est égale au produit de leurs probabilités respectives. On peut donc écrire :
P (A ∩ B) = P (A) × P (B).
Dans notre exemple : P (total = 2) = P (dé vert = 1) × P (dé rouge = 1) = 1/36.
Remarque 2. Les tirages avec remise constituent une bonne illustration d’événements in-
dépendants.
2.3.2 Événements dépendants - Probabilité conditionnelle
Si deux événements sont dépendants plutôt qu’indépendants, comment calculer la pro-

babilité que les deux se réalisent, puisque la probabilité de réalisation de l’un dépend de
58
la réalisation de l’autre ? Il nous faut connaître pour cela le degré de dépendance des deux
événements qui est indiqué par la notion de probabilité conditionnelle.
Définition 2.3.1. Soient A et B deux événements, A étant supposé de probabilité non nulle.
On appelle probabilité conditionnelle de B par rapport à A, la probabilité de réalisation de
l’événement B sachant que A est réalisé. On la note
P (A ∩ B)
P (B|A) = .
P (A)
P (B|A) se lit p de B si A ou p de B sachant A.
Remarque 3. L’application : PB : A 7→ PB (A) = P (A|B), Ω → [0, 1], est une probabilité

sur Ω et vérifie toutes les propriétés d’une probabilité.
Théoréme 1. (Théorème des probabilités composées ou règle de la multiplication).
P (A ∩ B) = P (B|A)P (A) = P (A|B)P (B).
En voici une généralisation. Soit A1 , . . . , Ak un système complet d’évènements. Alors

∑
k ∑
k
P (B) = P (B ∩ Aj ) = P (Aj )P (B|Aj ).
j=1 j=1
Théoréme 2. (Formule de Bayes). Soit A1 , . . . , Ak un système complet d’évènements. Soit

E un évènement de probabilité non nulle. Alors
P (Aj ∩ E) P (Aj )P (E|Aj )
P (Aj |E) = = ∑k .
P (E) i=1 P (Ai )P (E|Ai )
Remarque 4. Les tirages sans remise constituent une bonne illustration d’événements dé-
pendants.
Exercice 2.3.3. Une entreprise utilise trois types d’ampoules électriques notés T1 , T2 et T3
dans les proportions 60% , 30% , 10%. Les probabilités de bon fonctionnement de ces trois
types pour un temps donné s’élèvent à 0,9, 0,8 et 0,5 respectivement. Quelle est la probabilité
qu’une ampoule tombée en panne soit du type T1 ?
Solution : Si on introduit les événements

B = {une ampoule choisie au hasard tombe en panne }
Ak = { une ampoule est du type Tk }, on a
P (B|A1 )P (A1 ) 0, 1 × 0, 6 6
P (A1 |B) = ∑3 = = .
i=1 P (B|Ai )P (Ai )
0, 1 × 0, 6 + 0, 2 × 0, 3 + 0, 5 × 0, 1 17
59
Exercice 2.3.4. Une urne contient 5 boules noires et 3 boules blanches. Quelle est la pro-
babilité d’extraire 2 boules blanches en 2 tirages ?
Solution : Tirage sans remise

Appelons B1 , l’événement : obtenir une boule blanche au premier tirage.
Appelons B2 , l’événement : obtenir une boule blanche au deuxième tirage.
La probabilité cherchée P (B1 ∩ B2 ) est égale à P (B1 ) × P (B2 |B1 ). Or P (B1 ) vaut 3/8
et P (B2 |B1 ) est égale à 2/7 puisque lorsqu’une boule blanche est sortie au premier tirage,
il ne reste plus que 7 boules au total, dont 2 seulement sont blanches. On conclut que
P (B1 ∩ B2 ) = 3
8
× 2
7
= 3
28
.
Exercice 2.3.5.
1. On jette deux dés non truqués. Quelle est la probabilité d’obtenir un total de 7 points ?
2. Cette fois-ci les dés sont truqués : les numéros pairs sont deux fois plus probables que
les numéros impairs. Quelle est la probabilité d’obtenir un total différent de 8 ?
Solution :
1. – L’univers est l’ensemble de tous les résultats possibles lorsqu’on jette deux dés. Ima-
ginons que les deux dés sont reconnaissables et les résultats sont donc tous les couples
(a, b) où a et b sont des nombres compris entre 1 et 6. Il contient donc 36 éléments.
On peut écrire Ω = {1, 2, 3, 4, 5, 6} × {1, 2, 3, 4, 5, 6} et card(Ω) = 36.
– Tous les résultats possibles sont équiprobables. La mesure de probabilité est donc
uniforme sur Ω.
– L’événement dont on cherche la probabilité est (somme = 7). Il est composé des
événements élémentaires (1, 6), (6, 1), (2, 5) , (5, 2), (3, 4), (4, 3). Ils sont au nombre
de 6. On peut écrire : Card(somme = 7) = 6.
Card(A) 6
– Finalement, étant donné que P (A) = Card(Ω)
, on obtient P (somme = 7) = 36
= 16 .
2. – L’univers est toujours le même.

– On cherche à déterminer la mesure de probabilité sur Ω dans le cas où les dés sont
truqués : elle n’est plus uniforme.
Il faut répondre à la question : lorsqu’on lance un seul dé, quelle est la probabilité
de chaque numéro ?
60
– Tous les numéros pairs ont la même probabilité que l’on note pp ; tous les numéros
impairs ont la même probabilité que l’on note pi . L’énoncé nous permet d’écrire que
pp = 2pi .
– D’autre part, étant donné que les numéros 1,2,3,4,5,6 constituent l’ensemble des
résultats d’un jet de dé, la somme des probabilités de ces 6 résultats vaut 1. D’où
1
3pp + 3pi = 1, soit encore 9pi = 1. D’où pi = 9
et pp = 29 .
– L’événement dont on cherche la probabilité est (somme ̸= 8). Chercher directement
la probabilité de cet événement nous obligerait à considérer beaucoup de cas. Il
sera donc plus rapide de déterminer d’abord la probabilité de l’événement contraire
(somme = 8). Ce dernier est constitué des événements élémentaires (2, 6), (6, 2),
(3, 5), (5, 3), (4, 4).
– Les résultats des deux dés sont indépendants. Nous pouvons donc affirmer que
2 2 4
P ({(2, 6)}) = P ({2}) × P ({6}) = × = .
9 9 81
4 1
De même, P ({(6, 2)}) = P ({(4, 4)}) = 81
, alors que P ({(5, 3)}) = P ({(3, 5)}) = 81
– Finalement P (somme = 8) = 14
81
et P (somme ̸= 8) = 67
81
.
61
Chapitre 3
Variables aléatoires
3.1 Définition
Exemple 3.1.1. On jette deux fois une pièce de monnaie non truquée, et on s’intéresse
au nombre de fois que le côté “face" a été obtenu. Pour calculer les probabilités des divers
résultats, on introduira une variable X qui désignera le nombre de “face" obtenu. X peut
prendre les valeurs 0,1,2.
Exemple 3.1.2. On lance une fléchette vers une cible circulaire de rayon égal à 50 cm et
on s’intéresse à la distance entre la fléchette et le centre de la cible. On introduira ici une
variable X, distance entre l’impact et le centre de la cible, qui peut prendre n’importe quelle
valeur entre 0 et 50.
Dans ces deux cas, X prend des valeurs réelles qui dépendent du résultat de l’expérience
aléatoire. Les valeurs prises par X sont donc aléatoires. X est appelée variable aléatoire.
Définition 3.1.1. Soit un univers Ω associé à une expérience aléatoire, sur lequel on a défini
une mesure de probabilité. Une variable aléatoire X est une application de l’ensemble des
événements élémentaires de l’univers Ω vers R (vérifiant quelques conditions mathématiques
non explicitées ici).
Une variable aléatoire est une variable (en fait une fonction !) qui associe des valeurs
numériques à des événements aléatoires.
Par convention, une variable aléatoire sera représentée par une lettre majuscule X alors
que les valeurs particulières qu’elle peut prendre seront désignées par des lettres minuscules
x1 , x2 , . . . , xi ,..., xn .
62
3.2 Variables aléatoires discrètes CHAPITRE 3. VARIABLES ALÉATOIRE
Les deux variables aléatoires définies dans les exemples 3.1.1 et 3.1.2 sont de natures
différentes. La première est discrète, la seconde continue.
3.2 Variables aléatoires discrètes
Définition 3.2.1. Une variable aléatoire discrète est une variable aléatoire qui ne prend que
des valeurs entières, en nombre fini ou dénombrable.
Pour apprécier pleinement une variable aléatoire, il est important de connaître quelles
valeurs reviennent le plus fréquemment et quelles sont celles qui apparaissent plus rarement.
Plus précisément, on cherche les probabilités associées aux différentes valeurs de la variable
Définition 3.2.2. Associer à chacune des valeurs possibles de la variable aléatoire la proba-
bilité qui lui correspond, c’est définir la loi de probabilité ou la distribution de probabilité
de la variable aléatoire.
Pour calculer la probabilité que la variable X soit égale à x, valeur possible pour X, on
cherche tous les événements élémentaires ei pour lesquels X(ei ) = x, et on a
∑
k
P (X = x) = P ({ei }),
i=1
si X = x sur les événements élémentaires e1 , e2 , . . . , ek .
La fonction de densité discrète f est la fonction de R dans [0, 1], qui à tout nombre
∑
réel xi associe f (xi ) = P (X = xi ). On a bien sûr i f (xi ) = 1.
Exemple 3.2.1. Cas de l’exemple 3.1.1.
La variable X = nombre de côtés “face” peut prendre les valeurs 0,1,2.

1
f (0) = P (X = 0) = P ((pile, pile)) = ;
4
1
f (1) = P (X = 1) = P ((pile, face)) + P ((face, pile)) = ;
2
1
f (2) = P (X = 2) = P ((face, face)) = ;
4
f (x) = 0 si x ∈
/ {0, 1, 2}.
On présente sa distribution de probabilité dans un tableau.
63
3.2 Variables aléatoires discrètes CHAPITRE 3. VARIABLES ALÉATOIRE
x 0 1 2 total
f (x) = P (X = x) 1/4 1/2 1/4 1
3.2.1 Représentation graphique de la distribution de probabilité
Elle s’effectue à l’aide d’un diagramme en bâtons où l’on porte en abscisses les valeurs
prises par la variable aléatoire et en ordonnées les valeurs des probabilités correspondantes.
Dans l’exemple du jet de pièces :
1/2
1/4
0 1 2 x
3.2.2 Fonction de répartition
En statistique descriptive, on a introduit la notion de fréquences cumulées croissantes.

Son équivalent dans la théorie des probabilités est la fonction de répartition.
Définition 3.2.3. La fonction de répartition d’une variable aléatoire X indique pour chaque
valeur réelle x la probabilité que X prenne une valeur au plus égale à x. C’est la somme des
probabilités des valeurs de X jusqu’à x. On la note F .
∑
∀x ∈ R, F (x) = P (X ≤ x) = P (X = xi ).
xi ≤x
La fonction de répartition est toujours croissante, comprise entre 0 et 1 et se révélera un

instrument très utile dans les travaux théoriques.
Exemple 3.2.2. Loi de probabilité de la v.a. discrète finie X égale à la somme des points
marqués lors du lancer de deux dés non truqués :
64
3.3 Variables aléatoires continues CHAPITRE 3. VARIABLES ALÉATOIRE
xi 2 3 4 5 6 7 8 9 10 11 12 total
f (xi ) = P (X = xi ) 1/36 1/18 1/12 1/9 5/36 1/6 5/36 1/9 1/12 1/18 1/36 1
On calcule aisément la fonction de répartition à partir de la connaissance des couples

(xi ; f (xi )), 

 0 si x < x1 ,



 ∑ i
F (x) = f (xi ) pour 1 ≤ i ≤ k − 1,



 j=1

 1 si x ≥ xk .
Fonction de répartition
3.3 Variables aléatoires continues
Définition 3.3.1. Une variable aléatoire est dite continue si elle peut prendre toutes les
valeurs d’un intervalle fini ou infini.
65
3.3.1 Fonction de densité de probabilité
Dans le cours de statistique descriptive, nous avons appris à représenter la distribution

d’une variable statistique continue (ou à caractère continu) à l’aide d’un histogramme de
fréquences, qui est une série de rectangles. L’aire de chaque rectangle est proportionnelle à
la fréquence de la classe qui sert de base au rectangle.
Si l’on augmentait indéfiniment le nombre d’observations en réduisant graduellement

l’intervalle de classe jusqu’à ce qu’il soit très petit, les rectangles correspondant aux résultats
vont se multiplier tout en devenant plus étroits et à la limite vont tendre à se fondre en une
surface unique limitée d’une part par l’axe des abscisses et d’autre part par une courbe
continue.
On abandonne alors la notion de valeur individuelle et l’on dit que la distribution de

probabilité est continue. La courbe des fréquences relatives idéalisée est alors la courbe
représentative d’une fonction de densité de probabilité f . Elle a donc les propriétés
suivantes :
a) La courbe d’une fonction de densité de probabilité est toujours située au dessus de

l’axe des abscisses donc f est une fonction toujours positive.
b) La probabilité que la variable aléatoire X soit comprise entre les limites a et b c’est-
à-dire P (a ≤ X ≤ b), est égale à l’aire entre l’axe des abscisses, la courbe représentative de
la fonction de densité de probabilité et les droites d’équations x = a et x = b,
∫ b
P (a ≤ X ≤ b) = f (x) dx
a
66
p(a<X<b)
x
a b
c) L’aire totale comprise entre la courbe et l’axe des abscisses est égale à 1 :
∫
f (x) dx = 1.
R
3.3.2 Fonction de répartition
De même que pour les variables aléatoires discrètes, on peut définir la fonction de réparti-
tion F de la variable continue X qui permet de connaître la probabilité que X soit inférieure
à une valeur donnée :
∫ x
F (x) = P (X ≤ x) = f (t) dt.
−∞
Proposition 3.3.1.
1. F est continue et croissante sur R.
2. ∀x ∈ R, F ′ (x) = f (x).
3. limx→−∞ F (x) = 0, limx→+∞ F (x) = 1.
4. P (a ≤ X ≤ b) = P (b ≤ X) − P (X ≤ a) = F (b) − F (a).
5. P (X > x) = 1 − F (x).
6. P (a ≤ X ≤ b) = P (a < X ≤ b) = P (a ≤ X < b) = P (a < X < b) = F (b) − F (a).
Exercice 3.3.2.
Soit f la fonction définie sur R par f (x) = ke−x si x ≥ 0, f (x) = 0 sinon.
1. Déterminer k pour que f soit la fonction de densité de probabilité d’une variable

aléatoire X.
67
2. Déterminer la fonction de répartition de la variable X.

3. Calculer P (1 < X < 2).
Solution : Densité de probabilité
1. f doit être une fonction positive, donc il nous faut impérativement trouver pour k
∫
une valeur positive. Une fonction de densité de probabilité doit vérifier R f (x) dx = 1,
∫ +∞
donc 0 ke−x dx = 1. Il en résulte que k = 1.
2. Par définition la fonction de répartition de X est la fonction F définie par
 ∫ x
 e−t dt = 1 − e−x si x > 0,
F (x) = 0

0 sinon.
3.
∫ 2
P (1 < X < 2) = e−x dx = e−1 − e−2 ∼ 0.23.
1
3.3.3 Espérance mathématique d’une distribution de probabilité
Si l’on s’imagine que le nombre d’observations croît indéfiniment (on passe d’un échan-
tillon de taille n à la population toute entière), les fréquences observées vont tendre vers les
probabilités théoriques et on admet que la moyenne calculée sur l’échantillon de taille n va
tendre vers une valeur limite qui sera la moyenne de l’ensemble des valeurs de la population
entière. On l’appelle espérance mathématique de la variable aléatoire X, car c’est la valeur
moyenne que l’on s’attend à avoir dans un échantillon de grande taille.
Définition 3.3.2.
1. Cas d’une variable discrète :
– Soit X une variable aléatoire discrète qui prend un nombre fini de valeurs
x1 , x2 , . . . , xn et dont la loi de probabilité est f : f (xi ) = P (X = xi ). L’ espérance
mathématique de X, notée E(X), est définie par
∑
n
E(X) = xi f (xi ).
i=1
– Si la variable aléatoire X prend un nombre dénombrable de valeurs x1 , x2 , . . . , xn , . . .,

∑
son espérance mathématique est alors définie par E(X) = ∞ i=1 xi f (xi ), à condition
que la série converge absolument.
68
2. Cas d’une variable continue :

− Si la variable aléatoire X est continue et a pour fonction de densité de probabilité
f , son espérance mathématique est
∫
E(X) = xf (x) dx,
R
pourvu que la fonction x 7→ xf (x) soit intégrable sur R.
3.3.4 Variance d’une distribution de probabilités
En effectuant le même raisonnement que précédemment pour passer d’un échantillon de

taille n à la population totale, on suppose que la variance calculée sur l’échantillon tend
vers une limite lorsque le nombre d’observations tend vers l’infini. Cette limite est appelée
variance de la variable aléatoire X.
Définition 3.3.3.
– On appelle variance de la variable aléatoire X la valeur moyenne des carrés des écarts
à la moyenne,
( )
V ar(X) = E (X − E(X))2 .
Le calcul de la variance se simplifie en utilisant l’expression :
V ar(X) = E(X 2 ) − E(X)2 .
– On appelle écart-type de la variable aléatoire X la racine carrée de sa variance.

√
σ(X) = V ar(X).
Dans le cas d’une variable aléatoire continue,
Dans le cas d’une variable aléatoire discrète finie,

( n )
∑n ∑
V ar(X) = (xi − E(X))2 f (xi ) = x2i f (xi ) − E(X)2 .
i=1 i=1

∫ (∫ )
V ar(X) = (x − E(X)) f (x) dx =
2
x f (x) dx − E(X)2 .
2
R R
69
3.3.5 Loi d’une fonction de variable aléatoire
Si φ est une fonction définie sur R à valeurs dans R, l’application φ ◦ X, notée Y = φ(X)
est une variable aléatoire dont on peut déterminer la fonction de répartition et donc la loi
de probabilité à partir de celle de X.
1) Changement de variable Y = aX + b.
Les paramètres a (a ̸= 0) et b sont des nombres réels. Connaissant la fonction de répartition
de X, on peut calculer la fonction de répartition FY de la v.a. Y :
• Pour a > 0 :
( y − b) (y − b)
FY (y) = P (Y ≤ y) = P (aX + b ≤ y) = P X ≤ = FX .
a a
• Pour a < 0 :
 ( )
( y − b)  1 − FX y − b

si X est une v.a.continue,
FY (y) = P (Y ≤ y) = P X ≥ = ( a y − b)
a 
 1−P X < si X est une v.a.discrète.
a
Lorsque la variable aléatoire X est continue, on obtient la fonction de densité fY par déri-
vation de la fonction FY .
2) Autres types de fonctions (Y = φ(X)).

• Si φ est bijective (donc monotone),
φ croissante : FY (y) = P (Y ≤ y) = P (X ≤ φ−1 (y)) = FX (φ−1 (y))
φ décroissante :

 1 − FX (φ−1 (y)) si X est une v.a.c ,
−1
FY (y) = P (Y ≤ y) = P (X ≥ φ (y)) = ( )
 1 − P X < φ−1 (y) si X est une v.a.d.
Si X est une v.a. continue et si la fonction φ est dérivable, on obtient la fonction de densité
fY par dérivation de la fonction FY .
Exemple 3.3.3. Soit une v.a. continue X, on peut calculer les fonctions de répartition et
de densité de Y = exp(X), la fonction exponentielle étant croissante :
 
 0 si y < 0,  0 si y < 0,
FY (y) = ⇒ fY (y) =
 FX (ln(y)) pour y > 0.  1 fX (ln(y)) pour y > 0.
y
70
• φ quelconque
Le principe consiste toujours à identifier la fonction de répartition FY en recherchant l’anté-
cédent pour X de l’événement {Y ≤ y = φ(x)}.
Par exemple, pour Y = X 2 :

 0 si y < 0, ,
FY (y) =
 P (−√y ≤ X ≤ +√y) = FX (√y) − FX (√y) pour y ≥ 0.
3.3.6 Fonction caractéristique d’une distribution de probabilité
Définition 3.3.4. On appelle fonction caractéristique de la variable aléatoire X la fonction

ξX définie sur R par
ξX (u) = E(e−2iπuX ).
Dans le cas d’une variable aléatoire discrète finie,

∑
n
ξX (u) = f (xi )e−2iπuxi .
i=1

∫
ξX (u) = e−2iπux f (x) dx.
R
Dans le cas continu, on constate que ξX = F f est la transformée de Fourier de la densité

de probabilité. Elle existe donc toujours puisque la densité de probabilité est intégrable au
sens de Lebesgue.
Proposition 3.3.4. Soit X une variable aléatoire qui possède une espérance et une variance.
Alors
1 d
E(X) = − ξX (u)|u=0 ,
2iπ du
( 2 )
1 d d
V ar(X) = − 2 ξX (u)|u=0 − ( ξX (u)|u=0 ) .
2
4π du2 du
Preuve : Dans le cas discret,

d ∑n
ξX (u) = −2iπxi f (xi )e−2iπuxi = −2iπE(Xe−2iπuX ),
du i=1
d2 ∑n
2
ξX (u) = −4π 2 x2i f (xi )e−2iπuxi = −4π 2 E(X 2 e−2iπuX ),
du i=1
71
d’où
′′ ′
ξX (0) − (ξX (0))2 = −4π 2 E(X 2 ) + 4π 2 E(X)2
= −4π 2 (E(X 2 ) − E(X)2 )
= −4π 2 V ar(X).
Dans le cas continu, le calcul est le même, au moyen de la formule pour la dérivée de la
transformée de Fourier.
Remarque 5. Une loi de probabilité régit le comportement d’une variable aléatoire. Cette
notion abstraite est associée à la population, c’est-à-dire à l’ensemble de tous les résultats
possibles d’un phénomène particulier. C’est pour cette raison que l’espérance et la variance
de la loi de probabilité, qui n’ont aucun caractère aléatoire, sont appelés paramètres de la
distribution de probabilité.
3.3.7 Propriétés de l’espérance mathématique et de la variance
Résumons les principales propriétés de ces deux paramètres dans un tableau.
Changement d’origine Changement d’échelle Transformation affine

E(X + c) = E(X) + c E(aX) = aE(X) E(aX + c) = aE(X) + c
V ar(X + c) = V ar(X) V ar(aX) = a2 V ar(X) V ar(aX + c) = a2 V ar(X)
σ(X + c) = σ(X) σ(aX) = |a|σ(X) σ(aX + c) = |a|σ(X)
ξX+c (u) = e−2iπcu ξX (u) ξaX (u) = ξX (au) ξaX+c (u) = e−2iπcu ξX (au)
Définition 3.3.5.
– Une variable aléatoire X est dite centrée si son espérance mathématique est nulle.
– Une variable aléatoire X est dite réduite si son écart-type est égal à 1.
– Une variable aléatoire centrée réduite est dite standardisée.
A n’importe quelle variable aléatoire X, on peut associer la variable standardisée

X − E(X)
Z= .
σ(X)
En divisant la variable centrée par son écart-type, une valeur située à un écart-type de la
moyenne sera ramenée à 1, une autre située à deux écarts-types sera ramenée à 2 : l’échelle
de référence, ou unité de mesure, d’une variable centrée-réduite est l’écart-type.
72
Les valeurs des variables centrées-réduites sont complètement indépendantes des unités
de départ. Une mesure exprimée en mètres ou en centimètres donne exactement la même
variable centrée-réduite. On peut ainsi faire des comparaisons entre variables de natures
différentes. Si un enfant est à +3 écarts-types de la moyenne pour sa taille et +1 écart-type
pour son poids, on sait qu’il est plus remarquable par sa taille que par son poids.
L’examen des variables centrées-réduites est très pratique pour déceler les valeurs “anor-
malement” grandes ou “anormalement” petites.
Le passage d’une variable aléatoire X à une variable standardisée est requis pour l’utili-
sation de certaines tables de probabilité. C’est le cas pour l’utilisation de la table de la loi
normale que nous traiterons dans le prochain chapitre.
73
Chapitre 4
Principales distributions de
probabilités
Introduction
De nombreuses situations pratiques peuvent être modélisées à l’aide de variables aléatoires

qui sont régies par des lois spécifiques. Il importe donc d’étudier ces modèles probabilistes
qui pourront nous permettre par la suite d’analyser les fluctuations de certains phénomènes
en évaluant, par exemple, les probabilités que tel événement ou tel résultat soit observé.
La connaissance de ces lois théoriques possède plusieurs avantages sur le plan pratique :
– Les observations d’un phénomène particulier peuvent être remplacées par l’expression
analytique de la loi où figure un nombre restreint de paramètres (1 ou 2, rarement
plus).
– La loi théorique agit comme modèle (idéalisation) et permet ainsi de réduire les irré-
gularités de la distribution empirique. Ces irrégularités sont souvent inexplicables et
proviennent de fluctuations d’échantillonnage, d’imprécision d’appareils de mesure ou
de tout autre facteur incontrôlé ou incontrôlable.
– Des tables de probabilités ont été élaborées pour les lois les plus importantes. Elles
simplifient considérablement les calculs.
On distingue deux types des lois de probabilités : Loi de Probabilité Discrète et Loi
de Probabilité Continue.
74
4.1 Lois Discrètes CHAPITRE 4. LOIS DE PROBABILITÉS
4.1 Lois Discrètes
4.1.1 Loi uniforme discrète
Elle modélise des situations d’équiprobabilités.
Définition 4.1.1. On dit qu’une variable aléatoire X suit une loi uniforme discrèete lors-
qu’elle prend ses valeurs dans {1, ..., n} avec des probabilités élémentaires identiques. Puisque
la somme des ces dernières doit valoir 1, on en déduit qu’elles doivent toutes être égales à
1/n :
1
∀k = 1, ..., n P (X = k) = .
n
Paramètres de la distribution
On calcule aisément :
∑
n
k n+1
E(X) = = .
k=1
n 2
∑
n
k2 (n + 1)2 (n + 1)(2n + 1) (n + 1)2 n2 − 1
V (X) = E(X 2 ) − E(X)2 = − = − = .
k=1
n 4 6 4 12
Exemple 4.1.1. Soit X = résultat d’un jet de dé à six faces non-truqué.

Les n = 6 modalités possibles, x1 = 1 ; x2 = 2 ; x3 = 3 ; x4 = 4 ; x5 = 5 ; x6 = 6, ont toutes
pour probabilité élémentaire 1/6 :
1
∀k = 1, ..., 6 P (X = k) = .
6
7 35
E(X) = , V (X) = .
2 12
4.2 Loi Bernoulli
Définition 4.2.1. Une variable aléatoire discrète qui ne prend que les valeurs 1 et 0 avec
les probabilités respectives p et q = 1 − p est appelée variable de Bernoulli.
Exemple 4.2.1. Une urne contient deux boules rouges et trois boules vertes. On tire une
boule de l’urne. La variable aléatoire X = nombre de boules rouges tirées est une variable de
Bernoulli. On a : P (X = 1) = 2/5 = p, P (X = 0) = 3/5 = q.
75
4.2 Loi Bernoulli CHAPITRE 4. LOIS DE PROBABILITÉS
Plus généralement, on utilisera une variable de Bernoulli lorsqu’on effectue une épreuve
qui n’a que deux issues : le succès ou l’échec. Une telle expérience est alors appelée épreuve
de Bernoulli. On affecte alors 1 à la variable en cas de succès et 0 en cas d’échec.
Loi de probabilités
x 0 1
f (x) = P (X = x) q p
Paramètres de la distribution
On calcule
E(X) = 0.q + 1.p = p,

V (X) = E(X 2 ) − E(X)2 = (02 q + 12 p) − p2 = p − p2 = pq,
ξX (u) = E(e−2iπuX ) = 1.q + e−2iπu p = q + p cos(2πu) + ip sin(2πu).
√
E(X) = p V (X) = pq σ(X) = pq ξX (u) = q + pe−2iπu
4.2.1 Loi Binomiale
Situation concrète
a) On effectue une épreuve de Bernoulli. Elle n’a donc que deux issues : le succès avec
une probabilité p ou l’échec avec une probabilité q.
b) On répète n fois cette épreuve.
c) Les n épreuves sont indépendantes entre elles, ce qui signifie que la probabilité de
réalisation de l’événement “succès” est la même à chaque épreuve et est toujours égale à p.
Dans cette situation, on s’intéresse à la variable X = “nombre de succès au cours des n

épreuves”.
76
4.2 Loi Bernoulli CHAPITRE 4. LOIS DE PROBABILITÉS
Distribution de probabilités
Appelons Xi les variables de Bernoulli associées à chaque épreuve. Si la i-ème épreuve

donne un succès, Xi vaut 1. Dans le cas contraire Xi vaut 0. La somme de ces variables
comptabilise donc le nombre de succès au cours des n épreuves. On a donc X = X1 + X2 +
· · · + Xn . X peut prendre n + 1 valeurs : 0, 1, . . . , n.
Cherchons la probabilité d’obtenir k succès, c’est-à-dire P (X = k).
La probabilité d’avoir k succès suivis de n − k échecs est pk q n−k car ces résultats sont
indépendants les uns des autres.
La probabilité d’avoir k succès et n − k échecs dans un autre ordre de réalisation est

toujours pk q n−k . Donc tous les événements élémentaires qui composent l’événement (X = k)
ont même probabilité.
Combien y en a-t-il ’ Autant que de façons d’ordonner les k succès par rapport aux n − k
échecs ’ Il suffit de choisir les k places des succès parmi les n possibles et les n − k échecs
( )
prendront les places restantes. Or il y a nk manières de choisir k places parmi n.
Finalement, on obtient
( )
k k n−k
P (X = k) = p q .
n
On dit que la variable aléatoire X suit une loi binomiale de paramètres n et

p. On note X ↩→ B(n, p).
Remarque : L’adjectif binomial vient du fait que lorsqu’on somme toutes ces probabilités,
on retrouve le développement du binôme de Newton,
∑n ( )
k k n−k
p q = (p + q)n = 1.
k=0
n
Exemple 4.2.2. Dans un exercice militaire, un soldat a le droit de tirer sur une cible mobile
10 fois, si la probabilité d’atteindre cette cible est 0, 7, quelle est la probabilité que ce soldat
atteint la cible au moins 2 fois.
Solution : Cette expérience aléatoire consiste a répéter la même expérience (tirer sur
une cible) 10 fois de suite. c’est donc une expérience binomiale. Soit X la variable aléatoire
77
4.3 Loi géométrique CHAPITRE 4. LOIS DE PROBABILITÉS
qui modélise cette expérience, on a X ↩→ B(10, 0, 7) et on cherche P (X ≥ 2). Donc

( )
P (X ≥ 2) = 1 − P (X < 2) = 1 − P (X = 0) + P (X = 1)
(( ) (1) )
= 1 − 100
(1 − 0, 7)10 + 10 (0, 7)(1 − 0, 7)9 = 0, 856.
Paramètres descriptifs de la distribution
Nous savons que X = X1 + · · · + Xn avec E(Xi ) = p pour i = 1, 2, . . . , n, donc E(X) =

E(X1 ) + · · · + E(Xn ) = np.
Les variables Xi sont indépendantes et V ar(Xi ) = pq pour i = 1, 2, . . . , n, donc V ar(X) =

V ar(X1 ) + · · · + V ar(Xn ) = npq. D’autre part, les fonctions caractéristiques se multiplient,
donc ξX (u) = (q + pe−2iπu )n .
√
E(X) = np V (X) = npq σ(X) = npq ξX (u) = (q + pe−2iπu )n
Remarque 6. La formule donnant l’espérance semble assez naturelle. En effet, le nombre

moyen de succès (qui correspond à la signification de l’espérance) est intuitivement égal au
produit du nombre d’essais par la probabilité de réalisation d’un succès.
Somme de deux variables binomiales :

Si X1 et X2 sont des variables indépendantes qui suivent des lois binomiales B(n1 , p) et
B(n2 , p) respectivement, alors X1 + X2 suit une loi binomiale B(n1 + n2 , p).
Cette propriété s’interprète facilement : si X1 représente le nombre de succès en n1

épreuves identiques indépendantes et X2 en n2 épreuves indépendantes entre elles et indé-
pendantes des premières avec la même probabilité de succès que les premières, alors X1 + X2
représente le nombre de succès en n1 + n2 épreuves identiques et indépendantes.
4.3 Loi géométrique
4.3.1 Situation concrète
a) On effectue une épreuve de Bernoulli. Elle n’a donc que deux issues : le succès avec
une probabilité p ou l’échec avec une probabilité q = 1 − p.
78
4.3 Loi géométrique CHAPITRE 4. LOIS DE PROBABILITÉS
b) On répète l’épreuve jusqu’à l’apparition du premier succès.
c) Toutes les épreuves sont indépendantes entre elles.
Dans cette situation, on s’intéresse à la variable X = “nombre de fois qu’il faut répéter
l’épreuve pour obtenir le premier succès”.
Remarque 7. On est donc dans les mêmes hypothèses que pour la loi binomiale, mais le
nombre d’épreuves n’est pas fixé à l’avance. On s’arrête au premier succès.
4.3.2 Distribution de probabilités
L’ensemble des valeurs prises par X est 1, 2, 3, . . .. On cherche la probabilité d’avoir

recours à n épreuves pour obtenir le premier succès.
Ce succès a une probabilité de réalisation de p. Puisque c’est le premier, il a été précédé

de n − 1 échecs qui ont chacun eu la probabilité q de se produire. étant donné l’indépendance
des épreuves, on peut dire que la probabilité de réalisation de n − 1 échecs suivis d’un succès
est le produit des probabilités de réalisation de chacun des résultats,
P (X = n) = q n−1 p.
On dit que la variable aléatoire X suit une loi géométrique de paramètre p. On

note X ↩→ G(p).
Remarque 8. L’appellation géométrique vient du fait qu’en sommant toutes les probabilités,
on obtient une série géométrique. En effet,
∑
+∞
p
q n−1 p = = 1.
n=1
1−q
4.3.3 Paramètres descriptifs de la distribution
On calcule
∑
∞
ξX (u) = q n−1 pe−2iπun
n=1
∑
∞
−2iπu
= pe q k e−2iπuk
k=0
−2iπu
pe
= ,
1 − qe−2iπu
79
4.4 Loi de Poisson CHAPITRE 4. LOIS DE PROBABILITÉS
et on en tire, en dérivant par rapport à u en u = 0, l’espérance et la variance.
√ pe−2iπu
E(X) = 1/p V ar(X) = q/p2 σ(X) = q/p ξX (u) = 1−qe−2iπu
Remarque 9. On peut interpréter l’expression de l’espérance de façon intuitive. En effet en

n épreuves, on s’attend à obtenir np succès et par conséquent, le nombre moyen d’épreuves
n
entre deux succès devrait être np
= p1 .
4.4 Loi de Poisson
Beaucoup de situations sont liées à l’étude de la réalisation d’un événement dans un

intervalle de temps donné (arrivée de clients qui se présentent à un guichet d’une banque
en une heure, apparitions de pannes d’un réseau informatique en une année, arrivée de
malades aux urgences d’un hôpital en une nuit,....). Les phénomènes ainsi étudiés sont des
phénomènes d’attente.
Définition 4.4.1. On peut considérer la loi de Poisson de paramètre λ comme la loi limite
d’une loi binomiale B(n, λ/n) lorsque n tend vers l’infini, le produit des paramètres n.λ/n
restant toujours constant égal à λ.
On écrit X ↩→ P (λ).
Proposition 4.4.1. La loi de Poisson de paramètre λ est donnée par
λk
P (X = k) = e−λ .
k!
Preuve :
Si Y suit une loi B(n, λ/n), on sait que
( )
k λ k λ
P (Y = k) = ( ) (1 − )n−k
n n n
λ λ n(n − 1) · · · (n − k + 1)
k
= (1 − )n−k
n k! nk
λ λ k
λ n n−1 n−k+1
= (1 − )n (1 − )−k [ × × ··· × ].
n k! n n n n
80
4.4 Loi de Poisson CHAPITRE 4. LOIS DE PROBABILITÉS
Chaque terme du produit entre crochets tend vers 1 lorsque n tend vers l’infini. Il y a k
termes, c’est-à-dire un nombre fini. Donc le crochet tend vers 1. De même, (1 − nλ )−k tend
vers 1. De plus,
λ n λ λ
ℓn((1 − ) ) = nℓn(1 − ) ∼ n × (− )
n n n
tend vers −λ lorsque n tend vers l’infini, donc (1 − nλ )n tend vers e−λ . On conclut que
P (Y = k) tend vers e−λ λk /k!.
Remarque 10. Il existe des tables donnant la fonction de densité et la fonction de répartition
de la loi de Poisson en fonction des différentes valeurs de λ (pour λ ≤ 15).
4.4.1 Paramètres descriptifs de la distribution
On calcule, lorsque X ↩→ P (λ),

∑
∞
λk −2iπuk −2iπu
ξX (u) = e−λ e = e−λ eλe .
k=0
k!
On en déduit le tableau
√ −2iπu −1)
E(X) = λ V ar(X) = λ σ(X) = λ ξX (u) = eλ(e
La loi P (λ) est la loi limite de la loi B(n, λ/n) lorsque n tend vers l’infini. On constate que
l’espérance mathématique et la variance de la loi B(n, λ/n) convergent vers celles de la loi
P (λ) lorsque n tend vers l’infini. Cela peut se vérifier directement, en appliquant le théorème
de convergence dominée pour la mesure Peigne de Dirac (interversion d’une sommation et
d’une limite).
Approximation de la loi binomiale par la loi de Poisson
On approche la loi B(n, p) par la loi P (np) dès que n > 20, p ≤ 0.1 et np ≤ 5.
RÈGLE IMPORTANTE. Lorsqu’on approche une loi par une autre, on choisit le ou
les paramètres de la loi approchante de manière que l’espérance (et la variance lorsqu’on a
suffisamment de paramètres) de la loi approchante soit égale à l’espérance (et la variance)
de la loi approchée.
81
4.5 Lois Continues CHAPITRE 4. LOIS DE PROBABILITÉS
Somme de deux lois de Poisson
Si X1 et X2 sont des variables aléatoires indépendantes qui suivent des lois de Poisson de
paramètres respectifs λ1 et λ2 , alors X1 + X2 suit une loi de Poisson de paramètre λ1 + λ2 .
4.5 Lois Continues
4.5.1 Loi Uniforme Continue
Proposition 4.5.1. Soit a et b deux réels tels que a < b.La fonction f définie sur R par

 1 si x ∈ [a; b]
f (x) = b−a est une densité de probabilité.
 0 sinon
Définition 4.5.1. Soit a et b deux réels tels que a < b, et X une variable aléatoire.
On dit que X suit la loi uniforme sur [a; b] lorsque X suit la loi à densité continue f
définie sur R par

 1
si x ∈ [a; b]
f (x) = b−a
 0 sinon
On note X ↩→ X(a; b). Sa fonction de répartition est donnée par :



 0 pour x < a,

 x−a
F (x) = pour x ∈ [a; b]

 b−a

 1 pour x > b.
Proposition 4.5.2. Soit X une variable aléatoire suivant la loi uniforme sur [a; b]. Alors
l’espérance E(X) de X est :
∫ b
a+b
E(X) = xf (x) dx = .
a 2
La variance de la loi uniforme continue vaut :
(b − a)2
V (X) = .
12
82
4.5.2 Loi Exponentielle
On se place dans le cas d’un phénomène d’attente et on s’intéresse à la variable aléatoire

qui représente le temps d’attente pour la réalisation d’un événement ou le temps d’attente
entre la réalisation de deux événements successifs. Si on se place dans le cas où l’intensité
α du processus de Poisson est constante, ce temps d’attente suit une loi exponentielle de
paramètre α.
Exemple. Lorsque l’événement attendu est la mort d’un individu (ou la panne d’un é-
quipement), α s’appelle le taux de mortalité (ou le taux de panne). Dire qu’il a une valeur
constante, c’est supposer qu’il n’y a pas de vieillissement (ou pas d’usure s’il s’agit d’un
équipement), la mort ou la panne intervenant de façon purement accidentelle.
4.5.3 Loi de probabilité
Définition 4.5.2. Soit α un nombre strictement positif. On dit qu’une variable aléatoire
continue X suit une loi exponentielle de paramètre α si sa fonction de densité est

 αe−αx pour x ≥ 0,
f (x) =
 0 sinon
On note X ↩→ Exp(α). Sa fonction de répartition est donnée par :


 α1 − e−αx pour x ≥ 0,
F (x) =
 0 sinon
Notons que, P (X > x) = 1 − F (x) = e−αx pour x ≥ 0.
Proposition 4.5.3. Soit X une variable aléatoire suivant une loi exponentielle de paramètre
α. Alors l’espérance E(X) de X est :
1
E(X) = .
α
Et la variance vaut :
1
V (X) = .
α2
Exemple 4.5.4. La durée de vie T en année, d’un appareil avant la première panne suit
une loi exponentielle de paramètre α. D’après une étude, la probabilité que cet appareil tombe
83
en panne pour la première fois avant la fin de la première année est 0,2. D’aprs cette étude,
déterminer la valeur de α à 10−2 près.
4.5.4 Loi de Cauchy C(m, a)
Définition 4.5.3. On dit qu’une variable aléatoire X suit une loi de Cauchy de paramètres
a (strictement positif ) et m réel si sa fonction de densité f est donnée par
a 1
f (x) = .
π ((x − m)2 + a2 )
Pour tout x ∈ R.
Pas d’espérance ni de variance car les intégrales divergent.
Si la loi de X est C(0, 1) (loi de Cauchy standard) et si a et b sont des réels, alors la loi
de aX + b est C(b, a2 ).
4.5.5 Loi Normale
Définition 4.5.1. Une variable aléatoire continue suit une loi normale si l’expression de sa
fonction de densité de probabilités est de la forme :
1
f (x) = √ e− 2 ( σ ) ,
1 x−m 2
x ∈ R.
σ 2π
La loi dépend des deux réels m et σ appelés paramètres de la loi normale. On la note N (m, σ).
Remarque 11.
1. Une fonction de densité de probabilité étant toujours positive, le paramètre σ est donc
un réel strictement positif.
∫
2. On démontre que f est bien une fonction de densité de probabilité car R f (x) dx = 1.
∫ √
Pour le démontrer on utilise que R e−x /2 dx = 2π (c’est l’intégrale de Gauss).
2
4.5.6 Paramètre descriptifs de la distribution
La fonction caractéristique d’une variable normale standard X vaut
ξX (u) = e−2iπmu−2π
2 σ 2 u2
.
84
On en déduit, à l’aide de la formule qui exprime espérance et variance à partir des dérivées
de la fonction caractéristique, que
E(X) = m, V ar(X) = σ 2 , σ(X) = σ.
On peut aussi faire le calcul directement, à partir de l’intégrale de Gauss.
4.5.7 Propriétés de la distribution normale
Somme de deux variables normales
Soient X1 et X2 deux variables indépendantes. Si X1 suit N (m1 , σ1 ) et X2 suit N (m2 , σ2 ),

√
alors X1 + X2 suit N (m1 + m2 , σ12 + σ22 ).
Loi normale centrée réduite ou loi normale standardisée
Nous avons vu dans le chapitre 3 qu’à toute variable aléatoire X ,on pouvait associer une
X − E(X)
variable dite standardisée d’espérance nulle et de variance unité (ceci résultait
σ(X)
des propriétés de translation et de changement d’échelle).
On montre assez facilement que si on effectue cette transformation sur une variable suivant
une loi normale, la variable standardisée suit encore une loi normale mais cette fois-ci de
paramètres 0 et 1. La loi standardisée est appelée loi normale centrée réduite, et notée
X −m
N (0, 1). Donc si X suit N (m, σ), on pose T = et T suit N (0, 1).
σ
On peut résumer la correspondance de la façon suivante :
X ⇀ N (m, σ) T ⇀ N (0, 1)
X−m
E(X) = m T = σ
E(T ) = 0
V ar(X) = σ 2 V ar(T ) = 1
Il faut garder à l’esprit que concrètement T est le nombre d’écarts-type entre la valeur de X
et la moyenne.
La loi N (0, 1) est tabulée à l’aide la fonction de répartition des valeurs positives. Elle
∫t
donne les valeurs de Φ(t) = P (0 ≤ T ≤ t) = 0 √12π e−u /2 du pour t > 0. Ce nombre
2
représente l’aire sous la courbe représentative de la distribution et au dessus de l’intervalle
85
[0, t]. Pour cette raison la table de la loi normale est appelée table d’aires (elle est aussi
appelée Loi de Laplace-Gauss). Cette table ne dépend d’aucun paramètre, mais permet
cependant de déterminer les probabilités de n’importe quelle distribution normale !
Comment utiliser la table d’aires ?
La première colonne de la table indique les unités et les dixièmes des valeurs de T alors
que les centièmes des valeurs de T se lisent sur la ligne supérieure de la table. La valeur
trouvée à l’intersection de la ligne et de la colonne adéquates donne l’aire cherchée.
a) Je cherche la valeur de A l’intersection de la ligne “0.5” et de la colonne “0.00”, je lis

0.1915.
b) Je cherche la valeur de P (−0.5 ≤ T ≤ 0). J’utilise la symétrie de la courbe par rapport

à l’axe des ordonnées et j’en conclus que P (−0.5 ≤ T ≤ 0) = P (0 ≤ T ≤ 0.5) = 0.1915. Et
que pensez-vous de la valeur de P (−0.5 < T < 0) ?
c) Je cherche la valeur de P (−2.24 ≤ T ≤ 1.12). L’aire cherchée correspond à la somme

suivante
P (−2.24 ≤ T ≤ 1.12) = P (−2.24 ≤ T ≤ 0) + P (0 < T ≤ 1.12) = 0.4875 + 0.3686 = 0.8561.
d) Je cherche la valeur de P (1 ≤ T ≤ 2). L’aire cherchée correspond à la différence

suivante
P (1 ≤ T ≤ 2) = P (0 ≤ T ≤ 2) − P (0 ≤ T ≤ 1) = 0.4772 − 0.3413 = 0.1359.
e) Je cherche la valeur t de T telle que P (0 ≤ T ≤ t) = 0.4750. C’est le problème

inverse de celui des exemples précédents. Il s’agit de localiser dans la table l’aire donnée et
de déterminer la valeur de T correspondante. Je trouve t = 1.96.
Remarque 12. Si la valeur de l’aire ne peut se lire directement dans les valeurs de la
table, on pourra toujours effectuer une interpolation linéaire entre deux valeurs adjacentes
ou prendre la valeur la plus proche.
86
4.5.8 Approximation de la loi binomiale par la loi normale



 n ≥ 30

√
On approche la loi B(n, p) par la loi N (np, npq) dès que np ≥ 15



nq ≥ 15
4.5.9 La correction de continuité
Cette approximation pose deux problèmes.
1. On remplace une distribution concernant un nombre fini de valeurs par une distribution
sur R tout entier.
2. On remplace une distribution discrète par une distribution continue.

Il nous faut donc appliquer ce qu’on appelle une correction de continuité. Si on nomme
X la variable binomiale et Y la variable normale, on remplacera une valeur k de X par
un intervalle de Y centré sur k et d’amplitude 1, ce qui signifie que l’on écrit
1 1
P (X = k) ≃ P (k − < Y < k + ).
2 2
Dans la pratique lorsque n est très grand, cette correction n’est pas nécessaire. On
l’effectuera cependant si on souhaite une grande précision.
Remarque 13. Remplacer une loi binomiale par une loi normale simplifie considérablement
les calculs.
En effet les tables de la loi binomiale dépendent de deux paramètres et les valeurs de n dans
ces tables sont limitées supérieurement par 20. La loi normale, elle, après standardisation ne
dépend d’aucun paramètre .
4.5.10 Approximation de la loi de Poisson par la loi normale
On démontre qu’on peut aussi approcher la loi de Poisson par la loi normale pour les
grandes valeurs du paramètre de la loi de Poisson. La seule qui puisse convenir est celle qui
√
a même espérance et même variance. On approche donc la loi P(λ) par la loi N (λ, λ). En
pratique, cela s’applique dès que λ ≥ 16.
87
√
On approche la loi P(λ) par la loi N (λ, λ) dès que λ ≥ 16
Remarque 14. La loi de Poisson étant elle aussi une loi discrète, on peut avoir à appliquer
la correction de continuité.
4.5.11 Quelques exercices types
Exercice 4.5.5. Supposons qu’une tentative pour obtenir une communication téléphonique
échoue (par exemple, parce que la ligne est occupée) avec la probabilité 0.25 et réussisse avec
la probabilité 0.75. On suppose que les tentatives sont indépendantes les unes des autres.
Quelle est la probabilité d’obtenir la communication si l’on peut effectuer trois tentatives au
maximum ?
Solution : 3 essais
Nous nous intéressons à la variable X = « nombre de tentatives nécessaires pour obtenir la
communication », ce que l’on peut considérer comme le nombre d’essais à faire pour obtenir
le premier succès. X suit une loi géométrique de paramètre p = 0.75.
On cherche à déterminer P (X ≤ 3) = P (X = 1) + P (X = 2) + P (X = 3).
– On peut obtenir la communication au 1er essai. On a pour cela une probabilité

P (X = 1) = q 0 p1 = p = 0.75.
– On peut obtenir la communication au 2ème essai. On a pour cela une probabilité
P (X = 2) = q 1 × p = 0.25 × 0.75 = 0.1875.
– On peut obtenir la communication au 3ème essai. On a pour cela une probabilité
P (X = 3) = q 2 p = 0.252 × 0.75 = 0.0469.
Finalement la probabilité d’obtenir la communication en trois essais maximum est 0.75 +

0.1875 + 0.0469 = 0.9844 soit 98.5 %.
Exercice 4.5.6. Un fabricant de pièces de machine prétend qu’au plus 10% de ses pièces
sont défectueuses. Un acheteur a besoin de 120 pièces. Pour disposer d’un nombre suffisant
de bonnes pièces, il en commande 140. Si l’affirmation du fabricant est valable, quelle est la
probabilité que l’acheteur reçoive au moins 120 bonnes pièces ?
Bonnes pièces Appelons X la variable aléatoire correspondant au “nombre de bonnes

pièces dans le lot de 140 pièces”.
88
X prend ses valeurs entre 0 et 140. De plus pour chaque pièce, on n’a que deux éventua-
lités : elle est bonne ou elle est défectueuse. La probabilité qu’une pièce soit défectueuse est
0.1. Par conséquent elle est bonne avec la probabilité 0.9. On est donc dans une situation
type : X suit la loi binomiale B(140, 0.9) de paramètres n = 140 et p = 0.9.
On veut déterminer la probabilité que l’acheteur reçoive au moins 120 bonnes pièces
sur les 140, soit X ≥ 120. A priori, il nous faudrait calculer la somme des probabilités
P (X = 120) + P (X = 121) + · · · + P (X = 140), ce qui serait épouvantablement long. On
approxime donc la loi binomiale par une loi tabulée.
Comme n ≥ 30, np = 126 ≥ 15 et nq = 14, on pourra approcher la loi binomiale par une
loi normale. On choisit la loi normale qui a la même espérance et le même écart-type. Donc
X qui suit la loi B(140, 0.9) sera approchée par Y qui suit la loi N (126, 3.55).
Pour remplacer une loi discrète par une loi continue, il est préférable d’utiliser la correction
de continuité,
P (X ≥ 120) ≃ P (Y > 119.5).
Y −126
On se ramène enfin à la loi normale centrée réduite. On pose T = 3.55
, et
119.5 − 126
P (Y > 119.5) = P (T > ) = P (T > −1.83)
3.55
= P (T < 1.83) = 0.5 + Φ(1.83) = 0.97.
Conclusion : l’acheteur a 97 chances sur 100 de recevoir 120 bonnes pièces sur les 140
achetées.
Exercice 4.5.7. Les statistiques antérieures d’une compagnie d’assurances permettent de

prévoir qu’elle recevra en moyenne 300 réclamations durant l’année en cours. Quelle est la
probabilité que la compagnie reçoive plus de 350 réclamations pendant l’année en cours ?
Réclamations La variable X qui nous intéresse est le “nombre de réclamations reçues

pendant une année”. Il s’agit du nombre de réalisations d’un événement pendant un intervalle
de temps donné. X suit donc une loi de Poisson. Le nombre moyen de réalisations dans une
année est 300. Cette valeur moyenne est aussi le paramètre de la loi de Poisson. Donc X suit
la loi P(300).
89
On cherche à déterminer P (X > 350). Il n’y a pas de table de la loi de Poisson pour cette
valeur du paramètre. Il nous faut donc approcher X qui suit la loi de Poisson P(300) par Y
√
qui suit la loi normale de même espérance et de même écart-type, c’est-à-dire N (300, 300).
Ici aussi, on remplace une loi discrète par une loi continue. Il faut donc appliquer la
correction de continuité
P (X > 350) = P (X ≥ 351) ≃ P (Y > 350.5).
Y√−300
On se ramène finalement à la loi normale centrée réduite. On pose T = 300
.
350.5 − 300
P (Y > 350.5) = P (T > √ ) = P (T > 2.92) = 1 − Φ(2.92) = 0.5017.
300
La compagnie d’assurances a donc 50,17% de chances de recevoir plus de 350 réclamations

en un an.
Exercice 4.5.8. Le nombre moyen de clients qui se présentent à la caisse d’un supermarché
sur un intervalle de 5 minutes est de 10. Quelle est la probabilité qu’aucun client ne se
présente à la caisse dans un intervalle de deux minutes (deux méthodes possibles) ?
Solution n0 1 Considérons la variable aléatoire X = “nombre de clients se présentant

à la caisse dans un intervalle de deux minutes”. Nous reconnaissons une situation type et
la variable X suit une loi de Poisson. Vu qu’en moyenne 10 clients se présentent en 5 mn,
l’intensité α du processus est de 2 clients par minute, α = 2. Or le paramètre de la loi de
Poisson est αt0 , t0 étant ici 2 minutes. D’où λ = 4.
On cherche à calculer P (X = 0). D’après la formule du cours, P (X = 0) = e−λ = e−4 =

0.018.
Solution n0 2 Considérons à présent la question sous un autre angle en s’intéressant

au temps d’attente Y entre deux clients. Le cours nous dit que la loi suivie par une telle
variable est une loi exponentielle. Son paramètre α est l’intensité du processus de Poisson
soit ici α = 2. Y suit donc la loi Exp(2).
Sa fonction de densité est 2e−2x pour x > 0 exprimé en minutes. On en déduit que
∫ +∞
P (Y ≥ 2) = 2e−2x dx = [−e−2x ]+∞
2 = e−4 = 0.018.
2
90
Chapitre 5
Couples de variables aléatoires
5.1 Couples de variables aléatoires discrètes
5.1.1 Loi de probabilité conjointe
Considérons deux variables aléatoires discrètes X et Y . Il nous faut pour modéliser le

problème une fonction qui nous donne la probabilité que (X = xi ) en même temps que
(Y = yj ). C’est la loi de probabilité conjointe.
Définition 5.1.1. Soient X et Y deux variables aléatoires discrètes dont l’ensemble des
valeurs possibles sont respectivement {x1 , x2 , . . . , xn } et {y1 , y2 , . . . , ym }. Associer à chacune
des valeurs possibles (xi , yj ) du couple (X, Y ), la probabilité f (xi , yj ), c’est définir la loi de
probabilité conjointe ou fonction de densité conjointe des variables aléatoires X et Y ,
f (xi , yj ) = P ((X = xi ) et (Y = yj )).
Le couple (X, Y ) s’appelle variable aléatoire à deux dimensions et peut prendre m × n

valeurs.
Proposition 5.1.1.
1. Pour tout i = 1, 2, . . . , n et j = 1, 2, . . . , m, 0 ≤ f (xi , yj ) ≤ 1.

∑n ∑m
2. f (xi , yj ) = 1.
i=1 j=1
On peut représenter graphiquement f sous forme d’un diagramme en bâtons en trois

dimensions.
91
5.1 CVAD CHAPITRE 5. COUPLES DE VARIABLES ALÉATOIRES
Exemple 5.1.2. Soit X le nombre de piques obtenus lors du tirage d’une carte dans un
jeu ordinaire de 52 cartes et Y le nombre de piques obtenus dans un deuxième tirage, la
première carte n’étant pas remise. X et Y ne prennent que les valeurs 0 (pas de pique) ou 1
(un pique).
Détermination de la loi du couple (X, Y ).

39 38 13 39
f (0, 0) = × = 0.56, f (1, 0) = × = 0.19,
52 51 52 51
39 13 13 12
f (0, 1) = × = 0.19, f (1, 1) = × = 0.06.
52 51 52 51
On vérifie que la somme de ces valeurs est égale à 1.
On représente f sous forme d’un diagramme en bâtons en trois dimensions.
f(x,y)
f(0,0)=0.56
0 1
y
0
1
x
5.1.2 Loi de probabilité marginale
Lorsqu’on connaît la loi conjointe des variables aléatoires X et Y , on peut aussi s’intéresser
à la loi de probabilité de X seule et de Y seule. Ce sont les lois de probabilité marginales.
Définition 5.1.2. Soit (X, Y ) une variable aléatoire à deux dimensions admettant comme
loi de probabilité conjointe f (x, y). Alors, les lois de probabilité marginales de X et Y sont
définies respectivement par
∑
m
fX (xi ) = P (X = xi ) = f (xi , yj ) pour i = 1, 2, . . . , n,
j=1
∑
n
fY (yj ) = P (Y = yi ) = f (xi , yj ) pour j = 1, 2, . . . , m.
i=1
92
Si la loi de probabilité conjointe du couple (X, Y ) est présentée dans un tableau à double
entrée, nous obtiendrons la loi de probabilité marginale fX de X en sommant les f (xi , yj ),
suivant l’indice j (par colonnes) et celle de Y , fY , en sommant les f (xi , yj ) suivant l’indice
i (par lignes).
Exemple 5.1.3. Lois marginales de l’exemple 5.1.2.
X\Y Y = y1 = 0 Y = y2 = 1 fX (xi )
X = x1 = 0 0.56 0.19 0.75
X = x2 = 1 0.19 0.06 0.25
fY (yj ) 0.75 0.25 1.00
Remarque 15. Le couple (X, Y ) et les deux variables X et Y constituent trois variables
aléatoires distinctes. La première est à deux dimensions, les deux autres à une dimension.
5.1.3 Loi de probabilité conditionnelle
Nous avons vu dans le paragraphe précédent comment déterminer la probabilité de réali-

sation de deux événements lorsqu’ils sont dépendants l’un de l’autre. Pour cela, nous avons
introduit la notion de probabilité conditionnelle en posant
P (B ∩ A)
P (B|A) = .
P (A)
La notion équivalente dans le cas d’un couple de variables aléatoires est celle de loi de
probabilité conditionnelle permettant de mesurer la probabilité que X soit égale à une valeur
donnée lorsqu’on connaît déjà la valeur que prend Y .
Définition 5.1.3. Soit la variable aléatoire (X, Y ) à deux dimensions admettant comme loi
conjointe f (x, y) et comme lois marginales fX (x) et fY (y). Si l’on suppose que la probabilité
que X prenne la valeur xi n’est pas nulle, alors la probabilité conditionnelle de (Y = yj )
sachant que (X = xi ) s’est réalisé est définie par
f (xi , yj )
f (yj |xi ) = .
fX (xi )
Les probabilités f (yj |xi ) associées aux différentes valeurs possibles yj de Y constituent la loi
de probabilité conditionnelle de Y .
93
De même, si l’on suppose que la probabilité que Y prenne la valeur yj n’est pas nulle,
alors la probabilité conditionnelle de (X = xi ) sachant que (Y = yj ) s’est réalisé est définie
par
f (xi , yj )
f (xi |yj ) = .
fY (yj )
Les probabilités f (xi |yj ) associées aux différentes valeurs possibles xi de X constituent
la loi de probabilité conditionnelle de X.
Espérance conditionnelle, cas discret :

Soit (X; Y ) un couple aléatoire discrèt tels que E(|Y |) < ∞ et P (X = xi ) ̸= 0 pour un
certain i. Espérance conditionnelle de Y sachant l’événement (X = xi ) est,
∑
m ∑
m
f (xi , yj )
E(Y |X = xi ) = yj f (yj |xi ) = yj pour i = 1, 2, . . . , n.
j=1 j=1
fX (xi )
De la même manière on définie l’Espérance conditionnelle de X sachant l’événement (Y = yj )

par,
∑
n ∑
n
f (xi , yj )
E(X|Y = yj ) = xi f (xi |yj ) = xi pour j = 1, 2, . . . , m.
i=1 i=1
fY (yj )
tels que E(|X|) < ∞ et P (Y = yj ) ̸= 0 pour un certain j.
5.1.4 Cas de variables aléatoires indépendantes
Lorsque deux variables aléatoires X et Y sont indépendantes, la loi conditionnelle de X,

pour toute valeur de Y , est identique à la loi marginale de X et lorsque la loi conditionnelle
de Y , pour toute valeur de X, est identique à la loi marginale de Y . Autrement dit,
Proposition 5.1.4. Soit (X, Y ) une variable aléatoire à deux dimensions admettant comme
loi de probabilité conjointe la fonction f (x, y) et comme lois de probabilité marginales fX (x)
et fY (y). Les variables aléatoires X et Y sont indépendantes si et seulement si les probabilités
conjointes sont égales au produit des probabilités marginales, f (xi , yj ) = fX (xi )×fY (yj ) pour
toutes les valeurs (xi , yj ).
Pour conclure que deux variables ne sont pas indépendantes, il suffit de trouver une valeur
du couple (X, Y ) pour laquelle la relation précédente n’est pas satisfaite.
94
5.2 CVAC CHAPITRE 5. COUPLES DE VARIABLES ALÉATOIRES
Exemple 5.1.5. Dans l’exemple du tirage de cartes, nous savons, par exemple que P ((X =
0) et (Y = 1)) = f (0, 1) = 0.19, alors que P (X = 0) × P (Y = 1) = fX (0) × fY (1) =
0.75 × 0.25 = 0.188.
Conclusion : les variables X et Y sont dépendantes, ce qui paraît cohérent étant donné
que le tirage était effectué sans remise.
5.2 Couples de variables aléatoires continues
Dans le cas de deux variables continues X et Y , le couple (X, Y ) est dit continu.
5.2.1 Fonction de densité de probabilité conjointe
La distribution de probabilité conjointe de X et de Y est décrite par une fonction de

densité de probabilité conjointe f (x, y) définie pour chaque valeur (x, y) du couple (X, Y ).
La fonction f détermine une surface au-dessus de l’ensemble des valeurs (x, y).
On a P ((X, Y ) ∈ D) = volume sous la surface représentative de f et au-dessus du

domaine D du plan (xOy).
Dans le cas où D est un rectangle [c, d] × [u, v],

∫
P ((c < X ≤ d) et (u < Y ≤ v)) = f (x, y) dx dy.
[c,d]×[u,v]
Proposition 5.2.1.
1. Pour tout couple (x, y) ∈ R2 , f (x, y) ≥ 0.
∫
2. R2 f (x, y) dx dy = 1.
3. Il en résulte qu’une densité de probabilité conjointe est une fonction intégrable au sens
de Lebesgue sur R2 .
5.2.2 Densité de probabilité marginale
De même que pour les couples de variables aléatoires discrètes, on définit les fonctions
densités de probabilité marginales et conditionnelles. Pour les définir dans le cas continu, il
suffit de remplacer les sommes du cas discret par des intégrales.
95
5.2 CVAC CHAPITRE 5. COUPLES DE VARIABLES ALÉATOIRES
Définition 5.2.1. Soit (X, Y ) une variable aléatoire continue à deux dimensions admettant
comme densité de probabilité conjointe la fonction f (x, y). Alors, les densités de probabilité
marginales de X et Y sont définies respectivement par
∫
fX (x) = f (x, y) dy pour x ∈ R,
∫R
fY (y) = f (x, y) dx pour y ∈ R.
R
5.2.3 Variables dépendantes
Définition 5.2.2. Soit la variable aléatoire (X, Y ) à deux dimensions admettant comme loi
conjointe f (x, y) et comme lois marginales fX (x) et fY (y). Si l’on suppose que la probabilité
que X prenne la valeur x n’est pas nulle, alors la probabilité conditionnelle de (Y = y)
sachant que (X = x) s’est réalisé est définie par
f (x, y)
f (y|x) = .
fX (x)
Les probabilités f (y|x) associées aux différentes valeurs possibles y de Y constituent la loi
de probabilité conditionnelle de Y .
De même, si l’on suppose que la probabilité que Y prenne la valeur y n’est pas nulle,
alors la probabilité conditionnelle de (X = x) sachant que (Y = y) s’est réalisé est définie
par
f (x, y)
f (x|y) = .
fY (y)
Les probabilités f (x|y) associées aux différentes valeurs possibles x de X constituent la
loi de probabilité conditionnelle de X.
Espérance conditionnelle, cas continu :

Soit (X; Y ) un couple aléatoire continu tels que E(|Y |) < ∞ et fX (x) ̸= 0. Espérance
conditionnelle de Y sachant l’événement (X = x) est,
∫ ∫
f (x, y)
E(Y |X = x) = yf (y|x) = y dy.
R R fX (x)
De la même manière on définie l’Espérance conditionnelle de X sachant l’événement (Y = y)
par, ∫ ∫
f (x, y)
E(X|Y = y) = xf (x|y) = x dx.
R R fY (y)
tels que E(|X|) < ∞ et fY (y) ̸= 0.
96
5.3 Espérance et Variance CHAPITRE 5. COUPLES DE VARIABLES ALÉATOIRES
5.2.4 Variables indépendantes
Proposition 5.2.2. Deux variables continues X et Y sont indépendantes si et seulement si

la fonction de densité de probabilité conjointe est égale au produit des fonctions de densité
marginales.
Autrement dit, pour tout couple (x, y) ∈ R2 ,
f (x, y) = fX (x)fY (y).
Dans ce cas, le théorème de Fubini-Tonelli donne

∫
P ((c < X ≤ d) et (u < Y ≤ v)) = f (x, y) dx dy
[c,d]×[u,v]
(∫ d ) (∫ v )
= fX (x) dx fY (y) dy .
c u
5.3 Combinaisons de plusieurs variables aléatoires (Es-

pérance et Variance)
1. Somme et différence.
Dans tous les cas,
E(X + Y ) = E(X) + E(Y ),

E(X − Y ) = E(X) − E(Y ).
Dans le cas de variables indépendantes :
V ar(X + Y ) = V ar(X) + V ar(Y ),

V ar(X − Y ) = V ar(X) + V ar(Y ).
2. Produit. Dans le cas de variables indépendantes,
E(XY ) = E(X)E(Y ).
3. Conséquence. Dans le cas de variables indépendantes,
ξX+Y = ξX ξY .
97
5.3 Espérance et Variance CHAPITRE 5. COUPLES DE VARIABLES ALÉATOIRES
5.3.1 Covariance de deux variables aléatoires
Lorsque deux variables aléatoires ne sont pas indépendantes, il existe une caractéristique
qui permet de déterminer l’intensité de leur dépendance. C’est la covariance.
Définition 5.3.1. La covariance de deux variables aléatoires X et Y est définie par
Cov(X, Y ) = E[(X − E(X)(Y − E(Y )] = E(XY ) − E(X)E(Y ).
Dans le cas où X et Y sont des variables aléatoires discrètes on donne E(X.Y ) égale :
∑ ∑
E (X · Y ) = x · y · P (X = x ∩ Y = y)
x∈X(Ω) y∈Y (Ω)
Dans le cas où X et Y sont des variables aléatoires continues on donne E(X.Y ) égale :
∫
E (X · Y ) = xyf (x, y) dx dy
R2
Le coefficient de corrélation linéaire de deux variables aléatoires X et Y est définie

par :
Cov(X, Y )
ρX,Y = .
σ(X)σ(Y )
Proposition 5.3.1.
1. Si deux variables aléatoires sont indépendantes, leur covariance est nulle.
2. Attention : La réciproque n’est pas vraie. Deux variables de covariance nulle ne sont
pas obligatoirement indépendantes.
3. Si deux variables aléatoires sont dépendantes,
E(XY ) = E(X)E(Y ) + Cov(X, Y ),

V ar(X + Y ) = V ar(X) + V ar(Y ) + 2Cov(X, Y )
98

Cours Proba PDF

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours Proba PDF

Transféré par

Droits d'auteur :

Formats disponibles

.

Table des matières

1.1 Historique et définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.2 Statistique à une variable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.2.2 Représentation des données . . . . . . . . . . . . . . . . . . . . . . . 9

1.2.3 Caractères de position et de dispersion . . . . . . . . . . . . . . . . . 18

1.2.4 Caractères de Dispersion . . . . . . . . . . . . . . . . . . . . . . . . . 31

1.3 Statistique à deux Variables . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

1.3.1 Représentation graphique - Nuage de points . . . . . . . . . . . . . . 36

1.3.2 Caractéristique des séries marginales . . . . . . . . . . . . . . . . . . 40

1.3.3 Ajustement affine par la méthode des moindres carrés . . . . . . . . . 42

1.3.4 Coefficient de corrélation . . . . . . . . . . . . . . . . . . . . . . . . . 45

2.1 Analyse combinatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

2.1.2 Principe de Multiplication . . . . . . . . . . . . . . . . . . . . . . . . 48

2.1.3 Arrangements sans répétition . . . . . . . . . . . . . . . . . . . . . . 48

2.1.4 Arrangements avec répétition . . . . . . . . . . . . . . . . . . . . . . 49

2.1.5 Permutation sans répétition . . . . . . . . . . . . . . . . . . . . . . . 50

2.1.6 Permutation avec répétition . . . . . . . . . . . . . . . . . . . . . . . 50

2.1.7 Combinaisons sans répétition . . . . . . . . . . . . . . . . . . . . . . 51

2.1.9 Coefficients binomiaux . . . . . . . . . . . . . . . . . . . . . . . . . . 52

2.2 Notions de Probabilités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

2.2.1 Vocabulaires Probabilistes . . . . . . . . . . . . . . . . . . . . . . . . 54

2.2.2 Langage des événements . . . . . . . . . . . . . . . . . . . . . . . . . 55

2.2.3 Probabilité d’un événement aléatoire . . . . . . . . . . . . . . . . . . 55

2.2.4 Propriétés des probabilités d’un événement aléatoire . . . . . . . . . . 56

2.3 Probabilité conjointe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

2.3.1 Événements indépendants . . . . . . . . . . . . . . . . . . . . . . . . 58

2.3.2 Événements dépendants - Probabilité conditionnelle . . . . . . . . . . 58

3.2 Variables aléatoires discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

3.2.1 Représentation graphique de la distribution de probabilité . . . . . . 64

3.2.2 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . . . . 64

3.3 Variables aléatoires continues . . . . . . . . . . . . . . . . . . . . . . . . . . 65

3.3.1 Fonction de densité de probabilité . . . . . . . . . . . . . . . . . . . . 66

3.3.2 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . . . . 67

3.3.3 Espérance mathématique d’une distribution de probabilité . . . . . . 68

3.3.4 Variance d’une distribution de probabilités . . . . . . . . . . . . . . . 69

3.3.5 Loi d’une fonction de variable aléatoire . . . . . . . . . . . . . . . . . 70

3.3.6 Fonction caractéristique d’une distribution de probabilité . . . . . . . 71

3.3.7 Propriétés de l’espérance mathématique et de la variance . . . . . . . 72

4.1 Lois Discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

4.1.1 Loi uniforme discrète . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

4.2 Loi Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

4.2.1 Loi Binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

4.3 Loi géométrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

4.3.1 Situation concrète . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

4.3.2 Distribution de probabilités . . . . . . . . . . . . . . . . . . . . . . . 79

4.3.3 Paramètres descriptifs de la distribution . . . . . . . . . . . . . . . . 79

4.4 Loi de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

4.4.1 Paramètres descriptifs de la distribution . . . . . . . . . . . . . . . . 81

4.5 Lois Continues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

4.5.1 Loi Uniforme Continue . . . . . . . . . . . . . . . . . . . . . . . . . 82

4.5.2 Loi Exponentielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

4.5.3 Loi de probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

4.5.4 Loi de Cauchy C(m, a) . . . . . . . . . . . . . . . . . . . . . . . . . . 84

4.5.5 Loi Normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

4.5.6 Paramètre descriptifs de la distribution . . . . . . . . . . . . . . . . . 84

4.5.7 Propriétés de la distribution normale . . . . . . . . . . . . . . . . . . 85

4.5.8 Approximation de la loi binomiale par la loi normale . . . . . . . . . 87

4.5.9 La correction de continuité . . . . . . . . . . . . . . . . . . . . . . . . 87

4.5.10 Approximation de la loi de Poisson par la loi normale . . . . . . . . . 87

4.5.11 Quelques exercices types . . . . . . . . . . . . . . . . . . . . . . . . . 88

5 Couples de variables aléatoires 91

5.1.1 Loi Conjointe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91