Statap Processus

Statistique Appliquée et Processus Aléatoires
Luc Deneire
Iannis Aliferis
École Polytechnique de l’Université de Nice – Sophia Antipolis

Polytech’Nice Sophia
Département d’Électronique, 3e année, 2012–2013
http://jalon.unice.fr/public/pqg729/
deneire@unice.fr
École Polytechnique de l’UNSA Département d’Électronique
Polytech’Nice-Sophia 3e année
Ce document contient une grande partie des informations données au cours et aux TDs. Cela
signifie qu’il n’est en aucun cas complet (auto-suffisant) ; une grande quantité d’information (com-
mentaires, explications, diagrammes, démonstrations etc.) est donnée pendant les séances, orale-
ment ou à l’aide du tableau, en plus de documents projetés en cours.
Les statistiques, c’est comme le bikini : ça donne des idées mais ça cache l’essentiel !
Coluche
Les statistiques sont vraies quant à la maladie et fausses quant au malade ; elles sont vraies
quant aux populations et fausses quant à l’individu.
Léon Schwartzenberg
Statistique Appliquée et Processus Aléatoires 2

Table des matières
1 Introduction 7
1.1 Les probabilités : histoire et utilité . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1.1 Un très bref historique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1.2 De l’utilité des probabilités et de la statistique . . . . . . . . . . . . . . . . 8
2 Expériences et espace probabilisé 11

2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2.1 Expérience aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2.2 Rappels sur les ensembles . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3 Espace probabilisé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.4 Probabilité conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.4.1 Les probabilités conditionnelles définissent un nouvelle tribu . . . . . . . . . 19
2.4.2 Théorème de probabilité totale . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.4.3 Théorème de Bayes et interférence bayesienne . . . . . . . . . . . . . . . . . 22
2.4.4 Indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.4.5 Quelques stratégies pour calculer des probabilités . . . . . . . . . . . . . . . 24
2.4.6 Quelques rappels sur la combinatoire . . . . . . . . . . . . . . . . . . . . . . 25
2.4.7 Bibliographie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3 Variables Aléatoires 31
3.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.2 Variable aléatoire discrète . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.2.1 Fonction de probabilité ou masse de probabilité . . . . . . . . . . . . . . . . 32
3.2.2 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.3 Les principales lois liées à des variables aléatoires discrètes . . . . . . . . . . . . . . 35
3.3.1 Variable de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.3.2 Variable aléatoire binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.3.3 Variable aléatoire géométrique . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.3.4 Variable aléatoire de Pascal . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.3.5 Variable aléatoire de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.4 Variable aléatoire continue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.4.1 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.4.2 Densité de probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.4.3 Quelques variables continues . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.4.4 v.a. Laplacienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.4.5 v.a. de Cauchy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.4.6 v.a. de Rayleigh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.5 Variables aléatoires conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.5.1 Variable aléatoire conditionnée sur un événement . . . . . . . . . . . . . . . 51
3.5.2 Variable aléatoire conditionnelle discrète . . . . . . . . . . . . . . . . . . . . 52
3
3.5.3 Variable aléatoire conditionnelle continue . . . . . . . . . . . . . . . . . . . 53

3.6 Grandeurs caractéristiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.6.1 Le Mode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.6.2 La Médiane et les Quantiles . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.7 Espérance mathématique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.7.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.7.2 Propriétés de l’espérance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.7.3 Variance et Ecart-type . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.7.4 Espérances et variances des principales variables aléatoires . . . . . . . . . . 59
3.7.5 Borne de Chebyshev . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.8 Fonction d’une variable aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
3.9 Couple de variables aléatoires et v.a. multiples . . . . . . . . . . . . . . . . . . . . 75
3.9.1 Cas multi-dimensionnel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
3.10 Somme de variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
3.11 Espérances itérées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
3.12 Covariance et corrélation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
3.13 Estimateur des moindres carrés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
3.14 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
4 Statistique descriptive 115

4.1 Qu’est-ce qu’une statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
4.2 Paramètres statistiques d’un échantillon . . . . . . . . . . . . . . . . . . . . . . . . 116
4.2.1 Exemple : notes TP Élec 2006-2007 . . . . . . . . . . . . . . . . . . . . . . 116
5 Échantillonnage 121
5.1 Objectif de la Statistique (Inférentielle) . . . . . . . . . . . . . . . . . . . . . . . . 121
5.1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
5.1.2 L’échantillonnage : une expérience aléatoire . . . . . . . . . . . . . . . . . . 121
5.2 Statistiques d’un échantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
5.2.1 Cas particulier du caractère qualitatif (les proportions) . . . . . . . . . . . 123
5.3 Statistique inférentielle : feuille de route . . . . . . . . . . . . . . . . . . . . . . . . 123
5.3.1 Théorème limite central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
5.4 Théorie d’échantillonnage – un échantillon . . . . . . . . . . . . . . . . . . . . . . . 124
5.4.1 Distribution de la moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
5.5 Théorie d’échantillonnage – deux échantillons . . . . . . . . . . . . . . . . . . . . . 126
5.6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
6 Inférence statistique 129

6.1 Estimation – intervalles de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . 129
6.1.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
6.1.2 Estimation de la moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
6.1.3 Estimation de la variance (un échantillon) . . . . . . . . . . . . . . . . . . . 130
6.1.4 Estimation de la proportion (= moyenne) . . . . . . . . . . . . . . . . . . . 131
6.1.5 Estimation du rapport des variances (deux échantillons) . . . . . . . . . . . 131
6.2 Tests d’hypothèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
6.2.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
6.2.2 Types et probabilités d’erreur . . . . . . . . . . . . . . . . . . . . . . . . . . 132
6.2.3 Tests : la procédure à suivre . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
6.2.4 Test sur une moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
6.3 Test sur une variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
6.3.1 Test bilatéral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
6.3.2 Test unilatéral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
6.4 Test sur une proportion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
6.5 Récapitulatif : un échantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134

6.5.1 Statistiques d’un échantillon : moyenne . . . . . . . . . . . . . . . . . . . . 134

6.5.2 Statistiques d’un échantillon : proportion, variance . . . . . . . . . . . . . . 135
6.5.3 Estimation / tests : un échantillon . . . . . . . . . . . . . . . . . . . . . . . 135
6.6 Intervalles et tests avec deux échantillons . . . . . . . . . . . . . . . . . . . . . . . 135
6.6.1 Distribution de la différence des moyennes . . . . . . . . . . . . . . . . . . 135
6.6.2 Distribution du rapport des variances - rappel #5.5 . . . . . . . . . . . . . 137
6.7 Récapitulatif : deux échantillons . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
6.7.1 Statistiques de deux (grands) échantillons : moyenne . . . . . . . . . . . . . 138
6.7.2 Statistiques de deux (petits) échantillons : moyenne . . . . . . . . . . . . . 138
6.7.3 Statistiques de deux échantillons : proportion, variance . . . . . . . . . . . . 138
6.7.4 Estimation / tests : deux échantillons . . . . . . . . . . . . . . . . . . . . . 139
6.8 Tests : au delà du seuil de signification . . . . . . . . . . . . . . . . . . . . . . . . . 139
6.8.1 Seuil descriptif (p-value) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
6.8.2 Seuil descriptif (p-value) : exemple . . . . . . . . . . . . . . . . . . . . . . . 139
6.9 Test du χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
6.9.1 Définition – cadre général . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
6.9.2 Test d’adéquation (ou d’ajustement) . . . . . . . . . . . . . . . . . . . . . . 140
6.9.3 Test d’indépendance / tableau de contingence . . . . . . . . . . . . . . . . . 141
6.9.4 Test d’indépendance : correction de Yates . . . . . . . . . . . . . . . . . . . 141
6.9.5 Test d’homogénéité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
6.9.6 Test de proportions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
6.9.7 Test de proportions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
6.9.8 Test de proportions sans estimation de paramètres . . . . . . . . . . . . . . 143
6.9.9 Test d’adéquation à la loi normale (Shapiro–Wilk) . . . . . . . . . . . . . . 143
6.10 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
Appendices 147
A Aide-mémoire 149
A.1 Quelques formules utiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
A.2 Théorie d’échantillonnage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
A.2.1 Une population – un échantillon . . . . . . . . . . . . . . . . . . . . . . . . 149
A.2.2 Deux populations – deux échantillons indépendants . . . . . . . . . . . . . . 149
A.2.3 Deux populations – deux échantillons appariés . . . . . . . . . . . . . . . . 149
A.3 Intervalles de confiance / tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149

Syllabus
Ce polycopié couvre le cours de “Statistique Appliquée”, donné en ELEC3, comprenant la partie
cours magistral ainsi que les exercices donnés en travaux dirigés.
Outre qu’il convient (malheureusement !) de rappeler que la présence aux cours et travaux
dirigés est obligatoire, il est utile d’indiquer que les matières enseignées dans ces cours demandent
un travail régulier qui ne peut pas être compensé par un travail, même sérieux, sur un temps court
avant les DS (devoirs surveillés).
De manière à aider les étudiants motivés que vous êtes à fournir ce travail régulier, les travaux
dirigés devront être impérativement préparés chaque semaine. A l’issue du TD, un DM sur machine
vous sera demandé (via l’Environnement Numérique de Travail (ENT)) et noté.
D’autre part, un devoir surveillé sera organisé pour le cours de Statistiques Appliquées, a priori
le 9 novembre, un dernier DS sera organisé en janvier, portant sur l’entièreté de la matière.
Le contrôle continu comptera pour 34 % de la note et les DS pour 66 % de la note

Chapitre 1
Introduction
1.1 Les probabilités : histoire et utilité

1
Les sciences “traditionnelles”, et en particulier les sciences mathématiques et de l’ingénieur,
ont été très longtemps dominées par une vision déterministe du monde. C’est probablement la pré-
dominance de cette vision qui explique la réticence de nombre d’étudiants aux cours de probabilités
et de processus aléatoires.
1.1.1 Un très bref historique

Cependant, cette vision déterministe a été récemment (enfin, au 17ème siècle !) battue en
brèche. En effet, si les aspects calcul de “chance” liés au jeux (de dés par exemple) sont présents
depuis l’antiquité, entre autres avec Aristote, l’utilisation des aspects aléatoires pour les sciences
sociales et plus tard pour les sciences physiques et sciences de l’ingénieur a réellement démarré à
la fin du 18ème siècle.
Au 17ème siècle, toujours liées au jeu, sont apparues les premières théories des probabilités,
avec Pascal et Fermat, qui ont cependant été précédés par Gallilée pour un problème de jet de
dés. Sur ce même sujet, Pascal et Fermat répandent une “théorie des jeux de dés” tandis qu’un
peu plus tard Bernoulli, outre sa contribution majeure au calcul combinatoire, introduit la célèbre
“loi des grands nombres”. Cette loi, qui indique que quand on répète un grand nombre de fois une
expérience aléatoire, la moyenne de l’issue de celle-ci tend vers une constante, est à la base de la
notion d’espérance mathématique et a, entre autres, été utilisée par Einstein pour expliquer
le comportement macroscopique du mouvement brownien.
Cette même loi des grands nombres, qui introduit la notion de moyenne statistique, donne un
argument à certains mathématiciens de l’époque qui considèrent que cette branche des mathéma-
tiques est plus un jeu qu’une mathématique sérieuse 2 . Même Laplace, qui en 1814 a publié une
“théorie analytique des probabilités”, considère que les phénomènes aléatoires ne le sont qu’en ap-
parence, que leur aspect aléatoire est du à la méconnaissance du phénomène et que les probabilités
sont un outil pour pallier cette méconnaissance.
D’autre part, la probabilité d’un événement peut dépendre de son environnement. En effet, si
je vous demande la probabilité qu’il pleuve maintenant dans le désert du Sahara, vous me donnerez
un nombre très petit. Par contre, si je vous demande la probabilité qu’il pleuve dans le Sahara alors
qu’il y pleuvait il y a une minute, vous donnerez un nombre beaucoup plus grand. Cette notion
1. Ces quelques notes éparses ont été collectées “sur internet”, mais également sur base d’articles de journaux
scientifiques, par exemple de la série “Journal Électronique d’Histoire des Probabilités et de la Statistique” publiée
par l’EHESS et les universités de Paris 6 et 7, en particulier le numéro consacré à “Enseigner le hasard ?” de décembre
2006.
2. Reprenant [?] : Ainsi armés de la loi forte des grands nombres, les enseignants de mathématiques vont-ils
pouvoir monter au front de l’aléatoire et de la probabilité en toute sécurité... les fréquences “tendent” vers leur
probabilité... circulez, il n’y a rien d’autre à voir !
7
de probabilité conditionnelle a été introduite par Bayes, également au dix-huitième siècle, et

est fondamentale dans toutes les disciplines ayant trait à l’aléatoire.
Enfin, et pour compléter quelque peu le paysage théorique des probabilités, si on considère par
exemple que la tension aux bornes d’une résistance est aléatoire, cette tension est de toute évidence
une quantité qui peut varier continument, contrairement au résultat d’un jeu de dés, qui est une
quantité discrète. Pour prendre en compte les aspects aléatoires liés aux grandeurs continues, il
faut avoir recours à la théorie de la mesure et donc de l’intégration, ici les contributeurs sont Borel,
Hilbert, Lebesgue jusque Kolmogorov, qui précisa l’axiomatique actuelle des probabilités.
1.1.2 De l’utilité des probabilités et de la statistique

L’utilité des probabilités, en dehors du domaine des jeux, est pour la première fois reconnue (en
France) par Condorcet, qui veut les appliquer à l’étude des phénomènes économiques et sociaux
et introduit la “mathématique sociale”. Une des grandes contributions de Condorcet est l’idée
qu’au delà de la notion de moyenne statistique, qui permet de modéliser les phénomènes, il faut
introduire la notion de risque. Toujours cité de [?] : “l’éducation à l’ALEATOIRE, ..., devrait avoir
pour but fondamental la prise de conscience que toute DÉCISION s’accompagne d’un RISQUE,
mais que ce risque peut être évalué ”. Cette notion essaie de répondre à la question suivante :
si un événement a une probabilité “faible” d’occurrence, à quel moment, pour quelle valeur de
probabilité peut-on considérer que cet événement est impossible, en d’autre termes, quelle est le
risque qu’il apparaisse.
Dans ce cadre, les notions de probabilité conditionnelle et de risque sont également liées à
deux concepts très importants : l’information et l’entropie, bien connue des physiciens et des
thermodynamiciens. Dans ces domaines, le recours aux théories de l’aléatoire est massif, et la
seule manière d’obtenir des résultats probants.
Donc, outre les sciences sociales (économie, psychologie, ...) deux domaines scientifiques fon-
damentaux ne peuvent rien sans l’outil probabiliste : la mécanique quantique et la théorie de
l’information.
Dans la mécanique quantique, un des principes importants est le principe d’incertitude d’Hein-
seberg. Ce principe connaît deux déclinaisons : soit une particule (un électron par exemple, mais
tout autre corps suit la même loi)
1. on ne peut pas connaître simultanément et parfaitement sa vitesse et sa position, soit, si on
note ∆v l’indétermination sur sa vitesse et ∆x l’indétermination sur sa position, on a
h
m∆v.∆x ≥
4π
où h est la constante de Planck.
2. on ne peut pas mesurer parfaitement son énergie en un temps fini, soit, si on note ∆E
l’imprécision sur la mesure d’énergie et ∆T le temps pris pour mesurer l’énergie, on a
h
∆E.∆t ≥ .
4π
Ce principe en lui-même indique la nature fondamentalement non déterministe du monde, et définit

les limites au-delà desquelles la physique classique (déterministe) n’est plus applicable.
Dans la théorie de l’information et de la communication (sans laquelle votre téléphone portable
n’existerait pas !), on s’intéresse aux données reçues, au canal de transmission et par conséquent
à la source des données. Par définition, un information est quelque chose qui est a priori (avant
de recevoir cette information) inconnu. Il y a donc bien une notion aléatoire ! La source est donc,
du point de vue du récepteur, un appareil qui produit des événements aléatoires. Ces événements
sont transmis sur un canal de transmission (l’air par exemple) qui a une certaine capacité (on ne
peut pas transmettre 1 terabit par seconde en WiFi). Cette capacité est également une quantité
aléatoire, puisqu’aux signaux envoyés s’ajoute du bruit (et éventuellement de la distorsion). Ce

bruit, provenant de l’agitation des particules dans les composants électroniques, est fondamentale-
ment aléatoire, et les caractéristiques (puissance par exemple) du bruit et de la distorsion peuvent
également être aléatoires.
Pour terminer cette brève introduction, les aspects aléatoires sont fondamentaux dans nombre
de disciplines scientifiques, et en particulier dans les sciences de l’ingénieur. Les probabilités,
statistiques et processus aléatoires vont vous servir à :
1. Modéliser le monde incertain. L’exemple le plus simple de paramètre de modèle étant
la moyenne, que nous introduirons comme étant une espérance mathématique. Supposons
par exemple qu’une usine fabrique des générateurs de tension continue, la précision de ces
générateurs n’est évidemment pas parfaite (et est donc “aléatoire”). Cependant, on désire la
caractériser (la modéliser) : on fera un ensemble de mesures, et la théorie des probabilités
et de la statistique nous aidera à caractériser la qualité de la fabrication en donnant par
exemple la moyenne de la tension de sortie et une mesure de sa variabilité (par exemple, 10
Volts avec une variation de plus ou moins 0.1 V dans 95 % des cas).
Dans les exemples plus complexes, la tension de bruit aux bornes d’une résistance en circuit
ouvert, bruit du à l’agitation moléculaire, peut-être également modélisé par une variable
aléatoire, de moyenne nulle, mais avec une distribution qui peut évoluer à différents instants
de mesure (on pourrait observer à chaque instant une tension différente).
2. Quantifier un risque Les cours en bourse peuvent également être modélisés par des proces-
sus aléatoires. Cependant, en tant qu’investisseur, si vous observez qu’une action particulière
a tendance à voir sa valeur augmenter, il existe malgré tout un risque non nul que celle-ci
baisse au cours du temps. La théorie des probabilités (et le calcul stochastique par exemple)
permet de quantifier ce risque.


Chapitre 2
Expériences et espace probabilisé
2.1 Introduction
Dans bon nombre de phénomènes impliquant un grand nombre d’événements (appels télépho-
niques, jeux de hasard, thermodynamique, émission d’électrons, évolution de populations, ...), on
observe l’apparition de moyennes. Par exemple, si on joue à pile ou face avec une pièce non
truquée, à la longue, la proportion de pile et de face est de 0.5.
L’objectif de la théorie des probabilités est de décrire et de prédire ces moyennes, en termes de
probabilité des événements. Soit un événement A, qui est l’issue d’une expérience aléatoire (par
exemple un résultat “pile” d’un lancer de pièce), on associe un nombre à cet événement, ce nombre
est la probabilité de cet événement qu’on note P(A). L’interprétation de cette probabilité peut être
la suivante : si on réalise l’expérience n fois, et que l’événement A est l’issue de l’expérience nA
fois, alors, il y a de grandes chances que le rapport nnA ' P(A), pour n grand. Cette interprétation
peut paraître relativement imprécise, mais c’est à peu près la seule valable que l’on aie à notre
disposition. Une fois cette définition et cette interprétation acceptée, en utilisant la théorie des
probabilités, on peut en déduire des résultats pertinents.
2.2 Définitions
2.2.1 Expérience aléatoire
Définition 2.1 Expérience aléatoire
Une expérience aléatoire est une expérience dont l’issue est incertaine (on ne peut savoir avec
certitude quelle sera le résultat de l’expérience).
Par exemple, un jet de dé est une expérience aléatoire. On notera, dans les exemples du cours,
que la définition de l’expérience aléatoire est extrêmement importante, et peut être très délicate.
Une fois cette notion d’expérience aléatoire acceptée, on peut observer les résultats de cette
expérience aléatoire, et on parlera de l’issue élémentaire de cette expérience. Par exemple, si
l’expérience est un jet d’un seul dé, une issue élémentaire peut être “la valeur indiquée sur la face
supérieure du dé est 1” ou plus simplement “1”. Dans ce cas simple, on peut aisément définir toutes
les issues élémentaires possibles, et l’ensemble de ces issues élémentaires sera appelé l’univers ou
encore, en anglais le sample space.
Définition 2.2 Univers

L’univers associé à une expérience aléatoire est l’ensemble des issues de cette expérence aléatoire.
On le note Ω.
Si on joue aux dés, on peut par exemple parier que le résultat du jet sera un nombre pair. Dans
ce cas, ce qui nous intéresse, c’est l’occurrence de l’événement le résultat du jet du dé est pair.
11
Définition 2.3 Événement
Un événement A est un ensemble d’issues élémentaires liées à l’expérience aléatoire et est donc
un sous-ensemble de l’Univers Ω.
On définit alors un nouvel espace, qui est l’espace des événements. Cet espace d’événements
contiendra “tous les événements d’intérêt”. Notons également que tout événement est un sous-
ensemble de l’univers, dans le cas du dé pair, il s’agit du sous-ensemble {2, 4, 6}, et donc, un
espace d’événements est un espace dont les éléments sont des sous-ensembles de l’univers. Cette
définition sera précisée quand on aura défini ce qu’est une probabilité.
En effet, si on s’intéresse aux expériences aléatoires, c’est pour en inférer des informations, en
quelque sorte, pour espérer “contrôler” le hasard, ou en tous cas pour ne pas se faire “piéger” par
le hasard. Dans le cas du jet du dé, si le dé n’est pas pipé, chaque chiffre de 1 à 6 sera observé,
si on fait un nombre de jets infini, avec une proportion de 1/6. De cette observation, on aura
tendance à dire que chaque chiffre sortira avec une chance sur six, et on assignera à chaque chiffre
1
la probabilité de . De même, à l’événement le résultat du jet du dé est pair, on assignera la
6
1
probabilité de .
2
Étant donné un espace d’événements (et on notera que l’univers est un espace d’événements
particulier), à chacun des éléments de cet espace (donc à chaque événement), on assignera une
probabilité.
Jusque maintenant, nous avons introduit les notions de base d’expérience aléatoire, d’univers,
d’espace d’événements et de probabilité. Cependant, leur définition est encore très vague et de-
mande à être précisée pour obtenir une théorie la plus complète et générale possible. Ces précisions
font l’objet du paragraphe suivant, où nous introduisons principalement les notions de σ−algèbre
(ou encore tribu) et la notion de probabilité en tant que mesure. Pour ce faire, nous devons faire
un rappel de notions de base en théorie des ensembles.
2.2.2 Rappels sur les ensembles

Notre point de départ pour traiter des ensembles est la notion d’espace (par exemple, l’univers
défini ci-dessus est un espace). L’espace est composé d’éléments ou de points, qui sont les objets
les plus petits.
L’espace qui contient toutes les issues possibles d’une expérience aléatoire, espace que nous
noterons dorénavant Ω, peut être appelé ensemble universel ou univers. Cet espace sera décrit par
une liste d’éléments entourés d’accolades, soit par une description contenue dans ces accolades.
Des exemples d’univers sont :
– L’espace ne contenant aucun point : Ω = ∅, cet univers est en général exclu, l’univers étant
en général non vide. Par contre, on considère implicitement que le vide est un sous-ensemble
de tous les ensembles.
– L’univers contenant deux éléments : Ω = {0, 1} mais encore Ω = {”pile”, ”face”} la seule
différence étant la possibilité de faire des opérations sur le premier espace, et pas sur le
second. Cet univers peut décrire le jet de pièces, mais également l’envoi de données binaires.
– L’univers contenant tous les t-uples de longueur k, k fixé. Par exemple pour k = 2 et l’univers
binaire ci-dessus, on pourrait le décrire par Ω = {{0, 0}; {0, 1}; {1, 1}; {1, 0}}
– L’univers contenant toutes les séquences infinies de 0 et de 1 reçues par un récepteur de
télécommunications, il s’agit “simplement” d’un extension de l’univers ci-dessous.
– L’univers des nombres réels r compris entre −V et V : Ω = {r : −V ≤ r ≤ V }, qui peut
décrire par exemple la tension reçue par un récepteur radio. Si V est inconnu, on peut
considérer que Ω = R = {r : −∞ ≤ r ≤ ∞}
– L’univers contenant tous les t-uples de longueur k, k fixé et les éléments des t-uples étant
des réels. En clair, l’espace Euclidien de dimension k (si k = 2, ça peut être la description
d’une image aléatoire, avec le vecteur [r1 , r2 ] représentant la luminance par exemple) .

–
On peut trouver beaucoup d’autres exemples d’espaces ou d’univers, vous pouvez en créer quelques
uns dans les ... espaces laissés libres.
(a) Ω (b) F (c)G
(d)Gc (e) F ∩ G (f) F ∪ G

Ω
F
H G
I
(g) G − F (h) G∆F (i) Partition
Figure 2.1 – Quelques opérations de base des ensembles
Quelques propriétés de base des ensembles

a) L’univers Ω comprend toutes les issues possibles d’une expérience (par exemple, si on tire un
nombre réel au hasard, Ω = R = {ω : −∞ ≤ ω ≤ ∞}).
b) Un sous-ensemble de l’univers est un événement, par exemple F = {ω : −2 ≤ ω ≤ 4}
c) Un autre sous-ensemble de l’univers est un autre événement, par exemple G = {ω : 2 ≤ ω ≤ 10}
d) Le complément à F , noté F c est défini comme étant l’ensemble des éléments n’appartenant pas
àF
F c = {ω : ω ∈
/ F}
e) L’intersection
F ∩ G = {ω : ω ∈ F et ω ∈ G}

f) L’union
F ∪ G = {ω : ω ∈ F ou ω ∈ G}
g) La différence
/ F} = G ∩ Fc
G − F = {ω : ω ∈ G et ω ∈
h) La différence symétrique :
G∆F = {ω : ω ∈ G ou exclusif ω ∈ F } = (F ∪ G) − (F ∩ G)
i) La partition :
Ω = F ∪ G ∪ H ∪ I et
∀X, Y ∈ {F, G, H, I} et X 6= Y : X ∩ Y = ∅
j) Première loi de De Morgan : (F ∩ G)c = (F c ∪ Gc )
k) Deuxième loi de De Morgan : (F ∪ G)c = (F c ∩ Gc )
2.3 Espace probabilisé

Définition 2.4 Espace Probabilisé
Une fois la notion d’expérience aléatoire acceptée, on peut définir un espace probabilisé, qui est
un triplet (Ω, A, P ) où
– Ω est l’univers, il contient toutes les issues élémentaires d’une expérience. Les points de
l’univers peuvent être des noms, des nombres, des signaux, ... .
– A est un espace d’événements, encore appelé σ-algèbre ou tribu. A contient une collection
de sous-ensembles de Ω. On peut considérer que A contient tous les événements auxquels on
veut associer une probabilité. De plus, A doit avoir une structure algébrique, c’est-à-dire que
chaque suite (éventuellement infinie) d’opérations (union, intersection, etc.) appliquée à des
événements doit toujours produire un événement de A (d’où le nom de σ-algèbre).
– P est une mesure de probabilité, c’est-à-dire qu’à chaque événement de la tribu, on associe
un nombre compris entre 0 et 1. La mesure de probabilité doit obéir à certaines règles et
sera calculée par intégration ou sommation, de la même manière que les mesures de surface,
volume, masse, ....
Exemple 2.3.1 Nombre de personnes dans une salle de concert

Un manager de salle veut évaluer le risque financier lié à l’organisation d’un concert. Une des
variables importantes est le nombre de personnes (payantes) assistant au concert. Si on note
Nmax la taille de la salle, on aura
– Les issues élémentaires : ω1 = 1, ω70 = 70, etc.
– L’univers : Ω = {1, 2, . . . , Nmax }
– Des événements : A5 = {il y a moins de 5 personnes} = {1, 2, 3, 4} ⊂ Ω, etc
– La tribu A = Ω : en effet, la tribu devant avoir une structure algébrique, on a que ANmax = Ω,
et comme toute réunion des événements doit faire partie de la tribu, A = Ω.
– Les probabilités : P . C’est ici que le travail délicat commence ... Ces probabilités seront liées
à diverses grandeurs, telles le prix des places, la popularité de l’artiste, ...
C
Exemple 2.3.2 Lancer de deux dés

– Les issues élémentaires : ω1 = (1, 1), ω2 = (3, 4), ω3 = (4, 3), . . .
– L’univers : Ω = {(1, 1), (1, 2), . . . , (1, 6), (2, 1), . . . , (6, 6)}
– Un événement : A = {la somme est égale à 6}
– Un événement : B = {le 1er est entre 3 et 5 ; le 2nd entre 2 et 4}
– La tribu A = Ω (même raisonnement que pour l’exemple précédent.
– Les probabilités P : si on a des dés non pipés et que les lancer sont indépendants, P est
caractérisé par P(ωi ) = 1/36.
C

Ω
6
5
A
4
B
3
1 2 3 4 5 6
Figure 2.2 – Exemple : lancer deux dés
Méthodologie de définition d’espace probabilisé

L’espace probabilisé (encore appelé modèle probabiliste) étant défini par le triplet (Ω, A, P ),
la méthodologie standard de définition de cet espace est la suivante :
1. Définir l’univers Ω. Même si ce point semble trivial étant donné la définition même d’espace
probabilisé, c’est très souvent une étape primordiale. La plupart des soi-disant paradoxes
des probabilités viennent d’une mauvaise définition de l’univers. La difficulté étant souvent
de traduire un problème décrit par des phrases en langage naturel vers le formalisme ma-
thématique.
2. Définir une tribu A (un exemple simple de tribu peut être A =Ω).
3. Attribuer un nombre P(A) ∈ [0, 1] à un événement A (le plus souvent aux issues élémentaires,
comme dans l’exemple du jet de dés).
– Définition classique (Laplace)
nombre de cas équiprobables favorables
P(A) =
nombre de cas équiprobables possibles
– Définition intuitive (fréquence relative)
Nn (A)
P(A) = lim
n→∞ n
– Définition axiomatique (Kolmogorov)

Les définitions classiques et intuitives de la probabilité permettent d’avoir une idée relativement
grossière de ce qu’est une probabilité. Par contre, ces définitions sont assez complexes à manipuler
et ne permettent pas d’utiliser la structure algébrique de la tribu. Pour ce faire, on définit la
probabilité à l’aide de l’axiomatique de Kolmogorov :
Axiome 2.3.1
P(A) ≥ 0 pour chaque événement A ∈ A.
c’est-à-dire qu’aucun événement n’a de probabilité négative.
Axiome 2.3.2
P(Ω) = 1
c’est-à-dire que la probabilité que “quelque chose arrive” vaut 1.

Axiome 2.3.3 P(A ∪ B) = P(A) + P(B) pour A et B disjoints, qui se généralise à :

soit les événements Ai , i = 1, 2, ..., n disjoints, alors
n
! n
[ X
P Ai = P(Ai ) .
i=1 i=1
Une généralisation plus forte encore est : soit les événements Ai , i = 1, 2, ... disjoints, alors
∞
! ∞
[ X
P Ai = P(Ai ) .
i=1 i=1
Propriétés des probabilités
Les propriétés suivantes découlent simplement des axiomes de Kolmogorov, mais également
des propriétés des opérations ensemblistes, grâce à la structure algébrique de la tribu (tous les
ensembles ci-dessous sont supposés être des événements d’une tribu A).
1. P(Ac ) = 1 − P(A)
A∩Ac =∅
dém. : P(Ω) = P(A ∪ Ac ) = P(A) + P(Ac ) = 1
2. P(∅) = 0 = P(Ωc )
3. Toutes les probabilités sont comprises entre 0 et 1 (démonstration : utiliser les deuxième et
troisième axiomes ainsi que la définition de complément).
4. Partition
X : si {Ai } est une partition (finie ou infiniment dénombrable) de Ω, alors, P(B) =
P(B ∩ Ai ), pour tout événement B.
i
5. Si A ⊂ B, P(A) ≤ P(B)
Exemple 2.3.3 Interrupteurs en série
Le circuit représenté ci-dessus consiste en deux interrupteurs en série. Pour que le circuit fonc-
tionne, il faut que les deux interrupteurs soient fermés. On demande la probabilité que le circuit
foncionnne, sachant que la probabilité que les deux interrupteurs soient fermés simultanément
est de 1/4 et que la probabilité qu’un seul interrupteur est fermé est de 1/2 ? On définit les
événements A = {interrupteur 1 et 2 fermés} et B = {interrupteur 1 fermé} (avec A ⊂ B) . La
probabilité que le circuit fonctionne est alors P(A) = 1/4 < P(B)=1/2.
C
6. P(A ∪ B) = P(A) + P(B) − P(A ∩ B)
Exemple 2.3.4 Interrupteurs en parallèle

Soit un circuit comprenant deux interrupteurs en parallèle (voir ci-dessus) dont chacun de ces
deux interrupteurs peut être fermé avec une probabilité 1/2, indépendemment de l’autre, la
probabilité que les deux interrupteurs soient fermés simultanément est de 1/4. Pour que le
circuit fonctionne, il faut qu’il y ait au moins un interrupteur fermé. Pour trouver la pro-
babilité que le circuit fonctionne, on définit les événements A = {interrupteur 1 fermé} et
B = {interrupteur 2 fermé}. Alors, la probabilité que le circuit fonctionne est :
P(A ∪ B) = P(A) + P(B) − P(A ∩ B)

1 1 1 3 (2.1)
= + − =
2 2 4 4
Qu’adviendrait-il si on utilisait 3 , 4, ... N circuits ? Peut-on assurer une fiabilité totale ?
Il y a une autre manière de calculer cette probabilité ...
Est-ce que le circuit en série peut assurer une fiabilité meilleure que le circuit en parallèle ?
C
7. P(A ∪ B) ≤ P(A) + P(B)

8. P(A ∪ B ∪ C) = P(A) + P(Ac ∩ B) + P(Ac ∩ B c ∩ C)
Ω Ω
B A
A B
P (A) ≤ P (B) ≤ 1 P (A ∩ B)
P (A ∪ B)
Figure 2.3 – Exemples simples de la relation entre probabilités et ensembles.
2.4 Probabilité conditionnelle

Si les probabilités sont liées à des événements aléatoires, elles donnent également une informa-
tion sur ces événements. En effet, si on me dit que la probabilité de réussir le test de statistiques
appliquées et de 0.8 (80 %), j’aurais une indication de la difficulté du test (et/ou du cours). Par
contre, en fonction de cela, je vais par exemple décider de consacrer une heure d’étude par semaine
à ce cours, et je voudrais savoir dans quelle mesure cet investissement sera rentable, c’est-à-dire
quelle sera la probabilité de réussir ce test si j’investis une heure par semaine (par exemple l’événe-
ment A est je réussis le test, l’événement B est je travaille 1 heure par semaine, alors P(A) = 0.8
et P(A|B) = 0.99 (lire “la probabilité de l’événement A si l’événement B s’est présenté”).
Par contre, dans le cas du lancer de dés, le résultat du deuxième lancer ne dépendra pas du
résultat du premier lancer, on dira que ces deux lancers sont indépendants (et donc, ici, en notant
A le résultat du premier lancer et B le deuxième lancer, P(A) = P(A|B)).

La probabilité conditionnelle consiste donc à attribuer un nombre P(A|B) ∈ [0, 1] à un événe-

ment A, sachant que l’événement B (P(B) 6= 0) a été réalisé.
Ω
6
5
A
4
B
3
1 2 3 4 5 6
Figure 2.4 – Exemple : lancer deux dés
Exemple 2.4.1 Lancer de deux dés
Dans l’exemple de la figure 2.4, en supposant des dés non pipés, les événements A et B ont les
probabilités indiquées ci-dessous.
1
Toutes les issues ωi (i = 1, . . . , 36) sont équiprobables (P(ωi ) = ).
36
5
– P(A) =
36
9
– P(B) =
36
2 2/36
– P(A|B) = =
9 9/36
–
P(A ∩ B)
P(A|B) =
P(B)
C
Exemple 2.4.2 Le tabac et les jeunes

Prenons un autre exemple qui concerne le tabac et les jeunes (20-25 ans), selon une enquête de
l’INPES, baromètre santé de 2000.
Fréquences
Fumeurs Non fumeurs Total
Hommes 340 314 654
Femmes 289 384 673
Total 629 698 1327
A partir du tableau précédent, on déduit aisément (en utilisant l’approche fréquentiste des
probabilités)
– P(Hommes) = 654/1327 = 0.49
– P(Femmes) = 673/1327 = 0.51
– P(Fumeurs) = 629/1327 = 0.47
– P(Non fumeurs) = 698/1327 = 0.53
– P(Fumeurs ∩ Hommes) = 340/1327 = 0.26
– P(Fumeurs|Hommes) = 340/654 = 0.53= 0.26/0.49
– P(Fumeurs|Femmes) = 289/673 = 0.43= 0.22/0.51
A partir de ces définitions, on peut donner le tableau des fréquences relatives, que l’on peut
considérer, en première approximation, comme étant les probabilités des événements “Hommes”
(H), “Femmes” (nH), “Fumeurs” (F), et “non Fumeurs” (nF).
Fréquences relatives
Hommes 0.26 0.24 0.49
Femmes 0.22 0.29 0.51
Total 0.47 0.53 1
On peut alors définir un univers : Ω = {(H, F ); (H, nF ); (nH, F ); (nH, nF )}, A = Ω,
P = (0.26, 0.24, 0.22, 0.29). Dans la mesure où les éléments de Ω sont des 2-uples, on
parle de probabilité conjointe (la probabilité conjointe que la personne soit un homme
et un fumeur). Si on s’intéresse aux événements “Homme” et “Femme”, alors, A =
{[(H, F ), (H, nF )]; [(nH, F ), (nH, nF )]}, et on travaille sur une tribu différente. On a alors que
P = (0.49, 0.51). On parlera ici de probabilités marginales (elles apparaissent dans la marge
du tableau ...).
C
2.4.1 Les probabilités conditionnelles définissent un nouvelle tribu
A=B
B B
P (A∩B)
P (A|B) = P (B)
A A
A=Ω
P (A = 1) P (A) = 1 = P (B)/P (B)
Figure 2.5 – Probabilité conditionnelle : quand on conditionne sur B, le nouvelle tribu est
B = B et, pour cette nouvelle tribu B, P(B) = 1 (= P(B) /P(B))

– La probabilité conditionnelle satisfait les trois axiomes :
P(A∩B)
1. P(A|B) = P(B) ≥0 pour chaque événement A ⊆ Ω
2. P(A1 ∪ A2 |B) = P(A1 |B) + P(A2 |B) pour A1 et A2 disjoints
3. P(B|B) = 1 (tribu B)
– Les propriétés générales restent valables , p.ex.,

P(A ∪ C|B) ≤ P(A|B) + P(C|B)
– On peut remplacer 3. par
3’. P(B|B) = P(B∩B)
P(B) = 1 (tribu B = B)
– P(A|B) : loi de probabilité ; tribu : Ω → B !
– Approche séquentielle (appelée théorème de la multiplication ou chain rule) :

– P(A ∩ B) = P(B) P(A|B)
Tn Tn−1
– P( i=1 Ai ) = P(A1 ) P(A2 |A1 ) P(A3 |A1 ∩ A2 ) . . . P An | i=1 Ai
(A, D) (P, D)
(A, N ) (P, N )
Figure 2.6 – Détection de présence de l’avion : les 4 points de l’univers.
Exemple 2.4.3 Fausse alarme

Un exemple relativement simple est un exemple classique de détection. Il s’agit simplement

d’un système radar permettant la détection d’un avion, où on cherche la probabilité d’une
fausse alarme, sachant que la probabilité de présence d’un avion est de 5 %, que la probabilité
de détection d’un avion (s’il est présent !) est de 99 % et que la probabilité de fausse détection
(détection sans présence d’avion) est de 10 %. Il est, comme toujours, très important de bien
définir l’univers !
– Modélisation de l’univers système radar
– Avion : Présent / Absent
– Radar : Détection / Non détection
– En fonction des quatre issues possibles, l’univers vaut :
Ω = {(P, D), (A, D), (P, N ), (A, N )},
– Les probabilités associées : on peut modéliser la présence/absence et la détection/non
détection :
– S = {un avion est présent} = {(P, D), (P, N )}
– T = {le radar signale la présence d’un avion} = {(P, D), (A, D)}
– P(S) = 0.05 (présence d’un avion)
– P(T |S) = 0.99 (détection si avion présent)
– P(T |S c ) = 0.10 (fausse détection : « détection » si avion absent)
– Les probabilités associées calculées grâce aux axiomes / propriétés
– Quelle est la probabilité d’une fausse alarme ?
P((A, D)) = P(S c ∩ T ) = P(S c ) P(T |S c ) = [1 − P(S)]P(T |S c ) = 0.95 · 0.10 = 0.095
– Quelle est la probabilité qu’un avion ne soit pas détecté ?
P((P, N )) = P(S ∩ T c ) = P(S) P(T c |S) = P(S) [1 − P(T |S)] = 0.05 · 0.01 = 0.0005
– pour obtenir l’ensemble des probabilités, il faut calculer P((P, D)) = P(S) − P((P, N )) =
0.05 − 0.0005 = 0.0495 et on en déduit directement P((A, N )) = 0.855 en invoquant que la
probabilité de l’univers vaut 1.
– En résumé : L’espace probabilisé
– Ω = {(P, D), (A, D), (P, N ), (A, N )}
– A=Ω
– P = {0.0495, 0.095, 0.0005, 0.0495}
C
2.4.2 Théorème de probabilité totale

– soient les événements A1 , A2 , . . . , An qui forment une partition de Ω (ils sont donc mutuel-
lement exclusifs et leur union vaut l’événement certain ;
– soit un événement B, on peut écrire cet événement sous forme d’une partition de la manière
suivante : B = (B ∩ A1 ) ∪ (B ∩ A2 ) ∪ . . . ∪ (B ∩ An ), où B ∩ A1 , B ∩ A2 , . . . , B ∩ An sont
événements disjoints ;
– on en déduit immédiatement que P(B) = P(B ∩ A1 ) + P(B ∩ A2 ) + . . . + P(B ∩ An )
– et donc que P(B) = P(A1 ) P(B|A1 ) + P(A2 ) P(B|A2 ) + . . . + P(An ) P(B|An ).
– Ce résultat est connu comme étant le théorème des probabilités totales :
n
X
P(B) = P(Ai ) P(B|Ai )
i=1
Application à l’exemple de la fausse alarme

Soit l’exemple de la fausse alarme ci-dessus, quelle est la probabilité d’une alarme ?
P(T ) = P(S) P(T |S) + P(S c ) P(T |S c ) (S et S c forment une partition de Ω)

= P(S) P(T |S) + [1 − P(S)]P(T |S c )
= 0.05 · 0.99 + 0.95 · 0.10
= 0.0495 + 0.0950
= 0.1445

2.4.3 Théorème de Bayes et interférence bayesienne
Le théorème de Bayes est une conséquence directe du théorème des probabilités totales et est
certainement un des théorèmes les plus importants des probabilités.
L’utilité principale du théorème de Bayes est de faire de l’inférence. Par exemple, la probabilité
a priori d’avoir un accident de voiture est de 0.1 % si je roule 100.000 km. Je sais que j’habite la
côte d’azur et que la circulation y est relativement nerveuse, sachant cela, quelle sera la probabilité
d’avoir un accident ?
Dans ce cas-ci nous avons
– la probabilité a priori : celle d’avoir un accident de voiture (P = 0.001) ;
– l’événement connu : j’habite la côte d’azur ;
– la probabilité a posteriori : celle d’avoir un accident de voiture sachant que j’habite la côte
d’azur (qui montera peut-être à P = 0.01 !). Si cette probabilité a posteriori est plus élevée
que la probabilité a priori, on dira que le fait d’habiter la côte d’azur est une cause d’accidents
(cela augmente le risque d’accident).
Le théorème de Bayes fait donc un lien direct entre les probabilités a priori, c’est à dire des
probabilités d’événements connues avant que l’expérience aléatoire n’ait lieu (ci-dessous les pro-
babilités de A et Ai ) et les probabilité a posteriori, ici P(Ai |B). C’est ce qu’on appelle l’inférence
bayesienne.
Une application de l’inférence bayesienne consiste à trouver la relation dite de cause à effet. Il est
par exemple connu que la boisson au volant (la cause) augmente le risque d’accident (l’effet), et il
est intéressant de connaître l’augmentation du risque due à cette cause. On notera A l’événement
“le conducteur a trop bu” et B l’événement “le conducteur a eu un accident”. En fonction des
statistiques d’accident, il est relativement facile d’obtenir P(A ∩ B) ainsi que P(B) et donc P(A|B),
c’est-à-dire qu’on peut quantifier la relation “d’effet à cause”, i.e. la probabilité d’avoir bu si on a
eu un accident. Ce qui peut être plus interessant est d’avoir la relation de “cause à effet”, c’est à
dire P(B|A).
Schématiquement, nous avons :
– « Effet » A −→ « Cause » B, P(A|B) , P(B) 6= 0
– À partir de P(A|B), calculer P(B|A) (cause −→ effet)
– P(A ∩ B) = P(A) P(B|A) = P(B) P(A|B)
–
P(A|B)
P(B|A) = P(B)
P(A)
Dans une analyse avec plusieurs causes, on peut énumérer toutes les causes possibles (i.e. toutes
les causes forment une partition de l’univers. On alors les relations suivantes : soit plusieurs causes
Ai (i = 1, . . . , n) formant une partition de Ω :
–
P(B|Ai )
P(Ai |B) = P(Ai )
P(B)
–
P(Ai ) P(B|Ai )
P(Ai |B) = Pn
i=1 P(Ai ) P(B|Ai )
Exemple 2.4.4 Exemple : le tabac et les jeunes (20-25 ans) (suite)

Source : INPES, baromètre santé 2000

Toujours dans cet exemple, en manipulant les probabilités déduites des fréquences, on peut,
en fonction du tableau ci-dessous, déduire qu’être un homme augmente la probabilité d’être
fumeur (j’ai donc tendance à déduire de l’information “je suis un homme”, la conclusion “j’ai
plus de chance d’être un fumeur”) et vice-versa.
Fréquences
Hommes 340 314 654
Femmes 289 384 673
Total 629 698 1327
– P(Hommes) = 654/1327 = 0.49

– P(Fumeurs) = 629/1327 = 0.47
– P(Fumeurs|Hommes) = 340/654 = 0.53 = 0.26/0.49
– P(Hommes|Fumeurs) = 340/629 = 0.54 = 0.26/0.47
P(Hommes|Fumeurs) = 0.49 · 0.53/0.47
– P(Fumeurs|Hommes) > P(Fumeurs)
– P(Hommes|Fumeurs) > P(Hommes)
C
2.4.4 Indépendance
La notion d’indépendance est, à côté de la notion de probabilité conditionnelle, un concept

fondamental en théorie des probabilités. En effet, si deux événements A et B sont indépendants,
intuitivement, la probabilité de l’événement de A ne dépend pas de la réalisation de l’événement
B et vice versa, et on a donc les propriétés indiquées ci-dessous (en supposant les probabilités de
A et B non nulles, le lecteur assidu que vous êtes déduira facilement les cas dégénérés (où l’une
au moins des probabilités est nulle)) :
Définition 2.5 Indépendance
Deux événements A et B sont indépendants si et seulement si P(A ∩ B) = P(A) P(B) .
On en déduit les propriétés suivantes :
P(A ∩ B)
– si P(B) 6= 0, P(A|B) = = P(A)
P(B)
– Soit deux événements indépendants A et B, conditionnés par C, (P(C) 6= 0) :
– P(A ∩ B|C) = P(A|C) P(B|C)
– si P(B|C) 6= 0, P(A|B ∩ C) = P(A|C)
– Soit plusieurs
T événements
Q indépendants A1 , A2 , . . . , An :
– P i∈S Ai = i∈S P(Ai )
pour chaque S, sous-ensemble de {1, 2, . . . , n}
Exemple 2.4.5 Le tabac et les jeunes (20-25 ans) (suite)

Source : INPES, baromètre santé 2000
Fréquences
Hommes 340 314 654
Femmes 289 384 673
Total 629 698 1327
– P(Fumeurs) = 629/1327 = 0.47

– P(Fumeurs|Hommes) = 340/654 = 0.53
– P(Fumeurs|Hommes) 6= P(Fumeurs)
– {Fumeur} et {Homme} dépendants !
Fréquences Fréquences modifiées

Fumeurs Non fumeurs Total Fumeurs Non fumeurs Total
Hommes 340 314 654 Hommes 310 344 654
Femmes 289 384 673 Femmes 319 354 673
Total 629 698 1327 Total 629 698 1327
– P(Fumeurs) = 629/1327 = 0.47

– P(Fumeurs|Hommes) = 310/654 = 0.47
– P(Fumeurs|Hommes) = P(Fumeurs)
– {Fumeur} et {Homme} indépendants !
(Comment faire pour trouver la modification ?)
Note sur les événements disjoints et les événements indépendants
Une confusion souvent faite par les étudiants en début de cours est la confusion entre événe-
ments disjoints et indépendants. Cette confusion est à vrai dire bien surprenante : en effet, deux
événements indépendants sont tels que P(A|B) = P(A) = P(A ∩ B) /P(B). En supposant que
P(A) et P(B) soient non nuls, cela implique de toute évidence que P(A ∩ B) 6= 0 et donc que les
événements ne sont pas disjoints.
Une autre manière de lever la confusion est la suivante : supposons que A et B soient disjoints.
Si le résultat de l’expérience aléatoire est l’événement A, alors elle ne peut pas être l’événement
B, et il n’y a sûrement pas indépendance entre ces deux événements (ce qui est confirmé par la
formule de Bayes : P(A|B) = P(A ∩ B) P(B) = 0 puisque A ∩ B = ∅ ⇒ P(A ∩ B) = 0.
2.4.5 Quelques stratégies pour calculer des probabilités

– La première étape pour calculer les probabilités est de définir l’univers Ω. Même si ceci peut
sembler être un truisme, c’est très souvent le point crucial, qui est en fait la modélisation
probabiliste du problème. Les exercices donnés permettront d’illustrer l’importance de cette
étape.
– Ensuite, il faut définir les probabilités associées. Une des possibilités, en l’absence de connais-
sance fine du problème, est de considérer que les issues sont équiprobables : P(A) = card(A) card(Ω)
(Laplace). Cette approche est en général complétée par la combinatoire (voir plus loin).
– Une autre approche est l’approche séquentielle, qui utilise la notion d’indépendance et que
l’on illustrera dans l’exemple ci-dessous, et qui peut être combiné avec l’utilisation des théo-
rèmes de probabilité totale et de Bayes
Exemple 2.4.6 Chaîne de production

Exemple pris du livre de P. Bogaert : Une chaîne de production est composée d’une unité
principale A1 et de trois unités secondaires B1,2,3 . On envisage de moderniser la chaîne de
production en ajoutant une seconde unité principale A2 . La chaîne fonctionne tant que les
produis fabriqués peuvent rentre par une unité principale et sortir par une unité secondaire.
En cas de surcharge électrique du réseau, chaque unité principale et secondaire peut tomber en
panne indépendamment des autres unités avec des probabilités respectives égales à 20 % et 40
%. Quelle est la probabilité d’un arrêt de la chaîne s’il y a surcharge électrique avant et après
modernisation ?
La figure 2.7 illustre le problème ainsi que la manière dont on prend une approche séquentielle.
1. – Soit Ai l’événement “ la chaîne Ai fonctionne correctement” et de même pour Bi . On
a P(Ai ) = 0.8 et P(Bi ) = 0.6
– Soit l’événement F : “la chaîne fonctionne”. Selon le premier schéma, on a F = (A1 ∩
B1 ) ∪ (A1 ∩ B2 ) ∪ (A1 ∩ B3 ) = A1 ∩ (B1 ∪ B2 ∪ B3 ).
– A1 est indépendant des Bi et donc P(F ) = P(A1 ) .P(B1 ∪ B2 ∪ B3 ).
– De plus, par les lois des ensembles, P(B1 ∪ B2 ∪ B3 ) = 1 − P(B1 ∪ B2 ∪ B3 )c =
1 − P(B1c ∩ B2c ∩ B3c ), et par indépendance de Bi , on a indépendance des Bic et donc
P(B1c ∩ B2c ∩ B3c ) = P(B1c ) .P(B2c ) .P(B3c ).
– Globalement on a alors P(F ) = P(A1 ) .P(B1 ∪ B2 ∪ B3 ) = P(A1 ) .(1 −
P(B1c ) .P(B2c ) .P(B3c )) = 0.8(1 − (0.4)3 ) = 0.75, soit une probabilité de panne de 25
%.
2. Sur le deuxième schéma, F = (A1 ∪ A2 ) ∩ P(B1 ∪ B2 ∪ B3 ), soit, toujours par
indépendance,P(F ) = P(A1 ∪ A2 ) .P(B1 ∪ B2 ∪ B3 ). Avec le même raisonnement que ci-
dessus, on obtient P(A1 ∪ A2 ) = 1−P(Ac1 ) P(Ac2 ) = 0.96 et donc P(F ) = 0.96×0.94 = 0.9,
soit une probabilité de panne de 10 %.
Cet exemple montre donc bien qu’ajouter un composant en parallèle dans un système réduira
le risque de pannes de ce système ! C
A1 ∩ B1 (A1 ∩ B1 ) ∪ (A2 ∩ B1 )
B1 B1
A1
A1 ∩ B2 (A1 ∩ B2 ) ∪ (A2 ∩ B2 )
A1 B2 A2 B2
A1 ∩ B2 (A1 ∩ B3 ) ∪ (A2 ∩ B3 )
B3 B3
Figure 2.7 – chaîne de production : risque de panne
2.4.6 Quelques rappels sur la combinatoire

– Opération à M étapes,
– chacune pouvant être réalisée selon Ni façons (i = 1, . . . , M ).
– Nombre total des réalisations :
M
Y
N = N1 N2 . . . NM = Ni
i=1
1. Permutations de n objets
n(n − 1)(n − 2) . . . 2 · 1 = n!

2. Permutations de k objets choisis parmi n
n!
n Pk = n(n − 1)(n − 2) . . . [n − (k − 1)] = = Cnk k!
(n − k)!
(n Pn = n! −→ 0! = 1)
3. Combinaisons de k objets choisis parmi n

k n n Pk n!
Cn = = =
k k! k!(n − k)!
4. Répartitions de n objets dans n1 , n2 , . . . , nr groupes

n n!
= , (n1 + n2 + . . . + nr = n)
n1 , n2 , . . . , nr n1 !n2 ! . . . nr !
Méthode générale (par étape) :
– n objets : n! permutations
– ni objets non distincts (identiques ou combinaisons) : diviser par ni !
– répéter pour tous les groupes d’objets
Multiplier pour toutes les étapes.
2.4.7 Bibliographie
– P. Bogaert, “Probabilités pour scientifiques et ingénieurs”, De Boeck, Bruxelles, 2006.
– D. Bertsekas, J. Tsitsiklis, “Introduction to Probability”, Athena Scientific, Belmont, 2002.
– S. Kay, “Intuitive Probability and Random Processing using MATLAB”, Springer, 2005
(QA273.K329 2005)
2.5 Exercices
Exercice 2.1 Jet de pièces
On lance une pièce (non truquée) trois fois. Calculer la probabilité que plus de pièces donnent
3/4
face que pile, sachant qu’au premier lancer apparaît face.
Exercice 2.2 Jet de pièces bizarres

On a trois pièces (non truquées) : la première a deux côtés face, la deuxième a deux côtés pile,
et la troisième est normale. On lance une pièce, choisie au hasard, et elle donne pile. Quelle est 1/2
la probabilité que l’autre côté soit face ?
Exercice 2.3 Issues équiprobables

Une expérience a N = 10 issues équiprobables. Quelle est la probabilité de chaque issue ? Que
devient cette probabilité si N = 1000, si N = 106 ? Que ce passe-t-il si N → ∞ ?
Exercice 2.4 Infinité dénombrable d’issues

Soit une expérience dont les issues possibles sont les nombre {1, 2, 3, . . .}. A ces issues, on associe
les probabilités :
1
P(() k) = k , k = 1, 2, 3, · · · .
2
La somme de ces probabilités vaut-elle 1 ? Peux-t-on avoir une infinité d’issues, toutes ayant
une probabilité non nulle ? Comparez à l’exercice précédent.

Exercice 2.5 Le problème du chevalier de Méré

Lequel de ces deux événements est le plus probable : “Obtenir au moins une fois un six en quatre
lancers de dés”, ou “Obtenir au moins un double six en vingt quatre lancers de deux dés”.
Exercice 2.6 Garçons et filles

On suppose que lorsqu’un couple a un enfant, la probabilité d’avoir un garçon est égale à
p = 0.51. On suppose par ailleurs que les naissances sont mutuellement indépendantes entre
elles.
a. Quelle est la probabilité d’avoir deux garçons quand on a deux enfants ? (a) p2 (b) (1 − p
b. Quelle est la probabilité d’avoir deux filles quand on a deux enfants ?
c. Quelle est la probabilité d’avoir un garçon et une fille quand on a deux enfants ? (c) 2.p(1 − p) (d
Vous savez qu’un couple a deux enfants :
d. on vous dit que l’aîné est une fille ; quelle est la probabilité que le cadet soit une fille ?
(1−p)2
e. on vous dit qu’au moins l’un des enfants est une fille : quelle est la probabilité que les deux (e) 1−p2 (f) 1 −
enfants soient des filles ?
f. vous rencontrez cette famille avec un des enfants (l’autre enfant est absent) : c’est une fille.
Quelle est la probabilité que les deux enfants soient des filles ?
Exercice 2.7 Détection de maladie rare

Un test pour une maladie rare est supposé fiable dans 95% des cas : la probabilité que le test
soit positif quand une personne est malade est égale à 0.95, et la probabilité qu’il soit négatif
quand une personne n’est pas malade est aussi égale à 0.95. La probabilité qu’une personne soit
malade est égale à 0.001 (0.1% de la population).
1. Quelle est la probabilité qu’un test soit positif ?
2. Une personne est testée positive. Quelle est la probabilité qu’elle soit atteinte de la maladie ?
3. Dans quelles conditions un test positif suggère que la personne est malade ? Interpréter le
résultat.
Afin d’améliorer la fiabilité du dépistage, on répète le test dans le cas d’un résultat positif (1) 0.0509
(évidemment, la fiabilité pf de chaque test reste indépendante des résultats précédents). (2) 0.0187
4. Calculer la probabilité P(Pn ) que n tests successifs soient positifs. (3) P(M |P ) >=
5. Une personne est testée successivement n fois positive. Quelle est la probabilité qu’elle soit
atteinte de la maladie ?
6. On notera N la valeur minimale de n qui donne une réponse supérieure à 0.9 à la question
précédente. Déterminer numériquement la valeur de N dans le cas : P(P |M ) = P P |M = 0.9,
P(M ) = 0.1.
7. Donner une explication de l’évolution de la probabilité de la question 5 en fonction de n (en
vous aidant d’un tableau (1 ≤ n ≤ N ) de différentes probabilités que vous jugez utiles).
[Soit deux événements, A et B, et P(A) 6= 0, P(B) 6= 0. On dira que l’événement B suggère
l’événement A si P(A|B) > P(A).]
On note P(P ) la probabilité que le test soit positif, et P(M ) la probabilité

que la
personne soit malade. L’énoncé nous donne P(P |M ) = 0.95 et P P |M = 0.95.
{M, M } est un univers (M et M sont donc une partition de l’univers), de même
que P et P . On en déduit que P P |M = 0.05 et P P |M = 0.05.
1.
P(P ) = P(P |M ) .P(M ) + P P |M .P M
= 0.95 ∗ .001 + 0.05 ∗ 0.999 = 0.0509
2.
P(M, P )
P(M |P ) =
P(P )
P(P |M ) P(M )
= = 0.0187
P(P )
3. Un test positif suggère que la personne est malade si P(M |P ) ≥ P(M ) ⇒
P( détection) = P(P |M ) ≥ 1/2(parP(M |P ) ≥ P(M ) ⇒ ...

4.
P(Pn ) = P(M ) P(Pn |M ) + P M P Pn |M
n n
= P(M ) P(P |M ) + (1 − P(M ))(1 − P(P |M ) )
5.
P(M |Pn ) = P(M ) P(Pn |M ) /P(Pn )
P(M ) P(Pn |M )
=
P(M ) P(Pn |M ) + P M P Pn |M
n
P(M ) P(P |M )
= n n
P(M ) P(P |M ) + (1 − P(M ))(1 − P(P |M ) )
6.
N 1 2 3 4
P(M, P ) 0.009000 0.008100 0.007290 0.006561
P M, P 0.099000 0.009900 0.000990 0.000099
P(P ) 0.108000 0.018000 0.008280 0.006660
P M, P 0.001000 0.000100 0.000010 0.000001
P M , P 0.891000 0.801900 0.721710 0.649539
P M 0.892000 0.802000 0.721720 0.649540
P(M |P ) 0.083333 0.450000 0.880435 0.985135
P M |P 0.998879 0.999875 0.999986 0.999998
Exercice 2.8 Alcootest
Un alcootest a été mis au point. Celui-ci donne un résultat positif si la personne a un taux
d’alcool supérieur à la valeur admise (on dira qu’il est en état d’ébriété) avec une probabilité
de 96 %. Il donne également un résultat positif si la personne n’est pas en état d’ébriété avec
une probabilité de 2 %.
En faisant l’hypothèse que dans les Alpes Maritimes, 2 % des conducteurs conduisent en état
d’ébriété, calculer la probabilité qu’un conducteur des Alpes Maritimes ne soit pas en état
d’ébriété s’il a été contrôlé positif.
En notant I l’événement la personne testée est ivre et I l’événement complémentaire
la personne testée n’est pas ivre, “+” l’événement le test est positif et "−" l’événement
le test est négatif, les données sont
– sensibilité = 1 - taux de faux négatifs = 1 - proportion de négatifs parmi les ivres
= proportion de positifs parmi les ivres = P(+|I) = 0, 96P(+|I) = 0, 96
– sélectivité = 1 - taux de faux positifs =
1 - proportion de positifs parmi les non-ivres
= 1 − P +|I = 1 − 0, 021 − P +|I = 1 − 0, 02
– prévalence = proportion d’ivres dans la population
testée = P(I)
= 0, 03P(I) =
0, 03 On nous demande de calculer P I|+ = 1 − P(I|+) P I|+ = 1 − P(I|+).
On utilise :
– le théorème des probabilités composées P(A ∩ B) = P(B) · P(A|B) = P(A) · P(B|A)
qui donne ici, en ne considérant que la deuxième égalité et en replaçant A par I
P(I) · P(+|I)
et B par + : P(I|+) =
P(+)
P(I) et P(+|I) nous sont fournis par l’énoncé ; reste à déterminer P(+), ce pourquoi
il faut faire appel à : X X
– le théorème des probabilités totales P(B) = P(B ∩ Ai ) = P(Ai ) · P(B|Ai )
i i
(où les Ai forment un système partitionde l’espace des événements)
qui donne
ici : P(+) = P(I) · P(+|I) + P I · P +|I P(I) (et donc P I ), P(+|I) et P +|I
nous sont
fournis par l’énoncé. On peut alors calculer P(I|+), et finalement à
P I|+ = 1 − P(I|+) qui est demandé.
Exercice 2.9 Cherchez le trésor

On sait qu’un trésor peut se trouver à deux endroits, avec probabilité β et 1 − β, respectivement
(0 ≤ β ≤ 1). On cherche au premier endroit et, si le trésor est là, on le découvre avec probabilité
p.
Montrer que le fait de ne pas trouver le trésor au premier endroit suggère qu’il se trouve au
second.
Exercice 2.10 Dés

On lance deux dés. On définit les événements Ai et Bj comme suit :
– Ai = {Le premier dé est i}
– Bj = {La somme des dés est égale à j}
Examiner l’indépendance des événements Ai et Bj (1 ≤ i ≤ 6 , 1 ≤ j ≤ 12) ?
Exercice 2.11 Grand magsin ...
Un magasin comporte c caisses, et il y a n clients dans le magasin. À chaque instant, la pro-

babilité qu’un client vienne à la caisse est égale à p, indépendamment du comportement des
autres clients. Quelle est la probabilité que le nombre de caisses soit insuffisant pour servir tous
les clients simultanément (en d’autres termes, quelle est la probabilité qu’il y ait une queue ?)
Exercice 2.12 Anniversaires

1. Un ensemble Ω contient n éléments.
Calculer le nombre de ses sous-ensembles (y compris ∅ et Ω).
2. Il y a n personnes dans une salle. Calculer la probabilité que les n dates d’anniversaire
soient toutes différentes.


Chapitre 3
Variables Aléatoires
Le chapitre précédent a donné, sur base de la notion d’événement et d’espace
probabilisé, les règles générales du calcul des probabilités. Par contre, la dé-
finition de ces événements est souvent laborieuse (“le dé affiche la face sur
laquelle le chiffre 6 est indiqué”). Il est souvent utile d’associer un nombre
aux événements (ici le nombre 6). L’association d’un nombre aux événements
aléatoires produit une Variable aléatoire. Tout comme l’univers d’une expé-
rience aléatoire peut-être dénombrable ou non, les variables aléatoires peuvent
être discrètes ou continues (ou mixtes). D’autre part, l’extension au variables
aléatoires conditionnelle sera également présentée.
3.1 Définition
Pour bon nombre (si pas la plupart) des expériences aléatoires, on associe un nombre au résultat
de l’expérience ou à un événement (par exemple le chiffre du dé, la température mesurée, ...). D’un
point de vue formel, il s’agit d’effectuer une application de l’univers Ω dans l’espace des réels.
Définition 3.1 Variable aléatoire

Une Variable aléatoire X est une fonction de Ω dans R telle qu’à tout ω correspond une valeur
X(ω) = x.
Définition 3.2 Domaine de variation

Le domaine de variation de X est l’ensemble RX ⊂ R que peut prendre la variable aléatoire
X.
Dans cette définition, on notera que la variable aléatoire X est notée par une majuscule, et
que la valeur que prend la variable aléatoire x, une fois l’expérience réalisée, est notée par une
minuscule.
Définition 3.3 Réalisation
On appelle x une réalisation de la variable aléatoire liée à l’événement ω.
Exemple 3.1.1
L’exemple suivant reprend l’expérience aléatoire consistant à jeter deux dés. La figure 3.3 illustre
deux variables aléatoires différentes, associées à la même expérience : X, qui associe à un jeté
de deux dés le maximum des deux chiffres indiqués, et Y qui y associe la somme des deux dés.
Si une expérience aléatoire a comme issue (4, 5), alors la réalisation de la variable aléatoire X
vaut x = 5 et la réalisation de la variable aléatoire Y vaut y = 9.
C
31
!"#$%&'( )*+( ,*( -!%'./0+*#.!%( /1&%( 2+*%/( %!3"+$( /$( #+*4$-#!.+$'( )!''.",$'( /*%'(
,1$')*-$( /$'( 5&#&+'( -!3)*#.",$'( *6$-( ,$( 3!/7,$8( 9*.'( &%$( '$&,$( /$( -$'(
#+*4$-#!.+$'( :/*%'( ,$(
École Polytechnique de 3$.,,$&+(
l’UNSA /$'( -*';<=( '$( +0*,.'$+*( $55$-#.6$3$%#8( >!#+$( -?*#(
Département d’Électronique
).#+$($%($'#(-!%'-.$%#(:!"#$%&'(#)*+"#$+#,()*2$(@A=(B&*%/(.,(*55.+3$(C(
(
(
(
(
(
(
(
(
(
( Figure 3.1 – Définition d’une réalisation par le chat de Geluck
(
!"#$%&'#("#)$%*+(,-."*# X
#
D*( #?0!+.$( /$( ,1.%5!+3*#.!%;E( 6.$%#( #!&#( +0-$33$%#( /$( 3$##+$( &%( #$+3$( *&(
-0,7"+$( )*+*/!F$( /&( -?*#( :#.$%'(G( ,$( 3H3$( *%.3*,(C( .,( %$( )$&#( B&$( '1*2.+( /1&%(
?*'*+/=(/$(I-?+J/.%2$+;K8( x
R
(
L!&+(303!.+$M(6$+'(NK;OM(,$(-0,7"+$()?P'.-.$%(*6*.#()+!)!'0(&%$(5*",$(/$'#.%0$(
Ω
AS
Q( 5*.+$(Figure
-!3)+$%/+$(
3.2 – La :R=( ,*(aléatoire
variable %!#.!%(: une /10#*#(
fonctionB&*%#.B&$( *&F(l’espace
de l’univers dans "0!#.$%' 8( ( T+U.%(
des réels
I-?+J/.%2$+( )+!)!'*.#( *.%'.( /1$%5$+3$+( :6.+#&$,,$3$%#( ?$&+$&'$3$%#(G=( &%( -?*#(
*6$-( &%( *#!3$( +*/.!*-#.5( /!%#( ,*( /0'.%#02+*#.!%( -!33*%/$+*.#( &%( /.')!'.#.5(
3.2 Variable aléatoire discrète
3!+#$,()!&+(,$(-?*#8(V,($'#(#?0!+.B&$3$%#(.3)!''.",$(/$()+0/.+$(B&*%/(,1*#!3$(6*((
'$( /0'.%#02+$+8(
Une variable T%( ,1*"'$%-$(
aléatoire discrète X/1!"'$+6*#.!%M(
prend ses valeurs ,1*#!3$( '$( #+!&6$(
dans un ensemble fini ou/!%-( /*%'( &%$(
un ensemble
W('&)$+)!'.#.!%(/10#*#'(XM(Q(,*(5!.'(/0'.%#02+0($#(%!%(/0'.%#02+08(D$(-?*#(/!%#(,$(
comprenant une infinité dénombrable de valeurs (ensemble infiniment dénombrable).
6.$( Exemple
/0)$%/(3.2.1
/$( -$##$( 06$%#&$,,$( /0'.%#02+*#.!%( $'#( /!%-( #?0!+.B&$3$%#( $#(
'.3&,#*%03$%#(3!+#($#(6.6*%#Y(
Dans l’exemple de la figure 3.3, les domaines de variation de X et Y sont respectivement
( RX = {1, 2, 3, 4, 5, 6} et RY = {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}.
C
Z$( )*+*/!F$( /.')*+*[#( /*%'( ,$( -*/+$( /$( ,*( #?0!+.$( /$( ,1.%5!+3*#.!%(C( ,$( -?*#( $'#(
'!.#(6.6*%#M('!.#(3!+#(3*.'(!%(%$(/.')!'$()*'(/$(,1.%5!+3*#.!%()$+3$##*%#(/$(,$(
3.2.1 Fonction de probabilité ou masse de probabilité
'*6!.+8(
Une manière de caractériser complètement une variable aléatoire est de définir sa fonction
( de probabilité (encore appelée masse de probabilité, pour la distinguer de la densité de probabilité
dans le cas de variables aléatoires continues). Cette fonction de probabilité pX (x) associe à chaque
valeur x possible, la probabilité que la variable aléatoire X prenne cette valeur x.
((((((((((((((((((((((((((((((((((((((((((
Définition 3.4 (
;<
(I.(%!#+$(/$'-+.)#.!%()+!"*".,.'#$(/$(,1&%.6$+'($'#(-!++$-#$8(
La fonction
 deprobabilité est la fonction pX (x) définie par :
;E
(\&$(*&()?P'.-.$%(*&#+.-?.$%(]%#!%(^$.,,.2$+M(-?$+-?$&+(/$)&.'(;S(*%'(Q(,1_%.6$+'.#0(/$(`.$%%$8(Z$##$(#?0!+.$(

)$+3$#(,*(+0.%#$+)+0#*#.!%(/$'()?0%!37%$'(B&*%#.B&$'(B&.M(Q(,*(,&3.7+$(/$(,*(%!#.!%(/1.%5!+3*#.!%M(/$6.$%%$%#(

  simpl.
P {X = x}  = P(X = x) si x ∈ RX
 
pX (x) =
)*+5*.#$3$%#(*"!+/*",$'8(

| {z }
événement ∈ Ω
;K
(T%-!+$(&%()?P'.-.$%(*&#+.-?.$%(:NEE<(a(NKbN=8(


0 si x ∈
/ RX

AS
(c%()$&#(-!%'$.,,$+(.-.(,*(,$-#&+$(/$(,1*+#.-,$(/$(d$*%e9*+-(D06PeD$",!%/M(W(D10#+*%2$(-?*#(/$(I-?+J/.%2$+(X(
La masse de probabilité hérite des axiomes de Kolmogorov :
/*%'(,$(%&30+!(?!+'('0+.$(/$(-)./0)/'#/"#+$/0.1#/$(4&.,,$#(@SS;(C(2/'#31+04'#5+1+4%6/'#4/#7+#')./0)/8((

Y : somme des deux faces
Ω 2
6
3
5
4
4
5
3 6
2 7
1 8
9
1 2 3 4 5 6
10
11
12
1 2 3 4 5 6
X : max des deux faces
Figure 3.3 – Exemple de deux variables aléatoires liées à la même expérience aléatoire
– La masse de probabilité prend des valeurs positives ou nulles :
pX (x) ≥ 0 ∀x ∈ R.
En effet, pX (x) = P(X = x) est une probabilité, et est donc positive ou nulle.
– La somme des valeurs de la fonction pX (x) est égale à l’unité :
n
X
p(xi ) = 1 si RX = {x1 , x2 , · · · xn }.
i=1
En effet, les valeurs {x1 , x2 , · · · xn } correspondent à des issues disjointes (X = xi ∩ X = xj =

∅, si i 6= j, par l’axiomatique de Kolmogorov) et l’union des événements correspondant à
{x1 , x2 , · · · xn } forment l’univers. Donc, ∪ni=1 (X = xi ) = Ω et P(∪ni=1 (X = xi )) = P(Ω) = 1
(toujours par l’axiomatique de Kolmogorov).
Toute fonction à valeurs discrètes qui respecte ces conditions peut être une masse de proba-
bilité (ou fonction de probabilité). Mais surtout, si on définit ou si on détermine une fonction de
probabilité, il faut impérativement vérifier ces deux conditions.
Exemple 3.2.2 Détermination d’une masse de probabilité

Une classe de n élèves présente un examen. La masse de probabilités X du nombre d’élèves

ayant la note x est une masse de probabilité triangulaire entre x = 2 et x = 18 sur 20, avec
p(2) = 0, p(10) = 8.a, p(18) = 0.
On a donc

 0
 x<3
a ∗ (x − 2) 2 < x < 11

pX (x) =

 a ∗ (8 − (x − 10)) 10 < x < 18
0 x > 17

X
Il faut donc déterminer la constante a pour que p(xi ) = 1. On détermine aisément que
X
p(xi ) = 64.a et donc a = 1/64.
La masse de probabilité est représentée en figure 3.4. Par inspection, on voit que la probabilité
d’obtenir une note de 10 est d’environ 12 %, et que la probabilité d’obtenir une note de 17
est d’environ 2%. De toute évidence, l’élève sera plus intéressé par “quelle est la probabilité
d’obtenir une note supérieure à 10 ?”. Ce sera le rôle de la fonction de répartition. C
0.14
0.12
0.10
0.08
p(x)
0.06
0.04
0.02
0.00
0 2 4 6 8 10 12 14 16 18 20
Figure 3.4 – Fonction ou masse de probabilité des notes d’une classe
3.2.2 Fonction de répartition

La masse de probabilité pX (x) spécifie complètement la variable aléatoire X. Une autre manière
de spécifier complètement la variable aléatoire est de définir sa fonction de répartition F (x).
Comme dans l’exemple 3.2.1, où on est intéressé par “la probabilité que la note soit inférieure à
10”, la fonction de répartition F (x) est la probabilité que la variable aléatoire X prenne une valeur
inférieure ou égale à x.
Définition 3.5 L
a fonction de répartition F (x) est telle que : F (x) , P({X ≤ x})
Propriétés de la fonction de répartition

Soit une variable aléatoire X définie sur RX = {x1 , x2 , · · · , xn }, on déduit aisément les pro-
priétés suivantes :

1.
X
FX (x) , P({X ≤ x}) = pX (xi )
xi ≤x
On a également introduit la notation FX (x), qui est équivalente à F (x), mais où on a insisté
sur le fait que la fonction de répartition est liée à la variable aléatoire X.
2. Si on classe les éléments de RX par ordre : x(1) < x(2) < . . . < x(n) , on peut alors écrire :
k
X
FX (x(k) ) = P {X ≤ x(k) } = pX (x(i) )
i=1
3. La fonction F (x) prend des valeurs comprises entre 0 et 1 :
0 ≤ F (x) ≤ 1, ∀x ∈ R
4. F (x(k) ) − F (x−
(k) ) = p(x(k) )
5. La fonction F (x) est monotone croissante (au sens large) :
∀xi < xj , F (xi ) ≤ F (xj )
6. La fonction F (x) “démarre” en 0 et “termine” en 1 (à −∞ la fonction vaut 0 et en ∞ la

fonction vaut 1)
– limx→−∞ FX (x) = 0
– limx→+∞ FX (x) = 1
7. La différence entre deux valeurs successives de la fonction de répartition est égale à la pro-
babilité de l’issue correspondante, soit, formellement :
∀xi ∈ RX , F (xi ) − FX (xi−1 ) = P({xi−1 < X ≤ xi }) .
Il y a donc un lien fort entre probabilité, masse de probabilité et fonction de répartition, tel
qu’on peut le voir sur la figure 3.5
En anticipant quelque peu sur le cas des variables aléatoires continues, on voit que la fonction
de probabilité est une différence entre valeurs de la fonction de répartition (en continu : déri-
vée) et que la fonction de répartition est une somme de valeurs de la fonction de probabilité
(en continu : intégrale).
8. La fonction F (x) est définie sur R, est continue à droite et est discontinue aux points
x1 , x2 , . . . , xn ∈ RX .
3.3 Les principales lois liées à des variables aléatoires dis-

crètes
3.3.1 Variable de Bernoulli
La variable aléatoire de Bernoulli est la plus simple que l’on puisse imaginer. Une loi de Ber-
noulli est associée à une expérience aléatoire simple : la réalisation ou non d’un événement A. Un
exemple simple d’expérience aléatoire de type Bernoulli est la suivante :
– Expérience aléatoire : lancer une « pièce »
– Univers : Ω = {P, F }
– Variable aléatoire X : x = 1 si « pile », x = 0 si « face »
On notera p = P(X = 1) et donc 1 − p = P(X = 0).
Définition 3.6 U

p(x)
p(xi−1 )
O
x1 x2 xi−1 xi xn
p(xi ) = F (xi ) − F (xi−1 )

F (x)
1
F (xi )
F (xi−1 )
0
x1 x2 xi−1 xi xn
Figure 3.5 – La fonction de répartition : lien avec la masse de probabilité.
ne variable aléatoire X est une variable de Bernoulli si et seulement si :
x pX (x)
1 p
0 1-p
x 6= {0, 1} 0
On dira que X ∼ Be(p) : la variable aléatoire X est distribuée selon la loi de Bernoulli
On parle souvent de la réalisation de l’événement A comme étant la “réussite” (et la réalisation

de Ac comme étant “l’échec”), ce qui explique l’utilisation de la probabilité p pour l’événement A
(x = 1).
Exemple 3.3.1 Encore la famille et garçon/fille

Dans ce cas, on définit l’événement A comme étant “le cadet est un garçon” et p = 1/2. On a
donc X ∼ Be(1/2). Si on définit l’événement A comme étant “les trois premiers enfants sont
des garçons”, on trouve aisément (sous l’hypothèse que le sexe d’un enfant est indépendant du
sexe de l’enfant précédent) que P(A) = 1/8 et donc X = Be(1/8). C
3.3.2 Variable aléatoire binomiale

Soit n variables aléatoires de Bernoulli, de même paramètre p, alors la somme des n v.a. de
Bernoulli est appelée une variable aléatoire binomiale.
Définition 3.7 Variable aléatoire binomiale

Soit Y1 ∼ · · · ∼ Yn ∼ Be(p) avec les Yi mutuellement indépendantes, alors :
X = Y1 + · · · + Yn ∼ Bi(n, p)
est une variable aléatoire binomiale.

Exemple 3.3.2 Jet de n pièces de monnaie
Supposons que l’on jette une pièce n fois. A chaque fois, la probabilité d’obtenir pile est p et
face 1 − p, indépendamment d’un jet à l’autre. Le succès est ici “pile” et donc Yi = 1. Le nombre
X n
de fois qu’on obtient “pile” est bien la somme des n v.a. Yi (X = Yi ).
i=1
Pour déterminer la loi binomiale, on s’intéressera donc à la probabilité d’obtenir exactement x
fois “pile”. En se référant à la section traitant de la combinatoire a , on obtient que :
n!
pX (x) = P(X = x) = Cnx px (1 − p)n−x si x = 0, 1, 2, · · · , n avec Cnx =
x!(n − x)!
La figure 3.6 illustre deux cas particuliers de loi binômiale. On remarquera que la loi binômiale
pour n grand tend vers une loi exponentielle. C
a. Toutes les expériences étant indépendantes, la probabilité d’obtenir x succès est px et la probabilité
d’obtenir n − x échecs est de (1 − p)( n − x). D’autre part, le nombre de combinaisons de x succès et de
n − x échecs est donné par Cn x.
Loinbinomiale
Loi binomiale, = 9, p = 1/2
n = 9, p = 1/2
0.25
p(x)
$p(x)$
0.20
0.15
0.10
0.05
0.00
0 1 2 3 4 5 6 7 8 9
x
x
Loi binomiale, n grand et p petit

0.16
p(x)
0.14
0.12
0.10
0.08
0.06
0.04
0.02
0.00
0 5 10 15 20 25 30 35 40 45 50
Figure 3.6 – Loi binômiale : deux cas distincts.
De l’exemple précédent, on peut déduire une autre définition de loi binômiale :
Définition 3.8 Variable aléatoire binomiale

Une variable aléatoire est binomiale X ∼ Bi(n, p) si et seulement si :


 C x px (1 − p)n−x n!
n si x = 0, 1, 2, · · · , n avec Cnx =
pX (x) = x!(n − x)!
 0 sinon
3.3.3 Variable aléatoire géométrique

On se base toujours sur une variable aléatoire de Bernoulli, mais cette fois-ci, on va s’intéresser
au temps qu’il faut attendre pour obtenir un premier succès.
Exemple 3.3.3 Permis de conduire
Vous désirez passer le permis de conduire. On considère qu’à chaque passage de l’examen, vous
avez une probabilité p de réussir. Quelle est la loi de probabilité correspondant à l’événement
“j’ai réussi l’examen après x essais”.
La réponse est relativement simple : si vous avez réussi l’examen après x essais, cela implique
que vous avez raté les x − 1 essais précédents : la probabilité de cet événement est (1 − p)x−1 ;
de plus, au xieme essai, vous réussissez l’examen avec probabilité p. La probabilité de réussite
à l’essai x est donc
P(X = x) = pX (x) = p(1 − p)x−1 , pour x = 1, 2, . . . .
Ici, on peut également déterminer aisément la fonction de répartition. En effet, F (x) représente
X x
la probabilité qu’il y ait au moins une réussite après x essais, soit F (x) = p(1 − p)i−1 =
i=1
1 − (1 − p)x .
Une façon encore plus simple de déterminer F (x) est de remarquer que la probabilité qu’il y
ait au moins une réussite après x essais est égale à 1-la probabilité qu’il n’y ait aucune réussite
après x essais. Or cette probabilité vaut (1 − p)x et donc F (x) = 1 − (1 − p)x .
C
Définition 3.9 Variable aléatoire géométrique

Une variable aléatoire suit une loi géométrique de paramètre p (on notera X ∼ Ge(p)) si et
seulement si :
p(1 − p)x−1

si x = 1, 2, . . .
pX (x) =
0 sinon
et
F (x) = 1 − (1 − p)x x = 1, 2, . . .
Exemple 3.3.4 Jeu de hasard

A la foire, vous misez 10 Euros à un jeu qui vous permet de gagner une montre avec une
probabilité de 0.6. Combien devez vous miser pour obtenir une montre avec une probabilité de
99 % ?
Soit Yi , la variable aléatoire liée à l’événement “j’ai gagné une montre au ieme essai”, alors Yi
est une v.a. de Bernoulli et Yi ∼ Be(0.6).
Soit X le nombre d’essais qu’il faut pour obtenir une montre, on a que X ∼ Ge(0.6). Cela
donne :
x 1 2 3 4 5 6 7 ···
pX (x) 0.6 0.24 0.096 0.038 0.015 0.006 0.002 ···
F (x) 0.6 0.84 0.936 0.974 0.989 0.996 0.998 ···
De ce tableau, on déduit qu’il faut 6 essais, et donc que le coût à prévoir si on veut une
probabilité de 99 % d’obtenir une montre est de 60 Euros. C

3.3.4 Variable aléatoire de Pascal
Supposons maintenant qu’on s’intéresse au fait de réussir une épreuve k fois. La question est
alors : quelle est la probabilité de réussir k fois en faisant x essais. La variable aléatoire liée à cette
expérience suit une loi de Pascal, que l’on note :
X ∼ P a(k, p).
L’extension de la variable géométrique est ici relativement simple : la probabilité d’obtenir k

succès est pk , la probabilité d’obtenir x − k échecs vaut (1 − p)x−k et donc la probabilité d’obtenir
k succès après x essais (sous entendant que le k eme succès arrive au xeme essai) vaut pk (1 − p)x−k .
D’autre part, le nombre de combinaisons possibles est le nombre de combinaisons de x − 1
éléments pris k − 1 à k − 1. On peut donc avancer la définition suivante :
Définition 3.10 Variable aléatoire de Pascal
Une variable aléatoire est dite de Pascal X ∼ P a(k, p) si et seulement si :

k−1 k
Cx−1 p (1 − p)x−k si x = k, k + 1, · · ·
pX (x) =
0 sinon
Exemple 3.3.5 Poker
Supposons que vous jouez au poker, avec un nombre infini de cartes, mais toutes en proportions
égales à celles du jeu de 52 cartes traditionnel.
On s’intéresse alors à la probabilité d’avoir une paire, un brelan et un carré (l’hypothèse ci-dessus
“simplifie” quelque peu le calcul), pour un tirage aléatoire de 5 cartes.
Pour une carte donnée, par exemple un as, la probabilité d’avoir une paire est la probabilité
d’avoir, après x cartes tirées, k = 2 cartes de valeur “as”. La probabilité d’avoir un as vaut
p = 1/13.
Dans ce cas, on obtient :
1
– Pour une paire : pX (x) = Cx−1 p2 (1 − p)x−2 Soit :
x 2 3 4 5 6 ···
pX (x) 0.0059 0.0109 0.0151 0.0186 0.0215 ···
Et donc la probabilité d’avoir une paire sur 5 cartes vaut 13.0.0186 = 0.242
2
– Pour un brelan : pX (x) = Cx−1 p3 (1 − p)x−3 Soit :
x 2 3 4 5 6 ···
pX (x) 0.0 0.00045 0.00126 0.00232 0.00358 ···
Et donc la probabilité d’avoir un brelan sur 5 cartes vaut 13.0.00232 = 0.06

C
Exemple 3.3.6 Jeu télévisé

Exemple pris du livre de P. Bogaert.

Une chaîne de télévision organise un jeu au cours duquel on pose des questions à choix multiples
à un candidat (3 choix possibles pour chaque question). L’épreuve est éliminatoire ; le candidat
dispose au départ d’un capital de 5 points et perd un point à chaque mauvaise réponse qu’il
donne. Le jeu s’arrête après 10 questions (le candidat gagne alors la partie s’il lui reste au moins
un point) ou avant si le candidat n’a plus de points. Quelle est la probabilité qu’un candidat
gagne la partie si :
1. il donne les réponses au hasard ;
2. il élimine une mauvaise réponse (pour chaque question) et choisit au hasard parmi les
deux réponses restantes ?
Solution
1. En posant Ai = "la réponse à la ieme question est fausse”, Yi ∼ Be(p) où Yi = 1 est
associé à la réalisation de Ai . En supposant l’indépendance entre les différentes réponses
et une probabilité p identique de se tromper pour chaque question, X ∼ P a(5, p) est le
nombre de questions posées ayant fait perdre les 5 points. Si le candidat répond au hasard
(p = 2/3), on obtient :
x 5 6 7 8 9 10 ···
pX (x) 0.13 0.22 0.22 0.17 0.11 0.07 ···
FX (x) 0.13 0.35 0.57 0.74 0.86 0.92 ···
On voit qu’il y a une probabilité de 92 % de perdre 5 points après 10 questions et donc
une probabilité de 8 % de gagner si le candidat répond au hasard.
2. Avec le même raisonnement, mais avec p = 1/2, on obtient :
x 5 6 7 8 9 10 ···
pX (x) 0.03 0.08 0.12 0.14 0.14 0.12 ···
FX (x) 0.03 0.11 0.23 0.36 0.50 0.62 ···
On voit qu’il y a une probabilité de 62 % de perdre 5 points après 10 questions et donc

une probabilité de 38 % de gagner si le candidat peut éliminer une mauvaise réponse.
C
3.3.5 Variable aléatoire de Poisson

En se référant à la figure 3.6, on voit que la loi binomiale a un comportement asymptotique
particulier pour p petit et n grand. En se rappelant que la loi binomiale correspond à compter le
nombre d’occurrences d’un événement pour un nombre d’observations donnés, on voit que pour un
nombre d’observations grand (tendant vers l’infini) et une probabilité d’occurrence de l’événement
p petite tend vers une loi ressemblant à une exponentielle (voir figure 3.6).
On s’intéresse donc à la probabilité d’observer un certain nombre de réalisations d’un événement
A, de probabilité P(A) = p très petite. La loi de probabilité du nombre d’occurrences X cet
événement tendra vers la loi de Poisson de paramètre µ, ce que l’on notera :
X ∼ P o(µ)
.
La fonction de probabilité pX (x) de la v.a. de Poisson vaudra alors :
Définition 3.11 Variable aléatoire de Poisson

Une v.a. discrète est dite de Poisson (X ∼ P o(µ)) si et seulement si :

 e−µ µx
pX (x) = si x = 0, 1, 2, · · · µ>0
 0 x! sinon

La loi de Poisson est très utilisée quand on veut modéliser le nombre d’occurrences d’un évé-
nement sur une unité de temps ou d’espace. Le paramètre µ est sans dimensions, mais peut être
considéré comme étant le produit d’une intensité λ et d’une grandeur physique qui peut être, par
exemple, un intervalle de temps (auquel cas µ = λt où t est l’intervalle de temps sur lequel on
mesure le nombre d’occurrences.)
Les domaines d’application de la loi de Poisson sont nombreux. On peut citer : le nombre de
trames IP arrivant sur un routeur, le nombre de clients arrivant à un guichet de la poste pendant
une heure, le nombre de désintégrations radioactives enregistrées par un compteur sur une seconde,
...
Approximation de la loi binomiale
Soit une loi binomiale X ∼ Bi(n, p) de valeurs n grande et p petite et de produit np fini.
Dans ce cas, on a un événement de faible probabilité, mais qui après un grand nombre d’essais, se
produira np fois en moyenne. Cette loi binomiale peut être approximé par une loi de Poisson W
de paramètre w = np. On a donc, pour une variable aléatoire binomiale :
n→∞
X ∼ P o(np)
En effet, la masse de probabilité pX (x) de la binomiale vaut :

n! wx w n−x
pX (x) = nx px (1 − p)n−x = 1 −
x!(n − x)! nx n
x
n(n − 1) . . . (n − x + 1) w w n−x
= 1−
x! nx n
x
nn−1 n−x+1w w n
w −x
= ... 1− 1−
n n n x! n n
wx −w w x
−→ 1 · 1 · . . . · 1 e · 1 = e−w = pW (x)
n→∞ x! x!
3.4 Variable aléatoire continue

Du point de vue pratique, une variable aléatoire discrète X est définie sur un domaine de
variation RX composé d’un nombre fini ou d’une infinité dénombrable de valeurs. Si RX est un
domaine continu, donc composé d’un nombre infini non dénombrable de valeurs possible, on a une
variable aléatoire continue.
Définition 3.12 Variable aléatoire continue
Une variable aléatoire continue est une variable aléatoire définie sur un domaine de variation
continu.
Exemple 3.4.1 Voltmètre analogique
On s’intéresse à la tension continue délivrée par un ensemble de générateurs de tension unipo-

laires. Cette tension continue peut prendre n’importe quelle valeur sur RX = [0, ∞]. C
Exemple 3.4.2 Mesure de tailles

On s’intéresse à la mesure de la taille moyenne de toutes les classes de collège de France. Cette
taille moyenne suit une loi normale (nous verrons plus tard ce que cela signifie) de moyenne 150
cm et d’écart-type égal à 15 cm. On veut déterminer la masse de probabilité pour des mesures
faites avec une précision de 10 cm, 5, 1 et 0.5 cm.
La figure 3.7 montre les différentes masses de probabilité pour les variables aléatoires discrètes
associées, ainsi qu’en trait continu, la densité de probabilité pour la variable aléatoire continue
représentant la taille moyenne. La somme des masses de probabilité devant être égale à 1, on
voit clairement une évolution vers des valeurs de plus en plus petites de pX (x). On notera que
les valeurs de la masse de probabilité coïncident avec celles de la densité de probabilité pour un
pas de quantification de 1 cm. La raison en est simplement que X est exprimé en centimètres
...
La figure 3.7 a été générée par le code ci-dessous.
C
Scilab : v.a. normale discrétisée
clear f
clear pi
pi=zeros(4,3001);
// calcul de la "cdf" : Cumulative Distribution Function
// c’est-Ã -dire la fonction de rÃ c partition,
// pour une normale de moyenne de 15 et d’Ã c cart-type de 150.
// Elle est calculÃ c e pour x de 0.1 Ã 310 par pas de 0.1
for i=1:3200
f(i)=cdfnor("PQ",(i)/10,150,15);
end;
// calcul de la densitÃ c de probabilitÃ c de la normale
// mÃa mes paramÃ¨tres, pour x de 1 Ã 300 par pas de 1
x=[0:300];
fx=1/sqrt(2*%pi)/15.*exp(-0.5.*(x-150).^2/15/15);
x_en_mm=[0:10:3000];
// calcul de la masse de probabilitÃ c pour
// une discrÃ c tisation par 10 cm, 5, 1 et 0.5 cm
s=[100,50,10,5];
for j=1:length(s)
for i=s(j):s(j):3000
pi(j,i+1)=f(i+s(j))-f(i);
end
end
titre(1) = "masse de probabilite de la mesure par 10 cm";

titre(4) = "masse de probabilite de la mesure par 0.5 cm";
// Figures en 4 parties (subplot( ...))

clf;
j=1;
subplot(2,2,j);
// Une masse de probabilitÃ c est une sÃ c rie de "barres"
bar([0:s(j):3000]+s(j)/2,pi(j,1:s(j):3001),0.00001);
// TracÃ c de la densitÃ c de proba pour la v.a. continue
plot(x_en_mm,fx,’r’);
// Petits trucs pour avoir les mÃa mes axes sur les 4 parties
// Et Ã c galement pour avoir les axes corrects
// Get the axes
b=gca();
// Get the data bounds
dbound=b.data_bounds;
// Get the X axes ticks
xticks=b.x_ticks;
// Their values
xx=xticks(3);
// Their locations
xl=xticks(2);
// Define new locations (to get the "150" value appear)
xl=[0:100:3000]’;
// Erase all tick labels (otherwise there are too many
// of them)
for i=1:31

xx(i)="";
end
// Define the tick labels we want (5 times less than orig.)
for i=1:5:31
xx(i)=string(10*i-10);
end
// Reassign the ticks defined to the current subplot
xticks(3)=xx;
xticks(2)=xl;
b.x_ticks=xticks;
// Assign the relevant title to the subplot
b.title.text=titre(1);
// do the 3 other plots the same way
for j=2:4
subplot(2,2,j);
bar([0:s(j):3000]+s(j)/2,pi(j,1:s(j):3001),0.00001);b=gca();
plot(x_en_mm,fx,’r’);
b.title.text=titre(j);
b.x_ticks=xticks;
b.data_bounds=dbound;
end
// we’re done .... just save the figure under eps and epstopdf ...
masse de probabilite de la mesure par 10 cm masse de probabilite de la mesure par 5 cm

0.25 0.25
0.20 0.20
0.15 0.15
0.10 0.10
0.05 0.05
0.00 0.00
0 50 100 150 200 250 300 0 50 100 150 200 250 300
masse de probabilite de la mesure par 1 cm masse de probabilite de la mesure par 0.5 cm

0.25 0.25
0.20 0.20
0.15 0.15
0.10 0.10
0.05 0.05
0.00 0.00
0 50 100 150 200 250 300 0 50 100 150 200 250 300
Figure 3.7 – Évolution d’une masse de probabilité “vers” une densité de probabilité
3.4.1 Fonction de répartition

Dans le cas des v.a. discrètes, la valeur de la v.a. était directement liée à la probabilité d’une
issue élémentaire. Dans le cas de v.a. continues, un événement est du type “la tension de sortie est
comprise entre 5 et 7 Volts”, on ne peut donc pas se baser sur une issue élémentaire (par exemple,
“la tension de sortie vaut exactement 5 Volts” est une issue élémentaire, mais sa probabilité est
nulle !). On se base donc plutôt sur la probabilité associée à un événement du type “la tension de

sortie est inférieur à 7 volts”. De la même manière que pour les v.a. discrètes, on peut définir la
fonction de répartition comme étant FX (x) = P(X ≤ x). La différence principale étant que cette
fonction de répartition sera continue, comme illustré dans la figure 3.8.
FX (x)
1
F (b)
F (a)
0
? a b
Figure 3.8 – Fonction de répartition d’une v.a. continue.
D’autre part, on peut aisément calculer la probabilité d’un événement du type appartenance
à un intervalle [a, b] (a ≤ X ≤ b où a < b). En effet, on a que
P(a ≤ X ≤ b) = FX (b) − FX (a)
En effet, (a ≤ X ≤ b) = (X ≤ b) (X ≤ a) et donc P(a ≤ X ≤ b) = P(X ≤ b) − P(X ≤ a).
Remarque Dans le cas continu, la probabilité P(X = x) = 0 et donc FX (x) = P(X ≤ x) =
P(X < x).
3.4.2 Densité de probabilité

Si P(X = x) = 0, la probabilité d’être “autour de x” est une quantité importante (qu’on appelle
vraissemblance), qui est la densité de probabilité :
Définition 3.13 Densité de probabilité
La densité de probabilité fX (x) est définie par :
fX (x) = lim P(x < X ≤ x + )

→0
On remarque que P(x < X ≤ x + ) = FX (x + ) + −FX (x) et donc, en supposant la fonction

de répartition dérivable, on a la définition suivante :
Définition 3.14 Densité de probabilité
La densité de probabilité fX (x) est définie par :
dFX (x)
fX (x) =
dx
Et la densité de probabilité n’est autre que la pente de la fonction de répartition. Cette dualité
entre fonction de répartition et densité de probabilité est illustrée dans la figure ??. On notera que
l’appellation est un peu plus explicite en anglais où la fonction de répartition se dit “cumulative
density function (cdf)” et traduit bien qu’il s’agit d’un intégrale (cumulative) de la densité qui
s’appelle “probability density function (pdf)”.

Figure 3.9 – La densité de probabilité comme dérivée de la fonction de répartion

ou ...
La fonction de répartition comme intégrale de la densité de probabilité

Propriétés
La densité de probabilité est une fonction qui a les propriétés suivantes :
fX (x) ≥ 0
– Z ∀x ∈ R (car la fonction de répartition est monotone croissante).
∞
– fX (x)dx = 1 (car F (∞) = 1, en d’autres mots, l’événement Ω a une proabilité de 1).
−∞
Z b
– P(a ≤ X ≤ b) = fX (x)dx (même raisonnement que plus haut).
a
– De façon un peu plus générale, si un événement est défini par B ∈ RX , alors
Z
P(B) = f (x)dx.
x∈B
3.4.3 Quelques variables continues

V.a. uniforme
Définition 3.15 Variable aléatoire uniforme
Une variable aléatoire uniforme que l’on note
X ∼ U n(a, b)
est définie par sa densité de probabilité :

1

b−a
si x ∈ [a, b]
fX (x) =
0 sinon
Elle est définie de façon équivalente par sa fonction de répartition :


 0 si x ≤ a
x−a
FX (x) = b−a
si x ∈ [a, b]
1 sinon

La figure 3.10 illustre la loi que suit une v.a. uniforme.
Exemple 3.4.3 Angle et fléchettes

Quand on tire des flèches à un jeu de fléchettes, dans la mesure où l’objectif est de se rapprocher
le plus possible du centre et que l’angle a peu d’importance, on considèrera que l’angle que forme
le rayon qui va de la fléchette au centre de la cilbe avec l’horizontale est “équiprobable”. Cet
angle suit donc une loi uniforme X ∼ U n(0, 2π).
C
V.a. exponentielle
Une variable aléatoire X prenant uniquement des valeurs non négatives et ayant une vraissem-
blance exponentiellement décroissante (i.e. une densité de probabilité exponentielle décroissante)
est appelée une v.a. exponentielle.
Définition 3.16 Variable aléatoire exponentielle

Une variable aléatoire est dite exponentielle de paramètre λ, notée X ∼ Exp(λ) si et seulement
si :
λe−λx 1 − e−λx

si x ≥ 0 si x ≥ 0
fX (x) = ; FX (x) =
0 sinon 0 sinon
Les fonctions de répartition et de probabilité de la v.a. exponentielle sont illustrée dans la

figure 3.11

Figure 3.10 – Loi de probabilité uniforme
Figure 3.11 – Loi de probabilité exponentielle

Exemple 3.4.4 Durée de vie d’un composant
On considère souvent que la durée de vie des composants électroniques suit une loi exponen-
tielle. Un fabricant considère par exemple que ses composants suivent une loi exponentielle de
paramètre λ = 20 1
ans−1 (on montrera plus tard que ça veut dire que l’espérance de vie du
composant est de 20 ans). On demande de calculer :
– La probabilité que le composant fonctionne plus de (10 ; 15 ; 20 - ;25) ans.
– La demi-vie, i.e. le temps x tel que la probabilité que la durée de vie excèede x soit égale à
0.5. L’appellation “demi-vie” vient du fait que si une population suit une loi exponentielle,
la moitié de la population aura disparu au moment de la demi-vie. Une population de type
exponentielle est par exemple une population d’atomes radioactifs. On appelle alors λ la
constante de désintégration.
Solution
– On a que P(X > x) = 1 − P(X < x) = 1 − FX (x), ce qui donne des probabilités de ( 0.61 ;
0.47 ; 0.37 ; 0.29). On notera que si l’espérance de vie est de 20 ans, la probabilité d’atteindre
20 ans n’est que de 37 % !.
– On cherche x tel que 1 − FX (x) = 0.5, donc Fx = e−x/λ = 0.5 : x = −20 ∗ ln 0.5 ' 13.8, et la
demi-vie est de presque 14 ans.
C
D’autre part, on montre que si le nombre d’arrivées d’un événement Y suit une loi de Poisson
(ce qui est une hypothèse classique), alors le temps X séparant deux événements consécutifs suit
une loi exponentielle X ∼ Exp(λ). En effet, si Y ∼ P oλx est le nombre d’arrivées ur un intervalle
[0, x], alors P(Y = 0) = P(X > x) ⇔ e−λx = 1 − FX (x), donc FX (x) = 1 − e−λx et X soit une loi
exponentielle.
Exemple 3.4.5 Nombre de colis à la poste
De manière à organiser le travail, le manager du bureau de poste veut avoir une idée du nombre
de colis reçu en un jour, mais également le temps entre l’arrivée de deux colis. Il part du principe
que le nombre de colis C arrivant par jour suit une distribution (loi) de Poisson de paramètre λt
= 10, où t est une journée. On demande alors la probabilité qu’il y ait plus de [1, 2, 5, 10, 15, 20]
paquets par jour. Ensuite, on cherche la probabilité qu’il y ait plus de [1, 2, 3, 4, 5, 10] paquets
par heure (en considérant une journée de 8 heures). Que deviennent ses probabilités si λt =100
(pour une journée).
De plus, le temps qu’il faut pour traiter un paquet étant de cinq minutes, le manager veut savoir
quelle est la probabilité qu’il y ait plus de deux colis arrivant en moins de 5 minutes.
e−µ µx
– En se souvenant que pour une v.a. C de Poisson, PC (c) = , pour x entier na-
x!
turel, on peut aisément calculer la masse de probabilité de C. Ensuite, on remarque
que P(C > c) = 1 − (P(C = 0) + ... + P(C = c − 1)). Par exemple, P(C > 1) = 1 −
P(C = 0) − P(C = 1) = 1 − 0.0000454 − 0.0000454 = 0.9995 Avec ces données, pour λt
= 10, on a que les probabilités d’avoir plus de [1, 2, 5, 10, 15, 20] colis par jour valent
[0.99950060.99720.93290.41690.04870.0015]. Il y a donc un peu moins d’une chance sur deux
d’avoir plus de 10 colis par jour et quasiment aucune chance d’avoir plus de 20 colis par jour.
– Si on raisonne en heures, le nouveau paramètre de la loi de Poisson vaut λt = 10 / 8 =
1.25. Avec le même raisonnement que précédemmen, on a que les probabilités d’avoir plus de
[1, 2, 3, 4, 5, 10] paquets par heure valent [0.35, 0.13, 0.04, 0.01, 0.002, 10−7 ]
– Avec λt=100 colis*jour, on obtient des probabilités de 100 % (P(C < 20) de l’ordre
de 10−20 . Les probabilités d’avoir plus de [1, 2, 3, 4, 5, 10] colis par heure sont de :
[0.99990.99960.99840.9940.98520.7029253].
– Le temps séparant l’arrivée de deux colis est suit une loi exponentielle X ∼ Exp(λ), soit ici λ
= 10 (resp. 100) jours−1 . La probabilité qu’il y aie moins de deux colis en 5 minutes demande
de nous baser sur un temp t de 5 minutes, et donc de diviser λ par 8 (heures) * 12 (t par heure),
soit respectivement λ = 0.104 et λ = 1.04. On obtient alors que P(X < 1) = 1 − e−0.104 = 0.1
(respectivement 0.65). Dans le premier cas, il y a donc une probabilité de 10 % d’avoir deux
colis en moins de 5 minutes, et cette probabilité monte à 65 % dans le second cas.
C

V.a. Normale
La variable aléatoire est la variable aléatoire par excellence, celle qui modélise ce qui est le plus
aléatoire possible. En effet, le théorème central limite, dont nous verrons un énoncé formel plus
loin, nous indique que si on prend un grand nombre de variables aléatoires quelconques, et qu’on
les additionne, on obtient une variable aléatoire normale.
Exemple 3.4.6 Huile d’olive
Les moulins de la Brague produisent des bouteilles d’un litre d’huile d’olive. La quantité d’huile
est une variable aléatoire uniformément répartie entre 0.98 et 1.02 litres. Un client achète 100
bouteilles (la contenance de chaque bouteille est indépendante de celle des autres bouteilles et
suit une loi uniforme ...). La loi de probabilité de la contenance totale sera proche d’une loi
normale (ici de moyenne 100). C
Définition 3.17 Variable aléatoire Normale
Une variable aléatoire normale (encore appelée Gaussienne) de paramètres µ (fini) et σ 2 (posi-
tif), notée
X ∼ N (µ, σ 2 )
est définie par sa densité de probabilité :

1 1 x−µ 2
fX (x) = √ e− 2 ( σ ) ∀x ∈ R
σ 2π
Le graphe de la loi de probabilité est donné dans la figure 3.12. On notera sur ce tracé que la
probabilité de se trouver à plus de 3σ de la moyenne est très faible (de l’odre de un pour mille).
D’autre part, on notera que la vraissemblance en µ vaut 0.4σ alors que la vraissemblance en µ ± σ
vaut 0.35
σ . Les deux vraissemblances sont donc relativement proches.
Nous aurons l’occasion de manipuler cette loi de façon extensive dans la partie statistiques.
09987
0.0013
Figure 3.12 – Loi de probabilité normale
On notera qu’il n’existe pas d’expression analytique de la primitive de fX (x) et que la fonction
de répartition FX (x) est donc définie sous forme intégrale.

3.4.4 v.a. Laplacienne

La variable aléatoire Laplacienne est similaire à la normale, sauf qu’elle décroit plus lentement
(on dit que c’est une variable aléatoire à queue lourde).
Définition 3.18 Variable Aléatoire Laplacienne

Une variable aléatoire continue X est dite Laplacienne si et seulement si sa densité de probabilité
est donnée par :
r !
1 2
fX (x) = √ exp − |x − µ| x ∈ R. (3.1)
2σ 2 σ2
Sa fonction de répartition est alors donnée par :
p
FX (x) = 0.5 ∗ (1 + sign(x) ∗ exp − σ 2 /2|x − µ| x ∈ R. (3.2)
La figure 3.13 montre clairement que la décroissance de fX (x) est plus lente que celle de la v.a.
normale (voir par exemple les valeurs de la fonction de répartition à 3σ de la moyenne.
0.45
0.40
0.992 0.35
0.30
0.25
0.20
0.15
0.10
0.008 0.05
0.00
-6 -4 -2 0 2 4 6
- 0.05
Figure 3.13 – Loi de probabilité laplacienne
3.4.5 v.a. de Cauchy

La variable aléatoire Laplacienne est similaire à la normale, sauf qu’elle décroit plus lentement
(on dit que c’est une variable aléatoire à queue lourde.
Définition 3.19 Variable Aléatoire de Cauchy

Une variable aléatoire continue X est dite Laplacienne si et seulement si sa densité de probabilité
est donnée par :
1
fX (x) = x ∈ R. (3.3)
π(1 + x2 )
Sa fonction de répartition est alors donnée par :
1 1
FX (x) = arctan(x) + x ∈ R. (3.4)
π 2
La figure 3.14 montre clairement que la décroissance de fX (x) est plus lente que celle de la
v.a. normale et que la v.a. Laplacienne (voir par exemple les valeurs de la fonction de répartition
à 3σ de la moyenne.

0.45
0.40
0.35
0.89
0.30
0.25
0.20
0.15
0.10
0.11
0.05
0.00
-6 -4 -2 0 2 4 6
- 0.05
Figure 3.14 – Loi de probabilité de Cauchy
La loi de Cauchy est obtenue comme étant le quotient de deux variable aléatoires normales
centrées réduites.
3.4.6 v.a. de Rayleigh

Une variable aléatoire très utilisée dans le domaine de l’ingéniérie est la varable aléatoire de
Rayleigh (du nom du physicien britannique Lord Rayleigh). Cette variable aléatoire est la racine
carrée de la somme des carrés de deux v.a. normales. C’est par exemple l’amplitude d’une grandeur
complexe dont la partie réelle et imaginaires sont des normales. Nous verrons un exemple de cette
v.a. dans les exercices.
Définition 3.20 v.a. de Rayleigh

Une v.a. de Rayleigh est définie par sa densité de probabilité :
(
x 1 x2
2 exp − 2 σ 2 x≥0
fX (x) = σ (3.5)
0 x≤0
Sa fonction de répartition est donnée par :
( 2

1 − exp − 12 σx2 x≥0
fX (x) = (3.6)
0 x<0
3.5 Variables aléatoires conditionnelles

De la même manière qu’il existe des probabilités conditionnelles, il existe évidemment des
variables aléatoires conditionnelles. Nous introduirons les v.a. conditionnelles en trois étapes : (1)
une v.a. conditionnée sur un événement, (2) une v.a. discrète conditionnée sur une autre v.a. et
(3) une v.a. continue conditionné sur une autre v.a. continue.
3.5.1 Variable aléatoire conditionnée sur un événement

Soit une variable aléatoire quelconque X et un événement A, on s’intéresse à ce que devient
cette variable aléatoire si on sait que A est vrai (i.e. l’événement s’est effectivement déroulé). Nous

0.5
0.4
0.3
0.2
0.1
0.0
-1 0 1 2 3 4 5 6
- 0.1
Figure 3.15 – Loi de probabilité de Rayleigh (variance = 4)
connaissons les relations entre les probabilités conditionnelle et les probabilités conjointes et nous
allons donc les utiliser, en nous basant sur la fonction de répartition, qui est une probabilité.
Définition 3.21 Fonction de répartition conditionnelle
Soit un événement aléatoire A de probabilité non nulle, on définira la fonction de répartition
conditionnelle FX|A (x|A) telle que :
P((X ≤ x) ∩ A)
FX|A (x|A) = P((X ≤ x)|A) = .
P(A)
Cette définition est valable tant pour les variables aléatoires discrètes que pour les variables
aléatoires continues. Pour la fonction de probabilité, on peut dériver, de façon simple, les définitions
suivantes :
Définition 3.22 Masse de probabilité conditionnelle
Soit un événement aléatoire A de probabilité non nulle, on définira la masse de probabilité
conditionnelle pX|A (x|A) telle que :
P((X ≤ x) ∩ A)
pX|A (x|A) = P((X ≤ x)|A) = .
P(A)
Définition 3.23 Densité de probabilité conditionnée sur un événement

Soit un événement aléatoire A de probabilité non nulle, on définira la densité de probabilité
conditionnelle fX|A (x|A) telle que :
dFX|A (x|A)
fX|A (x|A) =
dx
3.5.2 Variable aléatoire conditionnelle discrète

Soient deux variables aléatoires discrètes X et Y , on s’intéresse à la variable aléatoire condi-
tionnelle X conditionnée sur Y . De façon simple, il s’agit, ∀xi de connaitre P(X = xi |Y = yj ). Il
s’agit donc de la variable aléatoire conditionnée sur l’événement (Y = yj ), et on se retrouve dans
le cas précédent.

3.5.3 Variable aléatoire conditionnelle continue

Intuitivement, si on a deux variables aléatoires continues, par exemple X le la température à
midi et Y la lattitude, on peut être intéressé par la température à midi, sachant à quelle lattitude
nous sommes. Dans ce cas, on cherche la densité de X conditionnée sur Y .
On se rappelera que P(x < X ≤ X + ∆x ) = fX (x)∆x , pour ∆x infiniment petit (ceci découle
directement de la définition de densité de probabilité). On peut donc utiliser la relation qui lie les
probabilités conditionnelles aux probabilités conjointes :
P((x < X ≤ X + ∆x ), (y < Y ≤ Y + ∆y ))

P((x < X ≤ X + ∆x )|(y < Y ≤ Y + ∆y )) =
P(y < Y ≤ Y + ∆y )
On en déduit directement que
fXY (xy)∆x ∆y
fX|Y (x|y)∆x =
fY (y)∆y
ce qui, par passage à la limite, donne la définition ci-dessous.
Définition 3.24 Densité de probabilité conditionnelle

Soient deux variable aléatoires continues X et Y , de densité conjointe fXY (xy) et de densité
fY (y) non nulle sur le support de Y , alors la densité conditionnelle, dite de X conditionnée sur
Y est donnée par :
fXY (xy)
fX|Y (x|y) = .
fY (y)
On exprime également la densité conditionnelle de la manière suivante, en explicitant la valeur

de Y sur laquelle on conditionne :
fXY (xy)
fX|Y (x|Y = yo ) = .
fY (yo )
3.6 Grandeurs caractéristiques

Dans la section précédente, nous avons défini les variables aléatoires comme étant des fonctions
de l’univers vers leur domaine de définition, qui est compris dans l’espace des réels. De plus, nous
avons vu qu’une variables aléatoires peut être complètement caractérisée par sa loi de probabilité,
représentée soit par sa densité de probabilité (ou masse de probabilité pour une v.a. discrète), soit
par sa fonction de répartition.
Comme nous le disions en introduction, on peut s’intéresser à des caractéristiques plus simples,
comme la moyenne par exemple, qui donne une vision partielle, mais utile, de la variable aléa-
toire. Dans cette section, nous allons passer en revue les principales grandeurs caractéristiques des
variable aléatoires, à savoir :
Le Mode d’une v.a. X est la valeur xm telle que la fonction de probabilité est maximale en ce
point. On parle également de valeur la plus vraisemblable.
La Médiane d’une v.a. X est la valeur x 21 telle que la probabilité que X soit plus petit ou égale
à x 12 vaut 0.5.
Les Quantiles d’une v.a. X, plus précisément le p-quantile est la valeur xp telle la probabilité
que X soit plus petite ou égale à xp vaut p.
L’espérance mathématique d’une v.a. X est la moyenne de cette v.a., pondérée par sa densité
de probabilité. Intuitivement, c’est la valeur qu’on s’attend à observer en moyenne (que l’on
“espère” observer).

La variance d’une v.a. X est une mesure (du carré) de la variation qu’on peut observer autour
de la moyenne. L’espérance et la variance donnent une bonne idée du domaine de variation
de la variable aléatoire X.
Les moments d’une v.a. X sont l’espérance des puissances de la v.a. (donc la moyenne est le
moment d’ordre 1, puisque c’est l’espérance de la X à la puissance 1, le moment d’ordre 2
est lié à la variance, etc.).
3.6.1 Le Mode
Définition 3.25 Mode
Le mode d’une variable aléatoire X est la valeur xm telle que :
∀x ∈ RX , x 6= xm , pX (xm ) > pX (x) pour une v.a. discrète ;
∀x ∈ RX , x 6= xm , fX (xm ) > fX (x) pour une v.a. continue.
On notera également que la densité de probabilité liée à la fonction de vraisemblance, que l’on
verra dans le cadre de l’estimation. Le mode est alors lié au maximum de vraisemblance (c’est la
valeur “la plus vraisemblable” que prendra la variable aléatoire).
Quelques remarques
On impose une inégalité stricte (fX (xm ) > fX (x)), donc :
– le mode n’est pas toujours défini (exemple de l’uniforme) ;
– à strictement parler, il n’y a qu’un seul mode. Cependant, on parle souvent de v.a. multi-
modale s’il y a plusieurs maxima locaux ; dans le cas contraire, on parle de v.a. unimodale.
Un exemple typique est le cas d’un mélange de variables aléatoires, ou encore dans le cas de
l’exemple suivant :
Exemple 3.6.1 v.a. multimodale : notes d’un D.S.

Un Devoir Surveillé est censé vérifier que les étudiants ont compris et travaillé, et la loi de
probabilité des notes obtenues devrait refléter cet état de fait. Pour le D.S. de statistiques
appliquées, la loi de probabilité des notes pour les étudiants qui ont travaillé leur cours est
approximée par une normale de moyenne égale à 14 et d’écart-type égal à 2, tandis que les
notes des étudiants qui n’ont pas préparé suivent une loi normale de moyenne égale à 8 et
d’écart-type égal à 2. On appelle N la v.a. représentant les notes, l’événement P ≡ “l’étudiant
a préparé” et P C sont complément.
On a donc que N |P ∼ N (14, 4) et N |P c ∼ N (8, 4). Dans le cas optimiste, on aura P(P ) = 0.7
et dans le cas pessimiste, on aura P(P ) = 0.5.
La figure 3.16 illustre ces cas. On voit clairement la nature multimodale de la densité résultante,
même s’il faut une probabilité “optimiste” relativement faible pour voir apparaître le groupe qui
n’a pas préparé.
C
Scilab : Génération d’une densité bimodale gaussienne
// exemple cours modes / notes de cours

//
// calcul de la densité de probabilité de la normale
clear fx;
P_opt=0.7;
P_pess=0.5;
x=[0:20];
m=[14,8];
v=[4,4];

for i=1:2
fx(i,:)=1./sqrt(2*%pi.*v(i)).*exp(-0.5.*(x-m(i)).^2./v(i));
end
f_opt=fx(1,:)*P_opt+fx(2,:)*(1-P_opt);
f_pess=fx(1,:)*P_pess+fx(2,:)*(1-P_pess);
scf(0);
clf;
plot(x,fx’,’-b’,x,f_opt,’o-r’,x,f_pess,’x-g’)//,f_opt,’o-r’)//,f_opt,’o-r’,f_pess,’x-g’);
h1=legend(’densites conditionnelles’,’densites conditionnelles’,’densite multimodale optimiste’,’densite multimodale pessimiste’)
//plot(f_opt,’o-r’);
//plot(f_pess,’x-g’);
xlabel(’notes sur 20’);
filename="/Users/ld/EPU/cours/StatistiquesAppliquees/cours/fig_va_cont_modes’;
xs2eps(0,filename);
unix(strcat([’epstopdf ’,filename,’.eps’]));
0.20
densites conditionnelles
densites conditionnelles
0.18
densite m ultim odale optim iste
densite m ultim odale pessim iste
0.16
0.14
0.12
0.10
0.08
0.06
0.04
0.02
0.00
0 2 4 6 8 10 12 14 16 18 20
notes sur 20
Figure 3.16 – Densité de probabilité bimodale
3.6.2 La Médiane et les Quantiles

Définition 3.26 Médiane
La médiane d’une variable aléatoire X est la valeur x 1 telle que :
2
4 1
P X ≤ x 1 = F (x 1 ) =
2 2 2
On notera que la médiane existe toujours pour une variable aléatoire continue, par contre, pour
une variable aléatoire discrète, cette valeur peut ne pas exister. Par exemple, dans le cas simple
d’une variable de Bernoulli de paramètre p 6= 12 cette grandeur n’existe de toute évidence pas.
Une extension simple, mais très souvent utilisée, de la médiane est le p−quantile.
Définition 3.27 p−quantile

Le p−quantile d’une variable aléatoire X est la valeur xp telle que :

4
P(X ≤ xp ) = F (xp ) = p, p ∈ [0, 1].
On distingue en particulier
La médiane : pour p = 1/2, qui “divise” en deux le domaine de variation de la v.a.
Les quartiles : pour p = 1/4 (le premier quartile), p = 1/2 et p = 3/4 (le troisième quartile.
Les quartiles “divisent” le domaine de variation de la v.a. en quatre parties “égales” (c’est- L’uti-
à-dire dont la surface sous la densité de probabilité est divisée en quatre parties égales).
On a donc que la probabilité de se trouver entre deux quartiles successifs vaut 1/4.
Les déciles : pour p = k/10, k = 1, 2, . . . , 9. x0.1 est le premier décile, etc. On a donc que la
probabilité de se trouver entre deux déciles successifs vaut 1/10.
Les centiles : pour p = k/100, k = 1, 2, . . . , 99. L’utilité est plutôt pour les grands et petits
centiles, par exemple, a probabilité d’obtenir une valeur supérieur au 99me centile est de
1 pourcent.
lité principale des quantiles est d’obtenir un intervalle de valeurs à l’intérieur duquel on a une
probabilité p de se trouver. On parle alors d’intervalle de confiance.
Définition 3.28 Intervalle de confiance

Un intervalle de confiance (bilatéral) [a, b] au niveau p est tel que
P(a ≤ X ≤ b) = p.
Un intervalle de confiance (unilatéral) [−∞, b] au niveau p est tel que :
P(X ≤ b) = p.
Un intervalle de confiance (unilatéral) [a, ∞] au niveau p est tel que :
P(a ≤ X) = p.
Dans le cas d’un intervalle de confiance bilatéral, l’intervalle est choisi de telle manière que la
probabilité que la v.a. soit plus petite que a est la même que la probabilité que la v.a. soit plus
grande que b.
On a alors P(X < a) = P(X > b) = (1 − p)/2 = α/2, où on a posé α = 1 − p. α représente
alors la probabilité qu’on a de se tromper si on fait l’hypothèse que la réalisation x de la v.a. X
est dans l’intervalle [a, b], et on a que a = xα/2 et b = x1−α/2 .
De façon similaire, dans le cas unilatéral on a a = xα et b = x1−α .
La figure 3.17 illustre les intervalles de confiance à 90 pourcent pour une variable aléatoire
normale centrée réduite.
3.7 Espérance mathématique

3.7.1 Définition
D’un point de vue intuitif, on peut définir l’espérance d’une variable aléatoire comme étant la
valeur que l’on s’attend à observer en moyenne pour la variable aléatoire X. D’un point de vue
plus précis, l’espérance mathématique est la moyenne des valeurs prises par la variable aléatoire
X, ces valeurs étant pondérées par la fonction de probabilité (masse ou densité). On obtient donc
la définition suivante :
Définition 3.29 Espérance mathématique

int. de conf. bilateral a 90 pourcent int. de conf. a droite a 90 pourcent int. de conf. a gauche a 90 pourcent
0.40 0.40 0.40
0.35 0.35 0.35
0.30 0.30 0.30
0.25 0.25 0.25
0.20 0.20 0.20
0.15 0.15 0.15
0.10 0.10 0.10
0.05 0.05 0.05
0.00 0.00 0.00

−6 −4 −2 0 2 4 6 −6 −4 −2 0 2 4 6 −6 −4 −2 0 2 4 6
Figure 3.17 – Intervalles de confiance pour une v.a. de densité normale réduite
L’espérance mathématique µ ou E[X] est définie par :

 X n


 xi pX (xi ) cas discret
µ = E[X] = Zi=1∞


 xfX (x) dx cas continu
−∞
Un interprétation de l’espérance est la suivante : en interprétant les éléments de la masse de

probabilité, l’espérance peut être vue comme étant le centre de gravité de ces poids (voir la figure
3.18).
p(x)
x
E[X]
Figure 3.18 – Interprétation d’un espérance comme étant un centre de gravité
3.7.2 Propriétés de l’espérance

L’espérance mathématique a les propriétés suivantes.

Espérance d’une fonction d’une v.a.

L’espérance d’une fonction d’une variable aléatoire, contrairement à la loi de probabilité de
cette fonction, s’obtient très facilement :
Définition 3.30 Espérance d’une fonction d’une v.a.
Si Y = g(X), où g(.) est une fonction, alors :
 X n


 g(xi )pX (xi ) pour une v.a. discrète
E[Y ] = E[g(X)] = Zi=1∞


 g(x)fX (x) dx pour une v.a. continue
−∞
Dans le cas d’une fonction linéaire, cette propriété donne la propriété souvent appelée “linéarité
de l’espérance”.
Linéarité de l’espérance
Si Y = aX + b, alors, l’application directe de la linéarité de la somme et de l’intégrale donne
la propriété suivante :
Propriété 3.1 Linearité de l’espérance

Si Y = aX + b alors :
E[Y ] = aE[X] + b
Exemple 3.7.1 v.a. de Bernoulli et Binômiale

Une variable aléatoire de Bernoulli aura un espérance égale à (pour X ∼ Be(p)) :
E[X] = 0.(1 − p) + 1.p = p.
Une variable aléatoire Binômiale X ∼ Bi(n, p) aura une espérance :

" n # n
X X
E[X] = E Xi = E[Xi ] = np.
i i
3.7.3 Variance et Ecart-type

La moyenne E[X] est la caractéristique la plus simple d’une variable aléatoire, mais ne donne
aucune idée de la dispersion de la variable aléatoire. Nous avons vu plus haut que les quantiles
caractérisent la dispersion de la v.a., mais une grandeur particulière donne, en un seul nombre, une
idée de la dispersion, c’est l’écart-type. L’écart-type caractérise la distance de toutes les réalisations
possibles par rapport à la moyenne, cette distance étant pondérée par la densité de probabilité.
La variance est le carré de l’écart-type. La variance est donc la moyenne pondérée (espérance
mathématique) du carré de la distance par rapport à la moyenne.
Définition 3.31 Variance

La variance d’une variable aléatoire X est donnée par :
Z
var[X] = E (X − E[X])2 = (X − E[X])2 fX (x)dx.

RX

3.7.4 Espérances et variances des principales variables aléatoires

Bernoulli
Si X ∼ Be(p), alors
P1
E[X] = k=0 kpX (k)
= 0(1 − p) + 1.p (3.7)
= p.
P
var[X] = (x − E[X])2 pX (xi )
Pi1 i 2
= k=0 (k − p) PX (k) (3.8)
= (0 − p) (1 − p) + (1 − p)2 p
2
= p(1 − p)
Binomiale
si X ∼ Bi(n, p), alors
Pn
E[X] = Pk=0 kpX (k)
n k k n−k
= k=0 = Cn p (1 − p) (3.9)
= np.
Une autre manière

Pn−1de déterminer la moyenne est de remarquer qu’une binomiale peut s’écrire
comme étant X = i=0 Xi , où les hPXi sonti desPv.a. de Bernoulli de paramètre p. Par la linéarité
n−1 n−1
de l’espérance, on a ce E[X] = E i=0 Xi = i=0 E[Xi ] = n.p.
La variance est donnée par 1
var[X] = np(1 − p) (3.10)
v.a. Géométrique
Soit une v.a. géométrique X ∼ Ge(p), son espérance vaut :
∞
X 1
E[X] = k(1 − p)k−1 .p = (3.11)
p
k=1
Sa variance vaut :
1−p
var[X] = (3.12)
p2
v.a. de Poisson
Soit une v.a. de Poisson X ∼ P o(λ), son espérance vaut :
P∞ −λ i
E[X] = i e i! λ
i=0P
∞ λi−1
= λe−λ i=1 (i−1)! (3.13)
= λ
Sa variance vaut également λ.
1. Même raisonnement que pour l’espérance, avec en plus le fait que Xi est indépendant de Xj si i 6= j, et donc
que E[Xi Xj ] = 0

v.a. Normale : notion de Puissance
Le lecteur pourra aisément vérifier que les moyenne et variance de la loi normale sont données
par µ et σ 2 . Il est intéressant à ce stade, si on considère une variable centrée (µ = 0) de donner
une interprétation de la variance. Prenons par exemple
une variable aléatoire normale centrée :
X ∼ N (0, σ 2 ) et Y = X 2 , alors E[Y ] = E X 2 , où E X 2 est la moyenne du carré de la normale.
Cette moyenne peut être interprétée comme la puissance de la variable aléatoire, par analogie
avec la puissance électrique moyenne par exemple.
On obtient alors aisément ( ! ... en utilisant une
intégrale par parties) que var[X] = E X 2 = σ 2 .
v.a. Uniforme
On obtient aisément que si X ∼ U n(a, b), E[X] = (a + b)/2, et que variance vaut var[X] =
(b − a)2 /12.
v.a. Exponentielle
Si X ∼ exp(λ), alors
Z ∞ ∞
1 1
E[X] = xλe−λx dx = −xe−λx − e−λx = . (3.14)
0 λ 0 λ
De même, var[X] = 1/λ2 .
v.a. Laplacienne
Si X ∼ La(σ 2 ), alors E[X] = 0.
v.a. de Rayleigh
p
Si X est une v.a. de Rayleigh, alors E[X] = σ π/2 et var[X] = (2 − π/2)σ 2 .
3.7.5 Borne de Chebyshev

La variance donne une idée de la variabilité des issues possibles autour de la moyenne. Cepen-
dant, les figures 3.12, 3.13 et 3.14 montrent que, pour différentes v.a. de même moyenne et variance,
cette “variabilité” peut-être très différente. En particulier, la probabilité d’avoir une réalisation in-
férieure à µ − 3σ vaut respectivement 0.0013, 0.06 et 0.11 pour les v.a. normale, Laplacienne et de
Cauchy. Dans ce cadre, on peut se poser la question suivante :
“Quelle est la probabilité que la réalisation d’une variable aléatoire quelconque soit écartée de
la moyenne de plus d’une quantité donnée ?”. En termes mathématiques :
P(|X − E[X] | > γ) ≤ p.
En d’autres termes, si µ = 0 et σ 2 = 1, quand je dis que la réalisation de la variable aléatoire

sera comprise entre -3 et 3, quelle est la probabilité de se tromper ? (ici p).

On peut trouver une borne supérieure de p de la manière suivante :
Z ∞
2
var[X] = (x − E[X] )fX (x)dx
−∞ Z
R 2 2
= {x:|x−E[X]|>γ}
(x − E[X] )fX (x)dx + (x − E[X] )fX (x)dx ≥ 0
{x:|x−E[X]|≤γ}
R | {z }
2
≥ {x:|x−E[X]|>γ} (x − E[X] )fX (x)dx
R
≥ {x:|x−E[X]|>γ} γ 2 fX (x)dx car dans ce domaine, |x − E[X] | > γ
2
R
= γ {x:|x−E[X]|>γ} fX (x)dx
= γ 2 P(|X − E[X] | > γ) ,
(3.15)
on obtient l’inégality de Chebyshev 2 :
var[X]
P(|X − E[X] | > γ) ≤ (3.16)
γ2
σ2
Si γ = 3, on obtient P(|X − E[X] | > γ) ≤ 9 ' 0.11σ 2 .
2. Dans la version suivante du poly, vérifier par rapport aux cdfs de Cauchy, Laplace, ...

3.8 Fonction d’une variable aléatoire
40 General Random Variables Chap. 3
3.6 DERIVED DISTRIBUTIONS
We have seen that the mean of a function Y = g(X) of a continuous random

variable X, can be calculated using the expected value rule
! ∞
E[Y ] = g(x)fX (x) dx,
−∞
without first finding the PDF fY of Y . Still, in some cases, we may be interested
in an explicit formula for fY . Then, the following two-step approach can be
used.
Calculation of the PDF of a Function Y = g(X) of a Continuous

Random Variable X
1. Calculate the CDF FY of Y using the formula
!
" #
FY (y) = P g(X) ≤ y = fX (x) dx.
{x | g(x)≤y}
2. Differentiate to obtain the PDF of Y :

dFY
fY (y) = (y).
dy
√
Example 3.21. Let X be uniform on [0, 1]. Find the PDF of Y = X. Note
that Y takes values between 0 and 1. For every y ∈ [0, 1], we have
√
FY (y) = P(Y ≤ y) = P( X ≤ y) = P(X ≤ y 2 ) = y 2 , 0 ≤ y ≤ 1.
We then differentiate and obtain
dFY d(y 2 )
fY (y) = (y) = = 2y, 0 ≤ y ≤ 1.
dy dy
Outside the range [0, 1], the CDF FY (y) is constant, with FY (y) = 0 for y ≤ 0, and
FY (y) = 1 for y ≥ 1. By differentiating, we see that fY (y) = 0 for y outside [0, 1].
Example 3.22. John Slow is driving from Boston to the New York area, a
distance of 180 miles. His average speed is uniformly distributed between 30 and
60 miles per hour. What is the PDF of the duration of the trip?

Sec. 3.6 Derived Distributions 41
Let X be the speed and let Y = g(X) be the trip duration:

180
g(X) = .
X
To find the CDF of Y , we must calculate
! " # $
180 180
P(Y ≤ y) = P ≤y =P ≤X .
X y
We use the given uniform PDF of X, which is
%
1/30 if 30 ≤ x ≤ 60,
fX (x) =
0 otherwise,
and the corresponding CDF, which is
&
0 if x ≤ 30,
FX (x) = (x − 30)/30 if 30 ≤ x ≤ 60,
1 if 60 ≤ x.
Thus, # $
180
FY (y) = P ≤X
y
# $
180
= 1 − FX
y

 0 if y ≤ 180/60,

 180
− 30
= y

 1− if 180/60 ≤ y ≤ 180/30,
 30
1 if 180/30 ≤ y,
&
0 if y ≤ 3,
= 2 − (6/y) if 3 ≤ y ≤ 6,
1 if 6 ≤ y,
(see Fig. 3.20). Differentiating this expression, we obtain the PDF of Y :
&
0 if y ≤ 3,
fY (y) = 6/y 2 if 3 ≤ y ≤ 6,
0 if 6 ≤ y.
Example 3.23. Let Y = g(X) = X 2 , where X is a random variable with known

PDF. For any y ≥ 0, we have
FY (y) = P(Y ≤ y)
= P(X 2 ≤ y)
√ √
= P(− y ≤ X ≤ y)
√ √
= FX ( y) − FX (− y),
and therefore, by differentiating and using the chain rule,
1 √ 1 √
fY (y) = √ fX ( y) + √ fX (− y), y ≥ 0.
2 y 2 y

PDF fX(x) CDF FX(x)

1
1
30
30 60 x 30 60 x
PDF fY(y) CDF FY(y)

1
3 6 y 3 6 y
Figure 3.20: The calculation of the PDF of Y = 180/X in Example 3.22. The
arrows indicate the flow of the calculation.
The Linear Case
An important case arises when Y is a linear function of X. See Fig. 3.21 for a
graphical interpretation.
The PDF of a Linear Function of a Random Variable

Let X be a continuous random variable with PDF fX , and let
Y = aX + b,
for some scalars a != 0 and b. Then,

! "
1 y−b
fY (y) = fX .
|a| a
To verify this formula, we use the two-step procedure. We only show the

fX
faX faX+b
!2 !1 2 3 4 9
Figure 3.21: The PDF of aX + b in terms of the PDF of X. In this figure,

a = 2 and b = 5. As a first step, we obtain the PDF of aX. The range of Y is
wider than the range of X, by a factor of a. Thus, the PDF fX must be stretched
(scaled horizontally) by this factor. But in order to keep the total area under the
PDF equal to 1, we need to scale the PDF (vertically) by the same factor a. The
random variable aX + b is the same as aX except that its values are shifted by
b. Accordingly, we take the PDF of aX and shift it (horizontally) by b. The end
result of these operations is the PDF of Y = aX + b and is given mathematically
by ! "
1 y−b
fY (y) = fX .
|a| a
If a were negative, the procedure would be the same except that the
PDF of X would first need to be reflected around the vertical axis (“flipped”)
yielding f−X . Then a horizontal and vertical scaling (by a factor of |a| and 1/|a|,
respectively) yields the PDF of −|a|X = aX. Finally, a horizontal shift of b would
again yield the PDF of aX + b.
steps for the case where a > 0; the case a < 0 is similar. We have
FY (y) = P(Y ≤ y)
= P(aX + b ≤ y)
# $
y−b
=P X≤
a
# $
y−b
= FX .
a
We now differentiate this equality and use the chain rule, to obtain
# $ # $
dFY 1 dFX y − b 1 y−b
fY (y) = (y) = · = · fX .
dy a dx a a a
Example 3.24. A linear function of an exponential random variable.

Suppose that X is an exponential random variable with PDF
%
λe−λx if x ≥ 0,
fX (x) =
0 otherwise,

where λ is a positive parameter. Let Y = aX + b. Then,

!
λ −λ(y−b)/a
fY (y) = e if (y − b)/a ≥ 0,
|a|
0 otherwise.
Note that if b = 0 and a > 0, then Y is an exponential random variable with

parameter λ/a. In general, however, Y need not be exponential. For example, if
a < 0 and b = 0, then the range of Y is the negative real axis.
Example 3.25. A linear function of a normal random variable is normal.

Suppose that X is a normal random variable with mean µ and variance σ 2 , and let
Y = aX + b, where a and b are some scalars. We have
1 2 2
fX (x) = √ e−(x−µ) /2σ .
2π σ
Therefore, " #
1 y−b
fY (y) = fX
|a| a
1 1 2 2
= √ e−((y−b)/a)−µ) /2σ
|a| 2π σ
1 2 2 2
= √ e−(y−b−aµ) /2a σ .
2π |a|σ
We recognize this as a normal PDF with mean aµ + b and variance a2 σ 2 . In

particular, Y is a normal random variable.
The Monotonic Case
The calculation and the formula for the linear case can be generalized to
the case where g is a monotonic function. Let X be a continuous random variable
and suppose that its range is contained in a certain interval I, in the sense that
fX (x) = 0 for x ∈/ I. We consider the random variable Y = g(X), and assume
that g is strictly monotonic over the interval I. That is, either
(a) g(x) < g(x! ) for all x, x! ∈ I satisfying x < x! (monotonically increasing
case), or
(b) g(x) > g(x! ) for all x, x! ∈ I satisfying x < x! (monotonically decreasing
case).
Furthermore, we assume that the function g is differentiable. Its derivative
will necessarily be nonnegative in the increasing case and nonpositive in the
decreasing case.

An important fact is that a monotonic function can be “inverted” in the

sense that there is some function h, called the inverse of g, such that for all
x ∈ I, we have y = g(x) if and only if x = h(y). For example, the inverse of the
function g(x) = 180/x considered in Example 3.22 is h(y) = 180/y, because we
have y = 180/x if and only if x = 180/y. Other such examples of pairs of inverse
functions include
y−b
g(x) = ax + b, h(y) = ,
a
where a and b are scalars with a #= 0 (see Fig. 3.22), and
ln y
g(x) = eax , h(y) = ,
a
where a is a nonzero scalar.
y x
g(x) = ax + b
y-b
h(y) =
a
b
Slope a Slope 1/a
0 x 0 b y
y x
h(y)
y = g(x) g(x)
0 x = h(y) x 0 y
Figure 3.22: A monotonically increasing function g (on the left) and its inverse
(on the right). Note that the graph of h has the same shape as the graph of g,
except that it is rotated by 90 degrees and then reflected (this is the same as
interchanging the x and y axes).
For monotonic functions g, the following is a convenient analytical formula

for the PDF of the function Y = g(X).

PDF Formula for a Monotonic Function of a Continuous Random

Variable
Suppose that g is monotonic and that for some function h and all x in the
range I of X we have
y = g(x) if and only if x = h(y).
Assume that h has first derivative (dh/dy)(y). Then the PDF of Y in the
region where fY (y) > 0 is given by
# #
! " # dh #
fY (y) = fX h(y) ## (y)## .
dy
For a verification of the above formula, assume first that g is monotonically

increasing. Then, we have
! " ! " ! "
FY (y) = P g(X) ≤ y = P X ≤ h(y) = FX h(y) ,
where the second equality can be justified using the monotonically increasing
property of g (see Fig. 3.23). By differentiating this relation, using also the
chain rule, we obtain
dFY ! " dh
fY (y) = (y) = fX h(y) (y).
dy dy
Because g is monotonically increasing, h is also monotonically increasing, so its

derivative is positive: # #
dh # dh #
(y) = ## (y)## .
dy dy
This justifies the PDF formula for a monotonically increasing function g. The
justification for the case of monotonically decreasing function is similar: we
differentiate instead the relation
! " ! " ! "
FY (y) = P g(X) ≤ y = P X ≥ h(y) = 1 − FX h(y) ,
and use the chain rule.

There is a similar formula involving the derivative ! of "g, rather than the
derivative of h. To see this, differentiate the equality g h(y) = y, and use the
chain rule to obtain
dg ! " dh
h(y) · (y) = 1.
dh dy

Let us fix some x and y that are related by g(x) = y, which is the same as
h(y) = x. Then,
dg dh
(x) · (y) = 1,
dx dy
which leads to ! "" dg "
"
fY (y) = fX (x) "" (x)"" .
dx
y= g(x)
y= g(x)
y
y
h(y ) x h(y ) x
Event { X < h(Y)} Event { X >h(Y)}
# $
Figure 3.23: Calculating the probability P g(X) ≤ y . When g is monotonically
increasing (left figure), the event {g(X) ≤ y} is the same as the event {X ≤ h(y)}.
When g is monotonically decreasing (right figure), the event {g(X) ≤ y} is the
same as the event {X ≥ h(y)}.
Example 3.22. (Continued) To check the PDF formula, let us apply it to

the problem of Example 3.22. In the region of interest, x ∈ [30, 60], we have
h(y) = 180/y, and
" "
dFX # $ 1 " dh " 180
h(y) = , " (y)" = .
dh 30 " dy " y2
Thus, in the region of interest y ∈ [3, 6], the PDF formula yields
" "
# $ " dh " 1 180 6
fY (y) = fX h(y) "" (y)"" = · = 2,
dy 30 y 2 y
consistently with the expression obtained earlier.
Example 3.26. Let Y = g(X) = X 2 , where X is a continuous uniform random

variable in the interval (0, 1]. Within this interval, g is monotonic, and its inverse

√
is h(y) = y. Thus, for any y ∈ (0, 1], we have
! !
! dh ! 1 √
! (y)! = √
! dy ! 2 y , fX ( y) = 1,
and "
1
√ if y ∈ (0, 1],
fY (y) = 2 y
0 otherwise.
We finally note that if we interpret PDFs in terms of probabilities of small

intervals, the content of our formulas becomes pretty intuitive; see Fig. 3.24.
Functions of Two Random Variables
The two-step procedure that first calculates the CDF and then differentiates to
obtain the PDF also applies to functions of more than one random variable.
Example 3.27. Two archers shoot at a target. The distance of each shot from
the center of the target is uniformly distributed from 0 to 1, independently of the
other shot. What is the PDF of the distance of the losing shot from the center?
Let X and Y be the distances from the center of the first and second shots,
respectively. Let also Z be the distance of the losing shot:
Z = max{X, Y }.
We know that X and Y are uniformly distributed over [0, 1], so that for all z ∈ [0, 1],
we have
P(X ≤ z) = P(Y ≤ z) = z.
Thus, using the independence of X and Y , we have for all z ∈ [0, 1],
# $
FZ (z) = P max{X, Y } ≤ z
= P(X ≤ z, Y ≤ z)
= P(X ≤ z)P(Y ≤ z)
= z2.
Differentiating, we obtain
%
2z if 0 ≤ z ≤ 1,
fZ (z) =
0 otherwise.
Example 3.28. Let X and Y be independent random variables that are uniformly
distributed on the interval [0, 1]. What is the PDF of the random variable Z =
Y /X?

dg
slope (x)
y dx
g(x)
[y, y+!2]
x
[x, x+!1]
Figure 3.24: Illustration of the PDF formula for a monotonically increasing

function g. Consider an interval [x, x + δ1 ], where δ1 is a small number. Under
the mapping g, the image of this interval is another interval [y, y + δ2 ]. Since
(dg/dx)(x) is the slope of g, we have
δ2 dg
≈ (x),
δ1 dx
or in terms of the inverse function,
δ1 dh
≈ (y),
δ2 dy
We now note that the event {x ≤ X ≤ x + δ1 } is the same as the event {y ≤ Y ≤

y + δ2 }. Thus,
fY (y)δ2 ≈ P(y ≤ Y ≤ y + δ2 )
= P(x ≤ X ≤ x + δ1 )
≈ fX (x)δ1 .
We move δ1 to the left-hand side and use our earlier formula for the ratio δ2 /δ1 ,
to obtain
dg
fY (y) (x) = fX (x).
dx
Alternatively, if we move δ2 to the right-hand side and use the formula for δ1 /δ2 ,
we obtain
! " dh
fY (y) = fX h(y) · (y).
dy
We will find the PDF of Z by first finding its CDF and then differentiating.
We consider separately the cases 0 ≤ z ≤ 1 and z > 1. As shown in Fig. 3.25, we
have
%
# $ z/2 if 0 ≤ z ≤ 1,
Y
FZ (z) = P ≤z = 1 − 1/(2z) if z > 1,
X
0 otherwise.

By differentiating, we obtain
!
1/2 if 0 ≤ z ≤ 1,
fZ (z) = 1/(2z 2 ) if z > 1,
0 otherwise.
1
y y
z
1 1
Slope z
Slope z
z
0 1 x 0 1 x
Figure 3.25: The calculation of the CDF of Z = Y /X in Example 3.28. The

value P(Y /X ≤ z) is equal to the shaded subarea of the unit square. The figure
on the left deals with the case where 0 ≤ z ≤ 1 and the figure on the right refers
to the case where z > 1.
Example 3.29. Romeo and Juliet have a date at a given time, and each, inde-
pendently, will be late by an amount of time that is exponentially distributed with
parameter λ. What is the PDF of the difference between their times of arrival?
Let us denote by X and Y the amounts by which Romeo and Juliet are late,
respectively. We want to find the PDF of Z = X − Y , assuming that X and Y are
independent and exponentially distributed with parameter λ. We will first calculate
the CDF FZ (z) by considering separately the cases z ≥ 0 and z < 0 (see Fig. 3.26).
For z ≥ 0, we have (see the left side of Fig. 3.26)
FZ (z) = P(X − Y ≤ z)
= 1 − P(X − Y > z)
" ∞ #" ∞ $
=1− fX,Y (x, y) dx dy
0 z+y
" ∞ #" ∞ $
=1− λe−λy λe−λx dx dy
0 z+y
" ∞
=1− λe−λy e−λ(z+y) dy
0
" ∞
= 1 − e−λz λe−2λy dy
0
1 −λz
=1− e .
2

Sec. 3.7 Summary and Discussion 51
y Line x - y = z y Line x - y = z
0 z x z 0 x
Figure 3.26: The calculation of the CDF of Z = X − Y in Example 3.29. To

obtain the value P(X − Y > z) we must integrate the joint PDF fX,Y (x, y)
over the shaded area in the above figures, which correspond to z ≥ 0 (left
side) and z < 0 (right side).
For the case z < 0, we can use a similar calculation, but we can also argue
using symmetry. Indeed, the symmetry of the situation implies that the random
variables Z = X − Y and −Z = Y − X have the same distribution. We have
FZ (z) = P(Z ≤ z) = P(−Z ≥ −z) = P(Z ≥ −z) = 1 − FZ (−z).
With z < 0, we have −z ≥ 0 and using the formula derived earlier,

! "
1 −λ(−z) 1 λz
FZ (z) = 1 − FZ (−z) = 1 − 1 − e = e .
2 2
Combining the two cases z ≥ 0 and z < 0, we obtain


 1 − 1 e−λz if z ≥ 0,
FZ (z) = 2
 1 eλz if z < 0,
2
We now calculate the PDF of Z by differentiating its CDF. We obtain




 λ e−λz if z ≥ 0,

fZ (z) = 2



 λ eλz if z < 0,
2
or
λ −λ|z|
fZ (z) = e .
2
This is known as a two-sided exponential PDF, also known as the Laplace
PDF.

3.7 SUMMARY AND DISCUSSION
Continuous random variables are characterized by PDFs and arise in many ap-
plications. PDFs are used to calculate event probabilities. This is similar to
the use of PMFs for the discrete case, except that now we need to integrate
instead of adding. Joint PDFs are similar to joint PMFs and are used to de-
termine the probability of events that are defined in terms of multiple random
variables. Finally, conditional PDFs are similar to conditional PMFs and are
used to calculate conditional probabilities, given the value of the conditioning
random variable.
We have also introduced a few important continuous probability laws and
derived their mean and variance. A summary is provided in the table that
follows.
Summary of Results for Special Random Variables

Continuous Uniform Over [a, b]:
!
1
fX (x) = if a ≤ x ≤ b,
b−a
0 otherwise,
a+b (b − a)2
E[X] = , var(X) = .
2 12
Exponential with Parameter λ:
" "
λe−λx if x ≥ 0, 1 − e−λx if x ≥ 0,
fX (x) = FX (x) =
0 otherwise, 0 otherwise,
1 1
E[X] = , var(X) = .
λ λ2
Normal with Parameters µ and σ 2 :

1 2 2
fX (x) = √ e−(x−µ) /2σ ,
2πσ
E[X] = µ, var(X) = σ 2 .

3.9 Couple de variables aléatoires et v.a. multiples
B = {7:15 < X ≤ 7:30} = {you board the 7:30 train}.

Conditioned on the event A, your arrival time is uniform on the interval from 7:10
to 7:15. In that case, the waiting time Y is also uniform and takes values between
0 and 5 minutes; see Fig. 3.15(b). Similarly, conditioned on B, Y is uniform and
takes values between 0 and 15 minutes; see Fig. 3.15(c). The PDF of Y is obtained
using the total probability theorem,
fY (y) = P(A)fY |A (y) + P(B)fY |B (y),
and is shown in Fig. 3.15(d). In particular,
1 1 3 1 1
fY (y) = · + · = , for 0 ≤ y ≤ 5,
4 5 4 15 10
and
1 3 1 1
fY (y) = ·0+ · = , for 5 < y ≤ 15.
4 4 15 20
3.5 MULTIPLE CONTINUOUS RANDOM VARIABLES
We will now extend the notion of a PDF to the case of multiple random vari-
ables. In complete analogy with discrete random variables, we introduce joint,
marginal, and conditional PDFs. Their intuitive interpretation as well as their
main properties parallel the discrete case.
We say that two continuous random variables associated with a common
experiment are jointly continuous and can be described in terms of a joint
PDF fX,Y , if fX,Y is a nonnegative function that satisfies
# #
! "
P (X, Y ) ∈ B = fX,Y (x, y) dx dy,
(x,y)∈B
for every subset B of the two-dimensional plane. The notation above means
that the integration is carried over the set B. In the particular case where B is
a rectangle of the form B = [a, b] × [c, d], we have
# d # b
P(a ≤ X ≤ b, c ≤ Y ≤ d) = fX,Y (x, y) dx dy.
c a
Furthermore, by letting B be the entire two-dimensional plane, we obtain the

normalization property
# ∞# ∞
fX,Y (x, y) dx dy = 1.
−∞ −∞

Sec. 3.5 Multiple Continuous Random Variables 27
To interpret the PDF, we let δ be very small and consider the probability
of a small rectangle. We have
! c+δ ! a+δ
P(a ≤ X ≤ a + δ, c ≤ Y ≤ c + δ) = fX,Y (x, y) dx dy ≈ fX,Y (a, c) · δ 2 ,
c a
so we can view fX,Y (a, c) as the “probability per unit area” in the vicinity of
(a, c).
The joint PDF contains all conceivable probabilistic information on the
random variables X and Y , as well as their dependencies. It allows us to calculate
the probability of any event that can be defined in terms of these two random
variables. As a special case, it can be used to calculate the probability of an
event involving only one of them. For example, let A be a subset of the real line
and consider the event {X ∈ A}. We have
! ! ∞
" #
P(X ∈ A) = P X ∈ A and Y ∈ (−∞, ∞) = fX,Y (x, y) dy dx.
A −∞
Comparing with the formula

!
P(X ∈ A) = fX (x) dx,
A
we see that the marginal PDF fX of X is given by

! ∞
fX (x) = fX,Y (x, y) dy.
−∞
Similarly, ! ∞
fY (y) = fX,Y (x, y) dx.
−∞
Example 3.13. Two-Dimensional Uniform PDF. Romeo and Juliet have a

date at a given time, and each will arrive at the meeting place with a delay between
0 and 1 hour (recall the example given in Section 1.2). Let X and Y denote the
delays of Romeo and Juliet, respectively. Assuming that no pairs (x, y) in the
square [0, 1] × [0, 1] are more likely than others, a natural model involves a joint
PDF of the form
$
c if 0 ≤ x ≤ 1 and 0 ≤ y ≤ 1,
fX,Y (x, y) =
0 otherwise,
where c is a constant. For this PDF to satisfy the normalization property

! ∞ ! ∞ ! 1 ! 1
fX,Y (x, y) dx dy = c dx dy = 1,
−∞ −∞ 0 0

we must have
c = 1.
This is an example of a uniform PDF on the unit square. More generally,

let us fix some subset S of the two-dimensional plane. The corresponding uniform
joint PDF on S is defined to be
! 1
fX,Y (x, y) = if (x, y) ∈ S,
area of S
0 otherwise.
For any set A ⊂ S, the probability that the experimental value of (X, Y ) lies in A
is
$ $ $ $
" # 1 area of A ∩ S
P (X, Y ) ∈ A = fX,Y (x, y) dx dy = dx dy = .
area of S area of S
(x,y)∈A (x,y)∈A∩S
Example 3.14. We are told that the joint PDF of the random variables X and Y
is a constant c on the set S shown in Fig. 3.16 and is zero outside. Find the value
of c and the marginal PDFs of X and Y .
The area of the set S is equal to 4 and, therefore, fX,Y (x, y) = c = 1/4, for
(x, y) ∈ S. To find the marginal PDF fX (x) for some particular x, we integrate
(with respect to y) the joint PDF over the vertical line corresponding to that x.
The resulting PDF is shown in the figure. We can compute fY similarly.
y y
4
3
S
2
1/2
1
1/4
1 2 3
fY(y)
x
3/4
fX(x) 1/4
Figure 3.16: The joint PDF in Example 3.14 and the resulting marginal
PDFs.

Example 3.15. Buffon’s Needle. This is a famous example, which marks

the origin of the subject of geometrical probability, that is, the analysis of the
geometrical configuration of randomly placed objects.
A surface is ruled with parallel lines, which are at distance d from each other
(see Fig. 3.17). Suppose that we throw a needle of length l on the surface at random.
What is the probability that the needle will intersect one of the lines?
Figure 3.17: Buffon’s needle. The

length of the line segment between the
d midpoint of the needle and the point
! of intersection of the axis of the needle
x with the closest parallel line is x/ sin θ.
l The needle will intersect the closest par-
allel line if and only if this length is less
than l/2.
We assume here that l < d so that the needle cannot intersect two lines
simultaneously. Let X be the distance from the midpoint of the needle to the
nearest of the parallel lines, and let Θ be the acute angle formed by the axis of the
needle and the parallel lines (see Fig. 3.17). We model the pair of random variables
(X, Θ) with a uniform joint PDF over the rectangle [0, d/2] × [0, π/2], so that
!
fX,Θ (x, θ) =4/(πd) if x ∈ [0, d/2] and θ ∈ [0, π/2],
0 otherwise.
As can be seen from Fig. 3.17, the needle will intersect one of the lines if and
only if
l
X ≤ sin Θ,
2
so the probability of intersection is
$ $
" #
P X ≤ (l/2) sin Θ = fX,Θ (x, θ) dx dθ
x≤(l/2) sin θ
$ π/2 $ (l/2) sin θ
4
= dx dθ
πd 0 0
$ π/2
4 l
= sin θ dθ
πd 0
2
%
2l %π/2
=(− cos θ)%
πd 0
2l
= .
πd
The probability of intersection can be empirically estimated, by repeating the ex-
periment a large number of times. Since it is equal to 2l/πd, this provides us with
a method for the experimental evaluation of π.

Expectation
If X and Y are jointly continuous random variables, and g is some function, then
Z = g(X, Y ) is also a random variable. We will see in Section 3.6 methods for
computing the PDF of Z, if it has one. For now, let us note that the expected
value rule is still applicable and
# ∞# ∞
! "
E g(X, Y ) = g(x, y)fX,Y (x, y) dx dy.
−∞ −∞
As an important special case, for any scalars a, b, we have

E[aX + bY ] = aE[X] + bE[Y ].
Conditioning One Random Variable on Another
Let X and Y be continuous random variables with joint PDF fX,Y . For any
fixed y with fY (y) > 0, the conditional PDF of X given that Y = y, is defined
by
fX,Y (x, y)
fX|Y (x | y) = .
fY (y)
This definition is analogous to the formula pX|Y = pX,Y /pY for the discrete case.
When thinking about the conditional PDF, it is best to view y as a fixed
number and consider fX|Y (x | y) as a function of the single variable x. As a
function of x, the conditional PDF fX|Y (x | y) has the same shape as the joint
PDF fX,Y (x, y), because the normalizing factor fY (y) does not depend on x; see
Fig. 3.18. Note that the normalization ensures that
# ∞
fX|Y (x | y) dx = 1,
−∞
so for any fixed y, fX|Y (x | y) is a legitimate PDF.
y
4 1 fX|Y(x|3.5)
3 fX|Y(x|2.5) x
1/2
S
2 1 fX|Y(x|1.5) x
1 1 2 3 x
1 2 3
x
Figure 3.18: Visualization of the conditional PDF fX|Y (x | y). Let X, Y have a
joint PDF which is uniform on the set S. For each fixed y, we consider the joint
PDF along the slice Y = y and normalize it so that it integrates to 1.

Example 3.16. Circular Uniform PDF. John throws a dart at a circular

target of radius r (see Fig. 3.19). We assume that he always hits the target, and
that all points of impact (x, y) are equally likely, so that the joint PDF of the
random variables X and Y is uniform. Following Example 3.13, and since the area
of the circle is πr2 , we have
! 1 if (x, y) is in the circle,

fX,Y (x, y) = area of the circle
0 otherwise,
"
1
= πr2 if x2 + y 2 ≤ r2 ,
0 otherwise.
r Figure 3.19: Circular target for

Example 3.16.
x
To calculate the conditional PDF fX|Y (x | y), let us first calculate the marginal
PDF fY (y). For |y| > r, it is zero. For |y| ≤ r, it can be calculated as follows:
# ∞
fY (y) = fX,Y (x, y) dx
−∞
#
1
= dx
πr2 x2 +y 2 ≤r 2
# √r2 −y2
1
= √ dx
πr2 − r 2 −y 2
2 $ 2
= r − y2 .
πr2
Note that the marginal fY (y) is not a uniform PDF.

The conditional PDF is

fX,Y (x, y)
fX|Y (x | y) =
fY (y)
1
= πr2
2 !
r2 − y2
πr2
1
= ! .
2 r2 − y2
Thus, for a fixed value of y, the conditional PDF fX|Y is uniform.
To interpret the conditional PDF, let us fix some small positive numbers
δ1 and δ2 , and condition on the event B = {y ≤ Y ≤ y + δ2 }. We have
P(x ≤ X ≤ x + δ1 and y ≤ Y ≤ y + δ2 )
P(x ≤ X ≤ x + δ1 | y ≤ Y ≤ y + δ2 ) =
P(y ≤ Y ≤ y + δ2 )
fX,Y (x, y)δ1 δ2
≈ = fX|Y (x | y)δ1 .
fY (y)δ2
In words, fX|Y (x | y)δ1 provides us with the probability that X belongs in a
small interval [x, x + δ1 ], given that Y belongs in a small interval [y, y + δ2 ].
Since fX|Y (x | y)δ1 does not depend on δ2 , we can think of the limiting case
where δ2 decreases to zero and write
P(x ≤ X ≤ x + δ1 | Y = y) ≈ fX|Y (x | y)δ1 , (δ1 small),
and, more generally,
"
P(X ∈ A | Y = y) = fX|Y (x | y) dx.
A
Conditional probabilities, given the zero probability event {Y = y}, were left
undefined in Chapter 1. But the above formula provides a natural way of defining
such conditional probabilities in the present context. In addition, it allows us to
view the conditional PDF fX|Y (x | y) (as a function of x) as a description of the
probability law of X, given that the event {Y = y} has occurred.
As in the discrete case, the conditional PDF fX|Y , together with the
marginal PDF fY are sometimes used to calculate the joint PDF. Furthermore,
this approach can be also used for modeling: instead of directly specifying fX,Y ,
it is often natural to provide a probability law for Y , in terms of a PDF fY , and
then provide a conditional probability law fX|Y (x, y) for X, given any possible
value y of Y .
Example 3.17. Let X be exponentially distributed with mean 1. Once we

observe the experimental value x of X, we generate a normal random variable Y
with zero mean and variance x + 1. What is the joint PDF of X and Y ?

We have fX (x) = e−x , for x ≥ 0, and
1 2 /2(x+1)
fY |X (y | x) = ! e−y .
2π(x + 1)
Thus,
1 2 /2(x+1)
fX,Y (x, y) = fX (x)fY |X (y | x) = e−x ! e−y ,
2π(x + 1)
for all x ≥ 0 and all y.
Having defined a conditional probability law, we can also define a corre-

sponding conditional expectation by letting
" ∞
E[X | Y = y] = xfX|Y (x | y) dx.
−∞
The properties of (unconditional) expectation carry though, with the obvious

modifications, to conditional expectation. For example the conditional version
of the expected value rule
" ∞
E[g(X) | Y = y] = g(x)fX|Y (x | y) dx
−∞
remains valid.
Summary of Facts About Multiple Continuous Random Variables

Let X and Y be jointly continuous random variables with joint PDF fX,Y .
• The joint, marginal, and conditional PDFs are related to each other
by the formulas
fX,Y (x, y) = fY (y)fX|Y (x | y),

" ∞
fX (x) = fY (y)fX | Y (x | y) dy.
−∞
The conditional PDF fX|Y (x | y) is defined only for those y for which
fY (y) > 0.

• They can be used to calculate probabilities:
# #
! "
P (X, Y ) ∈ B = fX,Y (x, y) dx dy,
(x,y)∈B
#
P(X ∈ A) = fX (x) dx,
#A
P(X ∈ A | Y = y) = fX|Y (x | y) dx.
A
• They can also be used to calculate expectations:

#
E[g(X)] = g(x)fX (x) dx,
# #
$ %
E g(X, Y ) = g(x, y)fX,Y (x, y) dx dy,
#
$ %
E g(X) | Y = y = g(x)fX|Y (x | y) dx,
#
$ %
E g(X, Y ) | Y = y = g(x, y)fX|Y (x | y) dx.
• We have the following versions of the total expectation theorem:

#
E[X] = E[X | Y = y]fY (y) dy,
#
$ % $
E g(X) = E g(X) | Y = y]fY (y) dy,
#
$ % $
E g(X, Y ) = E g(X, Y ) | Y = y]fY (y) dy.
To justify the first version of the total expectation theorem, we observe

that
# # &# '
E[X | Y = y]fY (y) dy = xfX|Y (x | y) dx fY (y) dy
# #
= xfX|Y (x | y)fY (y) dx dy
# #
= xfX,Y (x, y) dx dy


! "! #
= x fX,Y (x, y) dy dx
!
= xfX (x) dx
= E[X].
The other two versions are justified similarly.
Inference and the Continuous Bayes’ Rule
In many situations, we have a model of an underlying but unobserved phe-

nomenon, represented by a random variable X with PDF fX , and we make
noisy measurements Y . The measurements are supposed to provide information
about X and are modeled in terms of a conditional PDF fY |X . For example, if
Y is the same as X, but corrupted by zero-mean normally distributed noise, one
would let the conditional PDF fY |X (y | x) of Y , given that X = x, be normal
with mean equal to x. Once the experimental value of Y is measured, what
information does this provide on the unknown value of X?
This setting is similar to that encountered in Section 1.4, when we intro-
duced the Bayes rule and used it to solve inference problems. The only difference
is that we are now dealing with continuous random variables.
Note that the information provided by the event {Y = y} is described by
the conditional PDF fX|Y (x | y). It thus suffices to evaluate the latter PDF. A
calculation analogous to the original derivation of the Bayes’ rule, based on the
formulas fX fY |X = fX,Y = fY fX|Y , yields
fX (x)fY |X (y | x) fX (x)fY |X (y | x)
fX|Y (x | y) = =! ,
fY (y)
fX (t)fY |X (y | t)dt
which is the desired formula.
Example 3.18. A lightbulb produced by the General Illumination Company is

known to have an exponentially distributed lifetime Y . However, the company has
been experiencing quality control problems. On any given day, the parameter λ of
the PDF of Y is actually a random variable, uniformly distributed in the interval
[0, 1/2]. We test a lightbulb and record the experimental value y of its lifetime.
What can we say about the underlying parameter λ?
We model the parameter λ as a random variable X, with a uniform distri-
bution. All available information about X is contained in the conditional PDF
fX|X (x | y). We view y as a constant (equal to the observed value of Y ) and con-
centrate on the dependence of the PDF on x. Note that fX (x) = 2, for 0 ≤ x ≤ 1/2.
By the continuous Bayes rule, we have
2xe−xy 1
fX|Y (x | y) = $ 1/2 , for 0 ≤ x ≤ .
2te−ty dt 2
0

École 36
Polytechnique de l’UNSA General Random Variables Chap. 3
In some cases, the unobserved phenomenon is inherently discrete. For

example, if a binary signal is observed in the presence of noise with a normal
distribution. Or if a medical diagnosis is to be made on the basis of continuous
measurements like temperature and blood counts. In such cases, a somewhat
different version of Bayes’ rule applies.
Let X be a discrete random variable that takes values in a finite set
{1, . . . , n} and which represents the different discrete possibilities for the un-
observed phenomenon of interest. The PMF pX of X is assumed to be known.
Let Y be a continuous random variable which, for any given value x, is described
by a conditional PDF fY | X (y | x). We are interested in the conditional PMF of
X given the experimental value y of Y .
Instead of working with conditioning event {Y = y} which has zero proba-
bility, let us instead condition on the event {y ≤ Y ≤ y + δ}, where δ is a small
positive number, and then take the limit as δ tends to zero. We have, using the
Bayes rule
P(X = x | Y = y) ≈ P(X = x | y ≤ Y ≤ y + δ)
pX (x)P(y ≤ Y ≤ y + δ | X = x)
=
P(y ≤ Y ≤ y + δ)
pX (x)fY |X (y | x)δ
≈
fY (y)δ
pX (x)fY |X (y | x)
= .
fY (y)
The denominator can be evaluated using a version of the total probability theo-
rem introduced in Section 3.4. We have
n
!
fY (y) = pX (i)fY |X (y | i).
i=1
Example 3.19. Let us revisit the signal detection problem considered in 3.9. A
signal S is transmitted and we are given that P(S = 1) = p and P(S = −1) = 1−p.
The received signal is Y = N +S, where N is zero mean normal noise, with variance
σ 2 , independent of S. What is the probability that S = 1, as a function of the
observed value y of Y ?
Conditioned on S = s, the random variable Y has a normal distribution with
mean s and variance σ 2 . Applying the formula developed above, we obtain
2 2
pS (1)fY |S (y | 1) √p
2π σ
e−(y−1) /2σ
P(S = 1 | Y = y) = = .
fY (y) √p
2π σ
e−(y−1)2 /2σ2 + √1−p
2π σ
e−(y+1)2 /2σ2

Independence
In full analogy with the discrete case, we say that two continuous random vari-
ables X and Y are independent if their joint PDF is the product of the marginal
PDFs:
fX,Y (x, y) = fX (x)fY (y), for all x, y.
Comparing with the formula fX,Y (x, y) = fX|Y (x | y)fY (y), we see that inde-
pendence is the same as the condition
fX|Y (x | y) = fX (x), for all x and all y with fY (y) > 0,
or, symmetrically,
fY |X (y | x) = fY (y), for all y and all x with fX (x) > 0.
If X and Y are independent, then any two events of the form {X ∈ A} and
{Y ∈ B} are independent. Indeed,
! !
P(X ∈ A and Y ∈ B) = fX,Y (x, y) dy dx
x∈A y∈B
! !
= fX (x)fY (y) dy dx
x∈A y∈B
! !
= fX (x) dx fY (y) dy
x∈A y∈B
= P(X ∈ A)P(Y ∈ B).
A converse statement is also true; see the theoretical problems.

A calculation similar to the discrete case shows that if X and Y are inde-
pendent, then
E[g(X)h(Y )] = E[g(X)]E[h(Y )],
for any two functions g and h. Finally, the variance of the sum of independent
random variables is again equal to the sum of the variances.

Independence of Continuous Random Variables

Suppose that X and Y are independent, that is,
fX,Y (x, y) = fX (x)fY (y), for all x, y.
We then have the following properties.

• The random variables g(X) and h(Y ) are independent, for any func-
tions g and h.
• We have
E[XY ] = E[X]E[Y ],
and, more generally,
! " ! " ! "
E g(X)h(Y ) = E g(X) E h(Y ) ,
• We have
var(X + Y ) = var(X) + var(Y ).
Joint CDFs
If X and Y are two random variables associated with the same experiment, we
define their joint CDF by
FX,Y (x, y) = P(X ≤ x, Y ≤ y).
As in the case of one random variable, the advantage of working with the CDF
is that it applies equally well to discrete and continuous random variables. In
particular, if X and Y are described by a joint PDF fX,Y , then
# x # y
FX,Y (x, y) = P(X ≤ x, Y ≤ y) = fX,Y (s, t) ds dt.
−∞ −∞
Conversely, the PDF can be recovered from the PDF by differentiating:

∂ 2 FX,Y
fX,Y (x, y) = (x, y).
∂x∂y
Example 3.20. Let X and Y be described by a uniform PDF on the unit square.
The joint CDF is given by
FX,Y (x, y) = P(X ≤ x, Y ≤ y) = xy, for 0 ≤ x, y ≤ 1.
3.9.1 Cas multi-dimensionnel

On considère un changement de variables multi-dimensionnel que l’on peut écrire sous la forme :
Y1 = g1 (X1 , . . . , Xn )
..
.
Yn = gn (X1 , . . . , Xn )
Pour des fonctions gi continues et différentiables (et à condition que le jacobien défini ci-dessous
soit non nul), on peut faire le même raisonnement que ci-dessous. Donc, dans un tronçon, on a :
∂(x1 , . . . , xn )
P(Y ) y1 , . . . , yn = P(X) x1 , . . . , xn ,
∂(y1 , . . . , yn )

on notera que dans ce cas-ci, il est plus compliqué d’écrire l’expression en fonction de gi−1 , mais
on aurait plutôt des fonctions de type Xi = fi (Y1 , . . . , Yn ).
Exemple 3.9.1 Précision de fabrication en micro-électronique
Dans le processus de fabrication de circuits intégrés, une des parties cruciales est la précision
de la lithographie. On peut quantifier cette précision comme étant la déviation en coordonnées
horizontales et verticales (x et y) par rapport à l’endroit à graver.
Dans le cas de technologies “70 nm”, on peut considérer que les déviations en x et y sont
des variables aléatoires indépendantes qui suivent des lois gaussiennes de moyenne nulle et de
variance σ 2 = 0.2nm2 . La densité de probabilité conjointe des déviations (X, Y) est donnée
par :
1 −(x2 +y2 )/2σ2
PXY (x, y) = PX (x)PY (y) = e
2πσ 2
La caractérisation de la précision en x et en y ne répond pas à la question suivante : “quelle est

la loi de probabilité de la distance entre le point désiré et le point obtenu par la lithographie ?”
Pour obtenir cette loi, on passe des coordonnées cartésiennes aux coordonnées polaires selon la
transformation :
(X, Y) = (R cos(Θ), R sin(Θ)).
Le jacobien de la transformation vaut r :
∂(x, y) cos(θ) sin(θ)

= = r,
∂(r, θ) −r sin(θ) r cos(θ)
et donc
r 2 2 2
PR,Θ (r, θ) = e−[(r cos(θ)) +(r sin(θ)) ]/2σ
2πσ 2
r 2 2
= e−r /2σ
2πσ 2
Pour trouver les marginales, il faut intégrer sur l’autre variable aléatoire, soit :
Z ∞
PΘ (θ) = PR,Θ dr
r=0
Z ∞
r 2 2
= e−r /2σ dr
r=0 2πσ 2
1
=
2π
L’angle est donc uniformément distribué sur [0, 2π]. D’autre part, on en déduit que
r −r2 /2σ2
PR (r) = e
σ2
On en déduit également que les variables aléatoires R et Θ sont indépendantes (la loi conjointe
est donnée par le produit des lois marginales). La densité de probabilité suivie par la distance
R est celle d’une variable dite de Rayleigh.
C

3.10 Somme de variables aléatoires
Sec. 4.2 Sums of Independent Random Variables — Convolutions 13
Transforms for Common Continuous Random Variables

Uniform(a, b)
1 1 esb − esa
fX (x) = , a ≤ x ≤ b. MX (s) = .
b−a b−a s
Exponential(λ)
λ
fX (x) = λe−λx , x ≥ 0. MX (s) = , (s > λ).
λ−s
Normal(µ, σ 2 )
1 2 2 σ 2 s2 +µs
fX (x) = √ e−(x−µ) /2σ , −∞ < x < ∞. MX (s) = e 2 .
σ 2π
then the joint distribution of X1 , . . . , Xn is the same as the joint distribution of

Y1 , . . . , Yn .
4.2 SUMS OF INDEPENDENT RANDOM VARIABLES

— CONVOLUTIONS
If X and Y are independent random variables, the distribution of their sum
W = X + Y can be obtained by computing and then inverting the transform
MW (s) = MX (s)MY (s). But it can also be obtained directly, using the method
developed in this section.
The Discrete Case
Let W = X+Y , where X and Y are independent integer-valued random variables

with PMFs pX (x) and pY (y). Then, for any integer w,
pW (w) =P(X + Y = w)
!
= P(X = x and Y = y)
(x,y): x+y=w
!
= P(X = x and Y = w − x)
x
!
= pX (x)pY (w − x).
x

14 Further Topics on Random Variables and Expectations Chap. 4
. y
. (0,3)
. (1,2)
.(2,1)
.(3,0)
. x
Figure 4.2: The probability pW (3) that X +Y = 3 is the sum of the probabilities
of all pairs (x, y) such that x + y = 3, which are the points indicated in the
figure. The probability of a generic such point is of the form pX,Y (x, 3 − x) =
pX (x)pY (3 − x).
The resulting PMF pW (w) is called the convolution of the PMFs of X and Y .
See Fig. 4.2 for an illustration.
Example 4.13. Let X and Y be independent and have PMFs given by

1
! 
if x = 0,
 21
1
if x = 1, 2, 3, if x = 1,
pX (x) = 3 pY (y) = 3
1
0 otherwise, 
 if x = 2, 6
0 otherwise.
To calculate the PMF of W = X + Y by convolution, we first note that the range
of possible values of w are the integers from the range [1, 5]. Thus we have
pW (w) = 0 if w != 1, 2, 3, 4, 5.
We calculate pW (w) for each of the values w = 1, 2, 3, 4, 5 using the convolution
formula. We have
& 1 1 1
pW (1) = pX (x)pY (1 − x) = pX (1) · pY (0) = · = ,
3 2 6
x
where the second equality above is based on the fact that for x != 1 either pX (x) or
pY (1 − x) (or both) is zero. Similarly, we obtain
1 1 1 1 5
pW (2) = pX (1) · pY (1) + pX (2) · pY (0) = · + · = ,
3 3 3 2 18
1 1 1 1 1 1 1
pW (3) = pX (1) · pY (2) + pX (2) · pY (1) + pX (3) · pY (0) = · + · + · = ,
3 6 3 3 3 2 3
1 1 1 1 1
pW (4) = pX (2) · pY (2) + pX (3) · pY (1) = · + · = ,
3 6 3 3 6
1 1 1
pW (5) = pX (3) · pY (2) = · = .
3 6 18

Sec. 4.2 Sums of Independent Random Variables — Convolutions 15
The Continuous Case
Let X and Y be independent continuous random variables with PDFs fX (x) and
fY (y). We wish to find the PDF of W = X + Y . Since W is a function of two
random variables X and Y , we can follow the method of Chapter 3, and start
by deriving the CDF FW (w) of W . We have
FW (w) = P(W ≤ w)
= P(X + Y ≤ w)
! ∞ ! w−x
x=−∞ y=−∞
! ∞ "! w−x #
= fX (x) fY (y) dy dx
x=−∞ y=−∞
! ∞
= fX (x)FY (w − x) dx.
x=−∞
The PDF of W is then obtained by differentiating the CDF:
dFW
fW (w) = (w)
dw!
∞
d
= fX (x)FY (w − x) dx
dw x=−∞
! ∞
dFY
= fX (x) (w − x) dx
x=−∞ dw
! ∞
= fX (x)fY (w − x) dx.
x=−∞
This formula is entirely analogous to the formula for the discrete case, except
that the summation is replaced by an integral and the PMFs are replaced by
PDFs. For an intuitive understanding of this formula, see Fig. 4.3.
Example 4.14. The random variables X and Y are independent and uniformly
distributed in the interval [0, 1]. The PDF of W = X + Y is
! ∞
fW (w) = fX (x)fY (w − x) dx.
−∞
The integrand fX (x)fY (w − x) is nonzero (and equal to 1) for 0 ≤ x ≤ 1 and

0 ≤ w − x ≤ 1. Combining these two inequalities, the integrand is nonzero for
max{0, w − 1} ≤ x ≤ min{1, w}. Thus,
$
min{1, w} − max{0, w − 1}, 0 ≤ w ≤ 2,
fW (w) =
0, otherwise,

w!"!!
w
x!"!y!#!w!"!!
w x
x!"!y!#!w
Figure 4.3: Illustration of the convolution formula for the case of continuous
random variables (compare with Fig. 4.2). For small δ, the probability of the
strip indicated in the figure is P(w ≤ X + Y ≤ w + δ) ≈ fW (w) · δ. Thus,
fW (w) · δ =P(w ≤ X + Y ≤ w + δ)
! ∞ ! w−x+δ
x=−∞ y=w−x
! ∞
≈ fX (x)fY (w − x)δ dx.
x=−∞
The desired formula follows by canceling δ from both sides.
fW(w)
2 w
Figure 4.4: The PDF of the sum of two independent uniform random variables
in [0, 1].
which has the triangular shape shown in Fig. 4.4.
The calculation in the last example was based on a literal application of the
convolution formula. The most delicate step was to determine the correct limits
for the integration. This is often tedious and error prone, but can be bypassed
using a graphical method described next.

3.11 Espérances itérées
we obtain some useful formulas (the law of iterated expectations and the
law of conditional variances) that are often convenient for the calculation of
expected values and variances.
Recall that the conditional expectation E[X | Y = y] is defined by
!
E[X | Y = y] = xpX|Y (x | y), (discrete case),
x
and " ∞
E[X | Y = y] = xfX|Y (x | y) dx, (continuous case).
−∞
Once a value of y is given, the above summation or integration yields a numerical

value for E[X | Y = y].
Example 4.15. Let the random variables X and Y have a joint PDF which
is equal to 2 for (x, y) belonging to the triangle indicated in Fig. 4.6(a), and zero
everywhere else. In order to compute E[X | Y = y], we first need to obtain the
conditional density of X given Y = y.
fX#Y(x #y )
y
1 1
fX,Y(x ,y)!"!2
1!!!y
1!!!y 1 x 1!!!y 1 x
(a) (b)
Figure 4.6: (a) The joint PDF in Example 4.15. (b) The conditional density
of X.
We have
" ∞ " 1−y
fY (y) = fX,Y (x, y) dx = 2 dx = 2(1 − y), 0 ≤ y ≤ 1,
−∞ 0
and
fX,Y (x, y) 1
fX|Y (x | y) = = , 0 ≤ x ≤ 1 − y.
fY (y) 1−y
The conditional density is shown in Fig. 4.6(b).

Sec. 4.3 Conditional Expectation as a Random Variable 19
Intuitively, since the joint PDF is constant, the conditional PDF (which is a
“slice” of the joint, at some fixed y) is also a constant. Therefore, the conditional
PDF must be a uniform distribution. Given that Y = y, X ranges from 0 to 1 − y.
Therefore, for the PDF to integrate to 1, its height must be equal to 1/(1 − y), in
agreement with Fig. 4.6(b).
For y > 1 or y < 0, the conditional PDF is undefined, since these values of
y are impossible. For y = 1, X must be equal to 0, with certainty, and E[X | Y =
1] = 0.
For 0 ≤ y < 1, the conditional mean E[X | Y = y] is the expectation of the
uniform PDF in Fig. 4.6(b), and we have
1−y
E[X | Y = y] = , 0 ≤ y < 1.
2
Since E[X | Y = 1] = 0, the above formula is also valid when y = 1. The conditional
expectation is undefined when y is outside [0, 1].
For any number y, E[X | Y = y] is also a number. As y varies, so does

E[X | Y = y], and we can therefore view E[X | Y = y] as a function of y. Since
y is the experimental value of the random variable Y , we are dealing with a
function of a random variable, hence a new random variable. More precisely, we
define E[X | Y ] to be the random variable whose value is E[X | Y = y] when the
outcome of Y is y.
Example 4.15. (continued) We saw that E[X | Y = y] = (1 − y)/2. Hence,

E[X | Y ] is the random variable (1 − Y )/2:
1−Y
E[X | Y ] = .
2
! "
Since E[X | Y ] is a random variable, it has an expectation E E[X | Y ] of
its own. Applying the expected value rule, this is given by
'

 E[X | Y = y]pY (y), Y discrete,
! "  y
E E[X | Y ] = ( ∞


 E[X | Y = y]fY (y) dy, Y continuous.
−∞
Both expressions in the right-hand side should be familiar from Chapters 2 and
3, respectively. By the corresponding versions of the total expectation theorem,
they are equal to E[X]. This brings us to the following conclusion, which is
actually valid for every type of random variable Y (discrete, continuous, mixed,
etc.), as long as X has a well-defined and finite expectation E[X].
! "
Law of iterated expectations: E E[X | Y ] = E[X].

Example 4.15 (continued) In Example 4.15, we found E[X | Y ] = (1 − Y )/2

[see Fig. 4.6(b)]. Taking expectations of both sides, and using! the law
" of iterated
expectations to evaluate the left-hand side, we obtain E[X] = 1−E[Y ] /2. Because
! "
of symmetry, we must have E[X] = E[Y ]. Therefore, E[X] = 1 − E[X] /2, which
yields E[X] = 1/3. In a slightly different version of this example, where there is no
symmetry between X and Y , we would use a similar argument to express E[Y ].
Example 4.16. We start with a stick of length !. We break it at a point which

is chosen randomly and uniformly over its length, and keep the piece that contains
the left end of the stick. We then repeat the same process on the stick that we
were left with. What is the expected length of the stick that we are left with, after
breaking twice?
Let Y be the length of the stick after we break for the first time. Let X be
the length after the second time. We have E[X | Y ] = Y /2, since the breakpoint is
chosen uniformly over the length Y of the remaining stick. For a similar reason, we
also have E[Y ] = !/2. Thus,
# $ % & E[Y ]
Y !
E[X] = E E[X | Y ] = E = = .
2 2 4
Example 4.17. Averaging Quiz Scores by Section. A class has n students

and the quiz score of student i is xi . The average quiz score is
1'
n
m= xi .
n
i=1
The class consists of S sections, with ns students in section s. The average score
in section s is '
1
ms = xi .
ns
stdnts. i in sec. s
The average score over the whole class can be computed by taking the average score
ms of each section, and then forming a weighted average; the weight given to section
s is proportional to the number of students in that section, and is ns /n. We verify
that this gives the correct result:
'
S
ns '
S
ns 1 '
ms = · xi
n n ns
s=1 s=1 stdnts. i in sec. s
1' '
S
= xi
n
s=1 stdnts. i in sec. s
1'
n
= xi .
n
i=1
= m.

Sec. 4.3 Conditional Expectation as a Random Variable 21
How is this related to conditional expectations? Consider an experiment in

which a student is selected at random, each student having probability 1/n of being
selected. Consider the following two random variables:
X = quiz score of a student,

Y = section of a student, (Y ∈ {1, . . . , S}).
We then have
E[X] = m.
Conditioning on Y = s is the same as assuming that the selected student is
in section s. Conditional on that event, every student in that section has the same
probability 1/ns of being chosen. Therefore,
1 !
E[X | Y = s] = xi = ms .
ns
stdnts. i in sec. s
A randomly selected student belongs to section s with probability ns /n, i.e., P(Y =
s) = ns /n. Hence,
" # !
S
!
S
ns
E E[X | Y ] = E[X | Y = s]P(Y = s) = ms .
n
s=1 s=1
As shown earlier, this is the same as m. Thus, averaging by section can be viewed
as a special case of the law of iterated expectations.
Example 4.18. Forecast Revisions. Let Y be the sales of a company in the

first semester of the coming year, and let X be the sales over the entire year. The
company has constructed a statistical model of sales, and so the joint distribution of
X and Y is assumed to be known. In the beginning of the year, the expected value
E[X] serves as a forecast of the actual sales X. In the middle of the year, the first
semester sales have been realized and the experimental value of the random value Y
is now known. This places us in a new “universe,” where everything is conditioned
on the realized value of Y . We then consider the mid-year revised forecast of yearly
sales, which is E[X | Y ].
We view E[X | Y ] − E[X] as the forecast revision, in light of the mid-year
information. The law of iterated expectations implies that
" #
E E[X | Y ] − E[X] = 0.
This means that, in the beginning of the year, we do not expect our forecast to
be revised in any specific direction. Of course, the actual revision will usually be
positive or negative, but the probabilities are such that it is zero on the average.
This is quite intuitive. For example, if a positive revision was expected, the original
forecast should have been higher in the first place.
Sec. 4.4 Sum of a Random Number of Independent Random Variables 25
We summarize the main points in this section.
The Mean and Variance of a Conditional Expectation

• E[X | Y = y] is a number, whose value depends on y.
• E[X | Y ] is a function of the random variable Y , hence a random vari-
able. Its experimental value is E[X | Y = y] whenever the experimental
value of Y is y.
! "
• E E[X | Y ] = E[X] (law of iterated expectations).
• var(X | Y ) is a random variable whose experimental value is var(X | Y =
y), whenever the experimental value of Y is y.
! " # $
• var(X) = E var(X | Y ) + var E[X | Y ] .

3.12 Covariance et corrélation
Sec. 4.5 Covariance and Correlation 29
Properties of Sums of a Random Number of Independent Random

Variables
Let X1 , X2 , . . . be random variables with common mean µ and common
variance σ 2 . Let N be a random variable that takes nonnegative integer
values. We assume that all of these random variables are independent, and
consider
Y = X1 + · · · + XN .
Then,
• E[Y ] = µE[N ].
• var(Y ) = σ 2 E[N ] + µ2 var(N ).
• The transform MY (s) is found by starting with the transform MN (s)
and replacing each occurrence of es with MX (s).
4.5 COVARIANCE AND CORRELATION
The covariance of two random variables X and Y is denoted by cov(X, Y ), and

is defined by !" #" #$
cov(X, Y ) = E X − E[X] Y − E[Y ] .
When cov(X, Y ) = 0, we say that X and Y are uncorrelated.
Roughly speaking, a positive or negative covariance indicates that the val-
ues of X − E[X] and Y − E[Y ] obtained in a single experiment “tend” to have
the same or the opposite sign, respectively (see Fig. 4.8). Thus the sign of the
covariance provides an important qualitative indicator of the relation between
X and Y .
If X and Y are independent, then
!" #" #$ ! $ ! $
cov(X, Y ) = E X − E[X] Y − E[Y ] = E X − E[X] E Y − E[Y ] = 0.
Thus if X and Y are independent, they are also uncorrelated. However, the
reverse is not true, as illustrated by the following example.
Example 4.24. The pair of random variables (X, Y ) takes the values (1, 0), (0, 1),
(−1, 0), and (0, −1), each with probability 1/4 (see Fig. 4.9). Thus, the marginal
PMFs of X and Y are symmetric around 0, and E[X] = E[Y ] = 0. Furthermore,
for all possible value pairs (x, y), either x or y is equal to 0, which implies that
XY = 0 and E[XY ] = 0. Therefore,
!" #" #$
cov(X, Y ) = E X − E[X] Y − E[Y ] = E[XY ] = 0,

y y
x x
(a) (b)
Figure 4.8: Examples of positively and negatively correlated random variables.

Here X and Y are uniformly distributed over the ellipses shown. In case (a) the
covariance cov(X, Y ) is negative, while in case (b) it is positive.
(0,1)
Figure 4.9: Joint PMF of X and Y
for Example 4.21. Each of the four
points shown has probability 1/4. Here
X and Y are uncorrelated but not in-
(-1,0) (1,0) x dependent.
(0,-1)
and X and Y are uncorrelated. However, X and Y are not independent since, for
example, a nonzero value of X fixes the value of Y to zero.
The correlation coefficient ρ of two random variables X and Y that have

nonzero variances is defined as
cov(X, Y )
ρ= ! .
var(X)var(Y )
It may be viewed as a normalized version of the covariance cov(X, Y ), and in fact
it can be shown that ρ ranges from −1 to 1 (see the end-of-chapter problems).
If ρ > 0 (or ρ < 0), then the values of x − E[X] and y − E[Y ] “tend”
to have the same (or opposite, respectively) sign, and the size of |ρ| provides a
normalized measure of the extent to which this is true. In fact, always assuming
that X and Y have positive variances, it can be shown that ρ = 1 (or ρ = −1)
if and only if there exists a positive (or negative, respectively) constant c such
that
" #
y − E[Y ] = c x − E[X] , for all possible numerical values (x, y)

Sec. 4.5 Covariance and Correlation 31
(see the end-of-chapter problems). The following example illustrates in part this
property.
Example 4.25. Consider n independent tosses of a biased coin with probability of

a head equal to p. Let X and Y be the numbers of heads and of tails, respectively,
and let us look at the correlation of X and Y . Here, for all possible pairs of values
(x, y), we have x + y = n, and we also have E[X] + E[Y ] = n. Thus,
! "
x − E[X] = − y − E[Y ] , for all possible (x, y).
We will calculate the correlation coefficient of X and Y , and verify that it is indeed
equal to −1.
We have
#! "! "$
cov(X, Y ) = E X − E[X] Y − E[Y ]
# $
= −E (X − E[X])2
= −var(X).
Hence, the correlation coefficient is
cov(X, Y ) −var(X)
ρ(X, Y ) = % = % = −1.
var(X)var(Y ) var(X)var(X)
The covariance can be used to obtain a formula for the variance of the
sum of several (not necessarily independent) random variables. In particular, if
X1 , X2 , . . . , Xn are random variables with finite variance, we have
& n ( n n
' ' '
var Xi = var(Xi ) + 2 cov(Xi , Xj ).
i=1 i=1 i,j=1
i<j
This can be seen from the following calculation, where for brevity, we denote
X̃i = Xi − E[Xi ]:
& n ( & (2 
' 'n
var Xi = E  X̃i 
i=1 i=1
 
'n '
n
= E X̃i X̃j 
i=1 j=1
n '
' n
= E[X̃i X̃j ]
i=1 j=1
' n
'
2
= E[X̃i ] + 2 E[X̃i X̃j ]
i=1 i,j=1
i<j
n
' n
'
= var(Xi ) + 2 cov(Xi , Xj ).
i=1 i,j=1
i<j

The following example illustrates the use of this formula.
Example 4.26. Consider the hat problem discussed in Section 2.5, where n
people throw their hats in a box and then pick a hat at random. Let us find the
variance of X, the number of people that pick their own hat. We have
X = X1 + · · · + Xn ,
where Xi is the random variable that takes the value 1 if the ith person selects
his/her own hat, and takes the value 0 otherwise. Noting that Xi is Bernoulli with
parameter p = P(Xi = 1) = 1/n, we obtain
! "
1 1
var(Xi ) = 1− .
n n
For i "= j, we have

#$ %$ %&
cov(Xi , Xj ) = E Xi − E[Xi ] Xj − E[Xj ]
= E[Xi Xj ] − E[Xi ]E[Xj ]
= P(Xi = 1 and Xj = 1) − P(Xi = 1)P(Xj = 1)
= P(Xi = 1)P(Xj = 1 | Xi = 1) − P(Xi = 1)P(Xj = 1)
1 1 1
= − 2
nn−1 n
1
= 2 .
n (n − 1)
Therefore ' n )
(
var(X) = var Xi
i=1
(
n (
n
= var(Xi ) + 2 cov(Xi , Xj )
i=1 i,j=1
i<j
! " n(n − 1)
1 1 1
=n 1− +2
n n 2 n2 (n − 1)
= 1.
4.6 LEAST SQUARES ESTIMATION
In many practical contexts, we want to form an estimate of the value of a random

variable X given the value of a related random variable Y , which may be viewed

3.13 Estimateur des moindres carrés
Sec. 4.6 Least Squares Estimation 33
as some form of “measurement” of X. For example, X may be the range of

an aircraft and Y may be a noise-corrupted measurement of that range. In
this section we discuss a popular formulation of the estimation problem, which
is based on finding the estimate c that minimizes the expected value of the
squared error (X − c)2 (hence the name “least squares”).
If the value of Y is not available, we may consider finding an estimate (or
prediction) c of X. The estimation
! error" X −c is random (because X is random),
but the mean squared error E (X − c)2 is a number that depends on c and can
be minimized over c. With respect to this criterion, it turns out that the best
possible estimate is c = E[X], as we proceed to verify.
Let m = E[X]. For any estimate c, we have
! " ! "
E (X − c)2 = E (X − m + m − c)2
! " ! " ! "
= E (X − m)2 + 2E (X − m)(m − c) + E (m − c)2
! "
= E (X − m)2 + 2E[X − m](m − c) + (m − c)2
! "
= E (X − m)2 + (m − c)2 ,
where we used the fact E[X − m] = 0. The first term in the right-hand side
is the variance of X and is unaffected by our choice of c. Therefore, we should
choose c in a way that minimizes the second term, which leads to c = m = E[X]
(see Fig. 4.10).
Expected Squared
Estimation Error
E [(X- c)2]
var(X)
E[X] c
!
Figure 4.10: The mean squared error E (X − c)2 ], as a function of the estimate
c, is a quadratic in c and is minimized when c = E[X]. The minimum value of
the mean squared error is var(X).
Suppose now that we observe the experimental value y of some related

random variable Y , before forming an estimate of X. How can we exploit this
additional information? Once we are told that Y takes a particular value y, the
situation is identical to the one considered earlier, except that we are now in a
new “universe,” where everything is conditioned on Y = y. We can therefore
adapt our earlier conclusion and assert that c = E[X | Y = y] minimizes the


! "
conditional mean squared error E (c − X)2 | Y = y . Note that the resulting
estimate c depends on the experimental value y of Y (as it should). Thus, we
call E[X | Y = y] the least-squares estimate of X given the experimental value y.
Example 4.27. Let X be uniformly distributed in the interval [4, 10] and suppose
that we observe X with some random error W , that is, we observe the experimental
value of the random variable
Y = X + W.
We assume that W is uniformly distributed in the interval [−1, 1], and independent
of X. What is the least squares estimate of X given the experimental value of Y ?
We have fX (x) = 1/6 for 4 ≤ x ≤ 10, and fX (x) = 0, elsewhere. Conditioned
on X being equal to some x, Y is the same as x + W , and is uniform over the
interval [x − 1, x + 1]. Thus, the joint PDF is given by
1 1 1
fX,Y (x, y) = fX (x)fY |X (y | x) = · = ,
6 2 12
if 4 ≤ x ≤ 10 and x − 1 ≤ y ≤ x + 1, and is zero for all other values of (x, y).

The slanted rectangle in the right-hand side of Fig. 4.11 is the set of pairs (x, y) for
which fX,Y (x, y) is nonzero.
Given an experimental value y of Y , the conditional PDF fX|Y of X is uniform
on the corresponding vertical section of the slanted rectangle. The optimal estimate
E[X | Y = y] is the midpoint of that section. In the special case of the present
example, it happens to be a piecewise linear function of y.
x
Y=X+W 10
where W is a measurement
error that is uniformly
distributed in the interval [-1,1]
fX(x )
1/6 Least squares estimate

4
E [X | Y = y ]
9 11
4 10 x 3 5
y
Figure 4.11: The PDFs in Example 4.27. The least squares estimate of X given
the experimental value y of the random variable Y = X + W depends on y and
is represented by the piecewise linear function shown in the figure on the right.
As Example 4.27 illustrates, the estimate E[X | Y = y] depends on the

observed value y and should be viewed as a function of y; see Fig. 4.12. To

amplify this point, we refer to any function of the available information as an

estimator. Given an experimental outcome y of Y , an estimator g(·) (which is
a function) produces an estimate g(y) (which is a number). However, if y is left
unspecified, then the estimator results in a random variable g(Y ). The expected
value of the squared estimation error associated with an estimator g(Y ) is
!" #2 $
E X − g(Y ) .
Out of all estimators, it turns out that the mean squared estimation error
is minimized when g(Y ) = E[X | Y ]. To see this, note that if c is any number,
we have
!" #2 % $ & '

E X − E[X | Y = y] % Y = y ≤ E (X − c)2 | Y = y .
Consider now an estimator g(Y ). For a given value y of Y , g(y) is a number

and, therefore,
!" #2 $ !" #2 % $
E X − E[X | Y = y] | Y = y ≤ E X − g(y) % Y = y .
This inequality is true for every possible experimental value y of Y . Thus,
!" #2 % $ ! #2 % $
E X − E[X | Y ] % Y ≤ E (X − g(Y ) % Y ,
which is now an inequality between random variables (functions of Y ). We take

expectations of both sides, and use the law of iterated expectations, to conclude
that
!" #2 $ ! #2 $
E X − E[X | Y ] ≤ E (X − g(Y )
for all functions g(Y ).
y E[X |Y = y ]
LEAST SQUARES
ESTIMATOR
Figure 4.12: The least squares estimator.

Key Facts about Least Mean Squares Estimation

! "
• E (X − c)2 is minimized when c = E[X]:
#$ %2 & ! "
E X − E[X] ≤ E (X − c)2 , for all c.
! "
• E (X − c)2 | Y = y is minimized when c = E[X | Y = y]:
#$ %2 ' & ! "
E X − E[X | Y = y] ' Y = y ≤ E (X − c)2 | Y = y , for all c.
• Out of all estimators

#$ g(Y ) of& X based on Y , the mean squared esti-
%2
mation error E X − g(Y ) is minimized when g(Y ) = E[X | Y ]:
#$ %2 & #$ %2 &
E X − E[X | Y ] ≤ E X − g(Y ) , for all functions g(Y ).
Some Properties of the Estimation Error
Let us introduce the notation
X̂ = E[X | Y ], X̃ = X − X̂,
for the (optimal) estimator and the associated estimation error, respectively.
Note that both X̂ and X̃ are random variables, and by the law of iterated
expectations,
! "
E[X̃] = E X − E[X | Y ] = E[X] − E[X] = 0.
The equation E[X̃] = 0 remains valid even if we condition on Y , because
E[X̃ | Y ] = E[X − X̂ | Y ] = E[X | Y ] − E[X̂ | Y ] = X̂ − X̂ = 0.
We have used here the fact that X̂ is completely determined by Y and therefore
E[X̂ | Y ] = X̂. For similar reasons,
!$ % " $ %
E X̂ − E[X] X̃ | Y = X̂ − E[X] E[X̃ | Y ] = 0.
Taking expectations and using the law of iterated expectations, we obtain

!$ % "
E X̂ − E[X] X̃ = 0.

Note that X = X̂ + X̃, which yields X − E[X] = X̂ − E[X] + X̃. We square

both sides of the latter equality and take expectations to obtain
!" #2 $
var(X) = E X − E[X]
%" #2 &
= E X̂ − E[X] + X̃
%" #2 & !" # $
= E X̂ − E[X] + E[X̃ 2 ] + 2E X̂ − E[X] X̃
%" #2 &
= E X̂ − E[X] + E[X̃ 2 ]
= var(X̂) + var(X̃).
(The last equality holds because E[X̂] = E[X] and E[X̃] = 0.) In summary, we
have established the following important formula, which is just another version
of the law of conditional variances introduced in Section 4.3.
var(X) = var(X̂) + var(X̃).
Example 4.28. Let us say that the observed random variable Y is uninformative if
the mean squared estimation error E[X̃ 2 ] = var(X̃) is the same as the unconditional
variance var(X) of X. When is this the case?
Using the formula
var(X) = var(X̂) + var(X̃),

" #
we see that Y is uninformative if and only if var X̂ = 0. The variance of a random
variable is zero if and only if that random variable is a constant, equal to its mean.
We conclude that Y is uninformative if and only if X̂ = E[X | Y ] = E[X], for every
realization of Y .
If X and Y are independent, we have E[X | Y ] = E[X] and Y is indeed
uninformative, which is quite intuitive. The converse, however, is not true. That
is, it is possible for E[X | Y ] to be always equal to the constant E[X], without X
and Y being independent. (Can you construct an example?)
Estimation Based on Several Measurements
So far, we have discussed the case where we estimate one random variable X
on the basis of another random variable Y . In practice, one often has access
to the experimental values of several random variables Y1 , . . . , Yn , that can be
used to estimate X. Generalizing our earlier discussion, and using essentially

the same argument, the mean squared estimation error is minimized if we use
E[X | Y1 , . . . , Yn ] as our estimator. That is,
!" #2 $ !" #2 $
E X − E[X | Y1 , . . . , Yn ] ≤ E X − g(Y1 , . . . , Yn ) ,
for all functions g(Y1 , . . . , Yn ).

This provides a complete solution to the general problem of least squares
estimation, but is sometimes difficult to implement, because:
(a) In order to compute the conditional expectation E[X | Y1 , . . . , Yn ], we need
a complete probabilistic model, that is, the joint PDF fX,Y1 ,...,Yn (·) of n+1
random variables.
(b) Even if this joint PDF is available, E[X | Y1 , . . . , Yn ] can be a very compli-
cated function of Y1 , . . . , Yn .
As a consequence, practitioners often resort to approximations of the conditional
expectation or focus on estimators that are not optimal but are simple and easy
to implement. The most common approach involves linear estimators, of the
form
a1 Y1 + · · · + an Yn + b.
Given a particular choice of a1 , . . . , an , b, the corresponding mean squared error
is % &
E (X − a1 Y1 − · · · − an Yn − b)2 ,
and it is meaningful to choose the coefficients a1 , . . . , an , b in a way that min-
imizes the above expression. This problem is relatively easy to solve and only
requires knowledge of the means, variances, and covariances of the different ran-
dom variables. We develop the solution for the case where n = 1.
Linear Least Mean Squares Estimation Based on a Single Measurement
We are %interested in finding

& a and b that minimize the mean squared estimation
error E (X − aY − b)2 , associated with a linear estimator aY + b of X. Suppose
that a has already been chosen. How should we choose b? This is the same as
having to choose a constant b to estimate the random variable aX − Y and, by
our earlier results, the best choice is to let b = E[X − aY ] = E[X] − aE[Y ].
It now remains to minimize, with respect to a, the expression
!" #2 $
E X − aY − E[X] + aE[Y ] ,
which is the same as

!" #2 $
E (X − E[X]) − a(Y − E[Y ])
% & % & %" #" #&
= E (X − E[X])2 + a2 E (Y − E[Y ])2 − 2aE X − E[X] Y − E[Y ]
2 + a2 σ 2 − 2a · cov(X, Y ),
= σX Y

Sec. 4.7 The Bivariate Normal Distribution 39
where cov(X, Y ) is the covariance of X and Y :

! "
cov(X, Y ) = E (X − E[X])(Y − E[Y ]) .
This is a quadratic function of a, which is minimized at the point where its

derivative is zero, that is, if
cov(X, Y ) ρσX σY σX
a= = =ρ ,
σY2 σY2 σY
where
cov(X, Y )
ρ=
σX σY
is the correlation coefficient. With this choice of a, the mean squared estimation
error is given by
2
σX
2 + a2 σ 2 − 2a · cov(X, Y ) =σ 2 + ρ2 σX
σX Y X σ 2 − 2ρ ρσX σY
σY2 Y σy
2 .
=(1 − ρ2 )σX
Linear Least Mean Squares Estimation Formulas

The least mean squares linear estimator of X based on Y is
cov(X, Y ) # $
E[X] + Y − E[Y ] .
σY2
The resulting mean squared estimation error is equal to
(1 − ρ2 )var(X).
4.7 THE BIVARIATE NORMAL DISTRIBUTION
3.14We sayExercices
that two random variables X and Y have a bivariate normal distribution
if there are two independent normal random variables U and V and some scalars
a, b, c,3.1
Exercice d, such that
Jeu d’échecs
X = aU + bV, Y = cU + dV.
Fischer et Spassky jouent un match d’échecs où le premier qui gagne une partie gagne le match.
Après dix parties nulles, le match est déclaré nul. La probabilité qu’une partie soit gagnée
par Fischer est égale à 0.4 et la probabilité qu’elle soit gagnée par Spassky est égale à 0.3,
indépendamment du résultat des parties précédentes.
1. Quelle est la probabilité que Fischer gagne le match ?
2. Quelle est la fonction de probabilité pN (n) du nombre des parties (durée du match) ?
Exercice 3.2 Examen(s)
Un étudiant a le droit de se présenter jusqu’à m fois à un examen. La probabilité de réussir

est chaque fois égale à p (indépendamment du nombre de fois qu’il s’est déjà présenté. . . ).
Calculer la fonction de probabilité du nombre des essais (v.a. N ), sachant que l’étudiant réussit
à l’examen.
Exercice 3.3 Communication par paquet

Un fournisseur d’accès internet utilise 50 modems pour servir 1000 clients. On estime qu’à
chaque instant, chaque client voudra utiliser une connexion avec une probabilité de 1%, indé-
pendemment des autres clients.
– Quelle est la masse de probabilité du nombre de modems utilisés à un temps donné ?
– Répondre à la question précédente en approximant la masse de probabilité du nombre de
clients par une loi de Poisson.
– Quelle est la probabilité qu’il y ai plus de clients demandant une connection que de modems ?
Donnez une solution exacte et approchée sur base de l’approximation de Poisson.
Exercice 3.4 le mathématicien fumeur
Un mathématicien fumeur a une boite d’allumettes dans sa poche droite et une autre boite
dans sa poche gauche. Chaque fois qu’il veut allumer une cigarette, il choisit une boite d’une
de ses poches avec probabilité p = 1/2, indépendemment des choix précédents. Les deux boites
contiennent, au départ, n allumettes.
Quelle est la masse de probabilité du nombre d’allumettes restantes au moment ou le mathé-
maticien cherche une allumette, mais discouvre que la boite qu’il a choisie est vide ? Comment
peut-on généraliser au cas où les probabilités de choisir la poche gauche vaut p 6= 1/2.
Exercice 3.5 Intervalles de confiance
Un magasin d’électronique vend des sachets de 20 résistances ayant, pour la plupart, une pré-
cision de 1 %. Cependant, quelques résistances ont une précision de 5 %. On admet que la
probabilité qu’une résistance ait une précision de 1% est de 95 %. Pour améliorer ses ventes,
le revendeur envisage d’utiliser le slogan “chaque sachet contient au moins a résistances offrant
une précision de 1%”, a étant la valeur qu’il voudrait fixer pour qu’au maximum 1 % des clients
ayant acheté un sachet vienne se faire rembourser. Quelle doit être la valeur de a.
Exercice 3.6 Intervalles de confiance
On estime que le nombre de clients voulant se connecter sur un hotspot WiFi suit une loi de
Poisson de paramètre µ = 1.3. L’opérateur du hotspot garantit un débit au client annoncé
comme étant le débit total divisé par le nombre de clients simultanés. On demande de donner
un intervalle de confiance au niveau p = 0.99 quant au nombre de clients connectés (et donc
également quant au débit annoncé par l’opérateur).
Exercice 3.7 Espérance mathématique / conditionnelle
Le revenu moyen des ménages en 2007 était de 17.243 Euros en région PACA, de 15.157 Euros en
région Nord-Pas-de-Calais et de 18.835 Euros en Alsace. Quel est le revenu moyen sur l’ensemble
de ces trois régions, en supposant que 25 % de la population habite l’Alsace et que 45 % habite
la région PACA (et donc 30 % la région Nord-Pas-de-Calais).
Exercice 3.8 Espérance mathématique
Un prix est placé aléatoirement dans une boite parmi 10 (les boites sont numérotées de 1 à 10).
On cherche à trouver le prix en posant des questions binaires (le prix est-il dans la boite x ?).
Donnez l’espérance mathématique du nombre de questions à poser sous l’hypothèse des deux
stratégies suivantes :
1. La stratégie d’énumération : “Le prix est-il dans la boite k ?”
2. La stratégie dichotomique : vous éliminez à chaque fois la moitié des boites restantes avec
une question du type : “le prix est-il dans une boite de numéro inférieur ou égal à k ?”

Soit X une variable aléatoire de densité égale à :

x/4 si 1 < x ≤ 3
fX (x) =
0 sinon
4
soit également l’événement A = {X ≥ 2}.
1. Trouvez E[X], P(A), fX|A (x|a) et E[X|A].
2. Soit Y = X 2 , trouvez E[Y ] et var{Y }.

Soit la densité exponentielle bilatérale suivante :
pλe−λx

si x ≥ 0
fX (x) = ,
(1 − p)λeλx six < 0
où λ > 0 et p ∈ [0, 1]. Trouvez la moyenne et la variance de X de deux manières différentes :

– par calcul direct
– en utilisant une espérance conditionnelle et en vous basant sur la moyenne et la variance de
la v.a. exponentielle unilatérale connue (la moyenne vaut 1/λ et la variance vaut 2/λ2 ).
Exercice 3.11 Intervalles

Soit X une variable aléatoire normale centrée d’écart-type σ, en utilisant les tables, calculez la
probabilité des événements {X ≥ kσ} et {|X| ≤ kσ} pour k = 1, 2, 3.
Exercice 3.12 Normaliser et calculer

Une variable aléatoire X a comme fonction de probabilité :
(
x2 /a, x ∈ {−3, −2, −1, 0, 1, 2, 3}
pX (x) = .
0 ailleurs
Calculer :
1. les valeurs de a et de E[X],
2. la fonction de probabilité pZ (z) de la v.a. Z = (X − E[X])2 ,
2
3. la variance σX à partir de pZ (z),
2
4. la variance σX à partir de pX (x).
Exercice 3.13 Température

La température d’une ville est représentée par une variable aléatoire C. Une journée est caracté-
risée « ordinaire » si la température ne s’éloigne pas plus qu’un écart-type de la valeur moyenne.
Si E[C] = σC = 10o C, quelles sont les valeurs extrêmes de la température en Fahrenheit lors
d’une journée ordinaire ? (F = 32 + 59 C)
Exercice 3.14 Aléatoire ?

1. Une variable aléatoire X prend une seule valeur x = c. Calculer la fonction de probabilité
2
pX (X), l’espérance E[X] et la variance σX .
2. On nous dit que la variance σY2 d’une variable aléatoire Y est nulle. Quelle conclusion
peut-on en déduire ?
Exercice 3.15 Transformations

Soit X une variable aléatoire dont les valeurs possibles et équiprobables sont les entiers entre 0
et 9. Calculer les fonctions de probabilité suivantes :
1. pY (y) de Y = X mod (3),
2. pZ (z) de Z = 5 mod (X + 1).

Exercice 3.16 v.a. normale

Soit X et Y des variables aléatoires de moyennes 0 et 1 respectivement et de variances 1 et 4
respectivement. Trouvez :
1. P(X ≤ 1.5) et P(X ≤ −1)
2. la densité de probabilité de (Y − 1)/2
3. P(−1 ≤ Y ≤ 1)
4. P(X ≥ 2|X ≥ 0)
Exercice 3.17 Ampoules ...(ref LLN - MAT1271)

La durée de vie d’une ampoule électrique est donnée par la variable aléatoire X, exprimée en
heures, de densité égale à :
a/x3

si 1500 ≤ X ≤ 2500
fX (x) =
0 sinon
Trouvez la constante a, la fonction de répartition de X, E[X] et var[X]
Exercice 3.18 v.a. jointe simple (ref LLN - MAT1271)
La fonction 6 − x − y est positive sur le rectangle défini par 0 < x < 2, 2 < y < 5.
1. Calculer k tel que k(6 − x − y) soit une densité de probabilité pour (x, y)
2. Calculer P(X < 1, Y < 3) , P(X + Y < 3) et P(X < 1|Y < 3).
3. Trouvez la densité de probabilité marginale de X.
4. Trouvez la densité conditionnelle fX|Y (x|y).
Exercice 3.19 v.a. normales jointes (ref LLN MAT1271)
Soit trois variables aléatoires indépendantes X ∼ N (2, 1), Y ∼ N (3, 2) et Z ∼ N (4, 3), calculez :
– P(1 < X < 3)
– P(X ≤ Y )
– P(3X − 2Y > 1)
– P(X + Y ≤ 2Z − 4)
– P(X ≤ Y etZ < 5)
Exercice 3.20 Conditionnement REF Bertsekas

Soit X une v.a. de densité
cx−2

si 1 ≤ x ≤ 2
fX (x) =
0 sinon
– Déterminez la valeur de c.
– Soit l’événement A = {X > 1.5}, calculez P(A) et la densité conditionnelle de X sachant A.
– Soit Y = X 2 . Calculez l’espérance conditionnelle et la variance conditionnelle de Y sachant
A.
Exercice 3.21 v.a. jointes : L’aiguille de Buffon
Soit un ensemble de droites horizontales, distantes l’une de l’autre d’une distance d, tracées sur
un plan horizontal (une table). On laisse tomber une aiguille de longueur l < d sur cette table.
On demande la probabilité que cette aiguille intersecte une des droites.
Exercice 3.22 v.a. jointes et conditionnement : tir de fléchettes

Un joueur de fléchettes tire sur une cible qui est un disque de rayon r, avec une densité de
probabilité uniforme (il ne rate jamais la cible ...) et la probabilité d’un point d’impact (x, y)
est la même partout.
1. Exprimez la densité de probabilité uniforme sur le disque.
2. Calculez la densité de probabilité marginale sur l’axe vertical Y (fY (y)).
3. Calculez la densité de probabilité conditionnelle que la fléchette arrive au point X = x
sachant que sur l’axe vertical Y = y (fX|Y (x|y)).
Exercice 3.23 v.a. jointes et conditionnement : tir de fléchettes
Un joueur de fléchettes tire sur une cible qui est un disque de rayon r, avec une densité de
probabilité uniforme (il ne rate jamais la cible ...). Soit X la distance entre le point d’impact
et le centre de la cible.
1. Exprimez la densité de probabilité de X.
2. Calculez la densité de probabilité marginale sur l’axe vertical Y (fY (y)).
3. La cible a un cercle intérieur de rayon t. Si X ≤ t, le score est de S = 1/X, sinon, le score
est de S = 0. Trouvez la fonction de répartition de S. Est-ce que S est une v.a. continue.
Exercice 3.24 changement de variable
Soit X une p
variable aléatoire uniformément distribuées sur [−1, 1]. Trouvez la densité de pro-
babilité de |X| et de −ln|X|.
Exercice 3.25 changement de variable
Soit une v.a. X de densité fX (x), et une autre variable aléatoire indépendante Y de densité
fY (y) trouvez la densité de
– Z = eX , que devient cette densité si X ∼ Un([0, 1])
– Z = |X|1/3
– Z = |X|1/4
– Soit X et Y uniformément réparties sur [0, 1], trouvez les fonction de répartition et densité
de probabilité de |X − Y |.
Exercice 3.26 Transformation cartésien vers polaire
Soit X et Y des variable aléatoires indépendantes de densités de probabilités gaussiennes. La

paire (X, Y ) peut être transformée en coordonnées polaires en termes de R ≥ 0 et Θ ∈ [0, 2π]
par les expressions :
X = R cos Θ, Y = R sin Θ
– Montrez que Θ est uniformément répartie sur [0, 2π] et que R est distribué selon la loi :
2
fR (r) = re−r /2
, r≥0
– Montrez que R2 a une distribution exponentielle de paramètre 1/2
Exercice 3.27 Fonction de répartition

On a que
de même :
Trouver la loi de probabilité, la moyenne et la variance de la v.a. X dont la fonction de répartition
est : Z ∞
3
1 − xa3 si x ≥ a, E[X] = xPX
FX (x) = , −∞
0 si x < a
où a est une constante positive. Et finalement :
Z ∞
E[X] = x2 P
−∞
Exercice 3.28 Où on mélange majuscules et minuscules ...
On a PX (x) = e
Soit X une variable aléatoire de distribution exponentielle et de moyenne = 1 (PX (x) =
λe−λx , x ≥ 0, E[X] = 1/λ, var(X) = 1/λ2 ). Une fois qu’on a observé la valeur expérimen-
tale (réalisation) x de X, on génère une variable aléatoire Y normale, de moyenne nulle et de
variance x + 1 (pour rappel, la loi de probabilité gaussienne d’une v.a. T de moyenne µ et de pour tout x ≥ 0
1 2 2
variance σ 2 vaut PT (t) = √ e−(t−µ) /2σ ). On demande la loi de probabilité jointe de X et On en déduit alo
2πσ
Y.
PX,Y (x,
Exercice 3.29 Détection de signal
Un message binaire est transmis par les valeurs -1 ou +1. Le canal de communication corrompt
le signal en ajoutant un bruit gaussien de moyenne µ et de variance σ 2 . Le récepteur décide que
le signal envoyé était -1 si le signal reçu est négatif, et +1 si le signal reçu est positif. Donnez
la probabilité d’erreur (sous la forme d’une intégrale).
Il y a erreur si
– le bruit est plus grand que 1 si le signal transmis vaut -1
– le bruit est plus petit que -1 si le signal transmis vaut +1.
On appelle N la v.a. Gaussienne qui représente le bruit. On a donc, pour le
premier cas, que la probabilité d’erreur est donnée par :
P (N ≥ 1) = 1 − P (N < 1)
où P (N < 1) est la fonction de répartition d’une Gaussienne de moyenne µ et
de variance σ 2 . Par définition de loi de probabilité Gaussienne et de fonction
de répartition, on obtient
Z 1
1 2
/2σ 2
P (N < 1) = √ e−(v−µ) dv,
σ 2π −∞
et pour le deuxième cas, par symétrie, on obtient le même résultat.

Pour σ = 1, on a P (N < 1) = 0.8413 et la probabilité d’erreur est 0.3174
Exercice 3.30 Un point sur un demi-disque

1. La point é
veut dire q
PX,Y (x, y)
être un pe
PΘ (θ) = 1/
et, en tena
périeur :
Un point est choisi sur un demi-disque de rayon R. Le demi-disque est centré à l’origine et est (sous contr
situé dans le demi-plan supérieur. On demande : 2. Pour trouv
1. La loi de probabilité conjointe de ses coordonnées X et Y
2. la loi de probabilité marginale Y et sa moyenne.
3. Vérifier (2) en calculant E(Y) sans utiliser la loi marginale de Y.
p
où A = R
en utilisant
3. On peut tr
notant D l
E[Y]
Exercice 3.31 Somme de v.a.
Les variables aléatoires X, Y et Z sont indépendantes et uniformément réparties sur [0, 1].
Trouvez le densité de probabilité de X + Y + Z.
Exercice 3.32 Somme de v.a. REF Bertsekas
Une équipe de foot doit désigne trois tireurs de penalty, chaque tireur réussissant avec une
probabilité pi , indépendemment des autres tireurs. soit X le nombre de penalties marqués après
que chaque tireur ait tiré une fois. Utilisez la convolution pour calculer la masse de probabilité
de X.
Exercice 3.33 Somme de v.a. REF Bogaerts
Soit X ∼ Y ∼ Exp(λ), la duré de fonctionnement de deux machines identiques et indépendantes

avant l’occurrence d’une première panne, alors Z = X +Y est la durée totale de fonctionnement
des deux machines si l’une se met en marche dès que l’autre est en panne. Trouvez la densité
de probabilité de la durée totale de fonctionnement.
Exercice 3.34 v.a. et espérance conditionnelle REF Bertsekas

Un professeur retraité se rend au bureau à une heure répartie uniformément entre 9 heures du
matin et une heure de l’après-midi, il effectue une seule tâche et quitte le bureau dès qu’elle
est terminée. La durée de cette tâche est exponentiellement distribuée avec un paramètre λ =
λ(y) = 1/(5 − y), où y est est la longueur de l’intervalle de temps entre 9 heures et le moment
de son arrivée au bureau.
1. Quel est le temps moyen que le prof. consacre à sa tâche ?
2. Quel est l’heure moyenne de la fin de sa tâche ?
3. Un étudiant veut rencontrer ce prof. et arrive à une heure répartie uniformément entre
9 heures du matin et 17 heures. Si le prof. n’est pas là, l’étudiant part tout de suite. Si
le prof. est là, l’étudiant travaille avec le prof pendant une durée uniformément répartie
entre 0 et 1 heure. Ce rendez-vous n’aura pas d’influence sur le temps que le prof. passera
sur sa propre tâche. Quel est le temps moyen que le prof. consacrera à son étudiant et
quel sera (en moyenne) l’heure à laquelle le prof. quittera son bureau ?
Exercice 3.35 Estimation aux moindres carrés

Un radar surestime la vitesse des voitures par une quantité uniformément répartie entre 0 et 10
km/h. En supposant que la vitesse des voitures sur autoroute est uniformément répartie entre
100 et 140 km/h, quelle est l’estimée de la vitesse de la voiture basée sur la mesure du radar ?
Exercice 3.36 Estimation basée sur plusieurs mesures

Soit X une v.a. de moyenne µ et de variance v ; soit Y1 , . . . Yn les mesures telles que
Yi = X + Wi ,
où les erreurs de mesure Wi sont des v.a. de moyenne nulle et de variance vi . X et Wi sont
supposées mutuellement indépendantes.
Montrez que l’estimateur linéaire aux moindres carrés vaut
n
X
(µ/v) (Yi /vi )
i=1
X̂ = n
X
(1/v) (1/vi )
i=1
Exercice 3.37 S
oit X et Y deux v.a. de variance positive.
1. Soit X̂L le meilleur estimateur linéaire aux moindres carrés de X basé sur Y , montrez
que : h i
E (X − X̂L )Y = 0,
et que l’erreur d’estimation est décorrélée de Y .
2. Soit X̂ = E[X|Y ] l’estimateur aux moindres carrés de X basé sur Y . Montrez que :
h i
E (X − X̂L )h(Y ) = 0,
quelque soit la fonction h.

Chapitre 4
Statistique descriptive
Cette section comprend quelque rappels de base de statistique, qui vont être indispensables pour
le développement de l’inférence statistique, qui est l’objectif premier de la statistique appliquée.
4.1 Qu’est-ce qu’une statistique

Définition 4.1 Une statistique
est une quantité calculée à partir d’un certain nombre d’observations.
A ce titre, nous définirons ci-dessous un certain nombre de statistiques telle que la moyenne,
la médiane, les quantiles, ...
On notera d’ailleurs que ces mêmes termes définissent, au chapitre précédent, des caractéris-
tiques de variables aléatoires. La signification de ces termes sera donc dépendante du contexte.
D’autre part, à partir des statistiques calculées à partir d’observations, on pourra en inférer
un modèle probabiliste, qui sera utile pour simplifier l’étude de la population.
Définition 4.2 Un individu
est l’unité statistique de base. Par exemple, si on s’intéresse à un sondage électoral, l’électeur
sera considéré comme étant un individu.
Définition 4.3 Une population

est l’ensemble des individus que l’on souhaite étudier. Cette population peut être infinie ou
finie. Dans le cas du sondage électoral, la population sera l’ensemble des personnes ayant une
carte d’électeur.
Cette notion de population est fondamentale. En effet, à partir d’une statistique, basée sur
l’observation d’une partie de la population, on va en inférer des caractéristiques de la population.
Définition 4.4 Un échantillon
(d’une population) est un sous-ensemble de la population. Toujours dans le cadre électoral, on
prend typiquement un échantillon d’environ mille individus, qui permettra de tirer des conclu-
sions ( ?) sur la population, qui elle comportera plusieurs millions d’individus.
Définition 4.5 Un caractère

(à étudier) est une variable statistique que l’on souhaite étudier. Dans
notre cas, cette variable sera par exemple la tendance politique du sondé (gauche/droite). Si on
en infère un modèle probabiliste, cette variable statistique peut être vue comme étant une va-
riable aléatoire caractérisant la population. Ce caractère peut être qualitatif (gauche/droite) ou
quantitatif (puissance moteur du parc de voitures français).
115
Définition 4.6 Les fréquences
liées à un caractère d’un échantillon sont le nombre d’individus présentant le caractère étudié
(on parlera de fréquences absolues ou d’effectifs). On parlera également de fréquences relatives
ou proportions si on s’intéresse à la proportion d’individus de l’échantillon qui présentent le
caractère étudié.
4.2 Paramètres statistiques d’un échantillon

Les paramètres statistiques d’un échantillon sont similaires aux caractéristiques d’une variable
aléatoire, à ceci près qu’ils sont calculés sur les valeurs des caractères de l’échantillon.
– Mesures de tendancePcentrale (position)
n
– Moyenne : x = n1 i=1 xi (mean)
– Médiane : partage les valeurs en deux parties (median)
– Quantiles : partagent les valeurs en k parties (perctl)
– Quartiles (k = 4) : Q1 , Q2 (médiane), Q3 (quart)
– Mode(s) : la (les) valeur(s) avec la plus grande fréquence
– Mesures de dispersion
– Étendue : x(n) − x(1) (max - min)
– Intervalle interquartile (IQR) : Q3 − Q1 (iqr)
– Variance de l’échantillon : (variance)
1
Pn 2 n n
P
i=1 (xi ) −(
2
i=1 xi )
Pn 2
s2 = n−1 i=1 (xi − x) = n(n−1) (attn. si s/x 1)

– Écart-type de l’échantillon : s (stdev)
– Écart absolu médian par rapport à la médiane (mad)
– Coefficient de variation : s/x
4.2.1 Exemple : notes TP Élec 2006-2007

L’exemple suivant étudie la population des étudiants d’Elec 4, promo 2006-2007. On a un
échantillon de 30 étudiants et on s’intéresse aux caractères suivants :
– option (qualitatif)
– moyenne tp (quantitatif)
– contrôle final (quantitatif)
Caractère : option
8
6
4
2
0
GSE MI TNS TR

Caractère : option
MI GSE
TNS
TR
Caractère : moyenne tp (classes différentes)

Histogram of tp Histogram of tp
12
8
10
6
8
Frequency
Frequency
6
4
4
2
2
0
0 5 10 15 20 0 5 10 15 20
tp tp
Caractère : moyenne tp

20
20
15
15
10
10
5
5
0
0
GSE MI TNS TR
Caractère : moyenne tp / contrôle final / note finale (50-50)

16
14
12
10
8
TP Ctrl Finale
Fréquence relative cumulée / quantiles
Caractère : contrôle final

ecdf(ctrl)
1.0
20
0.8
15
0.6
quantile(ctrl, qs)
Fn(x)
10
0.4
5
0.2
0.0
0
0 5 10 15 20 0.0 0.2 0.4 0.6 0.8 1.0
x qs
−1
FX QX =FX
x −→ FX (x) = P (X ≤ x) = p p −→ QX (p) = x


Chapitre 5
Échantillonnage
5.1 Objectif de la Statistique (Inférentielle)

5.1.1 Introduction
Définition 5.1 L
’objectif principal de la statistique inférentielle est d’obtenir, à partir de mesures sur une partie
de la population (échantillon), des informations (de caractère probabiliste) sur la totalité de
celle-ci.
En d’autre termes, dans les chapitres traitant des probabilités et des variables aléatoires, nous
traitions de l’ensemble de la population, et nous en déduisions des caractéristiques que l’on appli-
quait (en probabilité, donc parfois à tort) à un échantillon. Dans le cas de la statistique, on prélève
un échantillon de la population, et à partir de cet échantillon, on déduit (ou encore on infère) des
caractéristiques de la population.
5.1.2 L’échantillonnage : une expérience aléatoire

Définition 5.2 Échantillonnage
L’échantillonnage consiste à choisir au hasard n individus de la population afin d’en étudier un

ou plusieurs caractères.
Il y a deux types d’échantillonnage :
1. avec remplacement de l’individu choisi, ce qui mène à un traitement théorique plus simple ;
2. sans remplacement : échantillonnage exhaustif, ce qui est une procédure naturelle ou
obligatoire (contrôle destructif).
D’autre part, en présence d’une population de taille finie, si on utilise un échantillonnage non
exhaustif, on peut considérer que cela mène à une population de taille infinie.
Enfin, si on opère à un échantillonnage exhaustif de taille n beaucoup plus petite que la taille
N de la population, on peut effectuer un échantillonnage non exhaustif sans que cela change la
population (et donc sans que cela introduise un biais dans le choix de l’échantillon)
L’échantillonnage : une expérience aléatoire

L’échantillonnage est une expérience aléatoire, en effet, il consiste à choisir au hasard un
individu (ou un “petit nombre” d’individus) de la population pour obtenir une valeur du caractère
étudié.
Pour obtenir un échantillonnage correct, il est important que chaque individu ait la même
probabilité d’être choisi.
Les relations entre population, individu et caractère sont schématisées ci-dessous :
121
éch. caract.
population −→ individu −→ valeur
éch. caract.
Ω −→ ω −→ x
Enfin, à partir de l’échantillon, on étudie la variable aléatoire X associée au caractère étudié
et on peut, dans le meilleur des cas, déterminer la densité de probabilité fX (x) (ou sa masse de
probabilité pX (x) s’il s’agit d’une variable aléatoire discrète).
Relation entre la statistique et la loi de probabilité

Soit une population donnée. On s’intéresse au caractère de cette population représenté par la
variable aléatoire X. Celle-ci est caractérisée par sa densité de probabilité fX (x). Si on prélève
un échantillon de taille n, le prélèvement de chaque individu de la population représente une
expérience aléatoire : donc, l’échantillonnage correspond à la répétition de n expériences aléatoires
identiques, auxquelles correspondent n variables aléatoires indépendantes Xi (i = 1, . . . , n) ayant
la (même) densité de probabilité fX (x). Les variables aléatoires Xi sont donc i.i.d. (indépendantes
et identiquement distribuées).
On obtient donc, grâce à un échantillonnage aléatoire (non biaisé) n variables aléatoires i.i.d.
telles que :
fX1 (x) = fX2 (x) = . . . = fXn (x) = fX (x) et
fX1 X2 ...Xn (x1 , x2 , . . . , xn ) = fX (x1 ) fX (x2 ) . . . fX (xn ) .
Pour obtenir cette propriété (i.i.d.), il faut (en théorie) effectuer un échantillonnage avec rem-
placement et assurer qu’on a la même probabilité de choisir chaque individu.
Enfin, on définira une statistique comme suit :
Définition 5.3 U
ne statistique est une fonction des variables aléatoires Xi (i = 1, . . . , n) obtenue à partir d’un
échantillon.
Une statistique est une variable aléatoire !

En effet, une statistique étant une fonction d’une ou de plusieurs variables aléatoires, elle est
également une variable aléatoire.
On notera que si on se réfère à la statistique descriptive (c’est-à-dire que je m’intéresse à la
réalisation d’un échantillon particulier, et donc aux réalisations des variables aléatoires associées,
réalisations qui prennent les valeurs xi (i = 1, . . . , n)) les statistiques calculées sur base de ces xi
sont des valeurs certaines ...
1
5.2 Statistiques d’un échantillon

On rappelle brièvement les statistiques d’un échantillon, inspirés de la statistique descriptive.
On insistera à nouveau sur le fait que chacune de ces statistiques est une variable aléatoire !
– Mesures de tendanceP centrale (position)
n
– Moyenne : X = n1 i=1 Xi
– Médiane : partage les valeurs en deux parties
– Quantiles : partagent les valeurs en k parties
– Quartiles (k = 4) : Q1 , Q2 (médiane), Q3
– Déciles (k = 9) : D1 , D2 , . . . , D5 (médiane), . . . , D9
– Statistiques d’ordre : X(1) , X(2) , . . . , X(n) où x(1) ≤ x(2) ≤ . . . ≤ x(n)
1. Il est important de noter qu’en échantillonnant on extrait des v.a. à partir de la population mère. Chaque
individu représente une v.a. mais, dans un échantillon, on ne voit qu’une valeur de cette v.a. Par contre, si on crée
plusieurs échantillons, on aura différentes valeurs pour le 1er individu, donc plusieurs valeurs de x1 de X1 . C’est un
principe fondamental ! Tout ce qu’on obtient à partir de l’échantillon est une v.a. aléatoire, car les valeurs fluctuent
en fonction de l’échantillon. L’expérience aléatoire cachée derrière ces v.a. est le fait d’échantillonner !

– Mesures de dispersion
– Étendue : X(n) − X(1)
– Intervalle interquartile (IQR) : Q3 − Q1
n Pn Pn 2
1 X
2
2 2
2 n i=1 (Xi ) − ( i=1 Xi )
– Variance de l’échantillon : S = Xi − X =
n − 1 i=1 n(n − 1)
(attn. si s/x 1)
– Écart-type de l’échantillon : S
– Écart absolu médian par rapport à la médiane
– Coefficient de variation : S/X
5.2.1 Cas particulier du caractère qualitatif (les proportions)

On parle d’un caractère qualitatif quand ce caractère peut prendre M valeurs possibles (on
parle d’un caractère à M modalités).
La population est donc divisée en M « types » d’individus ; chacun de ces types étant caractérisé
par une fréquence relative πj .
Quand on effectue un échantillonnage aléatoire d’un individu, on obtient donc une variable
aléatoire discrète X à M valeurs, dont la masse de probabilité associée vaut pX (x) = πj (j =
1, . . . , M ).
Un cas particulier important est le cas où on à M = 2 modalités. Dans ce cas, X est une
variable de Bernoulli de paramètre p.
5.3 Statistique inférentielle : feuille de route

Théorie d’échantillonnage : Population −→ Échantillon
Statistique inférentielle : Échantillon −→ Population
Échantillon Population pX (x)
v.a. valeur paramètre
une population
X m=x µX = E[X]
S2 s2 2
σX = var[X]
P̂ p̂ π
deux populations
X 2 − X 1 m2 − m1 = x2 − x1 µ2 − µ1
S22 /S12 (s2 /s1 )2 (σ2 /σ1 )2
P̂2 − P̂1 p̂2 − p̂1 π2 − π1
– Estimer les paramètres de la population

– Calculer des intervalles de confiance
– Formuler des hypothèses et les tester
5.3.1 Théorème limite central

On rappelle ici le théorème limite central, qui est primordial dans le développement de la
statistique et des tests associés.
Soit n variables aléatoires indépendantes et identiquement distribuées (i.i.d), alors, la somme
de ces variables est une variable aléatoire Gaussienne dont la moyenne vaut n fois la moyenne des
2. Pourquoi diviser par n − 1 dans la formule de la variance de l’échantillon, au lieu de n ?
Lorsqu’on construit une valeur moyenne à partir des Xi − X (i = 1, . . . , n) au carré. Or, ces n différences ne
sont pas indépendantes. La somme de toutes est égale à zéro, c-a-d qu’effectivement il y a seulement n − 1 valeurs
qui portent de l’information là dedans. Ce qu’on appelle n − 1 degrés de liberté.
S 2 définie de cette façon a comme espérance le σ 2 de la population. On verra cela plus tard.

variables de départ et dont la variance vaut n fois la variance des variables de départ. En langage
mathématique, on a :
– X1 , X2 , . . . , Xn : série de v.a. indépendantes
– fX1 (x) = . . . = fXn (x) = fX (x) (même distribution)
– E[X1 ] = . . . = E[Xn ] = µX , σX1 = . . . = σXn = σX
–
ind
Sn = X1 + X2 + . . . + Xn , E[Sn ] = nµX , σS2 n = nσX
2
Sn − µSn X1 + X2 + . . . + Xn − nµX 2
Zn = = √ , E[Zn ] = 0 , σZ =1
σSn nσX n
– Théorème Limite Central :

Z z
1 1
lim P ({Zn ≤ z}) = √ exp − u2 du
n−→∞ 2π −∞ 2

2 Sn σ2
– Théorème Limite Central : n → ∞ : Zn → N (0, 1) , Sn → N (nµX , nσX ), n → N µX , nX
3
5.4 Théorie d’échantillonnage – un échantillon

5.4.1 Distribution de la moyenne
– Échantillon aléatoire de taille n ; moyenne X
– Population normale N (µ, σ 2 )
– X : normale (combinaison linéaire de v.a. normales)
– µX = µ
– σX = √σn (σ connu)
– Population non normale
(σ
connu)
σ2
– n > 30 : X = N µ, n (tlc)
2

– n < 30 : X = N µ, σn si pX (x) presque normale
√
– Presque toujours : X = N (µ, σ/ n)
X−µ
√ → N (0, 1)
– Z = σ/ n
– P(Z > zα ) = α (définition de zα « valeur critique »)
– P(Z < −zα ) = α (symétrie de la normale)
Distribution de la moyenne ; σX inconnue

X−µ
– Z= √
σ/ n
→ N (0, 1)
√
X−µ (X−µ)/(σ/ n) Z
– T = √
S/ n
= √ =√ = √Z
S 2 /σ 2 V /(n−1) V /ν
(n−1)S 2 2
– V = σ2 : loi du χ à ν = n − 1 d.l.
– Condition : population normale
– Z, V indépendantes
X−µ
– T = √
S/ n
: loi de Student à ν = n − 1 d.l.
– E[T ] = 0
3. À l’ordinateur, vous pouvez effectuer le programme cenlimit.exe. Échantillonner une gaussienne N (35, 10)
expliquer ce qui se passe avant de commencer ; indiquer la variance de X qui varie en fonction de n. Commencer
avec une gaussienne et une petite taille, augmenter la taille. Changer la distribution, petites et grandes valeurs de n.
Vous trouverez également le même type de simulation sur : http ://onlinestatbook.com/simulations/CLT/clt.html

ν
– σT2 = ν−2 > 1 (non définie pour ν ≤ 2)
– P (T > tα ) = α (définition de tα , valeur critique)
– P (T < −tα ) = α (symétrie de la loi t)
– n ≥ 30 : s → σ donc T → Z
– “Student” : W.S. Gosset, 1908
4
La distribution de Student La distribution de Student
Distribution de Student
0.4
dl = 100
Densité de probabilité
0.3
0.2
0.1
dl = 5
0.0
−4 −2 0 2 4
ν
E[T ] = 0 , σT2 = ν−2 > 1 (non définie pour ν ≤ 2)
Distribution de la variance
– Échantillon aléatoire de taille n ; variance S 2

– Condition : population normale N (µ, σ 2 )
(n − 1)S 2 Pn 2
– X2 = = σ12 i=1 Xi − X
σ2
– X 2 : v.a. loi du χ2 à ν = n − 1 degrés de liberté (d.l.)
– X2 > 0

– E X 2 = n − 1 −→ E S 2 = σ 2
2 2 4
– σX 2 = 2(n − 1) −→ σS 2 = 2σ /(n − 1)
– P (X > χα (ν)) = α (définition de χ2α (ν), valeur critique)

2 2
Distribution du χ2
4. Quand on n’a pas accès au σ de la population mère, on ne peut pas utiliser Z. L’idée est d’utiliser la variance
de l’échantillon à la place de σ. Cette variance est une v.a. car elle varie d’un échantillon sur l’autre. On construit
alors T .
Pourquoi σT 2 > 1 ? On utilise la variance de l’échantillon s pour estimer la variance de la population. Cela
ajoute de l’incertitude ! T est comme une Z mais un peu plus gonflée, à cause de cette estimation. En augmentant
la taille de l’échantillon (les d.l.) s donne des estimations de plus en plus précises de σ et T devient une Z. Rien
à voir avec le tlc : c’est la meilleure estimation de σ, à partir d’une certaine taille de l’échantillon, qui donne ce
résultat.

Distribution du Khi−deux
0.00 0.02 0.04 0.06 0.08 0.10

dl = 10
dl = 100
0 50 100 150
!2

E X2 = n − 1 , 2
σX 2 = 2(n − 1)
Distribution de la proportion
– Population
– π : proportion d’individus possédant un caractère qualitatif (π 6= 3.14 !)
– Échantillon aléatoire de taille n
n v.a. Xi ; xi ∈ {0, 1} : Bernoulli indépendantes, de paramètre π
– P
n
– i=1 Xi : nombre d’individus possédant le caractère (fréquence)
Pn
– P̂ = n1 i=1 Xi : proportion d’individus (fréquence relative)
– Conditions :
– n > 30 (grand échantillon : théorème limite central)
– np̂ ≥ 5 (fréquence de présence du caractère)
– n(1 − p̂) = n − np̂ ≥ 5 (fréquence d’absence du caractère)
– ni p̂ ≈ 0, ni p̂ ≈ 1
– Distribution :
ind
– µP̂ = (nµX )/n = µX = π , σP̂2 = (nσX 2
)/n2 = π(1 − π)/n

– P̂ : normale N π, π(1−π)
n → Z : normale N (0, 1)
5.5 Théorie d’échantillonnage – deux échantillons

Distribution de la différence des moyennes
– Conditions : σ1 , σ2 connus et
– populations normales N (µ1 , σ12 ), N (µ2 , σ22 ) ou
– n1 > 30 et n2 > 30, ou
– populations « presque » normales
– Échantillons aléatoires et indépendants de tailles n1 , n2 ; moyennes X 1 , X 2
– X 1 − X 2 : normale
– µX 1 −X 2 = µX 1 − µX 2 = µ1 − µ2
2 ind2 2 σ12 σ22
– σX = σX + σX = n1 + n2
1 −X 2 1 2
5. La moyenne est égale à n − 1. À gauche elle se trouve à 9. Comme la courbe n’est pas symétrique, la moyenne
se trouve légèrement à droite du max. À droite elle se trouve à 99, presque 100. En augmentant les d.l. le X 2 devient
symétrique.
La variance est proportionnelle à n − 1. la courbe de droite est beaucoup plus étalée, on le voit au niveau de
l’axe verticale : elle ne monte pas aussi haut que celle de gauche, alors qu’elles ont la même surface !

– D’autres cas à examiner ultérieurement. . .
Distribution du rapport des variances

– Échantillons aléatoires et indépendants de tailles n1 , n2
– Provenant de populations normales de variances σ12 , σ22
– Variances des échantillons : S12 , S22
S12 /σ12 V1 /ν1
– F = =
S22 /σ22 V2 /ν2
(ni −1)Si2
– Vi = σi2
: v.a. indépendantes, loi du χ2 à νi = ni − 1 d.l.
– F : loi de Fisher (1924) - Snedecor (1934) avec ν1 et ν2 d.l.
– F ≥0
– E[F ] = ν2ν−2
2
(ν2 > 2)
ν 2 (2ν +2ν −4)
– σF2 = ν12(ν2 −2)
1 2
2 (ν −4) (ν2 > 4)
2
– P (F > fα (ν1 , ν2 )) = α (définition de fα (ν1 , ν2 ), v.c.)
1
– fα (ν1 , ν2 ) = (propriété de la loi F )
f1−α (ν2 , ν1 )
Distribution de Fisher
Distribution de Fischer
0.6
dl1 = 5 , dl2 = 20
0.4
0.2
dl1 = 20 , dl2 = 5
0.0
0 2 4 6 8
fα (ν1 , ν2 ) = 1/f1−α (ν2 , ν1 )
5.6 Exercices
Exercice 5.1 Des échantillons à examiner : moyenne
La moyenne d’un échantillon aléatoire de taille n = 100, obtenu à partir d’une population de
σ = 0.1, est de x = 5.027. La population est censée avoir µ = 5. Quelles sont vos conclusions ?
Exercice 5.2 Différence des moyennes

On veut comparer des tubes cathodiques provenant de deux fabricants différents, A et B. Leurs
durées de vie sont caractérisées par µA = 6.5 ans, σA = 0.9 an, µB = 6.0 ans, σB = 0.8 an.
Calculer la probabilité qu’un échantillon aléatoire de 36 tubes de type A ait une durée de vie
moyenne supérieure d’au moins un an à celle d’un échantillon aléatoire de 49 tubes de type B.

Exercice 5.3 Variance

Les valeurs suivantes proviennent d’une distribution normale N (3, 1) :
1.9, 2.4, 3.0, 3.5, 4.2. Quelles sont vos conclusions à propos de σ ?
Exercice 5.4 Moyenne de petits échantillons

On échantillonne une population normale de µ = 500. Un échantillon aléatoire de taille n = 25
donne x = 518 et s = 40. Quelles sont vos conclusions à propos de µ ?
Exercice 5.5 Rapport des variances

Deux échantillons aléatoires et indépendants, provenant de deux populations normales, sont
composés des valeurs suivantes :
19.8, 12.7, 13.2, 16.9, 10.6, 18.8, 11.1, 14.3, 17.0, 12.5 et
24.9, 22.8, 23.6, 22.1, 20.4, 21.6, 21.8, 22.5.
Peut-on dire que les deux populations ont la même variance ?

Chapitre 6
Inférence statistique
6.1 Estimation – intervalles de confiance

6.1.1 Définitions
Définition 6.1 Estimation ponctuelle
: Un estimateur ponctuel est une statistique qui donne une valeur (unique) estimée de la gran-
deur recherchée. Les notations et définitions ci-dessous sont utilisées :
– Paramètre à estimer : θ
– Estimateur : v.a. Θ̂
– Estimateur non biaisé : E[Θ̂] = θ
– Biais = E[Θ̂] − θ
– Estimateur efficace : sans biais ; de faible variance
– Estimateur
h iefficace : minimiser l’erreur quadratique moyenne
E (Θ̂ − θ)2 = σΘ̂ 2
+ (biais)2
– Estimateur convergent : n → ∞ : E[Θ̂] = θ et var[Θ̂] = 0
Définition 6.2 Estimation par intervalle de confiance

: Un estimateur par intervalle de confiance est une statistique qui donne un intervalle dans
lequel la grandeur recherchée se trouve, avec un indice de confiance. Cet indice de confiance
donne le niveau de confiance avec lequel on peut “croire” que la grandeur recherchée se trouve
à l’intérieur de cet intervalle.
– v.a. Θ̂L , Θ̂H : estimateurs ponctuels
– P (Θ̂L < θ < Θ̂H ) = 1 − α
– θ̂L < θ < θ̂H : intervalle de confiance
– 1 − α : niveau de confiance
6.1.2 Estimation de la moyenne

Propriétés et intervalle de confiance
– Variance σ 2 connue
– X : normale N (µ,√σ 2 /n)
– Z = (X − µ)/(σ/ n) : normale N (0, 1)
– X estimateur non biaisé et convergent de µ
– P (Z > zα/2 ) = α/2 (définition de zα/2 )
– P (Z < −zα/2 ) = α/2 (symétrie de la normale)
– P (−zα/2 < Z < zα/2 ) = 1 − α
X−µ
– P (−zα/2 < √
σ/ n
< zα/2 ) = 1 − α
129
– P (−zα/2 √σn < X − µ < zα/2 √σn ) = 1 − α

– P (X − zα/2 √σn < µ < X + zα/2 √σn ) = 1 − α
– Θ̂L = X − zα/2 σX , Θ̂H = X + zα/2 σX
– 1 − α = 0.95, zα/2 = 1.96
– 1 − α = 0.99, zα/2 = 2.56
Taille de l’échantillon
– P (−zα/2 √σn < X − µ < zα/2 √σn ) = 1 − α
– P (|X − µ| < zα/2 √σn ) = 1 − α
– e = |X − µ| : erreur
– emax = zα/2 √σn : marge d’erreur à 1 − α

z σ 2
– nmin = eα/2max
: taille d’échantillon minimale
– X − emax < µ < X + emax à 1 − α
– Cas particulier : échantillonnage d’une population finie, sans remplacement
– Population
q de taille N q
N 1 σ p
– σX = √n N −1 ≈ √n NN−n = √σn 1 − N
σ N −n n
2
N zα/2 σ2
– nmin = 2
N e2max +zα/2 σ2
Cas où la variance est inconnue

– Variance σ 2 inconnue
– Population normale√
– T = (X − µ)/(S/ n) : Student à n − 1 d.l.
– P (T > tα/2 ) = α/2 (définition de tα/2 )
– P (T < −tα/2 ) = α/2 (symétrie de la loi t)
– P (−tα/2 < T < tα/2 ) = 1 − α
X−µ
– P (−tα/2 < √
S/ n
< tα/2 ) = 1 − α
– P (−tα/2 √Sn < X − µ < tα/2 √Sn ) = 1 − α
– P (X − tα/2 √Sn < µ < X + tα/2 √Sn ) = 1 − α
– Θ̂L = X − tα/2 √Sn , Θ̂H = X + tα/2 √Sn
– 1 − α = 0.95, tα/2 = 2.05
– 1 − α = 0.99, tα/2 = 2.76
– Rappel : n ≥ 30 , T → Z
– T : petits échantillons !
6.1.3 Estimation de la variance (un échantillon)

– Condition : population normale N (µ, σ 2 )
2 Pn 2
– X 2 = (n−1)S
σ2 = σ12 i=1 Xi − X
– X 2 : v.a. loi du χ2 à ν = n − 1 degrés de liberté (d.l.)
– P (χ21−α/2 < X 2 < χ2α/2 ) = 1 − α
2

– P χ21−α/2 < (n−1)S σ2 < χ2α/2 = 1 − α

(n−1)S 2 2 (n−1)S 2
– P χ2
< σ < χ2 =1−α
r α/2 1−α/2
r
(n−1)S 2 (n−1)S 2
– P χ 2 < σ < χ 2 =1−α
α/2 1−α/2
– r
Intervalle de confiance
r :
(n−1)s2 (n−1)s2
χ2
< σ < χ2
à un niveau de confiance de (1 − α)100%
α/2 1−α/2

6.1.4 Estimation de la proportion (= moyenne)

– Caractère quantitatifP(rappel)
n
– Moyenne : X = n1 i=1 Xi
– n > 30, σ connu

2
– X = N µ, σn
– Caractère qualitatif P
n
– Proportion : P̂ = n1 i=1 Xi
– n > 30,np̂ ≥ 5, n(1
− p̂) ≥ 5, ni p̂ ≈ 0, ni p̂ ≈ 1
– P̂ = N π, π(1−π)n
– Les proportions (fréquences relatives) sont des moyennes !
– X −→ P̂ : remplacer
– µ −→ π p
– σ −→ π(1 − π)
– Caractère quantitatif (rappel)
– P (X − zα/2 √σn < µ < X + zα/2 √σn ) = 1 − α
– Intervalle de confiance à un niveau de confiance de (1 − α)100% :
x − zα/2 √σn < µ < x + zα/2 √σn

z σ 2
– nmin = eα/2 max
– Caractère
qualitatif
q q
– P P̂ − zα/2 π(1−π) n < π < P̂ + zα/2
π(1−π)
n =1−α
– Intervalleqde confiance à un niveau q de confiance de (1 − α)100% :
p̂(1−p̂)
p̂ − zα/2 n < π < p̂ + zα/2 p̂(1−p̂)
n
2
zα/2
– nmin = emax p̂(1 − p̂) : taille d’échantillon minimale
estimer p̂ (1er échantillonage, n ≥ 30) ou prendre p̂ = 0.5 (pire scénario)
6.1.5 Estimation du rapport des variances (deux échantillons)

S 2 /σ 2
– F = S12 /σ12 = VV12 /ν1
/ν2
2 2
(n −1)S 2
– Vi = i σ2 i : v.a. indépendantes, loi du χ2 à νi = ni − 1 d.l.
i
– F : loi de Fisher - Snedecor avec ν1 et ν2 d.l.
– P (f
1−α/2 (ν1 , ν2 ) < F 2< 2fα/2 (ν1 , ν2 )) = 1−α
σ2 S1
– P f1−α/2 (ν1 , ν2 ) < σ2 S 2 < fα/2 (ν1 , ν2 ) = 1 − α
2 1 2
S σ2 S2
– P S12 fα/2 (ν1 1 ,ν2 ) < σ12 < S12 f1−α/21(ν1 ,ν2 ) = 1 − α
22 2 2
S σ2 S2
– P S12 fα/2 (ν1 1 ,ν2 ) < σ12 < S12 fα/2 (ν2 , ν1 ) = 1 − α
2 2 2
6.2 Tests d’hypothèse

6.2.1 Définitions
– Hypothèse : énoncé concernant les caractéristiques d’une population
– Hypothèse nulle : fixer un paramètre θ à une valeur particulière θ0
– H0 : θ = θ 0
– Hypothèse alternative (trois choix possibles)

– H1 : θ 6= θ0 (test bilatéral)
– H1 : θ < θ0 (test unilatéral)
– H1 : θ > θ0 (test unilatéral)
– Test : procédure suivie afin d’accepter/rejeter H0
– Rejet > Acceptation (non-rejet)
– En pratique : formuler H0 comme l’opposé de ce qu’on veut démontrer !
6.2.2 Types et probabilités d’erreur

Types d’erreur
décision \ état du monde H0 vraie H1 vraie
–
non-rejet de H0 OK Type II
rejet de H0 Type I OK
– P (Type I) = P (rejet de H0 |H0 vraie) = α
– P (Type II) = P (non-rejet de H0 |H1 vraie) = β
Probabilités d’erreur
décision \ état du monde H0 vraie H1 vraie
–
non-rejet de H0 1−α β
rejet de H0 α 1−β
– α : seuil de signification (calculé dans l’univers de H0 , ok)
– 1 − β : puissance du test (calculée dans l’univers de H1 , ? ? ?)
– Préciser H1 , ensuite calculer une valeur de β liée à cette H1
6.2.3 Tests : la procédure à suivre

1. Formuler les hypothèses H0 et H1
2. Choisir le seuil de signification α (typiquement 1% ou 5%)
3. Déterminer la statistique utilisée ainsi que sa distribution
4. Définir la région critique (région de rejet de H0 )
5. Adopter une règle de décision (à partir des valeurs critiques)
6. Prélever un échantillon et faire les calculs
7. Décider
6.2.4 Test sur une moyenne

Test Bilatéral
1. H0 : µ = µ0 , H1 : µ 6= µ0 (test bilatéral)
2. α à définir
√ : X ; distribution :
3. Statistique à utiliser
Z = (X − µ)/(σ/√n) si on connaît σ ou n grand (cas présenté dans la suite)
T = (X − µ)/(S/ n) si on ne connaît pas σ et n petit (population normale)
4. P (non-rejet de H0 |H0 vraie) = 1 − α
P (non-rejet de H0 |µ = µ0 ) = 1 − α
P (z1−α/2 < Z < zα/2 |µ = µ0 ) = 1 − α
P (−zα/2 < Z < zα/2 |µ = µ0 ) = 1 − α
√
P (−zα/2 < (X − µ)/(σ/ n) < zα/2 |µ = µ0 ) = 1 − α
√
P (−zα/2 < (X − µ0 )/(σ/ n) < zα/2 ) = 1 − α
√ √
région critique : Z = (X − µ0 )/(σ/ n) < −zα/2 et Z = (X − µ0 )/(σ/ n) > zα/2
5. Règle de décision :
rejeter H0 si x < xc1 = µ0 − zα/2 √σn ou x > xc2 = µ0 + zα/2 √σn

Test Unilatéral
1. H0 : µ = µ0 , H1 : µ > µ0 (test unilatéral)
2. α à définir
Z = (X − µ)/(σ/√n) si on connaît σ ou n grand (cas présenté dans la suite)
T = (X − µ)/(S/ n) si on ne connaît pas σ et n petit (population normale)
P (non-rejet de H0 |µ = µ0 ) = 1 − α
P (Z < zα |µ = µ√0 ) = 1 − α
P ((X − µ)/(σ/ √n) < zα |µ = µ0 ) = 1 − α
P ((X − µ0 )/(σ/ n) < zα ) = 1 − α√
région critique : Z = (X − µ0 )/(σ/ n) > zα
rejeter H0 si x > xc = µ0 + zα √σn
Taille de l’échantillon
– H0 : µ = µ0 , H1 : µ > µ0 (test unilatéral)
– α = P (rejet de H0 |H
√0 vraie) = P (rejet de H0 |µ = µ0 ) = P (Z > zα |µ = µ0 )
= P ((X − µ)/(σ/ √n) > zα |µ = µ0 )
= P ((X − µ0 )/(σ/ n) > zα )
– Règle de décision : rejeter H0 si x > xc = µ0 + zα √σn
– β = P (rejet de H1 |H1 vraie) = P (non-rejet de H0 |H1 vraie)
= P (X < xc |H1 vraie)
– Préciser H1 : µ = µ0 + δ √
– β = P (X < xc |µ = µ0 + δ) = P (Z < (xc − µ)/(σ/ n)|µ = µ0 + δ)
c −µ
– = P (Z < xσ/ √0 −
n
δ√
σ/ n
)
δ√
– = P (Z < zα − σ/ n
)
δ√
– −zβ = zα − σ/ n
2 2
– n = (zα + zβ ) σδ2
6.3 Test sur une variance

6.3.1 Test bilatéral
1. H0 : σ = σ0 , H1 : σ 6= σ0 (test bilatéral)
2. α à définir
3. Statistique à utiliser : S ; distribution :
2
X 2 = (n−1)S
σ2 , v.a. loi du χ2 à ν = n − 1 degrés de liberté (population normale)
P (non-rejet de H0 |σ = σ0 ) = 1 − α
P (χ21−α/2 < X 2 < χ2α/2 |σ = σ0 ) = 1 − α
2

P χ21−α/2 < (n−1)S σ02 < χ2
α/2 =1−α
2
χ1−α/2 σ02 χ 2
σ 2
P (n−1) < S 2 < (n−1)
α/2 0
=1−α
région critique : X 2 < χ21−α/2 et X 2 > χ2α/2
rejeter H0 si s2 < s2c1 = χ21−α/2 σ02 /(n − 1) ou s2 > s2c2 = χ2α/2 σ02 /(n − 1)

6.3.2 Test unilatéral

1. H0 : σ = σ0 , H1 : σ < σ0 (test unilatéral)
2. α à définir
3. Statistique à utiliser : S ; distribution :
2
X 2 = (n−1)S
σ2 , v.a. loi du χ2 à ν = n − 1 degrés de liberté (population normale)
P (non-rejet de H0 |σ = σ0 ) = 1 − α
2 2
1−α < X |σ = σ0 ) = 1 − α
P (χ
2
P χ21−α < (n−1)S
σ02
=1−α
2 2
χ1−α σ0
P (n−1) < S2 = 1 − α
région critique : X 2 < χ21−α
rejeter H0 si s2 < s2c = χ21−α σ02 /(n − 1)
6.4 Test sur une proportion

1. H0 : π = π0 , H1 : π 6= π0 (test bilatéral)
2. α à définir
p : P̂ ; distribution
√ :
Z = (P̂ − π)/( π(1 − π)/ n)
P (non-rejet de H0 |π =pπ0 ) = 1 − α √
P (−zα/2 < (P̂ − π0 )/( π0 (1 − π0 )/ n) < zα/2 ) = 1 − α
région critique : Z < −zα/2 et Z > zα/2
5. Règle de décision : √ √
π0 (1−π0 ) π0 (1−π0 )
rejeter H0 si p̂ < p̂c1 = π0 − zα/2 √
n
ou p̂ > p̂c1 = π0 + zα/2 √
n
1. H0 : π = π0 , H1 : π > π0 (test unilatéral)

...
√ H0 si z > zα
5. Règle de décision : rejeter
π (1−π )
c.à.d. p̂ > p̂c = π0 + zα 0√n 0
6.5 Récapitulatif : un échantillon

6.5.1 Statistiques d’un échantillon : moyenne
Paramètre θ µ
Population ≈ normale — ≈ normale
Écart-type σ connu connu inconnu
Échantillon — n > 30 n > 30 n < 30
Statistique Θ̂ X
X−µ X−µ X−µ
St. normalisée Z= √
σ/ n
Z= √
S/ n
T = √
S/ n
Distribution N (0, 1) Student (ν)

D.L. — n−1
Mesure θ̂ x

6.5.2 Statistiques d’un échantillon : proportion, variance

Paramètre θ π σ2
Population — ≈ normale
Écart-type σ — —
Échantillon n > 30 1 —
Statistique Θ̂ P̂ S2
P̂ −π (n−1)S 2
St. normalisée Z=√ X2 = σ2
π(1−π)/n
Distribution N (0, 1) khi-deux (ν)
D.L. — n−1
Mesure θ̂ p̂ s2
6.5.3 Estimation / tests : un échantillon

Stat. Intervalle Test d’hypothèse H0 : θ = θ0
norm. de confiance H1 : θ 6= θ0 H1 : θ < θ0 H1 : θ > θ0
Z −z α2 < z < z α2 z < −z α2 ou > z α2 z < −zα z > zα
T −t α2 < t < t α2 t < −t α2 ou > t α2 t < −tα t > tα
X2 χ21− α < χ2 < χ2α χ2 < χ21− α ou > χ2α χ2 < χ21−α χ2 > χ2α
2 2 2 2
mettre sous « entrer dans le monde de H0 » :

la forme : θ = θ0 , calculer z, t, χ2 à partir des mesures ;
θL < θ < θ H décisions de rejet de H0
– Intervalle de confiance : niveau de confiance 1 − α
– Tests d’hypothèse : seuil de signification α
– Voir tableaux unifiés en annexe.
6.6 Intervalles et tests avec deux échantillons

6.6.1 Distribution de la différence des moyennes
variances connues, populations presque normales - rappel #5.5
– Conditions : σ1 , σ2 connus et
– populations normales N (µ1 , σ1 ), N (µ2 , σ2 ) ou
– n1 > 30 et n2 > 30, ou
– populations « presque » normales
– Échantillons aléatoires et indépendants de tailles n1 , n2 ; moyennes X 1 , X 2
– X 1 − X 2 : normale
– µX 1 −X 2 = µX 1 − µX 2 = µ1 − µ2
2 ind2 2 σ12 σ22
– σX = σX + σX = n1 + n2
1 −X 2 1 2
(X 1 −X 2 )−(µ1 −µ2 )
– Z= r
2
→ N (0, 1)
σ1 σ2
n1 + n2
2
q 2 q 2
σ σ2 σ σ22
– Intervalle de confiance : (x1 − x2 ) − zα/2 n11 + n22 < µ1 − µ2 < (x1 − x2 ) + zα/2 n11 + n2
– Test d’hypothèse :
1. H0 : µ1 − µ2 = d0 , H1 : µ1 − µ2 6= d0 (test bilatéral)
5. Règle de décision : rejeter H0 si z < −zα/2 ou z > zα/2
q 2
σ σ2
(x1 − x2 ) < (x1 − x2 )c1 = d0 − zα/2 n11 + n22 ou
q 2
σ σ2
(x1 − x2 ) > (x1 − x2 )c2 = d0 + zα/2 n11 + n22

variances inconnues, populations normales et grands échantillons

– Populations normales et grands échantillons (n1 > 30, n2 > 30)
– σ1 , σ2 : inconnus
– Z = (X 1 −Xr2
)−(µ1 −µ2 )
2 2
→≈ N (0, 1)
S1 S
n1 + n2
2
– Équivalent de T → Z pour grands échantillons

q 2 q
s s22 s21 s22
– Intervalle de confiance : (x1 − x2 ) − zα/2 n11 + n2 < µ1 − µ2 < (x1 − x2 ) + zα/2 n1 + n2
1. H0 : µ1 − µ2 = d0 , H1 : µ1 − µ2 > d0 (test unilatéral)
5. Règle de décision : rejeter H0 si zq> zα
s2 s22
(x1 − x2 ) > (x1 − x2 )c = d0 + zα n11 + n2

– Populations normales et petits échantillons (n1 < 30 ou n2 < 30)
– σ1 , σ2 : inconnus mais σ1 = σ2 (à tester)
– T = (X 1 −Xr2
)−(µ1 −µ2 )
2 2
= (X 1 −Xq2 )−(µ
1
1 −µ2 )
1
→ Student
Sc S Sc +n
n1 + nc n1 2
2
Pn1 2 Pn2 2
i=1 (X1i −X 1 ) + i=1 (X2i −X 2 ) (n1 −1)S12 +(n2 −1)S22
– Variance commune : Sc2 = (n1 −1)+(n2 −1) = (n1 −1)+(n2 −1)
– T : Student à (n1 + n2 − 2) d.l. q q
– Intervalle de confiance : (x1 − x2 ) − tα/2 sc n11 + 1
n2 < µ1 − µ2 < (x1 − x2 ) + tα/2 sc 1
n1 + 1
n2
– Test d’hypothèse : . . .
– À propos des conditions :
– σ1 ≈ σ2 ou populations ≈ normales : OK
– σ1 6= σ2 et normales : OK si n1 = n2
Variances inconnues et différentes - petits échantilons

– Populations normales et petits échantillons (n1 < 30 ou n2 < 30)
– σ1 , σ2 : inconnus et σ1 6= σ2 (à tester) 2 2
S1 S2
n1 + n2
(X 1 −X 2 )−(µ1 −µ2 ) 2
– T = r
2
→ Student à ν d.l. ; ν = 2 /n )2
(S1 2 /n )2
(S2
S1 S2 1
+ 2
n1 + n2 n1 −1 n2 −1
2
– Arrondir ν au nombre entier inférieur. q q
s2 s22 s21 s22
– Intervalle de confiance : (x1 − x2 ) − tα/2 n11 + n2 < µ1 − µ2 < (x1 − x2 ) + tα/2 n1 + n2
1. H0 : µ1 − µ2 = d0 , H1 : µ1 − µ2 < d0 (test unilatéral)
5. Règle de décision : rejeter H0 si tq< tα
s2 s22
(x1 − x2 ) < (x1 − x2 )c = d0 − tα n11 + n2
Echantillons appariés
– Échantillons aléatoires et appariés de tailles n1 = n2 = n
– Appariés : « avant / après »
– Population : nouvelle v.a. D = X1 − X2 (µD , σD )
– Échantillon : calculer di = x1i − x2i ; oublier X1 , X2 !
– Population normale ou grands échantillons (n > 30), σD connu :
Z = σD−µ√D → N (0, 1)
D/ n

– Population normale et petits échantillons (n < 30), σD inconnu :

T = sD−µ√D à (n − 1) d.l.
D/ n
sD sD
– Intervalle de confiance : d − tα/2 √ n
< µD < d + tα/2 √ n
– Test d’hypothèse : . . .
– Échantillons appariés : un seul nouvel échantillon !
Distribution de la différence des proportions

– Grands échantillons (n1 >p30, n2 > 30)
√
– Proportions : P̂i = N (πi , πi (1 − πi )/ ni )
(P̂ −P̂2 )−(π1 −π2 )
– Z= q 1
π1 (1−π1 ) π (1−π )
→ N (0, 1)
+ 2 n 2
n 1 2 q
– Intervalle de confiance : (p̂1 − p̂2 ) − zα/2 π1 (1−πn1
1)
+ π2 (1−π
n2
2)
< π1 − π2 < (p̂1 − p̂2 ) +
q
π1 (1−π1 ) π2 (1−π2 )
zα/2 n1 + n2 ; remplacer πi (1 − πi ) → p̂i (1 − p̂i )
1. H0 : π1 − π2 = d0 (π1 = π2 + d0 ) , H1 : π1 − π2 > d0 (test unilatéral)

5. Règle de décision : rejeter H0 si q z > zα
(p̂1 − p̂2 ) > (p̂1 − p̂2 )c = d0 + zα π1 (1−π
n1
1)
+ π2 (1−π2 )
n2
Pn1 Pn2
x1i + i=1 x2i n1 p̂1 +n2 p̂2
Si d0 = 0, π1 = π2 : remplacer πj → p̂ = i=1
n1 +n2 = n1 +n2
Si d0 6= 0 : remplacer πj → p̂j
6.6.2 Distribution du rapport des variances - rappel #5.5

S 2 /σ 2
– F = S12 /σ12 = VV12 /ν
/ν2
1
2 2
(n −1)S 2
– Vi = i σ2 i : v.a. indépendantes, loi du χ2 à νi = ni − 1 d.l.
i
– F : loi de Fisher (1924) - Snedecor (1934) avec ν1 et ν2 d.l.
– F ≥0
– P (F > fα (ν1 , ν2 )) = α (définition de fα (ν1 , ν2 ))
1
– fα (ν1 , ν2 ) = f1−α (ν2 ,ν1 )
(propriété de la loi F )
S 2 /σ 2 S 2 σ2
– F = S12 /σ12 = S12 σ22
2 2 2 1
– Intervalle de confiance (niveau de confiance 1 − α) :
– f1−α/2 (ν1 , ν2 ) < f < fα/2 (ν1 , ν2 )
s2 σ2 s2
– s12 fα/2 (ν1 1 ,ν2 ) < σ12 < s12 f1−α/21(ν1 ,ν2 )
2 2 2
– Test d’hypothèse H0 : σ1 = σ2
– Règle de décision : rejeter H0 si
– H1 : σ1 6= σ2
f < f1−α/2 ou f > fα/2 c-à-d s21 /s22 < f1−α/2 ou s21 /s22 > fα/2
– H1 : σ1 > σ2
f > fα c-à-d s21 /s22 > fα
– H1 : σ1 < σ2
f < f1−α c-à-d s21 /s22 < f1−α/2

6.7 Récapitulatif : deux échantillons
6.7.1 Statistiques de deux (grands) échantillons : moyenne
Paramètre θ µ2 − µ1
Populations ≈ normales — ≈ normales
Écart-types σ1 , σ2 connus connus inconnus
Échantillons — n1 > 30 et n2 > 30 n1 > 30 et n2 > 30
Statistique Θ̂ X2 − X1
(X 2 −X 1 )−(µ2 −µ1 ) (X 2 −X 1 )−(µ2 −µ1 )
St. normalisée Z= r
2
Z= r
σ1 σ2 2
S1 S2
n1 + n2 n1 + n2
2 2
Distribution N (0, 1)
Degrés de liberté —
Mesure θ̂ x2 − x1
6.7.2 Statistiques de deux (petits) échantillons : moyenne
Populations ≈ normales
Écart-types σ1 , σ2 inc., σ1 = σ2 ou n1 = n2 inc., σ1 6= σ2 et n1 6= n2
Échantillons n1 < 30 ou n2 < 30
(X 2 −X 1 )−(µ2 −µ1 ) (X 2 −X 1 )−(µ2 −µ1 )
St. normalisée T = q T = r
Sc n1 + n1 2
S1 S2
1 2 n1 + n2
2
Distribution Student (ν)

Degrés de liberté n1 + n2 − 2 ν∗
Rappels Sc : diapo #6.6.1 ν ∗ : diapo #6.1.4
6.7.3 Statistiques de deux échantillons : proportion, variance
Paramètre θ π2 − π1 σ12 /σ22

Populations — ≈ normales
Écart-types σ1 , σ2 — —
Échantillons n1 > 30 et n2 > 30 2 —
Statistique Θ̂ P̂2 − P̂1 F
(P̂ −P̂1 )−(π2 −π1 ) S12 /σ12
St. normalisée Z= q 2
π1 (1−π1 ) π (1−π )
F = S22 /σ22
n + 2 n 2
1 2
Distribution N (0, 1) Fischer (ν1 , ν2 )

Degrés de liberté — n1 − 1, n2 − 1
Mesure θ̂ p̂2 − p̂1 s21 /s22

6.7.4 Estimation / tests : deux échantillons

Stat. Intervalle Test d’hypothèse H0 : θ = θ0
norm. de confiance H1 : θ 6= θ0 H1 : θ < θ0 H1 : θ > θ0
Z −z α2 < z < z α2 z < −z α2 ou > z α2 z < −zα z > zα
T −t α2 < t < t α2 t < −t α2 ou > t α2 t < −tα t > tα
F f1− α2 < f < f α2 f < f1− α2 ou f > f α2 f < f1−α f > fα
mettre sous « entrer dans le monde de H0 » :
la forme : θ = θ0 , calculer z, t, χ2 à partir des mesures ;
θL < θ < θ H décisions de rejet de H0

– Voir tableaux unifiés en annexe
6.8 Tests : au delà du seuil de signification

6.8.1 Seuil descriptif (p-value)
– Test statistique : « 2. Choisir le seuil de signification α »
– « Typiquement 1% ou 5% »
– Comment choisir ?
– Comment décider ?
– Pourquoi choisir α ?
– Tests classiques :
– Mesurer θ̂ ; comparer θ̂ aux valeurs critiques θ̂c
– Valeurs critiques dépendent de α
– Alternative
– Calculer αp (p-value) telle que θ̂ = θ̂c
– αp : rejeter H0 de façon marginale
– P-value (seuil descriptif) : la plus petite valeur de α = P (rejeterH0 |H0 vraie) qui conduirait
au rejet de H0
– La probabilité de se retrouver « au moins aussi loin » de la H0 – dans le sens de la H1 – que
l’échantillon examiné, si H0 est vraie.
6.8.2 Seuil descriptif (p-value) : exemple

– Test sur la moyenne, petit échantillon, population normale, σ inconnu
1. H0 : µ = µ0 , H1 : µ 6= µ0 (test bilatéral)
2. α à définir
T = (X − µ)/(S/ n)
4. Région critique : T < −tα/2 et T > tα/2

rejeter H0 si t < −tα/2 ou > tα/2
7. Décider


Population N (0.5, 1), n = 5
–> x = 0.5+rand(1,5,’normal’)
x = 0.4303745 -1.2195277 -0.3570756 2.2734783 -0.5112132

–> mean(x)
ans = 0.1232073
–> stdev(x)
ans = 1.337359
µ0 = 0, calculer t :
–> t = ( mean(x) - 0 ) / ( stdev(x) / sqrt(5) )
t = 0.2060029
α = 0.05, calculer tc = tα/2 :
–> cdft(“T”,4,1-0.025,0.025)
ans = 2.776445
7. Décider : −tα/2 < t < tα/2 , on ne peut pas rejeter H0 : µ = µ0 = 0
µ0 = 0, calculer t :
–> t = ( mean(x) - 0 ) / ( stdev(x) / sqrt(5) )
ans = 0.2060029
Quelle est la valeur de α qui donne t = tc = tα/2 ?
–> [P,Q]=cdft(“PQ”,t,4
Q=0.4234244 P= 0.5765756
p-value/2 = 0.4234244, p-value = 0.8468488
7. Décider : échantillon très probable si H0 est vraie
6.9 Test du χ2
6.9.1 Définition – cadre général
Comparer, à l’issue d’une expérience aléatoire, des fréquences expérimentales aux fré-
quences prévues par la théorie (Pearson, 1900).
– k : nombre de fréquences à comparer (nombre de classes)
– oi : fréquences Observées (obtenues expérimentalement)
– ei : fréquences « Espérées » (théoriques, à calculer)
–
Xk
(oi − ei )2
χ2 =
i=1
ei
– Loi du χ2 à ν degrés de liberté ; si oi = ei , χ2 = 0, sinon χ2 > 0

– Calculer χ2 à partir de oi , ei ; obtenir α = P (X 2 > χ2 ), la p-value
– ν = k − 1 − (nombre de paramètres estimés utilisés dans le calcul de ei )
– Condition : ei ≥ 5 au moins pour 80% des classes ; ei > 0 pour les autres
– Applications : test d’adéquation, d’indépendance, d’homogénéité, de proportions
6.9.2 Test d’adéquation (ou d’ajustement)

H0 : les données expérimentales ont été obtenues à partir d’une population suivant la
loi pX (x) (p.ex., normale, uniforme, etc).
– Exemple : données sur plusieurs lancers d’un dé (données simulées. . . )

Face 1 2 3 4 5 6 Total N
–
Fréquence (oi ) 1037 937 1055 1034 929 1008 6000
O = [ 1037 937 1055 1034 929 1008]
– H0 : le dé est bien équilibré ; pi = 1/6, ei = pi N = 1000

e=ones(1,6)*1000
– Conditions : OK (sinon grouper des classes voisines)
– Calculer χ2 = 14.624 (sum((O-e).ˆ2)/1000
– ν =6−1−0=5
– p-value : P (X 2 > 14.624) =
[P Q]=cdfchi(PQ,sum((O-e).ˆ2)/1000,5)
Q= 0.0120957 P=0.9879047
– On peut rejeter H0 au seuil de signification 5%
6.9.3 Test d’indépendance / tableau de contingence

On mesure, sur chaque individu d’un échantillon aléatoire de taille n, deux caractères
X et Y , à l et c modalités, respectivement.
H0 : les deux caractères X et Y sont indépendants.
– Example : le tabac et les jeunes, INPES, baromètre santé 2000 (tr. #2.4.4)
Sexe \ Fumeur Oui Non Total
Homme 340 (310) 314 (344) 654
–
Femme 289 (319) 384 (354) 673
Total 629 698 1327
– H0 : X et Y sont indépendants ; πij = πi πj (i = 1, . . . , l ; j = 1, . . . , c)
– On estime πi et πj à partir des fréquences marginales de l’échantillon
c l
eij
Pc
oij
Pl
oij 1X X
– πij = πi πj → n = j=1
n
i=1
n → eij = oij oij
n j=1 i=1
– Degrés de liberté ν = (lc − 1) − 1 − [(l − 1) + (c − 1)] = (l − 1)(c − 1)

– Conditions : OK (sinon ? augmenter la taille de l’échantillon !)
6.9.4 Test d’indépendance : correction de Yates

– Si ν = 1 (tableau 2 × 2) utiliser :
X (|oij − eij | − 0.5)2

χ2 =
eij
i,k
– Calculer χ2 = 10.5256
– ν = (2 − 1)(2 − 1) = 1
– p-value : P (X 2 > 10.5256) =
[P Q]=cdfchi(“PQ”, 10.5256, 1)
Q=0.0011773 P = 0.998227
6.9.5 Test d’homogénéité

À partir de c populations, on obtient c échantillons aléatoires et indépendants, de taille
nj (j = 1, . . . , c). On mesure sur chaque individu le même caractère X, à l modalités.

H0 : la proportion d’individus appartenant à la i-ème modalité (i = 1, . . . , l), reste

la même pour toutes les populations (les populations sont homogènes par rapport au
caractère étudié).
– Example : notes (fictives) échantillonnées dans trois parcours
Note \ Parcours I II III Total
0≤x<6 32 15 8 55
– 6 ≤ x < 12 123 60 43 226
12 ≤ x ≤ 20 145 125 149 419
Total (nj ) 300 200 200 700
– H0 : proportion de chaque modalité constante ;
πi1 = πi2 = . . . = πic = πi (i = 1, . . . , l)
– On estime πi à partir des fréquences marginales de l’échantillon
Note \ Parcours I II III Total
0≤x<6 32 (23.57) 15 (15.71) 8 (15.71) 55
– 6 ≤ x < 12 123 (96.86) 60 (64.57) 43 (64.57) 226
12 ≤ x ≤ 20 145 (179.57) 125 (119.71) 149 (119.71) 419
Total (nj ) 300 200 200 700
– H0 : proportion de chaque modalité constante ;
πi1 = πi2 = . . . = πic = πi (i = 1, . . . , l)
– On estime πi à partir des fréquences marginales de l’échantillon
c l
eij
Pc
oij 1X X
– πij = πi → nj = j=1
n → eij = oij oij
n j=1 i=1
| {z }
nj
– Degrés de liberté ν = (lc − 1) − 1 − [(l − 1) + (c − 1)] = (l − 1)(c − 1)

– Conditions : OK (sinon ? augmenter la taille de l’échantillon !)
– Même formule que le test d’indépendance !
–
X (oij − eij )2
χ2 =
eij
i,k
– Calculer χ2 = 35.4729
– ν = (3 − 1)(3 − 1) = 4
– p-value : P (X 2 > 35.4729) =
[P Q]=cdfchi(“PQ”, 35.4729, 4)
Q=3.714026 10e7 P = 0.9999996
– On peut rejeter H0 pratiquement à n’importe quel seuil de signification !
6.9.6 Test de proportions

À partir de c populations, on obtient c échantillons aléatoires et indépendants, de taille
nj (j = 1, . . . , c). On mesure sur chaque individu le même caractère X, à 2 modalités
(« oui » / « non »).
H0 : la proportion de « oui » reste la même pour toutes les populations (cas spécial du
test d’homogénéité, l = 2).
– Exemple : nombre de pièces défectueuses et moment de production
Pièces\ Créneau Matin Après-midi Nuit Total
Défectueuses (« O ») 45 (56.97) 55 (56.67) 70 (56.37) 170
–
Normales (« N ») 905 (893.03) 890 (888.33) 870 (883.63) 2665
Total (nj ) 950 945 940 2835

– H0 : π 1 = π 2 = . . . = π c = π
– On estime π à partir des fréquences
Pc marginales de l’échantillon
e1j j=1 o1j
– « Oui » : πj = π → nj = n Pc
e2j o2j
– « Non » : 1 − πj = 1 − π → nj = j=1
n
6.9.7 Test de proportions

c l
nj Pc 1X X
– eij = n j=1 oij → eij = oij oij
n j=1 i=1
– Même formule que le test d’indépendance / d’homogénéité !

– Degrés de liberté ν = (2 − 1)(c − 1) = c − 1
– Conditions : OK (sinon ? augmenter les tailles des échantillons !)
– Calculer χ2 = 6.2339
– ν = (3 − 1) = 2
– p-value : P (X 2 > 6.2339) =
[P Q]=cdfchi(“PQ”, 6.2339, 2)
Q=0.04429
6.9.8 Test de proportions sans estimation de paramètres

Même contexte qu’avant : c populations, c échantillons, caractère X à deux modalités.
H0 : les proportions de « oui », π1 , . . . , πc , sont égales à p1 , . . . , pc (pas d’estimation de
paramètres).
e
– « Oui » : πj = pj → n1jj = pj
e
– « Non » : 1 − πj = 1 − pj → n2jj = 1 − pj
– ν = c : on ne perd aucun degré de liberté
– Exemple précédent avec :
p1 = 0.05, p2 = 0.06, p3 = 0.08 (6= 170/2835 ≈ 0.06)
– Calculer χ2 = 0.5836
– ν=3
– p-value : P (X 2 > 0.5836) = 0.9002
– On ne peut pas rejeter H0
6.9.9 Test d’adéquation à la loi normale (Shapiro–Wilk)

H0 : les données expérimentales (échantillon de taille n) ont été obtenues à partir d’une
population normale.
– Procédure « classique » : test du χ2 (cf. TD 6)
1. Répartir les données en classes (histogramme)
2. Estimer µ et σ avec cdfnor
3a. Calculer les probabilités théoriques pj des classes
Calculer les fréquences théoriques ej = pj n
Vérifier les conditions sinon regrouper les classes
3b. Ou répartir en (M + 1) classes équiprobables : ej = n/(M + 1)
4. Calculer χ2 (on perd deux d.l. avec l’estimation de µ et σ !)
– Une grande p-value permet de ne pas rejeter l’hypothèse de normalité

6.10 Exercices
Exercice 6.1 Variance
Les valeurs suivantes proviennent d’une distribution normale N (3, 1) :

1.9, 2.4, 3.0, 3.5, 4.2. Calculer les intervalles de confiance à deux niveaux de confiance, 90% et
95%.
Exercice 6.2 Rapport des variances
Deux échantillons aléatoires et indépendants, provenant de deux populations normales, sont

composés des valeurs suivantes :
19.8, 12.7, 13.2, 16.9, 10.6, 18.8, 11.1, 14.3, 17.0, 12.5 et
24.9, 22.8, 23.6, 22.1, 20.4, 21.6, 21.8, 22.5.
Peut-on dire que les deux populations ont la même variance ? Calculer à partir des échantillons
des intervalles de confiance à deux niveaux de confiance, 90% et 95%.
Exercice 6.3 Comparer deux lignes de production
Un constructeur veut comparer la ligne de production déjà en place avec une nouvelle ligne,
expérimentale.
Pièces défectueuses
Il effectue d’abord un contrôle qualitatif. La première ligne donne 12 pièces défectueuses et 88
normales. La ligne expérimentale donne 20 pièces défectueuses et 122 normales.
1. Calculer les intervalles de confiance (niveau de confiance 95%) de la proportion des pièces
défectueuses de chaque ligne.
2. Calculer les intervalles de confiance (niveau de confiance 95%) de la différence des pro-
portions des pièces défectueuses.
3. Peut-on dire que la nouvelle ligne est meilleure ? Formuler les hy-
pothèses du test, les règles de décision et calculer la p-value.
> défectueuses = c(12, 20)
> normales = c(88, 122)
> pièces = défectueuses + normales
> prop.test( defectueuses, pieces, alternative="two.sided" )
Durée de vie
Le deuxième test est quantitatif. On échantillonne les deux lignes et on mesure la caractéristique
appropriée, ici la durée de vie exprimée en jours. Le nombre d’individus est limité, car il s’agit
d’un test destructif. On fait l’hypothèse que la durée de vie suit une loi normale.
Le premier échantillon donne les valeurs suivantes :
101.0 103.0 103.0 88.2 108.0 102.0 100.0 93.5 96.4 94.8
et le deuxième :
118.8 116.0 112.7 102.3 115.0 106.3 107.6.
1. Peut-on dire que la nouvelle ligne est meilleure ? Formuler les hypothèses du test, les
règles de décision et calculer la p-value.
2. Si les données de la deuxième ligne étaient égales à
120.3 117.0 113.0 100.6 115.8 105.3 106.8
quelle serait la procédure suivie ?
Exercice 6.4 Comparer les notes à deux examens

Un professeur veut examiner le progrès des étudiants. Pour cela, il étudie les notes obtenues
par le même étudiant (échantillons appariés) au contrôle intermédiaire et au contrôle final :
Étudiant 1 2 3 4 5 6 7
Note A 8.75 5.65 11.00 19.50 10.75 15.00 14.50
Note B 14.00 4.00 6.00 18.00 9.50 13.50 18.50
Source : notes Statistiques Appliquées, 2006–2007.
1. Calculer les intervalles de confiance de la moyenne de chaque contrôle (niveau de confiance

95%).
2. Calculer l’intervalle de confiance de la différence des moyennes (niveau de confiance 95%).
3. Peut-on dire que les étudiants ont progressé ? Formuler les hypothèses du test, les règles
de décision et calculer la p-value.
Exercice 6.5 test biologique

Un physiologiste étudie l’influence du cadmium sur le taux de glucose dans le sang. Il remplit
2 bassins avec d’une part de l’eau de distribution et d’autre part de l’eau de distribution à
laquelle on a ajouté une dose de 0.01mg de Cd par litre. 18 truites sont disposées dans ces 2
bassins et le taux de glucose dans le sang est mesuré après 2 heures d’incubation. Les résultats
sont des mesures donnent, dans le bassin sans Cd ajouté, une moyenne de 86.6 et une variance
de 5.1 et, dans le bassin avec 0.01 mg de Cd/l, une moyenne de 91.2 et une variance de 8.3. Les
variances attendues dans le bassin sans Cd étant de 5 et de 10 dans le bassin traité, le cadmium
augmente-t-il la glycémie chez les truites ?


Appendices
147
Annexe A
Aide-mémoire
A.1 Quelques formules utiles

Progression géométrique
∞
X ak
ai = si|a| < 1 (A.1)
1−a
i=k
A.2 Théorie d’échantillonnage

A.2.1 Une population – un échantillon
Le tableau A.1 contient les statistiques d’échantillonnage liées aux paramètres de la population
dans le cas d’un échantillonnage aléatoire avec remplacement.
Dans le cas d’un échantillonnage sans remplacementp dans une population finie de taille N ,
l’écart-type
q de la population utilisé dans Z – égal à σ ou π(1 − π) – est multiplié par le facteur
N −n
N −1 .
A.2.2 Deux populations – deux échantillons indépendants

Le tableau A.2 contient les statistiques d’échantillonnage liées aux paramètres des populations
dans le cas d’un échantillonnage aléatoire et indépendant avec remplacement.
A.2.3 Deux populations – deux échantillons appariés

Si les échantillons sont appariés (« avant » / « après »), créer un nouvel échantillon di = x1i −x2i
et travailler avec D (tableau A.1).
A.3 Intervalles de confiance / tests

Le tableau A.3 contient les intervalles de confiance des statistiques normalisées ainsi que les
décisions de rejet des tests d’hypothèse.
– Symétries :
– Normale centrée réduite : z1−α = −zα
– Student (ν) : t1−α (ν) = −tα (ν)
– Fischer (ν1 , ν2 ) : f1−α (ν1 , ν2 ) = 1/fα (ν2 , ν1 )
– Proportions : remplacer π(1 − π) par p̂(1 − p̂) comme variance de la population
149
3e année
150
Paramètre θ µ π σ2
Population ≈ normale — ≈ normale — ≈ normale
Écart-type σ connu connu inconnu — —
Échantillon — n > 30 n > 30 n < 30 n > 30 a —
Statistique Θ̂ X P̂ S2
X−µ X−µ X−µ P̂ −π (n−1)S 2
St. normalisée Z= √
σ/ n
Z= √
S/ n
T = √
S/ n
Z=√ X2 = σ2
π(1−π)/n
Distribution N (0, 1) Student (ν) N (0, 1) khi-deux (ν)
Degrés de liberté — n−1 — n−1

Mesure θ̂ x p̂ s2
Table A.1 – Théorie d’échantillonnage : une population, un échantillon aléatoire, avec remplacement.
École Polytechnique de l’UNSA
a. En plus : np̂ ≥ 5, n(1 − p̂) ≥ 5, ni p̂ ≈ 0, ni p̂ ≈ 1.

Polytech’Nice-Sophia
Populations ≈ normales — ≈ normales
Écart-types σ1 , σ2 connus connus inconnus inc., σ1 = σ2 ou n1 = n2 inc., σ1 6= σ2 et n1 6= n2
Échantillons — n1 > 30 et n2 > 30 n1 > 30 et n2 > 30 n1 < 30 ou n2 < 30
(X 2 −X 1 )−(µ2 −µ1 ) (X 2 −X 1 )−(µ2 −µ1 ) (X 2 −X 1 )−(µ2 −µ1 ) (X 2 −X 1 )−(µ2 −µ1 )
St. normalisée Z= r Z= r T = q T = r
2
σ1 σ2 2
S1 S2 Sc n1 + n1 2
S1 S2
n1 + n2 + n2 1 2 + n2
2 n1 2 n1 2
Distribution N (0, 1) Student (ν)

Degrés de liberté — n1 + n2 − 2 ν∗
la variance commune, calculée à partir des deux échantillons

(n1 − 1)S12 + (n2 − 1)S22
Sc2 =
(n1 − 1) + (n2 − 1)

S1 S22
n1 + n2
ν ∗ = (S 2 /n )2 arrondir au nombre entier inférieur
1 1 (S22 /n2 )2
2 2
n1 −1 + n2 −1
Paramètre θ π2 − π1 σ12 /σ22

Populations — ≈ normales
Écart-types σ1 , σ2 — —
Échantillons n1 > 30 et n2 > 30 a —
Statistique Θ̂ P̂2 − P̂1 S12 /S22
(P̂ −P̂1 )−(π2 −π1 ) S12 /σ12
St. normalisée Z= q 2
π1 (1−π1 ) π (1−π )
F = S22 /σ22
n1
+ 2 n 2
2
Distribution N (0, 1) Fischer (ν1 , ν2 )

Degrés de liberté — n1 − 1, n2 − 1
Mesure θ̂ p̂2 − p̂1 s21 /s22
Table A.2 – Théorie d’échantillonnage : deux populations, deux échantillons aléatoires et indépendants, avec remplacement.
151
3e année
a. En plus : ni p̂i ≥ 5, ni (1 − p̂i ) ≥ 5, ni p̂i ≈ 0, ni p̂i ≈ 1 (i = 1, 2).

3e année
152
Statistique Intervalle Test d’hypothèse H0 : θ = θ0
normalisée de confiance H1 : θ 6= θ0 H1 : θ < θ0 H1 : θ > θ0
Z −z α2 < z < z α2 z < −z α2 ou z > z α2 z < −zα z > zα
T −t α2 (ν) < t < t α2 (ν) t < −t α2 (ν) ou t > t α2 (ν) t < −tα (ν) t > tα (ν)
X2 2
χ1− 2 2
α (ν) < χ < χ α (ν) χ2 < χ1−
2 2 2
α (ν) ou χ > χ α (ν) χ2 < χ1−α
2
(ν) χ2 > χα
2
(ν)
2 2 2 2
F f1− α2 (ν1 , ν2 ) < f < f α2 (ν1 , ν2 ) f < f1− α2 (ν1 , ν2 ) ou f > f α2 (ν1 , ν2 ) f < f1−α (ν1 , ν2 ) f > fα (ν1 , ν2 )
calculer les valeurs critiques à partir de la valeur de α choisie
Procédure remplacer z, t, χ2 ou f en fonction de θ ; « entrer dans le monde de H0 » :

à mettre sous la forme : prendre θ = θ0 et calculer z, t, χ2 ou f à partir des mesures ;
suivre θL < θ < θH le tableau contient les décisions de rejet de H0
p-value — trouver αp qui rend le seuil de décision égal à z, t, χ2 ou f
Table A.3 – Intervalles de confiance et tests d’hypothèse.

– cas spécial : tests avec deux populations et H0 : π1 − π2 = 0

remplacer πj (1 − πj ) par p̂(1 − p̂) où p̂ = (n1 p̂1 + n2 p̂2 )/(n1 + n2 )
– Test unilatéral sur une moyenne :
– H0 : µ = µ0 , H1 : µ > µ0 , H1 précise : µ = µ0 + δ
– Si conditions pour Z : zα + zβ = σ/δ√n
δ
– Si conditions pour T : tα + tβ = √
s/ n

Statap Processus

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Statap Processus

Transféré par

Droits d'auteur :

Formats disponibles

Statistique Appliquée et Processus Aléatoires

École Polytechnique de l’Université de Nice – Sophia Antipolis

Statistique Appliquée et Processus Aléatoires 2

2 Expériences et espace probabilisé 11

3.5.3 Variable aléatoire conditionnelle continue . . . . . . . . . . . . . . . . . . . 53

4 Statistique descriptive 115

6 Inférence statistique 129

Statistique Appliquée et Processus Aléatoires 4

6.5.1 Statistiques d’un échantillon : moyenne . . . . . . . . . . . . . . . . . . . . 134

Statistique Appliquée et Processus Aléatoires 5

Statistique Appliquée et Processus Aléatoires 6

1.1 Les probabilités : histoire et utilité

1.1.1 Un très bref historique

de probabilité conditionnelle a été introduite par Bayes, également au dix-huitième siècle, et

1.1.2 De l’utilité des probabilités et de la statistique

Ce principe en lui-même indique la nature fondamentalement non déterministe du monde, et définit

Statistique Appliquée et Processus Aléatoires 8

Statistique Appliquée et Processus Aléatoires 9

Statistique Appliquée et Processus Aléatoires 10

Expériences et espace probabilisé

Définition 2.2 Univers

Définition 2.3 Événement

2.2.2 Rappels sur les ensembles

Statistique Appliquée et Processus Aléatoires 12

(a) Ω (b) F (c)G

(d)Gc (e) F ∩ G (f) F ∪ G

Figure 2.1 – Quelques opérations de base des ensembles

Quelques propriétés de base des ensembles

Statistique Appliquée et Processus Aléatoires 13

2.3 Espace probabilisé

Exemple 2.3.1 Nombre de personnes dans une salle de concert

Exemple 2.3.2 Lancer de deux dés

Statistique Appliquée et Processus Aléatoires 14

Figure 2.2 – Exemple : lancer deux dés

Méthodologie de définition d’espace probabilisé

– Définition intuitive (fréquence relative)

– Définition axiomatique (Kolmogorov)

Statistique Appliquée et Processus Aléatoires 15

Axiome 2.3.3 P(A ∪ B) = P(A) + P(B) pour A et B disjoints, qui se généralise à :

Propriétés des probabilités

Exemple 2.3.3 Interrupteurs en série

6. P(A ∪ B) = P(A) + P(B) − P(A ∩ B)

Exemple 2.3.4 Interrupteurs en parallèle

Statistique Appliquée et Processus Aléatoires 16

P(A ∪ B) = P(A) + P(B) − P(A ∩ B)

7. P(A ∪ B) ≤ P(A) + P(B)

2.4 Probabilité conditionnelle

Statistique Appliquée et Processus Aléatoires 17

La probabilité conditionnelle consiste donc à attribuer un nombre P(A|B) ∈ [0, 1] à un événe-

Figure 2.4 – Exemple : lancer deux dés

Exemple 2.4.1 Lancer de deux dés

Exemple 2.4.2 Le tabac et les jeunes

Statistique Appliquée et Processus Aléatoires 18

2.4.1 Les probabilités conditionnelles définissent un nouvelle tribu

Statistique Appliquée et Processus Aléatoires 19

– La probabilité conditionnelle satisfait les trois axiomes :

2. P(A1 ∪ A2 |B) = P(A1 |B) + P(A2 |B) pour A1 et A2 disjoints

– Les propriétés générales restent valables , p.ex.,

– Approche séquentielle (appelée théorème de la multiplication ou chain rule) :

Figure 2.6 – Détection de présence de l’avion : les 4 points de l’univers.

Exemple 2.4.3 Fausse alarme

Statistique Appliquée et Processus Aléatoires 20

Un exemple relativement simple est un exemple classique de détection. Il s’agit simplement