Académique Documents
Professionnel Documents
Culture Documents
Luc Deneire
Iannis Aliferis
Les statistiques, c’est comme le bikini : ça donne des idées mais ça cache l’essentiel !
Coluche
Les statistiques sont vraies quant à la maladie et fausses quant au malade ; elles sont vraies
quant aux populations et fausses quant à l’individu.
Léon Schwartzenberg
1 Introduction 7
1.1 Les probabilités : histoire et utilité . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1.1 Un très bref historique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1.2 De l’utilité des probabilités et de la statistique . . . . . . . . . . . . . . . . 8
3 Variables Aléatoires 31
3.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.2 Variable aléatoire discrète . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.2.1 Fonction de probabilité ou masse de probabilité . . . . . . . . . . . . . . . . 32
3.2.2 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.3 Les principales lois liées à des variables aléatoires discrètes . . . . . . . . . . . . . . 35
3.3.1 Variable de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.3.2 Variable aléatoire binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.3.3 Variable aléatoire géométrique . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.3.4 Variable aléatoire de Pascal . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.3.5 Variable aléatoire de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.4 Variable aléatoire continue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.4.1 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.4.2 Densité de probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.4.3 Quelques variables continues . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.4.4 v.a. Laplacienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.4.5 v.a. de Cauchy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.4.6 v.a. de Rayleigh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.5 Variables aléatoires conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.5.1 Variable aléatoire conditionnée sur un événement . . . . . . . . . . . . . . . 51
3.5.2 Variable aléatoire conditionnelle discrète . . . . . . . . . . . . . . . . . . . . 52
3
École Polytechnique de l’UNSA Département d’Électronique
Polytech’Nice-Sophia 3e année
5 Échantillonnage 121
5.1 Objectif de la Statistique (Inférentielle) . . . . . . . . . . . . . . . . . . . . . . . . 121
5.1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
5.1.2 L’échantillonnage : une expérience aléatoire . . . . . . . . . . . . . . . . . . 121
5.2 Statistiques d’un échantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
5.2.1 Cas particulier du caractère qualitatif (les proportions) . . . . . . . . . . . 123
5.3 Statistique inférentielle : feuille de route . . . . . . . . . . . . . . . . . . . . . . . . 123
5.3.1 Théorème limite central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
5.4 Théorie d’échantillonnage – un échantillon . . . . . . . . . . . . . . . . . . . . . . . 124
5.4.1 Distribution de la moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
5.5 Théorie d’échantillonnage – deux échantillons . . . . . . . . . . . . . . . . . . . . . 126
5.6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
Appendices 147
A Aide-mémoire 149
A.1 Quelques formules utiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
A.2 Théorie d’échantillonnage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
A.2.1 Une population – un échantillon . . . . . . . . . . . . . . . . . . . . . . . . 149
A.2.2 Deux populations – deux échantillons indépendants . . . . . . . . . . . . . . 149
A.2.3 Deux populations – deux échantillons appariés . . . . . . . . . . . . . . . . 149
A.3 Intervalles de confiance / tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
Syllabus
Ce polycopié couvre le cours de “Statistique Appliquée”, donné en ELEC3, comprenant la partie
cours magistral ainsi que les exercices donnés en travaux dirigés.
Outre qu’il convient (malheureusement !) de rappeler que la présence aux cours et travaux
dirigés est obligatoire, il est utile d’indiquer que les matières enseignées dans ces cours demandent
un travail régulier qui ne peut pas être compensé par un travail, même sérieux, sur un temps court
avant les DS (devoirs surveillés).
De manière à aider les étudiants motivés que vous êtes à fournir ce travail régulier, les travaux
dirigés devront être impérativement préparés chaque semaine. A l’issue du TD, un DM sur machine
vous sera demandé (via l’Environnement Numérique de Travail (ENT)) et noté.
D’autre part, un devoir surveillé sera organisé pour le cours de Statistiques Appliquées, a priori
le 9 novembre, un dernier DS sera organisé en janvier, portant sur l’entièreté de la matière.
Le contrôle continu comptera pour 34 % de la note et les DS pour 66 % de la note
Introduction
7
École Polytechnique de l’UNSA Département d’Électronique
Polytech’Nice-Sophia 3e année
h
m∆v.∆x ≥
4π
où h est la constante de Planck.
2. on ne peut pas mesurer parfaitement son énergie en un temps fini, soit, si on note ∆E
l’imprécision sur la mesure d’énergie et ∆T le temps pris pour mesurer l’énergie, on a
h
∆E.∆t ≥ .
4π
bruit, provenant de l’agitation des particules dans les composants électroniques, est fondamentale-
ment aléatoire, et les caractéristiques (puissance par exemple) du bruit et de la distorsion peuvent
également être aléatoires.
Pour terminer cette brève introduction, les aspects aléatoires sont fondamentaux dans nombre
de disciplines scientifiques, et en particulier dans les sciences de l’ingénieur. Les probabilités,
statistiques et processus aléatoires vont vous servir à :
1. Modéliser le monde incertain. L’exemple le plus simple de paramètre de modèle étant
la moyenne, que nous introduirons comme étant une espérance mathématique. Supposons
par exemple qu’une usine fabrique des générateurs de tension continue, la précision de ces
générateurs n’est évidemment pas parfaite (et est donc “aléatoire”). Cependant, on désire la
caractériser (la modéliser) : on fera un ensemble de mesures, et la théorie des probabilités
et de la statistique nous aidera à caractériser la qualité de la fabrication en donnant par
exemple la moyenne de la tension de sortie et une mesure de sa variabilité (par exemple, 10
Volts avec une variation de plus ou moins 0.1 V dans 95 % des cas).
Dans les exemples plus complexes, la tension de bruit aux bornes d’une résistance en circuit
ouvert, bruit du à l’agitation moléculaire, peut-être également modélisé par une variable
aléatoire, de moyenne nulle, mais avec une distribution qui peut évoluer à différents instants
de mesure (on pourrait observer à chaque instant une tension différente).
2. Quantifier un risque Les cours en bourse peuvent également être modélisés par des proces-
sus aléatoires. Cependant, en tant qu’investisseur, si vous observez qu’une action particulière
a tendance à voir sa valeur augmenter, il existe malgré tout un risque non nul que celle-ci
baisse au cours du temps. La théorie des probabilités (et le calcul stochastique par exemple)
permet de quantifier ce risque.
2.1 Introduction
Dans bon nombre de phénomènes impliquant un grand nombre d’événements (appels télépho-
niques, jeux de hasard, thermodynamique, émission d’électrons, évolution de populations, ...), on
observe l’apparition de moyennes. Par exemple, si on joue à pile ou face avec une pièce non
truquée, à la longue, la proportion de pile et de face est de 0.5.
L’objectif de la théorie des probabilités est de décrire et de prédire ces moyennes, en termes de
probabilité des événements. Soit un événement A, qui est l’issue d’une expérience aléatoire (par
exemple un résultat “pile” d’un lancer de pièce), on associe un nombre à cet événement, ce nombre
est la probabilité de cet événement qu’on note P(A). L’interprétation de cette probabilité peut être
la suivante : si on réalise l’expérience n fois, et que l’événement A est l’issue de l’expérience nA
fois, alors, il y a de grandes chances que le rapport nnA ' P(A), pour n grand. Cette interprétation
peut paraître relativement imprécise, mais c’est à peu près la seule valable que l’on aie à notre
disposition. Une fois cette définition et cette interprétation acceptée, en utilisant la théorie des
probabilités, on peut en déduire des résultats pertinents.
2.2 Définitions
2.2.1 Expérience aléatoire
Définition 2.1 Expérience aléatoire
Une expérience aléatoire est une expérience dont l’issue est incertaine (on ne peut savoir avec
certitude quelle sera le résultat de l’expérience).
Par exemple, un jet de dé est une expérience aléatoire. On notera, dans les exemples du cours,
que la définition de l’expérience aléatoire est extrêmement importante, et peut être très délicate.
Une fois cette notion d’expérience aléatoire acceptée, on peut observer les résultats de cette
expérience aléatoire, et on parlera de l’issue élémentaire de cette expérience. Par exemple, si
l’expérience est un jet d’un seul dé, une issue élémentaire peut être “la valeur indiquée sur la face
supérieure du dé est 1” ou plus simplement “1”. Dans ce cas simple, on peut aisément définir toutes
les issues élémentaires possibles, et l’ensemble de ces issues élémentaires sera appelé l’univers ou
encore, en anglais le sample space.
11
École Polytechnique de l’UNSA Département d’Électronique
Polytech’Nice-Sophia 3e année
Un événement A est un ensemble d’issues élémentaires liées à l’expérience aléatoire et est donc
un sous-ensemble de l’Univers Ω.
On définit alors un nouvel espace, qui est l’espace des événements. Cet espace d’événements
contiendra “tous les événements d’intérêt”. Notons également que tout événement est un sous-
ensemble de l’univers, dans le cas du dé pair, il s’agit du sous-ensemble {2, 4, 6}, et donc, un
espace d’événements est un espace dont les éléments sont des sous-ensembles de l’univers. Cette
définition sera précisée quand on aura défini ce qu’est une probabilité.
En effet, si on s’intéresse aux expériences aléatoires, c’est pour en inférer des informations, en
quelque sorte, pour espérer “contrôler” le hasard, ou en tous cas pour ne pas se faire “piéger” par
le hasard. Dans le cas du jet du dé, si le dé n’est pas pipé, chaque chiffre de 1 à 6 sera observé,
si on fait un nombre de jets infini, avec une proportion de 1/6. De cette observation, on aura
tendance à dire que chaque chiffre sortira avec une chance sur six, et on assignera à chaque chiffre
1
la probabilité de . De même, à l’événement le résultat du jet du dé est pair, on assignera la
6
1
probabilité de .
2
Étant donné un espace d’événements (et on notera que l’univers est un espace d’événements
particulier), à chacun des éléments de cet espace (donc à chaque événement), on assignera une
probabilité.
Jusque maintenant, nous avons introduit les notions de base d’expérience aléatoire, d’univers,
d’espace d’événements et de probabilité. Cependant, leur définition est encore très vague et de-
mande à être précisée pour obtenir une théorie la plus complète et générale possible. Ces précisions
font l’objet du paragraphe suivant, où nous introduisons principalement les notions de σ−algèbre
(ou encore tribu) et la notion de probabilité en tant que mesure. Pour ce faire, nous devons faire
un rappel de notions de base en théorie des ensembles.
–
On peut trouver beaucoup d’autres exemples d’espaces ou d’univers, vous pouvez en créer quelques
uns dans les ... espaces laissés libres.
I
(g) G − F (h) G∆F (i) Partition
f) L’union
F ∪ G = {ω : ω ∈ F ou ω ∈ G}
g) La différence
/ F} = G ∩ Fc
G − F = {ω : ω ∈ G et ω ∈
h) La différence symétrique :
G∆F = {ω : ω ∈ G ou exclusif ω ∈ F } = (F ∪ G) − (F ∩ G)
i) La partition :
Ω = F ∪ G ∪ H ∪ I et
∀X, Y ∈ {F, G, H, I} et X 6= Y : X ∩ Y = ∅
j) Première loi de De Morgan : (F ∩ G)c = (F c ∪ Gc )
k) Deuxième loi de De Morgan : (F ∪ G)c = (F c ∩ Gc )
Ω
6
5
A
4
B
3
1 2 3 4 5 6
Nn (A)
P(A) = lim
n→∞ n
Axiome 2.3.2
P(Ω) = 1
c’est-à-dire que la probabilité que “quelque chose arrive” vaut 1.
n
! n
[ X
P Ai = P(Ai ) .
i=1 i=1
Une généralisation plus forte encore est : soit les événements Ai , i = 1, 2, ... disjoints, alors
∞
! ∞
[ X
P Ai = P(Ai ) .
i=1 i=1
Les propriétés suivantes découlent simplement des axiomes de Kolmogorov, mais également
des propriétés des opérations ensemblistes, grâce à la structure algébrique de la tribu (tous les
ensembles ci-dessous sont supposés être des événements d’une tribu A).
1. P(Ac ) = 1 − P(A)
A∩Ac =∅
dém. : P(Ω) = P(A ∪ Ac ) = P(A) + P(Ac ) = 1
2. P(∅) = 0 = P(Ωc )
3. Toutes les probabilités sont comprises entre 0 et 1 (démonstration : utiliser les deuxième et
troisième axiomes ainsi que la définition de complément).
4. Partition
X : si {Ai } est une partition (finie ou infiniment dénombrable) de Ω, alors, P(B) =
P(B ∩ Ai ), pour tout événement B.
i
5. Si A ⊂ B, P(A) ≤ P(B)
Le circuit représenté ci-dessus consiste en deux interrupteurs en série. Pour que le circuit fonc-
tionne, il faut que les deux interrupteurs soient fermés. On demande la probabilité que le circuit
foncionnne, sachant que la probabilité que les deux interrupteurs soient fermés simultanément
est de 1/4 et que la probabilité qu’un seul interrupteur est fermé est de 1/2 ? On définit les
événements A = {interrupteur 1 et 2 fermés} et B = {interrupteur 1 fermé} (avec A ⊂ B) . La
probabilité que le circuit fonctionne est alors P(A) = 1/4 < P(B)=1/2.
C
Soit un circuit comprenant deux interrupteurs en parallèle (voir ci-dessus) dont chacun de ces
deux interrupteurs peut être fermé avec une probabilité 1/2, indépendemment de l’autre, la
probabilité que les deux interrupteurs soient fermés simultanément est de 1/4. Pour que le
circuit fonctionne, il faut qu’il y ait au moins un interrupteur fermé. Pour trouver la pro-
babilité que le circuit fonctionne, on définit les événements A = {interrupteur 1 fermé} et
B = {interrupteur 2 fermé}. Alors, la probabilité que le circuit fonctionne est :
Ω Ω
B A
A B
P (A) ≤ P (B) ≤ 1 P (A ∩ B)
P (A ∪ B)
Figure 2.3 – Exemples simples de la relation entre probabilités et ensembles.
Ω
6
5
A
4
B
3
1 2 3 4 5 6
Dans l’exemple de la figure 2.4, en supposant des dés non pipés, les événements A et B ont les
probabilités indiquées ci-dessous.
1
Toutes les issues ωi (i = 1, . . . , 36) sont équiprobables (P(ωi ) = ).
36
5
– P(A) =
36
9
– P(B) =
36
2 2/36
– P(A|B) = =
9 9/36
–
P(A ∩ B)
P(A|B) =
P(B)
C
Prenons un autre exemple qui concerne le tabac et les jeunes (20-25 ans), selon une enquête de
l’INPES, baromètre santé de 2000.
Fréquences
Fumeurs Non fumeurs Total
Hommes 340 314 654
Femmes 289 384 673
Total 629 698 1327
A partir du tableau précédent, on déduit aisément (en utilisant l’approche fréquentiste des
probabilités)
– P(Hommes) = 654/1327 = 0.49
– P(Femmes) = 673/1327 = 0.51
– P(Fumeurs) = 629/1327 = 0.47
– P(Non fumeurs) = 698/1327 = 0.53
– P(Fumeurs ∩ Hommes) = 340/1327 = 0.26
– P(Fumeurs|Hommes) = 340/654 = 0.53= 0.26/0.49
– P(Fumeurs|Femmes) = 289/673 = 0.43= 0.22/0.51
A partir de ces définitions, on peut donner le tableau des fréquences relatives, que l’on peut
considérer, en première approximation, comme étant les probabilités des événements “Hommes”
(H), “Femmes” (nH), “Fumeurs” (F), et “non Fumeurs” (nF).
Fréquences relatives
Fumeurs Non fumeurs Total
Hommes 0.26 0.24 0.49
Femmes 0.22 0.29 0.51
Total 0.47 0.53 1
On peut alors définir un univers : Ω = {(H, F ); (H, nF ); (nH, F ); (nH, nF )}, A = Ω,
P = (0.26, 0.24, 0.22, 0.29). Dans la mesure où les éléments de Ω sont des 2-uples, on
parle de probabilité conjointe (la probabilité conjointe que la personne soit un homme
et un fumeur). Si on s’intéresse aux événements “Homme” et “Femme”, alors, A =
{[(H, F ), (H, nF )]; [(nH, F ), (nH, nF )]}, et on travaille sur une tribu différente. On a alors que
P = (0.49, 0.51). On parlera ici de probabilités marginales (elles apparaissent dans la marge
du tableau ...).
C
A=B
B B
P (A∩B)
P (A|B) = P (B)
A A
A=Ω
P (A = 1) P (A) = 1 = P (B)/P (B)
Figure 2.5 – Probabilité conditionnelle : quand on conditionne sur B, le nouvelle tribu est
B = B et, pour cette nouvelle tribu B, P(B) = 1 (= P(B) /P(B))
P(A∩B)
1. P(A|B) = P(B) ≥0 pour chaque événement A ⊆ Ω
3. P(B|B) = 1 (tribu B)
(A, D) (P, D)
(A, N ) (P, N )
n
X
P(B) = P(Ai ) P(B|Ai )
i=1
Le théorème de Bayes est une conséquence directe du théorème des probabilités totales et est
certainement un des théorèmes les plus importants des probabilités.
L’utilité principale du théorème de Bayes est de faire de l’inférence. Par exemple, la probabilité
a priori d’avoir un accident de voiture est de 0.1 % si je roule 100.000 km. Je sais que j’habite la
côte d’azur et que la circulation y est relativement nerveuse, sachant cela, quelle sera la probabilité
d’avoir un accident ?
Dans ce cas-ci nous avons
– la probabilité a priori : celle d’avoir un accident de voiture (P = 0.001) ;
– l’événement connu : j’habite la côte d’azur ;
– la probabilité a posteriori : celle d’avoir un accident de voiture sachant que j’habite la côte
d’azur (qui montera peut-être à P = 0.01 !). Si cette probabilité a posteriori est plus élevée
que la probabilité a priori, on dira que le fait d’habiter la côte d’azur est une cause d’accidents
(cela augmente le risque d’accident).
Le théorème de Bayes fait donc un lien direct entre les probabilités a priori, c’est à dire des
probabilités d’événements connues avant que l’expérience aléatoire n’ait lieu (ci-dessous les pro-
babilités de A et Ai ) et les probabilité a posteriori, ici P(Ai |B). C’est ce qu’on appelle l’inférence
bayesienne.
Une application de l’inférence bayesienne consiste à trouver la relation dite de cause à effet. Il est
par exemple connu que la boisson au volant (la cause) augmente le risque d’accident (l’effet), et il
est intéressant de connaître l’augmentation du risque due à cette cause. On notera A l’événement
“le conducteur a trop bu” et B l’événement “le conducteur a eu un accident”. En fonction des
statistiques d’accident, il est relativement facile d’obtenir P(A ∩ B) ainsi que P(B) et donc P(A|B),
c’est-à-dire qu’on peut quantifier la relation “d’effet à cause”, i.e. la probabilité d’avoir bu si on a
eu un accident. Ce qui peut être plus interessant est d’avoir la relation de “cause à effet”, c’est à
dire P(B|A).
Schématiquement, nous avons :
– « Effet » A −→ « Cause » B, P(A|B) , P(B) 6= 0
– À partir de P(A|B), calculer P(B|A) (cause −→ effet)
– P(A ∩ B) = P(A) P(B|A) = P(B) P(A|B)
–
P(A|B)
P(B|A) = P(B)
P(A)
Dans une analyse avec plusieurs causes, on peut énumérer toutes les causes possibles (i.e. toutes
les causes forment une partition de l’univers. On alors les relations suivantes : soit plusieurs causes
Ai (i = 1, . . . , n) formant une partition de Ω :
–
P(B|Ai )
P(Ai |B) = P(Ai )
P(B)
–
P(Ai ) P(B|Ai )
P(Ai |B) = Pn
i=1 P(Ai ) P(B|Ai )
Fréquences
Fumeurs Non fumeurs Total
Hommes 340 314 654
Femmes 289 384 673
Total 629 698 1327
2.4.4 Indépendance
P(A ∩ B)
– si P(B) 6= 0, P(A|B) = = P(A)
P(B)
– Soit deux événements indépendants A et B, conditionnés par C, (P(C) 6= 0) :
– P(A ∩ B|C) = P(A|C) P(B|C)
– si P(B|C) 6= 0, P(A|B ∩ C) = P(A|C)
– Soit plusieurs
T événements
Q indépendants A1 , A2 , . . . , An :
– P i∈S Ai = i∈S P(Ai )
pour chaque S, sous-ensemble de {1, 2, . . . , n}
Fréquences
Fumeurs Non fumeurs Total
Hommes 340 314 654
Femmes 289 384 673
Total 629 698 1327
Une confusion souvent faite par les étudiants en début de cours est la confusion entre événe-
ments disjoints et indépendants. Cette confusion est à vrai dire bien surprenante : en effet, deux
événements indépendants sont tels que P(A|B) = P(A) = P(A ∩ B) /P(B). En supposant que
P(A) et P(B) soient non nuls, cela implique de toute évidence que P(A ∩ B) 6= 0 et donc que les
événements ne sont pas disjoints.
Une autre manière de lever la confusion est la suivante : supposons que A et B soient disjoints.
Si le résultat de l’expérience aléatoire est l’événement A, alors elle ne peut pas être l’événement
B, et il n’y a sûrement pas indépendance entre ces deux événements (ce qui est confirmé par la
formule de Bayes : P(A|B) = P(A ∩ B) P(B) = 0 puisque A ∩ B = ∅ ⇒ P(A ∩ B) = 0.
Exemple pris du livre de P. Bogaert : Une chaîne de production est composée d’une unité
principale A1 et de trois unités secondaires B1,2,3 . On envisage de moderniser la chaîne de
production en ajoutant une seconde unité principale A2 . La chaîne fonctionne tant que les
produis fabriqués peuvent rentre par une unité principale et sortir par une unité secondaire.
En cas de surcharge électrique du réseau, chaque unité principale et secondaire peut tomber en
panne indépendamment des autres unités avec des probabilités respectives égales à 20 % et 40
%. Quelle est la probabilité d’un arrêt de la chaîne s’il y a surcharge électrique avant et après
modernisation ?
La figure 2.7 illustre le problème ainsi que la manière dont on prend une approche séquentielle.
1. – Soit Ai l’événement “ la chaîne Ai fonctionne correctement” et de même pour Bi . On
a P(Ai ) = 0.8 et P(Bi ) = 0.6
– Soit l’événement F : “la chaîne fonctionne”. Selon le premier schéma, on a F = (A1 ∩
B1 ) ∪ (A1 ∩ B2 ) ∪ (A1 ∩ B3 ) = A1 ∩ (B1 ∪ B2 ∪ B3 ).
– A1 est indépendant des Bi et donc P(F ) = P(A1 ) .P(B1 ∪ B2 ∪ B3 ).
– De plus, par les lois des ensembles, P(B1 ∪ B2 ∪ B3 ) = 1 − P(B1 ∪ B2 ∪ B3 )c =
1 − P(B1c ∩ B2c ∩ B3c ), et par indépendance de Bi , on a indépendance des Bic et donc
P(B1c ∩ B2c ∩ B3c ) = P(B1c ) .P(B2c ) .P(B3c ).
– Globalement on a alors P(F ) = P(A1 ) .P(B1 ∪ B2 ∪ B3 ) = P(A1 ) .(1 −
P(B1c ) .P(B2c ) .P(B3c )) = 0.8(1 − (0.4)3 ) = 0.75, soit une probabilité de panne de 25
%.
2. Sur le deuxième schéma, F = (A1 ∪ A2 ) ∩ P(B1 ∪ B2 ∪ B3 ), soit, toujours par
indépendance,P(F ) = P(A1 ∪ A2 ) .P(B1 ∪ B2 ∪ B3 ). Avec le même raisonnement que ci-
dessus, on obtient P(A1 ∪ A2 ) = 1−P(Ac1 ) P(Ac2 ) = 0.96 et donc P(F ) = 0.96×0.94 = 0.9,
soit une probabilité de panne de 10 %.
Cet exemple montre donc bien qu’ajouter un composant en parallèle dans un système réduira
le risque de pannes de ce système ! C
A1 ∩ B1 (A1 ∩ B1 ) ∪ (A2 ∩ B1 )
B1 B1
A1
A1 ∩ B2 (A1 ∩ B2 ) ∪ (A2 ∩ B2 )
A1 B2 A2 B2
A1 ∩ B2 (A1 ∩ B3 ) ∪ (A2 ∩ B3 )
B3 B3
M
Y
N = N1 N2 . . . NM = Ni
i=1
1. Permutations de n objets
n(n − 1)(n − 2) . . . 2 · 1 = n!
n!
n Pk = n(n − 1)(n − 2) . . . [n − (k − 1)] = = Cnk k!
(n − k)!
(n Pn = n! −→ 0! = 1)
3. Combinaisons de k objets choisis parmi n
k n n Pk n!
Cn = = =
k k! k!(n − k)!
2.4.7 Bibliographie
– P. Bogaert, “Probabilités pour scientifiques et ingénieurs”, De Boeck, Bruxelles, 2006.
– D. Bertsekas, J. Tsitsiklis, “Introduction to Probability”, Athena Scientific, Belmont, 2002.
– S. Kay, “Intuitive Probability and Random Processing using MATLAB”, Springer, 2005
(QA273.K329 2005)
2.5 Exercices
Exercice 2.1 Jet de pièces
On lance une pièce (non truquée) trois fois. Calculer la probabilité que plus de pièces donnent
3/4
face que pile, sachant qu’au premier lancer apparaît face.
La somme de ces probabilités vaut-elle 1 ? Peux-t-on avoir une infinité d’issues, toutes ayant
une probabilité non nulle ? Comparez à l’exercice précédent.
4.
P(Pn ) = P(M ) P(Pn |M ) + P M P Pn |M
n n
= P(M ) P(P |M ) + (1 − P(M ))(1 − P(P |M ) )
5.
P(M |Pn ) = P(M ) P(Pn |M ) /P(Pn )
P(M ) P(Pn |M )
=
P(M ) P(Pn |M ) + P M P Pn |M
n
P(M ) P(P |M )
= n n
P(M ) P(P |M ) + (1 − P(M ))(1 − P(P |M ) )
6.
N 1 2 3 4
P(M, P ) 0.009000 0.008100 0.007290 0.006561
P M, P 0.099000 0.009900 0.000990 0.000099
P(P ) 0.108000 0.018000 0.008280 0.006660
P M, P 0.001000 0.000100 0.000010 0.000001
P M , P 0.891000 0.801900 0.721710 0.649539
P M 0.892000 0.802000 0.721720 0.649540
P(M |P ) 0.083333 0.450000 0.880435 0.985135
P M |P 0.998879 0.999875 0.999986 0.999998
Un alcootest a été mis au point. Celui-ci donne un résultat positif si la personne a un taux
d’alcool supérieur à la valeur admise (on dira qu’il est en état d’ébriété) avec une probabilité
de 96 %. Il donne également un résultat positif si la personne n’est pas en état d’ébriété avec
une probabilité de 2 %.
En faisant l’hypothèse que dans les Alpes Maritimes, 2 % des conducteurs conduisent en état
d’ébriété, calculer la probabilité qu’un conducteur des Alpes Maritimes ne soit pas en état
d’ébriété s’il a été contrôlé positif.
En notant I l’événement la personne testée est ivre et I l’événement complémentaire
la personne testée n’est pas ivre, “+” l’événement le test est positif et "−" l’événement
le test est négatif, les données sont
– sensibilité = 1 - taux de faux négatifs = 1 - proportion de négatifs parmi les ivres
= proportion de positifs parmi les ivres = P(+|I) = 0, 96P(+|I) = 0, 96
– sélectivité = 1 - taux de faux positifs =
1 - proportion de positifs parmi les non-ivres
= 1 − P +|I = 1 − 0, 021 − P +|I = 1 − 0, 02
– prévalence = proportion d’ivres dans la population
testée = P(I)
= 0, 03P(I) =
0, 03 On nous demande de calculer P I|+ = 1 − P(I|+) P I|+ = 1 − P(I|+).
On utilise :
– le théorème des probabilités composées P(A ∩ B) = P(B) · P(A|B) = P(A) · P(B|A)
qui donne ici, en ne considérant que la deuxième égalité et en replaçant A par I
P(I) · P(+|I)
et B par + : P(I|+) =
P(+)
P(I) et P(+|I) nous sont fournis par l’énoncé ; reste à déterminer P(+), ce pourquoi
il faut faire appel à : X X
– le théorème des probabilités totales P(B) = P(B ∩ Ai ) = P(Ai ) · P(B|Ai )
i i
(où les Ai forment un système partitionde l’espace des événements)
qui donne
ici : P(+) = P(I) · P(+|I) + P I · P +|I P(I) (et donc P I ), P(+|I) et P +|I
nous sont
fournis par l’énoncé. On peut alors calculer P(I|+), et finalement à
P I|+ = 1 − P(I|+) qui est demandé.
On sait qu’un trésor peut se trouver à deux endroits, avec probabilité β et 1 − β, respectivement
(0 ≤ β ≤ 1). On cherche au premier endroit et, si le trésor est là, on le découvre avec probabilité
p.
Montrer que le fait de ne pas trouver le trésor au premier endroit suggère qu’il se trouve au
second.
Variables Aléatoires
Le chapitre précédent a donné, sur base de la notion d’événement et d’espace
probabilisé, les règles générales du calcul des probabilités. Par contre, la dé-
finition de ces événements est souvent laborieuse (“le dé affiche la face sur
laquelle le chiffre 6 est indiqué”). Il est souvent utile d’associer un nombre
aux événements (ici le nombre 6). L’association d’un nombre aux événements
aléatoires produit une Variable aléatoire. Tout comme l’univers d’une expé-
rience aléatoire peut-être dénombrable ou non, les variables aléatoires peuvent
être discrètes ou continues (ou mixtes). D’autre part, l’extension au variables
aléatoires conditionnelle sera également présentée.
3.1 Définition
Pour bon nombre (si pas la plupart) des expériences aléatoires, on associe un nombre au résultat
de l’expérience ou à un événement (par exemple le chiffre du dé, la température mesurée, ...). D’un
point de vue formel, il s’agit d’effectuer une application de l’univers Ω dans l’espace des réels.
Exemple 3.1.1
L’exemple suivant reprend l’expérience aléatoire consistant à jeter deux dés. La figure 3.3 illustre
deux variables aléatoires différentes, associées à la même expérience : X, qui associe à un jeté
de deux dés le maximum des deux chiffres indiqués, et Y qui y associe la somme des deux dés.
Si une expérience aléatoire a comme issue (4, 5), alors la réalisation de la variable aléatoire X
vaut x = 5 et la réalisation de la variable aléatoire Y vaut y = 9.
C
31
!"#$%&'( )*+( ,*( -!%'./0+*#.!%( /1&%( 2+*%/( %!3"+$( /$( #+*4$-#!.+$'( )!''.",$'( /*%'(
,1$')*-$( /$'( 5&#&+'( -!3)*#.",$'( *6$-( ,$( 3!/7,$8( 9*.'( &%$( '$&,$( /$( -$'(
#+*4$-#!.+$'( :/*%'( ,$(
École Polytechnique de 3$.,,$&+(
l’UNSA /$'( -*';<=( '$( +0*,.'$+*( $55$-#.6$3$%#8( >!#+$( -?*#(
Département d’Électronique
).#+$($%($'#(-!%'-.$%#(:!"#$%&'(#)*+"#$+#,()*2$(@A=(B&*%/(.,(*55.+3$(C(
Polytech’Nice-Sophia 3e année
(
(
(
(
(
(
(
(
(
( Figure 3.1 – Définition d’une réalisation par le chat de Geluck
(
!"#$%&'#("#)$%*+(,-."*# X
#
D*( #?0!+.$( /$( ,1.%5!+3*#.!%;E( 6.$%#( #!&#( +0-$33$%#( /$( 3$##+$( &%( #$+3$( *&(
-0,7"+$( )*+*/!F$( /&( -?*#( :#.$%'(G( ,$( 3H3$( *%.3*,(C( .,( %$( )$&#( B&$( '1*2.+( /1&%(
?*'*+/=(/$(I-?+J/.%2$+;K8( x
R
(
L!&+(303!.+$M(6$+'(NK;OM(,$(-0,7"+$()?P'.-.$%(*6*.#()+!)!'0(&%$(5*",$(/$'#.%0$(
Ω
AS
Q( 5*.+$(Figure
-!3)+$%/+$(
3.2 – La :R=( ,*(aléatoire
variable %!#.!%(: une /10#*#(
fonctionB&*%#.B&$( *&F(l’espace
de l’univers dans "0!#.$%' 8( ( T+U.%(
des réels
I-?+J/.%2$+( )+!)!'*.#( *.%'.( /1$%5$+3$+( :6.+#&$,,$3$%#( ?$&+$&'$3$%#(G=( &%( -?*#(
*6$-( &%( *#!3$( +*/.!*-#.5( /!%#( ,*( /0'.%#02+*#.!%( -!33*%/$+*.#( &%( /.')!'.#.5(
3.2 Variable aléatoire discrète
3!+#$,()!&+(,$(-?*#8(V,($'#(#?0!+.B&$3$%#(.3)!''.",$(/$()+0/.+$(B&*%/(,1*#!3$(6*((
'$( /0'.%#02+$+8(
Une variable T%( ,1*"'$%-$(
aléatoire discrète X/1!"'$+6*#.!%M(
prend ses valeurs ,1*#!3$( '$( #+!&6$(
dans un ensemble fini ou/!%-( /*%'( &%$(
un ensemble
W('&)$+)!'.#.!%(/10#*#'(XM(Q(,*(5!.'(/0'.%#02+0($#(%!%(/0'.%#02+08(D$(-?*#(/!%#(,$(
comprenant une infinité dénombrable de valeurs (ensemble infiniment dénombrable).
6.$( Exemple
/0)$%/(3.2.1
/$( -$##$( 06$%#&$,,$( /0'.%#02+*#.!%( $'#( /!%-( #?0!+.B&$3$%#( $#(
'.3&,#*%03$%#(3!+#($#(6.6*%#Y(
Dans l’exemple de la figure 3.3, les domaines de variation de X et Y sont respectivement
( RX = {1, 2, 3, 4, 5, 6} et RY = {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}.
C
Z$( )*+*/!F$( /.')*+*[#( /*%'( ,$( -*/+$( /$( ,*( #?0!+.$( /$( ,1.%5!+3*#.!%(C( ,$( -?*#( $'#(
'!.#(6.6*%#M('!.#(3!+#(3*.'(!%(%$(/.')!'$()*'(/$(,1.%5!+3*#.!%()$+3$##*%#(/$(,$(
3.2.1 Fonction de probabilité ou masse de probabilité
'*6!.+8(
Une manière de caractériser complètement une variable aléatoire est de définir sa fonction
( de probabilité (encore appelée masse de probabilité, pour la distinguer de la densité de probabilité
dans le cas de variables aléatoires continues). Cette fonction de probabilité pX (x) associe à chaque
valeur x possible, la probabilité que la variable aléatoire X prenne cette valeur x.
((((((((((((((((((((((((((((((((((((((((((
Définition 3.4 (
;<
(I.(%!#+$(/$'-+.)#.!%()+!"*".,.'#$(/$(,1&%.6$+'($'#(-!++$-#$8(
La fonction
deprobabilité est la fonction pX (x) définie par :
;E
(\&$(*&()?P'.-.$%(*&#+.-?.$%(]%#!%(^$.,,.2$+M(-?$+-?$&+(/$)&.'(;S(*%'(Q(,1_%.6$+'.#0(/$(`.$%%$8(Z$##$(#?0!+.$(
)$+3$#(,*(+0.%#$+)+0#*#.!%(/$'()?0%!37%$'(B&*%#.B&$'(B&.M(Q(,*(,&3.7+$(/$(,*(%!#.!%(/1.%5!+3*#.!%M(/$6.$%%$%#(
simpl.
P {X = x} = P(X = x) si x ∈ RX
pX (x) =
)*+5*.#$3$%#(*"!+/*",$'8(
| {z }
événement ∈ Ω
;K
(T%-!+$(&%()?P'.-.$%(*&#+.-?.$%(:NEE<(a(NKbN=8(
0 si x ∈
/ RX
AS
(c%()$&#(-!%'$.,,$+(.-.(,*(,$-#&+$(/$(,1*+#.-,$(/$(d$*%e9*+-(D06PeD$",!%/M(W(D10#+*%2$(-?*#(/$(I-?+J/.%2$+(X(
La masse de probabilité hérite des axiomes de Kolmogorov :
/*%'(,$(%&30+!(?!+'('0+.$(/$(-)./0)/'#/"#+$/0.1#/$(4&.,,$#(@SS;(C(2/'#31+04'#5+1+4%6/'#4/#7+#')./0)/8((
Ω 2
6
3
5
4
4
5
3 6
2 7
1 8
9
1 2 3 4 5 6
10
11
12
1 2 3 4 5 6
Figure 3.3 – Exemple de deux variables aléatoires liées à la même expérience aléatoire
pX (x) ≥ 0 ∀x ∈ R.
En effet, pX (x) = P(X = x) est une probabilité, et est donc positive ou nulle.
– La somme des valeurs de la fonction pX (x) est égale à l’unité :
n
X
p(xi ) = 1 si RX = {x1 , x2 , · · · xn }.
i=1
0.14
0.12
0.10
0.08
p(x)
0.06
0.04
0.02
0.00
0 2 4 6 8 10 12 14 16 18 20
Définition 3.5 L
1.
X
FX (x) , P({X ≤ x}) = pX (xi )
xi ≤x
On a également introduit la notation FX (x), qui est équivalente à F (x), mais où on a insisté
sur le fait que la fonction de répartition est liée à la variable aléatoire X.
2. Si on classe les éléments de RX par ordre : x(1) < x(2) < . . . < x(n) , on peut alors écrire :
k
X
FX (x(k) ) = P {X ≤ x(k) } = pX (x(i) )
i=1
0 ≤ F (x) ≤ 1, ∀x ∈ R
4. F (x(k) ) − F (x−
(k) ) = p(x(k) )
5. La fonction F (x) est monotone croissante (au sens large) :
Il y a donc un lien fort entre probabilité, masse de probabilité et fonction de répartition, tel
qu’on peut le voir sur la figure 3.5
En anticipant quelque peu sur le cas des variables aléatoires continues, on voit que la fonction
de probabilité est une différence entre valeurs de la fonction de répartition (en continu : déri-
vée) et que la fonction de répartition est une somme de valeurs de la fonction de probabilité
(en continu : intégrale).
8. La fonction F (x) est définie sur R, est continue à droite et est discontinue aux points
x1 , x2 , . . . , xn ∈ RX .
Définition 3.6 U
p(x)
p(xi−1 )
O
x1 x2 xi−1 xi xn
F (xi−1 )
0
x1 x2 xi−1 xi xn
x pX (x)
1 p
0 1-p
x 6= {0, 1} 0
On dira que X ∼ Be(p) : la variable aléatoire X est distribuée selon la loi de Bernoulli
X = Y1 + · · · + Yn ∼ Bi(n, p)
Supposons que l’on jette une pièce n fois. A chaque fois, la probabilité d’obtenir pile est p et
face 1 − p, indépendamment d’un jet à l’autre. Le succès est ici “pile” et donc Yi = 1. Le nombre
X n
de fois qu’on obtient “pile” est bien la somme des n v.a. Yi (X = Yi ).
i=1
Pour déterminer la loi binomiale, on s’intéressera donc à la probabilité d’obtenir exactement x
fois “pile”. En se référant à la section traitant de la combinatoire a , on obtient que :
n!
pX (x) = P(X = x) = Cnx px (1 − p)n−x si x = 0, 1, 2, · · · , n avec Cnx =
x!(n − x)!
La figure 3.6 illustre deux cas particuliers de loi binômiale. On remarquera que la loi binômiale
pour n grand tend vers une loi exponentielle. C
a. Toutes les expériences étant indépendantes, la probabilité d’obtenir x succès est px et la probabilité
d’obtenir n − x échecs est de (1 − p)( n − x). D’autre part, le nombre de combinaisons de x succès et de
n − x échecs est donné par Cn x.
Loinbinomiale
Loi binomiale, = 9, p = 1/2
n = 9, p = 1/2
0.25
p(x)
$p(x)$
0.20
0.15
0.10
0.05
0.00
0 1 2 3 4 5 6 7 8 9
x
x
0.12
0.10
0.08
0.06
0.04
0.02
0.00
0 5 10 15 20 25 30 35 40 45 50
Ici, on peut également déterminer aisément la fonction de répartition. En effet, F (x) représente
X x
la probabilité qu’il y ait au moins une réussite après x essais, soit F (x) = p(1 − p)i−1 =
i=1
1 − (1 − p)x .
Une façon encore plus simple de déterminer F (x) est de remarquer que la probabilité qu’il y
ait au moins une réussite après x essais est égale à 1-la probabilité qu’il n’y ait aucune réussite
après x essais. Or cette probabilité vaut (1 − p)x et donc F (x) = 1 − (1 − p)x .
C
p(1 − p)x−1
si x = 1, 2, . . .
pX (x) =
0 sinon
et
F (x) = 1 − (1 − p)x x = 1, 2, . . .
x 1 2 3 4 5 6 7 ···
pX (x) 0.6 0.24 0.096 0.038 0.015 0.006 0.002 ···
F (x) 0.6 0.84 0.936 0.974 0.989 0.996 0.998 ···
De ce tableau, on déduit qu’il faut 6 essais, et donc que le coût à prévoir si on veut une
probabilité de 99 % d’obtenir une montre est de 60 Euros. C
Supposons maintenant qu’on s’intéresse au fait de réussir une épreuve k fois. La question est
alors : quelle est la probabilité de réussir k fois en faisant x essais. La variable aléatoire liée à cette
expérience suit une loi de Pascal, que l’on note :
X ∼ P a(k, p).
Supposons que vous jouez au poker, avec un nombre infini de cartes, mais toutes en proportions
égales à celles du jeu de 52 cartes traditionnel.
On s’intéresse alors à la probabilité d’avoir une paire, un brelan et un carré (l’hypothèse ci-dessus
“simplifie” quelque peu le calcul), pour un tirage aléatoire de 5 cartes.
Pour une carte donnée, par exemple un as, la probabilité d’avoir une paire est la probabilité
d’avoir, après x cartes tirées, k = 2 cartes de valeur “as”. La probabilité d’avoir un as vaut
p = 1/13.
Dans ce cas, on obtient :
1
– Pour une paire : pX (x) = Cx−1 p2 (1 − p)x−2 Soit :
x 2 3 4 5 6 ···
pX (x) 0.0059 0.0109 0.0151 0.0186 0.0215 ···
Et donc la probabilité d’avoir une paire sur 5 cartes vaut 13.0.0186 = 0.242
2
– Pour un brelan : pX (x) = Cx−1 p3 (1 − p)x−3 Soit :
x 2 3 4 5 6 ···
pX (x) 0.0 0.00045 0.00126 0.00232 0.00358 ···
x 5 6 7 8 9 10 ···
pX (x) 0.13 0.22 0.22 0.17 0.11 0.07 ···
FX (x) 0.13 0.35 0.57 0.74 0.86 0.92 ···
On voit qu’il y a une probabilité de 92 % de perdre 5 points après 10 questions et donc
une probabilité de 8 % de gagner si le candidat répond au hasard.
2. Avec le même raisonnement, mais avec p = 1/2, on obtient :
x 5 6 7 8 9 10 ···
pX (x) 0.03 0.08 0.12 0.14 0.14 0.12 ···
FX (x) 0.03 0.11 0.23 0.36 0.50 0.62 ···
X ∼ P o(µ)
.
La fonction de probabilité pX (x) de la v.a. de Poisson vaudra alors :
La loi de Poisson est très utilisée quand on veut modéliser le nombre d’occurrences d’un évé-
nement sur une unité de temps ou d’espace. Le paramètre µ est sans dimensions, mais peut être
considéré comme étant le produit d’une intensité λ et d’une grandeur physique qui peut être, par
exemple, un intervalle de temps (auquel cas µ = λt où t est l’intervalle de temps sur lequel on
mesure le nombre d’occurrences.)
Les domaines d’application de la loi de Poisson sont nombreux. On peut citer : le nombre de
trames IP arrivant sur un routeur, le nombre de clients arrivant à un guichet de la poste pendant
une heure, le nombre de désintégrations radioactives enregistrées par un compteur sur une seconde,
...
Soit une loi binomiale X ∼ Bi(n, p) de valeurs n grande et p petite et de produit np fini.
Dans ce cas, on a un événement de faible probabilité, mais qui après un grand nombre d’essais, se
produira np fois en moyenne. Cette loi binomiale peut être approximé par une loi de Poisson W
de paramètre w = np. On a donc, pour une variable aléatoire binomiale :
n→∞
X ∼ P o(np)
Une variable aléatoire continue est une variable aléatoire définie sur un domaine de variation
continu.
On s’intéresse à la mesure de la taille moyenne de toutes les classes de collège de France. Cette
taille moyenne suit une loi normale (nous verrons plus tard ce que cela signifie) de moyenne 150
cm et d’écart-type égal à 15 cm. On veut déterminer la masse de probabilité pour des mesures
faites avec une précision de 10 cm, 5, 1 et 0.5 cm.
La figure 3.7 montre les différentes masses de probabilité pour les variables aléatoires discrètes
associées, ainsi qu’en trait continu, la densité de probabilité pour la variable aléatoire continue
représentant la taille moyenne. La somme des masses de probabilité devant être égale à 1, on
voit clairement une évolution vers des valeurs de plus en plus petites de pX (x). On notera que
les valeurs de la masse de probabilité coïncident avec celles de la densité de probabilité pour un
pas de quantification de 1 cm. La raison en est simplement que X est exprimé en centimètres
...
La figure 3.7 a été générée par le code ci-dessous.
C
clear f
clear pi
pi=zeros(4,3001);
// calcul de la "cdf" : Cumulative Distribution Function
// c’est-à -dire la fonction de rà c partition,
// pour une normale de moyenne de 15 et d’Ã c cart-type de 150.
// Elle est calculà c e pour x de 0.1 à 310 par pas de 0.1
for i=1:3200
f(i)=cdfnor("PQ",(i)/10,150,15);
end;
// calcul de la densità c de probabilità c de la normale
// mÃa mes paramètres, pour x de 1 à 300 par pas de 1
x=[0:300];
fx=1/sqrt(2*%pi)/15.*exp(-0.5.*(x-150).^2/15/15);
x_en_mm=[0:10:3000];
// calcul de la masse de probabilità c pour
// une discrà c tisation par 10 cm, 5, 1 et 0.5 cm
s=[100,50,10,5];
for j=1:length(s)
for i=s(j):s(j):3000
pi(j,i+1)=f(i+s(j))-f(i);
end
end
plot(x_en_mm,fx,’r’);
// Petits trucs pour avoir les mÃa mes axes sur les 4 parties
// Et à c galement pour avoir les axes corrects
// Get the axes
b=gca();
// Get the data bounds
dbound=b.data_bounds;
// Get the X axes ticks
xticks=b.x_ticks;
// Their values
xx=xticks(3);
// Their locations
xl=xticks(2);
// Define new locations (to get the "150" value appear)
xl=[0:100:3000]’;
// Erase all tick labels (otherwise there are too many
// of them)
for i=1:31
xx(i)="";
end
// Define the tick labels we want (5 times less than orig.)
for i=1:5:31
xx(i)=string(10*i-10);
end
// Reassign the ticks defined to the current subplot
xticks(3)=xx;
xticks(2)=xl;
b.x_ticks=xticks;
// Assign the relevant title to the subplot
b.title.text=titre(1);
// do the 3 other plots the same way
for j=2:4
subplot(2,2,j);
bar([0:s(j):3000]+s(j)/2,pi(j,1:s(j):3001),0.00001);b=gca();
plot(x_en_mm,fx,’r’);
b.title.text=titre(j);
b.x_ticks=xticks;
b.data_bounds=dbound;
end
// we’re done .... just save the figure under eps and epstopdf ...
0.20 0.20
0.15 0.15
0.10 0.10
0.05 0.05
0.00 0.00
0 50 100 150 200 250 300 0 50 100 150 200 250 300
0.20 0.20
0.15 0.15
0.10 0.10
0.05 0.05
0.00 0.00
0 50 100 150 200 250 300 0 50 100 150 200 250 300
Figure 3.7 – Évolution d’une masse de probabilité “vers” une densité de probabilité
sortie est inférieur à 7 volts”. De la même manière que pour les v.a. discrètes, on peut définir la
fonction de répartition comme étant FX (x) = P(X ≤ x). La différence principale étant que cette
fonction de répartition sera continue, comme illustré dans la figure 3.8.
FX (x)
1
F (b)
F (a)
0
? a b
Figure 3.8 – Fonction de répartition d’une v.a. continue.
D’autre part, on peut aisément calculer la probabilité d’un événement du type appartenance
à un intervalle [a, b] (a ≤ X ≤ b où a < b). En effet, on a que
P(a ≤ X ≤ b) = FX (b) − FX (a)
En effet, (a ≤ X ≤ b) = (X ≤ b) (X ≤ a) et donc P(a ≤ X ≤ b) = P(X ≤ b) − P(X ≤ a).
Remarque Dans le cas continu, la probabilité P(X = x) = 0 et donc FX (x) = P(X ≤ x) =
P(X < x).
dFX (x)
fX (x) =
dx
Et la densité de probabilité n’est autre que la pente de la fonction de répartition. Cette dualité
entre fonction de répartition et densité de probabilité est illustrée dans la figure ??. On notera que
l’appellation est un peu plus explicite en anglais où la fonction de répartition se dit “cumulative
density function (cdf)” et traduit bien qu’il s’agit d’un intégrale (cumulative) de la densité qui
s’appelle “probability density function (pdf)”.
Propriétés
La densité de probabilité est une fonction qui a les propriétés suivantes :
fX (x) ≥ 0
– Z ∀x ∈ R (car la fonction de répartition est monotone croissante).
∞
– fX (x)dx = 1 (car F (∞) = 1, en d’autres mots, l’événement Ω a une proabilité de 1).
−∞
Z b
– P(a ≤ X ≤ b) = fX (x)dx (même raisonnement que plus haut).
a
– De façon un peu plus générale, si un événement est défini par B ∈ RX , alors
Z
P(B) = f (x)dx.
x∈B
X ∼ U n(a, b)
V.a. exponentielle
Une variable aléatoire X prenant uniquement des valeurs non négatives et ayant une vraissem-
blance exponentiellement décroissante (i.e. une densité de probabilité exponentielle décroissante)
est appelée une v.a. exponentielle.
λe−λx 1 − e−λx
si x ≥ 0 si x ≥ 0
fX (x) = ; FX (x) =
0 sinon 0 sinon
On considère souvent que la durée de vie des composants électroniques suit une loi exponen-
tielle. Un fabricant considère par exemple que ses composants suivent une loi exponentielle de
paramètre λ = 20 1
ans−1 (on montrera plus tard que ça veut dire que l’espérance de vie du
composant est de 20 ans). On demande de calculer :
– La probabilité que le composant fonctionne plus de (10 ; 15 ; 20 - ;25) ans.
– La demi-vie, i.e. le temps x tel que la probabilité que la durée de vie excèede x soit égale à
0.5. L’appellation “demi-vie” vient du fait que si une population suit une loi exponentielle,
la moitié de la population aura disparu au moment de la demi-vie. Une population de type
exponentielle est par exemple une population d’atomes radioactifs. On appelle alors λ la
constante de désintégration.
Solution
– On a que P(X > x) = 1 − P(X < x) = 1 − FX (x), ce qui donne des probabilités de ( 0.61 ;
0.47 ; 0.37 ; 0.29). On notera que si l’espérance de vie est de 20 ans, la probabilité d’atteindre
20 ans n’est que de 37 % !.
– On cherche x tel que 1 − FX (x) = 0.5, donc Fx = e−x/λ = 0.5 : x = −20 ∗ ln 0.5 ' 13.8, et la
demi-vie est de presque 14 ans.
C
D’autre part, on montre que si le nombre d’arrivées d’un événement Y suit une loi de Poisson
(ce qui est une hypothèse classique), alors le temps X séparant deux événements consécutifs suit
une loi exponentielle X ∼ Exp(λ). En effet, si Y ∼ P oλx est le nombre d’arrivées ur un intervalle
[0, x], alors P(Y = 0) = P(X > x) ⇔ e−λx = 1 − FX (x), donc FX (x) = 1 − e−λx et X soit une loi
exponentielle.
De manière à organiser le travail, le manager du bureau de poste veut avoir une idée du nombre
de colis reçu en un jour, mais également le temps entre l’arrivée de deux colis. Il part du principe
que le nombre de colis C arrivant par jour suit une distribution (loi) de Poisson de paramètre λt
= 10, où t est une journée. On demande alors la probabilité qu’il y ait plus de [1, 2, 5, 10, 15, 20]
paquets par jour. Ensuite, on cherche la probabilité qu’il y ait plus de [1, 2, 3, 4, 5, 10] paquets
par heure (en considérant une journée de 8 heures). Que deviennent ses probabilités si λt =100
(pour une journée).
De plus, le temps qu’il faut pour traiter un paquet étant de cinq minutes, le manager veut savoir
quelle est la probabilité qu’il y ait plus de deux colis arrivant en moins de 5 minutes.
e−µ µx
– En se souvenant que pour une v.a. C de Poisson, PC (c) = , pour x entier na-
x!
turel, on peut aisément calculer la masse de probabilité de C. Ensuite, on remarque
que P(C > c) = 1 − (P(C = 0) + ... + P(C = c − 1)). Par exemple, P(C > 1) = 1 −
P(C = 0) − P(C = 1) = 1 − 0.0000454 − 0.0000454 = 0.9995 Avec ces données, pour λt
= 10, on a que les probabilités d’avoir plus de [1, 2, 5, 10, 15, 20] colis par jour valent
[0.99950060.99720.93290.41690.04870.0015]. Il y a donc un peu moins d’une chance sur deux
d’avoir plus de 10 colis par jour et quasiment aucune chance d’avoir plus de 20 colis par jour.
– Si on raisonne en heures, le nouveau paramètre de la loi de Poisson vaut λt = 10 / 8 =
1.25. Avec le même raisonnement que précédemmen, on a que les probabilités d’avoir plus de
[1, 2, 3, 4, 5, 10] paquets par heure valent [0.35, 0.13, 0.04, 0.01, 0.002, 10−7 ]
– Avec λt=100 colis*jour, on obtient des probabilités de 100 % (P(C < 20) de l’ordre
de 10−20 . Les probabilités d’avoir plus de [1, 2, 3, 4, 5, 10] colis par heure sont de :
[0.99990.99960.99840.9940.98520.7029253].
– Le temps séparant l’arrivée de deux colis est suit une loi exponentielle X ∼ Exp(λ), soit ici λ
= 10 (resp. 100) jours−1 . La probabilité qu’il y aie moins de deux colis en 5 minutes demande
de nous baser sur un temp t de 5 minutes, et donc de diviser λ par 8 (heures) * 12 (t par heure),
soit respectivement λ = 0.104 et λ = 1.04. On obtient alors que P(X < 1) = 1 − e−0.104 = 0.1
(respectivement 0.65). Dans le premier cas, il y a donc une probabilité de 10 % d’avoir deux
colis en moins de 5 minutes, et cette probabilité monte à 65 % dans le second cas.
C
V.a. Normale
La variable aléatoire est la variable aléatoire par excellence, celle qui modélise ce qui est le plus
aléatoire possible. En effet, le théorème central limite, dont nous verrons un énoncé formel plus
loin, nous indique que si on prend un grand nombre de variables aléatoires quelconques, et qu’on
les additionne, on obtient une variable aléatoire normale.
Les moulins de la Brague produisent des bouteilles d’un litre d’huile d’olive. La quantité d’huile
est une variable aléatoire uniformément répartie entre 0.98 et 1.02 litres. Un client achète 100
bouteilles (la contenance de chaque bouteille est indépendante de celle des autres bouteilles et
suit une loi uniforme ...). La loi de probabilité de la contenance totale sera proche d’une loi
normale (ici de moyenne 100). C
Une variable aléatoire normale (encore appelée Gaussienne) de paramètres µ (fini) et σ 2 (posi-
tif), notée
X ∼ N (µ, σ 2 )
Le graphe de la loi de probabilité est donné dans la figure 3.12. On notera sur ce tracé que la
probabilité de se trouver à plus de 3σ de la moyenne est très faible (de l’odre de un pour mille).
D’autre part, on notera que la vraissemblance en µ vaut 0.4σ alors que la vraissemblance en µ ± σ
vaut 0.35
σ . Les deux vraissemblances sont donc relativement proches.
Nous aurons l’occasion de manipuler cette loi de façon extensive dans la partie statistiques.
09987
0.0013
On notera qu’il n’existe pas d’expression analytique de la primitive de fX (x) et que la fonction
de répartition FX (x) est donc définie sous forme intégrale.
La figure 3.13 montre clairement que la décroissance de fX (x) est plus lente que celle de la v.a.
normale (voir par exemple les valeurs de la fonction de répartition à 3σ de la moyenne.
0.45
0.40
0.992 0.35
0.30
0.25
0.20
0.15
0.10
0.008 0.05
0.00
-6 -4 -2 0 2 4 6
- 0.05
0.45
0.40
0.35
0.89
0.30
0.25
0.20
0.15
0.10
0.11
0.05
0.00
-6 -4 -2 0 2 4 6
- 0.05
La loi de Cauchy est obtenue comme étant le quotient de deux variable aléatoires normales
centrées réduites.
0.5
0.4
0.3
0.2
0.1
0.0
-1 0 1 2 3 4 5 6
- 0.1
connaissons les relations entre les probabilités conditionnelle et les probabilités conjointes et nous
allons donc les utiliser, en nous basant sur la fonction de répartition, qui est une probabilité.
Définition 3.21 Fonction de répartition conditionnelle
Soit un événement aléatoire A de probabilité non nulle, on définira la fonction de répartition
conditionnelle FX|A (x|A) telle que :
P((X ≤ x) ∩ A)
FX|A (x|A) = P((X ≤ x)|A) = .
P(A)
Cette définition est valable tant pour les variables aléatoires discrètes que pour les variables
aléatoires continues. Pour la fonction de probabilité, on peut dériver, de façon simple, les définitions
suivantes :
Définition 3.22 Masse de probabilité conditionnelle
Soit un événement aléatoire A de probabilité non nulle, on définira la masse de probabilité
conditionnelle pX|A (x|A) telle que :
P((X ≤ x) ∩ A)
pX|A (x|A) = P((X ≤ x)|A) = .
P(A)
dFX|A (x|A)
fX|A (x|A) =
dx
fXY (xy)∆x ∆y
fX|Y (x|y)∆x =
fY (y)∆y
ce qui, par passage à la limite, donne la définition ci-dessous.
fXY (xy)
fX|Y (x|y) = .
fY (y)
fXY (xy)
fX|Y (x|Y = yo ) = .
fY (yo )
La variance d’une v.a. X est une mesure (du carré) de la variation qu’on peut observer autour
de la moyenne. L’espérance et la variance donnent une bonne idée du domaine de variation
de la variable aléatoire X.
Les moments d’une v.a. X sont l’espérance des puissances de la v.a. (donc la moyenne est le
moment d’ordre 1, puisque c’est l’espérance de la X à la puissance 1, le moment d’ordre 2
est lié à la variance, etc.).
3.6.1 Le Mode
Définition 3.25 Mode
Le mode d’une variable aléatoire X est la valeur xm telle que :
On notera également que la densité de probabilité liée à la fonction de vraisemblance, que l’on
verra dans le cadre de l’estimation. Le mode est alors lié au maximum de vraisemblance (c’est la
valeur “la plus vraisemblable” que prendra la variable aléatoire).
Quelques remarques
On impose une inégalité stricte (fX (xm ) > fX (x)), donc :
– le mode n’est pas toujours défini (exemple de l’uniforme) ;
– à strictement parler, il n’y a qu’un seul mode. Cependant, on parle souvent de v.a. multi-
modale s’il y a plusieurs maxima locaux ; dans le cas contraire, on parle de v.a. unimodale.
Un exemple typique est le cas d’un mélange de variables aléatoires, ou encore dans le cas de
l’exemple suivant :
clear fx;
P_opt=0.7;
P_pess=0.5;
x=[0:20];
m=[14,8];
v=[4,4];
for i=1:2
fx(i,:)=1./sqrt(2*%pi.*v(i)).*exp(-0.5.*(x-m(i)).^2./v(i));
end
f_opt=fx(1,:)*P_opt+fx(2,:)*(1-P_opt);
f_pess=fx(1,:)*P_pess+fx(2,:)*(1-P_pess);
scf(0);
clf;
plot(x,fx’,’-b’,x,f_opt,’o-r’,x,f_pess,’x-g’)//,f_opt,’o-r’)//,f_opt,’o-r’,f_pess,’x-g’);
//plot(f_opt,’o-r’);
//plot(f_pess,’x-g’);
xlabel(’notes sur 20’);
filename="/Users/ld/EPU/cours/StatistiquesAppliquees/cours/fig_va_cont_modes’;
xs2eps(0,filename);
unix(strcat([’epstopdf ’,filename,’.eps’]));
0.20
densites conditionnelles
densites conditionnelles
0.18
densite m ultim odale optim iste
densite m ultim odale pessim iste
0.16
0.14
0.12
0.10
0.08
0.06
0.04
0.02
0.00
0 2 4 6 8 10 12 14 16 18 20
notes sur 20
On notera que la médiane existe toujours pour une variable aléatoire continue, par contre, pour
une variable aléatoire discrète, cette valeur peut ne pas exister. Par exemple, dans le cas simple
d’une variable de Bernoulli de paramètre p 6= 12 cette grandeur n’existe de toute évidence pas.
Une extension simple, mais très souvent utilisée, de la médiane est le p−quantile.
On distingue en particulier
La médiane : pour p = 1/2, qui “divise” en deux le domaine de variation de la v.a.
Les quartiles : pour p = 1/4 (le premier quartile), p = 1/2 et p = 3/4 (le troisième quartile.
Les quartiles “divisent” le domaine de variation de la v.a. en quatre parties “égales” (c’est- L’uti-
à-dire dont la surface sous la densité de probabilité est divisée en quatre parties égales).
On a donc que la probabilité de se trouver entre deux quartiles successifs vaut 1/4.
Les déciles : pour p = k/10, k = 1, 2, . . . , 9. x0.1 est le premier décile, etc. On a donc que la
probabilité de se trouver entre deux déciles successifs vaut 1/10.
Les centiles : pour p = k/100, k = 1, 2, . . . , 99. L’utilité est plutôt pour les grands et petits
centiles, par exemple, a probabilité d’obtenir une valeur supérieur au 99me centile est de
1 pourcent.
lité principale des quantiles est d’obtenir un intervalle de valeurs à l’intérieur duquel on a une
probabilité p de se trouver. On parle alors d’intervalle de confiance.
P(a ≤ X ≤ b) = p.
P(X ≤ b) = p.
P(a ≤ X) = p.
Dans le cas d’un intervalle de confiance bilatéral, l’intervalle est choisi de telle manière que la
probabilité que la v.a. soit plus petite que a est la même que la probabilité que la v.a. soit plus
grande que b.
On a alors P(X < a) = P(X > b) = (1 − p)/2 = α/2, où on a posé α = 1 − p. α représente
alors la probabilité qu’on a de se tromper si on fait l’hypothèse que la réalisation x de la v.a. X
est dans l’intervalle [a, b], et on a que a = xα/2 et b = x1−α/2 .
De façon similaire, dans le cas unilatéral on a a = xα et b = x1−α .
La figure 3.17 illustre les intervalles de confiance à 90 pourcent pour une variable aléatoire
normale centrée réduite.
int. de conf. bilateral a 90 pourcent int. de conf. a droite a 90 pourcent int. de conf. a gauche a 90 pourcent
Figure 3.17 – Intervalles de confiance pour une v.a. de densité normale réduite
p(x)
x
E[X]
Dans le cas d’une fonction linéaire, cette propriété donne la propriété souvent appelée “linéarité
de l’espérance”.
Linéarité de l’espérance
Si Y = aX + b, alors, l’application directe de la linéarité de la somme et de l’intégrale donne
la propriété suivante :
= p(1 − p)
Binomiale
si X ∼ Bi(n, p), alors
Pn
E[X] = Pk=0 kpX (k)
n k k n−k
= k=0 = Cn p (1 − p) (3.9)
= np.
v.a. Géométrique
Soit une v.a. géométrique X ∼ Ge(p), son espérance vaut :
∞
X 1
E[X] = k(1 − p)k−1 .p = (3.11)
p
k=1
Sa variance vaut :
1−p
var[X] = (3.12)
p2
v.a. de Poisson
Soit une v.a. de Poisson X ∼ P o(λ), son espérance vaut :
P∞ −λ i
E[X] = i e i! λ
i=0P
∞ λi−1
= λe−λ i=1 (i−1)! (3.13)
= λ
1. Même raisonnement que pour l’espérance, avec en plus le fait que Xi est indépendant de Xj si i 6= j, et donc
que E[Xi Xj ] = 0
Le lecteur pourra aisément vérifier que les moyenne et variance de la loi normale sont données
par µ et σ 2 . Il est intéressant à ce stade, si on considère une variable centrée (µ = 0) de donner
une interprétation de la variance. Prenons par exemple
une variable aléatoire normale centrée :
X ∼ N (0, σ 2 ) et Y = X 2 , alors E[Y ] = E X 2 , où E X 2 est la moyenne du carré de la normale.
Cette moyenne peut être interprétée comme la puissance de la variable aléatoire, par analogie
avec la puissance électrique moyenne par exemple.
On obtient alors aisément ( ! ... en utilisant une
intégrale par parties) que var[X] = E X 2 = σ 2 .
v.a. Uniforme
On obtient aisément que si X ∼ U n(a, b), E[X] = (a + b)/2, et que variance vaut var[X] =
(b − a)2 /12.
v.a. Exponentielle
Si X ∼ exp(λ), alors
Z ∞ ∞
1 1
E[X] = xλe−λx dx = −xe−λx − e−λx = . (3.14)
0 λ 0 λ
v.a. Laplacienne
v.a. de Rayleigh
p
Si X est une v.a. de Rayleigh, alors E[X] = σ π/2 et var[X] = (2 − π/2)σ 2 .
Z ∞
2
var[X] = (x − E[X] )fX (x)dx
−∞ Z
R 2 2
= {x:|x−E[X]|>γ}
(x − E[X] )fX (x)dx + (x − E[X] )fX (x)dx ≥ 0
{x:|x−E[X]|≤γ}
R | {z }
2
≥ {x:|x−E[X]|>γ} (x − E[X] )fX (x)dx
R
≥ {x:|x−E[X]|>γ} γ 2 fX (x)dx car dans ce domaine, |x − E[X] | > γ
2
R
= γ {x:|x−E[X]|>γ} fX (x)dx
= γ 2 P(|X − E[X] | > γ) ,
(3.15)
on obtient l’inégality de Chebyshev 2 :
var[X]
P(|X − E[X] | > γ) ≤ (3.16)
γ2
σ2
Si γ = 3, on obtient P(|X − E[X] | > γ) ≤ 9 ' 0.11σ 2 .
2. Dans la version suivante du poly, vérifier par rapport aux cdfs de Cauchy, Laplace, ...
without first finding the PDF fY of Y . Still, in some cases, we may be interested
in an explicit formula for fY . Then, the following two-step approach can be
used.
√
Example 3.21. Let X be uniform on [0, 1]. Find the PDF of Y = X. Note
that Y takes values between 0 and 1. For every y ∈ [0, 1], we have
√
FY (y) = P(Y ≤ y) = P( X ≤ y) = P(X ≤ y 2 ) = y 2 , 0 ≤ y ≤ 1.
dFY d(y 2 )
fY (y) = (y) = = 2y, 0 ≤ y ≤ 1.
dy dy
Outside the range [0, 1], the CDF FY (y) is constant, with FY (y) = 0 for y ≤ 0, and
FY (y) = 1 for y ≥ 1. By differentiating, we see that fY (y) = 0 for y outside [0, 1].
Example 3.22. John Slow is driving from Boston to the New York area, a
distance of 180 miles. His average speed is uniformly distributed between 30 and
60 miles per hour. What is the PDF of the duration of the trip?
30 60 x 30 60 x
3 6 y 3 6 y
Figure 3.20: The calculation of the PDF of Y = 180/X in Example 3.22. The
arrows indicate the flow of the calculation.
An important case arises when Y is a linear function of X. See Fig. 3.21 for a
graphical interpretation.
Y = aX + b,
To verify this formula, we use the two-step procedure. We only show the
fX
faX faX+b
!2 !1 2 3 4 9
steps for the case where a > 0; the case a < 0 is similar. We have
FY (y) = P(Y ≤ y)
= P(aX + b ≤ y)
# $
y−b
=P X≤
a
# $
y−b
= FX .
a
We now differentiate this equality and use the chain rule, to obtain
# $ # $
dFY 1 dFX y − b 1 y−b
fY (y) = (y) = · = · fX .
dy a dx a a a
1 2 2
fX (x) = √ e−(x−µ) /2σ .
2π σ
Therefore, " #
1 y−b
fY (y) = fX
|a| a
1 1 2 2
= √ e−((y−b)/a)−µ) /2σ
|a| 2π σ
1 2 2 2
= √ e−(y−b−aµ) /2a σ .
2π |a|σ
The calculation and the formula for the linear case can be generalized to
the case where g is a monotonic function. Let X be a continuous random variable
and suppose that its range is contained in a certain interval I, in the sense that
fX (x) = 0 for x ∈/ I. We consider the random variable Y = g(X), and assume
that g is strictly monotonic over the interval I. That is, either
(a) g(x) < g(x! ) for all x, x! ∈ I satisfying x < x! (monotonically increasing
case), or
(b) g(x) > g(x! ) for all x, x! ∈ I satisfying x < x! (monotonically decreasing
case).
Furthermore, we assume that the function g is differentiable. Its derivative
will necessarily be nonnegative in the increasing case and nonpositive in the
decreasing case.
ln y
g(x) = eax , h(y) = ,
a
y x
g(x) = ax + b
y-b
h(y) =
a
b
Slope a Slope 1/a
0 x 0 b y
y x
h(y)
y = g(x) g(x)
0 x = h(y) x 0 y
Figure 3.22: A monotonically increasing function g (on the left) and its inverse
(on the right). Note that the graph of h has the same shape as the graph of g,
except that it is rotated by 90 degrees and then reflected (this is the same as
interchanging the x and y axes).
Assume that h has first derivative (dh/dy)(y). Then the PDF of Y in the
region where fY (y) > 0 is given by
# #
! " # dh #
fY (y) = fX h(y) ## (y)## .
dy
where the second equality can be justified using the monotonically increasing
property of g (see Fig. 3.23). By differentiating this relation, using also the
chain rule, we obtain
dFY ! " dh
fY (y) = (y) = fX h(y) (y).
dy dy
Let us fix some x and y that are related by g(x) = y, which is the same as
h(y) = x. Then,
dg dh
(x) · (y) = 1,
dx dy
which leads to ! "" dg "
"
fY (y) = fX (x) "" (x)"" .
dx
y= g(x)
y= g(x)
y
y
h(y ) x h(y ) x
Event { X < h(Y)} Event { X >h(Y)}
# $
Figure 3.23: Calculating the probability P g(X) ≤ y . When g is monotonically
increasing (left figure), the event {g(X) ≤ y} is the same as the event {X ≤ h(y)}.
When g is monotonically decreasing (right figure), the event {g(X) ≤ y} is the
same as the event {X ≥ h(y)}.
Thus, in the region of interest y ∈ [3, 6], the PDF formula yields
" "
# $ " dh " 1 180 6
fY (y) = fX h(y) "" (y)"" = · = 2,
dy 30 y 2 y
√
is h(y) = y. Thus, for any y ∈ (0, 1], we have
! !
! dh ! 1 √
! (y)! = √
! dy ! 2 y , fX ( y) = 1,
and "
1
√ if y ∈ (0, 1],
fY (y) = 2 y
0 otherwise.
The two-step procedure that first calculates the CDF and then differentiates to
obtain the PDF also applies to functions of more than one random variable.
Example 3.27. Two archers shoot at a target. The distance of each shot from
the center of the target is uniformly distributed from 0 to 1, independently of the
other shot. What is the PDF of the distance of the losing shot from the center?
Let X and Y be the distances from the center of the first and second shots,
respectively. Let also Z be the distance of the losing shot:
Z = max{X, Y }.
We know that X and Y are uniformly distributed over [0, 1], so that for all z ∈ [0, 1],
we have
P(X ≤ z) = P(Y ≤ z) = z.
Thus, using the independence of X and Y , we have for all z ∈ [0, 1],
# $
FZ (z) = P max{X, Y } ≤ z
= P(X ≤ z, Y ≤ z)
= P(X ≤ z)P(Y ≤ z)
= z2.
Differentiating, we obtain
%
2z if 0 ≤ z ≤ 1,
fZ (z) =
0 otherwise.
Example 3.28. Let X and Y be independent random variables that are uniformly
distributed on the interval [0, 1]. What is the PDF of the random variable Z =
Y /X?
dg
slope (x)
y dx
g(x)
[y, y+!2]
x
[x, x+!1]
δ2 dg
≈ (x),
δ1 dx
δ1 dh
≈ (y),
δ2 dy
= P(x ≤ X ≤ x + δ1 )
≈ fX (x)δ1 .
We move δ1 to the left-hand side and use our earlier formula for the ratio δ2 /δ1 ,
to obtain
dg
fY (y) (x) = fX (x).
dx
Alternatively, if we move δ2 to the right-hand side and use the formula for δ1 /δ2 ,
we obtain
! " dh
fY (y) = fX h(y) · (y).
dy
We will find the PDF of Z by first finding its CDF and then differentiating.
We consider separately the cases 0 ≤ z ≤ 1 and z > 1. As shown in Fig. 3.25, we
have
%
# $ z/2 if 0 ≤ z ≤ 1,
Y
FZ (z) = P ≤z = 1 − 1/(2z) if z > 1,
X
0 otherwise.
By differentiating, we obtain
!
1/2 if 0 ≤ z ≤ 1,
fZ (z) = 1/(2z 2 ) if z > 1,
0 otherwise.
1
y y
z
1 1
Slope z
Slope z
z
0 1 x 0 1 x
Example 3.29. Romeo and Juliet have a date at a given time, and each, inde-
pendently, will be late by an amount of time that is exponentially distributed with
parameter λ. What is the PDF of the difference between their times of arrival?
Let us denote by X and Y the amounts by which Romeo and Juliet are late,
respectively. We want to find the PDF of Z = X − Y , assuming that X and Y are
independent and exponentially distributed with parameter λ. We will first calculate
the CDF FZ (z) by considering separately the cases z ≥ 0 and z < 0 (see Fig. 3.26).
For z ≥ 0, we have (see the left side of Fig. 3.26)
FZ (z) = P(X − Y ≤ z)
= 1 − P(X − Y > z)
" ∞ #" ∞ $
=1− fX,Y (x, y) dx dy
0 z+y
" ∞ #" ∞ $
=1− λe−λy λe−λx dx dy
0 z+y
" ∞
=1− λe−λy e−λ(z+y) dy
0
" ∞
= 1 − e−λz λe−2λy dy
0
1 −λz
=1− e .
2
y Line x - y = z y Line x - y = z
0 z x z 0 x
For the case z < 0, we can use a similar calculation, but we can also argue
using symmetry. Indeed, the symmetry of the situation implies that the random
variables Z = X − Y and −Z = Y − X have the same distribution. We have
Continuous random variables are characterized by PDFs and arise in many ap-
plications. PDFs are used to calculate event probabilities. This is similar to
the use of PMFs for the discrete case, except that now we need to integrate
instead of adding. Joint PDFs are similar to joint PMFs and are used to de-
termine the probability of events that are defined in terms of multiple random
variables. Finally, conditional PDFs are similar to conditional PMFs and are
used to calculate conditional probabilities, given the value of the conditioning
random variable.
We have also introduced a few important continuous probability laws and
derived their mean and variance. A summary is provided in the table that
follows.
a+b (b − a)2
E[X] = , var(X) = .
2 12
Exponential with Parameter λ:
" "
λe−λx if x ≥ 0, 1 − e−λx if x ≥ 0,
fX (x) = FX (x) =
0 otherwise, 0 otherwise,
1 1
E[X] = , var(X) = .
λ λ2
1 1 3 1 1
fY (y) = · + · = , for 0 ≤ y ≤ 5,
4 5 4 15 10
and
1 3 1 1
fY (y) = ·0+ · = , for 5 < y ≤ 15.
4 4 15 20
We will now extend the notion of a PDF to the case of multiple random vari-
ables. In complete analogy with discrete random variables, we introduce joint,
marginal, and conditional PDFs. Their intuitive interpretation as well as their
main properties parallel the discrete case.
We say that two continuous random variables associated with a common
experiment are jointly continuous and can be described in terms of a joint
PDF fX,Y , if fX,Y is a nonnegative function that satisfies
# #
! "
P (X, Y ) ∈ B = fX,Y (x, y) dx dy,
(x,y)∈B
for every subset B of the two-dimensional plane. The notation above means
that the integration is carried over the set B. In the particular case where B is
a rectangle of the form B = [a, b] × [c, d], we have
# d # b
P(a ≤ X ≤ b, c ≤ Y ≤ d) = fX,Y (x, y) dx dy.
c a
To interpret the PDF, we let δ be very small and consider the probability
of a small rectangle. We have
! c+δ ! a+δ
P(a ≤ X ≤ a + δ, c ≤ Y ≤ c + δ) = fX,Y (x, y) dx dy ≈ fX,Y (a, c) · δ 2 ,
c a
so we can view fX,Y (a, c) as the “probability per unit area” in the vicinity of
(a, c).
The joint PDF contains all conceivable probabilistic information on the
random variables X and Y , as well as their dependencies. It allows us to calculate
the probability of any event that can be defined in terms of these two random
variables. As a special case, it can be used to calculate the probability of an
event involving only one of them. For example, let A be a subset of the real line
and consider the event {X ∈ A}. We have
! ! ∞
" #
P(X ∈ A) = P X ∈ A and Y ∈ (−∞, ∞) = fX,Y (x, y) dy dx.
A −∞
Similarly, ! ∞
fY (y) = fX,Y (x, y) dx.
−∞
we must have
c = 1.
For any set A ⊂ S, the probability that the experimental value of (X, Y ) lies in A
is
$ $ $ $
" # 1 area of A ∩ S
P (X, Y ) ∈ A = fX,Y (x, y) dx dy = dx dy = .
area of S area of S
(x,y)∈A (x,y)∈A∩S
Example 3.14. We are told that the joint PDF of the random variables X and Y
is a constant c on the set S shown in Fig. 3.16 and is zero outside. Find the value
of c and the marginal PDFs of X and Y .
The area of the set S is equal to 4 and, therefore, fX,Y (x, y) = c = 1/4, for
(x, y) ∈ S. To find the marginal PDF fX (x) for some particular x, we integrate
(with respect to y) the joint PDF over the vertical line corresponding to that x.
The resulting PDF is shown in the figure. We can compute fY similarly.
y y
4
3
S
2
1/2
1
1/4
1 2 3
fY(y)
x
3/4
fX(x) 1/4
Figure 3.16: The joint PDF in Example 3.14 and the resulting marginal
PDFs.
We assume here that l < d so that the needle cannot intersect two lines
simultaneously. Let X be the distance from the midpoint of the needle to the
nearest of the parallel lines, and let Θ be the acute angle formed by the axis of the
needle and the parallel lines (see Fig. 3.17). We model the pair of random variables
(X, Θ) with a uniform joint PDF over the rectangle [0, d/2] × [0, π/2], so that
!
fX,Θ (x, θ) =4/(πd) if x ∈ [0, d/2] and θ ∈ [0, π/2],
0 otherwise.
As can be seen from Fig. 3.17, the needle will intersect one of the lines if and
only if
l
X ≤ sin Θ,
2
so the probability of intersection is
$ $
" #
P X ≤ (l/2) sin Θ = fX,Θ (x, θ) dx dθ
x≤(l/2) sin θ
$ π/2 $ (l/2) sin θ
4
= dx dθ
πd 0 0
$ π/2
4 l
= sin θ dθ
πd 0
2
%
2l %π/2
=(− cos θ)%
πd 0
2l
= .
πd
The probability of intersection can be empirically estimated, by repeating the ex-
periment a large number of times. Since it is equal to 2l/πd, this provides us with
a method for the experimental evaluation of π.
Expectation
If X and Y are jointly continuous random variables, and g is some function, then
Z = g(X, Y ) is also a random variable. We will see in Section 3.6 methods for
computing the PDF of Z, if it has one. For now, let us note that the expected
value rule is still applicable and
# ∞# ∞
! "
E g(X, Y ) = g(x, y)fX,Y (x, y) dx dy.
−∞ −∞
Let X and Y be continuous random variables with joint PDF fX,Y . For any
fixed y with fY (y) > 0, the conditional PDF of X given that Y = y, is defined
by
fX,Y (x, y)
fX|Y (x | y) = .
fY (y)
This definition is analogous to the formula pX|Y = pX,Y /pY for the discrete case.
When thinking about the conditional PDF, it is best to view y as a fixed
number and consider fX|Y (x | y) as a function of the single variable x. As a
function of x, the conditional PDF fX|Y (x | y) has the same shape as the joint
PDF fX,Y (x, y), because the normalizing factor fY (y) does not depend on x; see
Fig. 3.18. Note that the normalization ensures that
# ∞
fX|Y (x | y) dx = 1,
−∞
y
4 1 fX|Y(x|3.5)
3 fX|Y(x|2.5) x
1/2
S
2 1 fX|Y(x|1.5) x
1 1 2 3 x
1 2 3
x
Figure 3.18: Visualization of the conditional PDF fX|Y (x | y). Let X, Y have a
joint PDF which is uniform on the set S. For each fixed y, we consider the joint
PDF along the slice Y = y and normalize it so that it integrates to 1.
To calculate the conditional PDF fX|Y (x | y), let us first calculate the marginal
PDF fY (y). For |y| > r, it is zero. For |y| ≤ r, it can be calculated as follows:
# ∞
fY (y) = fX,Y (x, y) dx
−∞
#
1
= dx
πr2 x2 +y 2 ≤r 2
# √r2 −y2
1
= √ dx
πr2 − r 2 −y 2
2 $ 2
= r − y2 .
πr2
To interpret the conditional PDF, let us fix some small positive numbers
δ1 and δ2 , and condition on the event B = {y ≤ Y ≤ y + δ2 }. We have
P(x ≤ X ≤ x + δ1 and y ≤ Y ≤ y + δ2 )
P(x ≤ X ≤ x + δ1 | y ≤ Y ≤ y + δ2 ) =
P(y ≤ Y ≤ y + δ2 )
fX,Y (x, y)δ1 δ2
≈ = fX|Y (x | y)δ1 .
fY (y)δ2
In words, fX|Y (x | y)δ1 provides us with the probability that X belongs in a
small interval [x, x + δ1 ], given that Y belongs in a small interval [y, y + δ2 ].
Since fX|Y (x | y)δ1 does not depend on δ2 , we can think of the limiting case
where δ2 decreases to zero and write
P(x ≤ X ≤ x + δ1 | Y = y) ≈ fX|Y (x | y)δ1 , (δ1 small),
and, more generally,
"
P(X ∈ A | Y = y) = fX|Y (x | y) dx.
A
Conditional probabilities, given the zero probability event {Y = y}, were left
undefined in Chapter 1. But the above formula provides a natural way of defining
such conditional probabilities in the present context. In addition, it allows us to
view the conditional PDF fX|Y (x | y) (as a function of x) as a description of the
probability law of X, given that the event {Y = y} has occurred.
As in the discrete case, the conditional PDF fX|Y , together with the
marginal PDF fY are sometimes used to calculate the joint PDF. Furthermore,
this approach can be also used for modeling: instead of directly specifying fX,Y ,
it is often natural to provide a probability law for Y , in terms of a PDF fY , and
then provide a conditional probability law fX|Y (x, y) for X, given any possible
value y of Y .
1 2 /2(x+1)
fY |X (y | x) = ! e−y .
2π(x + 1)
Thus,
1 2 /2(x+1)
fX,Y (x, y) = fX (x)fY |X (y | x) = e−x ! e−y ,
2π(x + 1)
" ∞
E[X | Y = y] = xfX|Y (x | y) dx.
−∞
" ∞
E[g(X) | Y = y] = g(x)fX|Y (x | y) dx
−∞
remains valid.
The conditional PDF fX|Y (x | y) is defined only for those y for which
fY (y) > 0.
# #
! "
P (X, Y ) ∈ B = fX,Y (x, y) dx dy,
(x,y)∈B
#
P(X ∈ A) = fX (x) dx,
#A
P(X ∈ A | Y = y) = fX|Y (x | y) dx.
A
# # &# '
E[X | Y = y]fY (y) dy = xfX|Y (x | y) dx fY (y) dy
# #
= xfX|Y (x | y)fY (y) dx dy
# #
= xfX,Y (x, y) dx dy
= E[X].
fX (x)fY |X (y | x) fX (x)fY |X (y | x)
fX|Y (x | y) = =! ,
fY (y)
fX (t)fY |X (y | t)dt
2xe−xy 1
fX|Y (x | y) = $ 1/2 , for 0 ≤ x ≤ .
2te−ty dt 2
0
Example 3.19. Let us revisit the signal detection problem considered in 3.9. A
signal S is transmitted and we are given that P(S = 1) = p and P(S = −1) = 1−p.
The received signal is Y = N +S, where N is zero mean normal noise, with variance
σ 2 , independent of S. What is the probability that S = 1, as a function of the
observed value y of Y ?
Conditioned on S = s, the random variable Y has a normal distribution with
mean s and variance σ 2 . Applying the formula developed above, we obtain
2 2
pS (1)fY |S (y | 1) √p
2π σ
e−(y−1) /2σ
P(S = 1 | Y = y) = = .
fY (y) √p
2π σ
e−(y−1)2 /2σ2 + √1−p
2π σ
e−(y+1)2 /2σ2
Independence
In full analogy with the discrete case, we say that two continuous random vari-
ables X and Y are independent if their joint PDF is the product of the marginal
PDFs:
Comparing with the formula fX,Y (x, y) = fX|Y (x | y)fY (y), we see that inde-
pendence is the same as the condition
or, symmetrically,
If X and Y are independent, then any two events of the form {X ∈ A} and
{Y ∈ B} are independent. Indeed,
! !
P(X ∈ A and Y ∈ B) = fX,Y (x, y) dy dx
x∈A y∈B
! !
= fX (x)fY (y) dy dx
x∈A y∈B
! !
= fX (x) dx fY (y) dy
x∈A y∈B
= P(X ∈ A)P(Y ∈ B).
for any two functions g and h. Finally, the variance of the sum of independent
random variables is again equal to the sum of the variances.
• We have
var(X + Y ) = var(X) + var(Y ).
Joint CDFs
If X and Y are two random variables associated with the same experiment, we
define their joint CDF by
As in the case of one random variable, the advantage of working with the CDF
is that it applies equally well to discrete and continuous random variables. In
particular, if X and Y are described by a joint PDF fX,Y , then
# x # y
FX,Y (x, y) = P(X ≤ x, Y ≤ y) = fX,Y (s, t) ds dt.
−∞ −∞
Example 3.20. Let X and Y be described by a uniform PDF on the unit square.
The joint CDF is given by
Y1 = g1 (X1 , . . . , Xn )
..
.
Yn = gn (X1 , . . . , Xn )
Pour des fonctions gi continues et différentiables (et à condition que le jacobien défini ci-dessous
soit non nul), on peut faire le même raisonnement que ci-dessous. Donc, dans un tronçon, on a :
∂(x1 , . . . , xn )
P(Y ) y1 , . . . , yn = P(X) x1 , . . . , xn ,
∂(y1 , . . . , yn )
on notera que dans ce cas-ci, il est plus compliqué d’écrire l’expression en fonction de gi−1 , mais
on aurait plutôt des fonctions de type Xi = fi (Y1 , . . . , Yn ).
Dans le processus de fabrication de circuits intégrés, une des parties cruciales est la précision
de la lithographie. On peut quantifier cette précision comme étant la déviation en coordonnées
horizontales et verticales (x et y) par rapport à l’endroit à graver.
Dans le cas de technologies “70 nm”, on peut considérer que les déviations en x et y sont
des variables aléatoires indépendantes qui suivent des lois gaussiennes de moyenne nulle et de
variance σ 2 = 0.2nm2 . La densité de probabilité conjointe des déviations (X, Y) est donnée
par :
1 −(x2 +y2 )/2σ2
PXY (x, y) = PX (x)PY (y) = e
2πσ 2
Z ∞
r 2 2
= e−r /2σ dr
r=0 2πσ 2
1
=
2π
L’angle est donc uniformément distribué sur [0, 2π]. D’autre part, on en déduit que
r −r2 /2σ2
PR (r) = e
σ2
On en déduit également que les variables aléatoires R et Θ sont indépendantes (la loi conjointe
est donnée par le produit des lois marginales). La densité de probabilité suivie par la distance
R est celle d’une variable dite de Rayleigh.
C
1 1 esb − esa
fX (x) = , a ≤ x ≤ b. MX (s) = .
b−a b−a s
Exponential(λ)
λ
fX (x) = λe−λx , x ≥ 0. MX (s) = , (s > λ).
λ−s
Normal(µ, σ 2 )
1 2 2 σ 2 s2 +µs
fX (x) = √ e−(x−µ) /2σ , −∞ < x < ∞. MX (s) = e 2 .
σ 2π
. y
. (0,3)
. (1,2)
.(2,1)
.(3,0)
. x
Figure 4.2: The probability pW (3) that X +Y = 3 is the sum of the probabilities
of all pairs (x, y) such that x + y = 3, which are the points indicated in the
figure. The probability of a generic such point is of the form pX,Y (x, 3 − x) =
pX (x)pY (3 − x).
The resulting PMF pW (w) is called the convolution of the PMFs of X and Y .
See Fig. 4.2 for an illustration.
where the second equality above is based on the fact that for x != 1 either pX (x) or
pY (1 − x) (or both) is zero. Similarly, we obtain
1 1 1 1 5
pW (2) = pX (1) · pY (1) + pX (2) · pY (0) = · + · = ,
3 3 3 2 18
1 1 1 1 1 1 1
pW (3) = pX (1) · pY (2) + pX (2) · pY (1) + pX (3) · pY (0) = · + · + · = ,
3 6 3 3 3 2 3
1 1 1 1 1
pW (4) = pX (2) · pY (2) + pX (3) · pY (1) = · + · = ,
3 6 3 3 6
1 1 1
pW (5) = pX (3) · pY (2) = · = .
3 6 18
Let X and Y be independent continuous random variables with PDFs fX (x) and
fY (y). We wish to find the PDF of W = X + Y . Since W is a function of two
random variables X and Y , we can follow the method of Chapter 3, and start
by deriving the CDF FW (w) of W . We have
FW (w) = P(W ≤ w)
= P(X + Y ≤ w)
! ∞ ! w−x
= fX (x)fY (y) dy dx
x=−∞ y=−∞
! ∞ "! w−x #
= fX (x) fY (y) dy dx
x=−∞ y=−∞
! ∞
= fX (x)FY (w − x) dx.
x=−∞
dFW
fW (w) = (w)
dw!
∞
d
= fX (x)FY (w − x) dx
dw x=−∞
! ∞
dFY
= fX (x) (w − x) dx
x=−∞ dw
! ∞
= fX (x)fY (w − x) dx.
x=−∞
This formula is entirely analogous to the formula for the discrete case, except
that the summation is replaced by an integral and the PMFs are replaced by
PDFs. For an intuitive understanding of this formula, see Fig. 4.3.
Example 4.14. The random variables X and Y are independent and uniformly
distributed in the interval [0, 1]. The PDF of W = X + Y is
! ∞
fW (w) = fX (x)fY (w − x) dx.
−∞
w!"!!
w
x!"!y!#!w!"!!
w x
x!"!y!#!w
Figure 4.3: Illustration of the convolution formula for the case of continuous
random variables (compare with Fig. 4.2). For small δ, the probability of the
strip indicated in the figure is P(w ≤ X + Y ≤ w + δ) ≈ fW (w) · δ. Thus,
fW (w) · δ =P(w ≤ X + Y ≤ w + δ)
! ∞ ! w−x+δ
= fX (x)fY (y) dy dx
x=−∞ y=w−x
! ∞
≈ fX (x)fY (w − x)δ dx.
x=−∞
fW(w)
2 w
Figure 4.4: The PDF of the sum of two independent uniform random variables
in [0, 1].
The calculation in the last example was based on a literal application of the
convolution formula. The most delicate step was to determine the correct limits
for the integration. This is often tedious and error prone, but can be bypassed
using a graphical method described next.
we obtain some useful formulas (the law of iterated expectations and the
law of conditional variances) that are often convenient for the calculation of
expected values and variances.
Recall that the conditional expectation E[X | Y = y] is defined by
!
E[X | Y = y] = xpX|Y (x | y), (discrete case),
x
and " ∞
E[X | Y = y] = xfX|Y (x | y) dx, (continuous case).
−∞
Example 4.15. Let the random variables X and Y have a joint PDF which
is equal to 2 for (x, y) belonging to the triangle indicated in Fig. 4.6(a), and zero
everywhere else. In order to compute E[X | Y = y], we first need to obtain the
conditional density of X given Y = y.
fX#Y(x #y )
y
1 1
fX,Y(x ,y)!"!2
1!!!y
1!!!y 1 x 1!!!y 1 x
(a) (b)
Figure 4.6: (a) The joint PDF in Example 4.15. (b) The conditional density
of X.
We have
" ∞ " 1−y
fY (y) = fX,Y (x, y) dx = 2 dx = 2(1 − y), 0 ≤ y ≤ 1,
−∞ 0
and
fX,Y (x, y) 1
fX|Y (x | y) = = , 0 ≤ x ≤ 1 − y.
fY (y) 1−y
The conditional density is shown in Fig. 4.6(b).
Intuitively, since the joint PDF is constant, the conditional PDF (which is a
“slice” of the joint, at some fixed y) is also a constant. Therefore, the conditional
PDF must be a uniform distribution. Given that Y = y, X ranges from 0 to 1 − y.
Therefore, for the PDF to integrate to 1, its height must be equal to 1/(1 − y), in
agreement with Fig. 4.6(b).
For y > 1 or y < 0, the conditional PDF is undefined, since these values of
y are impossible. For y = 1, X must be equal to 0, with certainty, and E[X | Y =
1] = 0.
For 0 ≤ y < 1, the conditional mean E[X | Y = y] is the expectation of the
uniform PDF in Fig. 4.6(b), and we have
1−y
E[X | Y = y] = , 0 ≤ y < 1.
2
Since E[X | Y = 1] = 0, the above formula is also valid when y = 1. The conditional
expectation is undefined when y is outside [0, 1].
1−Y
E[X | Y ] = .
2
! "
Since E[X | Y ] is a random variable, it has an expectation E E[X | Y ] of
its own. Applying the expected value rule, this is given by
'
E[X | Y = y]pY (y), Y discrete,
! " y
E E[X | Y ] = ( ∞
E[X | Y = y]fY (y) dy, Y continuous.
−∞
Both expressions in the right-hand side should be familiar from Chapters 2 and
3, respectively. By the corresponding versions of the total expectation theorem,
they are equal to E[X]. This brings us to the following conclusion, which is
actually valid for every type of random variable Y (discrete, continuous, mixed,
etc.), as long as X has a well-defined and finite expectation E[X].
! "
Law of iterated expectations: E E[X | Y ] = E[X].
1'
n
m= xi .
n
i=1
The class consists of S sections, with ns students in section s. The average score
in section s is '
1
ms = xi .
ns
stdnts. i in sec. s
The average score over the whole class can be computed by taking the average score
ms of each section, and then forming a weighted average; the weight given to section
s is proportional to the number of students in that section, and is ns /n. We verify
that this gives the correct result:
'
S
ns '
S
ns 1 '
ms = · xi
n n ns
s=1 s=1 stdnts. i in sec. s
1' '
S
= xi
n
s=1 stdnts. i in sec. s
1'
n
= xi .
n
i=1
= m.
We then have
E[X] = m.
Conditioning on Y = s is the same as assuming that the selected student is
in section s. Conditional on that event, every student in that section has the same
probability 1/ns of being chosen. Therefore,
1 !
E[X | Y = s] = xi = ms .
ns
stdnts. i in sec. s
A randomly selected student belongs to section s with probability ns /n, i.e., P(Y =
s) = ns /n. Hence,
" # !
S
!
S
ns
E E[X | Y ] = E[X | Y = s]P(Y = s) = ms .
n
s=1 s=1
As shown earlier, this is the same as m. Thus, averaging by section can be viewed
as a special case of the law of iterated expectations.
This means that, in the beginning of the year, we do not expect our forecast to
be revised in any specific direction. Of course, the actual revision will usually be
positive or negative, but the probabilities are such that it is zero on the average.
This is quite intuitive. For example, if a positive revision was expected, the original
forecast should have been higher in the first place.
Thus if X and Y are independent, they are also uncorrelated. However, the
reverse is not true, as illustrated by the following example.
Example 4.24. The pair of random variables (X, Y ) takes the values (1, 0), (0, 1),
(−1, 0), and (0, −1), each with probability 1/4 (see Fig. 4.9). Thus, the marginal
PMFs of X and Y are symmetric around 0, and E[X] = E[Y ] = 0. Furthermore,
for all possible value pairs (x, y), either x or y is equal to 0, which implies that
XY = 0 and E[XY ] = 0. Therefore,
!" #" #$
cov(X, Y ) = E X − E[X] Y − E[Y ] = E[XY ] = 0,
y y
x x
(a) (b)
(0,1)
Figure 4.9: Joint PMF of X and Y
for Example 4.21. Each of the four
points shown has probability 1/4. Here
X and Y are uncorrelated but not in-
(-1,0) (1,0) x dependent.
(0,-1)
and X and Y are uncorrelated. However, X and Y are not independent since, for
example, a nonzero value of X fixes the value of Y to zero.
(see the end-of-chapter problems). The following example illustrates in part this
property.
The covariance can be used to obtain a formula for the variance of the
sum of several (not necessarily independent) random variables. In particular, if
X1 , X2 , . . . , Xn are random variables with finite variance, we have
& n ( n n
' ' '
var Xi = var(Xi ) + 2 cov(Xi , Xj ).
i=1 i=1 i,j=1
i<j
This can be seen from the following calculation, where for brevity, we denote
X̃i = Xi − E[Xi ]:
& n ( & (2
' 'n
var Xi = E X̃i
i=1 i=1
'n '
n
= E X̃i X̃j
i=1 j=1
n '
' n
= E[X̃i X̃j ]
i=1 j=1
' n
'
2
= E[X̃i ] + 2 E[X̃i X̃j ]
i=1 i,j=1
i<j
n
' n
'
= var(Xi ) + 2 cov(Xi , Xj ).
i=1 i,j=1
i<j
Example 4.26. Consider the hat problem discussed in Section 2.5, where n
people throw their hats in a box and then pick a hat at random. Let us find the
variance of X, the number of people that pick their own hat. We have
X = X1 + · · · + Xn ,
where Xi is the random variable that takes the value 1 if the ith person selects
his/her own hat, and takes the value 0 otherwise. Noting that Xi is Bernoulli with
parameter p = P(Xi = 1) = 1/n, we obtain
! "
1 1
var(Xi ) = 1− .
n n
Therefore ' n )
(
var(X) = var Xi
i=1
(
n (
n
= var(Xi ) + 2 cov(Xi , Xj )
i=1 i,j=1
i<j
! " n(n − 1)
1 1 1
=n 1− +2
n n 2 n2 (n − 1)
= 1.
where we used the fact E[X − m] = 0. The first term in the right-hand side
is the variance of X and is unaffected by our choice of c. Therefore, we should
choose c in a way that minimizes the second term, which leads to c = m = E[X]
(see Fig. 4.10).
Expected Squared
Estimation Error
E [(X- c)2]
var(X)
E[X] c
!
Figure 4.10: The mean squared error E (X − c)2 ], as a function of the estimate
c, is a quadratic in c and is minimized when c = E[X]. The minimum value of
the mean squared error is var(X).
Example 4.27. Let X be uniformly distributed in the interval [4, 10] and suppose
that we observe X with some random error W , that is, we observe the experimental
value of the random variable
Y = X + W.
We assume that W is uniformly distributed in the interval [−1, 1], and independent
of X. What is the least squares estimate of X given the experimental value of Y ?
We have fX (x) = 1/6 for 4 ≤ x ≤ 10, and fX (x) = 0, elsewhere. Conditioned
on X being equal to some x, Y is the same as x + W , and is uniform over the
interval [x − 1, x + 1]. Thus, the joint PDF is given by
1 1 1
fX,Y (x, y) = fX (x)fY |X (y | x) = · = ,
6 2 12
x
Y=X+W 10
where W is a measurement
error that is uniformly
distributed in the interval [-1,1]
fX(x )
9 11
4 10 x 3 5
y
Figure 4.11: The PDFs in Example 4.27. The least squares estimate of X given
the experimental value y of the random variable Y = X + W depends on y and
is represented by the piecewise linear function shown in the figure on the right.
!" #2 $
E X − g(Y ) .
Out of all estimators, it turns out that the mean squared estimation error
is minimized when g(Y ) = E[X | Y ]. To see this, note that if c is any number,
we have
!" #2 $ !" #2 % $
E X − E[X | Y = y] | Y = y ≤ E X − g(y) % Y = y .
!" #2 % $ ! #2 % $
E X − E[X | Y ] % Y ≤ E (X − g(Y ) % Y ,
y E[X |Y = y ]
LEAST SQUARES
ESTIMATOR
! "
• E (X − c)2 | Y = y is minimized when c = E[X | Y = y]:
#$ %2 ' & ! "
E X − E[X | Y = y] ' Y = y ≤ E (X − c)2 | Y = y , for all c.
X̂ = E[X | Y ], X̃ = X − X̂,
for the (optimal) estimator and the associated estimation error, respectively.
Note that both X̂ and X̃ are random variables, and by the law of iterated
expectations,
! "
E[X̃] = E X − E[X | Y ] = E[X] − E[X] = 0.
We have used here the fact that X̂ is completely determined by Y and therefore
E[X̂ | Y ] = X̂. For similar reasons,
!$ % " $ %
E X̂ − E[X] X̃ | Y = X̂ − E[X] E[X̃ | Y ] = 0.
(The last equality holds because E[X̂] = E[X] and E[X̃] = 0.) In summary, we
have established the following important formula, which is just another version
of the law of conditional variances introduced in Section 4.3.
Example 4.28. Let us say that the observed random variable Y is uninformative if
the mean squared estimation error E[X̃ 2 ] = var(X̃) is the same as the unconditional
variance var(X) of X. When is this the case?
Using the formula
So far, we have discussed the case where we estimate one random variable X
on the basis of another random variable Y . In practice, one often has access
to the experimental values of several random variables Y1 , . . . , Yn , that can be
used to estimate X. Generalizing our earlier discussion, and using essentially
the same argument, the mean squared estimation error is minimized if we use
E[X | Y1 , . . . , Yn ] as our estimator. That is,
!" #2 $ !" #2 $
E X − E[X | Y1 , . . . , Yn ] ≤ E X − g(Y1 , . . . , Yn ) ,
cov(X, Y ) ρσX σY σX
a= = =ρ ,
σY2 σY2 σY
where
cov(X, Y )
ρ=
σX σY
is the correlation coefficient. With this choice of a, the mean squared estimation
error is given by
2
σX
2 + a2 σ 2 − 2a · cov(X, Y ) =σ 2 + ρ2 σX
σX Y X σ 2 − 2ρ ρσX σY
σY2 Y σy
2 .
=(1 − ρ2 )σX
cov(X, Y ) # $
E[X] + Y − E[Y ] .
σY2
(1 − ρ2 )var(X).
3.14We sayExercices
that two random variables X and Y have a bivariate normal distribution
if there are two independent normal random variables U and V and some scalars
a, b, c,3.1
Exercice d, such that
Jeu d’échecs
X = aU + bV, Y = cU + dV.
Fischer et Spassky jouent un match d’échecs où le premier qui gagne une partie gagne le match.
Après dix parties nulles, le match est déclaré nul. La probabilité qu’une partie soit gagnée
par Fischer est égale à 0.4 et la probabilité qu’elle soit gagnée par Spassky est égale à 0.3,
indépendamment du résultat des parties précédentes.
1. Quelle est la probabilité que Fischer gagne le match ?
2. Quelle est la fonction de probabilité pN (n) du nombre des parties (durée du match) ?
Un fournisseur d’accès internet utilise 50 modems pour servir 1000 clients. On estime qu’à
chaque instant, chaque client voudra utiliser une connexion avec une probabilité de 1%, indé-
pendemment des autres clients.
– Quelle est la masse de probabilité du nombre de modems utilisés à un temps donné ?
– Répondre à la question précédente en approximant la masse de probabilité du nombre de
clients par une loi de Poisson.
– Quelle est la probabilité qu’il y ai plus de clients demandant une connection que de modems ?
Donnez une solution exacte et approchée sur base de l’approximation de Poisson.
Un mathématicien fumeur a une boite d’allumettes dans sa poche droite et une autre boite
dans sa poche gauche. Chaque fois qu’il veut allumer une cigarette, il choisit une boite d’une
de ses poches avec probabilité p = 1/2, indépendemment des choix précédents. Les deux boites
contiennent, au départ, n allumettes.
Quelle est la masse de probabilité du nombre d’allumettes restantes au moment ou le mathé-
maticien cherche une allumette, mais discouvre que la boite qu’il a choisie est vide ? Comment
peut-on généraliser au cas où les probabilités de choisir la poche gauche vaut p 6= 1/2.
Un magasin d’électronique vend des sachets de 20 résistances ayant, pour la plupart, une pré-
cision de 1 %. Cependant, quelques résistances ont une précision de 5 %. On admet que la
probabilité qu’une résistance ait une précision de 1% est de 95 %. Pour améliorer ses ventes,
le revendeur envisage d’utiliser le slogan “chaque sachet contient au moins a résistances offrant
une précision de 1%”, a étant la valeur qu’il voudrait fixer pour qu’au maximum 1 % des clients
ayant acheté un sachet vienne se faire rembourser. Quelle doit être la valeur de a.
On estime que le nombre de clients voulant se connecter sur un hotspot WiFi suit une loi de
Poisson de paramètre µ = 1.3. L’opérateur du hotspot garantit un débit au client annoncé
comme étant le débit total divisé par le nombre de clients simultanés. On demande de donner
un intervalle de confiance au niveau p = 0.99 quant au nombre de clients connectés (et donc
également quant au débit annoncé par l’opérateur).
Le revenu moyen des ménages en 2007 était de 17.243 Euros en région PACA, de 15.157 Euros en
région Nord-Pas-de-Calais et de 18.835 Euros en Alsace. Quel est le revenu moyen sur l’ensemble
de ces trois régions, en supposant que 25 % de la population habite l’Alsace et que 45 % habite
la région PACA (et donc 30 % la région Nord-Pas-de-Calais).
Un prix est placé aléatoirement dans une boite parmi 10 (les boites sont numérotées de 1 à 10).
On cherche à trouver le prix en posant des questions binaires (le prix est-il dans la boite x ?).
Donnez l’espérance mathématique du nombre de questions à poser sous l’hypothèse des deux
stratégies suivantes :
1. La stratégie d’énumération : “Le prix est-il dans la boite k ?”
2. La stratégie dichotomique : vous éliminez à chaque fois la moitié des boites restantes avec
une question du type : “le prix est-il dans une boite de numéro inférieur ou égal à k ?”
pλe−λx
si x ≥ 0
fX (x) = ,
(1 − p)λeλx six < 0
Calculer :
1. les valeurs de a et de E[X],
2. la fonction de probabilité pZ (z) de la v.a. Z = (X − E[X])2 ,
2
3. la variance σX à partir de pZ (z),
2
4. la variance σX à partir de pX (x).
a/x3
si 1500 ≤ X ≤ 2500
fX (x) =
0 sinon
La fonction 6 − x − y est positive sur le rectangle défini par 0 < x < 2, 2 < y < 5.
1. Calculer k tel que k(6 − x − y) soit une densité de probabilité pour (x, y)
2. Calculer P(X < 1, Y < 3) , P(X + Y < 3) et P(X < 1|Y < 3).
3. Trouvez la densité de probabilité marginale de X.
4. Trouvez la densité conditionnelle fX|Y (x|y).
Soit trois variables aléatoires indépendantes X ∼ N (2, 1), Y ∼ N (3, 2) et Z ∼ N (4, 3), calculez :
– P(1 < X < 3)
– P(X ≤ Y )
– P(3X − 2Y > 1)
– P(X + Y ≤ 2Z − 4)
– P(X ≤ Y etZ < 5)
– Déterminez la valeur de c.
– Soit l’événement A = {X > 1.5}, calculez P(A) et la densité conditionnelle de X sachant A.
– Soit Y = X 2 . Calculez l’espérance conditionnelle et la variance conditionnelle de Y sachant
A.
Soit un ensemble de droites horizontales, distantes l’une de l’autre d’une distance d, tracées sur
un plan horizontal (une table). On laisse tomber une aiguille de longueur l < d sur cette table.
On demande la probabilité que cette aiguille intersecte une des droites.
Un joueur de fléchettes tire sur une cible qui est un disque de rayon r, avec une densité de
probabilité uniforme (il ne rate jamais la cible ...) et la probabilité d’un point d’impact (x, y)
est la même partout.
1. Exprimez la densité de probabilité uniforme sur le disque.
2. Calculez la densité de probabilité marginale sur l’axe vertical Y (fY (y)).
3. Calculez la densité de probabilité conditionnelle que la fléchette arrive au point X = x
sachant que sur l’axe vertical Y = y (fX|Y (x|y)).
Un joueur de fléchettes tire sur une cible qui est un disque de rayon r, avec une densité de
probabilité uniforme (il ne rate jamais la cible ...). Soit X la distance entre le point d’impact
et le centre de la cible.
1. Exprimez la densité de probabilité de X.
2. Calculez la densité de probabilité marginale sur l’axe vertical Y (fY (y)).
3. La cible a un cercle intérieur de rayon t. Si X ≤ t, le score est de S = 1/X, sinon, le score
est de S = 0. Trouvez la fonction de répartition de S. Est-ce que S est une v.a. continue.
Soit X une p
variable aléatoire uniformément distribuées sur [−1, 1]. Trouvez la densité de pro-
babilité de |X| et de −ln|X|.
Soit une v.a. X de densité fX (x), et une autre variable aléatoire indépendante Y de densité
fY (y) trouvez la densité de
– Z = eX , que devient cette densité si X ∼ Un([0, 1])
– Z = |X|1/3
– Z = |X|1/4
– Soit X et Y uniformément réparties sur [0, 1], trouvez les fonction de répartition et densité
de probabilité de |X − Y |.
X = R cos Θ, Y = R sin Θ
– Montrez que Θ est uniformément répartie sur [0, 2π] et que R est distribué selon la loi :
2
fR (r) = re−r /2
, r≥0
On a que
de même :
Trouver la loi de probabilité, la moyenne et la variance de la v.a. X dont la fonction de répartition
est : Z ∞
3
1 − xa3 si x ≥ a, E[X] = xPX
FX (x) = , −∞
0 si x < a
où a est une constante positive. Et finalement :
Z ∞
E[X] = x2 P
−∞
On a PX (x) = e
Soit X une variable aléatoire de distribution exponentielle et de moyenne = 1 (PX (x) =
λe−λx , x ≥ 0, E[X] = 1/λ, var(X) = 1/λ2 ). Une fois qu’on a observé la valeur expérimen-
tale (réalisation) x de X, on génère une variable aléatoire Y normale, de moyenne nulle et de
variance x + 1 (pour rappel, la loi de probabilité gaussienne d’une v.a. T de moyenne µ et de pour tout x ≥ 0
1 2 2
variance σ 2 vaut PT (t) = √ e−(t−µ) /2σ ). On demande la loi de probabilité jointe de X et On en déduit alo
2πσ
Y.
PX,Y (x,
Un message binaire est transmis par les valeurs -1 ou +1. Le canal de communication corrompt
le signal en ajoutant un bruit gaussien de moyenne µ et de variance σ 2 . Le récepteur décide que
le signal envoyé était -1 si le signal reçu est négatif, et +1 si le signal reçu est positif. Donnez
la probabilité d’erreur (sous la forme d’une intégrale).
Il y a erreur si
– le bruit est plus grand que 1 si le signal transmis vaut -1
– le bruit est plus petit que -1 si le signal transmis vaut +1.
On appelle N la v.a. Gaussienne qui représente le bruit. On a donc, pour le
premier cas, que la probabilité d’erreur est donnée par :
P (N ≥ 1) = 1 − P (N < 1)
où P (N < 1) est la fonction de répartition d’une Gaussienne de moyenne µ et
de variance σ 2 . Par définition de loi de probabilité Gaussienne et de fonction
de répartition, on obtient
Z 1
1 2
/2σ 2
P (N < 1) = √ e−(v−µ) dv,
σ 2π −∞
1. La point é
veut dire q
PX,Y (x, y)
être un pe
PΘ (θ) = 1/
et, en tena
périeur :
Un point est choisi sur un demi-disque de rayon R. Le demi-disque est centré à l’origine et est (sous contr
situé dans le demi-plan supérieur. On demande : 2. Pour trouv
1. La loi de probabilité conjointe de ses coordonnées X et Y
2. la loi de probabilité marginale Y et sa moyenne.
3. Vérifier (2) en calculant E(Y) sans utiliser la loi marginale de Y.
p
où A = R
en utilisant
3. On peut tr
notant D l
E[Y]
Les variables aléatoires X, Y et Z sont indépendantes et uniformément réparties sur [0, 1].
Trouvez le densité de probabilité de X + Y + Z.
Une équipe de foot doit désigne trois tireurs de penalty, chaque tireur réussissant avec une
probabilité pi , indépendemment des autres tireurs. soit X le nombre de penalties marqués après
que chaque tireur ait tiré une fois. Utilisez la convolution pour calculer la masse de probabilité
de X.
Un professeur retraité se rend au bureau à une heure répartie uniformément entre 9 heures du
matin et une heure de l’après-midi, il effectue une seule tâche et quitte le bureau dès qu’elle
est terminée. La durée de cette tâche est exponentiellement distribuée avec un paramètre λ =
λ(y) = 1/(5 − y), où y est est la longueur de l’intervalle de temps entre 9 heures et le moment
de son arrivée au bureau.
1. Quel est le temps moyen que le prof. consacre à sa tâche ?
2. Quel est l’heure moyenne de la fin de sa tâche ?
3. Un étudiant veut rencontrer ce prof. et arrive à une heure répartie uniformément entre
9 heures du matin et 17 heures. Si le prof. n’est pas là, l’étudiant part tout de suite. Si
le prof. est là, l’étudiant travaille avec le prof pendant une durée uniformément répartie
entre 0 et 1 heure. Ce rendez-vous n’aura pas d’influence sur le temps que le prof. passera
sur sa propre tâche. Quel est le temps moyen que le prof. consacrera à son étudiant et
quel sera (en moyenne) l’heure à laquelle le prof. quittera son bureau ?
Yi = X + Wi ,
où les erreurs de mesure Wi sont des v.a. de moyenne nulle et de variance vi . X et Wi sont
supposées mutuellement indépendantes.
Montrez que l’estimateur linéaire aux moindres carrés vaut
n
X
(µ/v) (Yi /vi )
i=1
X̂ = n
X
(1/v) (1/vi )
i=1
Exercice 3.37 S
oit X et Y deux v.a. de variance positive.
1. Soit X̂L le meilleur estimateur linéaire aux moindres carrés de X basé sur Y , montrez
que : h i
E (X − X̂L )Y = 0,
et que l’erreur d’estimation est décorrélée de Y .
2. Soit X̂ = E[X|Y ] l’estimateur aux moindres carrés de X basé sur Y . Montrez que :
h i
E (X − X̂L )h(Y ) = 0,
Statistique descriptive
Cette section comprend quelque rappels de base de statistique, qui vont être indispensables pour
le développement de l’inférence statistique, qui est l’objectif premier de la statistique appliquée.
A ce titre, nous définirons ci-dessous un certain nombre de statistiques telle que la moyenne,
la médiane, les quantiles, ...
On notera d’ailleurs que ces mêmes termes définissent, au chapitre précédent, des caractéris-
tiques de variables aléatoires. La signification de ces termes sera donc dépendante du contexte.
D’autre part, à partir des statistiques calculées à partir d’observations, on pourra en inférer
un modèle probabiliste, qui sera utile pour simplifier l’étude de la population.
Définition 4.2 Un individu
est l’unité statistique de base. Par exemple, si on s’intéresse à un sondage électoral, l’électeur
sera considéré comme étant un individu.
notre cas, cette variable sera par exemple la tendance politique du sondé (gauche/droite). Si on
en infère un modèle probabiliste, cette variable statistique peut être vue comme étant une va-
riable aléatoire caractérisant la population. Ce caractère peut être qualitatif (gauche/droite) ou
quantitatif (puissance moteur du parc de voitures français).
115
École Polytechnique de l’UNSA Département d’Électronique
Polytech’Nice-Sophia 3e année
liées à un caractère d’un échantillon sont le nombre d’individus présentant le caractère étudié
(on parlera de fréquences absolues ou d’effectifs). On parlera également de fréquences relatives
ou proportions si on s’intéresse à la proportion d’individus de l’échantillon qui présentent le
caractère étudié.
Caractère : option
8
6
4
2
0
GSE MI TNS TR
Caractère : option
MI GSE
TNS
TR
10
6
8
Frequency
Frequency
6
4
4
2
2
0
0 5 10 15 20 0 5 10 15 20
tp tp
Caractère : moyenne tp
20
20
15
15
10
10
5
5
0
0
GSE MI TNS TR
TP Ctrl Finale
ecdf(ctrl)
1.0
20
0.8
15
0.6
quantile(ctrl, qs)
Fn(x)
10
0.4
5
0.2
0.0
0
0 5 10 15 20 0.0 0.2 0.4 0.6 0.8 1.0
x qs
−1
FX QX =FX
x −→ FX (x) = P (X ≤ x) = p p −→ QX (p) = x
Échantillonnage
D’autre part, en présence d’une population de taille finie, si on utilise un échantillonnage non
exhaustif, on peut considérer que cela mène à une population de taille infinie.
Enfin, si on opère à un échantillonnage exhaustif de taille n beaucoup plus petite que la taille
N de la population, on peut effectuer un échantillonnage non exhaustif sans que cela change la
population (et donc sans que cela introduise un biais dans le choix de l’échantillon)
121
École Polytechnique de l’UNSA Département d’Électronique
Polytech’Nice-Sophia 3e année
éch. caract.
population −→ individu −→ valeur
éch. caract.
Ω −→ ω −→ x
Enfin, à partir de l’échantillon, on étudie la variable aléatoire X associée au caractère étudié
et on peut, dans le meilleur des cas, déterminer la densité de probabilité fX (x) (ou sa masse de
probabilité pX (x) s’il s’agit d’une variable aléatoire discrète).
Définition 5.3 U
ne statistique est une fonction des variables aléatoires Xi (i = 1, . . . , n) obtenue à partir d’un
échantillon.
– Mesures de dispersion
– Étendue : X(n) − X(1)
– Intervalle interquartile (IQR) : Q3 − Q1
n Pn Pn 2
1 X
2
2 2
2 n i=1 (Xi ) − ( i=1 Xi )
– Variance de l’échantillon : S = Xi − X =
n − 1 i=1 n(n − 1)
(attn. si s/x 1)
– Écart-type de l’échantillon : S
– Écart absolu médian par rapport à la médiane
– Coefficient de variation : S/X
variables de départ et dont la variance vaut n fois la variance des variables de départ. En langage
mathématique, on a :
– X1 , X2 , . . . , Xn : série de v.a. indépendantes
– fX1 (x) = . . . = fXn (x) = fX (x) (même distribution)
– E[X1 ] = . . . = E[Xn ] = µX , σX1 = . . . = σXn = σX
–
ind
Sn = X1 + X2 + . . . + Xn , E[Sn ] = nµX , σS2 n = nσX
2
Sn − µSn X1 + X2 + . . . + Xn − nµX 2
Zn = = √ , E[Zn ] = 0 , σZ =1
σSn nσX n
ν
– σT2 = ν−2 > 1 (non définie pour ν ≤ 2)
– P (T > tα ) = α (définition de tα , valeur critique)
– P (T < −tα ) = α (symétrie de la loi t)
– n ≥ 30 : s → σ donc T → Z
– “Student” : W.S. Gosset, 1908
4
Distribution de Student
0.4
dl = 100
Densité de probabilité
0.3
0.2
0.1
dl = 5
0.0
−4 −2 0 2 4
ν
E[T ] = 0 , σT2 = ν−2 > 1 (non définie pour ν ≤ 2)
Distribution de la variance
Distribution du χ2
4. Quand on n’a pas accès au σ de la population mère, on ne peut pas utiliser Z. L’idée est d’utiliser la variance
de l’échantillon à la place de σ. Cette variance est une v.a. car elle varie d’un échantillon sur l’autre. On construit
alors T .
Pourquoi σT 2 > 1 ? On utilise la variance de l’échantillon s pour estimer la variance de la population. Cela
ajoute de l’incertitude ! T est comme une Z mais un peu plus gonflée, à cause de cette estimation. En augmentant
la taille de l’échantillon (les d.l.) s donne des estimations de plus en plus précises de σ et T devient une Z. Rien
à voir avec le tlc : c’est la meilleure estimation de σ, à partir d’une certaine taille de l’échantillon, qui donne ce
résultat.
Distribution du Khi−deux
dl = 10
dl = 100
0 50 100 150
!2
E X2 = n − 1 , 2
σX 2 = 2(n − 1)
Distribution de la proportion
– Population
– π : proportion d’individus possédant un caractère qualitatif (π 6= 3.14 !)
– Échantillon aléatoire de taille n
n v.a. Xi ; xi ∈ {0, 1} : Bernoulli indépendantes, de paramètre π
– P
n
– i=1 Xi : nombre d’individus possédant le caractère (fréquence)
Pn
– P̂ = n1 i=1 Xi : proportion d’individus (fréquence relative)
– Conditions :
– n > 30 (grand échantillon : théorème limite central)
– np̂ ≥ 5 (fréquence de présence du caractère)
– n(1 − p̂) = n − np̂ ≥ 5 (fréquence d’absence du caractère)
– ni p̂ ≈ 0, ni p̂ ≈ 1
– Distribution :
ind
– µP̂ = (nµX )/n = µX = π , σP̂2 = (nσX 2
)/n2 = π(1 − π)/n
– P̂ : normale N π, π(1−π)
n → Z : normale N (0, 1)
5. La moyenne est égale à n − 1. À gauche elle se trouve à 9. Comme la courbe n’est pas symétrique, la moyenne
se trouve légèrement à droite du max. À droite elle se trouve à 99, presque 100. En augmentant les d.l. le X 2 devient
symétrique.
La variance est proportionnelle à n − 1. la courbe de droite est beaucoup plus étalée, on le voit au niveau de
l’axe verticale : elle ne monte pas aussi haut que celle de gauche, alors qu’elles ont la même surface !
(ni −1)Si2
– Vi = σi2
: v.a. indépendantes, loi du χ2 à νi = ni − 1 d.l.
– F : loi de Fisher (1924) - Snedecor (1934) avec ν1 et ν2 d.l.
– F ≥0
– E[F ] = ν2ν−2
2
(ν2 > 2)
ν 2 (2ν +2ν −4)
– σF2 = ν12(ν2 −2)
1 2
2 (ν −4) (ν2 > 4)
2
– P (F > fα (ν1 , ν2 )) = α (définition de fα (ν1 , ν2 ), v.c.)
1
– fα (ν1 , ν2 ) = (propriété de la loi F )
f1−α (ν2 , ν1 )
Distribution de Fisher
Distribution de Fischer
0.6
dl1 = 5 , dl2 = 20
Densité de probabilité
0.4
0.2
dl1 = 20 , dl2 = 5
0.0
0 2 4 6 8
5.6 Exercices
Exercice 5.1 Des échantillons à examiner : moyenne
La moyenne d’un échantillon aléatoire de taille n = 100, obtenu à partir d’une population de
σ = 0.1, est de x = 5.027. La population est censée avoir µ = 5. Quelles sont vos conclusions ?
Inférence statistique
: Un estimateur ponctuel est une statistique qui donne une valeur (unique) estimée de la gran-
deur recherchée. Les notations et définitions ci-dessous sont utilisées :
– Paramètre à estimer : θ
– Estimateur : v.a. Θ̂
– Estimateur non biaisé : E[Θ̂] = θ
– Biais = E[Θ̂] − θ
– Estimateur efficace : sans biais ; de faible variance
– Estimateur
h iefficace : minimiser l’erreur quadratique moyenne
E (Θ̂ − θ)2 = σΘ̂ 2
+ (biais)2
– Estimateur convergent : n → ∞ : E[Θ̂] = θ et var[Θ̂] = 0
129
École Polytechnique de l’UNSA Département d’Électronique
Polytech’Nice-Sophia 3e année
Taille de l’échantillon
– P (−zα/2 √σn < X − µ < zα/2 √σn ) = 1 − α
– P (|X − µ| < zα/2 √σn ) = 1 − α
– e = |X − µ| : erreur
– emax = zα/2 √σn : marge d’erreur à 1 − α
z σ 2
– nmin = eα/2max
: taille d’échantillon minimale
– X − emax < µ < X + emax à 1 − α
– Cas particulier : échantillonnage d’une population finie, sans remplacement
– Population
q de taille N q
N 1 σ p
– σX = √n N −1 ≈ √n NN−n = √σn 1 − N
σ N −n n
2
N zα/2 σ2
– nmin = 2
N e2max +zα/2 σ2
: taille d’échantillon minimale
– r
Intervalle de confiance
r :
(n−1)s2 (n−1)s2
χ2
< σ < χ2
à un niveau de confiance de (1 − α)100%
α/2 1−α/2
– H1 : θ 6= θ0 (test bilatéral)
– H1 : θ < θ0 (test unilatéral)
– H1 : θ > θ0 (test unilatéral)
– Test : procédure suivie afin d’accepter/rejeter H0
– Rejet > Acceptation (non-rejet)
– En pratique : formuler H0 comme l’opposé de ce qu’on veut démontrer !
Test Unilatéral
1. H0 : µ = µ0 , H1 : µ > µ0 (test unilatéral)
2. α à définir
√ : X ; distribution :
3. Statistique à utiliser
Z = (X − µ)/(σ/√n) si on connaît σ ou n grand (cas présenté dans la suite)
T = (X − µ)/(S/ n) si on ne connaît pas σ et n petit (population normale)
4. P (non-rejet de H0 |H0 vraie) = 1 − α
P (non-rejet de H0 |µ = µ0 ) = 1 − α
P (Z < zα |µ = µ√0 ) = 1 − α
P ((X − µ)/(σ/ √n) < zα |µ = µ0 ) = 1 − α
P ((X − µ0 )/(σ/ n) < zα ) = 1 − α√
région critique : Z = (X − µ0 )/(σ/ n) > zα
5. Règle de décision :
rejeter H0 si x > xc = µ0 + zα √σn
Taille de l’échantillon
– H0 : µ = µ0 , H1 : µ > µ0 (test unilatéral)
– α = P (rejet de H0 |H
√0 vraie) = P (rejet de H0 |µ = µ0 ) = P (Z > zα |µ = µ0 )
= P ((X − µ)/(σ/ √n) > zα |µ = µ0 )
= P ((X − µ0 )/(σ/ n) > zα )
– Règle de décision : rejeter H0 si x > xc = µ0 + zα √σn
– β = P (rejet de H1 |H1 vraie) = P (non-rejet de H0 |H1 vraie)
= P (X < xc |H1 vraie)
– Préciser H1 : µ = µ0 + δ √
– β = P (X < xc |µ = µ0 + δ) = P (Z < (xc − µ)/(σ/ n)|µ = µ0 + δ)
c −µ
– = P (Z < xσ/ √0 −
n
δ√
σ/ n
)
δ√
– = P (Z < zα − σ/ n
)
δ√
– −zβ = zα − σ/ n
2 2
– n = (zα + zβ ) σδ2
Echantillons appariés
– Échantillons aléatoires et appariés de tailles n1 = n2 = n
– Appariés : « avant / après »
– Population : nouvelle v.a. D = X1 − X2 (µD , σD )
– Échantillon : calculer di = x1i − x2i ; oublier X1 , X2 !
– Population normale ou grands échantillons (n > 30), σD connu :
Z = σD−µ√D → N (0, 1)
D/ n
Si d0 6= 0 : remplacer πj → p̂j
Paramètre θ µ2 − µ1
Populations ≈ normales — ≈ normales
Écart-types σ1 , σ2 connus connus inconnus
Échantillons — n1 > 30 et n2 > 30 n1 > 30 et n2 > 30
Statistique Θ̂ X2 − X1
(X 2 −X 1 )−(µ2 −µ1 ) (X 2 −X 1 )−(µ2 −µ1 )
St. normalisée Z= r
2
Z= r
σ1 σ2 2
S1 S2
n1 + n2 n1 + n2
2 2
Distribution N (0, 1)
Degrés de liberté —
Mesure θ̂ x2 − x1
Paramètre θ µ2 − µ1
Populations ≈ normales
Écart-types σ1 , σ2 inc., σ1 = σ2 ou n1 = n2 inc., σ1 6= σ2 et n1 6= n2
Échantillons n1 < 30 ou n2 < 30
Statistique Θ̂ X2 − X1
(X 2 −X 1 )−(µ2 −µ1 ) (X 2 −X 1 )−(µ2 −µ1 )
St. normalisée T = q T = r
Sc n1 + n1 2
S1 S2
1 2 n1 + n2
2
√ : X ; distribution :
3. Statistique à utiliser
T = (X − µ)/(S/ n)
7. Décider
t = 0.2060029
α = 0.05, calculer tc = tα/2 :
–> cdft(“T”,4,1-0.025,0.025)
ans = 2.776445
7. Décider : −tα/2 < t < tα/2 , on ne peut pas rejeter H0 : µ = µ0 = 0
6. Prélever un échantillon et faire les calculs
µ0 = 0, calculer t :
–> t = ( mean(x) - 0 ) / ( stdev(x) / sqrt(5) )
ans = 0.2060029
Quelle est la valeur de α qui donne t = tc = tα/2 ?
–> [P,Q]=cdft(“PQ”,t,4
Q=0.4234244 P= 0.5765756
p-value/2 = 0.4234244, p-value = 0.8468488
7. Décider : échantillon très probable si H0 est vraie
6.9 Test du χ2
6.9.1 Définition – cadre général
Comparer, à l’issue d’une expérience aléatoire, des fréquences expérimentales aux fré-
quences prévues par la théorie (Pearson, 1900).
– k : nombre de fréquences à comparer (nombre de classes)
– oi : fréquences Observées (obtenues expérimentalement)
– ei : fréquences « Espérées » (théoriques, à calculer)
–
Xk
(oi − ei )2
χ2 =
i=1
ei
Face 1 2 3 4 5 6 Total N
–
Fréquence (oi ) 1037 937 1055 1034 929 1008 6000
O = [ 1037 937 1055 1034 929 1008]
– ν =6−1−0=5
– p-value : P (X 2 > 14.624) =
[P Q]=cdfchi(PQ,sum((O-e).ˆ2)/1000,5)
Q= 0.0120957 P=0.9879047
– On peut rejeter H0 au seuil de signification 5%
– Calculer χ2 = 10.5256
– ν = (2 − 1)(2 − 1) = 1
– p-value : P (X 2 > 10.5256) =
[P Q]=cdfchi(“PQ”, 10.5256, 1)
Q=0.0011773 P = 0.998227
– On peut rejeter H0 au seuil de signification 1%
– Calculer χ2 = 35.4729
– ν = (3 − 1)(3 − 1) = 4
– p-value : P (X 2 > 35.4729) =
[P Q]=cdfchi(“PQ”, 35.4729, 4)
Q=3.714026 10e7 P = 0.9999996
– On peut rejeter H0 pratiquement à n’importe quel seuil de signification !
– H0 : π 1 = π 2 = . . . = π c = π
– On estime π à partir des fréquences
Pc marginales de l’échantillon
e1j j=1 o1j
– « Oui » : πj = π → nj = n Pc
e2j o2j
– « Non » : 1 − πj = 1 − π → nj = j=1
n
6.10 Exercices
Exercice 6.1 Variance
Un constructeur veut comparer la ligne de production déjà en place avec une nouvelle ligne,
expérimentale.
Pièces défectueuses
Il effectue d’abord un contrôle qualitatif. La première ligne donne 12 pièces défectueuses et 88
normales. La ligne expérimentale donne 20 pièces défectueuses et 122 normales.
1. Calculer les intervalles de confiance (niveau de confiance 95%) de la proportion des pièces
défectueuses de chaque ligne.
2. Calculer les intervalles de confiance (niveau de confiance 95%) de la différence des pro-
portions des pièces défectueuses.
3. Peut-on dire que la nouvelle ligne est meilleure ? Formuler les hy-
pothèses du test, les règles de décision et calculer la p-value.
> défectueuses = c(12, 20)
> normales = c(88, 122)
> pièces = défectueuses + normales
> prop.test( defectueuses, pieces, alternative="two.sided" )
Durée de vie
Le deuxième test est quantitatif. On échantillonne les deux lignes et on mesure la caractéristique
appropriée, ici la durée de vie exprimée en jours. Le nombre d’individus est limité, car il s’agit
d’un test destructif. On fait l’hypothèse que la durée de vie suit une loi normale.
Le premier échantillon donne les valeurs suivantes :
101.0 103.0 103.0 88.2 108.0 102.0 100.0 93.5 96.4 94.8
et le deuxième :
118.8 116.0 112.7 102.3 115.0 106.3 107.6.
1. Peut-on dire que la nouvelle ligne est meilleure ? Formuler les hypothèses du test, les
règles de décision et calculer la p-value.
2. Si les données de la deuxième ligne étaient égales à
120.3 117.0 113.0 100.6 115.8 105.3 106.8
quelle serait la procédure suivie ?
Un professeur veut examiner le progrès des étudiants. Pour cela, il étudie les notes obtenues
par le même étudiant (échantillons appariés) au contrôle intermédiaire et au contrôle final :
Étudiant 1 2 3 4 5 6 7
Note A 8.75 5.65 11.00 19.50 10.75 15.00 14.50
Note B 14.00 4.00 6.00 18.00 9.50 13.50 18.50
Source : notes Statistiques Appliquées, 2006–2007.
147
Annexe A
Aide-mémoire
149
Département d’Électronique
3e année
150
Paramètre θ µ π σ2
Population ≈ normale — ≈ normale — ≈ normale
Écart-type σ connu connu inconnu — —
Échantillon — n > 30 n > 30 n < 30 n > 30 a —
Statistique Θ̂ X P̂ S2
X−µ X−µ X−µ P̂ −π (n−1)S 2
St. normalisée Z= √
σ/ n
Z= √
S/ n
T = √
S/ n
Z=√ X2 = σ2
π(1−π)/n
Distribution N (0, 1) Student (ν) N (0, 1) khi-deux (ν)
Degrés de liberté — n−1 — n−1
2
σ1 σ2 2
S1 S2 Sc n1 + n1 2
S1 S2
n1 + n2 + n2 1 2 + n2
2 n1 2 n1 2
Mesure θ̂ x2 − x1
n1 −1 + n2 −1
Table A.2 – Théorie d’échantillonnage : deux populations, deux échantillons aléatoires et indépendants, avec remplacement.
151
3e année
Département d’Électronique
152
Statistique Intervalle Test d’hypothèse H0 : θ = θ0
normalisée de confiance H1 : θ 6= θ0 H1 : θ < θ0 H1 : θ > θ0
Z −z α2 < z < z α2 z < −z α2 ou z > z α2 z < −zα z > zα
T −t α2 (ν) < t < t α2 (ν) t < −t α2 (ν) ou t > t α2 (ν) t < −tα (ν) t > tα (ν)
X2 2
χ1− 2 2
α (ν) < χ < χ α (ν) χ2 < χ1−
2 2 2
α (ν) ou χ > χ α (ν) χ2 < χ1−α
2
(ν) χ2 > χα
2
(ν)
2 2 2 2
F f1− α2 (ν1 , ν2 ) < f < f α2 (ν1 , ν2 ) f < f1− α2 (ν1 , ν2 ) ou f > f α2 (ν1 , ν2 ) f < f1−α (ν1 , ν2 ) f > fα (ν1 , ν2 )
calculer les valeurs critiques à partir de la valeur de α choisie
Procédure remplacer z, t, χ2 ou f en fonction de θ ; « entrer dans le monde de H0 » :