Sic Notes

Probabilites et Statistique pour Informatique et Communications
c _A. C. Davison, 2012

http://stat.epfl.ch
1 Introduction 2
1.1 Motivation 3
1.2 Preliminaires 21
1.3 Combinatoire 29
2 Probabilite 39
2.1 Espaces de Probabilite 41
2.2 Probabilite Conditionnelle 64
2.3 Independance 72
2.4 Exemples Ediants 80
3 Variables Aleatoires 87
3.1 Idees de Base 89
3.2 Esperance 112
3.3 Lois Conditionnelles 120
3.4 Notions de Convergence 124
4 Variables Aleatoires Continues 131
4.1 Notions de Base 132
4.2 Notions Supplementaires 145
4.3 Loi Normale 152
4.4 Q-Q Plots 164
5. Plusieurs Variables Aleatoires 170
1
5.1 Idees de Base 172
5.2 Dependance 184
5.3 Fonctions Generatrices 195
5.4 Loi Normale Multivariee 205
5.4 Transformations 214
5.6 Statistiques dOrdre 221
6. Approximation et Convergence 224
6.1 Inegalites 226
6.2 Convergence 229
6.3 Lois des grands nombres 236
6.4 Theorème central limite 241
6.5 Methode delta 247
7 La Statistique 253
7.1 Introduction 254
7.2 Tests Statistiques 259
7.3 Estimation Ponctuelle 284
7.3 Estimation par Intervalle 297
8 Vraisemblance 309
8.1 Motivation 310
8.2 Paramètre scalaire 318
8.3 Paramètre vecteur 329
8.4 Modelisation statistique 334
9 Inference Bayesienne 341
9.1 Idees de Bayes 342
9.2 Modelisation Bayesienne 358
2
1 Introduction slide 2
1.1 Motivation slide 3
Motivation
Probabilites et statistiques fournissent des outils mathematiques et des modèles pour letude
devènements aleatoires :
previsions meteorologiques, nance (Prix Nobel, 2003), . . . ;
modelisation de reseaux ;
algorithmes stochastiques ;
trac internet ;
erreurs dans le codage de signaux ;
traitement dimages ;
. . .
Ils fournissent des methodes optimales pour prevoir, eliminer le bruit, pour suggerer une manière de
traiter le trac, et pour la reconstruction du vrai signal ou de limage.
Probabilites et Statistique pour SIC slide 4
Reseaux stochastiques
Graphe de Erd osRenyi (1960), avec p = 0.01. Les arcs entre chaque pair de sommets apparaissent
avec la probabilites p, independamment des autres arcs. Dans ce cas, si p > (1 +) log n/n, > 0, le
graphe sera connecte (presque s urement).
3
Giant component
Graphe de Erd osRenyi (1960), avec n = 150, p = 0.01. Si quand n on a np c > 1, alors il y
a (presque s urement) un sous-graphe connecte contenant une fraction positive des sommets. Aucun
autre composant contient plus que O(log n) des sommets.
Reseaux stochastiques II
Chain network Nearest-neighbour network Scale-free network
Guo et al. (2011, Biometrika)
4
Modelisation des pages web comme reseaux
person
topic
gener
interest
parallel
parallel
support
instructor
Fig. 3. Common structure in the webpages data. Panel (a) shows the estimated common structure for the four cat-
egories. The nodes represent 100 terms with the highest log-entropy weights. The area of the circle representing a
node is proportional to its log-entropy weight. The width of an edge is proportional to the magnitude of the associated
partial correlation. Panels (b)(d) show subgraphs extracted from the graph in panel (a).
Guo et al. (2011, Biometrika)
Algorithmes aleatoires
5
Traitement de signal
0 200 400 600 800 1000
0
2
0
4
0
6
0
NMR data
y
Wavelet Decomposition Coefficients
Daub cmpct on ext. phase N=2
Translate
R
e
s
o
l
u
t
i
o
n

L
e
v
e
l
9
8
7
6
5
4
3
2
1
0 128 256 384 512
Donnees et coecients dune transformation orthogonale
Original coefficients
Translate
R
e
s
o
l
u
t
i
o
n

L
e
v
e
l
9
8
7
6
5
4
3
2
1
0 128 256 384 512
Shrunken coefficients
Translate
R
e
s
o
l
u
t
i
o
n

L
e
v
e
l
9
8
7
6
5
4
3
2
1
0 128 256 384 512
Coecients originaux et thresholded
6
0 200 400 600 800 1000
2
0
0
2
0
4
0
6
0
NMR data
y
0 200 400 600 800 1000
2
0
0
2
0
4
0
6
0
Bayesian posterior median
w
r
(
w
)
Donnees et signal reconstruit par une methode statistique
Donnees video
Time
v
i
d
e
o
V
B
R
0 200 400 600 800 1000
5
0
1
0
0
1
5
0
2
0
0
2
5
0
3
0
0
3
5
0
4
0
0
Amount of coded information (Variable Bit Rate) per frame for a certain video sequence. There were
about 25 frames per second.
7
Trac sur LAN
Time
e
t
h
e
r
n
e
t
T
r
a
f
f
i
c
0 1000 2000 3000 4000
0
2
0
0
0
6
0
0
0
1
0
0
0
0
Serie temporelle avec variation bizarre
Series temporelles
0
e
+
0
0
6
e
+
0
4
N
u
m
b
e
r
0
6
0
0
0
0
2010.0 2010.2 2010.4 2010.6 2010.8 2011.0
V
a
l
u
e
Time
Nombre et valeur de transactions (unites arbitraires) chaque heure pour natels, 2010.
8
Series temporelles
0
2
0
0
0
4
0
0
0
N
u
m
b
e
r
0
2
0
0
0
5
0
0
0
2010.0 2010.2 2010.4 2010.6 2010.8 2011.0
V
a
l
u
e
Time
Nombre et valeur de transactions (unites arbitraires) chaque heure pour natels, 2010.
Evaluation de performance
Jean-Yves Le Boudec (2010)
9
Motivation pratique
Beaucoup des cours ulterieurs se basent sur la probabilite et la statistique :
Traitement du signal statistique et applications (Vetterli) ;
Automatic speech processing (Bourlard) ;
Biomedical signal processing (Vesin) ;
Stochastic models in communication (Le Boudec/Thiran) ;
Signal processing for communications (Urbanke) ;
Pattern classication and machine learning (Gerstner/Seeger)
Models and methods for random networks (Grossglauser/Thiran)
Performance evaluation (Le Boudec)
Statistical signal processing and applications (Jovanovic/Ridol)
Information theory and coding (Urbanke)
. . .
Organisation
Enseignant : Professor A. C. Davison
Assistants : Juliette Blanchet, Mine Alsan, Stefan Bucur, Mohammadjavad Faraji, Marc Vuray
Cours : Lundi 14.1516.00, CE6 ; Mardi, 13.1515.00, CE4
Exercices : Lundi 16.1518.00, CE6.
Test : 16 avril, 16.1518.00, sans aucune matière ecrite (calculatrice simple authorisee)
Bonus : pour quizzes de 15 minutes les 5 et 19 mars, le 2 avril, et les 7 et 21 mai, sans aucune
matière ecrite (calculatrice simple authorisee)
TP : avec logiciel R (http://stat.ethz.ch/CRAN/), 2 avril, 14 mai
Page web avec notes de cours, exercices (y compris Random Exercise Generator), problèmes,
etc. :
http://stat.epfl.ch/page-76545.html
Materiel de cours
Livres : Les probabilites constituent à peu près les deux premiers tiers du cours, et un bon livre est :
Ross, S. M. (1999) Initiation aux Probabilites. PPUR : Lausanne.
Il y a beaucoup dautres excellents livres dintroduction : regarder au Learning Centre.
Les references en statistiques seront donnees ulterieurement.
10
1.2 Idees preliminaires slide 21
Les ensembles
Denition 1. Un ensemble A est une collection dobjets, x
1
, . . . , x
n
, . . . :
A = x
1
, . . . , x
n
, . . . .
On ecrit x A pour dire que x est un element de A, ou x appartient à A. La collection de tous les
objets possibles dans un contexte donne est appele lunivers .
Exemples :
C
H
= Genève, Vaud, . . . , Grisons ensemble des cantons suisses
0, 1 = ensemble ni constitue des elements 0 et 1
N = 1, 2, . . ., nombres entiers positifs, ensemble denombrable
Z = . . . , 1, 0, 1, 2, . . ., nombres entiers, ensemble denombrable
R = nombres reels, ensemble non denombrable
= ensemble vide, na pas delement
Sous-ensembles
Denition 2. Un ensemble A est un sous-ensemble dun ensemble B si x A entraine que x B :
on note A B.
Si A B et B A, alors chaque element de A est contenu dans B et vice versa, ainsi A = B : les
deux ensembles contiennent precisement les memes elements.
Remarquer que A pour tout ensemble A. Ainsi,
1, 2, 3 N Z Q R C, I C
Les diagrammes de Venn sont utiles pour saisir des relations elementaires existant entre les
ensembles, mais ils peuvent etre trompeurs (toutes les relations ne peuvent etre representees).
Cardinal dun ensemble
Denition 3. Un ensemble ni A a un nombre ni delements, et ce nombre est appele son cardinal :
card A, #A, [A[.
Evidemment [[ = 0 et [0, 1[ = 2
Exercise : Montrer que si A et B sont nis et A B, alors [A[ [B[.
11
Operations Booleennes
Denition 4. Soient A, B . Alors on peut denir :
lunion et lintersection de A et B, soit
A B = x : x A ou x B , A B = x : x A et x B ;
le complementaire de A dans est A
c
= x : x , A.
Evidemment A B A B, et si les ensembles sont nis, alors
[A[ +[B[ = [A B[ +[A B[, [A[ +[A
c
[ = [[.
On peut aussi denir la dierence entre A et B, soit
A B = A B
c
= x : x A et x , B,
(noter que A B ,= B A), et la dierence symetrique
A B = (A B) (B A).
Operations Booleennes
Si A
j
j=1
est un ensemble inni de sous-ensembles de , alors
_
j=1
A
j
= A
1
A
2
: tout x sil appartient au moins à un A
j
j=1
A
j
= A
1
A
2
: tout x sil appartient à chaque A
j
Ce qui suit est facile à montrer (diagramme de Venn) :
(A
c
)
c
= A, (A B)
c
= A
c
B
c
, (A B)
c
= A
c
B
c
;
A (B C) = (A B) (A C), A (B C) = (A B) (A C) ;
(
j=1
A
j
)
c
=
j=1
A
c
j
, (
j=1
A
j
)
c
=
j=1
A
c
j
.
12
Partition
Denition 5. Une partition de est une collection de sous-ensembles non vides A
1
, . . . , A
n
de
tels que
1. les A
j
sont exhaustifs, cest à dire que A
1
A
n
= , et
2. les A
j
sont disjoints, cest à dire que A
i
A
j
= , pour i ,= j.
Une partition peut aussi etre composee dun nombre inni densembles A
j
j=1
.
Exemple 6. Soient A
j
= [j, j +1), pour j = . . . , 1, 0, 1, . . .. Est ce que les A
j
forment une partition
de = R?
Exemple 7. Soient A
j
lensemble des entiers divisibles par j, pour j = 1, 2, . . .. Est ce que les A
j
forment une partition de = N?
Produit Cartesien
Denition 8. Le produit Cartesien de deux ensembles A, B est lensemble des paires ordonnees
AB = (a, b) : a A, b B.
De meme
A
1
A
n
= (a
1
, . . . , a
n
) : a
1
A
1
, . . . , a
n
A
n
.
Si A
1
= = A
n
= A, alors on ecrit A
1
A
n
= A
n
.
Comme les paires sont ordonnees, AB ,= B A à moins que A = B.
Si A
1
, . . . , A
n
sont tous nis, alors
[A
1
A
n
[ = [A
1
[ [A
n
[.
Exemple 9. Soit A = a, b, B = 1, 2, 3. Decrire AB.
13
1.3 Combinatoire slide 29
Combinatoire : Rappels
Cest les mathematiques du denombrement. Deux principes de base :
multiplication : si jai m chapeaux et n echarpes, il y a mn dierentes fa cons de les combiner
ensemble ;
addition : si jai m chapeaux rouges et n chapeaux bleux, alors jai m+n chapeaux au total.
En termes mathematiques, soient A
1
, . . . , A
k
des ensembles, alors
[A
1
A
k
[ = [A
1
[ [A
k
[, (multiplication),
et si les A
j
sont disjoints, alors
[A
1
A
k
[ = [A
1
[ + +[A
k
[, (addition).
Permutations : Selection ordonnee
Denition 10. Une permutation de n objets distincts est un ensemble ordonne de ces objets.
Theorème 11. Etant donne n objets distincts, le nombre de permutations dierentes (sans
repetition) de longueur r n est
n (n 1) (n 2) (n r + 1) =
n!
(n r)!
.
Ainsi il y a n! permutations de longueur n.
Theorème 12. Etant donne n =
r
i=1
n
i
objets de r types dierents, o` u n
i
est le nombre dobjets de
type i indierentiables entre eux, le nombre de permutations (sans repetition) des n objets est
n!
n
1
! n
2
! n
r
!
.
Exemple
Exemple 13. Une classe de 20 etudiants elisent un comite de taille 4 pour organiser un voyage
detude. De combien de manières dierentes peuvent-ils choisir le comite si :
(a) il y a 4 r oles distincts (president, secretaire, tresorier, agent de voyage) ?
(b) il y a un president, un tresorier, et deux agents de voyage ?
(c) il y a deux tresoriers et deux agents de voyage ?
(d) leurs r oles sont indierentiables ?
14
Coecients multinomial et binomial
Denition 14. Soient n
1
, . . . , n
r
des entiers compris entre 0, 1, . . . , n, ayant pour total
n
1
+ +n
r
= n. Alors
_
n
n
1
, n
2
, . . . , n
r
_
=
n!
n
1
! n
2
! n
r
!
,
est appele coecient multinomial. Le cas r = 2 est le plus courant :
_
n
k
_
=
n!
k!(n k)!
_
= C
k
n
dans certains livres
_
est appele coecient binomial.
Combinations : Selection non ordonnee
Theorème 15. Le nombre de manières de choisir un ensemble de r objets issus dun ensemble de n
objets distinct sans repetition est
n!
r!(n r)!
=
_
n
r
_
.
Theorème 16. Le nombre de manières de repartir n objets distincts en r groupes distincts de taille
n
1
, . . . , n
r
, o` u n
1
+ +n
r
= n est
n!
n
1
! n
2
! n
r
!
.
Proprietes des coecients binomiaux
Theorème 17. Soient n, m 1, 2, 3 . . . et r 0, . . . , n, alors :
_
n
r
_
=
_
n
n r
_
;
_
n + 1
r
_
=
_
n
r 1
_
+
_
n
r
_
, (triangle de Pascal) ;
r
j=0
_
m
j
__
n
r j
_
=
_
m+n
r
_
, (formule de Vandermonde);
(a +b)
n
=
n
r=0
_
n
r
_
a
r
b
nr
, (formule du bin ome de Newton);
(1 x)
n
=
j=0
_
n +j 1
j
_
x
j
, [x[ < 1, (series binomiales negatives).
15
Partitions dentiers
Theorème 18. (a) Le nombre de vecteurs distincts (n
1
, . . . , n
r
) dentiers positifs, n
1
, . . . , n
r
> 0,
satisfaisant n
1
+ +n
r
= n est
_
n 1
r 1
_
.
(b) Le nombre de vecteurs distincts (n
1
, . . . , n
r
) dentiers non-negatifs, n
1
, . . . , n
r
0, satisfaisant
n
1
+ +n
r
= n est
_
n +r 1
n
_
.
Exemple 19. De combien de manières dierentes peut on mettre 6 balles identiques dans 3 botes, de
fa con à ce que chaque botes contienne au moins une balle ?
Exemple 20. De combien de manières dierentes peut on mettre 6 balles identiques dans 3 botes ?
Rappel : Serie geometrique
Theorème 21. (a) Une serie geometrique est de la forme a, a, a
2
, . . . ; on a
n
i=0
a
i
=
_
a
1
n+1
1
, ,= 1,
a(n + 1), = 1.
Si [[ < 1, alors
i=0
i
= 1/(1 ), et
i=0
i!
(i r)!
ir
=
r!
(1 )
r+1
, r = 1, 2, . . . .
16
Petit Vocabulaire
Mathematics English Francais
, A, B . . . set un ensemble
A B union lunion
A B intersection lintersection
A
c
complement of A (in ) le complementaire de A (en )
A B dierence la dierence
A B symmetric dierence la dierence symetrique
AB Cartesian product le produit cartesien
[A[ cardinality le cardinal
A
j
n
j=1
pairwise disjoint A
j
n
j=1
disjoint deux à deux
partition une partition
permutation une permutation
combination une combinaison
_
n
r
_
binomial coecient un coecient binomial (C
r
n
)
_
n
n
1
,...,nr
_
multinomial coecient un coecient multinomial
indistinguishable indierentiable
colour-blind daltonien (ienne)
17
2 Probabilite slide 39
Petit Vocabulaire Probabiliste
one fair die (several fair dice) un de juste/equilibre (plusieurs des justes/equilibres)
random experiment une experience aleatoire
sample space lensemble fondamental
outcome, elementary event une epreuve, un evenement elementaire
A, B, . . . event un evenement
T event space lespace des evenements
sigma-algebra une tribu
Pr probability distribution/probability function une loi de probabilite
(, T, Pr) probability space un espace de probabilite
inclusion-exclusion formulae formule dinclusion-exclusion
Pr(A [ B) probability of A given B la probabilite de A sachant B
independence independance
(mutually) independent events les evenements (mutuellement) independants
pairwise independent events les evenements independants deux à deux
conditionally independent events les evenements conditionellement independants
2.1 Espaces de Probabilite slide 41
Les Joueurs de cartes
Paul Cezanne, 189495, Musee dOrsay, Paris
Motivation : Jeu de de
Deux des equilibres sont lances, un rouge et un vert.
(a) Quel est lensemble des resultats possibles ?
(b) Quels resultats donnent un total de 6 ?
(c) Quels resultats donnent un total de 12 ?
(d) Quels resultats donnent un total impair ?
(e) Quelles sont les probabilites des evenements (b), (c), (d) ?
18
Calcul de probabilites
On peut essayer de calculer les probabilites devenements tels que (b), (c), (d) en lancant le de de
nombreuses fois et en posant
probabilite dun evenement =
# de fois o` u levenement se produit
# experiences realisees
.
Cest une reponse pratique plutot que mathematique, disponible seulement après beaucoup de
travail (combien de fois doit-on lancer le de ?), et donnera des reponses dierentes à chaque fois
insatisfaisante !
Pour des exemples simples, on utilise souvent la symetrie pour le calcul des probabilites. Ceci nest
plus possible pour des cas plus compliqueson construit des modèles mathematiques, bases sur les
notions dexperience aleatoire et despace de probabilite.
Experience aleatoire
Denition 22. Une experience aleatoire est une experience dont le resultat est (ou peut etre trate
comme) aleatoire.
Exemple 23. Je jette une pièce.
Exemple 24. Je lance 2 des equilibres, un rouge et un vert.
Exemple 25. Le nombre demails que je re cois aujourdhui.
Exemple 26. Le temps dattente jusquà la n de ce cours.
Exemple 27. Le temps quil fera ici demain à midi.
Andrey Nikolaevich Kolmogorov (19031987)
Grundbegrie der Wahrscheinlichkeitsrechnung (1933)
19
Espace de probabilite (, T, Pr)
Une experience aleatoire est modelisee par un espace de probabilite.
Denition 28. Un espace de probabilite (, T, Pr) est un objet mathematique associe à une
experience aleatoire, constitue de :
1. un ensemble , lensemble fondamental, qui contient tous les resultats (epreuves,
evenements elementaires) possibles de lexperience ;
2. une collection T de sous-ensembles de . Ces sous-ensembles sont appeles evenements, et T
est appele lespace des evenements ;
3. une fonction Pr : T [0, 1] appelee loi de probabilite, qui associe une probabilite Pr(A) à
chaque A T.
Ensemble fondamental
Lensemble fondamental est lensemble compose delements representant tous les resultats
possibles dune experience aleatoire. Chaque element est associe à un resultat dierent.
est analogue à lensemble univers. Il peut etre ni, denombrable ou non denombrable.
est non-vide. (Si = alors rien dinteressant ne peut arriver.)
Exemple 29. Decrire les ensembles fondamentaux pour les Exemples 2327.
Pour les exemples elementaires avec ni, on choisit souvent de manière à ce que soit
equiprobable :
Pr() =
1
[[
, pour chaque .
Alors Pr(A) = [A[/[[, pour tout A .
Espace des evenements
T est un ensemble de sous-ensembles de qui represente les evenements dinteret.
Exemple 30 (Suite de lexemple 24). Donner les evenements
A le de rouge montre 4,
B le total est impair,
C le de vert montre 2,
A B le de rouge montre 4 et le total est impair.
Calculer leurs probabilites.
20
Espace des evenements T, II
Denition 31. Un espace des evenements T est un ensemble de sous-ensembles de tel que :
(T1) T est non vide ;
(T2) si A T alors A
c
T ;
(T3) si A
i
i=1
sont tous des elements de T, alors
i=1
A
i
T.
T est aussi appelee une tribu.
Soient A, B, C, A
i
i=1
des elements de T. Alors les axiomes precedents impliquent que
n
i=1
A
i
T,
T, T,
A B T, A B T, A B T,
n
i=1
A
i
T.
Espace des evenements T, III
Si est denombrable, on prend souvent pour T lensemble de tous les sous-ensembles de . Cest
le plus grand (et le plus riche) espace des evenements possibles pour .
On peut denir des espaces des evenements dierents pour le meme ensemble fondamental.
Exemple 32. Donner la tribu pour lExemple 23.
Exemple 33. Je lance deux des equilibres, un rouge et un vert.
(a) Quel est ma tribu T
1
?
(b) Jinforme mon ami seulement du total. Quel est sa tribu T
2
?
(c) Mon ami regarde lui-meme les des, mais il est daltonien. Quel est alors sa tribu T
3
?
Espace des evenements T, III
Habituellement lespace des evenements est clair daprès le contexte, mais il est important decrire
et T explicitement, an deviter la confusion.
Cela peut aussi etre utile lorsque des soi-disant paradoxes surviennent (generalement en raison
dune formulation mathematique du problème peu claire ou erronee).
Il est essentiel de donner et T lors des exercices, tests et examens.
21
Exemples
Exemple 34. Une femme planiant sa future famille considère les situations suivantes (on suppose
que les chances davoir un gar con ou une lle sont egales à chaque fois) :
(a) avoir trois enfants ;
(b) mettre au monde des enfants jusquà ce que la première lle naisse, ou jusquà ce que les trois
enfants naissent, sarreter lorsque lune des 2 situations se realise.
(c) mettre au monde des enfants jusquà ce que il y en ait un de chaque sexe ou jusquà ce quil en
ait trois, sarreter lorsque lune des 2 situations se realise.
Soient G
i
levenement i gar cons sont nes, A levenement il y a plus de lles que de gar cons.
Calculer Pr(G
1
) et Pr(A) sous (a)(c).
En fait, le rapport gar con/lle est 105/100 à naissance.
Exemple 35 (Anniversaires). n personnes sont dans une pièce. Quelle est la probabilite quils aient
tous une date danniversaire dierente ?
Anniversaires
0 10 20 30 40 50 60
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
n
P
r
o
b
a
b
i
l
i
t
y
22
Galileo Galilei (15641642)
Il Saggiatore, 1623
23
Il Saggiatore, 1623
La losoa è scritta in questo grandissimo libro che continuamente ci sta aperto
innanzi a gli occhi (io dico luniverso), ma non si può intendere se prima non simpara a
intender la lingua, e conoscer i caratteri, ne quali è scritto. Egli è scritto in lingua
matematica, e i caratteri son triangoli, cerchi, ed altre gure geometriche, senza i quali
mezi è impossibile a intenderne umanamente parola ; senza questi è un aggirarsi vanamente
per un oscuro laberinto.
La philosophie est ecrite dans ce vaste livre constamment ouvert devant nos yeux (je
veux dire lunivers), et on ne peut le comprendre si dabord on napprend à connatre la
langue et les caractères dans lesquels il est ecrit. Or il est ecrit en langue mathematique, et
ses caractères son le triangle et le cercle et autres gures geometriques, sans lesquels il est
humainement impossible den comprendre un mot, sans lesquels on erre vainement dans un
labyrinthe obscur.
Problème de trois des
Trois des equilibres sont lances. Soient T
i
levenement le total est i, pour i = 3, . . . , 18. Quel est le
plus probable, T
9
ou T
10
?
T
9
peut se produire si les des ont les resultats suivants
9 = 6 + 2 + 1 = 5 + 3 + 1 = 5 + 2 + 2 = 4 + 4 + 1 = 4 + 3 + 2 = 3 + 3 + 3.
T
10
peut se produire si les des ont les resultats suivants
10 = 6 + 3 + 1 = 6 + 2 + 2 = 5 + 4 + 1 = 5 + 3 + 2 = 4 + 4 + 2 = 4 + 3 + 3.
Ainsi ils sont equiprobables.
Vrai ou faux ?
Loi de probabilite Pr
Denition 36. Une loi de probabilite Pr associe une probabilite à chaque element de lespace des
evenements T, avec les proprietes suivantes :
(P1) si A T, alors 0 Pr(A) 1 ;
(P2) Pr() = 1 ;
(P3) si A
i
i=1
sont disjoints deux à deux (cest à dire que, A
i
A
j
= , i ,= j), alors
Pr
_
_
i=1
A
i
_
=
i=1
Pr(A
i
).
24
Proprietes de Pr
Theorème 37. Soient A, B, A
i
i=1
des evenements de lespace de probabilite (, T, Pr). Alors
(a) Pr() = 0 ;
(b) Pr(A
c
) = 1 Pr(A) ;
(c) Pr(A B) = Pr(A) + Pr(B) Pr(A B). Si A B = , alors Pr(A B) = Pr(A) + Pr(B) ;
(d) si A B, alors Pr(A) Pr(B), et Pr(B A) = Pr(B) Pr(A) ;
(e) Pr (
i=1
A
i
)
i=1
Pr(A
i
) (inegalite de Boole) ;
(f) si A
1
A
2
, alors lim
n
Pr(A
n
) = Pr (
i=1
A
i
) ;
(g) si A
1
A
2
, alors lim
n
Pr(A
n
) = Pr (
i=1
A
i
).
Continuite de Pr
Rappel : Une fonction f est continue en x si pour toute suite x
n
telle que
lim
n
x
n
= x, on a lim
n
f(x
n
) = f(x).
Les parties (f) et (g) du Theorème 37 peuvent etre etendues pour montrer que pour toutes suites
densembles pour lesquelles
lim
n
A
n
= A, on a lim
n
Pr(A
n
) = Pr(A).
Cest pourquoi Pr est appelee fonction densembles continue.
Formules dinclusion-exclusion
Si A
1
, . . . , A
n
sont des evenements de (, T, P), alors
Pr(A
1
A
2
) = Pr(A
1
) + Pr(A
2
) Pr(A
1
A
2
)
Pr(A
1
A
2
A
3
) = Pr(A
1
) + Pr(A
2
) + Pr(A
3
)
Pr(A
1
A
2
) Pr(A
1
A
3
) Pr(A
2
A
3
)
+Pr(A
1
A
2
A
3
)
.
.
.
P
_
n
_
i=1
A
i
_
=
n
r=1
(1)
r+1
1i
1
<<irn
Pr(A
i
1
A
ir
).
Le nombre de termes dans la formule generale est
_
n
1
_
+
_
n
2
_
+
_
n
3
_
+ +
_
n
n 1
_
+
_
n
n
_
= 2
n
1.
25
Exemple 38. Quelle est la probabilite dobtenir au moins un 6 quand je lance 3 des equilibres ?
Exemple 39. Une urne contient 1000 tickets de loterie numerotes de 1 à 1000. On tire un ticket au
hasard. Auparavant un artiste de foire a oert de payer $3 à quiconque qui lui donne $2, si le numero
du ticket est divisible par 2, 3, ou 5. Est ce que vous lui donneriez vos $2 avant le tirage ? (Vous
perdez votre argent si le ticket nest pas divisible par 2, 3, ou 5.)
2.2 Probabilite Conditionnelle slide 64
Probabilite conditionnelle
Denition 40. Soient A, B des evenements de lespace de probabilite (, T, Pr), tel que Pr(B) > 0.
Alors la probabilite conditionnelle de A sachant B est
Pr(A [ B) =
Pr(A B)
Pr(B)
.
Si Pr(B) = 0, on adopte la convention Pr(A B) = Pr(A [ B)Pr(B), des deux cotes on a la valeur
zero. Ainsi
Pr(A) = Pr(A B) + Pr(A B
c
) = Pr(A [ B)Pr(B) + Pr(A [ B
c
)Pr(B
c
)
meme si Pr(B) = 0 ou Pr(B
c
) = 0.
Exemple 41. On lance deux des equilibres, un rouge et un vert. Soient A et B les evenements le
total excède 8, et on a 6 sur le de rouge. Si on sait que B sest produit, comment change Pr(A) ?
Lois de probabilite conditionnelle
Theorème 42. Soit (, T, Pr) un espace de probabilite, et soient B T tel que Pr(B) > 0 et
Q(A) = Pr(A [ B). Alors (, T, Q) est un espace de probabilite. En particulier,
1. si A T, alors 0 Q(A) 1 ;
2. Q() = 1 ;
3. si A
i
i=1
sont disjoints 2 à 2, alors
Q
_
_
i=1
A
i
_
=
j=1
Q(A
i
).
Ainsi le conditionnement nous permet de construire beaucoup de lois de probabilites dierentes, à
partir dune loi de probabilite donnee.
26
Thomas Bayes (17021761)
Essay towards solving a problem in the doctrine of chances. (1763/4) Philosophical Transactions
of the Royal Society of London.
Theorème de Bayes
Theorème 43 (Loi des probabilites totales). Soient B
i
i=1
des evenements disjoints 2 à 2 (i.e.
B
i
B
j
= , i ,= j) de lespace de probabilite (, T, Pr), et soit A un evenement satisfaisant
A
i=1
B
i
. Alors
Pr(A) =
i=1
Pr(A B
i
) =
i=1
Pr(A [ B
i
)Pr(B
i
).
Theorème 44 (Bayes). Supposons que les conditions ci-dessus soient veriees, et que Pr(A) > 0.
Alors
Pr(B
j
[ A) =
Pr(A [ B
j
)Pr(B
j
)
i=1
Pr(A [ B
i
)Pr(B
i
)
, j N.
Ces resultats sont aussi vrais si lensemble des B
i
est nie, et si les B
i
partitionent .
Exemples
Exemple 45. Des voitures sont fabriquees dans les villes de Farad, Gilbert et Henry. Sur 1000 voitures
produites à Farad, 20% sont defectueuses, sur 2000 produites à Gilbert, 10% sont defectueuses, et sur
3000 produites à Henry, 5% sont defectueuses. Vous achetez une voiture. Si D est levenement la
voiture est defectueuse, calculer (a) Pr(F [ H
c
), (b) Pr(D [ H
c
), (c) Pr(D), et Pr(F [ D). Supposez
que vous avez les memes chances dacheter une des 6000 voitures produites.
27
Conditionnement multiple
Theorème 46 (Prediction decomposition). Soient A
1
, . . . , A
n
des evenements dun espace de
probabilite. Alors
Pr(A
1
A
2
) = Pr(A
2
[ A
1
)Pr(A
1
)
Pr(A
1
A
2
A
3
) = Pr(A
3
[ A
1
A
2
)Pr(A
2
[ A
1
)Pr(A
1
)
.
.
.
Pr(A
1
A
n
) =
n
i=2
Pr(A
i
[ A
1
A
i1
) Pr(A
1
)
Exemples
Exemple 47. On lance 2 des equilibres. Denir les evenements A, B, C qui sont le total est au plus
6, le total est impair, et on obtient 4 pour le premier de . (a) Comment la connaissance que B ou
C soit realise, aecte la probabilite de A? (b) Calculer Pr(A B C).
Exemple 48. n hommes vont à un diner. Chacun laisse son chapeau au vestiaire. Lorsquils repartent,
ayant bien echantillione du vin regional, ils choisissent leurs chapeaux de fa con aleatoire.
(a) Quelle est la probabilite que personne nait son chapeau ?
(b) Quelle est la probabilite quexactement r hommes choisissent leur propre chapeau ?
(c) Que se passe-t-il lorsque n est très grand ?
2.3 Independance slide 72
Evenements independants
Intuitivement, dire que A et B sont independants signie que la realisation dun des deux naecte
pas la realisation de lautre. Cest à dire que, Pr(A [ B) = Pr(A), donc la connaissance de la
realisation de B laisse Pr(A) inchangee.
Exemple 49. Une famille a deux enfants.
(a) On sait que le premier est un gar con. Quelle est la probabilite que le second soit un gar con ?
(b) On sait quun des deux est un gar con. Quelle est la probabilite que lautre soit un gar con ?
28
Independance
Denition 50. Soit (, T, Pr) un espace de probabilite. Deux evenements A, B T sont
independants (que lon note A B) ssi
Pr(A B) = Pr(A)Pr(B).
Conformement à notre intuition, cela implique que
Pr(A [ B) =
Pr(A B)
Pr(B)
=
Pr(A)Pr(B)
Pr(B)
= Pr(A),
et par symetrie Pr(B [ A) = Pr(B).
Exemple 51. Un jeu de cartes est bien battu et une carte est tiree au hasard. Est ce que les
evenements A la carte est un as, et C la carte est un coeur sont independants ? Que peut on dire à
propos des evenements A et R la carte est un roi ?
Types dindependances
Denition 52. (a) Les evenements A
1
, . . . , A
n
sont (mutuellement) independants si pour tout
ensemble dindices F 1, . . . , n, on a
Pr
_
iF
A
i
_
=
iF
Pr(A
i
).
(b) Les evenements A
1
, . . . , A
n
sont independants 2 à 2 si
Pr(A
i
A
j
) = Pr(A
i
) Pr(A
j
), 1 i < j n.
(c) Les evenements A
1
, . . . , A
n
sont conditionnellement independants sachant B si pour tout
ensemble dindices F 1, . . . , n on a
Pr
_
iF
A
i
[ B
_
=
iF
Pr(A
i
[ B).
29
Quelques remarques
Lindependance est un idee cle qui simplie considerablement des calculs de probabilite. En
pratique, il est essentiel de verier si les evenements sont independants, etant donne quune
dependance non detectee peut modier grandement le calcul des probabilites.
Lindependance mutuelle entrane lindependance deux à deux, mais linverse est vrai seulement
quand n = 2.
Lindependance mutuelle entrane lindependance conditionnelle, mais linverse est vrai seulement si
B = .
Exemple 53. Une famille a deux enfants. Montrer que les evenements le premier enfant est un
gar con, le second enfant est un gar con, et il y a exactement un gar con sont independants deux à
deux mais pas mutuellement.
Exemple 54. Une annee donnee, la probabilite quun conducteur fasse une declaration de sinistre à
son assurance est , independamment des autres annees. La probabilite pour une conductrice est de
< . Un assureur a le meme nombre de conducteurs que de conductrices, et en selectionne un(e) au
hasard.
(a) Donner la probabilite quil (elle) declare un sinistre cette annee ?
(b) Donner la probabilite quil (elle) declare des sinistres durant 2 annees consecutives ?
(c) Si la compagnie selectionne une personne ayant fait une declaration au hasard, donner la
probabilite quelle fasse une declaration lannee suivante ?
(d) Montrer que la connaissance quune declaration de sinistre ait ete faite une annee augmente la
probabilite dune declaration lannee suivante.
Systèmes en series et parallèles
Un système electrique a des composants 1, . . . , n, qui tombent en panne independamment. Soient A
i
levenement le ième composant est defaillant, avec Pr(A
i
) = p
i
. Levenement B, la defaillance du
système se produit si le courant ne peut pas passer dun bout du système à lautre. Si les composants
sont arranges en parallèle, alors
Pr
P
(B) = Pr(A
1
A
n
) =
n
i=1
p
i
.
Si les composants sont arranges en serie, alors
Pr
S
(B) = Pr(A
1
A
n
) = 1
n
i=1
(1 p
i
).
Si 1 > p
+
> p
i
> p
> 0, i, et n , alors Pr
P
(B) 0, Pr
S
(B) 1.
30
Fiabilite
Exemple 55 (Chernobyl). Une centrale nucleaire depend dun système de securite dont les
composants sont arranges suivant la gure (tableau noir). Les composants tombent en panne
independamment avec la probabilite p, et le système devient defaillant si le courant electrique ne peut
pas passer de A à B.
(a) Quelle est la probabilite que le système devienne defaillant ?
(b) Les composants sont fabriques par lots, qui peuvent etre bons ou mauvais. Pour un bon lot,
p = 10
6
, tandis que pour un lot mauvais p = 10
2
. La probabilite quun lot soit bon est 0.99. Quelle
est la probabilite que le système soit defaillant (i) si les composants proviennent de dierents lots ? (ii)
si tous les composants proviennent du meme lot ?
2.4 Exemples Ediants slide 80
Les dames et la mort
31
Les fumeuses et la mort
Survie après 20 ans pour 1314 femmes dans la ville de Whickham, Angleterre (Appleton et al., 1996,
The American Statistician). Les colonnes contiennent : nombre de mortes après 20 ans/nombre de
vivantes au debut de letude (%).
Age (annees) Fumeuses Non-fumeuses
Total 139/582 (24) 230/732 (31)
1824 2/55 (4) 1/62 (2)
2534 3/124 (2) 5/157 (3)
3544 14/109 (13) 7/121 (6)
4554 27/130 (21) 12/78 (15)
5564 51/115 (44) 40/121 (33)
6574 29/36 (81) 101/129 (78)
75+ 13/13 (100) 64/64 (100)
Selon les totaux, il y a un eet beneque davoir fume :
24% < 31%!
Paradoxe de Simpson
Denission les evenements morte après 20 ans, M, fumeuse, F, et dans la categorie dage a au
debut, A = a. Alors pour (presque) chaque a on a
Pr(M [ F, A = a) > Pr(M [ F
c
, A = a),
mais
Pr(M [ F) < Pr(M [ F
c
).
Notons que
Pr(M [ F) =
a
Pr(M [ F, A = a)Pr(A = a),
Pr(M [ F
c
) =
a
Pr(M [ F
c
, A = a)Pr(A = a),
donc si les probabilites Pr(M [ F, A = a) et Pr(M [ F
c
, A = a) varient beaucoup avec a, les ponderer
par les Pr(A = a) peut renverser lordre des linegalites.
Cest un exemple du paradox de Simpson : oublier un conditionnement peut changer la conclusion
dune etude.
32
La triste histoire de Sally Clark
Une avocate anglaise, dont le premier ls est decede quelques semaines après sa naissance en 1996.
Suite à la mort de son deuxième ls de la meme manière, elle fut arretee en 1998 et accusee pour un
double meurtre. Son inculpation etait controversee car un pediatre très distingue, Professor Sir Roy
Meadow, a temoigne que la probabilite que, dans une famille comme celle de Sally Clark, deux enfants
meurent à cause du Sudden Infant Death Syndrome (SIDS) etait 1 sur 73 million, chire quil a
obtenu comme 1/8500
2
, o` u 1/8500 etait la probabilite estimee dune seule mort à cause du SIDS.
Elle fut condamnee en novembre 1999, puis liberee en janvier 2003, parce que certain preuves
pathologiques tendant à la blanchir nont pas ete divulguees à son avocat. Suite à son cas, le
Procureur-en-Chef a demande que des centaines dautres cas soient revus, et encore deux femmes ont
ete liberees de prison.
Elle est decedee dalcoolisme en mars 2007.
Les taux de SIDS
Donnees sur les taux de mortalite enfantile, (rapport CESMA SUDI,
http://cemach.interface-test.com/Publications/CESDI-SUDI-Report-(1).aspx)
Sally Clark : Quatres erreurs tragiques
Probabilites estimees
Ecological fallacy
Independance ? Vraiment ?
Prosecutors fallacy
33
3 Variables Aleatoires slide 87
one fair die (several fair dice) un de juste/equilibre (plusieurs des justes/equilibres)
random experiment une experience aleatoire
sample space lensemble fondamental
outcome, elementary event une epreuve, un evenement elementaire
A, B, . . . event un evenement
T event space lespace des evenements
sigma-algebra une tribu
Pr probability distribution/probability function une loi de probabilite
(, T, Pr) probability space un espace de probabilite
inclusion-exclusion formulae formule dinclusion-exclusion
Pr(A [ B) probability of A given B la probabilite de A sachant B
independence independance
(mutually) independent events les evenements (mutuellement) independants
pairwise independent events les evenements independants deux à deux
conditionally independent events les evenements conditionellement independants
X, Y, Z, W, . . . random variable/random variate une variable aleatoire
F
X
(x) (cumulative) distribution function une fonction de repartition
f
X
(x) (probability) density/mass function (PDF) une fonction de densite/masse (fm)
E(X) expectation/mean of X lesperance de X
var(X) variance of X la variance de X
f
X
(x [ B) conditional density/mass function une fonction de densite/masse conditionnelle
34
3.1 Idees de Base slide 89
Variables aleatoires
Souvent on considère des quantites aleatoires numeriques.
Exemple 56. Deux des equilibres sont lances, un rouge et un vert. Soit X le total des faces
superieures. Trouver les valeurs possibles de X, et les probabilites correspondantes.
Denition 57. Soit (, T, Pr) un espace de probabilite. Une variable aleatoire (va) X : R est
une application de lensemble fondamental dans R.
Denition 58. Lensemble des valeurs prises par X,
D
X
= x R : tel que X() = x
sappele le support de X. Si D
X
est denombrable, alors X est une variable aleatoire discrète.
La va X associe des probabilites à des sous-ensembles S inclus dans R, donnees par
Pr(X S) = Pr(w : X(w) S).
En particulier, on pose A
x
= : X() = x. Il est à noter quil faut que A
x
T, pour pouvoir
calculer Pr(X = x). Si ce nest pas le cas, on dit que X nest pas mesurable par rapport à (, T, Pr).
Exemples
Exemple 59. On jette une pièce plusieurs fois et independamment. Soit X la variable aleatoire
representant le nombre de lances necessaires jusquà ce quon obtienne face. Calculer
Pr(X = 3), Pr(X = 15), Pr(X 3.5), Pr(X > 1.7), Pr(1.7 X 3.5).
Exemple 60. Un ensemble naturel quand je joue aux echettes est le mur sur lequel la cible est
xee. La echette atterit à un point R
2
. Mon score X() D
X
= 0, 1, . . . , 60.
35
Jacob Bernoulli (16541705)
Ars Conjectandi, Basel (1713)
Variable aleatoire de Bernoulli
Denition 61. Une variable aleatoire qui prend comme valeurs seulement 0 et 1 est appelee une
variable indicatrice, ou une variable aleatoire de Bernoulli, ou un essai de Bernoulli.
Exemple 62. Supposons que n pièces identiques sont lancees independamment, soit F
i
levenement
on obtient face pour la ième pièce, et soit I
i
= I(F
i
) lindicatrice de cet evenement. Alors
Pr(I
i
= 1) = Pr(F
i
) = p, Pr(I
i
= 0) = Pr(F
c
i
) = 1 p,
o` u p est la probabilite dobtenir face. Si n = 3 et X = I
1
+I
2
+I
3
, decrire , D
X
et les ensembles
A
x
. Que representent
X = I
1
+ +I
n
, Y = I
1
(1 I
2
)(1 I
3
), Z =
n
j=2
I
j1
(1 I
j
)?
36
Fonction de masse
Une variable aleatoire X associe des probabilites à des sous-ensembles de R. En particulier lorsque X
est discrète, nous avons A
x
= : X() = x, et nous pouvons denir :
Denition 63. La fonction de masse (fm) de X est
f
X
(x) = Pr(X = x) = Pr(A
x
), x R.
Elle a deux proprietes cles :
(i) f
X
(x) 0, et est positif seulement pour x D
X
, o` u D
X
est lensemble image de X, cest à dire
le support de f
X
;
(ii) la probabilite totale
{i:x
i
D
X
}
f
X
(x
i
) = 1.
Quand il ny a pas de risque de confusion, notons f
X
f et D
X
D.
En anglais la fonction de masse est appelee probability mass function (PMF) ou probability
density function (PDF).
Variable aleatoire binomiale
Exemple 64. Donner les fm et supports de I
i
, de Y et de X.
Denition 65. Une variable aleatoire binomiale X a une fm
f(x) =
_
n
x
_
p
x
(1 p)
nx
, x = 0, 1, . . . , n, n N, 0 p 1.
On note X B(n, p), et appelle n le denominateur et p la probabilite de succès. Avec n = 1,
cest une variable de Bernoulli.
Remarque : on utilise comme abreviation de a pour distribution.
Le modèle binomial est utilise quand on considère le nombre de succès dune epreuve repetee de
fa con independante un nombre xe de fois, et que chaque essai a la meme probabilite de succès.
Fonctions de masse binomiale
0 2 4 6 8 10
0
.
0
0
0
.
1
5
0
.
3
0
B(10,0.5)
x
f
(
x
)
0 2 4 6 8 10
0
.
0
0
0
.
1
5
0
.
3
0
B(10,0.3)
x
f
(
x
)
0 5 10 15 20
0
.
0
0
0
.
1
5
0
.
3
0
B(20,0.1)
x
f
(
x
)
0 10 20 30 40
0
.
0
0
0
.
1
5
0
.
3
0
B(40,0.9)
x
f
(
x
)
37
Exemples
Exemple 66. Un test contient 20 questions, pour chacune delles il faut choisir la bonne reponse
parmi 5 reponses possibles. La moyenne est obtenue avec 10 reponses justes. Un etudiant choisit ses
reponses au hasard. Donner la loi de son nombre de reponses justes. Quelle est la probabilite quil
reussisse le test ?
Loi geometrique
Denition 67. Une variable aleatoire geometrique X a pour fm
f
X
(x) = p(1 p)
x1
, x = 1, 2, . . . , 0 p 1.
On note X Geom(p), et on appelle p la probabilite de succès.
Elle modelise le temps dattente jusquà un premier evenement, dans une serie dessais independants
ayant la meme probabilite de succès.
Exemple 68. Pour commencer un jeu de societe, des joueurs jettent un de chacun à leur tour. Le
premier qui obtient six commence. Donner les probabilites que le 3ème joueur commence, et
dattendre au moins 6 lances de de avant le debut du jeu.
Theorème 69 (Manque de memoire). Si X Geom(p), alors
Pr(X > n +m [ X > m) = Pr(X > n).
FMs geometrique et binomiale negative
0 10 20 30 40
0
.
0
0
.
2
0
.
4
Geom(0.5)
x + 1
f
(
x
)
0 10 20 30 40
0
.
0
0
.
2
0
.
4
Geom(0.1)
x + 1
f
(
x
)
0 10 20 30 40
0
.
0
0
0
.
1
0
0
.
2
0
NegBin(4,0.5)
x + 4
f
(
x
)
0 10 20 30 40
0
.
0
0
0
.
1
0
0
.
2
0
NegBin(6,0.3)
x + 6
f
(
x
)
38
Loi binomiale negative
Denition 70. Une variable aleatoire binomiale negative X de paramètres n et p a pour fonction de
masse
f
X
(x) =
_
x 1
n 1
_
p
n
(1 p)
xn
, x = n, n + 1, n + 2, . . . , 0 p 1.
On note X NegBin(n, p). Lorsque n = 1, X Geom(p).
Elle modelise le temps dattente jusquau nème succès dans une serie dessais independants ayant la
meme probabilite de succès.
Exemple 71. Deux joueurs lancent successivement une pièce. Quelle est la probabilite que 2 faces
apparaissent avant 5 piles ?
Loi binomiale negative : version alternative
Parfois on ecrit les variables geometriques et binomiale negatives sous une forme plus generale,
prenant Y = X n, et alors la fonction de masse est
f
Y
(y) =
(n +)
()y!
p
(1 p)
y
, y = 0, 1, 2, . . . , 0 p 1, > 0,
o` u
() =
_

0
u
1
e
u
du, > 0
est la fonction Gamma. Ses proprietes principales sont :
(1) = 1;
( + 1) = (), > 0;
(n) = (n 1)!, n = 1, 2, 3, . . . ;
(
1
2
) =
.
Distribution hypergeometrique
Denition 72. On tire sans remise un echantillon de m boules dune urne contenant b blanches et n
noires. Soit X le nombre de boules blanches tirees. Alors
Pr(X = x) =
_
b
x
__
n
mx
_
_
b+n
m
_ , x = max(0, mn), . . . , min(b, m),
et la loi de X est hypergeometrique.
Exemple 73. Jai six botes, dont 2 contiennent du fruit. Si je choisis 3 des 6 au hasard, trouver la loi
du nombre de botes de fruit parmi les 3.
39
Exemples
Exemple 74. Dans le but destimer le nombre de poissons N dans un lac, nous attrapons tout
dabord r poissons, les marquons, et les relachons. Après avoir attendu assez longtemps pour que la
population de poissons soit bien melangee, nous prelevons un autre echantillon de taille s, compose de
0 m s poissons marques. Trouver la loi du nombre de poissons marques, M, dans cet echantillon.
Montrer que la valeur de N qui maximise Pr(M = m) est rs/m, et calculer la meilleure estimation
de N lorsque s = 50, r = 40, et m = 4.
Lidee à la base de cet exemple est utilisee pour estimer les tailles des populations des espèces en
danger, le nombre de toxicomanes, de sans-papiers, etc., dans les populations humaines, etc. Un
problème pratique souvent rencontre est que certains individus deviennent plus dicile à recapturer,
alors que dautres laiment ; ainsi les probabilites de reprise sont heterogènes.
Fonction de repartition
Denition 75. La fonction de repartition (fr) dune variable aleatoire X est
F
X
(x) = Pr(X x), x R.
Si X est discrète, on peut ecrire
F
X
(x) =
{x
i
D
X
:x
i
x}
Pr(X = x
i
),
cest une fonction en escalier avec des sauts aux points du support D
X
de f
X
(x).
Quand il ny a pas de risque de confusion, on note F F
X
.
Exemple 76. Donner le support et les fonctions de masse et de repartition dune variable aleatoire de
Bernoulli.
Exemple 77. Donner la fonction de repartition dune variable aleatoire geometrique.
40
Exemples
La denition suivante generalise le resultat dun jet de de.
Denition 78. Une variable aleatoire discrète uniforme X a pour fm
f
X
(x) =
1
b a + 1
, x = a, a + 1, . . . , b, a < b, a, b Z.
La loi de Poisson apparat partout dans la probabilite et les statistiques.
Denition 79. Une variable aleatoire de Poisson X a pour fm
f
X
(x) =

x
x!
e
, x = 0, 1, . . . , > 0.
On note X Pois().
Simeon-Denis Poisson (17811840)
La vie nest bonne quà deux choses : à faire des mathematiques et à les professer.
41
Fonctions de masse de Poisson
0 5 10 15 20
0
.
0
0
.
3
0
.
6
Pois(0.5)
x
f
(
x
)
0 5 10 15 20
0
.
0
0
.
3
0
.
6
Pois(1)
x
f
(
x
)
0 5 10 15 20
0
.
0
0
0
.
1
0
0
.
2
0
Pois(4)
x
f
(
x
)
0 5 10 15 20
0
.
0
0
0
.
1
0
0
.
2
0
Pois(10)
x
f
(
x
)
Fonctions de repartition de Poisson
0 5 10 15 20
0
.
0
0
.
4
0
.
8
Pois(0.5)
x
F
(
x
)
0 5 10 15 20
0
.
0
0
.
4
0
.
8
Pois(1)
x
F
(
x
)
0 5 10 15 20
0
.
0
0
.
4
0
.
8
Pois(4)
x
F
(
x
)
0 5 10 15 20
0
.
0
0
.
4
0
.
8
Pois(10)
x
F
(
x
)
Proprietes dune fonction de repartition
Theorème 80. Soit (, T, Pr) un espace de probabilite et X : R une variable aleatoire. Sa
fonction de repartition F
X
satisfait :
(a) lim
x
F
X
(x) = 0 ;
(b) lim
x
F
X
(x) = 1 ;
(c) F
X
est non-decroissante, ainsi F
X
(x) F
X
(y) pour x y ;
(d) F
X
est continue à droite, ainsi
lim
t0
F
X
(x +t) = F
X
(x), x R;
(e) Pr(X > x) = 1 F
X
(x) ;
(f) si x < y, alors Pr(x < X y) = F
X
(y) F
X
(x).
42
Remarques
On peut obtenir la fonction de masse à partir de la fonction de repartition par
f(x) = F(x) lim
yx
F(y).
Dans de nombreux cas X ne prend que des valeurs entières, D
X
Z, et alors
f(x) = F(x) F(x 1) pour x Z.
Dorenavant nous ignorerons la plupart du temps lespace de probabilite (, T, Pr) sous-jacent
quand on a aaire à une variable aleatoire X. Nous penserons plutot en termes de X, F
X
(x), et
f
X
(x). On peut legitimer cet oubli mathematiquement.
On peut specier la loi dun variable aleatoire de manière equivalente en disant (par ex.) :
X suit une loi de Poisson avec paramètre ; ou
X Pois() ; ou
en donnant la fonction de masse de X ; ou
en donnant la fonction de repartition de X.
Transformations de variables aleatoires discrètes
Des fonctions à valeurs reelles de variables aleatoires sont elles-meme des variables aleatoires, elles ont
donc aussi des fonctions de masse et de repartition.
Theorème 81. Si X est une variable aleatoire et Y = g(X), alors Y a pour fonction de masse
f
Y
(y) =
x:g(x)=y
f
X
(x).
Exemple 82. Calculer la fonction de masse de Y = I(X 1) lorsque X Pois().
Exemple 83. Soit Y le reste de la division par quatre du total de 2 lances independants dun de.
Calculer la fm de Y .
43
3.2 Esperance slide 112
Esperance
Denition 84. Soit X une variable aleatoire discrète pour laquelle
xD
X
[x[f
X
(x) < , o` u D
X
est
le support de f
X
. Lesperance de X est
E(X) =
xPr(X = x) =
xD
X
xf
X
(x).
E(X) est parfois appelee la moyenne de X. Nous limiterons lutilisation du mot moyenne aux
quantites empiriques.
Lesperance est analogue en mecanique à la notion de centre de gravite dun objet dont la masse
est distribuee selon f
X
.
Exemple 85. Calculer lesperance dune va de Bernoulli de probabilite p.
Exemple 86. Calculer lesperance de X B(n, p).
Exemple 87. Calculer lesperance des variables aleatoires de fms suivantes
f
X
(x) =
4
x(x + 1)(x + 2)
, f
Y
(x) =
1
x(x + 1)
, x = 1, 2, . . . .
Esperance dune fonction
Theorème 88. Soit X une variable aleatoire de fonction de masse f, et soit g une fonction à valeurs
reelles de R. Alors
Eg(X) =
x
g(x)f(x),
lorsque
x
[g(x)[f(x) < .
Exemple 89. Soit X Pois(). Calculer les esperances de
X, X(X 1), X(X 1) (X r + 1), cos(X).
44
Proprietes de lesperance
Theorème 90. Soit X une variable aleatoire desperance nie E(X), et soit a, b R des constantes.
Alors
(a) E() est un operateur lineaire, i.e., E(aX +b) = aE(X) +b ;
(b) si Pr(X = b) = 1, alors E(X) = b ;
(c) si Pr(a < X b) = 1, alors a < E(X) b ;
(d) si g(X) et h(X) ont des esperances nies, alors
Eg(X) +h(X) = Eg(X) + Eh(X);
(e) E(X)
2
E([X[)
2
E(X
2
).
Remarque : La linearite de lesperance, (a), est très utile en pratique.
Exemples
Exemple 91. Soit X = I
1
+ +I
n
, o` u I
1
, . . . , I
n
sont des variables de Bernoulli independantes de
probabilite p. Calculer E(X). Lindependance des I
i
est necessaire ?
Dans lexemple 48, soit X le nombre dhommes qui sen vont avec le correct chapeau. Montrer que
E(X) = 1, pour tout n.
Exemple 92. Soit I
A
, I
B
, . . . les indicatrices des evenements A, B, . . .. Montrer que
I
AB
= I
A
I
B
, I
AB
= 1 (1 I
A
)(1 I
B
), E(I
A
) = Pr(A).
et en deduire la formule dinclusion-exclusion
P
_
n
_
i=1
A
i
_
=
n
r=1
(1)
r+1
1i
1
<<irn
Pr(A
i
1
A
ir
).
Moments dune distribution
Denition 93. Si X a une fm f(x) telle que
x
[x[
r
f(x) < , alors
(a) le rème moment de X est E(X
r
) ;
(b) le rème moment centre de X est E[X E(X)
r
] ;
(c) le rème moment factoriel de X est EX(X 1) (X r + 1) ;
(d) la variance de X est var(X) = E[X E(X)
2
].
Remarque : De tous ces moments lesperance et la variance sont les plus importants, car ils mesurent
la localisation et la dispersion de f
X
. La variance est analogue en mecanique au moment dinertie.
Exemple 94. Calculer la variance du score quand on lance un de.
45
Proprietes de la variance
Theorème 95. Soit X une variable aleatoire dont la variance existe, et soient a, b des constantes.
Alors
var(X) = E(X
2
) E(X)
2
= EX(X 1) + E(X) E(X)
2
;
var(aX +b) = a
2
var(X);
var(X) = 0 X est constante de probabilite 1.
Exemple 96. Calculer les divers moments dune variable aleatoire Poissonienne.
Proprietes de la variance II
Theorème 97. Si X prend ses valeurs dans 0, 1, . . ., r 2, et E(X) < , alors
E(X) =
x=1
Pr(X x),
EX(X 1) (X r + 1) = r
x=r
(x 1) (x r + 1)Pr(X x).
Exemple 98. Soit X Geom(p). Calculer E(X) et var(X).
Exemple 99. Chaque paquet dun certain produit a degales chances de contenir un des n dierents
types de bons de reduction, independamment de chaque autre paquet. Quel est le nombre espere de
paquets que vous devez acheter pour obtenir au moins un de type de chaque bon ?
3.3 Lois Conditionnelles slide 120
Lois conditionnelles
Denition 100. Soit (, T, Pr) un espace de probabilite, sur lequel on denie une variable aleatoire
X, et soit B T avec Pr(B) > 0. Alors la fonction de masse conditionnelle de X sachant B est
f
X
(x [ B) = Pr(X = x [ B) = Pr(A
x
B)/Pr(B),
o` u A
x
= : X() = x.
Theorème 101. La fonction f
X
(x [ B) satisfait
f
X
(x [ B) 0,
x
f
X
(x [ B) = 1,
et est ainsi une fonction de masse bien denie.
Exemple 102. Calculer les fm conditionnelles de X Geom(p), (a) sachant que X > n, (b)
sachant que X n.
46
Esperance conditionnelle
Denition 103. Supposons que
x
[g(x)[f
X
(x [ B) < . Alors lesperance conditionnelle de g(X)
sachant B est
Eg(X) [ B =
x
g(x)f
X
(x [ B).
Theorème 104. Soit X une variable aleatoire desperance E(X) et soit B un evenement avec
Pr(B), Pr(B
c
) > 0. Alors
E(X) = E(X [ B)Pr(B) + E(X [ B
c
)Pr(B
c
).
Plus generalement, lorsque B
i
i=1
est une partition de , Pr(B
i
) > 0 pour tout i, et que la somme
est absolument convergente, alors
E(X) =
i=1
E(X [ B
i
)Pr(B
i
).
Exemples
Exemple 105. La distribution de Poisson tronquee est denie en posant X Pois() et
B = X > 0. Calculer la fonction de masse conditionnelle et lesperance de cette distribution.
3.4 Notions de Convergence slide 124
Convergence des distributions
On veut souvent approcher une distribution par une autre. La base mathematique pour le faire est la
convergence des distributions.
Denition 106. Soient X
n
, X des variables aleatoires dont les fonctions de repartitions sont F
n
,
F. Alors on dit que les variables aleatoires X
n
convergent en distribution (ou en loi) vers X, si,
pour tout x R o` u F est continue, on a
F
n
(x) F(x), n .
On ecrit alors X
n
D
X.
Si D
X
Z, alors F
n
(x) F(x) si f
n
(x) f(x) pour tout x, n .
Lemme 107. n
r
_
n
r
_
1/r! pour tout r N, quand n .
47
Loi des petits nombres
Theorème 108 (Loi des petits nombres). Soit X
n
B(n, p), et supposons que np > 0 lorsque
n , alors la fonction de masse limite de X
n
est Pois().
Exemple 109. Dans lExemple 48 on a vu que la probabilite davoir exactement r points xes dans
une permutation au hasard de n objets est
1
r!
nr
k=0
(1)
k
k!

e
1
r!
as n .
Ainsi le nombre de points xes a une distribution limite de Pois(1).
Loi des petits nombres
0 5 10 15
0
.
0
0
0
.
1
5
B(10,0.5)
x
f
(
x
)
0 5 10 15
0
.
0
0
0
.
1
5
B(20,0.25)
x
f
(
x
)
0 5 10 15
0
.
0
0
0
.
1
5
B(50,0.1)
x
f
(
x
)
0 5 10 15
0
.
0
0
0
.
1
5
Pois(5)
x
f
(
x
)
Fonctions de masse de trois lois binomiales la loi de Poisson, toutes avec esperance 5.
Comparaison numerique
Exemple 110 (Loi binomiale et loi Poisson). Comparer Pr(X 3) pour X B(20, p), avec
p = 0.05, 0.1, 0.2, 0.5 avec les resultats dune approximation de Poisson, en utilisant les fonctions
pbinom et ppois du logiciel R voir
http://www.r-project.org/
Ainsi par exemple, on a :
> pbinom(3,size=20,prob=0.05)
[1] 0.9840985
> ppois(3,lambda=20*0.05)
[1] 0.9810118
48
People versus Collins
Exemple 111. En 1964 un sac-à-main a ete vole à Los Angeles par une jeune femme avec des
cheveux blonds en queue de cheval. La voleuse a disparu, mais peu après on la aper cu dans une
voiture jaune avec un noir barbu avec moustache. La police a ensuite arrete une femme appellee Janet
Collins, qui ressemblait à la description, et avait un ami noir barbu avec moustache, conducteur dune
voiture jaune.
Puisque il manquait de preuves et de temoins ables, le procureur a essaye de convaincre le jury que
Mme Collins et son ami etaient le seul couple à Los Angeles qui aurait pu commettre le delit. Il a
trouve une probabilite p = 1/(12 10
6
) quun couple tire au hasard suivre la description, et ils ont ete
condamne.
Dans un tribunal superieur on a argumente que le nombre de couples X suivant la description devrait
suivre une loi de Poisson avec = np, o` u n est la taille de la population à laquelle le couple
appartient. Pour etre certain que ce couple soit coupable, il faut que Pr(X > 1 [ X 1) soit très
petite. Mais avec n = 10
6
, 2 10
6
, 5 10
6
, 10 10
6
, ces probabilites sont 0.041, 0.081, 0.194,
0.359 : cetait donc loin detre certain quils soient les coupables. Ils ont nalement ete blanchi.
Exemple 112. Soit X
N
une variable hypergeometrique, alors
Pr(X
N
= x) =
_
m
x
__
Nm
nx
_
_
N
n
_ , x = max(0, m +n N), . . . , min(m, n).
Ceci est la distribution du nombre de balles blanches obtenues quand on prelève un echantillon
aleatoire de taille n sans remise dune urne contenant m balles blanches et N m balles noires.
Montrer que lorsque N, m de fa con à ce que m/N p, o` u 0 < p < 1,
Pr(X
N
= x)
_
n
x
_
p
x
(1 p)
nx
, i = 0, . . . , n.
Ainsi la distribution limite de X
N
est B(n, p).
49
4 Variables Aleatoires Continues slide 131
4.1 Notions de Base slide 132
Variables aleatoires continues
Dans beaucoup de situations, on veut travailler avec des variables continues :
le temps jusquà la n du cours (0, 45) min ;
la paire (hauteur, poids) (0, )
2
.
Jusquà present nous avions suppose que le support
D
X
= x R : X() = x,
de X est denombrable, ainsi X est une variable aleatoire discrète. On suppose maintenant que D
X
nest pas denombrable, ce qui implique aussi que lui-meme nest pas denombrable.
Denition 113 (Rappel). Soit (, T, Pr) un espace de probabilite. La fonction de repartition dune
va X denie sur (, T, Pr) est
F(x) = Pr(X x) = Pr(B
x
), x R,
o` u B
x
= : X() x .
Fonction de densite
Denition 114. Une variable aleatoire X est continue sil existe une fonction f(x), appelee la
densite de X, telle que
Pr(X x) = F(x) =
_
x
f(u) du, x R.
Les proprietes de F impliquent (i) f(x) 0, et (ii)
_
f(x) dx = 1.
Remarques :
Evidemment, on a
f(x) =
dF(x)
dx
.
Comme Pr(x < X y) =
_
y
x
f(u) du pour x < y, pour tout x R,
Pr(X = x) = lim
yx
Pr(x < X y) = lim
yx
_
y
x
f(u) du =
_
x
x
f(u) du = 0.
Si X est discrète, alors sa fm f(x) est aussi appelee sa fonction de densite.
50
Motivation
On etudie des variables aleatoires pour plusieurs raisons :
elles apparaissent dans des modèles simples mais puissantspar exemple, la loi exponentielle est la
loi du temps dattente dans un processus o` u des evenements se passent de manière aleatoire ;
elles fournissent des approximations simples mais très utiles pour des problèmes complexespar
exemple, la loi normale apparat comme approximation pour la loi dune moyenne, sous des
conditions assez generales ;
elles sont à la base de la modelisation de problèmes complexes soit en probabilite soit en
statistiquespar exemple, la loi de Pareto est souvent une bonne approximation pour les donnees à
queues lourdes, en nance et pour internet.
On va parler de quelques lois très connues, mais il en a plein dautres. La carte suivante provient de
Leemis and McQueston (2008, American Statistician) . . .
51
Lois de base
Exemple 115 (Uniforme). La variable aleatoire U de densite
f(u) =
_
1
ba
, a < u < b,
0, sinon,
a < b,
est appelee une variable aleatoire uniforme. On la note U U(a, b). Trouver sa fonction de
repartition.
Exemple 116 (Exponentielle). La variable aleatoire X de densite
f(x) =
_
e
x
, x > 0,
0, sinon,
est appelee une variable aleatoire exponentielle de paramètre > 0. On la note X exp().
Trouver sa fonction de repartition, et etablir la propriete de manque de memoire de X :
Pr(X > x +t [ X > t) = Pr(X > x), t, x > 0.
En pratique les vas sont presque toujours soit discrètes ou soit continues, avec quelques exceptions, tel
que la loi de probabilite de la pluie journalière.
52
Loi de gamma
Exemple 117 (Gamma). La variable aleatoire X de densite
f(x) =
_

()
x
1
e
x
, x > 0,
0, sinon,
est appelee une variable aleatoire gamma de paramètres , > 0. Ici sappelle le paramètre de
forme (shape), et sappelle le taux (rate), avec
1
le paramètre dechelle (scale). En posant
= 1 on obtient la densite exponentielle, et quand = 2, 3, . . . on a la densite de Erlang.
2 0 2 4 6 8
0
.
0
0
.
4
0
.
8
exp(1)
x
f
(
x
)
2 0 2 4 6 8
0
.
0
0
.
4
0
.
8
Gamma, shape=5,rate=3
x
f
(
x
)
2 0 2 4 6 8
0
.
0
0
.
4
0
.
8
Gamma, shape=0.5,rate=0.5
x
f
(
x
)
2 0 2 4 6 8
0
.
0
0
.
4
0
.
8
Gamma, shape=8,rate=2
x
f
(
x
)
Loi de Laplace
Exemple 118 (Laplace). La variable aleatoire X de densite
f(x) =

2
e
|x|
, x R, R, > 0,
est appelee une variable aleatoire de Laplace. Trouver sa fonction de repartition.
Pierre-Simon Laplace (17491827) : Theorie Analytique des Probabilites (1814)
Selon Napoleon Bonaparte : Laplace ne traitait aucune question dun bon point de vue : il cherchait
des subtilites de partout, il avait seulement des idees problematiques et enn il portait lesprit de
linniment petit jusque dans ladministration.
53
Loi de Pareto
Exemple 119 (Pareto). La variable aleatoire X de fonction de repartition
F(x) =
_
0, x < ,
1
_
x
_
, x ,
, , > 0,
est appelee une variable aleatoire de Pareto. Trouver sa fonction de densite.
Vilfredo Pareto (18481923) : Professeur à lUniversite de Lausanne, père de leconomie scientique.
Moments
Denition 120. Soient g(x) une fonction à valeurs reelles, et X une variable aleatoire continue de
densite f(x). Alors on denie lesperance de g(X) comme
Eg(X) =
_

g(x)f(x) dx,
en supposant que E[g(X)[ < . En particulier lesperance et la variance de X sont
E(X) =
_

xf(x) dx,
var(X) =
_

x E(X)
2
f(x) dx = E(X
2
) E(X)
2
.
Exemple 121. Calculer lesperance et la variance des distributions : (a) U(a, b) ; (b) exp() ; (c)
gamma ; (d) Pareto.
54
Densites conditionelles
On peut aussi calculer les fonctions de repartitions et densites conditionelles : pour des ensembles
/ R raisonnables on a
F
X
(x [ X /) = Pr(X x [ X /) =
Pr(X x X /)
Pr(X /)
=
_
Ax
f(y) dy
Pr(X /)
,
o` u /
x
= y : y x, y /, et
f
X
(x [ X /) =
_
f
X
(x)
Pr(XA)
, x /,
0, sinon.
Avec I(X /) la variable indicatrice de levenement X /, on peut ecrire
Eg(X) [ X / =
Eg(X) I(X /)
Pr(X /)
,
Exemple 122. Soit X exp(). Trouver la densite et la fonction de repartition de X, sachant que
(a) X < 3, (b) X > 3.
Exemple
Exemple 123. Pour obtenir un visa pour un pays lointain, vous appelez chaque matin à son consulat
à 10.00. Le fonctionnaire ne repond pas aux appels un jour sur deux, et quand il repond, il laisse
lappareil sonner pendant un temps aleatoire T (min) dont la loi est
F
T
(t) =
_
0, t 1,
1 t
1
, t > 1.
(a) Si vous appelez un matin et ne raccrochez pas, quelle est la probabilite que vous ecoutez la
tonalite pendant au moins s minutes ?
(b) Vous decidez dappeler une fois chaque jour, mais de raccrocher sil ny a pas eu de reponse après
s minutes. Trouver la valeur de s qui minimise votre temps decoute à la tonalite.
55
4.2 Notions Supplementaires slide 145
Quantiles
Denition 124. Soit 0 < p < 1. On denie le pième quantile de la fonction de repartition F(x) par
x
p
= infx : F(x) p.
Pour la plupart des variables aleatoire continues, x
p
est unique et vaut x
p
= F
1
(p), o` u F
1
est la
fonction inverse de F. Ainsi x
p
est la valeur pour laquelle Pr(X x
p
) = p. En particulier, on appelle
le 0.5ème quantile la mediane de F.
Exemple 125. Soit U U(0, 1). Montrer que x
p
= p.
Exemple 126. Soit X exp(). Montrer que x
p
=
1
log(1 p).
Exemple 127. Trouver le pième quantile de la loi de Pareto.
Transformations
On considère souvent Y = g(X), o` u g est une fonction connue, et on veut calculer F
Y
et f
Y
à partir
de F
X
et f
X
.
Exemple 128. Soit X exp() et Y = exp(X), trouver F
Y
et f
Y
.
Exemple 129. Soit Y = log(1 U), o` u U U(0, 1). Calculer F
Y
(y) et discuter. Calculer aussi la
densite et la fonction de repartition de W = log U. Expliquer.
Exemple 130. Soit Y = X, o` u X exp() (ainsi Y est le plus petit entier plus grand que X).
Calculer F
Y
(y) et f
Y
(y).
56
Transformation generale
Denition 131. Soient g : R R une fonction et B R un sous-ensemble quelconque de R. Alors
g
1
(B) R est lensemble pour lequel gg
1
(B) = B.
Theorème 132. Soit Y = g(X) une variable aleatoire et B
y
= (, y]. Alors
F
Y
(y) = Pr(Y y) =
_
_
g
1
(By)
f
X
(x) dx, X continue,
xg
1
(By)
f
X
(x), X discrète,
o` u g
1
(B
y
) = x R : g(x) y. Lorsque g est monotone croissante et a pour fonction inverse g
1
,
on a
F
Y
(y) = F
X
g
1
(y), f
Y
(y) =
dg
1
(y)
dy
f
X
g
1
(y), y R.
On obtient un resultat similaire pour g monotone decroissante.
Exemple 133. Soient Y = X
1/
, o` u X exp(1) et , > 0. Trouver les fonctions de repartition
et de densite de la variable aleatoire de Weibull Y .
Probability integral transform
Ecrivons
D
= pour a la meme loi que.
Lemme 134 (Probability integral transform (PIT)). Soient X F une va continue avec fonction de
repartition F, U U(0, 1), et
F
1
(p) = minx : F(x) p, 0 < p < 1.
Alors F
1
(U)
D
= X, et F(X)
D
= U U(0, 1).
Exemple 135. Si X exp(), montrer que
X
D
=
1
log U.
57
La simulation : methode de Monte Carlo
Beaucoup de problèmes probabilistes sont trop dicile à resoudre par la voie analytique, et on utilise
la simulation de variables pseudo-aleatoires, generees sur ordinateur. Ceci sappelle aussi la methode
de Monte Carlo, très souvent utilisee pour approximer les integrales en dimension elevee, . . .
Ici on genère des variables aleatoires U
1
, . . . , U
n
selon la loi U(0, 1) :
n <- 50
u <- runif(n) # generate n U(0,1) variables
u[1:50] # show the first 50 variables
EDF <- function(x,n=length(x)) list(x=sort(x),y=c(1:n)/n) # EDF of u
par(mfrow=c(1,2),pty="s") # set up graphics
lim <- c(0,1) # well fix x-axis of graphs
hist(u,prob=T,nclass=20,xlim=lim) # estimated density
rug(u) # rug showing values of the us
plot(EDF(u),type="s",panel.first={abline(0,1,col="grey")},xlim=lim) # CDF of u
Observer ce quil se passe quand on prend n = 500, 5000, 50000, . . .
La methode dinversion
Le lemme 134 donne un moyen de simuler des variables X
1
, X
2
, . . . , F par la methode
dinversion :
X
1
= F
1
(U
1
), X
2
= F
1
(U
2
), . . . , o` u U
1
, U
2
, . . . U(0, 1).
n <- 5000; lambda <- 3
u <- runif(n) # generate n U(0,1) variables
x <- -log(u)/lambda # transform the us to exp(lambda)
x[1:50] # show the first 50 variables
par(mfrow=c(2,2),pty="s") # set up graphics
lim <- c(0,3) # well fix x-axis of graphs
hist(x,prob=T,nclass=20,xlim=lim) # estimated density
rug(x)
plot(EDF(x),type="s",xlim=lim) # CDF of x
y <- 1/u # transform the us to Pareto
y[1:50] # show the first 50 variables
hist(y,prob=T,nclass=20) # estimated density
rug(y)
plot(EDF(y),type="s") # CDF of y
Observer ce quil se passe quand on prend n = 500, 5000, 50000, . . .
58
4.3 Loi Normale slide 152
Loi normale
Denition 136. Une variable aleatoire X de densite
f(x) =
1
(2)
1/2
exp
_
(x )
2
2
2
_
, x R, R, > 0,
est une variable aleatoire normale desperance et de variance
2
: on ecrit X A(,
2
).
Quand = 0,
2
= 1, la variable aleatoire correspondante Z est normale centree reduite,
Z A(0, 1), de densite
(z) = (2)
1/2
e
z
2
/2
, z R.
Alors
F
Z
(x) = Pr(Z x) = (x) =
_
x
(z) dz =
1
(2)
1/2
_
x
e
z
2
/2
dz.
Cette integrale est tabulee dans le formulaire.
II est à noter que f(x) =
1
(x )/.
Johann Carl Friedrich Gauss (17771855)
La loi normale est souvent appellee la loi gaussienne. Gauss la utilisee pour la combination de
mesures astronomiques et topographiques.
59
Densite normale centree reduite
3 2 1 0 1 2 3
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
N(0,1) density
z
p
h
i
(
z
)
La fameuse courbe en cloche :
(z) = (2)
1/2
e
z
2
/2
, z R.
Proprietes
Theorème 137. La densite (z), la fonction de repartition (z), et les quantiles z
p
de Z A(0, 1)
satisfont, pour tout z R :
(a) la densite est symetrique par rapport à z = 0, i.e., (z) = (z) ;
(b) Pr(Z z) = (z) = 1 (z) = 1 Pr(Z z) ;
(c) les quantiles normaux centres reduits z
p
satisfont z
p
= z
1p
, pour tout 0 < p < 1 ;
(d) z
r
(z) 0 lorsque z , pour tout r > 0. Ceci implique que les moments E(Z
r
) existent
pour tout r N;
(e) on a
(z) = z(z),
(z) = (z
2
1)(z),
(z) = (z
3
3z)(z), . . .
Ceci implique que E(Z) = 0, var(Z) = 1, E(Z
3
) = 0, etc.
(f) Si X A(,
2
), alors Z = (X )/ A(0, 1).
Noter que si X A(,
2
), alors on peut ecrire X = +Z, o` u Z A(0, 1).
60
Valeurs de la fonction (z)
z 0 1 2 3 4 5 6 7 8 9
0.0 .50000 .50399 .50798 .51197 .51595 .51994 .52392 .52790 .53188 .53586
0.1 .53983 .54380 .54776 .55172 .55567 .55962 .56356 .56750 .57142 .57535
0.2 .57926 .58317 .58706 .59095 .59483 .59871 .60257 .60642 .61026 .61409
0.3 .61791 .62172 .62552 .62930 .63307 .63683 .64058 .64431 .64803 .65173
0.4 .65542 .65910 .66276 .66640 .67003 .67364 .67724 .68082 .68439 .68793
0.5 .69146 .69497 .69847 .70194 .70540 .70884 .71226 .71566 .71904 .72240
0.6 .72575 .72907 .73237 .73565 .73891 .74215 .74537 .74857 .75175 .75490
0.7 .75804 .76115 .76424 .76730 .77035 .77337 .77637 .77935 .78230 .78524
0.8 .78814 .79103 .79389 .79673 .79955 .80234 .80511 .80785 .81057 .81327
0.9 .81594 .81859 .82121 .82381 .82639 .82894 .83147 .83398 .83646 .83891
1.0 .84134 .84375 .84614 .84850 .85083 .85314 .85543 .85769 .85993 .86214
1.1 .86433 .86650 .86864 .87076 .87286 .87493 .87698 .87900 .88100 .88298
1.2 .88493 .88686 .88877 .89065 .89251 .89435 .89617 .89796 .89973 .90147
1.3 .90320 .90490 .90658 .90824 .90988 .91149 .91309 .91466 .91621 .91774
1.4 .91924 .92073 .92220 .92364 .92507 .92647 .92786 .92922 .93056 .93189
1.5 .93319 .93448 .93574 .93699 .93822 .93943 .94062 .94179 .94295 .94408
1.6 .94520 .94630 .94738 .94845 .94950 .95053 .95154 .95254 .95352 .95449
1.7 .95543 .95637 .95728 .95818 .95907 .95994 .96080 .96164 .96246 .96327
1.8 .96407 .96485 .96562 .96638 .96712 .96784 .96856 .96926 .96995 .97062
1.9 .97128 .97193 .97257 .97320 .97381 .97441 .97500 .97558 .97615 .97670
2.0 .97725 .97778 .97831 .97882 .97932 .97982 .98030 .98077 .98124 .98169
Remarque : Une table plus detaille se trouve dans le Formulaire. Vous pouvez egalement utiliser la
fonction pnorm du logiciel R : (z) = pnorm(z).
Exemple 138. Calculer
Pr(Z 1.86), Pr(Z 0.53), Pr(1.86 < Z < 0.53), z
0.95
, z
0.025
, z
0.5
.
Exemples et calculs
Exemple 139. La duree en minutes dun cours de math est A(47, 4), mais devrait etre de 45. Donner
la probabilite que (a) le cours se termine tot, (b) le cours se termine avec un retard de plus de 5
minutes.
Exemple 140. Montrer que lesperance et la variance de X A(,
2
) sont et
2
, et trouver le p
quantile de X.
Exemple 141. Calculer la fonction de repartition et la densite de Y = [Z[ et W = Z
2
, o` u
Z A(0, 1).
Exemple 142. Si X A(,
2
), montrer que
M
X
(t) = exp(t +t
2
2
/2), t R,
et en deduire que E(X) = , var(X) =
2
.
61
Approximation normale de la distribution binomiale
La loi normale est une loi centrale en probabilite, en partie car elle peut etre utilisee pour approcher
les probabilites des autres lois. Un des resultats de base est :
Theorème 143 (de MoivreLaplace). Soit X
n
B(n, p), o` u 0 < p < 1, posons
n
= E(X
n
) = np,
2
n
= var(X
n
) = np(1 p),
et soit Z A(0, 1). Alors quand n ,
Pr
_
X
n

n
n
z
_
(z), z R; cest à dire que,
X
n
n
D
Z.
Ceci nous donne une approximation de la probabilite que X
n
r :
Pr(X
n
r) = Pr
_
X
n

n
r
n
n
_
.
=
_
r
n
n
_
,
ce qui correspond à X
n
Anp, np(1 p.
En pratique lapproximation est mauvaise quand minnp, n(1 p) < 5.
Approximations normale et poissoniènne de la binomiale
On a dejà rencontre lapproximation poissoniènne de la loi binomial, valable pour grand n et petite p.
Lapproximation normale est valable pour n grand et minnp, n(1 p) 5. A gauche : un cas o` u
lapproximation normale est valable. A droite : un cas o` u lapproximation poissoniènne est valable.
0 5 10 15
0
.
0
0
0
.
2
0
B(16, 0.5) and Normal approximation
r
d
e
n
s
i
t
y
0 5 10 15
0
.
0
0
0
.
2
0
B(16, 0.1) and Normal approximation
r
d
e
n
s
i
t
y
0 5 10 15
0
.
0
0
0
.
2
0
B(16, 0.5) and Poisson approximation
r
d
e
n
s
i
t
y
0 5 10 15
0
.
0
0
0
.
2
0
B(16, 0.1) and Poisson approximation
r
d
e
n
s
i
t
y
62
Correction de continuite
Une meilleure approximation de Pr(X
n
r) est donnee en rempla cant r par r +
1
2
; le
1
2
est connu
sous le nom de correction de continuite . Donc un meilleure approximation est
Pr(X
n
r)
.
=
_
r +
1
2
np
_
np(1 p)
_
.
0 5 10 15
0
.
0
0
0
.
0
5
0
.
1
0
0
.
1
5
0
.
2
0
Binomial(15, 0.4) and Normal approximation
x
D
e
n
s
it
y
Exemple 144. Soit X B(15, 0.4). Calculer les valeurs exactes et approchees de Pr(X r) pour
r = 1, 8, 10, avec et sans la correction de continuite. Commenter.
Resultats numeRiques
pbinom(c(1,8,10),15,prob=0.4)
[1] 0.005172035 0.904952592 0.990652339
pnorm(c(1,8,10),mean=15*0.4,sd=sqrt(15*0.4*0.6))
[1] 0.004203997 0.854079727 0.982492509
pnorm(c(1,8,10)+0.5,mean=15*0.4,sd=sqrt(15*0.4*0.6))
[1] 0.008853033 0.906183835 0.991146967
Exemple
Exemple 145. Le nombre total detudiants dans une classe est 100.
(a) Chaque etudiant assiste independamment à un cours de mathematiques avec une probabilite de
0.6. Quelle est la taille de la plus petite salle de cours adaptee au nombre detudiants assistant aux
cours, avec une probabilite 0.95 ?
(b) Il y a 14 cours par semestre, et les etudiants decident independamment dassister à chaque cours.
Quelle est maintenant la taille necessaire de la plus petite salle de cours ?
63
4.4 Q-Q Plots slide 164
Quantile-quantile (Q-Q) plots
Une manière pour comparer un echantillon X
1
, . . . , X
n
avec une loi theorique F :
on ordonne les X
j
, donnant
X
(1)
X
(2)
X
(n)
,
puis on fait le graphe contre F
1
1/(n + 1), F
1
2/(n + 1) . . . , F
1
n/(n + 1).
Lidee : dans un cas ideal U
1
, . . . , U
n
U(0, 1) devrait couper lintervalle (0, 1) en n + 1
sous-intervalles de largeurs 1/(n +1), donc on devrait faire le graphe des U
(j)
contre 1/(n +1), . . .,
n/(n + 1), et ainsi des X
(j)
D
= F
1
(U
(j)
) contre des F
1
j/(n + 1) ;
plus le graphe se rapproche dune droite, plus les donnees ressemblent à un echantillon issu de F ;
le plus souvent on prend une version standard de F (e.g., exp(1), A(0, 1)), et alors les
F
1
j/(n + 1) sappellent des plotting positions de Falors la pente donne une estimation du
paramètre de dispersion de la loi, et la valeur à lorigine donne une estimation du paramètre de
position ;
pour les lois exp(1) et A(0, 1) on a respectivement
F
1
_
j
n + 1
_
= log
_
1
j
n + 1
_
, F
1
_
j
n + 1
_
=
1
_
j
n + 1
_
;
il est dicile de tirer des conclusions fortes dun tel graphique pour n petit, car la variabilite est
alors grandeon a tendance à le sur-interpreter.
Hauteurs detudiants
Q-Q plots pour les hauteurs de n = 36 etudiants en SSC, pour les lois exponentielle et normale.
0.0 1.0 2.0 3.0
1
6
0
1
7
0
1
8
0
1
9
0
Exponential QQ plot
Exponential plotting positions
H
e
i
g
h
t

(
c
m
)
2 1 0 1 2
1
6
0
1
7
0
1
8
0
1
9
0
Normal QQ Plot
Normal plotting positions
H
e
i
g
h
t

(
c
m
)
64
n = 36 : Quel echantillon nest pas normal ?
Il y a cinq echantillons de variables normales simulees, et des vrais donnees.
2 1 0 1 2
1
6
5
1
7
5
1
8
5
H
e
i
g
h
t

(
c
m
)
2 1 0 1 2
1
6
0
1
7
0
1
8
0
1
9
0
H
e
i
g
h
t

(
c
m
)
2 1 0 1 2
1
6
0
1
7
0
1
8
0
1
9
0
H
e
i
g
h
t

(
c
m
)
2 1 0 1 2
1
6
5
1
7
5
1
8
5
H
e
i
g
h
t

(
c
m
)
2 1 0 1 2
1
6
0
1
7
0
1
8
0
1
9
0
H
e
i
g
h
t

(
c
m
)
2 1 0 1 2
1
6
5
1
7
5
1
8
5
H
e
i
g
h
t

(
c
m
)
Il y a cinq echantillons de variables normales simulees, et un echantillon gamma simule.
2 0 1 2
1
5
0
1
7
0
1
9
0
2
1
0
H
e
i
g
h
t

(
c
m
)
2 0 1 2
1
5
0
1
7
0
1
9
0
2
1
0
H
e
i
g
h
t

(
c
m
)
2 0 1 2
1
5
0
1
7
0
1
9
0
2
1
0
H
e
i
g
h
t

(
c
m
)
2 0 1 2
1
5
0
1
7
0
1
9
0
2
1
0
H
e
i
g
h
t

(
c
m
)
2 0 1 2
1
5
0
1
7
0
1
9
0
2
1
0
H
e
i
g
h
t

(
c
m
)
2 0 1 2
1
5
0
1
7
0
1
9
0
2
1
0
H
e
i
g
h
t

(
c
m
)
65
Il y a cinq echantillons de variables normales simulees, et un echantillon gamma simule.
3 1 1 2 3
1
5
0
1
7
0
1
9
0
2
1
0
H
e
i
g
h
t

(
c
m
)
3 1 1 2 3
1
5
0
1
7
0
1
9
0
2
1
0
H
e
i
g
h
t

(
c
m
)
3 1 1 2 3
1
5
0
1
7
0
1
9
0
2
1
0
H
e
i
g
h
t

(
c
m
)
3 1 1 2 3
1
5
0
1
7
0
1
9
0
2
1
0
H
e
i
g
h
t

(
c
m
)
3 1 1 2 3
1
5
0
1
7
0
1
9
0
2
1
0
H
e
i
g
h
t

(
c
m
)
3 1 1 2 3
1
5
0
1
7
0
1
9
0
2
1
0
H
e
i
g
h
t

(
c
m
)
66
5. Plusieurs Variables Aleatoires slide 170
E(X) expected value/expectation of X lesperance de X
E(X
r
) rth moment of X rième moment de X
var(X) variance of X la variance de X
M
X
(t) moment generating function of X, or la fonction generatrice des moments
the Laplace transform of f
X
(x) ou la transformee de Laplace de f
X
(x)
f
X,Y
(x, y) joint density/mass function densite/fonction de masse conjointe
F
X,Y
(x, y) joint (cumulative) distribution function fonction de repartition conjointe
f
X|Y
(x [ y) conditional density function densite conditionnelle
f
X,Y
(x, y) = f
X
(x)f
Y
(y) X, Y independent X, Y independantes
X
1
, . . . , X
n
iid
F random sample from F un echantillon aleatoire
E(X
r
Y
s
) joint moment un moment conjoint
cov(X, Y ) covariance of X and Y la covariance de X et Y
corr(X, Y ) correlation of X and Y la correlation de X et Y
E(X [ Y = y) conditional expectation of X lesperance conditionnelle de X
var(X [ Y = y) conditional variance of X la variance conditionnelle de X
X
(r)
rth order statistic rieme statistique dordre
5.1 Idees de Base slide 172
Motivation
Souvent nous avons à considerer la fa con dont plusieurs variables varient simultanement. Quelques
exemples :
Exemple 146. La distribution de (taille, poids) dun etudiant tire au hasard de la classe.
Exemple 147 (Chapeaux, suite de lexample 48). Trois hommes avec chapeaux les permutent
aleatoirement. Soient I
1
lindicatrice de levenement que lhomme 1 ait son chapeau, etc. Touver la loi
conjointe de (I
1
, I
2
, I
3
).
Nos denitions precedentes se generalisent dune manière naturelle à cette situation.
67
Variables aleatoires discrètes
Denition 148. Soit (X, Y ) une variable aleatoire discrète : lensemble
D = (x, y) R
2
: Pr(X, Y ) = (x, y) > 0
est denombrable. La fonction de masse (conjointe) de (X, Y ) est
f
X,Y
(x, y) = Pr(X, Y ) = (x, y), (x, y) R
2
,
et la fonction de repartition (conjointe) de (X, Y ) est
F
X,Y
(x, y) = Pr(X x, Y y), (x, y) R
2
.
Exemple 149 (Chapeaux, suite de lexample 91). Trouver la loi conjointe de (X, Y ) = (I
1
, I
2
+I
3
).
Variables aleatoires continues
Denition 150. La variable aleatoire (X, Y ) est dite continue (conjointement) sil existe une
fonction f
X,Y
(x, y), appelee la densite (conjointe) de (X, Y ), telle que
Pr(X, Y ) A =
_ _
(u,v)A
f
X,Y
(u, v) dudv, / R
2
.
En posant / = (u, v) : u x, v y, on voit que la fonction de repartition (conjointe) de
(X, Y ) peut secrire
F
X,Y
(x, y) = Pr(X x, Y y) =
_
x
_
y
f
X,Y
(u, v) dudv, (x, y) R
2
,
et ceci implique que
f
X,Y
(x, y) =

2
xy
F
X,Y
(x, y).
Exemples continus
Exemple 151. Calculer la fonction de repartition conjointe et Pr(X 1, Y 2) lorsque
f
X,Y
(x, y)
_
e
xy
, y > x > 0,
0, sinon.
68
Distributions marginales et conditionnelles
Denition 152. La densite/fonction de masse marginale de X est
f
X
(x) =
_
y
f
X,Y
(x, y), cas discret,
_
f
X,Y
(x, y) dy, cas continu,
x R.
La densite/fonction de masse conditionnelle de Y sachant X est
f
Y |X
(y [ x) =
f
X,Y
(x, y)
f
X
(x)
, y R,
en supposant que f
X
(x) > 0. Si (X, Y ) est discrète,
f
X
(x) = Pr(X = x), f
Y |X
(y [ x) = Pr(Y = y [ X = x).
Des denitions analogues existent pour f
Y
(y), f
X|Y
(x [ y), et pour les fonctions de repartition
conditionnelles F
X|Y
(x [ y), F
Y |X
(y [ x).
Exemples
Exemple 153. Calculer les fms conditionnelles de Y sachant X, et les fm marginales de
lexemple 149.
Exemple 154. Calculer les densites marginales et conditionelles pour lexemple 151.
Exemple 155. Chaque jour je re cois un nombre demails dont la loi est Poissonienne, avec paramètre
= 100. Chacun est un spam independemment avec probabilite p = 0.9. Trouver la loi du nombre de
bons emails que je re cois. Sachant que jai re cu 15 bons, trouver la loi du nombre total que jai re cu.
Variables aleatoires multivariees
1
, . . . , X
n
des vas denies sur le meme espace de probabilite. Leur
fonction de repartition conjointe est
F
X
1
,...,Xn
(x
1
, . . . , x
n
) = Pr(X
1
x
1
, . . . , X
n
x
n
)
et leur densite/fonction de masse conjointe est
f
X
1
,...,Xn
(x
1
, . . . , x
n
) =
_
Pr(X
1
= x
1
, . . . , X
n
= x
n
), cas discret,
n
F
X
1
,...,Xn
(x
1
,...,xn)
x
1
xn
, cas continu.
On denit de manière analogue dans le cas bivarie, les densites conditionnelles et marginales, les
fonctions de repartition, etc., en rempla cant (X, Y ) par X = X
A
, Y = X
B
, o` u /, B 1, . . . , n et
/ B = . Donc par exemple, si n = 4, on peut considerer la loi marginale de (X
1
, X
2
) et sa loi
conditionelle sachant (X
3
, X
4
).
Par la suite tout peut etre generalise à n variables, mais nous nous limiterons la plupart du temps au
cas bivarie.
69
Loi multinomiale
Denition 157. La variable aleatoire (X
1
, . . . , X
k
) a la loi multinomiale de denominateur m et
probabilites (p
1
, . . . , p
k
) si sa fonction de masse est
f(x
1
, . . . , x
k
) =
m!
x
1
! x
k
!
p
x
1
1
p
x
2
2
p
x
k
k
, x
1
, . . . , x
k
0, . . . , m,
k
j=1
x
j
= m,
o` u m N et p
1
. . . , p
k
[0, 1], avec p
1
+ +p
k
= 1.
Cette loi apparat comme la loi du nombre dindividus dans les categories 1, . . . , k quand m
individus independants tombent dans les classes avec des probabilites p
1
, . . . , p
k
. Elle generalise la
loi binomiale à k > 2 categories.
Exemple 158 (Votation). n etudiants votent pour trois candidats pour la presidence de leur syndicat.
Soient X
1
, X
2
, X
3
les nombres de votes correspondants, et supposons que les n etudiants votent
independamment avec des probabilites p
1
= 0.45, p
2
= 0.4, et p
3
= 0.15. Trouver la loi conjointe de
X
1
, X
2
, X
3
, calculer la loi marginale de X
3
, et la loi conditionnelle de X
1
sachant X
3
= x
3
.
Independance
Denition 159. Deux variables aleatoires X, Y denies sur un meme espace de probabilite sont
independantes si
Pr(X /, Y B) = Pr(X /)Pr(Y B), /, B R.
En posant / = (, x] et B = (, y], on obtient en particulier
F
X,Y
(x, y) = = F
X
(x)F
Y
(y), x, y R,
impliquant la condition equivalente suivante
f
X,Y
(x, y) = f
X
(x)f
Y
(y), x, y R, (1)
qui sera notre critère dindependance. Cette condition porte sur les fonctions f
X,Y
(x, y), f
X
(x),
f
Y
(y) : X, Y sont independantes ssi (1) reste vrai pour tout x, y R.
Si X, Y sont independantes, alors pour tout x tel que f
X
(x) > 0,
f
Y |X
(y [ x) =
f
X,Y
(x, y)
f
X
(x)
=
f
X
(x)f
Y
(y)
f
X
(x)
= f
Y
(y), y R.
Ainsi la connaissance de la valeur prise par X naecte pas la densite de Y : cest une signication
evidente de lindependance. Par symetrie f
X|Y
(x [ y) = f
X
(x) pour tout y tel que f
Y
(y) > 0.
70
Exemples
Exemple 160. (X, Y ) sont-elles independantes dans (a) lExemple 149 ? (b) lExemple 151 ? (c)
quand
f
X,Y
(x, y)
_
e
3x2y
, x, y > 0,
0, sinon.
Denition 161. Un echantillon aleatoire de taille n issu dune distribution F de densite f est un
ensemble de n variables aleatoires independantes qui ont toutes une distribution F. On ecrit
X
1
, . . . , X
n
iid
F ou X
1
, . . . , X
n
iid
f.
Par lindependance, la densite conjointe de X
1
, . . . , X
n
iid
f est
f
X
1
,...,Xn
(x
1
, . . . , x
n
) =
n
j=1
f
X
(x
j
).
Exemple 162. Si X
1
, X
2
, X
3
iid
exp(), donner leur densite conjointe.
Lois mixtes
On rencontre parfois les lois avec X discrète et Y continue, ou vice versa.
Exemple 163. Une grande compagnie dassurance observe que la loi du nombre de sinistres X
pendant une annee pour ses clients ne suit pas une loi de Poisson. Pourtant, un sinistre est un
evenement rare, et donc il semble raisonnable que la loi de petits nombres sapplique. Pour modeliser
X, on suppose que pour chaque client, le nombre de sinistres X pendant une annee suit une loi de
Poisson Pois(y), mais que Y Gamma(, ) : le nombre moyen de sinistres pour un client avec
Y = y est alors E(X [ Y = y) = y, car certain clients sont plus aptes à avoir des sinistres que
dautres.
Trouver la loi conjointe de (X, Y ), la loi marginale de X, et la loi conditionelle de Y sachant X = x.
71
5.2 Dependance slide 184
Moments conjoints
Denition 164. Soient X, Y des variables aleatoires de densite f
X,Y
(x, y). Alors si
E[g(X, Y )[ < , on peut denir lesperance de g(X, Y ) comme
Eg(X, Y ) =
_
x,y
g(x, y)f
X,Y
(x, y), cas discret,
__
g(x, y)f
X,Y
(x, y) dxdy, cas continu.
En particulier on denie les moments conjoints et les moments centraux conjoints par
E(X
r
Y
s
), E[X E(X)
r
Y E(Y )
s
] , r, s N.
Le plus important dentre eux est la covariance de X et Y ,
cov(X, Y ) = E[X E(X) Y E(Y )] = E(XY ) E(X)E(Y ).
Proprietes de la covariance
Theorème 165. Soient X, Y, Z des variables aleatoires et a, b, c, d R des constants. La covariance
satisfait :
cov(X, X) = var(X);
cov(a, X) = 0;
cov(X, Y ) = cov(Y, X), (symetrie);
cov(a +bX +cY, Z) = b cov(X, Z) +c cov(Y, Z), (bilinearite);
cov(a +bX, c +dY ) = bd cov(X, Y );
var(aX +bY +c) = a
2
var(X) + 2ab cov(X, Y ) +b
2
var(Y );
cov(X, Y )
2
var(X)var(Y ), (inegalite de CauchySchwarz).
Independance et covariance
Si X et Y sont independants et g(X), h(Y ) des fonctions dont les esperances existent, alors
Eg(X)h(Y ) = = Eg(X)Eh(Y ).
En posant g(X) = X E(X) et h(Y ) = Y E(Y ), on voit que si X et Y sont independants, alors
cov(X, Y ) = = 0.
Donc X, Y indep cov(X, Y ) = 0. Pourtant, la reciproque est fausse.
72
Combinaisons lineaires de variables aleatoires
Soient X
1
, . . . , X
n
des vas et a, b
1
, . . . , b
n
des constantes. Alors
E(a +b
1
X
1
+ +b
n
X
n
) = a +
n
j=1
b
j
E(X
j
),
var(a +b
1
X
1
+ +b
n
X
n
) =
n
j=1
b
2
j
var(X
j
) +
j=k
b
j
b
k
cov(X
j
, X
k
).
Si X
1
, . . . , X
n
sont indeps, alors cov(X
j
, X
k
) = 0, j ,= k, ainsi
var(a +b
1
X
1
+ +b
n
X
n
) =
n
j=1
b
2
j
var(X
j
).
Exemple 166. Soient X
1
, X
2
des vas indeps avec E(X
1
) = 1, var(X
1
) = 1, E(X
2
) = 2,
var(X
2
) = 4, et Y = 16 + 5X
1
6X
2
. Calculer E(Y ), var(Y ).
Correlation
La covariance depend des unites de mesure, et donc on utilise souvent la mesure de dependance
suivante.
Denition 167. La correlation de X, Y est denie par
corr(X, Y ) =
cov(X, Y )
var(X)var(Y )
1/2
.
Ceci mesure la dependance lineaire entre X et Y .
Exemple 168. On peut modeliser lheredite dune caracteristique genetique quantitative comme suit.
Soit X sa valeur pour un parent, et Y
1
et Y
2
ses valeurs pour deux enfants.
Soient Z
1
, Z
2
, Z
3
iid
A(0, 1) et
X = Z
1
, Y
1
= Z
1
+ (1
2
)
1/2
Z
2
, Y
2
= Z
1
+ (1
2
)
1/2
Z
3
, [[ < 1.
Calculer E(X), E(Y
j
), corr(X, Y
j
) et corr(Y
1
, Y
2
).
Proprietes de la correlation
Theorème 169. Soient X, Y des variables aleatoires de correlation = corr(X, Y ), alors
(a) 1 1 ;
(b) si = 1, alors il existe a, b, c R telles que aX +bY +c = 0 avec une probabilite de 1 (X et
Y sont alors dependants lineairement) ;
(c) si X, Y sont independantes, alors corr(X, Y ) = 0 ;
(d) leet de la transformation (X, Y ) (a +bX, c +dY ) est corr(X, Y ) sign(bd)corr(X, Y ).
73
Limitations de la correlation
Notez que :
la correlation est une mesure de dependance lineaire, comme dans les panneaux superieurs
ci-dessous ;
on peut avoir une forte dependance non-lineaire, mais correlation zero, comme dans le panneau en
bas à gauche ;
une correlation peut etre forte mais specieuse, comme en bas à droite, o` u deux sous-populations,
chacune sans correlation, sont combinees.
4 2 0 2 4
2
0
2
4
rho=0.3
x
y
4 2 0 2 4
2
0
2
4
rho=0.9
x
y
4 2 0 2 4
2
0
2
4
rho=0
x
y
4 2 0 2 4
2
0
2
4
rho=0.9
x
y
Correlation ,= lien de causalite
Deux variables peuvent etre très correlees sans que lune cause des changements dans lautre.
Le panneau à gauche montre une forte dependance entre le nombre dantennes de transmission pour
natels, et le nombre de naissances en UK. Est-ce que ces transmissions augmentent la fertilite ?
Le panneau à droite montre que cette dependance disparait quand on prend en compte la taille de
la population : plus il y de monde, plus il y a de naissances et dantennes.
20 50 200 1000 5000
2
e
+
0
2
2
e
+
0
3
2
e
+
0
4
rho=0.92
Number of transmitter masts
T
o
t
a
l

b
i
r
t
h
s

i
n

2
0
0
9
20 50 200 1000 5000
1
0
1
2
1
4
1
8
2
2
rho=0.09
Number of transmitter masts
B
i
r
t
h

r
a
t
e

i
n

2
0
0
9
74
Esperance conditionnelle
Denition 170. Soit g(X, Y ) une fonction dun vecteur aleatoire (X, Y ). Son esperance
conditionnelle sachant X = x est
Eg(X, Y ) [ X = x =
_
y
g(x, y)f
Y |X
(y [ x), dans le cas discret,
_
g(x, y)f
Y |X
(y [ x) dy, dans le cas continu,
à condition que f
X
(x) > 0 et E[g(X, Y )[ [ X = x < . Noter que cest une fonction de x.
Exemple 171. Calculer lesperance et la variance conditionelle du nombre total demails re cu dans
lExemple 155, sachant que lon a re cu b emails bons.
Esperance et conditionnement
Il est parfois plus facile de calculer Eg(X, Y ) par etapes :
Theorème 172. Si les esperances requises existent, alors
Eg(X, Y ) = E
X
[Eg(X, Y ) [ X = x] ,
varg(X, Y ) = E
X
[varg(X, Y ) [ X = x] + var
X
[Eg(X, Y ) [ X = x] .
o` u E
X
et var
X
representent lesperance et la variance par rapport à la loi de X.
Exemple 173. n = 200 personnes passent devant un artiste de rue à un jour donne. Chacune dentre
elles decident independamment avec probabilite p = 0.05 de lui donner de largent. Les dons sont
independants, et ont pour esperance = 2$ et variance
2
= 1$
2
. Trouver lesperance et la variance
de la quantite dargent quil re coit.
75
5.3 Fonctions Generatrices slide 195
Denition
Denition 174. On denit la fonction generatrice des moments dune variable aleatoire X par
M
X
(t) = E(e
tX
)
pour t R tel que M
X
(t) < .
M
X
(t) est aussi appele la transformee de Laplace de f
X
(x).
La FGM est utile comme resume de toutes les proprietes de X, on peut ecrire
M
X
(t) = E(e
tX
) = E
_

r=0
t
r
X
r
r!
_
=
r=0
t
r
r!
E(X
r
),
do` u on peut obtenir tous les moments E(X
r
) par dierentiation.
Exemple 175. Calculer M
X
(t) lorsque : (a) X est une variable indicatrice ; (b) X B(n, p) ; (c)
X Pois() ; (d) X exp().
Theorèmes importants I
Theorème 176. Soit M(t) la FGM dun variable aleatoire X, alors
M
X
(0) = 1;
M
a+bX
(t) = e
at
M
X
(bt);
E(X
r
) =

r
M
X
(t)
t
r
t=0
;
E(X) = M
X
(0);
var(X) = M
X
(0) M
X
(0)
2
.
Exemple 177. Trouver lesperance et la variance de X exp().
Theorèmes importants II
Theorème 178 (Pas de preuve). Il existe une bijection entre les fonction de repartitions F
X
(x) et les
fonctions generatrices des moments M
X
(t).
Theorème 179 (Continuite, pas de preuve). Soient X
n
, X des variables aleatoires avec fonctions
de repartitions F
n
, F, dont les FGMs M
n
(t), M(t) existent pour 0 [t[ < b. Sil existe un
0 < a < b tel que M
n
(t) M(t) pour [t[ a quand n , alors X
n
D
X, cest à dire,
F
n
(x) F(x) en chaque x R o` u F est continue.
Exemple 180. Soit X
n
B(n, p) et X Pois(). Montrer que lorsque n , p 0 de fa con à
ce que np ,
X
n
D
X.
76
Combinaisons lineaires
Theorème 181. Soient a, b
1
, . . . , b
n
R et X
1
, . . . , X
n
des vas indeps dont les FGMs existent. Alors
Y = a +b
1
X
1
+ +b
n
X
n
a pour FGM
M
Y
(t) = = e
ta
n
j=1
M
X
j
(tb
j
).
En particulier, si X
1
, . . . , X
n
est un echantillon aleatoire, alors S = X
1
+ +X
n
a pour FGM
M
S
(t) = M
X
(t)
n
.
1
, X
2
ind
Pois(), Pois(). Trouver la loi de X
1
+X
2
.
1
, . . . , X
n
des vas indeps, X
j
A(
j
,
2
j
). Montrer que
Y = a +b
1
X
1
+ +b
n
X
n
N(a +b
1
1
+ +b
n
n
, b
2
1
2
1
+ +b
2
n
2
n
) :
une combinaison lineaire de vas normales est normale.
Fonction generatrice des cumulants
Denition 184. La fonction generatrice des cumulants (FGC) de X est K
X
(t) = log M
X
(t).
Les cumulants
r
de X sont denis par
K
X
(t) =
r=1
t
r
r!
r
,
r
=
d
r
K
X
(t)
dt
r
t=0
de manière equivalente.
Il est facile de verier que E(X) =
1
and var(X) =
2
.
Exemple 185. Calculer la FGC et les cumulants de (a) X A(,
2
) ; (b) Y Pois().
Le resultat suivant est un corollaire du Theorème 181.
Corollaire 186. Soient a, b
1
, . . . , b
n
des constantes et X
1
, . . . , X
n
des variables aleatoires
independantes, alors
K
a+b
1
X
1
++bnXn
(t) = ta +
n
j=1
K
X
j
(tb
j
).
77
Fonction generatrice des moments : Cas multivarie
Denition 187. La fonction generatrice des moments (FGM) dun vecteur aleatoire
X
p1
= (X
1
, . . . , X
p
)
T
est
M
X
(t) = E(e
t
T
X
) = E(e
p
r=1
trXr
), t T ,
o` u T = t R
p
: M
X
(t) < . Soient le rème et (r, s)ème elements du vecteur de lesperance
(mean vector) E(X)
p1
et de la matrice de (co)variance (covariance matrix) var(X)
pp
, les
quantites E(X
r
) et cov(X
r
, X
s
).
Elle a les proprietes suivantes :
0 T , donc M
X
(0) = 1 ;
on a
E(X)
p1
= M
X
(0) =
M
X
(t)
t
t=0
, var(X)
pp
=

2
M
X
(t)
tt
T
t=0
M
X
(0)M
X
(0)
T
;
si / 1, . . . , p, alors X
A
et X
A
c sont independantes ssi
M
X
(t) = E(e
t
T
A
X
A
+t
T
A
c
X
A
c
) = M
X
A
(t
A
)M
X
A
c
(t
A
c ), t T ;
il y a une injection entre les FGMs et les lois de probabilites.
Fonction generatrice des cumulants : Cas multivarie
Denition 188. La fonction generatrice des cumulants (FGC) dun vecteur aleatoire
X
p1
= (X
1
, . . . , X
p
)
T
est
K
X
(t) = log M
X
(t) = log E(e
t
T
X
), t T ,
o` u T = t R
p
: M
X
(t) < .
Elle a les proprietes suivantes :
0 T , donc K
X
(0) = 0 ;
on a
E(X)
p1
= K
X
(0) =
K
X
(t)
t
t=0
, var(X)
pp
=

2
K
X
(t)
tt
T
t=0
;
si / 1, . . . , p, alors X
A
et X
A
c sont independantes ssi
K
X
(t) = log E(e
t
T
A
X
A
+t
T
A
c
X
A
c
) = K
X
A
(t
A
) +K
X
A
c
(t
A
c ), t T ;
il y a une injection entre les FGCs et les lois de probabilites.
78
Exemples
Exemple 189. Les emails arrivent comme processus de Poisson avec taux (jour)
1
: le nombre
demails qui arrivent chaque jour suit la loi de Poisson de paramètre . Chacun est un spam avec
probabilite p. Montrer que les nombres de bons emails et de spams sont des variables independantes
Poissoniennes de paramètres (1 p) et p.
Parenthèse : Fonction caracteristique
Beaucoup de distributions nont pas de FGM, car E(e
tX
) < seulement pour t = 0. Dans ce cas, la
transformee de Laplace de la densite nexiste pas. Par contre la transformee de Fourier existe, ce qui
nous mène à la denition suivante.
Denition 190. Soit i =
1. La fonction caracteristique de X est
X
(t) = E(e
itX
), t R.
Chaque variable aleatoire a une fonction caracteristique, qui possède les memes proprietes cles que la
FGM. Les fonctions caracteristiques sont cependant plus compliquees à traiter, car elles font appel à
de lanalyse complexe.
Theorème 191. X et Y ont la meme fonction de repartition si et seulement si elles ont la meme
fonction caracteristique. Si X est continue et a pour densite f et pour fonction caracteristique alors
f(x) =
1
2
_

e
itx
(t) dt
pour tout x o` u f est dierentiable.
5.4 Loi Normale Multivariee slide 205
Denition
Denition 192. Soient = (
1
, . . . ,
n
)
T
R
n
, et une matrice n n denie positive composee
delements
jk
. Alors on dit que le vecteur aleatoire X = (X
1
, . . . , X
n
)
T
de densite
f(x; , ) =
1
(2)
p/2
[[
1/2
exp
_
1
2
(x )
T
1
(x )
_
, x R
n
, (2)
a une distribution normale multivariee desperance
n1
et de matrice de dispersion
nn
; on ecrit
X A
n
(, ). Ceci implique que
E(X
j
) =
j
, var(X
j
) =
jj
, cov(X
j
, X
k
) =
jk
.
On verra que si
jk
= 0, alors X
j
et X
k
sont independantes.
79
Densites normales bivariees
PDF normale avec n = 2,
1
=
2
= 0,
11
=
22
= 1, et correlation
=
12
/(
11
22
)
1/2
= 0, 0.5, 0.9.
FGM de A
p
Lemme 193. (a) La FGM de X A
p
(, ) est
M
X
(t) = E(e
t
T
X
) = E(e
p
r=1
trXr
) = exp
_
t
T
+
1
2
t
T
t
_
, t R
p
.
(b) Si / 1, . . . , p, et X
A
denote le sous-ensemble correspondant de X, alors
X
A
X
A
c
A,A
c = 0.
(c) Si X
1
, . . . , X
n
iid
A(,
2
), alors X
n1
= (X
1
, . . . , X
n
)
T
A
n
(1
n
,
2
I
n
).
(d) Les combinaisons lineaires de variables normales sont normales :
a
r1
+B
rp
X A
r
(a +B, BB
T
),
o` u on suppose que [BB
T
[ > 0.
1
, . . . , X
n
iid
N(0,
2
), trouver la loi de Y = BX quand
B =
_
_
_
_
1 1 1 1
1 1 1 1
1 1 1 1
1 1 1 1
_
_
_
_
.
80
Distributions marginales et conditionnelles
Theorème 195. Soit X A
p
(
p1
,
pp
), ou [[ > 0, et soit /, B 1, . . . , p avec
[/[ = q < p, [B[ = r < p et / B = .
Soient
A
,
A
et
AB
respectivement le q 1 sous-vecteur de , q q et q r sous-matrices de
conformees avec /, //, and /B. Alors
(a) la loi marginale de X
A
est normale,
X
A
A
q
(
A
,
A
);
et
(b) la loi conditionelle de X
A
sachant X
B
= x
B
est normale,
X
A
[ X
B
= x
B
A
q
_
A
+
AB
1
B
(x
B

B
),
A

AB
1
B

BA
_
.
Exemple
Exemple 196. Soit (X
1
, X
2
) la paire (hauteur (cm), poids (kg)) pour une population de personnes
agee de vingt ans. Pour modeliser ceci, on prend
=
_
180
70
_
, =
_
225 90
90 100
_
.
(a) Trouver les lois marginales de X
1
et de X
2
, et la correlation corr(X
1
, X
2
).
(b) Est-ce que les lois marginales determinent la loi conjointe ?
(c) Trouver les lois conditionelles de X
2
sachant que X
1
= x
1
et de X
1
sachant que X
2
= x
2
.
Loi normale bivaree
La densite normale bivariee pour (X
1
, X
2
) =(hauteur, poids), ainsi que les droites
E(X
2
[ X
1
= x
1
) = 70 + 0.4(x
1
180) (bleu) et E(X
1
[ X
2
= x
2
) = 180 + 0.9(x
2
70) (vert).
150 160 170 180 190 200 210
5
0
6
0
7
0
8
0
9
0
x1
x
2
81
Francis Galton (18221911)
Donnees de Galton
Galton a obtenu les hauteurs (pouces) des parents et de leurs enfants, montre par la droite.
La pente de la droite < 1 : les parents grands ont les enfants plus petits, en moyenne, et les parents
petits ont les enfants plus grands, en moyenne.
82
5.4 Transformations slide 214
Rappel : Transformation de variables aleatoires
On veut souvent calculer des lois de variables aleatoires à partir dautres variables aleatoires.
Soit Y = g(X), o` u g est une fonction connue. On veut calculer F
Y
et f
Y
à partir de F
X
et f
X
.
Soient g : R R, B R, et g
1
(B) R lensemble pour lequel gg
1
(B) = B. Alors
Pr(Y B) = Prg(X) B = PrX g
1
(B),
car X g
1
(B) ssi g(X) = Y gg
1
(B) = B.
Pour trouver F
Y
(y), on prend B
y
= (, y], nous donnant
F
Y
(y) = Pr(Y y) = Prg(X) B
y
= PrX g
1
(B
y
).
Si la fonction g est monotone avec inverse g
1
, on a
f
Y
(y) =
dF
Y
(y)
dy
=
dF
X
g
1
(y)
dy
=
dg
1
(y)
dy
f
X
g
1
(y)
X bivariee
On veut calculer Pr(Y B), avec Y R
d
fonction de X R
2
et
Y =
_
_
_
Y
1
.
.
.
Y
d
_
_
_
=
_
_
_
g
1
(X
1
, X
2
)
.
.
.
g
d
(X
1
, X
2
)
_
_
_
= g(X).
Soient g : R
2
R
d
une fonction connue, B R
d
, et g
1
(B) R
2
lensemble pour lequel
gg
1
(B) = B. Alors
Pr(Y B) = Prg(X) B = PrX g
1
(B).
1
, X
2
iid
exp(), calculer la loi de X
1
+X
2
.
83
Transformations de densite conjointe continue
Theorème 198. Soient X = (X
1
, X
2
) R
2
un vecteur aleatoire continu, Y = (Y
1
, Y
2
) avec
Y
1
= g
1
(X
1
, X
2
) et Y
2
= g
2
(X
1
, X
2
), o` u :
(a) le système dequations y
1
= g
1
(x
1
, x
2
), y
2
= g
2
(x
1
, x
2
) peut etre resolu pour tout (y
1
, y
2
),
donnant les solutions x
1
= h
1
(y
1
, y
2
), x
2
= h
2
(y
1
, y
2
) ; et
(b) g
1
and g
2
sont continuement dierentiables et ont pour Jacobien
J(x
1
, x
2
) =
g
1
x
1
g
1
x
2
g
2
x
1
g
2
x
2
qui est positif si f

X
1
,X
2
(x
1
, x
2
) > 0.
Alors
f
Y
1
,Y
2
(y
1
, y
2
) = f
X
1
,X
2
(x
1
, x
2
) [J(x
1
, x
2
)[
1
x
1
=h
1
(y
1
,y
2
),x
2
=h
2
(y
1
,y
2
)
.
Exemple 199. Calculer la densite conjointe de X
1
+X
2
et X
1
X
2
lorsque X
1
, X
2
iid
N(0, 1).
Exemple 200. Calculer la densite conjointe de X
1
+X
2
et X
1
/(X
1
+X
2
) lorsque X
1
, X
2
iid
exp().
Sommes de variables independantes
Theorème 201. Soient X, Y des variables aleatoires independantes, alors la pdf de leur somme
S = X +Y est la convolution f
X
f
Y
des pdfs f
X
, f
Y
:
f
S
(s) = f
X
f
Y
(s) =
_
_
f
X
(x)f
Y
(s x) dx, X, Y continues,
x
f
X
(x)f
Y
(s x), X, Y discrètes.
84
Estimation de risque
Lestimation du risque est essentiel dans beaucoup dapplications, telles que les marches nanciers, les
centrales nucleaires, . . .. Souvent on a besoin de calculer leect devenements rares pour plusieures
variables ensemble, avec peu dinformation sur leur loi conjointe. Pour etre concret, soient X
1
, X
2
des chocs negatifs dans un marche nancier, et considerons S = X
1
+X
2
, dont on doit estimer les
quantiles s
1
, tels que
Pr(S s
1
) = 1 , Pr(S > s
1
) = ,
pour petit. On va considerer deux cas :
X
1
, X
2
A(,
2
), avec correlation ;
X
1
, X
2
ind
Pareto(
1
2
).
Il se trouve que
s
1,Normale
2z
1,Normale
, 2z
1,Pareto
< s
1,Pareto
:
dans le cas normale (souvent utilise en pratique) le double du risque marginale est une borne
superieure pour le risque conjoint, mais dans le cas Pareto cest une borne inferieure. Donc si lon base
des calculs de risque sur la loi normale mais la realite est Pareto, les pertes peuvent etre beaucoup
plus grandes que prevue.
Cas multivariee
Theorème 198 setend aux vecteurs aleatoires de densite continue Y = g(X) R
n
, o` u X R
n
est
une variable continue :
(X
1
, . . . , X
n
) (Y
1
= g
1
(X
1
, . . . , X
n
), . . . , Y
n
= g
n
(X
1
, . . . , X
n
)).
si la transformation inverse h existe, et a pour Jacobien
J(x
1
, . . . , x
n
) =
g
1
x
1

g
1
xn
.
.
.
.
.
.
.
.
.
gn
x
1

gn
xn
,
on trouve que
f
Y
1
,...,Yn
(y
1
, . . . , y
n
) = f
X
1
,...,Xn
(x
1
, . . . , x
n
) [J(x
1
, . . . , x
n
)[
1
,
evaluee à x
1
= h
1
(y
1
, . . . , y
n
), . . . , x
n
= h
n
(y
1
, . . . , y
n
).
Theorème 202. Soient X
1
, . . . , X
n
des vecteurs aleatoires independantes, alors la pdf de
S = X
1
+ +X
n
est la convolution
f
S
(s) = f
X
1
f
Xn
(s).
85
5.6 Statistiques dOrdre slide 221
Denition
Denition 203. Les statistiques dordre des vas X
1
, . . . , X
n
sont les valeurs ordonnees
X
(1)
X
(2)
X
(n1)
X
(n)
.
Si les X
1
, . . . , X
n
sont continues, alors legalite de deux delles est impossible et
X
(1)
< X
(2)
< < X
(n1)
< X
(n)
.
En particulier, le minimum est X
(1)
, le maximum est X
(n)
, et la mediane est X
(m+1)
si n = 2m+1
est impair, et
1
2
(X
(m)
+X
(m+1)
) si n = 2m est pair. La mediane fait ressortir une position centrale de
lensemble des X
j
.
1
, . . . , X
n
iid
F, issu dune distribution continue de densite f, alors :
Pr(X
(n)
x) = F(x)
n
;
Pr(X
(1)
x) = 1 1 F(x)
n
;
f
X
(r)
(x) =
n!
(r 1)!(n r)!
F(x)
r1
f(x)1 F(x)
nr
, r = 1, . . . , n.
Exemple 205. Si X
1
, X
2
, X
3
iid
exp(), donner les densites des X
(r)
.
Exemple 206. Abelard et Heloise se donnent rendez-vous pour travailler. Chacun est retarde
independamment, et ils arrivent à un temps distribue uniformement jusquà une heure après le temps
agree. Trouver la loi et lesperance du temps auquel le premier arrive, et donner la densite de son
temps dattente. Trouver lesperance du temps auquel ils peuvent commencer à travailler.
86
6. Approximation et Convergence slide 224
Motivation
Il est souvent dicile de calculer la probabilite p exacte dun evenement dinteret, et on doit
lapproximer. Approches possibles :
chercher à borner p ;
approximation analytique, souvent par appel aux lois des grands nombres et au theorème central
limite ;
approximation numerique, souvent par des methodes de Monte Carlo.
Les dernières approches utilisent la notion de la convergence des suites de vas, que nous allons
etudier dans ce chapitre.
Nous avons dejà vu plusieurs exemples de ces idees : approximation normale de la loi binomiale, loi de
petits nombres, . . .
6.1 Inegalites slide 226
Inegalites
Theorème 207. Soient X une variable aleatoire, a > 0 constante, h une fonction non-negative et g
une fonction convexe, alors
Prh(X) a Eh(X)/a, (inegalite de base)
Pr([X[ a) E([X[)/a, (inegalite de Markov)
Pr([X[ a) E(X
2
)/a
2
, (inegalite de Chebyshov)
Eg(X) gE(X). (inegalite de Jensen)
Exemple 208. On test une methode de classication, dont la probabilite dune classication correcte
est p, sur n cas independants. Soient Y
1
, . . . , Y
n
les indicatrices des classications correctes, et Y leur
moyenne. Pour = 0.2 et n = 100, borner
Pr([Y p[ > ).
87
Inegalite de Hoeding
Theorème 209. (Inegalite de Hoeding) Soient Z
1
, . . . , Z
n
des variables aleatoires independantes tel
que E(Z
i
) = 0 et a
i
Z
i
b
i
pour des constantes a
i
< b
i
. Soit > 0, alors pour tout t > 0,
Pr
_
n
i=1
Z
i

_
e
t
n
i=1
e
t
2
(b
i
a
i
)
2
/8
.
Exemple 210. Montrer que si X
1
, . . . , X
n
iid
Bernoulli(p) et > 0, alors
Pr([X p[ > ) 2e
2n
2
.
Pour = 0.2 et n = 100, borner
Pr([X p[ > ).
6.2 Convergence slide 229
La convergence
Denition 211 (Convergence deterministe). Soient x
1
, x
2
, . . . , x des reels, alors x
n
x ssi pour tout
> 0, il existe N
tel que [x
n
x[ < pour tout n > N
.
La convergence probabiliste est plus compliquee . . . On pourrait esperer que (par ex.) X
n
X si soit
Pr(X
n
x) Pr(X x), x R,
soit
E(X
n
) E(X)
quand n .
Exemple 212. Pour n = 1, 2, . . . soit X
n
la variable aleatoire telle que
Pr(X
n
= 0) = 1 1/n, Pr(X
n
= n
2
) = 1/n.
Alors quand n ,
Pr([X
n
[ > 0) = Pr(X
n
= n
2
) = 1/n 0,
E(X
n
) = 0 (1 1/n) +n
2
1/n = n .
Est-ce que X
n
0 ou X
n
?
88
Modes de convergence des variables aleatoires
Denition 213. Soient X, X
1
, X
2
, . . . des variables aleatoires ayant pour fonction de repartition
F, F
1
, F
2
, . . .. Alors
(a) X
n
converge presque s urement vers X, X
n
p.s.
X, si
Pr
_
lim
n
X
n
= X
_
= 1;
(b) X
n
converge vers X en moyenne quadratique, X
n
2
X, si
lim
n
E(X
n
X)
2
= 0, o` u E(X
2
n
), E(X
2
) < ;
(c) X
n
converge vers X en probabilite, X
n
P
X, si pour tout > 0,
lim
n
Pr([X
n
X[ > ) = 0;
(d) X
n
converge vers X en distribution (ou en loi), X
n
D
X, si
lim
n
F
n
(x) = F(x) en tout point x o` u F(x) est continue.
X
n
p.s.
X
Ceci à lair complique, pas sans raison. Pour mieux comprendre :
il faut que toutes les variables X
n
, X soient denies par rapport à un meme espace de probabilite,
(, T, Pr). Dans un cas general il nest pas triviale de construire cet espace, mais supposons que
ceci est fait (on a besoin du theorème de representation de Skorokhod).
Alors à chaque correspond une suite de reels
X
1
(), X
2
(), . . . , X
n
(), . . .
qui va converger, ou pas.
Si X
n
p.s.
X, alors il existe une variable aleatoire X() telle que
Pr
__
: lim
n
X
n
() = X()
__
= 1.
Exemple 214. Soit U U(0, 1), o` u = [0, 1], U() = , X
n
() = U()
n
, n = 1, 2, . . ., et
X() = 0. Montrer que X
n
p.s.
X.
89
Relations entre modes de convergence
Noter que si X
n
p.s.
X, X
n
2
X, X
n
P
X, alors il faut que X
1
, X
2
, . . . , X soient tous
denits par rapport à un memes espace de probabilte, mais que ceci nest pas le cas pour
X
n
D
X, qui ne concerne que les probabilites. Ce dernier est donc plus faible que les autres.
En fait, ces proprietes sont reliees entre elles comme suit :
X
n
p.s.
X
X
n
P
X X
n
D
X
X
n
2
X
Toutes autres implications sont fausses en general.
Les modes de convergence les plus importants dans ce cours sont
P
et
D
, car on souhaite
souvent approximer des probabilites, et
D
nous donne un moyen pour ce faire.
1
, . . . , X
n
iid
(,
2
) avec 0 <
2
< . Montrer que
X = (X
1
+ +X
n
)/n
2
.
n
= (1)
n
Z, o` u Z A(0, 1). Montrer que X
n
D
Z, mais que cest le seul
mode de convergence qui sapplique ici.
Theorème de continuite (rappel)
Theorème 217 (Continuite). Soient X
n
, X des variables aleatoires avec fonctions de repartitions
F
n
, F, dont les FGMs M
n
(t), M(t) existent pour 0 [t[ < b. Sil existe un 0 < a < b tel que
M
n
(t) M(t) pour [t[ a quand n , alors X
n
D
X, cest à dire, F
n
(x) F(x) en chaque
x R o` u F est continue.
Nous pouvons remplacer ici de fa con equivalente M
n
(t) et M(t) par la fonction generatrice des
cumulants K
n
(t) = log M
n
(t) et K(t) = log M(t).
On etablit la loi de petits nombres (Theorème 108, approximation poissonienne de la loi binomiale)
en utilisant ce resultat.
Voici un autre exemple :
Exemple 218. Soit X une variable aleatoire qui possède une distribution geomètrique avec une
probabilite de succès p. Calculer la distribution limite de pX lorsque p 0.
90
Combinaison de suites convergentes
Theorème 219 (Combinaison de suites convergentes). Soient x
0
, y
0
des constantes,
X, Y, X
n
, Y
n
des variables aleatoires, et h une fonction continue en x
0
. Alors
X
n
D
x
0
X
n
P
x
0
,
X
n
P
x
0
h(X
n
)
P
h(x
0
),
X
n
D
X et Y
n
P
y
0
X
n
+Y
n
D
X +y
0
, X
n
Y
n
D
Xy
0
.
La 3
eme
ligne est connue sous le nom de lemme de Slutsky. Il est très utile lors dapplications
statistiques.
1
, . . . , X
n
iid
(
X
,
2
X
), Y
1
, . . . , Y
n
iid
(
Y
,
2
Y
),
X
,= 0,
2
X
,
2
Y
< , et
denissons
R
n
= Y /X, Y = n
1
n
j=1
Y
j
, X = n
1
n
j=1
X
j
.
Montrer que R
n
P

Y
/
X
lorsque n .
6.3 Lois des grands nombres slide 236
Lois des grands nombres
Notre première partie de resultats limites est en rapport avec le comportement des moyennes de
variable aleatoires independantes.
Theorème 221. (Loi faible des grands nombres) Soient X
1
, X
2
, . . . une suite de variables aleatoires
independantes et identiquement distribuees, desperance nie . Notons leur moyenne par
X = n
1
(X
1
+ +X
n
).
Alors X
P
; cest à dire, pour tout > 0,
Pr([X [ > ) 0, n .
Ainsi, sous de legères conditions, les moyennes dechantillons de taille importante convergent vers
lesperance de la distribution dont lechantillon est issu.
Dans le cas o` u les X
i
sont des essais de Bernoulli independants, nous arrivons enn à notre notion
primitive de probabilite comme limite de frequences relatives. Le cercle est clos.
91
Loi faible de grands nombres
Les graphes ci-dessous montre le comportement de X quand X
i
a deux moments nies (à gauche),
seul E([X
i
[) < (centre), E(X
i
) nexiste pas (et donc var(X) nexiste pas non plus) (à droite).
Quand E(X
i
) nexiste pas, la possibilite de valeurs enormes de X
i
implique que X ne peut pas
converger.
0 1000 3000 5000
1
.
0
0
.
5
0
.
0
0
.
5
1
.
0
Finite mean and variance
n
x
b
a
r
0 1000 3000 5000
1
.
0
0
.
5
0
.
0
0
.
5
1
.
0
Finite mean, infinite variance
n
x
b
a
r
0 1000 3000 5000
4
0
0
2
0
4
0
Infinite mean and variance
n
x
b
a
r
Remarques
La loi faible est facile à prouver sous lhypothèse supplementaire suivante : var(X
j
) =
2
< . On
calcule E(X) et var(X), puis on applique linegalite de Chebyshov. Pour tout > 0,
Pr([X [ > ) var(X)/
2
=

2
n
2
0, n .
Le meme resultat sapplique à de nombreuses statistiques qui peuvent etre representees comme des
moyennes, comme par exemple les fonctions de moyennes et les quantiles empiriques.
Soient X
1
, . . . , X
n
iid
F, o` u F est une fonction de repartition continue, et soit x
p
= F
1
(p) le p
quantile de F. En notant que
X
(np)
x
p

n
j=1
I(X
j
x
p
) np
et en appliquant la loi faible à la somme de droite, on a X
(np)
P
x
p
.
92
Loi forte des grands nombres
En fait, un resultat plus fort est vrai :
Theorème 222. (Loi forte des grands nombres) Sous les conditions du theorème precedent,
X
p.s.
:
Pr
_
lim
n
X =
_
= 1.
Ceci est plus fort dans le sens que pour tout > 0, la loi faible permet à l evènement [X [ >
de se produire un nombre inni de fois, avec cependant des probabilites de moins en moins petites.
La loi forte exclue cette possibilite : la loi forte implique que levènement [X [ > peut se
produire seulement un nombre ni de fois.
Les lois faibles et fortes restent valables sous certains types de dependance parmi les X
j
.
6.4 Theorème central limite slide 241
Standardisation dune moyenne
La loi des grands nombres nous indique que la moyenne X approche lorsque n . Ainsi
E(X) = , var(X) =
2
/n,
donc pour tout n, la dierence entre X et son esperance relative à son ecart-type,
Z
n
=
X E(X)
var(X)
1/2
=
X
_
2
/n
=
n
1/2
(X )
a une esperance de zero et une variance unitaire. Quelle est son comportement limite ?
Theorème central limite
1
, X
2
, . . . des variables aleatoires independantes desperance et de
variance 0 <
2
< . Alors lorsque n ,
Z
n
=
n
1/2
(X )
D
Z,
o` u Z N(0, 1).
Donc
Pr
_
n
1/2
(X )
z
_
.
= Pr(Z z) = (z)
pour n grand.
La page suivante montre cet eet pour X
1
, . . . , X
n
iid
exp(1) ; les histogrammes montrent comment
les densites empiriques de Z
n
sapprochent à la densite de Z.
93
n=5
z
D
e
n
s
i
t
y
4 2 0 2 4
0
.
0
0
.
2
0
.
4
n=10
z
D
e
n
s
i
t
y
4 2 0 2 4
0
.
0
0
.
2
0
.
4
n=20
z
D
e
n
s
i
t
y
4 2 0 2 4
0
.
0
0
.
2
0
.
4
n=100
z
D
e
n
s
i
t
y
4 2 0 2 4
0
.
0
0
.
2
0
.
4
Utilisation du TCL
Le TCL est utilise pour approximer des probabilites impliquant des sommes de VAs independantes.
Sous les conditions precedentes, on a
E
_
_
n
j=1
X
j
_
_
= n, var
_
_
n
j=1
X
j
_
_
= n
2
,
donc

n
j=1
X
j
n
n
2
=
n(X )
n
2
=
n
1/2
(X )
= Z
n
peut etre approxime par une variable normale :
Pr
_
_
n
j=1
X
j
x
_
_
= Pr
_
n
j=1
X
j
n
n
2
x n
(n
2
)
1/2
_
.
=
_
x n
(n
2
)
1/2
_
.
Exemple
Exemple 224. Un livre de 640 pages a un nombre derreurs aleatoires à chaque page. Si le nombre
derreurs par page suit une loi de Poisson desperance = 0.1, quelle est la probabilite que le livre
contienne moins de 50 erreurs ?
Quand
n
j=1
X
j
prend des valeurs entières, on peut obtenir une meilleure approximation en utilisant
une correction de la continuite :
Pr
_
_
n
j=1
X
j
x
_
_
.
=
_
x +
1
2
n
(n
2
)
1/2
_
;
ceci peut etre important quand la loi de
n
j=1
X
j
est assez discrète.
94
6.5 Methode delta slide 247
La methode delta
On a souvent besoin de la loi approximative dune fonction lisse dune moyenne.
1
, X
2
, . . . des variables aleatoires independantes desperance et de
variance 0 <
2
< , et soit g
() ,= 0, o` u g
est la derivee de g. Alors

g(X) g()
g
()
2
2
/n
1/2
D
N(0, 1), n .
Ceci implique que pour n grand, on a g(X)

N
_
g(), g
()
2
2
/n
_
. Combine avec le lemme de
Slutsky, on a
g(X)

N
_
g(), g
(X)
2
S
2
/n
_
.
Exemple 226. Si X
1
, . . . , X
n
iid
exp(), trouver la loi approximative de log X.
Quantiles de lechantillon
1
, . . . , X
n
iid
F, et 0 < p < 1. Alors le p quantile de lechantillon de
X
1
, . . . , X
n
est la r
ème
statistique dordre X
(r)
, o` u r = np.
Theorème 228. (Loi asymptotique des statistiques dordre) Soient 0 < p < 1, X
1
, . . . , X
n
iid
F, et
x
p
= F
1
(p). Alors si f(x
p
) > 0,
X
(np)
x
p
[p(1 p)/nf(x
p
)
2
]
1/2
D
N(0, 1), n .
Ceci implique que
X
(np)
N
_
x
p
,
p(1 p)
nf(x
p
)
2
_
.
Pour prouver ce dernier theorème, noter que X
(r)
x ssi S =
I(X
j
x) r, et appliquer le
TCL à S.
Le meme argument setend aux fonctions plus compliquees de statistiques dordre, par exemple
linterquartile range (IQR)
IQR = X
(3n/4)
X
(n/4)
,
qui converge vers F
1
(3/4) F
1
(1/4).
95
Loi de la mediane
Ce graphique compare les densites exactes (noir) et approchees (rouge) de la mediane X
(n/2)
pour
X
1
, . . . , X
n
iid
exp(1) :
0.0 0.5 1.0 1.5 2.0
0
.
0
1
.
5
3
.
0
n=11
x
D
e
n
s
i
t
y
0.0 0.5 1.0 1.5 2.0
0
.
0
1
.
5
3
.
0
n=21
x
D
e
n
s
i
t
y
0.0 0.5 1.0 1.5 2.0
0
.
0
1
.
5
3
.
0
n=41
x
D
e
n
s
i
t
y
0.0 0.5 1.0 1.5 2.0
0
.
0
1
.
5
3
.
0
n=81
x
D
e
n
s
i
t
y
Variation de lIQR
Ce graphique montre la variation des quartiles empiriques, X
(n/4)
et X
(3n/4)
et le comportement
de lIQR pour des echantillons normaux de taille n; ici
IQR
P

1
(3/4)
1
(1/4) = z
0.75
z
0.25
= 1.349.
0 5 10 15 20
1
0
1
2
3
n=20
O
r
d
e
r
e
d

s
a
m
p
le
0 5 10 15 20
1
0
1
2
3
n=100
O
r
d
e
r
e
d

s
a
m
p
le
0 5 10 15 20
1
0
1
2
3
n=500
O
r
d
e
r
e
d

s
a
m
p
le
20 50 100 500 1000 5000
1
.
0
1
.
5
2
.
0
Sample size
I
Q
R
Exemple
Exemple 229. Montrer que la mediane dun echantillon normal de taille n est approximativement
distribue selon N,
2
/(2n).
96
7 La Statistique slide 253
7.1 Introduction slide 254
Introduction
Les mathematiques se basent sur la deduction :
axiomes consequences.
Dans le cas de la probabilite, on a
(, T, Pr) Pr(A), Pr(A B), Pr(X x) . . .
La statistique concerne linductionayant observe un evenement A, on veut dire qqc à propos dun
espace de probabilite (, T, Pr) suppose etre soujacent :
A
?
(, T, P).
Statistique signie ne jamais devoir dire quon est certainparfois on utilise le terme
probabilite inverse pour ce processus.
Modèle statistique
On fait lhypothèse que les donnees observees, ou qui seront observees, peuvent etre considerees
comme les realisations dun processus aleatoire, et que lon va essayer de dire quelque chose de ce
processus à partir des donnees.
Evidemment, puisque les donnees sont nies, et le processus est inconnu, il y aura de lincertitude
dans nos constats, et il faut aussi essayer de quantier cette incertitude le mieux possible.
Il y a plusieurs types de problèmes :
specication dun modèle (ou modèles) pour les donnees ;
estimation des inconnus du modèle (paramètres, . . .) ;
tests dhypothèses concernant un modèle ;
planication danalyse, de collecte des donnees etc., pour repondre à une question le plus
ecacemment possible (minimiser les co uts) ;
decision face à lincertitude ;
prevision des futurs inconnus ;
derrière les autres problèmes, la pertinence des donnees à la question posee.
97
Quelques denitions
Notation : on utilisera y et Y pour representer les donnees y
1
, . . . , y
n
et Y
1
, . . . , Y
n
.
Denition 230. Un modèle statistique est une loi de probabilite f(y) choisie ou construite pour
apprendre à partir des donnees observees y ou potentielles Y . Si f(y) = f(y; ) est determinee par un
paramètre de dimension nie, il sagit dun modèle parametrique, et sinon il est un modèle
nonparametrique. Un modèle parfaitement connu est appelle simple, sinon il est composite.
Denition 231. Une statistique S = s(Y ) est une fonction connue des donnees Y .
Denition 232. La loi dechantillonnage dune statistique S = s(Y ) est sa loi quand Y f(y).
Exemples
Exemple 233. Soient y
1
, . . . , y
n
supposees independantes, issues dun loi Bernoulli de paramètre
inconnu p (0, 1). Alors la statistique
s =
n
j=1
y
j
est consideree comme realisation de la variable aleatoire
S =
n
j=1
Y
j
,
dont la loi dechantillonnage est B(n, p), avec p inconnu.
1
, . . . , y
n
supposees independantes, issues dun loi A(,
2
), avec ,
2
inconnus. Alors y = n
1
(y
1
+ +y
n
) et s
2
= (n 1)
1
n
j=1
(y
j
y)
2
sont des statistiques,
realisations de
Y = n
1
(Y
1
+ +Y
n
), S
2
=
1
n 1
n
j=1
(Y
j
Y )
2
.
Donner la loi dechantillonnage de Y .
98
7.2 Tests Statistiques slide 259
Les tests statistiques
Exemple 235. En faisant tourner une pièce à 5Fr 200 fois, jobserve 115 faces en la tournant, et 105
en la jetant. Donner un modèle statistique pour ce problème. Est-elle equilibree ?
0 50 100 150 200
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
5Fr, 1978, spins
Number of spins
P
r
o
p
o
r
t
i
o
n

o
f

h
e
a
d
s
0 50 100 150 200
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
5Fr, 1978, tosses
Number of tosses
P
r
o
p
o
r
t
i
o
n

o
f

h
e
a
d
s
Une vraie histoire . . .
Seul certains details ont ete changes an de proteger les innocents . . .
Dans un pays lointain, les producteurs dune commodite C destinee à lexportation la livrent par
camion à un entrepot, o` u elle est pesee et stockee avant detre traitee. Selon la saison, un camion
peut contenir jusquà 300 sacs de C, qui sont ensuite peses, en general 3 sacs à la fois, pour un
pesage moyen de 240kg et une variation standard de 20kg. Les pesages de chaque livraison
sont notes sur un bon de livraison, et les producteurs sont payes selon le poids de C livre.
Or, les livraisons de certains producteurs sont falsiees, pour quils re coivent plus dargent, dont une
partie est donnee au contr oleur de lentrepot. On peut fausser un bon de livraison soit en
augmentant les poids des pesages individuels reels, soit en ajoutant des pesages faux, soit un bon de
livraison peut etre entièrement ctif.
Après quelques annees la fraude est detectee, et lassureur aimerait savoir combien de bons de
livraison sont faux, an de determiner quelles sont ses pertes.
On veut donc regarder chaque bon de livraison, et decider sil soit bon ou mauvais, sur la base des
chires inscrits sur le bon.
Un des comptables remarque que sur certains bons, beaucoup des pesages se terminent par 0 ou
1, et il lui semble que ces bons pourraient etre faux.
On propose donc une procedure pour classier les bons . . .
99
Les donnees
Il y a quelques milliers de bons de livraison, mais on nen utilisera que 250 comme exemple
Voici les n = 92 pesages pour un des bons :
261 289 291 265 281 291 285 283 280 261 263 281 291 289 280
292 291 282 280 281 291 282 280 286 291 283 282 291 293 291
300 302 285 281 289 281 282 261 282 291 291 282 280 261 283
291 281 246 249 252 253 241 281 282 280 261 265 281 283 280
242 260 281 261 281 282 280 241 249 251 281 273 281 261 281
282 260 281 282 241 245 253 260 261 281 280 261 265 281 241
260 241
Les graphes suivants montrent les histogrammes et QQ-plots (normaux) pour les 12 premiers bons
de livraisons.
Les tailles des echantillons varient beaucoup, il y a des valeurs aberrantes par rapport à la loi
normale.
Les derniers chires peuvent etre assez concentres sur certains chires. Par exemple, pour les
donnees ci-dessus on a
0 1 2 3 4 5 6 7 8 9
14 42 14 9 0 6 2 0 0 5
Histogrammes
Histogram of d
d
D
e
n
s
it
y
0 100 250
0
.
0
0
0
0
.
0
0
4
0
.
0
0
8
Histogram of d
d
D
e
n
s
it
y
0 100 250
0
.
0
0
0
0
.
0
0
6
Histogram of d
d
D
e
n
s
it
y
50 150 250
0
.
0
0
0
0
.
0
0
8
Histogram of d
d
D
e
n
s
it
y
100 200 300
0
.
0
0
0
0
.
0
0
8
Histogram of d
d
D
e
n
s
it
y
180 240 300
0
.
0
0
0
0
.
0
1
0
0
.
0
2
0
Histogram of d
d
D
e
n
s
it
y
200 220 240
0
.
0
0
0
.
0
2
0
.
0
4
Histogram of d
d
D
e
n
s
it
y
200 300
0
.
0
0
0
0
.
0
1
0
Histogram of d
d
D
e
n
s
it
y
150 250
0
.
0
0
0
0
.
0
1
0
Histogram of d
d
D
e
n
s
it
y
180 240 300
0
.
0
0
0
0
.
0
1
0
0
.
0
2
0
Histogram of d
d
D
e
n
s
it
y
160 200 240
0
.
0
0
0
.
0
2
Histogram of d
d
D
e
n
s
it
y
240 270 300
0
.
0
0
0
.
0
2
0
.
0
4
Histogram of d
d
D
e
n
s
it
y
260 280 300
0
.
0
0
0
.
0
4
0
.
0
8
100
QQplots
2 0 1 2
5
0
1
5
0
2
5
0
Normal QQ Plot
Theoretical Quantiles
O
r
d
e
r
e
d

w
e
ig
h
in
g
s
2 0 1 2
5
0
1
5
0
2
5
0
Normal QQ Plot
O
r
d
e
r
e
d

w
e
ig
h
in
g
s
2 0 1 2
5
0
1
5
0
2
5
0
Normal QQ Plot
O
r
d
e
r
e
d

w
e
ig
h
in
g
s
2 0 1 2
1
0
0
2
0
0
Normal QQ Plot
O
r
d
e
r
e
d

w
e
ig
h
in
g
s
2 0 1 2
2
0
0
2
4
0
2
8
0
Normal QQ Plot
O
r
d
e
r
e
d

w
e
ig
h
in
g
s
1.0 0.0 1.0
2
0
5
2
1
5
2
2
5
Normal QQ Plot
O
r
d
e
r
e
d

w
e
ig
h
in
g
s
2 0 1 2
1
6
0
2
2
0
2
8
0
Normal QQ Plot
O
r
d
e
r
e
d

w
e
ig
h
in
g
s
2 0 1 2
1
5
0
2
5
0
Normal QQ Plot
O
r
d
e
r
e
d

w
e
ig
h
in
g
s
2 0 1 2
1
8
0
2
2
0
2
6
0
Normal QQ Plot
O
r
d
e
r
e
d

w
e
ig
h
in
g
s
2 0 1 2
1
6
0
2
0
0
2
4
0
Normal QQ Plot
O
r
d
e
r
e
d

w
e
ig
h
in
g
s
2 0 1 2
2
4
0
2
7
0
3
0
0
Normal QQ Plot
O
r
d
e
r
e
d

w
e
ig
h
in
g
s
2 0 1 2
2
6
0
2
8
0
3
0
0
Normal QQ Plot
O
r
d
e
r
e
d

w
e
ig
h
in
g
s
Derniers chires
0 2 4 6 8
0
2
0
4
0
n=44, P=11.9
Final digit
%
0 2 4 6 8
0
2
0
4
0
n=46, P=9.2
Final digit
%
0 2 4 6 8
0
2
0
4
0
n=71, P=4.1
Final digit
%
0 2 4 6 8
0
2
0
4
0
n=90, P=22.4
Final digit
%
0 2 4 6 8
0
2
0
4
0
n=17, P=10.6
Final digit
%
0 2 4 6 8
0
2
0
4
0
n=7, P=8.7
Final digit
%
0 2 4 6 8
0
2
0
4
0
n=42, P=11.8
Final digit
%
0 2 4 6 8
0
2
0
4
0
n=77, P=9.4
Final digit
%
0 2 4 6 8
0
2
0
4
0
n=36, P=20.7
Final digit
%
0 2 4 6 8
0
2
0
4
0
n=88, P=9.7
Final digit
%
0 2 4 6 8
0
2
0
4
0
n=92, P=158.2
Final digit
%
0 2 4 6 8
0
2
0
4
0
n=76, P=47.9
Final digit
%
101
La loi de Benford
Denition 236. Pour x R, soit d(x, j) la (base 10) jème signicant digit function, ainsi
d(0.00314, 1) = 3, d(0.00314, 2) = 1 et d(0.00314, 3) = 4.
Denition 237. Soit x R, et soient D
j
= d(x, j), pour j = 1, 2, . . ., alors D
1
, D
2
, . . . suivent la loi
de Benford si
Pr(D
1
= d
1
, D
2
= d
2
, . . . , D
k
= d
k
) = log
10
_
_
_
1 +
_
_
k
j=1
d
j
10
kj
_
_
1
_
_
_
.
Ainsi, par exemple, Pr(D
1
= 3, D
2
= 1, D
3
= 4) = log1 + (314)
1
0.0014.
Frequences (%) des derniers chires D
3
pour les entiers à trois chires. Les deviations standards
pour les lois normale, exponentielle et gamma sont de 0.01%.
Dernier chire 0 1 2 3 4 5 6 7 8 9
Uniforme 10 10 10 10 10 10 10 10 10 10
Benford 10.178 10.137 10.097 10.057 10.017 9.978 9.940 9.901 9.864 9.826
Normale 10.002 10.004 10.007 9.997 9.982 9.991 10.010 9.992 9.997 10.012
Gamma 10.005 9.987 9.994 10.008 10.012 9.982 9.986 10.025 9.996 10.004
Exponentielle 9.992 10.163 10.140 10.082 10.047 9.993 9.959 9.913 9.867 9.844
Il semble que les derniers chires des pesages devraient etre très proches de luniformite.
Comment alors verier ceci pour nos donnees ?
Karl Pearson (18571936)
102
Statistique de Pearson
Denition 238. Soient Z
1
, . . . , Z
iid
A(0, 1), alors W = Z
2
1
+ +Z
2
suit la loi de khi-deux avec

degres de liberte, dont la fonction de densite est
f
W
(w) =
1
2
/2
(/2)
w
/21
e
w/2
, w > 0, = 1, 2, . . . ,
o` u (a) =
_
0
u
a1
e
u
du, a > 0, est la fonction de gamma.
Denition 239. Soit O
1
, . . . , O
k
les nombres dobservations dun echantillon de taille
n = n
1
+ +n
k
tombant dans les categories 1, . . . , k, dont les nombres esperes sont E
1
, . . . , E
k
, o` u
E
i
> 0. Alors la statistique de Pearson (ou statistique khi-deux) est
P =
k
i=1
(O
i
E
i
)
2
E
i
.
Si la loi conjointe de O
1
, . . . , O
k
est multinomiale avec denominateur n et probabilites
p
1
= E
1
/n, . . . , p
k
= E
k
/n, alors on a P

2
k1
, lapproximation etant bonne si la moyenne des
E
i
, cest à dire, k
1
E
i
5.
On peut donc utiliser P pour verier ladequation entre les donnees O
1
, . . . , O
k
et les probabilites
theoriques p
1
, . . . , p
k
.
Statistique de Pearson : Rationale
Si O
i
E
i
pour tout i, alors P sera petite, sinon elle aura tendance à etre plus grande.
Si la loi conjointe de O
1
, . . . , O
k
est multinomiale avec denominateur n et probabilites p
i
= E
i
/n,
alors chaque O
i
B(n, p
i
), et donc
E(O
i
) = np
i
= E
i
, var(O
i
) = np
i
(1 p
i
) = E
i
(1 E
i
/n) E
i
,
ainsi Z
i
= (O
i
E
i
)/
E
i
A(0, 1), pour grand n, et on imaginerait que

P =
k
i=1
(O
i
E
i
)
2
E
i
=
k
i=1
Z
2
i

2
k
Mais : le fait que
i
O
i
= n impose une contrainte lineaire sur les Z
i
, dont seuls k 1 varient
independamment, ce qui reduit à k 1 les degres de liberte.
103
Modèles statistiques
Dans lexemple des bons de livraison, un modèle statistique pour des derniers chires est quils sont
independants et distribues selon la loi uniforme sur 0, . . . , 9. Ceci implique que O
0
, . . . , O
9
ont
comme loi dechantillonnage la loi multinomiale (parametrique, simple) avec probabilites
p
0
= = p
9
= 0.1, et que la loi dechantillonnage approximative de la statistique de Pearson P
est
2
9
.
Un autre modèle est que les derniers chires sont independants mais pas uniformes, et donc que
O
0
, . . . , O
9
suivent une loi multinomiale avec probabilites p
0
, . . . , p
9
inegales. Ce modèle est
parametrique mais composite. Dans ce modèle (p
1
, . . . , p
9
) est de dimension 9, car
p
0
= 1 p
1
p
9
. Sous ce modèle, P calcule avec E
i
= n/10 a une loi dechantillonnage dont
la densite est deplacee à droite par rapport au
2
9
.
Monte Carlo simulations de P, n = 50
Comparaison des O
0
, . . . , O
9
de 10,000 jeux de donnees avec les E
0
= = E
9
= n/10 pour une loi
uniforme sur 0, 1, . . . , 9, quand : (a) (en haut) les donnees sont generees avec cette loi uniforme ; (b)
(en bas) les donnees sont generees avec une loi multinomiale ayant p
0
= p
1
= 0.15,
p
2
= = p
9
= 0.0875. Les valeurs de P ont tendance à etre plus grandes sous (b).
P
D
e
n
s
it
y
0 10 20 30 40 50 60
0
.
0
0
0
.
0
4
0
.
0
8
0
.
1
2
0 5 10 15 20 25 30 35
0
5
1
0
1
5
2
0
2
5
3
0
3
5
Quantiles of Chi^2_9
O
r
d
e
r
e
d

P
P
D
e
n
s
it
y
0 10 20 30 40 50 60
0
.
0
0
0
.
0
4
0
.
0
8
0
.
1
2
0 5 10 15 20 25 30 35
0
1
0
2
0
3
0
4
0
5
0
O
r
d
e
r
e
d

P
104
Monte Carlo simulations de P, n = 100, 50
Comparaison des O
0
, . . . , O
9
de 10,000 jeux de donnees avec les E
0
= = E
9
= n/10 pour une loi
uniforme sur 0, 1, . . . , 9, quand : (a) (en haut) les donnees sont generees avec p
0
= p
1
= 0.15,
p
2
= = p
9
= 0.0875, et n = 100 ; (b) (en bas) les donnees sont generees avec p
0
= p
1
= 0.2,
p
2
= = p
9
= 0.075 et n = 50.
P
D
e
n
s
it
y
0 20 40 60 80
0
.
0
0
0
.
0
4
0
.
0
8
0
.
1
2
0 5 10 15 20 25 30 35
0
2
0
4
0
6
0
8
0
O
r
d
e
r
e
d

P
P
D
e
n
s
it
y
0 20 40 60 80
0
.
0
0
0
.
0
4
0
.
0
8
0
.
1
2
0 5 10 15 20 25 30 35
0
1
0
2
0
3
0
4
0
5
0
O
r
d
e
r
e
d

P
Pour les vraies donnees
A gauche : QQplot de valeurs de P pour 250 bons de livraison. A droite : poids moyen des bons, et
valeurs de P. Noter que les bons avec les chires les moins uniformes (P grand) ont tendance aussi à
etre plus lourd. Mais lesquels des bons sont bons ?
0 5 10 20 30
0
5
0
1
0
0
1
5
0
O
r
d
e
r
e
d

P
100 150 200 250 300
0
5
0
1
0
0
1
5
0
Mean weight
P
e
a
r
s
o
n

s
t
a
t
i
s
t
i
c
105
Hypothèses et types derreur
Pour chaque bon de livraison, nous voulons dire sil est bon ou mauvais. Nous formulons ceci
sous la forme de deux hypothèses :
Hypothèse nulle, H
0
: les derniers chires sont independants et issus dune loi uniforme sur
0, . . . , 9 (le bon est bon).
Hypothèse alternative, H
1
: H
0
nest pas realise (le bon est mauvais).
Une hypothèse simple determine entièrement la loi des donnees, sinon elle est composite.
Si nous utilisons P pour decider laquelle des hypothèses est valable pour chacun des bons, les
possibilites sont :
Erreur de Type I : H
0
est vraie, mais on la rejette ;
Erreur de Type II : H
0
est fausse, mais on laccepte.
Decision
Accepte H
0
Rejette H
0
H
0
vraie Bon choix Erreur du Type I
H
1
vraie Erreur du Type II Bon choix
Taux derreur
Supposons que la decision de classier un bon comme bon ou mauvais est faite comme suit :
P < c bon, P c mauvais, 0 < c < .
Sous H
0
on peut calculer
Pr
0
(P c) = Pr(Erreur du Type I) = (c),
aussi appele le seuil, le false positive rate (FPR), ou 1 la specicite. Dans ce cas P

2
9
,
donc
(c)
.
= Pr(
2
9
c),
et ainsi
(5)
.
= 0.83, (10)
.
= 0.35, (15)
.
= 0.09, (20)
.
= 0.02.
Sous H
1
on peut calculer
Pr
1
(P c) = 1 Pr(Erreur du Type II) = (c),
aussi appelle la puissance, le true positive rate (TPR), ou la sensitivite.
106
Taux derreur II
Si on parle de trouver un mauvais bon comme un positif, et de ne pas le trouver comme negatif,
on peut ecrire :
Decision
Accepte H
0
Rejette H
0
H
0
vraie True negative rate, TNR False positive rate, FPR
1 (c) (c)
H
1
vraie False negative rate, FNR True positive rate, TPR
1 (c) (c)
ROC curve
Quand nous faison varier c de 0 à , nous avons Pr
0
(P 0) = Pr
1
(P 0) = 1,
Pr
0
(P ) = Pr
1
(P ) = 0, mais
Pr
1
(P c) Pr
0
(P c), 0 < c < ,
et nous aimerions que Pr
1
(P c) Pr
0
(P c) si possible, pour bien distinguer les bons et les
mauvais.
On peut representer ces probabilites avec le receiver operating characteristic (ROC) curve
comme (Pr
0
(P c), Pr
1
(P c)) quand on varie c :
0.0 0.2 0.4 0.6 0.8 1.0
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
FPR, Pr_0(P>=c), 1Specificity
T
P
R
,

P
r
_
1
(
P
>
=
c
)
,

S
e
n
s
i
t
i
v
i
t
y
107
ROC curve, II
Le ROC depend aussi de la taille de lechantillon et de la dierence entre les modèles.
Ci-dessous :
n = 50, p
0
= p
1
= 0.15, p
2
= = p
9
= 0.0875 (noir) ;
n = 100, p
0
= p
1
= 0.15, p
2
= = p
9
= 0.0875 (rouge) ;
n = 50, p
0
= p
1
= 0.2, p
2
= = p
9
= 0.075 (bleu).
On a une plus grande probabilite de distinguer les bons et les mauvais si n est grand, ou si la
dierence entre les hypothèses devient plus agrante.
0.0 0.2 0.4 0.6 0.8 1.0
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
T
P
R
,

P
r
_
1
(
P
>
=
c
)
,

S
e
n
s
i
t
i
v
i
t
y
Seuil, puissance et test optimal
Nous aimerions maximiser (c) = Pr
1
(P c) pour (c) = Pr
0
(P c) donnee : si nous acceptons
un taux de faux positif, nous aimerions maximiser le taux de vrai positif. Donc le ROC curve devrait
etre le plus au nord-ouest possible.
Ainsi, si lon a plusieurs procedures de decision possible, il faudrait choisir celui donnant un ROC
curve qui domine tous autres ROC curves, si ceci existe.
Une procedure de decision binaire correspond à la partition de lensemble fondamental contenant
les donnees Y en deux parties }, }, avec
Y } mauvais, Y } bon.
Il faut choisir } tel que Pr
1
(Y }) soit le plus grand possible etant donne que Pr
0
(Y }) =
Lemme 240 (NeymanPearson). Soient f
0
(y), f
1
(y) les densites de Y sous des hypothèses nulle et
alternative simples. Alors sil existe, lensemble
} = y : f
1
(y)/f
0
(y) > t
tel que Pr
0
(Y }) = maximise Pr
1
(Y }), parmi toutes les }
tel que Pr
0
(Y }
) . Donc
pour maximiser la puissance pour un seuil donne, il faut baser la decision sur }.
108
Exemples
Exemple 241. (a) Construire un test optimal de lhypothèse H
0
: p = 1/2 dans le cas de
lexemple 235, avec = 0.05.
(b) Est-ce que p = 1/2, selon vous ?
Exemple 242. Construire un test optimal de lhypothèse H
0
: p
0
= = p
9
= 0.1 dans le cas des
bons de livraison. Est-ce que ce test est realiste ?
Tests optimal et de Pearson, pour les bons
Dans ce cas il est impossible de trouver un test optimal sans specier une hypothèse alternative.
Ci-bas, on prend le test optimal pour lalternative p
0
= p
1
= 0.2, p
2
= = p
9
= 0.075, avec
n = 50
A gauche : ROC pour le test optimal (rouge), pour la statistique de Pearson (noir), et pour le test
optimal, mais quand les donnees sont generees avec p
0
= = p
7
= 0.075, p
8
= p
9
= 0.2 (bleu).
Dans ce cas le test optimal est catastrophique.
A droite : relation entre statistique de test optimal et P.
0.0 0.2 0.4 0.6 0.8 1.0
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
T
P
R
,

P
r
_
1
(
P
>
=
c
)
,

S
e
n
s
i
t
i
v
i
t
y
0 20 40 60 80
5
0
5
1
0
1
5
Correlation 0.88
Pearson statistic
O
p
t
i
m
a
l

s
t
a
t
i
s
t
i
c
109
Test de Pearson, pour les bons
Si nous prenons = 0.05, nous aurons un FPR de 5%, donc nous risquons de rejeter 5% des bon
bons, mais il semble que, si p
0
= p
1
= 0.2, p
2
= = p
9
= 0.075, nous allons detecter 50% des
mauvais.
Dans ce cas nous choisissons c comme 0.95 quantile de la loi
2
9
, soit
> qchisq(0.95,df=9)
[1] 16.91898
Dans ce cas, nous classions 65 des bons de livraisons comme mauvais (P > 16.92), et 185
comme bon (P 16.92) :
0 5 10 20 30
0
5
0
1
0
0
1
5
0
O
r
d
e
r
e
d

P
100 150 200 250 300
0
5
0
1
0
0
1
5
0
Mean weight
P
e
a
r
s
o
n

s
t
a
t
i
s
t
i
c
Commentaires
On a considere la situation o` u on veut faire un choix binaire entre deux hypothèses
lhypothèse nulle, contre laquelle on veut tester
lhypothèse alternative.
On doit accepter que lon peut faire des erreurs :
Decision
Accepte H
0
Rejette H
0
H
0
vraie Bon choix Erreur du Type I
H
1
vraie Erreur du Type II Bon choix
Si on essaye de minimiser la probabilite derreur de Type II pour une probabilite donnee derreur de
Type I, on peut construire un test optimal, mais ceci peut etre peu pratique, car souvent
lalternative nest pas bien speciee
Donc on peut preferer un test generique comme celui de Pearson, pour lequel la probabilite derreur
de Type II nest jamais trop faible, meme si elle nest jamais aussi elevee que celle dun test optimal.
110
7.3 Estimation Ponctuelle slide 284
Modèles statistiques
On aimerait etudier un ensemble dindividus ou delements appele population à partir dun
sous-ensemble de cet ensemble appele echantillon :
modèle statistique : la loi f de X est supposee connue à lexclusion de quelques paramètres, ;
echantillon (doit etre representatif de la population) : donnees y
1
, . . . , y
n
, souvent supposees la
realisation de Y
1
, . . . , Y
n
iid
f ;
statistique : toute fonction T = t(Y
1
, . . . , Y
n
) des variables aleatoires Y
1
, . . . , Y
n
;
estimateur : une statistique utilisee pour estimer certains paramètres de f.
Notations :
T = t(Y
1
, . . . , Y
n
) statistique (variable aleatoire)
t = t(y
1
, . . . , y
n
) realisation de T au moyen des y
j
;
estimateur dun paramètre inconnu .

Commentaires
Exemple 243. Soient Y
1
, . . . , Y
n
iid
A(,
2
), alors
= Y est une estimateur de , dont la valeur observee est y ;

2
= n
1
n
i=1
(Y
i
Y )
2
, est un estimateur de
2
, dont la valeur observee est n
1
n
i=1
(y
i
y)
2
.
Remarque :
une statistique T etant fonction des variables aleatoires Y
1
, . . . , Y
n
, cest elle-meme une variable
aleatoire !
La loi de T depend de la loi des Y
i
, et est appelee distribution dechantillonnage de T.
Si on ne peut pas deduire la loi de T de celle des Y
i
, on doit se contenter parfois de connatre E(T)
et var(T).
E(Y ) et var(Y ) peuvent donner une bonne information partielle sur la loi de T, et orent la
possibilite dans certains cas (par exemple T = Y ) dutiliser une loi approximative de T (theorème
centrale limite).
111
Loi dechantillonnage
mu <- rnorm(1,mean=0,sd=20)
y <- mu + matrix(rnorm(10*1000),10,1000)
y.bar <- apply(x,2,mean)
y.bar[1]
par(mfrow=c(1,2))
hist(y.bar,prob=T)
qqnorm(y.bar)
Histogram of y.bar
y.bar
D
e
n
s
i
t
y
7.5 8.0 8.5 9.0 9.5
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
1
.
2
3 2 1 0 1 2 3
7
.
5
8
.
0
8
.
5
9
.
0
9
.
5
Normal QQ Plot
S
a
m
p
l
e

Q
u
a
n
t
i
l
e
s
Problèmes à etudier
On fait donc un modèle statistique et on souhaite :
estimer les paramètres de ce modèle ;
poser des questions au sujet de la valeur de ces paramètres, par exemple tester si = 0 ;
prevoir les valeurs des observations futures.
Pour estimer les paramètres on dispose de plusieurs methodes, par exemple :
methode des moments (simple) ;
methode des moindres carrees (simple) ;
methode du maximum de vraisemblance (plus generale, souvent utilise car optimale dans
beaucoup de situations).
Methode des moments
Supposons que lechantillon tire soit representatif de la population.
Pour obtenir des estimateurs pour les paramètres inconnus de la population, on egalise les
moments de lechantillon (empirique) à ceux de la population (theorique).
kème moment par rapport à lorigine :
Population (theorique) : M
k
= E(Y
k
).
Echantillon (empirique) : m
k
=
1
n
n
j=1
Y
k
j
.
On a donc besoin dautant de moments (supposes nies !) que de paramètres inconnus.
1
, . . . , Y
n
iid
U(0, ), estimer .
1
, . . . , Y
n
iid
A(,
2
), estimer et
2
.
112
Methode des moindres carrees
Soit Y
1
, . . . , Y
n
un echantillon, et supposons que le paramètre à estimer est une esperance. Alors
chaque Y
j
doit etre proche de
chaque dierence Y
j
devrait etre assez petite
Donc une estimation raisonnable pour serait la valeur minimisant
S() =
n
i=1
(Y
j
)
2
.
1
, . . . , Y
n
iid
f telles que E(Y
j
) = , trouver lestimation de moindres carrees
de .
Methode du maximum de vraisemblance
On a besoin dune methode destimation plus generale.
Denition 247. Soient x
1
, . . . , x
n
des donnees supposees etre une realisation dun echantillon
aleatoire Y
1
, . . . , Y
n
iid
f(y; ), alors la vraisemblance (likelihood en anglais) pour est
L() = f(y
1
; ) f(y
2
; ) f(y
n
; ).
Denition 248. Lestimateur du maximum de vraisemblance

dun paramètre est celui, parmi
tous les possibles, qui donne à lechantillon obtenu la plus grande vraisemblance (probabilite)
detre obtenu. Donc

satisfait
L(
) L() pour chaque .

Calcul de

On facilite les calculs en maximisant () = ln L() plutot que L(). Le demarche est :
1) calculer L()
2) poser () = log L() (log-vraisemblance)
3) trouver

tel que d()/d = 0 ;
4) verier quil sagit bien dun maximum.
Exemple 249. Supposons que y
1
, . . . , y
n
sont des realisations dune loi exponentielle,
f(y; ) = e
y
, y 0, > 0.
Trouver

.
113
Biais
Denition 250. Le biais de lestimateur

de est deni par
b() = E(
) .
Interpretation du biais :
si pour tout , b() < 0, alors

sous-estime ;
si pour tout , b() > 0, alors

sur-estime ;
si pour tout , b() = 0, alors

est non biaise.
Un indicateur de la qualite de

est labsence dun ecart systematique entre

et , donc b() 0.
Un indicateur encore plus important est la taille moyenne de lecart (
)
2
.
1
, . . . , Y
n
iid
A(,
2
). Trouver le biais et la variance de = Y et le biais de

2
= n
1
j
(Y
j
Y )
2
.
Biais et variance
High bias, low variability Low bias, high variability
High bias, high variability The ideal: low bias, low variability
= bulle centrale, suppose etre la vraie valeur

= echette rouge tiree sur la bulle centrale, valeur estimee à laide des donnees
114
Erreur quadratique moyenne
Denition 252. Le erreur quadratique moyenne de lestimateur

de est
EQM(
) = E(
)
2
= = var(
) +b()
2
.
Denition 253. Soient

1
et

2
deux estimateurs sans biais du meme paramètre . Alors
EQM(
1
) = var(
1
) +b
1
()
2
= var(
1
)
EQM(
2
) = var(
2
) +b
2
()
2
= var(
2
),
et on dit que

1
est plus ecace que

2
si
var(
1
) var(
2
).
On prefère alors

1
.
1
, . . . , Y
n
iid
A(,
2
), avec n grand. Trouver les proprietes de la mediane M
et de la moyenne Y . Lequel est preferable ? Et si des valeurs aberrantes peuvent apparatre ?
La methode delta
Souvent dans la pratique on considère des fonctions destimateurs.
Theorème 255 (Methode delta). Soit

un estimateur base sur un echantillon de taille n, tel que

A(, v/n), n ,
et soit g une fonction telle que g
() ,= 0. Alors
g(
)

A
_
g() +vg
()/(2n), vg
()
2
/n
_
, n .
Ceci implique que le erreur quadratique moyenne de g(
) comme estimateur de g() est

EQM
_
g(
)
_
_
vg
()
2n
_
2
+
vg
()
2
n
.
Donc pour grand n on peut negliger la contribution du biais.
1
, . . . , Y
n
iid
Poiss(). Trouver deux estimateurs de Pr(Y = 0), et comparer
leurs biais et variances.
115
7.3 Estimation par Intervalle slide 297
Pivots
Un element cle de la statistique est de donner une idee de lincertitude dun constat.
Soit un paramètre inconnu, et soit t = 1 la valeur dune estimation de basee sur un echantillon de
taille n :
alors si n = 10
5
on est beaucoup plus s ur que t que si n = 10 ;
en plus de t on aimerait ainsi donner un intervalle qui serait plus large quand n = 10 que quand
n = 10
5
, pour expliciter lincertitude liee à t.
Rappels :
les donnees y
1
, . . . , y
n
sont traitees comme une realisation
dun echantillon Y
1
, . . . , Y
n
tire dun modèle statistique f(y; )
dont le paramètre est considere comme inconnu,
estime par lestimateur T = t(Y
1
, . . . , Y
n
) dont la realisation est t = t(y
1
, . . . , y
n
).
On doit donc trouver un moyen de lier et y
1
, . . . , y
n
.
Denition 257. Soient Y = (Y
1
, . . . , Y
n
) des donnees issues dune loi F avec paramètre . Alors un
pivot est une fonction Q = q(Y, ) dont la loi est connue et qui ne depend pas de . On dit alors que
Q est pivotale.
1
, . . . , Y
n
iid
U(0, ) avec inconnu, M = max(Y
1
, . . . , Y
n
) et
Y = n
1
Y
j
. (a) Montrer que Q
1
= M/ est un pivot ; (b) utiliser le theorème central limite pour
trouver un pivot approximatif Q
2
pour n grand, base sur Y .
Les intervalles de conance
Denition 259. Soient Y = (Y
1
, . . . , Y
n
) des donnees issues dune loi parametrique F de paramètre
scalaire. Un intervalle de conance (B
I
, B
S
) pour est une statistique sous forme dintervalle qui
contient avec un probabilite speciee. Cette probabilite sappelle le niveau de lintervalle. Noter que
les limites B
I
, B
S
sont des fonctions des donnees Y
1
, . . . , Y
n
et non pas des inconnus ;
un intervalle de conance bilateral, de la forme (B
I
, B
S
) est le plus souvent utilise, mais
un intervalle de conance unilateral, de la forme
(, B
S
) ou (B
I
, ),
est parfois utile, B
S
et B
I
etant les bornes de conance superieure et inferieure pour .
Si nous ecrivons
Pr (, B
S
) = Pr ( < B
S
) = 1
S
, Pr (B
I
, ) = Pr ( > B
I
) = 1
I
,
alors le niveau de lintervalle (B
I
, B
S
) est
Pr (B
I
< B
S
) = Pr ( < B
S
) Pr ( < B
I
) = 1
S

I
.
Souvent en pratique on prend
I
=
S
= /2, donnant un intervalle bilateral de niveau (1 ), et on
dit que cest un IC à (1 ) 100%.
116
Construction dun IC
Avec laide dun pivot, on peut construire des IC pour :
1. on trouve un pivot Q = q(Y, ) qui contient ;
2. on obtient les quantiles q
1
1
, q
2
de Q;
3. puis on transforme lequation
Prq
2
q(Y, ) q
1
1
= 1
1

2
en la forme
Pr(B
I
B
S
) = 1
1

2
,
o` u les bornes B
I
, B
S
sont fonction de Y , q
2
, q
1
1
, et pas de .
Dans beaucoup de cas, les bornes sont dune forme standard.
Pour les IC unilateraux, on peut prendre soit
1
= 0 soit
2
= 0.
Exemple 260. Dans lexemple 258, trouver les IC bases sur Q
1
et Q
2
.
Exemple 261. Un echantillon de n = 16 plaques des voitures vaudoises a maximum 523308 et
moyenne 320869. Donner des IC bilateraux à 95% pour le nombre de voitures vaudoises.
Interpretation dun IC
(B
I
, B
S
) est un intervalle aleatoire qui contient avec probabilite 1 .
On imagine une suite innie de repetitions de lexperience qui a donne (B
I
, B
S
)
LIC que lon a calcule est un des ICs possibles, et on peut considerer quil a ete choisi au hasard
parmi ces possibilites.
Bien que nous ne sachions pas si notre IC contient , cet evenement a une probabilite 1 .
Pour illustrer ce raisonnement, ici le paramètre (vert) est contenu (ou pas) dans des realisations
de lIC (rouge) :
2 0 2 4 6 8 10 12
0
2
0
4
0
6
0
8
0
1
0
0
Parameter
R
e
p
e
t
i
t
i
o
n
117
Relation avec des tests
Il y a une relation intime entre les IC et les tests dhypothèse concernant les paramètres.
Soit H
0
: =
0
une hypothèse nulle concernant un paramètre .
Soit J = (B
I
, B
S
) un IC au niveau (1 ) 100% pour .
Alors
si
0
J, on considère que
0
est compatible avec les donnees, et on ne rejette pas H
0
au niveau
.
Si par contre , J, on considère que
0
est incompatible avec les donnees au niveau , et on
rejette H
0
.
Donc une manière generale de faire un test au niveau sur est de construire un IC au niveau
(1 ) et daccepter tout se trouvant dans le IC, et de rejeter toute autre valeur de .
Les ecart-types
Dans le plupart des cas, on utilise des pivots approximatifs, bases sur des estimateurs, dont on a
besoin destimer les variances.
Denition 262. Soient T = t(Y
1
, . . . , Y
n
) un estimateur de ,
2
n
= var(T) sa variance, et
V = v(Y
1
, . . . , Y
n
) une statistique estimateur de
2
n
. Alors on appelle V
1/2
(egalement sa realisation
v
1/2
) un ecart-type de T.
Theorème 263. Soient T un estimateur et V son ecart-type se basant sur un echantillon de taille n,
avec
T
n
D
Z,
V
2
n
P
1, n ,
o` u Z A(0, 1). Alors par le theorème 219 on a
T
V
1/2
=
T

n
V
1/2
D
Z, n .
Implication : En construisant un IC par le TCL, on peut remplacer
n
par V
1/2
.
118
Des IC approximatifs
En general on construit des ICs approximatifs à laide du theorème central limite. Rappelons que la
plupart des statistiques se basant sur les moyennes (implicites ou explicites) des variables
Y = (Y
1
, . . . , Y
n
) ont des lois normales pour n grand. Si T = t(Y ) est un estimateur de avec
ecart-type
V , et si
T

N(, V ),
alors (T )/
V

N(0, 1). Ainsi
Pr
_
z
2
< (T )/
V z
1
1
_
.
= (z
1
1
) (z
2
) = 1
1
2
,
impliquant quun IC (approx) de niveau (1
1
2
) pour est
(T
V z
1
1
, T
V z
2
).
Lexemple 260 en est un exemple, avec T = 2Y et V = T
2
/(3n), car pour n grand on a
B
I
T Tz
1
1
/(3n)
1/2
, B
S
T Tz
2
/(3n)
1/2
.
Moyenne et variance dun echantillon normal
Un cas très important o` u les IC exacts sont disponibles est lechantillon normal.
Theorème 264. Soient Y
1
, . . . , Y
n
iid
A(,
2
), alors
Y A(,
2
/n)
(n 1)S
2
=
n
j=1
(Y
j
Y )
2

2
2
n1
_
independantes
o` u
2
represente la loi khi-deux avec degres de liberte.

Ainsi si
2
est inconnu,
Y
_
S
2
/n
t
n1
,
(n 1)S
2
2

2
n1
sont des pivots que lon peut utiliser pour trouver des IC à (1 ) 100% pour et
2
,
respectivement, de forme
Y
S
n
t
n1
(/2),
_
(n 1)S
2
2
n1
(1 /2)
,
(n 1)S
2
2
n1
(/2)
_
,
o` u t
(p) et
2
(p) sont les quantiles des lois Student t avec degres de liberte et khi-deux avec
degres de liberte.
119
Densites de khi-deux et de Student
w
P
D
F
0 5 10 15 20
0
.
0
0
.
2
0
.
4
1
2
4
6
10
t
P
D
F
-4 -2 0 2 4
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
Densites (à gauche)
2
avec = 1, 2, 4, 6, 10, et (à droite) t
avec = 1 (le plus bas au centre), 2, 4,

20, (plus haut au centre).
Exemple
Exemple 265. On suppose que la resistance X dun certain type dequipements electriques est
distribuee approximativement suivant une loi normale avec S
2
= 0.12
2
ohm
2
. Un echantillon de taille
n = 9 a donne comme moyenne empirique la valeur x = 5.34 ohm.
(a) Trouver un IC bilateral pour au niveau 95%.
(b) Trouver un IC à 95% pour
2
.
(c) Dans (a), quest-ce qui change sil est connu que
2
= 0.12
2
?
Note : Le remplacement dun
2
inconnu par S
2
elargit lIC, car la variabilite de S augmente
lincertitude concernant .
Commentaires
Un IC donne non seulement une idee do` u se trouve un paramètre inconnu, mais sa largeur donne
en plus un sens de la precision de lestimation.
En generale la largeur varie comme n
1/2
, et donc multiplier par 100 la taille de lechantillon
augmente la precision par un facteur de 10 seulement.
La construction des IC se base sur les pivots, souvent utilisant le theorème centrale limite pour
approcher la loi dun estimateur, et donc souvent approximatifs.
Dans certains cas, notamment pour des modèles normaux, les IC exacts sont disponibles.
120
8 Vraisemblance slide 309
8.1 Motivation slide 310
Motivation
La vraisemblance est une des idees de base de la statistique. Elle donne un cadre general et puissant
pour traiter toutes sortes dapplications, en particulier pour
trouver les estimateurs dont la variance est la plus petite possible dans les grands echantillons ; et
construire des tests puissants.
Illustration
Quand on lance une pièce, des petites asymetries inuencent la probabilite dobtenir une face, qui
nest pas forcement 1/2. Soient Y
1
, . . . , Y
n
les resultats d essais independants, alors
Pr(Y
j
= 1) = , Pr(Y
j
= 0) = 1 , 0 1, j = 1, . . . , n.
Ci-dessous une telle suite pour une pièce de 5Fr avec n = 10 :
1 1 1 1 1 0 1 1 1 1
Quelles valeurs de vous semblent les plus et les moins credibles :
= 0, = 0.3, = 0.9, = 0.99?
Comment les comparer ? Comment trouver les s les plus plausibles ?
Idee de base
Pour une valeur de peu credible, la densite des donnees sera petite : plus cette densite est grande,
plus credible est le correspondant. Puisque les y
1
, . . . , y
10
resultent dessais independants, on a
f(y
1
, . . . , y
10
; ) =
10
j=1
f(y
j
; ) = f(y
1
; ) f(y
10
; ) =
5
(1 )
4
=
9
(1 ),
que nous allons considerer comme fonction de pour 0 1, que nous appelons la vraisemblance
L() (anglais likelihood).
0.0 0.2 0.4 0.6 0.8 1.0
0
.
0
0
0
.
0
1
0
.
0
2
0
.
0
3
0
.
0
4
n=10
theta
L
i
k
e
l
i
h
o
o
d
121
Vraisemblance relative
Pour comparer les valeurs de , il nous sut de considerer le rapport des valeurs de L()
correspondantes :
L(
1
)
L(
2
)
=
f(y
1
, . . . , y
10
;
1
)
f(y
1
, . . . , y
10
;
2
)
=

9
1
(1
1
)
9
2
(1
2
)
= c
implique que
1
est c fois plus plausible que
2
.
La valeur la plus plausible est

, qui satisfait
L(
) L(), 0 1;
sappelle lestimation du maximum de vraisemblance (anglais maximum likelihood

estimate).
Alors la vraisemblance relative RL() = L()/L(
) donne la plausibilite de par rapport à

.
Exemple
Exemple 266. Trouver

et RL() pour une suite dessais de Bernoulli independants.
Le graphique suivant represente RL(), pour n = 10, 20, 100 et la suite
1 1 1 1 1 0 1 1 1 1 0 1 1 1 1 0 1 0 1 1
1 1 1 1 1 1 0 1 0 1 0 0 1 1 0 1 1 1 0 1
1 1 1 0 0 1 0 1 1 1 1 1 0 0 1 1 1 1 1 1
1 0 1 0 1 1 0 1 1 1 0 0 1 1 1 0 1 1 1 1
1 0 0 0 0 1 0 1 0 0 1 0 0 1 1 1 1 1 1 0
Plus n augmente, plus RL() se concentre autour de

: des valeurs de eloignees de

deviennent
moins credibles par rapport à

.
Ceci suggère que lon pourrait construire un IC en prenant les tel que RL() c. On verra plus
tard comment choisir c.
122
Suite de Bernoullis
0.0 0.2 0.4 0.6 0.8 1.0
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
n=10 (black), n=20 (blue), n=100 (red)
theta
R
e
l
a
t
i
v
e

l
i
k
e
l
i
h
o
o
d
Suite de Bernoullis
0.0 0.2 0.4 0.6 0.8 1.0
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
theta
R
e
l
a
t
i
v
e

l
i
k
e
l
i
h
o
o
d
c=0.1
c=0.3
123
8.2 Paramètre scalaire slide 318
La vraisemblance
Denition 267. Soit y un jeu de donnees, dont la densite de probabilite conjointe f(y; ) depend
dun paramètre , alors la vraisemblance et la log vraisemblance sont
L() = f(y; ), () = log L(),
considerees comme fonction de .
Si y = (y
1
, . . . , y
n
) est une realisation des variables aleatoires independantes de Y
1
, . . . , Y
n
, alors
L() = f(y; ) =
n
j=1
f(y
j
; ), () =
n
j=1
log f(y
j
; ),
o` u f(y
j
; ) represente la densite dune des y
j
.
Estimation de maximum de vraisemblance
Denition 268. Lestimation du maximum de vraisemblance

satisfait
L(
) L() pour tout ,

ce qui est equivalent à (
) (), car L() et () ont les meme maximums. La variable aleatoire

correspondante sappelle lestimateur du maximum de vraisemblance (EMV) anglais
maximum likelihood estimator (MLE).
Dans la plupart des cas

satisfait
d(
)
d
= 0,
d
2
(
)
d
2
< 0.
Pour ce cours on supposera que la première de ces equations na quune solution (pas toujours vrai en
realite).
Dans des cas realistes on utilise des algorithmes numeriques pour obtenir

et d
2
(
)/d
2
.
Information
Denition 269. Linformation observee J() et linformation esperee (parfois aussi information
de Fisher) I() sont
J() =
d
2
()
d
2
, I() = EJ() = E
_
d
2
()
d
2
_
.
Elles mesurent la courbure de () : plus J() et I() sont grandes, plus () et L() sont
concentrees.
1
, . . . , y
n
iid
Bernoulli(), calculer L(), (),

, var(
), J(), et I().
124
Loi limite de lEMV
Theorème 271. Soient Y
1
, . . . , Y
n
un echantillon aleatoire issu dune densite parametrique f(y; ), et
soit

lEMV de . Si f satisfait des conditions de regularite (voir ci-après), alors
J(
)
1/2
(
)
D
A(0, 1) n .
Donc pour n grand,

A
_
, J(
)
1
_
.
Ainsi un IC pour de niveau approximative de (1 ) est
J
0.95
= (B
I
, B
S
) = (
J(
)
1/2
z
1/2
,
+J(
)
1/2
z
1/2
).
On peut montrer que pour n grand (et un modèle regulier) aucun estimateur ne peut avoir une
variance plus petite que celle de lEMV. Il est alors optimal dans ce sens.
Exemple 272. Trouver ces ICs à 95% pour les donnees de la pièce avec n = 10, 20, 100.
n Piles

J(
) J
0.95
J
W
0.95
10 9 0.9 111.1 (0.72, 1.08) (0.63, 0.99)
20 16 0.8 125.0 (0.62, 0.98) (0.59, 0.94)
100 69 0.69 467.5 (0.60, 0.78) (0.60, 0.78)
Statistique du rapport de vraisemblance
Parfois un IC base sur la loi limite normale de

nest pas raisonnable. Il vaut alors mieux utiliser ()
elle-meme.
Denition 273. Soit () la log vraisemblance pour un paramètre de dimension p, dont lEMV est
. Alors la statistique de rapport de vraisemblance est

W() = 2
_
(
) log()
_
.
Theorème 274. Soit
0
la valeur de qui a genere les donnees, alors sous les conditions de regularite
donnant à

une loi limite normale,
W(
0
)
D

2
p
quand n ;
ainsi W(
0
)

2
p
pour n grand.
Exemple 275. Trouver W() quand Y
1
, . . . , Y
n
iid
Bernoulli(
0
).
125
Implications du theorème 274
Supposons que lon veuille tester lhypothèse H
0
: =
0
, o` u
0
est xe. Si H
0
est vraie, le
theorème implique que W(
0
)

2
p
. Plus W(
0
) est grand, plus on doute de H
0
. Alors on peut
prendre W(
0
) comme statistique de test, dont la valeur observee est w
obs
, et avec
p
obs
= Pr
_
W(
0
) w
obs
_
.
= Pr
_
2
p
w
obs
_
comme niveau de signication. Plus p
obs
est petite, plus on doute H
0
.
Soit c
p
(1 ) le (1 ) quantile de la loi
2
p
. Alors ce theorème implique quun IC pour
0
de
niveau (1 ) est lensemble
J
W
1
= : W() c
p
(1 ) =
_
: 2
_
(
) ()
_
c
p
(1 )
_
=
_
: () (
)
1
2
c
p
(1 )
_
.
Donc on dessine () comme fonction de , et on prend comme valeur credible à niveau (1 )
tout tel que () (
)
1
2
c
p
(1 ).
Pour scalaire on a p = 1, et souvent 1 = 0.95, alors c
1
(0.95) = 3.84. Donc lIC à 95% est
forme de tout tel que () (
) 1.92. Dans ce cas on a

RL() = L()/L(
) = exp() (
) exp(1.92) 0.15.
ICs base sur statistique du rapport de vraisemblance
0.0 0.2 0.4 0.6 0.8 1.0
1
0
theta
L
o
g

l
i
k
e
l
i
h
o
o
d
Level 0.9
Level 0.95
Level 0.99
Quand n augmente, lIC devient moins large et plus symetrique autour de

.
Quand 1 augmente, lIC devient plus large.
126
Standard Model
Le top quark a ete decouvert en 1995.
Le resultat des experiences menees pour le trouver etait une variable y = 17, qui devrait avoir la loi
Poisson() avec = 6.7 si ce quark nexistait pas.
Top quark : Vraisemblance
5 10 15 20 25
2
0
theta
L
o
g

l
i
k
e
l
i
h
o
o
d
La statistique du rapport de vraisemblance est
w
obs
= W(
0
) = 2
_
log f(y;
) log f(y;
0
)
_
, avec y = 17,
0
= 6.7,
donc w
obs
= 11.06.
127
Regularite
Les conditions de regularite sont compliquees. Les cas o` u elles sont fausses sont le plus souvent les cas
o` u
le support de f(y; ) depend de , ou
le vrai se trouve sur une borne des valeurs possibles.
Elles sont satisfaites dans la grande majorite des cas rencontres en pratique.
Voici un exemple o` u elles ne sont pas veriees.
1
, . . . , Y
n
iid
U(0, ), trouver la vraisemblance L() et lEMV

. Montrer que
la loi limite de n(
)/ quand n est exp(1). Discuter.

8.3 Paramètre vecteur slide 329
Vecteur
Souvent est un vecteur de dimension p. Alors les denitions et resultats ci-dessus sont valables avec
des petits changements :
lEMV

satisfait souvent lequation vectorielle
d(
)
d
= 0;
J() et I() sont des matrices p p ;
et dans des cas reguliers,

A
p
, J(
)
1
.
Exemple 277. Soit y
1
, . . . , y
n
un echantillon aleatoire N(,
2
), calculer et
2
et leurs lois
asymptotiques.
Statistique du rapport de vraisemblance
Mettons = (, ), o` u a dimension q et a dimension p q, et supposons que lon veuille tester
lhypothèse que =
0
, une valeur donnee. On dit alors que le modèle avec (
0
, ) est embotee
dans lautre, dont il est une simplication. Soient
lEMV,

= (
),
lEMV de quand =
0
,

0
= (
0
,
0
)
et ecrivons la statistique du rapport de vraisemblance
W(
0
) = 2
_
(
) (
0
)
_
.
Alors sil est vrai que =
0
(i.e., le modèle le plus simple des deux est vrai), on a
W(
0
)

2
q
.
Ceci donne une base pour les tests et les ICs comme auparavant.
128
Exemple
Exemple 278. Ci-dessous les resultats de 100 lances de deux pièces dierentes :
1 1 1 1 1 0 1 1 1 1 0 1 1 1 1 0 1 0 1 1
1 1 1 1 1 1 0 1 0 1 0 0 1 1 0 1 1 1 0 1
1 1 1 0 0 1 0 1 1 1 1 1 0 0 1 1 1 1 1 1
1 0 1 0 1 1 0 1 1 1 0 0 1 1 1 0 1 1 1 1
1 0 0 0 0 1 0 1 0 0 1 0 0 1 1 1 1 1 1 0
1 0 1 1 0 0 1 0 1 1 0 0 0 1 1 0 0 0 1 0
1 1 0 1 0 1 0 1 1 0 0 0 0 1 0 1 1 0 0 0
1 1 1 0 0 1 1 0 0 1 1 0 1 0 1 1 0 0 0 1
1 0 1 1 1 1 1 0 1 1 1 1 0 1 0 0 1 1 0 0
0 1 1 1 1 1 1 0 1 0 0 1 0 0 1 1 1 1 0 1
Soient
1
,
2
les probabilites dobtenir pile correspondantes. Trouver la vraisemblance, et la statistique
du rapport de vraisemblance. Est-ce que
1
=
2
: les probabilites sont-elles egales ?
Exemple : Vraisemblance
Contours of log likelihood
theta1
t
h
e
t
a
2
0.0 0.2 0.4 0.6 0.8 1.0
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
129
8.4 Modelisation statistique slide 334
Alcool au volant
Alcool au volant
Exemple 279. Formuler un modèle pour les donnees, et lutiliser pour verier le changement dans la
proportion daccidents d us à lalcool en 20052006.
Y-a-t-il une dierence au-dela le Rostigraben ?
Valeurs du log vraisemblance maximisee

Modèle

Nombre de paramètres 2(
1
) df
ca
4668.59 1
ca
=
c
161.62 23 9011.9 22
ca
=
c
157.70 24 7.7 1
ca
=
c
r
155.20 25 5.2 1
ca
=
ca
146.72 46 16.9 21
Les indices :
c pour canton
a pour annee
r pour Rostigraben
130
Loi de la statistique du rapport de vraisemblance
Voici des simulations pour comparer les modèles avec 25 paramètres, et avec 46 paramètres. La loi
2
21
donne un très bonne approximation de la loi empirique de la statistique du rapport de
vraisemblance, W.
Simulated likelihood ratio statistics
Likelihood ratio statistic
D
e
n
s
i
t
y
0 10 20 30 40 50
0
.
0
0
0
.
0
2
0
.
0
4
0
.
0
6
0
.
0
8
0
.
1
0
0 10 20 30 40 50
0
1
0
2
0
3
0
4
0
5
0
Quantiles of chisquared distribution, 21 df
O
r
d
e
r
e
d

L
R

s
t
a
t
i
s
t
i
c
s
Estimations
Voici quelques estimations pour le meilleur modèle :
Estimate Std. Error z value Pr(>|z|)
cantonFR 4.61884 0.07402 62.404 < 2e-16 ***
cantonJU 3.85312 0.10598 36.358 < 2e-16 ***
cantonVD 6.63906 0.03378 196.510 < 2e-16 ***
cantonNE 4.77156 0.06907 69.087 < 2e-16 ***
cantonAG 5.48651 0.04636 118.352 < 2e-16 ***
cantonAI 1.82690 0.27765 6.580 4.71e-11 ***
cantonAR 3.04614 0.15131 20.131 < 2e-16 ***
...
cantonZG 4.24556 0.08377 50.679 < 2e-16 ***
romand1:year -0.02753 0.04435 -0.621 0.534715
romand0:year 0.08787 0.02489 3.530 0.000415 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
131
Approche generale
Ayant compris la situation et regarde les donnees :
1. on choisit un ou quelques modèles, se basant sur
des connaissances prealables, ou
un raisonnemment stochastique, ou
des notions purement empiriques ;
2. on ajuste les modèles par maximum de vraisemblance ;
3. on compare les modèles par leurs log vraisemblances maximisees, souvent avec la statistique du
rapport de vraisemblance 2(
1
) ;
4. on choisit un ou quelques meilleurs modèles, et on utilise lapproximation

A
0
, J(
)
1
pour trouver les ICs pour les paramètres, que lon peut interpreter par rapport au problème
original ;
5. on verie si les meilleurs modèles sont bons ;
6. si tout va bien, on sarrete ; sinon, on recommence à 1, ou on cherche plus de (meilleures ?)
donnees.
132
9 Inference Bayesienne slide 341
9.1 Idees de Bayes slide 342
Inference bayesienne
Jusquà ici nous avons suppose que toute information à propos de provient des donnees y. Mais si
on des connaissances a priori sur sous forme dune densite a priori (anglais prior density)
(),
on peut trouver la densite a posteriori (anglais posterior density) pour , sachant les donnees y,
( [ y) =
f(y [ )()
f(y)
,
par le theorème de Bayes. On peut baser () sur
des donnees separees de y ;
une notion objective de ce quil est raisonnable de croire à propos de ;
une notion subjective de ce que je crois à propos de .
On considèrera () après discussion de la mechanisme bayesienne.
Rappel : Theorème de Bayes
Soient B
1
, . . . , B
k
une partition de lespace des echantillons E, et soit A un evènement quelconque de
lespace des echantillons. Alors
Pr(B
i
[ A) =
Pr(A B
i
)
Pr(A)
=
Pr(A [ B
i
)Pr(B
i
)
Pr(A)
=
Pr(A [ B
i
)Pr(B
i
)
k
j=1
Pr(A [ B
j
)Pr(B
j
)
.
Interpretation : la connaissance de la realisation de levènement A met à jour les probabilites des
evènements B
1
, . . . , B
k
:
Pr(B
1
), . . . , Pr(B
k
) Pr(B
1
[ A), . . . , Pr(B
k
[ A).
133
Application du theorème de Bayes
On suppose que le paramètre a pour densite (), et que la densite conditionelle de Y sachant ,
est f(y [ ). La densite conjointe est
f(y, ) = f(y [ )(),
et par le theorème de Bayes la densite conditionelle de sachant que Y = y est
( [ y) =
f(y [ )()
f(y)
,
o` u
f(y) =
_
f(y [ )() d
est la densite marginale des donnees Y .
Mise à jour bayesienne
Do` u lutilisation du theorème de Bayes pour mettre à jour la densite a priori de en une densite a
posteriori de :
()
y
( [ y),
ou de manière equivalente
incertitude a priori
donnees
incertitude a posteriori.
Nous utilisons (), ( [ y) (plutot que f(), f( [ y)) pour expliciter que ces lois dependent des
informations exterieures aux donnees.
134
La densite Beta(a, b)
Denition 280. La densite beta(a, b) pour (0, 1) a la forme
() =

a1
(1 )
b1
B(a, b)
, 0 < < 1, a, b > 0,
o` u a et b sont les paramètres, B(a, b) = (a)(b)/(a +b) est la fonction beta, et
(a) =
_

0
u
a1
e
u
du, a > 0,
est la fonction gamma.
Noter que a = b = 1 donne la densite U(0, 1).
Exemple 281. Montrer que si Beta(a, b), alors
E() =
a
a +b
, var() =
ab
(a +b + 1)(a +b)
2
.
Exemple 282. Calculer la densite a posteriori de pour une suite dessais de Bernoulli, si la densite a
priori est Beta(a, b).
Densites a priori
0.0 0.4 0.8
0
2
4
6
8
1
2
a= 0.5 , b= 0.5
theta
D
e
n
s
i
t
y

o
f

t
h
e
t
a
0.0 0.4 0.8
0
2
4
6
8
1
2
a= 1 , b= 1
theta
D
e
n
s
i
t
y

o
f

t
h
e
t
a
0.0 0.4 0.8
0
2
4
6
8
1
2
a= 5 , b= 5
theta
D
e
n
s
i
t
y

o
f

t
h
e
t
a
0.0 0.4 0.8
0
2
4
6
8
1
2
a= 5 , b= 10
theta
D
e
n
s
i
t
y

o
f

t
h
e
t
a
0.0 0.4 0.8
0
2
4
6
8
1
2
a= 10 , b= 5
theta
D
e
n
s
i
t
y

o
f

t
h
e
t
a
0.0 0.4 0.8
0
2
4
6
8
1
2
a= 10 , b= 10
theta
D
e
n
s
i
t
y

o
f

t
h
e
t
a
135
Densites a posteriori avec n = 10, s = 9
0.0 0.4 0.8
0
2
4
6
8
1
2
a+s= 9.5 , b+ns= 1.5
theta
D
e
n
s
i
t
y

o
f

t
h
e
t
a
0.0 0.4 0.8
0
2
4
6
8
1
2
a+s= 10 , b+ns= 2
theta
D
e
n
s
i
t
y

o
f

t
h
e
t
a
0.0 0.4 0.8
0
2
4
6
8
1
2
a+s= 14 , b+ns= 6
theta
D
e
n
s
i
t
y

o
f

t
h
e
t
a
0.0 0.4 0.8
0
2
4
6
8
1
2
a+s= 14 , b+ns= 11
theta
D
e
n
s
i
t
y

o
f

t
h
e
t
a
0.0 0.4 0.8
0
2
4
6
8
1
2
a+s= 19 , b+ns= 6
theta
D
e
n
s
i
t
y

o
f

t
h
e
t
a
0.0 0.4 0.8
0
2
4
6
8
1
2
a+s= 19 , b+ns= 11
theta
D
e
n
s
i
t
y

o
f

t
h
e
t
a
0.0 0.4 0.8
0
2
4
6
8
1
2
a+s= 24.5 , b+ns= 6.5
theta
D
e
n
s
i
t
y

o
f

t
h
e
t
a
0.0 0.4 0.8
0
2
4
6
8
1
2
a+s= 25 , b+ns= 7
theta
D
e
n
s
i
t
y

o
f

t
h
e
t
a
0.0 0.4 0.8
0
2
4
6
8
1
2
a+s= 29 , b+ns= 11
theta
D
e
n
s
i
t
y

o
f

t
h
e
t
a
0.0 0.4 0.8
0
2
4
6
8
1
2
a+s= 29 , b+ns= 16
theta
D
e
n
s
i
t
y

o
f

t
h
e
t
a
0.0 0.4 0.8
0
2
4
6
8
1
2
a+s= 34 , b+ns= 11
theta
D
e
n
s
i
t
y

o
f

t
h
e
t
a
0.0 0.4 0.8
0
2
4
6
8
1
2
a+s= 34 , b+ns= 16
theta
D
e
n
s
i
t
y

o
f

t
h
e
t
a
136
0.0 0.4 0.8
0
2
4
6
8
1
2
a+s= 69.5 , b+ns= 31.5
theta
D
e
n
s
i
t
y

o
f

t
h
e
t
a
0.0 0.4 0.8
0
2
4
6
8
1
2
a+s= 70 , b+ns= 32
theta
D
e
n
s
i
t
y

o
f

t
h
e
t
a
0.0 0.4 0.8
0
2
4
6
8
1
2
a+s= 74 , b+ns= 36
theta
D
e
n
s
i
t
y

o
f

t
h
e
t
a
0.0 0.4 0.8
0
2
4
6
8
1
2
a+s= 74 , b+ns= 41
theta
D
e
n
s
i
t
y

o
f

t
h
e
t
a
0.0 0.4 0.8
0
2
4
6
8
1
2
a+s= 79 , b+ns= 36
theta
D
e
n
s
i
t
y

o
f

t
h
e
t
a
0.0 0.4 0.8
0
2
4
6
8
1
2
a+s= 79 , b+ns= 41
theta
D
e
n
s
i
t
y

o
f

t
h
e
t
a
Interpretation de ( [ y)
( [ y) contient ma croyance au sujet de ayant vu les donnees y, quand ma croyance initiale de
est resumee dans la densite ().
La densite contient toute cette information, mais il est parfois utile dextraire des resumes, tel que
lesperance a posteriori ou la variance a posteriori,
E( [ y), var( [ y),
ou lestimation maximum a posteriori (estimation MAP), cest à dire

tel que
(
[ y) ( [ y), .
Exemple 283. Calculer lesperance et la variance a posteriori de , et son estimation MAP, pour
lexemple precedent.
137
Les intervalles de credibilite
Lequivalent de lIC à (1 ) pour , est lintervalle de credibilite de niveau (1 ) de
obtenu en utilisant les quantiles /2 et (1 /2) de ( [ y).
En prenant = 0.05, a = b = 0.5, on obtient
n = 10 n = 30 n = 100

1.96J(
)
1/2
Lower 0.619 0.633 0.595 0.599
Upper 0.989 0.912 0.774 0.781
Ici

est le MLE de , et J(
) est linformation observee.

a, b nont que peu dinuence pour des grands echantillons, car les donnees contiennent alors
beaucoup dinformation sur .
Fonctions de perte
Pour construire un estimateur base sur les donnees y, on considère que le choix destimation
correspond à une decision, et on cherche à minimiser la perte potentielle.
Denition 284. Soit Y f(y; ), alors une fonction de perte R(y; ) est une fonction non-negative
de Y et de . La perte moyenne a posteriori est
ER(y; ) [ y =
_
R(y; )( [ y) d.
Exemple 285. Si je cherche à estimer avec

(y) en minimisant ER(y; ) [ y par rapport à

,
montrer quavec
R(y; ) = (
)
2
, R(y; ) = [
[,
jai respectivement

= E( [ y) et

la mediane de ( [ y).
Cette idee est utile aussi quand on veut baser une decision sur les donnees : on construit R(y; ) pour
representer la perte quand on observe y et y base la decision, mais letat de realite est .
Densites conjuguees
Des combinaisons particulières de donnees et de densites a priori engendrent des densites a posteriori
de la meme forme que celles a priori. Exemple :
Beta(a, b)
s,n
[ x Beta(a +s, b +n s),
o` u les donnees s B(n, ).
La densite beta est dite conjuguee avec la binomial. Cest une idee très utile, car souvent on peut
eviter de devoir integrer. Ainsi :
Si lon reconnat ( [ y), pas besoin dintegrer !
1
, . . . , Y
n
[
iid
A(,
2
) et A(
0
,
2
), ou
2
et
2
sont connus.
Calculer la loi a posteriori de [ Y
1
, . . . , Y
n
, sans faire dintegration.
138
Prediction dune future variable aleatoire Z
Est-ce que le prochain resultat sera pile (Z = 0) ou face (Z = 1) ?
Utiliser le theorème de Bayes pour calculer la densite a posteriori de Z sachant Y = y :
Pr(Z = z [ Y = y) =
Pr(Z = z, Y = y)
Pr(Y = y)
=
_
f(z, y [ )() d
_
f(y [ )() d
.
Exemple 287. Calculer la loi a posteriori pour un autre essai de Bernoulli, independant des
precedents.
Rappel : B(a, b) = (a)(b)/(a +b), and (a + 1) = a(a), a, b > 0.
Lapproche bayesienne
On traite chaque inconnu (paramètre , predicat Z, . . .) comme une variable aleatoire, donner lui
une distribution (en utilisant souvent lindependance), et calculer sa distribution a posteriori sachant
les donnees, en utilisant le theorème de Bayes.
On pait en devant construire un modèle plus elabore, avec de linformation a priori, mais on gagne
en pouvant traiter tous les inconnus sur le meme baseparamètres, donnees, valeurs manquantes,
predicats, etc.et donc on na quà appliquer les lois de probabilite, basant linference sur ce que
lon a observe.
Questions philosophique :
Est ce justie dincorporer les connaissances a priori de cette manière ?
Do` u proviennent-elles ?
Souvent on choisit les lois a priori pour des raisons pratiques (e.g., lois conjugees) plutot que
philosophiques.
Question pratique :
Comment faire tous les integrales dont on a besoin ?
Souvent on utilise les methodes de Monte Carlo, qui construisent les chanes de Markov dont les
lois limites sont les lois a posteriori ( [ y). Cest une histoire pour un autre jour . . .
139
9.2 Modelisation Bayesienne slide 358
Donnees NMR
0 200 400 600 800 1000
0
2
0
4
0
6
0
NMR data
y
Wavelet Decomposition Coefficients
Translate
R
e
s
o
l
u
t
i
o
n

L
e
v
e
l
9
8
7
6
5
4
3
2
1
0 128 256 384 512
A gauche : donnees originales, avec n = 1024
A droite : transformee orthogonale en n = 1024 coecients à des resolutions dierentes
Representations parcimonieuses
Dans beaucoup dapplications modernes on veut extraire un signal dun environnemment bruite :
trouver la combinaison de genes menant à une maladie ;
nettoyage dun image biomedicale ;
debruitage dun download ;
detection des spams.
On cherche souvent une representation parcimonieuse du signal, avec beaucoup delements nuls.
140
Transformation orthogonale
Donnees originales X avec signal
n1
bruite :
X A
n
(,
2
I
n
),
mettre Y
n1
= W
nn
X
n1
, o` u W
T
W = WW
T
= I
n
est orthogonale
choisir W tel que = W devrait avoir beaucoup delements petits
tuer des petits coecients de Y , qui correspondent au bruit, donnant
n1
= kill(Y ) = kill(WX),
puis estimer le signal par
= W
T
= W
T
kill(WX)).
Un bon choix de W sont les coecients dondelettes. Ici les ondelettes de Haar, avec n = 8 :
_
_
_
_
_
_
_
_
_
_
_
_
1 1 1 0 1 0 0 0
1 1 1 0 1 0 0 0
1 1 1 0 0 1 0 0
1 1 1 0 0 1 0 0
1 1 0 1 0 0 1 0
1 1 0 1 0 0 1 0
1 1 0 1 0 0 0 1
1 1 0 1 0 0 0 1
_
_
_
_
_
_
_
_
_
_
_
_
Lois a priori et a posteriori
Supposons que Y [ A(,
2
), et a priori on a le melange
=
_
0, avec probabilite 1 p,
A(0,
2
), avec probabilite p,
ainsi la densite a priori pour est
() = (1 p)() +p
1
(/), R,
o` u () est la fonction de delta, mettant une masse 1 à = 0.
Supposant p, , connus, la densite a posteriori a la forme
( [ y) = (1 p
y
)() +p
y
b
1
_
ay
b
_
, R,
o` u
a =
2
/(
2
+
2
), b
2
= 1/(1/
2
+ 1/
2
),
et
p
y
=
p(
2
+
2
)
1/2
y/(
2
+
2
)
1/2
(1 p)
1
(y/) +p(
2
+
2
)
1/2
y/(
2
+
2
)
1/2
est la probabilite a posteriori que ,= 0.

141
Retrecissement bayesien
Pour trouver un estimateur de , on utilise la fonction de perte [
[, et ainsi

est la mediane a
posteriori de .
Voici les fonctions de repartition de a priori (gauche) et a posteriori quand p = 0.5, = = 1, et
y = 2.5 (centre), et y = 1 (droite).
Lignes : probabilite=0.5 (rouge) ; valeur de y (bleue) ; mediane a posteriori

(verte).
4 2 0 2 4
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
Prior
theta
C
D
F
4 2 0 2 4
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
Posterior, y=2.5, posterior median=0.98
theta
C
D
F
4 2 0 2 4
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
Posterior, y=1, posterior median=0
theta
C
D
F
Estimation adaptive des paramètres
Pour estimer les paramètres inconnus p, , on utilise maximum de vraisemblance :
la densite marginale de y est
f(y) = (1 p)
1
(y/) +p(
2
+
2
)
1/2
y/(
2
+
2
)
1/2
, y R,
et donc si lon a y
1
, . . . , y
n
iid
f, on peut estimer p, , en maximisant la log vraisemblance
(p, , ) =
n
j=1
log f(y
j
; p, , ).
Ici on trouve p = 0.92, = 0.54, = 0.028.
Maintenant on peut calculer le

j
pour chacun des y
j
, et obtenir le signal debruite.
Donnees NMR data, après transformation
Original coefficients
Translate
R
e
s
o
l
u
t
i
o
n

L
e
v
e
l
9
8
7
6
5
4
3
2
1
0 128 256 384 512
Shrunken coefficients
Translate
R
e
s
o
l
u
t
i
o
n

L
e
v
e
l
9
8
7
6
5
4
3
2
1
0 128 256 384 512
142
Donnees NMR data, après nettoyage
0 200 400 600 800 1000
2
0
0
2
0
4
0
6
0
NMR data
y
0 200 400 600 800 1000
2
0
0
2
0
4
0
6
0
Bayesian posterior median
w
r
(
w
)
Filtre à spam
On veut construire un ltre à spam en se basant sur la presence de certains caracteristiques
C
1
, . . . , C
m
des mels.
Les donnees Y sont de la forme
S C
1
C
2
C
m
1 0 1 1 1
2 1 0 1 0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
n 0 0 0 0
o` u S = 1 pour un spam, et C
i
= 1 si la caracteristique i (e.g., le mot Nigeria, langue russe,
adresse hotmail) est presente.
Modèle simple :
Pr(S = 1) = p, Pr(S = 0) = 1 p,
Pr(C
i
= 1 [ S = 1) =
i
, Pr(C
i
= 0 [ S = 1) = 1
i
,
Pr(C
i
= 1 [ S = 0) =
i
, Pr(C
i
= 0 [ S = 0) = 1
i
,
et les C
1
, . . . , C
m
sont independantes, sachant la valeur de S.
143
Filtre à spam
Pour un nouveau mel avec C
+
1
, . . . , C
+
m
mais sans S
+
, on calculera
Pr(S
+
= 1 [ C
+
1
, . . . , C
+
m
, Y ),
puis on mettra le mel en quarantaine si cette probabilite depasse un seuil d (0, 1).
Si on ecrit = (p,
1
, . . . ,
m
,
1
, . . . ,
m
), et si on suppose a priori que
p,
1
, . . . ,
m
,
1
, . . . ,
m
iid
U(0, 1),
alors on a
( [ y) = f(y [ ) ()/f(y)
j=1
_
m
i=1
c
ji
i
(1
i
)
1c
ji
_
s
j
_
m
i=1
c
ji
i
(1
i
)
1c
ji
_
1s
j
1
=
m
i=1
j
s
j
c
ji
i
(1
i
)
j
s
j
(1c
ji
)
j
(1s
j
)c
ji
i
(1
i
)
j
(1s
j
)(1c
ji
)
i=1
t
i1
i
(1
i
)
t
i2
t
i3
i
(1
i
)
t
i4
B(1 +t
i1
, 1 +t
i2
)B(1 +t
i3
, 1 +t
i4
)
,
o` u t
i1
=
j
s
j
c
ji
, t
i2
=
j
s
j
(1 c
ji
), t
i3
=
j
(1 s
j
)c
ji
, t
i4
=
j
(1 s
j
)(1 c
ji
).
Filtre à spam
Avec les caracteristiques nouvelles C
+
= (C
+
1
, . . . , C
+
m
), on aimerait caculer
Pr(S
+
= 1 [ C
+
, Y ) =
Pr(S
+
= 1, C
+
[ Y )
Pr(C
+
[ Y )
=
Pr(S
+
= 1, C
+
[ Y )
Pr(S
+
= 0, C
+
[ Y ) + Pr(S
+
= 1, C
+
[ Y )
o` u
Pr(S
+
= s
+
, C
+
[ Y ) =
_
Pr(S
+
= s
+
, C
+
= c
+
[ , y)( [ y) d,
et
Pr(S
+
= s
+
, C
+
= c
+
[ , y) = Pr(S
+
= s
+
, C
+
= c
+
[ )
=
_
m
i=1
c
+
i
i
(1
i
)
1c
+
i
_
s
+ _
m
i=1
c
+
i
i
(1
i
)
1c
+
i
_
1s
+
et donc
Pr(S
+
= s
+
, C
+
= c
+
[ )( [ y) =
m
i=1
t
+
i1
i
(1
i
)
t
+
i2
t
+
i3
i
(1
i
)
t
+
i4
B(1 +t
i1
, 1 +t
i2
)B(1 +t
i3
, 1 +t
i4
)
,
o` u t
+
i1
=
j
s
j
c
ji
+s
+
c
+
i
, t
+
i2
=
j
s
j
(1 c
ji
) +s
+
(1 c
+
i
), t
+
i3
=
j
(1 s
j
)c
ji
+ (1 s
+
)c
+
i
,
t
+
i4
=
j
(1 s
j
)(1 c
ji
) + (1 s
+
)(1 c
+
i
).
144
Filtre à spam
Ainsi
Pr(S
+
= s
+
, C
+
[ Y ) =
m
i=1
B(1 +t
+
i1
, 1 +t
+
i2
)B(1 +t
+
i3
, 1 +t
+
i4
)
B(1 +t
i1
, 1 +t
i2
)B(1 +t
i3
, 1 +t
i4
)
,
do` u on obtient
Pr(S
+
= 1 [ C
+
, Y ) =
Pr(S
+
= 1, C
+
[ Y )
Pr(S
+
= 0, C
+
[ Y ) + Pr(S
+
= 1, C
+
[ Y )
,
ou, quantite equivalente, les
log odds = log
_
Pr(S
+
= 1, C
+
[ Y )/Pr(S
+
= 0, C
+
[ Y )
_
.
Ainsi il faut stocker les 4 m quantites,
t
11
=
j
s
j
c
j1
t
21
=
j
s
j
c
j2
t
m1
=
j
s
j
c
jm
t
12
=
j
s
j
(1 c
j1
) t
22
=
j
s
j
(1 c
j2
) t
m2
=
j
s
j
(1 c
jm
)
t
13
=
j
(1 s
j
)c
j1
t
23
=
j
(1 s
j
)c
j2
t
m3
=
j
(1 s
j
)c
jm
t
14
=
j
(1 s
j
)(1 c
j1
) t
24
=
j
(1 s
j
)(1 c
j2
) t
m4
=
j
(1 s
j
)(1 c
jm
)
et les mettre à jour quand on a de nouvelles valeurs de s
j
, c
1
, . . . , c
m
.
Une hypothèse cle est que les C
1
, . . . , C
m
sont indeps, sachant S ; cest probablement faux, mais
peut-etre pas trop dommageant souvent idiots Bayes marche assez bien.
Resultats
Simulations avec p = 0.8, n = 100 mels dont S et C sont connus, et 1000 nouveaux mels dont
seulement C
+
est connu.
Ici un mel est classie comme spam si
Pr(S
+
= 1 [ C
+
, Y ) > Pr(S
+
= 0 [ C
+
, Y ).
De 183 bons, 44 sont mal-classies avec m = 2, tandis que pour 199 bons, que 5 sont mal-classies
avec m = 20.
m = 2 m = 20
Spam Bon Total Spam Bon Total
Spam 699 118 817 Spam 799 2 801
Bon 44 139 183 Bon 5 194 199
Commentaires
Les idees bayesiennes fournissent une approche integree au traitement de lincertitude et à la
modelisation, avec laquelle on peut attaquer des problèmes très complexes
La diculte principale philosophique est le statut de linformation a priori
La diculte principale pratique est le besoin de calculer beaucoup dintegrales complexes et
multidimensionelles.
145

Sic Notes

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Sic Notes

Transféré par

Droits d'auteur :

Formats disponibles

Probabilites et Statistique pour Informatique et Communications

c _A. C. Davison, 2012

1. La fonction caracteristique de X est

qui est positif si f

est la derivee de g. Alors

suit la loi de khi-deux avec

A(0, 1), pour grand n, et on imaginerait que

estimateur dun param`etre inconnu .

) L() pour chaque .

) comme estimateur de g() est

represente la loi khi-deux avec degres de liberte.

avec = 1, 2, 4, 6, 10, et (`a droite) t

avec = 1 (le plus bas au centre), 2, 4,

sappelle lestimation du maximum de vraisemblance (anglais maximum likelihood

) donne la plausibilite de par rapport `a

) L() pour tout ,

) (), car L() et () ont les meme maximums. La variable aleatoire

. Alors la statistique de rapport de vraisemblance est

) 1.92. Dans ce cas on a

)/ quand n est exp(1). Discuter.

) est linformation observee.

est la probabilite a posteriori que ,= 0.

Vous aimerez peut-être aussi