Vous êtes sur la page 1sur 145

Probabilites et Statistique pour Informatique et Communications

c _A. C. Davison, 2012


http://stat.epfl.ch
1 Introduction 2
1.1 Motivation 3
1.2 Preliminaires 21
1.3 Combinatoire 29
2 Probabilite 39
2.1 Espaces de Probabilite 41
2.2 Probabilite Conditionnelle 64
2.3 Independance 72
2.4 Exemples Ediants 80
3 Variables Aleatoires 87
3.1 Idees de Base 89
3.2 Esperance 112
3.3 Lois Conditionnelles 120
3.4 Notions de Convergence 124
4 Variables Aleatoires Continues 131
4.1 Notions de Base 132
4.2 Notions Supplementaires 145
4.3 Loi Normale 152
4.4 Q-Q Plots 164
5. Plusieurs Variables Aleatoires 170
1
5.1 Idees de Base 172
5.2 Dependance 184
5.3 Fonctions Generatrices 195
5.4 Loi Normale Multivariee 205
5.4 Transformations 214
5.6 Statistiques dOrdre 221
6. Approximation et Convergence 224
6.1 Inegalites 226
6.2 Convergence 229
6.3 Lois des grands nombres 236
6.4 Theor`eme central limite 241
6.5 Methode delta 247
7 La Statistique 253
7.1 Introduction 254
7.2 Tests Statistiques 259
7.3 Estimation Ponctuelle 284
7.3 Estimation par Intervalle 297
8 Vraisemblance 309
8.1 Motivation 310
8.2 Param`etre scalaire 318
8.3 Param`etre vecteur 329
8.4 Modelisation statistique 334
9 Inference Bayesienne 341
9.1 Idees de Bayes 342
9.2 Modelisation Bayesienne 358
2
1 Introduction slide 2
1.1 Motivation slide 3
Motivation
Probabilites et statistiques fournissent des outils mathematiques et des mod`eles pour letude
dev`enements aleatoires :
previsions meteorologiques, nance (Prix Nobel, 2003), . . . ;
modelisation de reseaux ;
algorithmes stochastiques ;
trac internet ;
erreurs dans le codage de signaux ;
traitement dimages ;
. . .
Ils fournissent des methodes optimales pour prevoir, eliminer le bruit, pour suggerer une mani`ere de
traiter le trac, et pour la reconstruction du vrai signal ou de limage.
Probabilites et Statistique pour SIC slide 4
Reseaux stochastiques
Graphe de Erd osRenyi (1960), avec p = 0.01. Les arcs entre chaque pair de sommets apparaissent
avec la probabilites p, independamment des autres arcs. Dans ce cas, si p > (1 +) log n/n, > 0, le
graphe sera connecte (presque s urement).
Probabilites et Statistique pour SIC slide 5
3
Giant component
Graphe de Erd osRenyi (1960), avec n = 150, p = 0.01. Si quand n on a np c > 1, alors il y
a (presque s urement) un sous-graphe connecte contenant une fraction positive des sommets. Aucun
autre composant contient plus que O(log n) des sommets.
Probabilites et Statistique pour SIC slide 6
Reseaux stochastiques II
Chain network Nearest-neighbour network Scale-free network
Guo et al. (2011, Biometrika)
Probabilites et Statistique pour SIC slide 7
4
Modelisation des pages web comme reseaux
person
topic
gener
interest
parallel
parallel
support
instructor
Fig. 3. Common structure in the webpages data. Panel (a) shows the estimated common structure for the four cat-
egories. The nodes represent 100 terms with the highest log-entropy weights. The area of the circle representing a
node is proportional to its log-entropy weight. The width of an edge is proportional to the magnitude of the associated
partial correlation. Panels (b)(d) show subgraphs extracted from the graph in panel (a).
Guo et al. (2011, Biometrika)
Probabilites et Statistique pour SIC slide 8
Algorithmes aleatoires
Probabilites et Statistique pour SIC slide 9
5
Traitement de signal
0 200 400 600 800 1000
0
2
0
4
0
6
0
NMR data
y
Wavelet Decomposition Coefficients
Daub cmpct on ext. phase N=2
Translate
R
e
s
o
l
u
t
i
o
n

L
e
v
e
l
9
8
7
6
5
4
3
2
1
0 128 256 384 512
Donnees et coecients dune transformation orthogonale
Probabilites et Statistique pour SIC slide 10
Traitement de signal
Original coefficients
Daub cmpct on ext. phase N=2
Translate
R
e
s
o
l
u
t
i
o
n

L
e
v
e
l
9
8
7
6
5
4
3
2
1
0 128 256 384 512
Shrunken coefficients
Daub cmpct on ext. phase N=2
Translate
R
e
s
o
l
u
t
i
o
n

L
e
v
e
l
9
8
7
6
5
4
3
2
1
0 128 256 384 512
Coecients originaux et thresholded
Probabilites et Statistique pour SIC slide 11
6
Traitement de signal
0 200 400 600 800 1000

2
0
0
2
0
4
0
6
0
NMR data
y
0 200 400 600 800 1000

2
0
0
2
0
4
0
6
0
Bayesian posterior median
w
r
(
w
)
Donnees et signal reconstruit par une methode statistique
Probabilites et Statistique pour SIC slide 12
Donnees video
Time
v
i
d
e
o
V
B
R
0 200 400 600 800 1000
5
0
1
0
0
1
5
0
2
0
0
2
5
0
3
0
0
3
5
0
4
0
0
Amount of coded information (Variable Bit Rate) per frame for a certain video sequence. There were
about 25 frames per second.
Probabilites et Statistique pour SIC slide 13
7
Trac sur LAN
Time
e
t
h
e
r
n
e
t
T
r
a
f
f
i
c
0 1000 2000 3000 4000
0
2
0
0
0
6
0
0
0
1
0
0
0
0
Serie temporelle avec variation bizarre
Probabilites et Statistique pour SIC slide 14
Series temporelles
0
e
+
0
0
6
e
+
0
4
N
u
m
b
e
r
0
6
0
0
0
0
2010.0 2010.2 2010.4 2010.6 2010.8 2011.0
V
a
l
u
e
Time
Nombre et valeur de transactions (unites arbitraires) chaque heure pour natels, 2010.
Probabilites et Statistique pour SIC slide 15
8
Series temporelles
0
2
0
0
0
4
0
0
0
N
u
m
b
e
r
0
2
0
0
0
5
0
0
0
2010.0 2010.2 2010.4 2010.6 2010.8 2011.0
V
a
l
u
e
Time
Nombre et valeur de transactions (unites arbitraires) chaque heure pour natels, 2010.
Probabilites et Statistique pour SIC slide 16
Evaluation de performance
Jean-Yves Le Boudec (2010)
Probabilites et Statistique pour SIC slide 17
9
Motivation pratique
Beaucoup des cours ulterieurs se basent sur la probabilite et la statistique :
Traitement du signal statistique et applications (Vetterli) ;
Automatic speech processing (Bourlard) ;
Biomedical signal processing (Vesin) ;
Stochastic models in communication (Le Boudec/Thiran) ;
Signal processing for communications (Urbanke) ;
Pattern classication and machine learning (Gerstner/Seeger)
Models and methods for random networks (Grossglauser/Thiran)
Performance evaluation (Le Boudec)
Statistical signal processing and applications (Jovanovic/Ridol)
Information theory and coding (Urbanke)
. . .
Probabilites et Statistique pour SIC slide 18
Organisation
Enseignant : Professor A. C. Davison
Assistants : Juliette Blanchet, Mine Alsan, Stefan Bucur, Mohammadjavad Faraji, Marc Vuray
Cours : Lundi 14.1516.00, CE6 ; Mardi, 13.1515.00, CE4
Exercices : Lundi 16.1518.00, CE6.
Test : 16 avril, 16.1518.00, sans aucune mati`ere ecrite (calculatrice simple authorisee)
Bonus : pour quizzes de 15 minutes les 5 et 19 mars, le 2 avril, et les 7 et 21 mai, sans aucune
mati`ere ecrite (calculatrice simple authorisee)
TP : avec logiciel R (http://stat.ethz.ch/CRAN/), 2 avril, 14 mai
Page web avec notes de cours, exercices (y compris Random Exercise Generator), probl`emes,
etc. :
http://stat.epfl.ch/page-76545.html
Probabilites et Statistique pour SIC slide 19
Materiel de cours
Livres : Les probabilites constituent `a peu pr`es les deux premiers tiers du cours, et un bon livre est :
Ross, S. M. (1999) Initiation aux Probabilites. PPUR : Lausanne.
Il y a beaucoup dautres excellents livres dintroduction : regarder au Learning Centre.
Les references en statistiques seront donnees ulterieurement.
Probabilites et Statistique pour SIC slide 20
10
1.2 Idees preliminaires slide 21
Les ensembles
Denition 1. Un ensemble A est une collection dobjets, x
1
, . . . , x
n
, . . . :
A = x
1
, . . . , x
n
, . . . .
On ecrit x A pour dire que x est un element de A, ou x appartient `a A. La collection de tous les
objets possibles dans un contexte donne est appele lunivers .
Exemples :
C
H
= Gen`eve, Vaud, . . . , Grisons ensemble des cantons suisses
0, 1 = ensemble ni constitue des elements 0 et 1
N = 1, 2, . . ., nombres entiers positifs, ensemble denombrable
Z = . . . , 1, 0, 1, 2, . . ., nombres entiers, ensemble denombrable
R = nombres reels, ensemble non denombrable
= ensemble vide, na pas delement
Probabilites et Statistique pour SIC slide 22
Sous-ensembles
Denition 2. Un ensemble A est un sous-ensemble dun ensemble B si x A entraine que x B :
on note A B.
Si A B et B A, alors chaque element de A est contenu dans B et vice versa, ainsi A = B : les
deux ensembles contiennent precisement les memes elements.
Remarquer que A pour tout ensemble A. Ainsi,
1, 2, 3 N Z Q R C, I C
Les diagrammes de Venn sont utiles pour saisir des relations elementaires existant entre les
ensembles, mais ils peuvent etre trompeurs (toutes les relations ne peuvent etre representees).
Probabilites et Statistique pour SIC slide 23
Cardinal dun ensemble
Denition 3. Un ensemble ni A a un nombre ni delements, et ce nombre est appele son cardinal :
card A, #A, [A[.
Evidemment [[ = 0 et [0, 1[ = 2
Exercise : Montrer que si A et B sont nis et A B, alors [A[ [B[.
Probabilites et Statistique pour SIC slide 24
11
Operations Booleennes
Denition 4. Soient A, B . Alors on peut denir :
lunion et lintersection de A et B, soit
A B = x : x A ou x B , A B = x : x A et x B ;
le complementaire de A dans est A
c
= x : x , A.
Evidemment A B A B, et si les ensembles sont nis, alors
[A[ +[B[ = [A B[ +[A B[, [A[ +[A
c
[ = [[.
On peut aussi denir la dierence entre A et B, soit
A B = A B
c
= x : x A et x , B,
(noter que A B ,= B A), et la dierence symetrique
A B = (A B) (B A).
Probabilites et Statistique pour SIC slide 25
Operations Booleennes
Si A
j

j=1
est un ensemble inni de sous-ensembles de , alors

_
j=1
A
j
= A
1
A
2
: tout x sil appartient au moins `a un A
j

j=1
A
j
= A
1
A
2
: tout x sil appartient `a chaque A
j
Ce qui suit est facile `a montrer (diagramme de Venn) :
(A
c
)
c
= A, (A B)
c
= A
c
B
c
, (A B)
c
= A
c
B
c
;
A (B C) = (A B) (A C), A (B C) = (A B) (A C) ;
(

j=1
A
j
)
c
=

j=1
A
c
j
, (

j=1
A
j
)
c
=

j=1
A
c
j
.
Probabilites et Statistique pour SIC slide 26
12
Partition
Denition 5. Une partition de est une collection de sous-ensembles non vides A
1
, . . . , A
n
de
tels que
1. les A
j
sont exhaustifs, cest `a dire que A
1
A
n
= , et
2. les A
j
sont disjoints, cest `a dire que A
i
A
j
= , pour i ,= j.
Une partition peut aussi etre composee dun nombre inni densembles A
j

j=1
.
Exemple 6. Soient A
j
= [j, j +1), pour j = . . . , 1, 0, 1, . . .. Est ce que les A
j
forment une partition
de = R?
Exemple 7. Soient A
j
lensemble des entiers divisibles par j, pour j = 1, 2, . . .. Est ce que les A
j
forment une partition de = N?
Probabilites et Statistique pour SIC slide 27
Produit Cartesien
Denition 8. Le produit Cartesien de deux ensembles A, B est lensemble des paires ordonnees
AB = (a, b) : a A, b B.
De meme
A
1
A
n
= (a
1
, . . . , a
n
) : a
1
A
1
, . . . , a
n
A
n
.
Si A
1
= = A
n
= A, alors on ecrit A
1
A
n
= A
n
.
Comme les paires sont ordonnees, AB ,= B A `a moins que A = B.
Si A
1
, . . . , A
n
sont tous nis, alors
[A
1
A
n
[ = [A
1
[ [A
n
[.
Exemple 9. Soit A = a, b, B = 1, 2, 3. Decrire AB.
Probabilites et Statistique pour SIC slide 28
13
1.3 Combinatoire slide 29
Combinatoire : Rappels
Cest les mathematiques du denombrement. Deux principes de base :
multiplication : si jai m chapeaux et n echarpes, il y a mn dierentes fa cons de les combiner
ensemble ;
addition : si jai m chapeaux rouges et n chapeaux bleux, alors jai m+n chapeaux au total.
En termes mathematiques, soient A
1
, . . . , A
k
des ensembles, alors
[A
1
A
k
[ = [A
1
[ [A
k
[, (multiplication),
et si les A
j
sont disjoints, alors
[A
1
A
k
[ = [A
1
[ + +[A
k
[, (addition).
Probabilites et Statistique pour SIC slide 30
Permutations : Selection ordonnee
Denition 10. Une permutation de n objets distincts est un ensemble ordonne de ces objets.
Theor`eme 11. Etant donne n objets distincts, le nombre de permutations dierentes (sans
repetition) de longueur r n est
n (n 1) (n 2) (n r + 1) =
n!
(n r)!
.
Ainsi il y a n! permutations de longueur n.
Theor`eme 12. Etant donne n =

r
i=1
n
i
objets de r types dierents, o` u n
i
est le nombre dobjets de
type i indierentiables entre eux, le nombre de permutations (sans repetition) des n objets est
n!
n
1
! n
2
! n
r
!
.
Probabilites et Statistique pour SIC slide 31
Exemple
Exemple 13. Une classe de 20 etudiants elisent un comite de taille 4 pour organiser un voyage
detude. De combien de mani`eres dierentes peuvent-ils choisir le comite si :
(a) il y a 4 r oles distincts (president, secretaire, tresorier, agent de voyage) ?
(b) il y a un president, un tresorier, et deux agents de voyage ?
(c) il y a deux tresoriers et deux agents de voyage ?
(d) leurs r oles sont indierentiables ?
Probabilites et Statistique pour SIC slide 32
14
Coecients multinomial et binomial
Denition 14. Soient n
1
, . . . , n
r
des entiers compris entre 0, 1, . . . , n, ayant pour total
n
1
+ +n
r
= n. Alors
_
n
n
1
, n
2
, . . . , n
r
_
=
n!
n
1
! n
2
! n
r
!
,
est appele coecient multinomial. Le cas r = 2 est le plus courant :
_
n
k
_
=
n!
k!(n k)!
_
= C
k
n
dans certains livres
_
est appele coecient binomial.
Probabilites et Statistique pour SIC slide 33
Combinations : Selection non ordonnee
Theor`eme 15. Le nombre de mani`eres de choisir un ensemble de r objets issus dun ensemble de n
objets distinct sans repetition est
n!
r!(n r)!
=
_
n
r
_
.
Theor`eme 16. Le nombre de mani`eres de repartir n objets distincts en r groupes distincts de taille
n
1
, . . . , n
r
, o` u n
1
+ +n
r
= n est
n!
n
1
! n
2
! n
r
!
.
Probabilites et Statistique pour SIC slide 34
Proprietes des coecients binomiaux
Theor`eme 17. Soient n, m 1, 2, 3 . . . et r 0, . . . , n, alors :
_
n
r
_
=
_
n
n r
_
;
_
n + 1
r
_
=
_
n
r 1
_
+
_
n
r
_
, (triangle de Pascal) ;
r

j=0
_
m
j
__
n
r j
_
=
_
m+n
r
_
, (formule de Vandermonde);
(a +b)
n
=
n

r=0
_
n
r
_
a
r
b
nr
, (formule du bin ome de Newton);
(1 x)
n
=

j=0
_
n +j 1
j
_
x
j
, [x[ < 1, (series binomiales negatives).
Probabilites et Statistique pour SIC slide 35
15
Partitions dentiers
Theor`eme 18. (a) Le nombre de vecteurs distincts (n
1
, . . . , n
r
) dentiers positifs, n
1
, . . . , n
r
> 0,
satisfaisant n
1
+ +n
r
= n est
_
n 1
r 1
_
.
(b) Le nombre de vecteurs distincts (n
1
, . . . , n
r
) dentiers non-negatifs, n
1
, . . . , n
r
0, satisfaisant
n
1
+ +n
r
= n est
_
n +r 1
n
_
.
Exemple 19. De combien de mani`eres dierentes peut on mettre 6 balles identiques dans 3 botes, de
fa con `a ce que chaque botes contienne au moins une balle ?
Exemple 20. De combien de mani`eres dierentes peut on mettre 6 balles identiques dans 3 botes ?
Probabilites et Statistique pour SIC slide 36
Rappel : Serie geometrique
Theor`eme 21. (a) Une serie geometrique est de la forme a, a, a
2
, . . . ; on a
n

i=0
a
i
=
_
a
1
n+1
1
, ,= 1,
a(n + 1), = 1.
Si [[ < 1, alors

i=0

i
= 1/(1 ), et

i=0
i!
(i r)!

ir
=
r!
(1 )
r+1
, r = 1, 2, . . . .
Probabilites et Statistique pour SIC slide 37
16
Petit Vocabulaire
Mathematics English Francais
, A, B . . . set un ensemble
A B union lunion
A B intersection lintersection
A
c
complement of A (in ) le complementaire de A (en )
A B dierence la dierence
A B symmetric dierence la dierence symetrique
AB Cartesian product le produit cartesien
[A[ cardinality le cardinal
A
j

n
j=1
pairwise disjoint A
j

n
j=1
disjoint deux `a deux
partition une partition
permutation une permutation
combination une combinaison
_
n
r
_
binomial coecient un coecient binomial (C
r
n
)
_
n
n
1
,...,nr
_
multinomial coecient un coecient multinomial
indistinguishable indierentiable
colour-blind daltonien (ienne)
Probabilites et Statistique pour SIC slide 38
17
2 Probabilite slide 39
Petit Vocabulaire Probabiliste
Mathematics English Francais
one fair die (several fair dice) un de juste/equilibre (plusieurs des justes/equilibres)
random experiment une experience aleatoire
sample space lensemble fondamental
outcome, elementary event une epreuve, un evenement elementaire
A, B, . . . event un evenement
T event space lespace des evenements
sigma-algebra une tribu
Pr probability distribution/probability function une loi de probabilite
(, T, Pr) probability space un espace de probabilite
inclusion-exclusion formulae formule dinclusion-exclusion
Pr(A [ B) probability of A given B la probabilite de A sachant B
independence independance
(mutually) independent events les evenements (mutuellement) independants
pairwise independent events les evenements independants deux `a deux
conditionally independent events les evenements conditionellement independants
Probabilites et Statistique pour SIC slide 40
2.1 Espaces de Probabilite slide 41
Les Joueurs de cartes
Paul Cezanne, 189495, Musee dOrsay, Paris
Probabilites et Statistique pour SIC slide 42
Motivation : Jeu de de
Deux des equilibres sont lances, un rouge et un vert.
(a) Quel est lensemble des resultats possibles ?
(b) Quels resultats donnent un total de 6 ?
(c) Quels resultats donnent un total de 12 ?
(d) Quels resultats donnent un total impair ?
(e) Quelles sont les probabilites des evenements (b), (c), (d) ?
Probabilites et Statistique pour SIC slide 43
18
Calcul de probabilites
On peut essayer de calculer les probabilites devenements tels que (b), (c), (d) en lancant le de de
nombreuses fois et en posant
probabilite dun evenement =
# de fois o` u levenement se produit
# experiences realisees
.
Cest une reponse pratique plutot que mathematique, disponible seulement apr`es beaucoup de
travail (combien de fois doit-on lancer le de ?), et donnera des reponses dierentes `a chaque fois
insatisfaisante !
Pour des exemples simples, on utilise souvent la symetrie pour le calcul des probabilites. Ceci nest
plus possible pour des cas plus compliqueson construit des mod`eles mathematiques, bases sur les
notions dexperience aleatoire et despace de probabilite.
Probabilites et Statistique pour SIC slide 44
Experience aleatoire
Denition 22. Une experience aleatoire est une experience dont le resultat est (ou peut etre trate
comme) aleatoire.
Exemple 23. Je jette une pi`ece.
Exemple 24. Je lance 2 des equilibres, un rouge et un vert.
Exemple 25. Le nombre demails que je re cois aujourdhui.
Exemple 26. Le temps dattente jusqu`a la n de ce cours.
Exemple 27. Le temps quil fera ici demain `a midi.
Probabilites et Statistique pour SIC slide 45
Andrey Nikolaevich Kolmogorov (19031987)
Grundbegrie der Wahrscheinlichkeitsrechnung (1933)
Probabilites et Statistique pour SIC slide 46
19
Espace de probabilite (, T, Pr)
Une experience aleatoire est modelisee par un espace de probabilite.
Denition 28. Un espace de probabilite (, T, Pr) est un objet mathematique associe `a une
experience aleatoire, constitue de :
1. un ensemble , lensemble fondamental, qui contient tous les resultats (epreuves,
evenements elementaires) possibles de lexperience ;
2. une collection T de sous-ensembles de . Ces sous-ensembles sont appeles evenements, et T
est appele lespace des evenements ;
3. une fonction Pr : T [0, 1] appelee loi de probabilite, qui associe une probabilite Pr(A) `a
chaque A T.
Probabilites et Statistique pour SIC slide 47
Ensemble fondamental
Lensemble fondamental est lensemble compose delements representant tous les resultats
possibles dune experience aleatoire. Chaque element est associe `a un resultat dierent.
est analogue `a lensemble univers. Il peut etre ni, denombrable ou non denombrable.
est non-vide. (Si = alors rien dinteressant ne peut arriver.)
Exemple 29. Decrire les ensembles fondamentaux pour les Exemples 2327.
Pour les exemples elementaires avec ni, on choisit souvent de mani`ere `a ce que soit
equiprobable :
Pr() =
1
[[
, pour chaque .
Alors Pr(A) = [A[/[[, pour tout A .
Probabilites et Statistique pour SIC slide 48
Espace des evenements
T est un ensemble de sous-ensembles de qui represente les evenements dinteret.
Exemple 30 (Suite de lexemple 24). Donner les evenements
A le de rouge montre 4,
B le total est impair,
C le de vert montre 2,
A B le de rouge montre 4 et le total est impair.
Calculer leurs probabilites.
Probabilites et Statistique pour SIC slide 49
20
Espace des evenements T, II
Denition 31. Un espace des evenements T est un ensemble de sous-ensembles de tel que :
(T1) T est non vide ;
(T2) si A T alors A
c
T ;
(T3) si A
i

i=1
sont tous des elements de T, alors

i=1
A
i
T.
T est aussi appelee une tribu.
Soient A, B, C, A
i

i=1
des elements de T. Alors les axiomes precedents impliquent que

n
i=1
A
i
T,
T, T,
A B T, A B T, A B T,

n
i=1
A
i
T.
Probabilites et Statistique pour SIC slide 50
Espace des evenements T, III
Si est denombrable, on prend souvent pour T lensemble de tous les sous-ensembles de . Cest
le plus grand (et le plus riche) espace des evenements possibles pour .
On peut denir des espaces des evenements dierents pour le meme ensemble fondamental.
Exemple 32. Donner la tribu pour lExemple 23.
Exemple 33. Je lance deux des equilibres, un rouge et un vert.
(a) Quel est ma tribu T
1
?
(b) Jinforme mon ami seulement du total. Quel est sa tribu T
2
?
(c) Mon ami regarde lui-meme les des, mais il est daltonien. Quel est alors sa tribu T
3
?
Probabilites et Statistique pour SIC slide 51
Espace des evenements T, III
Habituellement lespace des evenements est clair dapr`es le contexte, mais il est important decrire
et T explicitement, an deviter la confusion.
Cela peut aussi etre utile lorsque des soi-disant paradoxes surviennent (generalement en raison
dune formulation mathematique du probl`eme peu claire ou erronee).
Il est essentiel de donner et T lors des exercices, tests et examens.
Probabilites et Statistique pour SIC slide 52
21
Exemples
Exemple 34. Une femme planiant sa future famille consid`ere les situations suivantes (on suppose
que les chances davoir un gar con ou une lle sont egales `a chaque fois) :
(a) avoir trois enfants ;
(b) mettre au monde des enfants jusqu`a ce que la premi`ere lle naisse, ou jusqu`a ce que les trois
enfants naissent, sarreter lorsque lune des 2 situations se realise.
(c) mettre au monde des enfants jusqu`a ce que il y en ait un de chaque sexe ou jusqu`a ce quil en
ait trois, sarreter lorsque lune des 2 situations se realise.
Soient G
i
levenement i gar cons sont nes, A levenement il y a plus de lles que de gar cons.
Calculer Pr(G
1
) et Pr(A) sous (a)(c).
En fait, le rapport gar con/lle est 105/100 `a naissance.
Exemple 35 (Anniversaires). n personnes sont dans une pi`ece. Quelle est la probabilite quils aient
tous une date danniversaire dierente ?
Probabilites et Statistique pour SIC slide 53
Anniversaires
0 10 20 30 40 50 60
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
n
P
r
o
b
a
b
i
l
i
t
y
Probabilites et Statistique pour SIC slide 54
22
Galileo Galilei (15641642)
Probabilites et Statistique pour SIC slide 55
Il Saggiatore, 1623
Probabilites et Statistique pour SIC slide 56
23
Il Saggiatore, 1623
La losoa `e scritta in questo grandissimo libro che continuamente ci sta aperto
innanzi a gli occhi (io dico luniverso), ma non si pu`o intendere se prima non simpara a
intender la lingua, e conoscer i caratteri, ne quali `e scritto. Egli `e scritto in lingua
matematica, e i caratteri son triangoli, cerchi, ed altre gure geometriche, senza i quali
mezi `e impossibile a intenderne umanamente parola ; senza questi `e un aggirarsi vanamente
per un oscuro laberinto.
La philosophie est ecrite dans ce vaste livre constamment ouvert devant nos yeux (je
veux dire lunivers), et on ne peut le comprendre si dabord on napprend `a connatre la
langue et les caract`eres dans lesquels il est ecrit. Or il est ecrit en langue mathematique, et
ses caract`eres son le triangle et le cercle et autres gures geometriques, sans lesquels il est
humainement impossible den comprendre un mot, sans lesquels on erre vainement dans un
labyrinthe obscur.
Probabilites et Statistique pour SIC slide 57
Probl`eme de trois des
Trois des equilibres sont lances. Soient T
i
levenement le total est i, pour i = 3, . . . , 18. Quel est le
plus probable, T
9
ou T
10
?
T
9
peut se produire si les des ont les resultats suivants
9 = 6 + 2 + 1 = 5 + 3 + 1 = 5 + 2 + 2 = 4 + 4 + 1 = 4 + 3 + 2 = 3 + 3 + 3.
T
10
peut se produire si les des ont les resultats suivants
10 = 6 + 3 + 1 = 6 + 2 + 2 = 5 + 4 + 1 = 5 + 3 + 2 = 4 + 4 + 2 = 4 + 3 + 3.
Ainsi ils sont equiprobables.
Vrai ou faux ?
Probabilites et Statistique pour SIC slide 58
Loi de probabilite Pr
Denition 36. Une loi de probabilite Pr associe une probabilite `a chaque element de lespace des
evenements T, avec les proprietes suivantes :
(P1) si A T, alors 0 Pr(A) 1 ;
(P2) Pr() = 1 ;
(P3) si A
i

i=1
sont disjoints deux `a deux (cest `a dire que, A
i
A
j
= , i ,= j), alors
Pr
_

_
i=1
A
i
_
=

i=1
Pr(A
i
).
Probabilites et Statistique pour SIC slide 59
24
Proprietes de Pr
Theor`eme 37. Soient A, B, A
i

i=1
des evenements de lespace de probabilite (, T, Pr). Alors
(a) Pr() = 0 ;
(b) Pr(A
c
) = 1 Pr(A) ;
(c) Pr(A B) = Pr(A) + Pr(B) Pr(A B). Si A B = , alors Pr(A B) = Pr(A) + Pr(B) ;
(d) si A B, alors Pr(A) Pr(B), et Pr(B A) = Pr(B) Pr(A) ;
(e) Pr (

i=1
A
i
)

i=1
Pr(A
i
) (inegalite de Boole) ;
(f) si A
1
A
2
, alors lim
n
Pr(A
n
) = Pr (

i=1
A
i
) ;
(g) si A
1
A
2
, alors lim
n
Pr(A
n
) = Pr (

i=1
A
i
).
Probabilites et Statistique pour SIC slide 60
Continuite de Pr
Rappel : Une fonction f est continue en x si pour toute suite x
n
telle que
lim
n
x
n
= x, on a lim
n
f(x
n
) = f(x).
Les parties (f) et (g) du Theor`eme 37 peuvent etre etendues pour montrer que pour toutes suites
densembles pour lesquelles
lim
n
A
n
= A, on a lim
n
Pr(A
n
) = Pr(A).
Cest pourquoi Pr est appelee fonction densembles continue.
Probabilites et Statistique pour SIC slide 61
Formules dinclusion-exclusion
Si A
1
, . . . , A
n
sont des evenements de (, T, P), alors
Pr(A
1
A
2
) = Pr(A
1
) + Pr(A
2
) Pr(A
1
A
2
)
Pr(A
1
A
2
A
3
) = Pr(A
1
) + Pr(A
2
) + Pr(A
3
)
Pr(A
1
A
2
) Pr(A
1
A
3
) Pr(A
2
A
3
)
+Pr(A
1
A
2
A
3
)
.
.
.
P
_
n
_
i=1
A
i
_
=
n

r=1
(1)
r+1

1i
1
<<irn
Pr(A
i
1
A
ir
).
Le nombre de termes dans la formule generale est
_
n
1
_
+
_
n
2
_
+
_
n
3
_
+ +
_
n
n 1
_
+
_
n
n
_
= 2
n
1.
Probabilites et Statistique pour SIC slide 62
25
Exemple 38. Quelle est la probabilite dobtenir au moins un 6 quand je lance 3 des equilibres ?
Exemple 39. Une urne contient 1000 tickets de loterie numerotes de 1 `a 1000. On tire un ticket au
hasard. Auparavant un artiste de foire a oert de payer $3 `a quiconque qui lui donne $2, si le numero
du ticket est divisible par 2, 3, ou 5. Est ce que vous lui donneriez vos $2 avant le tirage ? (Vous
perdez votre argent si le ticket nest pas divisible par 2, 3, ou 5.)
Probabilites et Statistique pour SIC slide 63
2.2 Probabilite Conditionnelle slide 64
Probabilite conditionnelle
Denition 40. Soient A, B des evenements de lespace de probabilite (, T, Pr), tel que Pr(B) > 0.
Alors la probabilite conditionnelle de A sachant B est
Pr(A [ B) =
Pr(A B)
Pr(B)
.
Si Pr(B) = 0, on adopte la convention Pr(A B) = Pr(A [ B)Pr(B), des deux cotes on a la valeur
zero. Ainsi
Pr(A) = Pr(A B) + Pr(A B
c
) = Pr(A [ B)Pr(B) + Pr(A [ B
c
)Pr(B
c
)
meme si Pr(B) = 0 ou Pr(B
c
) = 0.
Exemple 41. On lance deux des equilibres, un rouge et un vert. Soient A et B les evenements le
total exc`ede 8, et on a 6 sur le de rouge. Si on sait que B sest produit, comment change Pr(A) ?
Probabilites et Statistique pour SIC slide 65
Lois de probabilite conditionnelle
Theor`eme 42. Soit (, T, Pr) un espace de probabilite, et soient B T tel que Pr(B) > 0 et
Q(A) = Pr(A [ B). Alors (, T, Q) est un espace de probabilite. En particulier,
1. si A T, alors 0 Q(A) 1 ;
2. Q() = 1 ;
3. si A
i

i=1
sont disjoints 2 `a 2, alors
Q
_

_
i=1
A
i
_
=

j=1
Q(A
i
).
Ainsi le conditionnement nous permet de construire beaucoup de lois de probabilites dierentes, `a
partir dune loi de probabilite donnee.
Probabilites et Statistique pour SIC slide 66
26
Thomas Bayes (17021761)
Essay towards solving a problem in the doctrine of chances. (1763/4) Philosophical Transactions
of the Royal Society of London.
Probabilites et Statistique pour SIC slide 67
Theor`eme de Bayes
Theor`eme 43 (Loi des probabilites totales). Soient B
i

i=1
des evenements disjoints 2 `a 2 (i.e.
B
i
B
j
= , i ,= j) de lespace de probabilite (, T, Pr), et soit A un evenement satisfaisant
A

i=1
B
i
. Alors
Pr(A) =

i=1
Pr(A B
i
) =

i=1
Pr(A [ B
i
)Pr(B
i
).
Theor`eme 44 (Bayes). Supposons que les conditions ci-dessus soient veriees, et que Pr(A) > 0.
Alors
Pr(B
j
[ A) =
Pr(A [ B
j
)Pr(B
j
)

i=1
Pr(A [ B
i
)Pr(B
i
)
, j N.
Ces resultats sont aussi vrais si lensemble des B
i
est nie, et si les B
i
partitionent .
Probabilites et Statistique pour SIC slide 68
Exemples
Exemple 45. Des voitures sont fabriquees dans les villes de Farad, Gilbert et Henry. Sur 1000 voitures
produites `a Farad, 20% sont defectueuses, sur 2000 produites `a Gilbert, 10% sont defectueuses, et sur
3000 produites `a Henry, 5% sont defectueuses. Vous achetez une voiture. Si D est levenement la
voiture est defectueuse, calculer (a) Pr(F [ H
c
), (b) Pr(D [ H
c
), (c) Pr(D), et Pr(F [ D). Supposez
que vous avez les memes chances dacheter une des 6000 voitures produites.
Probabilites et Statistique pour SIC slide 69
27
Conditionnement multiple
Theor`eme 46 (Prediction decomposition). Soient A
1
, . . . , A
n
des evenements dun espace de
probabilite. Alors
Pr(A
1
A
2
) = Pr(A
2
[ A
1
)Pr(A
1
)
Pr(A
1
A
2
A
3
) = Pr(A
3
[ A
1
A
2
)Pr(A
2
[ A
1
)Pr(A
1
)
.
.
.
Pr(A
1
A
n
) =
n

i=2
Pr(A
i
[ A
1
A
i1
) Pr(A
1
)
Probabilites et Statistique pour SIC slide 70
Exemples
Exemple 47. On lance 2 des equilibres. Denir les evenements A, B, C qui sont le total est au plus
6, le total est impair, et on obtient 4 pour le premier de . (a) Comment la connaissance que B ou
C soit realise, aecte la probabilite de A? (b) Calculer Pr(A B C).
Exemple 48. n hommes vont `a un diner. Chacun laisse son chapeau au vestiaire. Lorsquils repartent,
ayant bien echantillione du vin regional, ils choisissent leurs chapeaux de fa con aleatoire.
(a) Quelle est la probabilite que personne nait son chapeau ?
(b) Quelle est la probabilite quexactement r hommes choisissent leur propre chapeau ?
(c) Que se passe-t-il lorsque n est tr`es grand ?
Probabilites et Statistique pour SIC slide 71
2.3 Independance slide 72
Evenements independants
Intuitivement, dire que A et B sont independants signie que la realisation dun des deux naecte
pas la realisation de lautre. Cest `a dire que, Pr(A [ B) = Pr(A), donc la connaissance de la
realisation de B laisse Pr(A) inchangee.
Exemple 49. Une famille a deux enfants.
(a) On sait que le premier est un gar con. Quelle est la probabilite que le second soit un gar con ?
(b) On sait quun des deux est un gar con. Quelle est la probabilite que lautre soit un gar con ?
Probabilites et Statistique pour SIC slide 73
28
Independance
Denition 50. Soit (, T, Pr) un espace de probabilite. Deux evenements A, B T sont
independants (que lon note A B) ssi
Pr(A B) = Pr(A)Pr(B).
Conformement `a notre intuition, cela implique que
Pr(A [ B) =
Pr(A B)
Pr(B)
=
Pr(A)Pr(B)
Pr(B)
= Pr(A),
et par symetrie Pr(B [ A) = Pr(B).
Exemple 51. Un jeu de cartes est bien battu et une carte est tiree au hasard. Est ce que les
evenements A la carte est un as, et C la carte est un coeur sont independants ? Que peut on dire `a
propos des evenements A et R la carte est un roi ?
Probabilites et Statistique pour SIC slide 74
Types dindependances
Denition 52. (a) Les evenements A
1
, . . . , A
n
sont (mutuellement) independants si pour tout
ensemble dindices F 1, . . . , n, on a
Pr
_

iF
A
i
_
=

iF
Pr(A
i
).
(b) Les evenements A
1
, . . . , A
n
sont independants 2 `a 2 si
Pr(A
i
A
j
) = Pr(A
i
) Pr(A
j
), 1 i < j n.
(c) Les evenements A
1
, . . . , A
n
sont conditionnellement independants sachant B si pour tout
ensemble dindices F 1, . . . , n on a
Pr
_

iF
A
i
[ B
_
=

iF
Pr(A
i
[ B).
Probabilites et Statistique pour SIC slide 75
29
Quelques remarques
Lindependance est un idee cle qui simplie considerablement des calculs de probabilite. En
pratique, il est essentiel de verier si les evenements sont independants, etant donne quune
dependance non detectee peut modier grandement le calcul des probabilites.
Lindependance mutuelle entrane lindependance deux `a deux, mais linverse est vrai seulement
quand n = 2.
Lindependance mutuelle entrane lindependance conditionnelle, mais linverse est vrai seulement si
B = .
Exemple 53. Une famille a deux enfants. Montrer que les evenements le premier enfant est un
gar con, le second enfant est un gar con, et il y a exactement un gar con sont independants deux `a
deux mais pas mutuellement.
Probabilites et Statistique pour SIC slide 76
Exemple 54. Une annee donnee, la probabilite quun conducteur fasse une declaration de sinistre `a
son assurance est , independamment des autres annees. La probabilite pour une conductrice est de
< . Un assureur a le meme nombre de conducteurs que de conductrices, et en selectionne un(e) au
hasard.
(a) Donner la probabilite quil (elle) declare un sinistre cette annee ?
(b) Donner la probabilite quil (elle) declare des sinistres durant 2 annees consecutives ?
(c) Si la compagnie selectionne une personne ayant fait une declaration au hasard, donner la
probabilite quelle fasse une declaration lannee suivante ?
(d) Montrer que la connaissance quune declaration de sinistre ait ete faite une annee augmente la
probabilite dune declaration lannee suivante.
Probabilites et Statistique pour SIC slide 77
Syst`emes en series et parall`eles
Un syst`eme electrique a des composants 1, . . . , n, qui tombent en panne independamment. Soient A
i
levenement le i`eme composant est defaillant, avec Pr(A
i
) = p
i
. Levenement B, la defaillance du
syst`eme se produit si le courant ne peut pas passer dun bout du syst`eme `a lautre. Si les composants
sont arranges en parall`ele, alors
Pr
P
(B) = Pr(A
1
A
n
) =
n

i=1
p
i
.
Si les composants sont arranges en serie, alors
Pr
S
(B) = Pr(A
1
A
n
) = 1
n

i=1
(1 p
i
).
Si 1 > p
+
> p
i
> p

> 0, i, et n , alors Pr
P
(B) 0, Pr
S
(B) 1.
Probabilites et Statistique pour SIC slide 78
30
Fiabilite
Exemple 55 (Chernobyl). Une centrale nucleaire depend dun syst`eme de securite dont les
composants sont arranges suivant la gure (tableau noir). Les composants tombent en panne
independamment avec la probabilite p, et le syst`eme devient defaillant si le courant electrique ne peut
pas passer de A `a B.
(a) Quelle est la probabilite que le syst`eme devienne defaillant ?
(b) Les composants sont fabriques par lots, qui peuvent etre bons ou mauvais. Pour un bon lot,
p = 10
6
, tandis que pour un lot mauvais p = 10
2
. La probabilite quun lot soit bon est 0.99. Quelle
est la probabilite que le syst`eme soit defaillant (i) si les composants proviennent de dierents lots ? (ii)
si tous les composants proviennent du meme lot ?
Probabilites et Statistique pour SIC slide 79
2.4 Exemples Ediants slide 80
Les dames et la mort
Probabilites et Statistique pour SIC slide 81
31
Les fumeuses et la mort
Survie apr`es 20 ans pour 1314 femmes dans la ville de Whickham, Angleterre (Appleton et al., 1996,
The American Statistician). Les colonnes contiennent : nombre de mortes apr`es 20 ans/nombre de
vivantes au debut de letude (%).
Age (annees) Fumeuses Non-fumeuses
Total 139/582 (24) 230/732 (31)
1824 2/55 (4) 1/62 (2)
2534 3/124 (2) 5/157 (3)
3544 14/109 (13) 7/121 (6)
4554 27/130 (21) 12/78 (15)
5564 51/115 (44) 40/121 (33)
6574 29/36 (81) 101/129 (78)
75+ 13/13 (100) 64/64 (100)
Selon les totaux, il y a un eet beneque davoir fume :
24% < 31%!
Probabilites et Statistique pour SIC slide 82
Paradoxe de Simpson
Denission les evenements morte apr`es 20 ans, M, fumeuse, F, et dans la categorie dage a au
debut, A = a. Alors pour (presque) chaque a on a
Pr(M [ F, A = a) > Pr(M [ F
c
, A = a),
mais
Pr(M [ F) < Pr(M [ F
c
).
Notons que
Pr(M [ F) =

a
Pr(M [ F, A = a)Pr(A = a),
Pr(M [ F
c
) =

a
Pr(M [ F
c
, A = a)Pr(A = a),
donc si les probabilites Pr(M [ F, A = a) et Pr(M [ F
c
, A = a) varient beaucoup avec a, les ponderer
par les Pr(A = a) peut renverser lordre des linegalites.
Cest un exemple du paradox de Simpson : oublier un conditionnement peut changer la conclusion
dune etude.
Probabilites et Statistique pour SIC slide 83
32
La triste histoire de Sally Clark
Une avocate anglaise, dont le premier ls est decede quelques semaines apr`es sa naissance en 1996.
Suite `a la mort de son deuxi`eme ls de la meme mani`ere, elle fut arretee en 1998 et accusee pour un
double meurtre. Son inculpation etait controversee car un pediatre tr`es distingue, Professor Sir Roy
Meadow, a temoigne que la probabilite que, dans une famille comme celle de Sally Clark, deux enfants
meurent `a cause du Sudden Infant Death Syndrome (SIDS) etait 1 sur 73 million, chire quil a
obtenu comme 1/8500
2
, o` u 1/8500 etait la probabilite estimee dune seule mort `a cause du SIDS.
Elle fut condamnee en novembre 1999, puis liberee en janvier 2003, parce que certain preuves
pathologiques tendant `a la blanchir nont pas ete divulguees `a son avocat. Suite `a son cas, le
Procureur-en-Chef a demande que des centaines dautres cas soient revus, et encore deux femmes ont
ete liberees de prison.
Elle est decedee dalcoolisme en mars 2007.
Probabilites et Statistique pour SIC slide 84
Les taux de SIDS
Donnees sur les taux de mortalite enfantile, (rapport CESMA SUDI,
http://cemach.interface-test.com/Publications/CESDI-SUDI-Report-(1).aspx)
Probabilites et Statistique pour SIC slide 85
Sally Clark : Quatres erreurs tragiques
Probabilites estimees
Ecological fallacy
Independance ? Vraiment ?
Prosecutors fallacy
Probabilites et Statistique pour SIC slide 86
33
3 Variables Aleatoires slide 87
Petit Vocabulaire Probabiliste
Mathematics English Francais
one fair die (several fair dice) un de juste/equilibre (plusieurs des justes/equilibres)
random experiment une experience aleatoire
sample space lensemble fondamental
outcome, elementary event une epreuve, un evenement elementaire
A, B, . . . event un evenement
T event space lespace des evenements
sigma-algebra une tribu
Pr probability distribution/probability function une loi de probabilite
(, T, Pr) probability space un espace de probabilite
inclusion-exclusion formulae formule dinclusion-exclusion
Pr(A [ B) probability of A given B la probabilite de A sachant B
independence independance
(mutually) independent events les evenements (mutuellement) independants
pairwise independent events les evenements independants deux `a deux
conditionally independent events les evenements conditionellement independants
X, Y, Z, W, . . . random variable/random variate une variable aleatoire
F
X
(x) (cumulative) distribution function une fonction de repartition
f
X
(x) (probability) density/mass function (PDF) une fonction de densite/masse (fm)
E(X) expectation/mean of X lesperance de X
var(X) variance of X la variance de X
f
X
(x [ B) conditional density/mass function une fonction de densite/masse conditionnelle
Probabilites et Statistique pour SIC slide 88
34
3.1 Idees de Base slide 89
Variables aleatoires
Souvent on consid`ere des quantites aleatoires numeriques.
Exemple 56. Deux des equilibres sont lances, un rouge et un vert. Soit X le total des faces
superieures. Trouver les valeurs possibles de X, et les probabilites correspondantes.
Denition 57. Soit (, T, Pr) un espace de probabilite. Une variable aleatoire (va) X : R est
une application de lensemble fondamental dans R.
Denition 58. Lensemble des valeurs prises par X,
D
X
= x R : tel que X() = x
sappele le support de X. Si D
X
est denombrable, alors X est une variable aleatoire discr`ete.
La va X associe des probabilites `a des sous-ensembles S inclus dans R, donnees par
Pr(X S) = Pr(w : X(w) S).
En particulier, on pose A
x
= : X() = x. Il est `a noter quil faut que A
x
T, pour pouvoir
calculer Pr(X = x). Si ce nest pas le cas, on dit que X nest pas mesurable par rapport `a (, T, Pr).
Probabilites et Statistique pour SIC slide 90
Exemples
Exemple 59. On jette une pi`ece plusieurs fois et independamment. Soit X la variable aleatoire
representant le nombre de lances necessaires jusqu`a ce quon obtienne face. Calculer
Pr(X = 3), Pr(X = 15), Pr(X 3.5), Pr(X > 1.7), Pr(1.7 X 3.5).
Exemple 60. Un ensemble naturel quand je joue aux echettes est le mur sur lequel la cible est
xee. La echette atterit `a un point R
2
. Mon score X() D
X
= 0, 1, . . . , 60.
Probabilites et Statistique pour SIC slide 91
35
Jacob Bernoulli (16541705)
Ars Conjectandi, Basel (1713)
Probabilites et Statistique pour SIC slide 92
Variable aleatoire de Bernoulli
Denition 61. Une variable aleatoire qui prend comme valeurs seulement 0 et 1 est appelee une
variable indicatrice, ou une variable aleatoire de Bernoulli, ou un essai de Bernoulli.
Exemple 62. Supposons que n pi`eces identiques sont lancees independamment, soit F
i
levenement
on obtient face pour la i`eme pi`ece, et soit I
i
= I(F
i
) lindicatrice de cet evenement. Alors
Pr(I
i
= 1) = Pr(F
i
) = p, Pr(I
i
= 0) = Pr(F
c
i
) = 1 p,
o` u p est la probabilite dobtenir face. Si n = 3 et X = I
1
+I
2
+I
3
, decrire , D
X
et les ensembles
A
x
. Que representent
X = I
1
+ +I
n
, Y = I
1
(1 I
2
)(1 I
3
), Z =
n

j=2
I
j1
(1 I
j
)?
Probabilites et Statistique pour SIC slide 93
36
Fonction de masse
Une variable aleatoire X associe des probabilites `a des sous-ensembles de R. En particulier lorsque X
est discr`ete, nous avons A
x
= : X() = x, et nous pouvons denir :
Denition 63. La fonction de masse (fm) de X est
f
X
(x) = Pr(X = x) = Pr(A
x
), x R.
Elle a deux proprietes cles :
(i) f
X
(x) 0, et est positif seulement pour x D
X
, o` u D
X
est lensemble image de X, cest `a dire
le support de f
X
;
(ii) la probabilite totale

{i:x
i
D
X
}
f
X
(x
i
) = 1.
Quand il ny a pas de risque de confusion, notons f
X
f et D
X
D.
En anglais la fonction de masse est appelee probability mass function (PMF) ou probability
density function (PDF).
Probabilites et Statistique pour SIC slide 94
Variable aleatoire binomiale
Exemple 64. Donner les fm et supports de I
i
, de Y et de X.
Denition 65. Une variable aleatoire binomiale X a une fm
f(x) =
_
n
x
_
p
x
(1 p)
nx
, x = 0, 1, . . . , n, n N, 0 p 1.
On note X B(n, p), et appelle n le denominateur et p la probabilite de succ`es. Avec n = 1,
cest une variable de Bernoulli.
Remarque : on utilise comme abreviation de a pour distribution.
Le mod`ele binomial est utilise quand on consid`ere le nombre de succ`es dune epreuve repetee de
fa con independante un nombre xe de fois, et que chaque essai a la meme probabilite de succ`es.
Probabilites et Statistique pour SIC slide 95
Fonctions de masse binomiale
0 2 4 6 8 10
0
.
0
0
0
.
1
5
0
.
3
0
B(10,0.5)
x
f
(
x
)
0 2 4 6 8 10
0
.
0
0
0
.
1
5
0
.
3
0
B(10,0.3)
x
f
(
x
)
0 5 10 15 20
0
.
0
0
0
.
1
5
0
.
3
0
B(20,0.1)
x
f
(
x
)
0 10 20 30 40
0
.
0
0
0
.
1
5
0
.
3
0
B(40,0.9)
x
f
(
x
)
Probabilites et Statistique pour SIC slide 96
37
Exemples
Exemple 66. Un test contient 20 questions, pour chacune delles il faut choisir la bonne reponse
parmi 5 reponses possibles. La moyenne est obtenue avec 10 reponses justes. Un etudiant choisit ses
reponses au hasard. Donner la loi de son nombre de reponses justes. Quelle est la probabilite quil
reussisse le test ?
Probabilites et Statistique pour SIC slide 97
Loi geometrique
Denition 67. Une variable aleatoire geometrique X a pour fm
f
X
(x) = p(1 p)
x1
, x = 1, 2, . . . , 0 p 1.
On note X Geom(p), et on appelle p la probabilite de succ`es.
Elle modelise le temps dattente jusqu`a un premier evenement, dans une serie dessais independants
ayant la meme probabilite de succ`es.
Exemple 68. Pour commencer un jeu de societe, des joueurs jettent un de chacun `a leur tour. Le
premier qui obtient six commence. Donner les probabilites que le 3`eme joueur commence, et
dattendre au moins 6 lances de de avant le debut du jeu.
Theor`eme 69 (Manque de memoire). Si X Geom(p), alors
Pr(X > n +m [ X > m) = Pr(X > n).
Probabilites et Statistique pour SIC slide 98
FMs geometrique et binomiale negative
0 10 20 30 40
0
.
0
0
.
2
0
.
4
Geom(0.5)
x + 1
f
(
x
)
0 10 20 30 40
0
.
0
0
.
2
0
.
4
Geom(0.1)
x + 1
f
(
x
)
0 10 20 30 40
0
.
0
0
0
.
1
0
0
.
2
0
NegBin(4,0.5)
x + 4
f
(
x
)
0 10 20 30 40
0
.
0
0
0
.
1
0
0
.
2
0
NegBin(6,0.3)
x + 6
f
(
x
)
Probabilites et Statistique pour SIC slide 99
38
Loi binomiale negative
Denition 70. Une variable aleatoire binomiale negative X de param`etres n et p a pour fonction de
masse
f
X
(x) =
_
x 1
n 1
_
p
n
(1 p)
xn
, x = n, n + 1, n + 2, . . . , 0 p 1.
On note X NegBin(n, p). Lorsque n = 1, X Geom(p).
Elle modelise le temps dattente jusquau n`eme succ`es dans une serie dessais independants ayant la
meme probabilite de succ`es.
Exemple 71. Deux joueurs lancent successivement une pi`ece. Quelle est la probabilite que 2 faces
apparaissent avant 5 piles ?
Probabilites et Statistique pour SIC slide 100
Loi binomiale negative : version alternative
Parfois on ecrit les variables geometriques et binomiale negatives sous une forme plus generale,
prenant Y = X n, et alors la fonction de masse est
f
Y
(y) =
(n +)
()y!
p

(1 p)
y
, y = 0, 1, 2, . . . , 0 p 1, > 0,
o` u
() =
_

0
u
1
e
u
du, > 0
est la fonction Gamma. Ses proprietes principales sont :
(1) = 1;
( + 1) = (), > 0;
(n) = (n 1)!, n = 1, 2, 3, . . . ;
(
1
2
) =

.
Probabilites et Statistique pour SIC slide 101
Distribution hypergeometrique
Denition 72. On tire sans remise un echantillon de m boules dune urne contenant b blanches et n
noires. Soit X le nombre de boules blanches tirees. Alors
Pr(X = x) =
_
b
x
__
n
mx
_
_
b+n
m
_ , x = max(0, mn), . . . , min(b, m),
et la loi de X est hypergeometrique.
Exemple 73. Jai six botes, dont 2 contiennent du fruit. Si je choisis 3 des 6 au hasard, trouver la loi
du nombre de botes de fruit parmi les 3.
Probabilites et Statistique pour SIC slide 102
39
Exemples
Exemple 74. Dans le but destimer le nombre de poissons N dans un lac, nous attrapons tout
dabord r poissons, les marquons, et les relachons. Apr`es avoir attendu assez longtemps pour que la
population de poissons soit bien melangee, nous prelevons un autre echantillon de taille s, compose de
0 m s poissons marques. Trouver la loi du nombre de poissons marques, M, dans cet echantillon.
Montrer que la valeur de N qui maximise Pr(M = m) est rs/m, et calculer la meilleure estimation
de N lorsque s = 50, r = 40, et m = 4.
Lidee `a la base de cet exemple est utilisee pour estimer les tailles des populations des esp`eces en
danger, le nombre de toxicomanes, de sans-papiers, etc., dans les populations humaines, etc. Un
probl`eme pratique souvent rencontre est que certains individus deviennent plus dicile `a recapturer,
alors que dautres laiment ; ainsi les probabilites de reprise sont heterog`enes.
Probabilites et Statistique pour SIC slide 103
Fonction de repartition
Denition 75. La fonction de repartition (fr) dune variable aleatoire X est
F
X
(x) = Pr(X x), x R.
Si X est discr`ete, on peut ecrire
F
X
(x) =

{x
i
D
X
:x
i
x}
Pr(X = x
i
),
cest une fonction en escalier avec des sauts aux points du support D
X
de f
X
(x).
Quand il ny a pas de risque de confusion, on note F F
X
.
Exemple 76. Donner le support et les fonctions de masse et de repartition dune variable aleatoire de
Bernoulli.
Exemple 77. Donner la fonction de repartition dune variable aleatoire geometrique.
Probabilites et Statistique pour SIC slide 104
40
Exemples
La denition suivante generalise le resultat dun jet de de.
Denition 78. Une variable aleatoire discr`ete uniforme X a pour fm
f
X
(x) =
1
b a + 1
, x = a, a + 1, . . . , b, a < b, a, b Z.
La loi de Poisson apparat partout dans la probabilite et les statistiques.
Denition 79. Une variable aleatoire de Poisson X a pour fm
f
X
(x) =

x
x!
e

, x = 0, 1, . . . , > 0.
On note X Pois().
Probabilites et Statistique pour SIC slide 105
Simeon-Denis Poisson (17811840)
La vie nest bonne qu`a deux choses : `a faire des mathematiques et `a les professer.
Probabilites et Statistique pour SIC slide 106
41
Fonctions de masse de Poisson
0 5 10 15 20
0
.
0
0
.
3
0
.
6
Pois(0.5)
x
f
(
x
)
0 5 10 15 20
0
.
0
0
.
3
0
.
6
Pois(1)
x
f
(
x
)
0 5 10 15 20
0
.
0
0
0
.
1
0
0
.
2
0
Pois(4)
x
f
(
x
)
0 5 10 15 20
0
.
0
0
0
.
1
0
0
.
2
0
Pois(10)
x
f
(
x
)
Probabilites et Statistique pour SIC slide 107
Fonctions de repartition de Poisson
0 5 10 15 20
0
.
0
0
.
4
0
.
8
Pois(0.5)
x
F
(
x
)
0 5 10 15 20
0
.
0
0
.
4
0
.
8
Pois(1)
x
F
(
x
)
0 5 10 15 20
0
.
0
0
.
4
0
.
8
Pois(4)
x
F
(
x
)
0 5 10 15 20
0
.
0
0
.
4
0
.
8
Pois(10)
x
F
(
x
)
Probabilites et Statistique pour SIC slide 108
Proprietes dune fonction de repartition
Theor`eme 80. Soit (, T, Pr) un espace de probabilite et X : R une variable aleatoire. Sa
fonction de repartition F
X
satisfait :
(a) lim
x
F
X
(x) = 0 ;
(b) lim
x
F
X
(x) = 1 ;
(c) F
X
est non-decroissante, ainsi F
X
(x) F
X
(y) pour x y ;
(d) F
X
est continue `a droite, ainsi
lim
t0
F
X
(x +t) = F
X
(x), x R;
(e) Pr(X > x) = 1 F
X
(x) ;
(f) si x < y, alors Pr(x < X y) = F
X
(y) F
X
(x).
Probabilites et Statistique pour SIC slide 109
42
Remarques
On peut obtenir la fonction de masse `a partir de la fonction de repartition par
f(x) = F(x) lim
yx
F(y).
Dans de nombreux cas X ne prend que des valeurs enti`eres, D
X
Z, et alors
f(x) = F(x) F(x 1) pour x Z.
Dorenavant nous ignorerons la plupart du temps lespace de probabilite (, T, Pr) sous-jacent
quand on a aaire `a une variable aleatoire X. Nous penserons plutot en termes de X, F
X
(x), et
f
X
(x). On peut legitimer cet oubli mathematiquement.
On peut specier la loi dun variable aleatoire de mani`ere equivalente en disant (par ex.) :
X suit une loi de Poisson avec param`etre ; ou
X Pois() ; ou
en donnant la fonction de masse de X ; ou
en donnant la fonction de repartition de X.
Probabilites et Statistique pour SIC slide 110
Transformations de variables aleatoires discr`etes
Des fonctions `a valeurs reelles de variables aleatoires sont elles-meme des variables aleatoires, elles ont
donc aussi des fonctions de masse et de repartition.
Theor`eme 81. Si X est une variable aleatoire et Y = g(X), alors Y a pour fonction de masse
f
Y
(y) =

x:g(x)=y
f
X
(x).
Exemple 82. Calculer la fonction de masse de Y = I(X 1) lorsque X Pois().
Exemple 83. Soit Y le reste de la division par quatre du total de 2 lances independants dun de.
Calculer la fm de Y .
Probabilites et Statistique pour SIC slide 111
43
3.2 Esperance slide 112
Esperance
Denition 84. Soit X une variable aleatoire discr`ete pour laquelle

xD
X
[x[f
X
(x) < , o` u D
X
est
le support de f
X
. Lesperance de X est
E(X) =

xPr(X = x) =

xD
X
xf
X
(x).
E(X) est parfois appelee la moyenne de X. Nous limiterons lutilisation du mot moyenne aux
quantites empiriques.
Lesperance est analogue en mecanique `a la notion de centre de gravite dun objet dont la masse
est distribuee selon f
X
.
Exemple 85. Calculer lesperance dune va de Bernoulli de probabilite p.
Exemple 86. Calculer lesperance de X B(n, p).
Exemple 87. Calculer lesperance des variables aleatoires de fms suivantes
f
X
(x) =
4
x(x + 1)(x + 2)
, f
Y
(x) =
1
x(x + 1)
, x = 1, 2, . . . .
Probabilites et Statistique pour SIC slide 113
Esperance dune fonction
Theor`eme 88. Soit X une variable aleatoire de fonction de masse f, et soit g une fonction `a valeurs
reelles de R. Alors
Eg(X) =

x
g(x)f(x),
lorsque

x
[g(x)[f(x) < .
Exemple 89. Soit X Pois(). Calculer les esperances de
X, X(X 1), X(X 1) (X r + 1), cos(X).
Probabilites et Statistique pour SIC slide 114
44
Proprietes de lesperance
Theor`eme 90. Soit X une variable aleatoire desperance nie E(X), et soit a, b R des constantes.
Alors
(a) E() est un operateur lineaire, i.e., E(aX +b) = aE(X) +b ;
(b) si Pr(X = b) = 1, alors E(X) = b ;
(c) si Pr(a < X b) = 1, alors a < E(X) b ;
(d) si g(X) et h(X) ont des esperances nies, alors
Eg(X) +h(X) = Eg(X) + Eh(X);
(e) E(X)
2
E([X[)
2
E(X
2
).
Remarque : La linearite de lesperance, (a), est tr`es utile en pratique.
Probabilites et Statistique pour SIC slide 115
Exemples
Exemple 91. Soit X = I
1
+ +I
n
, o` u I
1
, . . . , I
n
sont des variables de Bernoulli independantes de
probabilite p. Calculer E(X). Lindependance des I
i
est necessaire ?
Dans lexemple 48, soit X le nombre dhommes qui sen vont avec le correct chapeau. Montrer que
E(X) = 1, pour tout n.
Exemple 92. Soit I
A
, I
B
, . . . les indicatrices des evenements A, B, . . .. Montrer que
I
AB
= I
A
I
B
, I
AB
= 1 (1 I
A
)(1 I
B
), E(I
A
) = Pr(A).
et en deduire la formule dinclusion-exclusion
P
_
n
_
i=1
A
i
_
=
n

r=1
(1)
r+1

1i
1
<<irn
Pr(A
i
1
A
ir
).
Probabilites et Statistique pour SIC slide 116
Moments dune distribution
Denition 93. Si X a une fm f(x) telle que

x
[x[
r
f(x) < , alors
(a) le r`eme moment de X est E(X
r
) ;
(b) le r`eme moment centre de X est E[X E(X)
r
] ;
(c) le r`eme moment factoriel de X est EX(X 1) (X r + 1) ;
(d) la variance de X est var(X) = E[X E(X)
2
].
Remarque : De tous ces moments lesperance et la variance sont les plus importants, car ils mesurent
la localisation et la dispersion de f
X
. La variance est analogue en mecanique au moment dinertie.
Exemple 94. Calculer la variance du score quand on lance un de.
Probabilites et Statistique pour SIC slide 117
45
Proprietes de la variance
Theor`eme 95. Soit X une variable aleatoire dont la variance existe, et soient a, b des constantes.
Alors
var(X) = E(X
2
) E(X)
2
= EX(X 1) + E(X) E(X)
2
;
var(aX +b) = a
2
var(X);
var(X) = 0 X est constante de probabilite 1.
Exemple 96. Calculer les divers moments dune variable aleatoire Poissonienne.
Probabilites et Statistique pour SIC slide 118
Proprietes de la variance II
Theor`eme 97. Si X prend ses valeurs dans 0, 1, . . ., r 2, et E(X) < , alors
E(X) =

x=1
Pr(X x),
EX(X 1) (X r + 1) = r

x=r
(x 1) (x r + 1)Pr(X x).
Exemple 98. Soit X Geom(p). Calculer E(X) et var(X).
Exemple 99. Chaque paquet dun certain produit a degales chances de contenir un des n dierents
types de bons de reduction, independamment de chaque autre paquet. Quel est le nombre espere de
paquets que vous devez acheter pour obtenir au moins un de type de chaque bon ?
Probabilites et Statistique pour SIC slide 119
3.3 Lois Conditionnelles slide 120
Lois conditionnelles
Denition 100. Soit (, T, Pr) un espace de probabilite, sur lequel on denie une variable aleatoire
X, et soit B T avec Pr(B) > 0. Alors la fonction de masse conditionnelle de X sachant B est
f
X
(x [ B) = Pr(X = x [ B) = Pr(A
x
B)/Pr(B),
o` u A
x
= : X() = x.
Theor`eme 101. La fonction f
X
(x [ B) satisfait
f
X
(x [ B) 0,

x
f
X
(x [ B) = 1,
et est ainsi une fonction de masse bien denie.
Exemple 102. Calculer les fm conditionnelles de X Geom(p), (a) sachant que X > n, (b)
sachant que X n.
Probabilites et Statistique pour SIC slide 121
46
Esperance conditionnelle
Denition 103. Supposons que

x
[g(x)[f
X
(x [ B) < . Alors lesperance conditionnelle de g(X)
sachant B est
Eg(X) [ B =

x
g(x)f
X
(x [ B).
Theor`eme 104. Soit X une variable aleatoire desperance E(X) et soit B un evenement avec
Pr(B), Pr(B
c
) > 0. Alors
E(X) = E(X [ B)Pr(B) + E(X [ B
c
)Pr(B
c
).
Plus generalement, lorsque B
i

i=1
est une partition de , Pr(B
i
) > 0 pour tout i, et que la somme
est absolument convergente, alors
E(X) =

i=1
E(X [ B
i
)Pr(B
i
).
Probabilites et Statistique pour SIC slide 122
Exemples
Exemple 105. La distribution de Poisson tronquee est denie en posant X Pois() et
B = X > 0. Calculer la fonction de masse conditionnelle et lesperance de cette distribution.
Probabilites et Statistique pour SIC slide 123
3.4 Notions de Convergence slide 124
Convergence des distributions
On veut souvent approcher une distribution par une autre. La base mathematique pour le faire est la
convergence des distributions.
Denition 106. Soient X
n
, X des variables aleatoires dont les fonctions de repartitions sont F
n
,
F. Alors on dit que les variables aleatoires X
n
convergent en distribution (ou en loi) vers X, si,
pour tout x R o` u F est continue, on a
F
n
(x) F(x), n .
On ecrit alors X
n
D
X.
Si D
X
Z, alors F
n
(x) F(x) si f
n
(x) f(x) pour tout x, n .
Lemme 107. n
r
_
n
r
_
1/r! pour tout r N, quand n .
Probabilites et Statistique pour SIC slide 125
47
Loi des petits nombres
Theor`eme 108 (Loi des petits nombres). Soit X
n
B(n, p), et supposons que np > 0 lorsque
n , alors la fonction de masse limite de X
n
est Pois().
Exemple 109. Dans lExemple 48 on a vu que la probabilite davoir exactement r points xes dans
une permutation au hasard de n objets est
1
r!
nr

k=0
(1)
k
k!

e
1
r!
as n .
Ainsi le nombre de points xes a une distribution limite de Pois(1).
Probabilites et Statistique pour SIC slide 126
Loi des petits nombres
0 5 10 15
0
.
0
0
0
.
1
5
B(10,0.5)
x
f
(
x
)
0 5 10 15
0
.
0
0
0
.
1
5
B(20,0.25)
x
f
(
x
)
0 5 10 15
0
.
0
0
0
.
1
5
B(50,0.1)
x
f
(
x
)
0 5 10 15
0
.
0
0
0
.
1
5
Pois(5)
x
f
(
x
)
Fonctions de masse de trois lois binomiales la loi de Poisson, toutes avec esperance 5.
Probabilites et Statistique pour SIC slide 127
Comparaison numerique
Exemple 110 (Loi binomiale et loi Poisson). Comparer Pr(X 3) pour X B(20, p), avec
p = 0.05, 0.1, 0.2, 0.5 avec les resultats dune approximation de Poisson, en utilisant les fonctions
pbinom et ppois du logiciel R voir
http://www.r-project.org/
Ainsi par exemple, on a :
> pbinom(3,size=20,prob=0.05)
[1] 0.9840985
> ppois(3,lambda=20*0.05)
[1] 0.9810118
Probabilites et Statistique pour SIC slide 128
48
People versus Collins
Exemple 111. En 1964 un sac-`a-main a ete vole `a Los Angeles par une jeune femme avec des
cheveux blonds en queue de cheval. La voleuse a disparu, mais peu apr`es on la aper cu dans une
voiture jaune avec un noir barbu avec moustache. La police a ensuite arrete une femme appellee Janet
Collins, qui ressemblait `a la description, et avait un ami noir barbu avec moustache, conducteur dune
voiture jaune.
Puisque il manquait de preuves et de temoins ables, le procureur a essaye de convaincre le jury que
Mme Collins et son ami etaient le seul couple `a Los Angeles qui aurait pu commettre le delit. Il a
trouve une probabilite p = 1/(12 10
6
) quun couple tire au hasard suivre la description, et ils ont ete
condamne.
Dans un tribunal superieur on a argumente que le nombre de couples X suivant la description devrait
suivre une loi de Poisson avec = np, o` u n est la taille de la population `a laquelle le couple
appartient. Pour etre certain que ce couple soit coupable, il faut que Pr(X > 1 [ X 1) soit tr`es
petite. Mais avec n = 10
6
, 2 10
6
, 5 10
6
, 10 10
6
, ces probabilites sont 0.041, 0.081, 0.194,
0.359 : cetait donc loin detre certain quils soient les coupables. Ils ont nalement ete blanchi.
Probabilites et Statistique pour SIC slide 129
Exemple 112. Soit X
N
une variable hypergeometrique, alors
Pr(X
N
= x) =
_
m
x
__
Nm
nx
_
_
N
n
_ , x = max(0, m +n N), . . . , min(m, n).
Ceci est la distribution du nombre de balles blanches obtenues quand on prel`eve un echantillon
aleatoire de taille n sans remise dune urne contenant m balles blanches et N m balles noires.
Montrer que lorsque N, m de fa con `a ce que m/N p, o` u 0 < p < 1,
Pr(X
N
= x)
_
n
x
_
p
x
(1 p)
nx
, i = 0, . . . , n.
Ainsi la distribution limite de X
N
est B(n, p).
Probabilites et Statistique pour SIC slide 130
49
4 Variables Aleatoires Continues slide 131
4.1 Notions de Base slide 132
Variables aleatoires continues
Dans beaucoup de situations, on veut travailler avec des variables continues :
le temps jusqu`a la n du cours (0, 45) min ;
la paire (hauteur, poids) (0, )
2
.
Jusqu`a present nous avions suppose que le support
D
X
= x R : X() = x,
de X est denombrable, ainsi X est une variable aleatoire discr`ete. On suppose maintenant que D
X
nest pas denombrable, ce qui implique aussi que lui-meme nest pas denombrable.
Denition 113 (Rappel). Soit (, T, Pr) un espace de probabilite. La fonction de repartition dune
va X denie sur (, T, Pr) est
F(x) = Pr(X x) = Pr(B
x
), x R,
o` u B
x
= : X() x .
Probabilites et Statistique pour SIC slide 133
Fonction de densite
Denition 114. Une variable aleatoire X est continue sil existe une fonction f(x), appelee la
densite de X, telle que
Pr(X x) = F(x) =
_
x

f(u) du, x R.
Les proprietes de F impliquent (i) f(x) 0, et (ii)
_

f(x) dx = 1.
Remarques :
Evidemment, on a
f(x) =
dF(x)
dx
.
Comme Pr(x < X y) =
_
y
x
f(u) du pour x < y, pour tout x R,
Pr(X = x) = lim
yx
Pr(x < X y) = lim
yx
_
y
x
f(u) du =
_
x
x
f(u) du = 0.
Si X est discr`ete, alors sa fm f(x) est aussi appelee sa fonction de densite.
Probabilites et Statistique pour SIC slide 134
50
Motivation
On etudie des variables aleatoires pour plusieurs raisons :
elles apparaissent dans des mod`eles simples mais puissantspar exemple, la loi exponentielle est la
loi du temps dattente dans un processus o` u des evenements se passent de mani`ere aleatoire ;
elles fournissent des approximations simples mais tr`es utiles pour des probl`emes complexespar
exemple, la loi normale apparat comme approximation pour la loi dune moyenne, sous des
conditions assez generales ;
elles sont `a la base de la modelisation de probl`emes complexes soit en probabilite soit en
statistiquespar exemple, la loi de Pareto est souvent une bonne approximation pour les donnees `a
queues lourdes, en nance et pour internet.
On va parler de quelques lois tr`es connues, mais il en a plein dautres. La carte suivante provient de
Leemis and McQueston (2008, American Statistician) . . .
Probabilites et Statistique pour SIC slide 135
Probabilites et Statistique pour SIC slide 136
51
Probabilites et Statistique pour SIC slide 137
Lois de base
Exemple 115 (Uniforme). La variable aleatoire U de densite
f(u) =
_
1
ba
, a < u < b,
0, sinon,
a < b,
est appelee une variable aleatoire uniforme. On la note U U(a, b). Trouver sa fonction de
repartition.
Exemple 116 (Exponentielle). La variable aleatoire X de densite
f(x) =
_
e
x
, x > 0,
0, sinon,
est appelee une variable aleatoire exponentielle de param`etre > 0. On la note X exp().
Trouver sa fonction de repartition, et etablir la propriete de manque de memoire de X :
Pr(X > x +t [ X > t) = Pr(X > x), t, x > 0.
En pratique les vas sont presque toujours soit discr`etes ou soit continues, avec quelques exceptions, tel
que la loi de probabilite de la pluie journali`ere.
Probabilites et Statistique pour SIC slide 138
52
Loi de gamma
Exemple 117 (Gamma). La variable aleatoire X de densite
f(x) =
_

()
x
1
e
x
, x > 0,
0, sinon,
est appelee une variable aleatoire gamma de param`etres , > 0. Ici sappelle le param`etre de
forme (shape), et sappelle le taux (rate), avec
1
le param`etre dechelle (scale). En posant
= 1 on obtient la densite exponentielle, et quand = 2, 3, . . . on a la densite de Erlang.
2 0 2 4 6 8
0
.
0
0
.
4
0
.
8
exp(1)
x
f
(
x
)
2 0 2 4 6 8
0
.
0
0
.
4
0
.
8
Gamma, shape=5,rate=3
x
f
(
x
)
2 0 2 4 6 8
0
.
0
0
.
4
0
.
8
Gamma, shape=0.5,rate=0.5
x
f
(
x
)
2 0 2 4 6 8
0
.
0
0
.
4
0
.
8
Gamma, shape=8,rate=2
x
f
(
x
)
Probabilites et Statistique pour SIC slide 139
Loi de Laplace
Exemple 118 (Laplace). La variable aleatoire X de densite
f(x) =

2
e
|x|
, x R, R, > 0,
est appelee une variable aleatoire de Laplace. Trouver sa fonction de repartition.
Pierre-Simon Laplace (17491827) : Theorie Analytique des Probabilites (1814)
Selon Napoleon Bonaparte : Laplace ne traitait aucune question dun bon point de vue : il cherchait
des subtilites de partout, il avait seulement des idees problematiques et enn il portait lesprit de
linniment petit jusque dans ladministration.
Probabilites et Statistique pour SIC slide 140
53
Loi de Pareto
Exemple 119 (Pareto). La variable aleatoire X de fonction de repartition
F(x) =
_
0, x < ,
1
_

x
_

, x ,
, , > 0,
est appelee une variable aleatoire de Pareto. Trouver sa fonction de densite.
Vilfredo Pareto (18481923) : Professeur `a lUniversite de Lausanne, p`ere de leconomie scientique.
Probabilites et Statistique pour SIC slide 141
Moments
Denition 120. Soient g(x) une fonction `a valeurs reelles, et X une variable aleatoire continue de
densite f(x). Alors on denie lesperance de g(X) comme
Eg(X) =
_

g(x)f(x) dx,
en supposant que E[g(X)[ < . En particulier lesperance et la variance de X sont
E(X) =
_

xf(x) dx,
var(X) =
_

x E(X)
2
f(x) dx = E(X
2
) E(X)
2
.
Exemple 121. Calculer lesperance et la variance des distributions : (a) U(a, b) ; (b) exp() ; (c)
gamma ; (d) Pareto.
Probabilites et Statistique pour SIC slide 142
54
Densites conditionelles
On peut aussi calculer les fonctions de repartitions et densites conditionelles : pour des ensembles
/ R raisonnables on a
F
X
(x [ X /) = Pr(X x [ X /) =
Pr(X x X /)
Pr(X /)
=
_
Ax
f(y) dy
Pr(X /)
,
o` u /
x
= y : y x, y /, et
f
X
(x [ X /) =
_
f
X
(x)
Pr(XA)
, x /,
0, sinon.
Avec I(X /) la variable indicatrice de levenement X /, on peut ecrire
Eg(X) [ X / =
Eg(X) I(X /)
Pr(X /)
,
Exemple 122. Soit X exp(). Trouver la densite et la fonction de repartition de X, sachant que
(a) X < 3, (b) X > 3.
Probabilites et Statistique pour SIC slide 143
Exemple
Exemple 123. Pour obtenir un visa pour un pays lointain, vous appelez chaque matin `a son consulat
`a 10.00. Le fonctionnaire ne repond pas aux appels un jour sur deux, et quand il repond, il laisse
lappareil sonner pendant un temps aleatoire T (min) dont la loi est
F
T
(t) =
_
0, t 1,
1 t
1
, t > 1.
(a) Si vous appelez un matin et ne raccrochez pas, quelle est la probabilite que vous ecoutez la
tonalite pendant au moins s minutes ?
(b) Vous decidez dappeler une fois chaque jour, mais de raccrocher sil ny a pas eu de reponse apr`es
s minutes. Trouver la valeur de s qui minimise votre temps decoute `a la tonalite.
Probabilites et Statistique pour SIC slide 144
55
4.2 Notions Supplementaires slide 145
Quantiles
Denition 124. Soit 0 < p < 1. On denie le pi`eme quantile de la fonction de repartition F(x) par
x
p
= infx : F(x) p.
Pour la plupart des variables aleatoire continues, x
p
est unique et vaut x
p
= F
1
(p), o` u F
1
est la
fonction inverse de F. Ainsi x
p
est la valeur pour laquelle Pr(X x
p
) = p. En particulier, on appelle
le 0.5`eme quantile la mediane de F.
Exemple 125. Soit U U(0, 1). Montrer que x
p
= p.
Exemple 126. Soit X exp(). Montrer que x
p
=
1
log(1 p).
Exemple 127. Trouver le pi`eme quantile de la loi de Pareto.
Probabilites et Statistique pour SIC slide 146
Transformations
On consid`ere souvent Y = g(X), o` u g est une fonction connue, et on veut calculer F
Y
et f
Y
`a partir
de F
X
et f
X
.
Exemple 128. Soit X exp() et Y = exp(X), trouver F
Y
et f
Y
.
Exemple 129. Soit Y = log(1 U), o` u U U(0, 1). Calculer F
Y
(y) et discuter. Calculer aussi la
densite et la fonction de repartition de W = log U. Expliquer.
Exemple 130. Soit Y = X, o` u X exp() (ainsi Y est le plus petit entier plus grand que X).
Calculer F
Y
(y) et f
Y
(y).
Probabilites et Statistique pour SIC slide 147
56
Transformation generale
Denition 131. Soient g : R R une fonction et B R un sous-ensemble quelconque de R. Alors
g
1
(B) R est lensemble pour lequel gg
1
(B) = B.
Theor`eme 132. Soit Y = g(X) une variable aleatoire et B
y
= (, y]. Alors
F
Y
(y) = Pr(Y y) =
_
_
g
1
(By)
f
X
(x) dx, X continue,

xg
1
(By)
f
X
(x), X discr`ete,
o` u g
1
(B
y
) = x R : g(x) y. Lorsque g est monotone croissante et a pour fonction inverse g
1
,
on a
F
Y
(y) = F
X
g
1
(y), f
Y
(y) =
dg
1
(y)
dy
f
X
g
1
(y), y R.
On obtient un resultat similaire pour g monotone decroissante.
Exemple 133. Soient Y = X
1/
, o` u X exp(1) et , > 0. Trouver les fonctions de repartition
et de densite de la variable aleatoire de Weibull Y .
Probabilites et Statistique pour SIC slide 148
Probability integral transform
Ecrivons
D
= pour a la meme loi que.
Lemme 134 (Probability integral transform (PIT)). Soient X F une va continue avec fonction de
repartition F, U U(0, 1), et
F
1
(p) = minx : F(x) p, 0 < p < 1.
Alors F
1
(U)
D
= X, et F(X)
D
= U U(0, 1).
Exemple 135. Si X exp(), montrer que
X
D
=
1
log U.
Probabilites et Statistique pour SIC slide 149
57
La simulation : methode de Monte Carlo
Beaucoup de probl`emes probabilistes sont trop dicile `a resoudre par la voie analytique, et on utilise
la simulation de variables pseudo-aleatoires, generees sur ordinateur. Ceci sappelle aussi la methode
de Monte Carlo, tr`es souvent utilisee pour approximer les integrales en dimension elevee, . . .
Ici on gen`ere des variables aleatoires U
1
, . . . , U
n
selon la loi U(0, 1) :
n <- 50
u <- runif(n) # generate n U(0,1) variables
u[1:50] # show the first 50 variables
EDF <- function(x,n=length(x)) list(x=sort(x),y=c(1:n)/n) # EDF of u
par(mfrow=c(1,2),pty="s") # set up graphics
lim <- c(0,1) # well fix x-axis of graphs
hist(u,prob=T,nclass=20,xlim=lim) # estimated density
rug(u) # rug showing values of the us
plot(EDF(u),type="s",panel.first={abline(0,1,col="grey")},xlim=lim) # CDF of u
Observer ce quil se passe quand on prend n = 500, 5000, 50000, . . .
Probabilites et Statistique pour SIC slide 150
La methode dinversion
Le lemme 134 donne un moyen de simuler des variables X
1
, X
2
, . . . , F par la methode
dinversion :
X
1
= F
1
(U
1
), X
2
= F
1
(U
2
), . . . , o` u U
1
, U
2
, . . . U(0, 1).
n <- 5000; lambda <- 3
u <- runif(n) # generate n U(0,1) variables
x <- -log(u)/lambda # transform the us to exp(lambda)
x[1:50] # show the first 50 variables
par(mfrow=c(2,2),pty="s") # set up graphics
lim <- c(0,3) # well fix x-axis of graphs
hist(x,prob=T,nclass=20,xlim=lim) # estimated density
rug(x)
plot(EDF(x),type="s",xlim=lim) # CDF of x
y <- 1/u # transform the us to Pareto
y[1:50] # show the first 50 variables
hist(y,prob=T,nclass=20) # estimated density
rug(y)
plot(EDF(y),type="s") # CDF of y
Observer ce quil se passe quand on prend n = 500, 5000, 50000, . . .
Probabilites et Statistique pour SIC slide 151
58
4.3 Loi Normale slide 152
Loi normale
Denition 136. Une variable aleatoire X de densite
f(x) =
1
(2)
1/2

exp
_

(x )
2
2
2
_
, x R, R, > 0,
est une variable aleatoire normale desperance et de variance
2
: on ecrit X A(,
2
).
Quand = 0,
2
= 1, la variable aleatoire correspondante Z est normale centree reduite,
Z A(0, 1), de densite
(z) = (2)
1/2
e
z
2
/2
, z R.
Alors
F
Z
(x) = Pr(Z x) = (x) =
_
x

(z) dz =
1
(2)
1/2
_
x

e
z
2
/2
dz.
Cette integrale est tabulee dans le formulaire.
II est `a noter que f(x) =
1
(x )/.
Probabilites et Statistique pour SIC slide 153
Johann Carl Friedrich Gauss (17771855)
La loi normale est souvent appellee la loi gaussienne. Gauss la utilisee pour la combination de
mesures astronomiques et topographiques.
Probabilites et Statistique pour SIC slide 154
59
Densite normale centree reduite
3 2 1 0 1 2 3
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
N(0,1) density
z
p
h
i
(
z
)
La fameuse courbe en cloche :
(z) = (2)
1/2
e
z
2
/2
, z R.
Probabilites et Statistique pour SIC slide 155
Proprietes
Theor`eme 137. La densite (z), la fonction de repartition (z), et les quantiles z
p
de Z A(0, 1)
satisfont, pour tout z R :
(a) la densite est symetrique par rapport `a z = 0, i.e., (z) = (z) ;
(b) Pr(Z z) = (z) = 1 (z) = 1 Pr(Z z) ;
(c) les quantiles normaux centres reduits z
p
satisfont z
p
= z
1p
, pour tout 0 < p < 1 ;
(d) z
r
(z) 0 lorsque z , pour tout r > 0. Ceci implique que les moments E(Z
r
) existent
pour tout r N;
(e) on a

(z) = z(z),

(z) = (z
2
1)(z),

(z) = (z
3
3z)(z), . . .
Ceci implique que E(Z) = 0, var(Z) = 1, E(Z
3
) = 0, etc.
(f) Si X A(,
2
), alors Z = (X )/ A(0, 1).
Noter que si X A(,
2
), alors on peut ecrire X = +Z, o` u Z A(0, 1).
Probabilites et Statistique pour SIC slide 156
60
Valeurs de la fonction (z)
z 0 1 2 3 4 5 6 7 8 9
0.0 .50000 .50399 .50798 .51197 .51595 .51994 .52392 .52790 .53188 .53586
0.1 .53983 .54380 .54776 .55172 .55567 .55962 .56356 .56750 .57142 .57535
0.2 .57926 .58317 .58706 .59095 .59483 .59871 .60257 .60642 .61026 .61409
0.3 .61791 .62172 .62552 .62930 .63307 .63683 .64058 .64431 .64803 .65173
0.4 .65542 .65910 .66276 .66640 .67003 .67364 .67724 .68082 .68439 .68793
0.5 .69146 .69497 .69847 .70194 .70540 .70884 .71226 .71566 .71904 .72240
0.6 .72575 .72907 .73237 .73565 .73891 .74215 .74537 .74857 .75175 .75490
0.7 .75804 .76115 .76424 .76730 .77035 .77337 .77637 .77935 .78230 .78524
0.8 .78814 .79103 .79389 .79673 .79955 .80234 .80511 .80785 .81057 .81327
0.9 .81594 .81859 .82121 .82381 .82639 .82894 .83147 .83398 .83646 .83891
1.0 .84134 .84375 .84614 .84850 .85083 .85314 .85543 .85769 .85993 .86214
1.1 .86433 .86650 .86864 .87076 .87286 .87493 .87698 .87900 .88100 .88298
1.2 .88493 .88686 .88877 .89065 .89251 .89435 .89617 .89796 .89973 .90147
1.3 .90320 .90490 .90658 .90824 .90988 .91149 .91309 .91466 .91621 .91774
1.4 .91924 .92073 .92220 .92364 .92507 .92647 .92786 .92922 .93056 .93189
1.5 .93319 .93448 .93574 .93699 .93822 .93943 .94062 .94179 .94295 .94408
1.6 .94520 .94630 .94738 .94845 .94950 .95053 .95154 .95254 .95352 .95449
1.7 .95543 .95637 .95728 .95818 .95907 .95994 .96080 .96164 .96246 .96327
1.8 .96407 .96485 .96562 .96638 .96712 .96784 .96856 .96926 .96995 .97062
1.9 .97128 .97193 .97257 .97320 .97381 .97441 .97500 .97558 .97615 .97670
2.0 .97725 .97778 .97831 .97882 .97932 .97982 .98030 .98077 .98124 .98169
Remarque : Une table plus detaille se trouve dans le Formulaire. Vous pouvez egalement utiliser la
fonction pnorm du logiciel R : (z) = pnorm(z).
Exemple 138. Calculer
Pr(Z 1.86), Pr(Z 0.53), Pr(1.86 < Z < 0.53), z
0.95
, z
0.025
, z
0.5
.
Probabilites et Statistique pour SIC slide 157
Exemples et calculs
Exemple 139. La duree en minutes dun cours de math est A(47, 4), mais devrait etre de 45. Donner
la probabilite que (a) le cours se termine tot, (b) le cours se termine avec un retard de plus de 5
minutes.
Exemple 140. Montrer que lesperance et la variance de X A(,
2
) sont et
2
, et trouver le p
quantile de X.
Exemple 141. Calculer la fonction de repartition et la densite de Y = [Z[ et W = Z
2
, o` u
Z A(0, 1).
Exemple 142. Si X A(,
2
), montrer que
M
X
(t) = exp(t +t
2

2
/2), t R,
et en deduire que E(X) = , var(X) =
2
.
Probabilites et Statistique pour SIC slide 158
61
Approximation normale de la distribution binomiale
La loi normale est une loi centrale en probabilite, en partie car elle peut etre utilisee pour approcher
les probabilites des autres lois. Un des resultats de base est :
Theor`eme 143 (de MoivreLaplace). Soit X
n
B(n, p), o` u 0 < p < 1, posons

n
= E(X
n
) = np,
2
n
= var(X
n
) = np(1 p),
et soit Z A(0, 1). Alors quand n ,
Pr
_
X
n

n

n
z
_
(z), z R; cest `a dire que,
X
n

n
D
Z.
Ceci nous donne une approximation de la probabilite que X
n
r :
Pr(X
n
r) = Pr
_
X
n

n

r
n

n
_
.
=
_
r
n

n
_
,
ce qui correspond `a X
n

Anp, np(1 p.
En pratique lapproximation est mauvaise quand minnp, n(1 p) < 5.
Probabilites et Statistique pour SIC slide 159
Approximations normale et poissoni`enne de la binomiale
On a dej`a rencontre lapproximation poissoni`enne de la loi binomial, valable pour grand n et petite p.
Lapproximation normale est valable pour n grand et minnp, n(1 p) 5. A gauche : un cas o` u
lapproximation normale est valable. A droite : un cas o` u lapproximation poissoni`enne est valable.
0 5 10 15
0
.
0
0
0
.
2
0
B(16, 0.5) and Normal approximation
r
d
e
n
s
i
t
y
0 5 10 15
0
.
0
0
0
.
2
0
B(16, 0.1) and Normal approximation
r
d
e
n
s
i
t
y
0 5 10 15
0
.
0
0
0
.
2
0
B(16, 0.5) and Poisson approximation
r
d
e
n
s
i
t
y
0 5 10 15
0
.
0
0
0
.
2
0
B(16, 0.1) and Poisson approximation
r
d
e
n
s
i
t
y
Probabilites et Statistique pour SIC slide 160
62
Correction de continuite
Une meilleure approximation de Pr(X
n
r) est donnee en rempla cant r par r +
1
2
; le
1
2
est connu
sous le nom de correction de continuite . Donc un meilleure approximation est
Pr(X
n
r)
.
=
_
r +
1
2
np
_
np(1 p)
_
.
0 5 10 15
0
.
0
0
0
.
0
5
0
.
1
0
0
.
1
5
0
.
2
0
Binomial(15, 0.4) and Normal approximation
x
D
e
n
s
it
y
Exemple 144. Soit X B(15, 0.4). Calculer les valeurs exactes et approchees de Pr(X r) pour
r = 1, 8, 10, avec et sans la correction de continuite. Commenter.
Probabilites et Statistique pour SIC slide 161
Resultats numeRiques
pbinom(c(1,8,10),15,prob=0.4)
[1] 0.005172035 0.904952592 0.990652339
pnorm(c(1,8,10),mean=15*0.4,sd=sqrt(15*0.4*0.6))
[1] 0.004203997 0.854079727 0.982492509
pnorm(c(1,8,10)+0.5,mean=15*0.4,sd=sqrt(15*0.4*0.6))
[1] 0.008853033 0.906183835 0.991146967
Probabilites et Statistique pour SIC slide 162
Exemple
Exemple 145. Le nombre total detudiants dans une classe est 100.
(a) Chaque etudiant assiste independamment `a un cours de mathematiques avec une probabilite de
0.6. Quelle est la taille de la plus petite salle de cours adaptee au nombre detudiants assistant aux
cours, avec une probabilite 0.95 ?
(b) Il y a 14 cours par semestre, et les etudiants decident independamment dassister `a chaque cours.
Quelle est maintenant la taille necessaire de la plus petite salle de cours ?
Probabilites et Statistique pour SIC slide 163
63
4.4 Q-Q Plots slide 164
Quantile-quantile (Q-Q) plots
Une mani`ere pour comparer un echantillon X
1
, . . . , X
n
avec une loi theorique F :
on ordonne les X
j
, donnant
X
(1)
X
(2)
X
(n)
,
puis on fait le graphe contre F
1
1/(n + 1), F
1
2/(n + 1) . . . , F
1
n/(n + 1).
Lidee : dans un cas ideal U
1
, . . . , U
n
U(0, 1) devrait couper lintervalle (0, 1) en n + 1
sous-intervalles de largeurs 1/(n +1), donc on devrait faire le graphe des U
(j)
contre 1/(n +1), . . .,
n/(n + 1), et ainsi des X
(j)
D
= F
1
(U
(j)
) contre des F
1
j/(n + 1) ;
plus le graphe se rapproche dune droite, plus les donnees ressemblent `a un echantillon issu de F ;
le plus souvent on prend une version standard de F (e.g., exp(1), A(0, 1)), et alors les
F
1
j/(n + 1) sappellent des plotting positions de Falors la pente donne une estimation du
param`etre de dispersion de la loi, et la valeur `a lorigine donne une estimation du param`etre de
position ;
pour les lois exp(1) et A(0, 1) on a respectivement
F
1
_
j
n + 1
_
= log
_
1
j
n + 1
_
, F
1
_
j
n + 1
_
=
1
_
j
n + 1
_
;
il est dicile de tirer des conclusions fortes dun tel graphique pour n petit, car la variabilite est
alors grandeon a tendance `a le sur-interpreter.
Probabilites et Statistique pour SIC slide 165
Hauteurs detudiants
Q-Q plots pour les hauteurs de n = 36 etudiants en SSC, pour les lois exponentielle et normale.
0.0 1.0 2.0 3.0
1
6
0
1
7
0
1
8
0
1
9
0
Exponential QQ plot
Exponential plotting positions
H
e
i
g
h
t

(
c
m
)
2 1 0 1 2
1
6
0
1
7
0
1
8
0
1
9
0
Normal QQ Plot
Normal plotting positions
H
e
i
g
h
t

(
c
m
)
Probabilites et Statistique pour SIC slide 166
64
n = 36 : Quel echantillon nest pas normal ?
Il y a cinq echantillons de variables normales simulees, et des vrais donnees.
2 1 0 1 2
1
6
5
1
7
5
1
8
5
Normal plotting positions
H
e
i
g
h
t

(
c
m
)
2 1 0 1 2
1
6
0
1
7
0
1
8
0
1
9
0
Normal plotting positions
H
e
i
g
h
t

(
c
m
)
2 1 0 1 2
1
6
0
1
7
0
1
8
0
1
9
0
Normal plotting positions
H
e
i
g
h
t

(
c
m
)
2 1 0 1 2
1
6
5
1
7
5
1
8
5
Normal plotting positions
H
e
i
g
h
t

(
c
m
)
2 1 0 1 2
1
6
0
1
7
0
1
8
0
1
9
0
Normal plotting positions
H
e
i
g
h
t

(
c
m
)
2 1 0 1 2
1
6
5
1
7
5
1
8
5
Normal plotting positions
H
e
i
g
h
t

(
c
m
)
Probabilites et Statistique pour SIC slide 167
n = 100 : Quel echantillon nest pas normal ?
Il y a cinq echantillons de variables normales simulees, et un echantillon gamma simule.
2 0 1 2
1
5
0
1
7
0
1
9
0
2
1
0
Normal plotting positions
H
e
i
g
h
t

(
c
m
)
2 0 1 2
1
5
0
1
7
0
1
9
0
2
1
0
Normal plotting positions
H
e
i
g
h
t

(
c
m
)
2 0 1 2
1
5
0
1
7
0
1
9
0
2
1
0
Normal plotting positions
H
e
i
g
h
t

(
c
m
)
2 0 1 2
1
5
0
1
7
0
1
9
0
2
1
0
Normal plotting positions
H
e
i
g
h
t

(
c
m
)
2 0 1 2
1
5
0
1
7
0
1
9
0
2
1
0
Normal plotting positions
H
e
i
g
h
t

(
c
m
)
2 0 1 2
1
5
0
1
7
0
1
9
0
2
1
0
Normal plotting positions
H
e
i
g
h
t

(
c
m
)
Probabilites et Statistique pour SIC slide 168
65
n = 500 : Quel echantillon nest pas normal ?
Il y a cinq echantillons de variables normales simulees, et un echantillon gamma simule.
3 1 1 2 3
1
5
0
1
7
0
1
9
0
2
1
0
Normal plotting positions
H
e
i
g
h
t

(
c
m
)
3 1 1 2 3
1
5
0
1
7
0
1
9
0
2
1
0
Normal plotting positions
H
e
i
g
h
t

(
c
m
)
3 1 1 2 3
1
5
0
1
7
0
1
9
0
2
1
0
Normal plotting positions
H
e
i
g
h
t

(
c
m
)
3 1 1 2 3
1
5
0
1
7
0
1
9
0
2
1
0
Normal plotting positions
H
e
i
g
h
t

(
c
m
)
3 1 1 2 3
1
5
0
1
7
0
1
9
0
2
1
0
Normal plotting positions
H
e
i
g
h
t

(
c
m
)
3 1 1 2 3
1
5
0
1
7
0
1
9
0
2
1
0
Normal plotting positions
H
e
i
g
h
t

(
c
m
)
Probabilites et Statistique pour SIC slide 169
66
5. Plusieurs Variables Aleatoires slide 170
Petit Vocabulaire Probabiliste
Mathematics English Francais
E(X) expected value/expectation of X lesperance de X
E(X
r
) rth moment of X ri`eme moment de X
var(X) variance of X la variance de X
M
X
(t) moment generating function of X, or la fonction generatrice des moments
the Laplace transform of f
X
(x) ou la transformee de Laplace de f
X
(x)
f
X,Y
(x, y) joint density/mass function densite/fonction de masse conjointe
F
X,Y
(x, y) joint (cumulative) distribution function fonction de repartition conjointe
f
X|Y
(x [ y) conditional density function densite conditionnelle
f
X,Y
(x, y) = f
X
(x)f
Y
(y) X, Y independent X, Y independantes
X
1
, . . . , X
n
iid
F random sample from F un echantillon aleatoire
E(X
r
Y
s
) joint moment un moment conjoint
cov(X, Y ) covariance of X and Y la covariance de X et Y
corr(X, Y ) correlation of X and Y la correlation de X et Y
E(X [ Y = y) conditional expectation of X lesperance conditionnelle de X
var(X [ Y = y) conditional variance of X la variance conditionnelle de X
X
(r)
rth order statistic rieme statistique dordre
Probabilites et Statistique pour SIC slide 171
5.1 Idees de Base slide 172
Motivation
Souvent nous avons `a considerer la fa con dont plusieurs variables varient simultanement. Quelques
exemples :
Exemple 146. La distribution de (taille, poids) dun etudiant tire au hasard de la classe.
Exemple 147 (Chapeaux, suite de lexample 48). Trois hommes avec chapeaux les permutent
aleatoirement. Soient I
1
lindicatrice de levenement que lhomme 1 ait son chapeau, etc. Touver la loi
conjointe de (I
1
, I
2
, I
3
).
Nos denitions precedentes se generalisent dune mani`ere naturelle `a cette situation.
Probabilites et Statistique pour SIC slide 173
67
Variables aleatoires discr`etes
Denition 148. Soit (X, Y ) une variable aleatoire discr`ete : lensemble
D = (x, y) R
2
: Pr(X, Y ) = (x, y) > 0
est denombrable. La fonction de masse (conjointe) de (X, Y ) est
f
X,Y
(x, y) = Pr(X, Y ) = (x, y), (x, y) R
2
,
et la fonction de repartition (conjointe) de (X, Y ) est
F
X,Y
(x, y) = Pr(X x, Y y), (x, y) R
2
.
Exemple 149 (Chapeaux, suite de lexample 91). Trouver la loi conjointe de (X, Y ) = (I
1
, I
2
+I
3
).
Probabilites et Statistique pour SIC slide 174
Variables aleatoires continues
Denition 150. La variable aleatoire (X, Y ) est dite continue (conjointement) sil existe une
fonction f
X,Y
(x, y), appelee la densite (conjointe) de (X, Y ), telle que
Pr(X, Y ) A =
_ _
(u,v)A
f
X,Y
(u, v) dudv, / R
2
.
En posant / = (u, v) : u x, v y, on voit que la fonction de repartition (conjointe) de
(X, Y ) peut secrire
F
X,Y
(x, y) = Pr(X x, Y y) =
_
x

_
y

f
X,Y
(u, v) dudv, (x, y) R
2
,
et ceci implique que
f
X,Y
(x, y) =

2
xy
F
X,Y
(x, y).
Probabilites et Statistique pour SIC slide 175
Exemples continus
Exemple 151. Calculer la fonction de repartition conjointe et Pr(X 1, Y 2) lorsque
f
X,Y
(x, y)
_
e
xy
, y > x > 0,
0, sinon.
Probabilites et Statistique pour SIC slide 176
68
Distributions marginales et conditionnelles
Denition 152. La densite/fonction de masse marginale de X est
f
X
(x) =
_

y
f
X,Y
(x, y), cas discret,
_

f
X,Y
(x, y) dy, cas continu,
x R.
La densite/fonction de masse conditionnelle de Y sachant X est
f
Y |X
(y [ x) =
f
X,Y
(x, y)
f
X
(x)
, y R,
en supposant que f
X
(x) > 0. Si (X, Y ) est discr`ete,
f
X
(x) = Pr(X = x), f
Y |X
(y [ x) = Pr(Y = y [ X = x).
Des denitions analogues existent pour f
Y
(y), f
X|Y
(x [ y), et pour les fonctions de repartition
conditionnelles F
X|Y
(x [ y), F
Y |X
(y [ x).
Probabilites et Statistique pour SIC slide 177
Exemples
Exemple 153. Calculer les fms conditionnelles de Y sachant X, et les fm marginales de
lexemple 149.
Exemple 154. Calculer les densites marginales et conditionelles pour lexemple 151.
Exemple 155. Chaque jour je re cois un nombre demails dont la loi est Poissonienne, avec param`etre
= 100. Chacun est un spam independemment avec probabilite p = 0.9. Trouver la loi du nombre de
bons emails que je re cois. Sachant que jai re cu 15 bons, trouver la loi du nombre total que jai re cu.
Probabilites et Statistique pour SIC slide 178
Variables aleatoires multivariees
Denition 156. Soient X
1
, . . . , X
n
des vas denies sur le meme espace de probabilite. Leur
fonction de repartition conjointe est
F
X
1
,...,Xn
(x
1
, . . . , x
n
) = Pr(X
1
x
1
, . . . , X
n
x
n
)
et leur densite/fonction de masse conjointe est
f
X
1
,...,Xn
(x
1
, . . . , x
n
) =
_
Pr(X
1
= x
1
, . . . , X
n
= x
n
), cas discret,

n
F
X
1
,...,Xn
(x
1
,...,xn)
x
1
xn
, cas continu.
On denit de mani`ere analogue dans le cas bivarie, les densites conditionnelles et marginales, les
fonctions de repartition, etc., en rempla cant (X, Y ) par X = X
A
, Y = X
B
, o` u /, B 1, . . . , n et
/ B = . Donc par exemple, si n = 4, on peut considerer la loi marginale de (X
1
, X
2
) et sa loi
conditionelle sachant (X
3
, X
4
).
Par la suite tout peut etre generalise `a n variables, mais nous nous limiterons la plupart du temps au
cas bivarie.
Probabilites et Statistique pour SIC slide 179
69
Loi multinomiale
Denition 157. La variable aleatoire (X
1
, . . . , X
k
) a la loi multinomiale de denominateur m et
probabilites (p
1
, . . . , p
k
) si sa fonction de masse est
f(x
1
, . . . , x
k
) =
m!
x
1
! x
k
!
p
x
1
1
p
x
2
2
p
x
k
k
, x
1
, . . . , x
k
0, . . . , m,
k

j=1
x
j
= m,
o` u m N et p
1
. . . , p
k
[0, 1], avec p
1
+ +p
k
= 1.
Cette loi apparat comme la loi du nombre dindividus dans les categories 1, . . . , k quand m
individus independants tombent dans les classes avec des probabilites p
1
, . . . , p
k
. Elle generalise la
loi binomiale `a k > 2 categories.
Exemple 158 (Votation). n etudiants votent pour trois candidats pour la presidence de leur syndicat.
Soient X
1
, X
2
, X
3
les nombres de votes correspondants, et supposons que les n etudiants votent
independamment avec des probabilites p
1
= 0.45, p
2
= 0.4, et p
3
= 0.15. Trouver la loi conjointe de
X
1
, X
2
, X
3
, calculer la loi marginale de X
3
, et la loi conditionnelle de X
1
sachant X
3
= x
3
.
Probabilites et Statistique pour SIC slide 180
Independance
Denition 159. Deux variables aleatoires X, Y denies sur un meme espace de probabilite sont
independantes si
Pr(X /, Y B) = Pr(X /)Pr(Y B), /, B R.
En posant / = (, x] et B = (, y], on obtient en particulier
F
X,Y
(x, y) = = F
X
(x)F
Y
(y), x, y R,
impliquant la condition equivalente suivante
f
X,Y
(x, y) = f
X
(x)f
Y
(y), x, y R, (1)
qui sera notre crit`ere dindependance. Cette condition porte sur les fonctions f
X,Y
(x, y), f
X
(x),
f
Y
(y) : X, Y sont independantes ssi (1) reste vrai pour tout x, y R.
Si X, Y sont independantes, alors pour tout x tel que f
X
(x) > 0,
f
Y |X
(y [ x) =
f
X,Y
(x, y)
f
X
(x)
=
f
X
(x)f
Y
(y)
f
X
(x)
= f
Y
(y), y R.
Ainsi la connaissance de la valeur prise par X naecte pas la densite de Y : cest une signication
evidente de lindependance. Par symetrie f
X|Y
(x [ y) = f
X
(x) pour tout y tel que f
Y
(y) > 0.
Probabilites et Statistique pour SIC slide 181
70
Exemples
Exemple 160. (X, Y ) sont-elles independantes dans (a) lExemple 149 ? (b) lExemple 151 ? (c)
quand
f
X,Y
(x, y)
_
e
3x2y
, x, y > 0,
0, sinon.
Denition 161. Un echantillon aleatoire de taille n issu dune distribution F de densite f est un
ensemble de n variables aleatoires independantes qui ont toutes une distribution F. On ecrit
X
1
, . . . , X
n
iid
F ou X
1
, . . . , X
n
iid
f.
Par lindependance, la densite conjointe de X
1
, . . . , X
n
iid
f est
f
X
1
,...,Xn
(x
1
, . . . , x
n
) =
n

j=1
f
X
(x
j
).
Exemple 162. Si X
1
, X
2
, X
3
iid
exp(), donner leur densite conjointe.
Probabilites et Statistique pour SIC slide 182
Lois mixtes
On rencontre parfois les lois avec X discr`ete et Y continue, ou vice versa.
Exemple 163. Une grande compagnie dassurance observe que la loi du nombre de sinistres X
pendant une annee pour ses clients ne suit pas une loi de Poisson. Pourtant, un sinistre est un
evenement rare, et donc il semble raisonnable que la loi de petits nombres sapplique. Pour modeliser
X, on suppose que pour chaque client, le nombre de sinistres X pendant une annee suit une loi de
Poisson Pois(y), mais que Y Gamma(, ) : le nombre moyen de sinistres pour un client avec
Y = y est alors E(X [ Y = y) = y, car certain clients sont plus aptes `a avoir des sinistres que
dautres.
Trouver la loi conjointe de (X, Y ), la loi marginale de X, et la loi conditionelle de Y sachant X = x.
Probabilites et Statistique pour SIC slide 183
71
5.2 Dependance slide 184
Moments conjoints
Denition 164. Soient X, Y des variables aleatoires de densite f
X,Y
(x, y). Alors si
E[g(X, Y )[ < , on peut denir lesperance de g(X, Y ) comme
Eg(X, Y ) =
_

x,y
g(x, y)f
X,Y
(x, y), cas discret,
__
g(x, y)f
X,Y
(x, y) dxdy, cas continu.
En particulier on denie les moments conjoints et les moments centraux conjoints par
E(X
r
Y
s
), E[X E(X)
r
Y E(Y )
s
] , r, s N.
Le plus important dentre eux est la covariance de X et Y ,
cov(X, Y ) = E[X E(X) Y E(Y )] = E(XY ) E(X)E(Y ).
Probabilites et Statistique pour SIC slide 185
Proprietes de la covariance
Theor`eme 165. Soient X, Y, Z des variables aleatoires et a, b, c, d R des constants. La covariance
satisfait :
cov(X, X) = var(X);
cov(a, X) = 0;
cov(X, Y ) = cov(Y, X), (symetrie);
cov(a +bX +cY, Z) = b cov(X, Z) +c cov(Y, Z), (bilinearite);
cov(a +bX, c +dY ) = bd cov(X, Y );
var(aX +bY +c) = a
2
var(X) + 2ab cov(X, Y ) +b
2
var(Y );
cov(X, Y )
2
var(X)var(Y ), (inegalite de CauchySchwarz).
Probabilites et Statistique pour SIC slide 186
Independance et covariance
Si X et Y sont independants et g(X), h(Y ) des fonctions dont les esperances existent, alors
Eg(X)h(Y ) = = Eg(X)Eh(Y ).
En posant g(X) = X E(X) et h(Y ) = Y E(Y ), on voit que si X et Y sont independants, alors
cov(X, Y ) = = 0.
Donc X, Y indep cov(X, Y ) = 0. Pourtant, la reciproque est fausse.
Probabilites et Statistique pour SIC slide 187
72
Combinaisons lineaires de variables aleatoires
Soient X
1
, . . . , X
n
des vas et a, b
1
, . . . , b
n
des constantes. Alors
E(a +b
1
X
1
+ +b
n
X
n
) = a +
n

j=1
b
j
E(X
j
),
var(a +b
1
X
1
+ +b
n
X
n
) =
n

j=1
b
2
j
var(X
j
) +

j=k
b
j
b
k
cov(X
j
, X
k
).
Si X
1
, . . . , X
n
sont indeps, alors cov(X
j
, X
k
) = 0, j ,= k, ainsi
var(a +b
1
X
1
+ +b
n
X
n
) =
n

j=1
b
2
j
var(X
j
).
Exemple 166. Soient X
1
, X
2
des vas indeps avec E(X
1
) = 1, var(X
1
) = 1, E(X
2
) = 2,
var(X
2
) = 4, et Y = 16 + 5X
1
6X
2
. Calculer E(Y ), var(Y ).
Probabilites et Statistique pour SIC slide 188
Correlation
La covariance depend des unites de mesure, et donc on utilise souvent la mesure de dependance
suivante.
Denition 167. La correlation de X, Y est denie par
corr(X, Y ) =
cov(X, Y )
var(X)var(Y )
1/2
.
Ceci mesure la dependance lineaire entre X et Y .
Exemple 168. On peut modeliser lheredite dune caracteristique genetique quantitative comme suit.
Soit X sa valeur pour un parent, et Y
1
et Y
2
ses valeurs pour deux enfants.
Soient Z
1
, Z
2
, Z
3
iid
A(0, 1) et
X = Z
1
, Y
1
= Z
1
+ (1
2
)
1/2
Z
2
, Y
2
= Z
1
+ (1
2
)
1/2
Z
3
, [[ < 1.
Calculer E(X), E(Y
j
), corr(X, Y
j
) et corr(Y
1
, Y
2
).
Probabilites et Statistique pour SIC slide 189
Proprietes de la correlation
Theor`eme 169. Soient X, Y des variables aleatoires de correlation = corr(X, Y ), alors
(a) 1 1 ;
(b) si = 1, alors il existe a, b, c R telles que aX +bY +c = 0 avec une probabilite de 1 (X et
Y sont alors dependants lineairement) ;
(c) si X, Y sont independantes, alors corr(X, Y ) = 0 ;
(d) leet de la transformation (X, Y ) (a +bX, c +dY ) est corr(X, Y ) sign(bd)corr(X, Y ).
Probabilites et Statistique pour SIC slide 190
73
Limitations de la correlation
Notez que :
la correlation est une mesure de dependance lineaire, comme dans les panneaux superieurs
ci-dessous ;
on peut avoir une forte dependance non-lineaire, mais correlation zero, comme dans le panneau en
bas `a gauche ;
une correlation peut etre forte mais specieuse, comme en bas `a droite, o` u deux sous-populations,
chacune sans correlation, sont combinees.
4 2 0 2 4

2
0
2
4
rho=0.3
x
y
4 2 0 2 4

2
0
2
4
rho=0.9
x
y
4 2 0 2 4

2
0
2
4
rho=0
x
y
4 2 0 2 4

2
0
2
4
rho=0.9
x
y
Probabilites et Statistique pour SIC slide 191
Correlation ,= lien de causalite
Deux variables peuvent etre tr`es correlees sans que lune cause des changements dans lautre.
Le panneau `a gauche montre une forte dependance entre le nombre dantennes de transmission pour
natels, et le nombre de naissances en UK. Est-ce que ces transmissions augmentent la fertilite ?
Le panneau `a droite montre que cette dependance disparait quand on prend en compte la taille de
la population : plus il y de monde, plus il y a de naissances et dantennes.
20 50 200 1000 5000
2
e
+
0
2
2
e
+
0
3
2
e
+
0
4
rho=0.92
Number of transmitter masts
T
o
t
a
l

b
i
r
t
h
s

i
n

2
0
0
9
20 50 200 1000 5000
1
0
1
2
1
4
1
8
2
2
rho=0.09
Number of transmitter masts
B
i
r
t
h

r
a
t
e

i
n

2
0
0
9
Probabilites et Statistique pour SIC slide 192
74
Esperance conditionnelle
Denition 170. Soit g(X, Y ) une fonction dun vecteur aleatoire (X, Y ). Son esperance
conditionnelle sachant X = x est
Eg(X, Y ) [ X = x =
_

y
g(x, y)f
Y |X
(y [ x), dans le cas discret,
_

g(x, y)f
Y |X
(y [ x) dy, dans le cas continu,
`a condition que f
X
(x) > 0 et E[g(X, Y )[ [ X = x < . Noter que cest une fonction de x.
Exemple 171. Calculer lesperance et la variance conditionelle du nombre total demails re cu dans
lExemple 155, sachant que lon a re cu b emails bons.
Probabilites et Statistique pour SIC slide 193
Esperance et conditionnement
Il est parfois plus facile de calculer Eg(X, Y ) par etapes :
Theor`eme 172. Si les esperances requises existent, alors
Eg(X, Y ) = E
X
[Eg(X, Y ) [ X = x] ,
varg(X, Y ) = E
X
[varg(X, Y ) [ X = x] + var
X
[Eg(X, Y ) [ X = x] .
o` u E
X
et var
X
representent lesperance et la variance par rapport `a la loi de X.
Exemple 173. n = 200 personnes passent devant un artiste de rue `a un jour donne. Chacune dentre
elles decident independamment avec probabilite p = 0.05 de lui donner de largent. Les dons sont
independants, et ont pour esperance = 2$ et variance
2
= 1$
2
. Trouver lesperance et la variance
de la quantite dargent quil re coit.
Probabilites et Statistique pour SIC slide 194
75
5.3 Fonctions Generatrices slide 195
Denition
Denition 174. On denit la fonction generatrice des moments dune variable aleatoire X par
M
X
(t) = E(e
tX
)
pour t R tel que M
X
(t) < .
M
X
(t) est aussi appele la transformee de Laplace de f
X
(x).
La FGM est utile comme resume de toutes les proprietes de X, on peut ecrire
M
X
(t) = E(e
tX
) = E
_

r=0
t
r
X
r
r!
_
=

r=0
t
r
r!
E(X
r
),
do` u on peut obtenir tous les moments E(X
r
) par dierentiation.
Exemple 175. Calculer M
X
(t) lorsque : (a) X est une variable indicatrice ; (b) X B(n, p) ; (c)
X Pois() ; (d) X exp().
Probabilites et Statistique pour SIC slide 196
Theor`emes importants I
Theor`eme 176. Soit M(t) la FGM dun variable aleatoire X, alors
M
X
(0) = 1;
M
a+bX
(t) = e
at
M
X
(bt);
E(X
r
) =

r
M
X
(t)
t
r

t=0
;
E(X) = M

X
(0);
var(X) = M

X
(0) M

X
(0)
2
.
Exemple 177. Trouver lesperance et la variance de X exp().
Probabilites et Statistique pour SIC slide 197
Theor`emes importants II
Theor`eme 178 (Pas de preuve). Il existe une bijection entre les fonction de repartitions F
X
(x) et les
fonctions generatrices des moments M
X
(t).
Theor`eme 179 (Continuite, pas de preuve). Soient X
n
, X des variables aleatoires avec fonctions
de repartitions F
n
, F, dont les FGMs M
n
(t), M(t) existent pour 0 [t[ < b. Sil existe un
0 < a < b tel que M
n
(t) M(t) pour [t[ a quand n , alors X
n
D
X, cest `a dire,
F
n
(x) F(x) en chaque x R o` u F est continue.
Exemple 180. Soit X
n
B(n, p) et X Pois(). Montrer que lorsque n , p 0 de fa con `a
ce que np ,
X
n
D
X.
Probabilites et Statistique pour SIC slide 198
76
Combinaisons lineaires
Theor`eme 181. Soient a, b
1
, . . . , b
n
R et X
1
, . . . , X
n
des vas indeps dont les FGMs existent. Alors
Y = a +b
1
X
1
+ +b
n
X
n
a pour FGM
M
Y
(t) = = e
ta
n

j=1
M
X
j
(tb
j
).
En particulier, si X
1
, . . . , X
n
est un echantillon aleatoire, alors S = X
1
+ +X
n
a pour FGM
M
S
(t) = M
X
(t)
n
.
Exemple 182. Soient X
1
, X
2
ind
Pois(), Pois(). Trouver la loi de X
1
+X
2
.
Exemple 183. Soient X
1
, . . . , X
n
des vas indeps, X
j
A(
j
,
2
j
). Montrer que
Y = a +b
1
X
1
+ +b
n
X
n
N(a +b
1

1
+ +b
n

n
, b
2
1

2
1
+ +b
2
n

2
n
) :
une combinaison lineaire de vas normales est normale.
Probabilites et Statistique pour SIC slide 199
Fonction generatrice des cumulants
Denition 184. La fonction generatrice des cumulants (FGC) de X est K
X
(t) = log M
X
(t).
Les cumulants
r
de X sont denis par
K
X
(t) =

r=1
t
r
r!

r
,
r
=
d
r
K
X
(t)
dt
r

t=0
de mani`ere equivalente.
Il est facile de verier que E(X) =
1
and var(X) =
2
.
Exemple 185. Calculer la FGC et les cumulants de (a) X A(,
2
) ; (b) Y Pois().
Le resultat suivant est un corollaire du Theor`eme 181.
Corollaire 186. Soient a, b
1
, . . . , b
n
des constantes et X
1
, . . . , X
n
des variables aleatoires
independantes, alors
K
a+b
1
X
1
++bnXn
(t) = ta +
n

j=1
K
X
j
(tb
j
).
Probabilites et Statistique pour SIC slide 200
77
Fonction generatrice des moments : Cas multivarie
Denition 187. La fonction generatrice des moments (FGM) dun vecteur aleatoire
X
p1
= (X
1
, . . . , X
p
)
T
est
M
X
(t) = E(e
t
T
X
) = E(e

p
r=1
trXr
), t T ,
o` u T = t R
p
: M
X
(t) < . Soient le r`eme et (r, s)`eme elements du vecteur de lesperance
(mean vector) E(X)
p1
et de la matrice de (co)variance (covariance matrix) var(X)
pp
, les
quantites E(X
r
) et cov(X
r
, X
s
).
Elle a les proprietes suivantes :
0 T , donc M
X
(0) = 1 ;
on a
E(X)
p1
= M

X
(0) =
M
X
(t)
t

t=0
, var(X)
pp
=

2
M
X
(t)
tt
T

t=0
M

X
(0)M

X
(0)
T
;
si / 1, . . . , p, alors X
A
et X
A
c sont independantes ssi
M
X
(t) = E(e
t
T
A
X
A
+t
T
A
c
X
A
c
) = M
X
A
(t
A
)M
X
A
c
(t
A
c ), t T ;
il y a une injection entre les FGMs et les lois de probabilites.
Probabilites et Statistique pour SIC slide 201
Fonction generatrice des cumulants : Cas multivarie
Denition 188. La fonction generatrice des cumulants (FGC) dun vecteur aleatoire
X
p1
= (X
1
, . . . , X
p
)
T
est
K
X
(t) = log M
X
(t) = log E(e
t
T
X
), t T ,
o` u T = t R
p
: M
X
(t) < .
Elle a les proprietes suivantes :
0 T , donc K
X
(0) = 0 ;
on a
E(X)
p1
= K

X
(0) =
K
X
(t)
t

t=0
, var(X)
pp
=

2
K
X
(t)
tt
T

t=0
;
si / 1, . . . , p, alors X
A
et X
A
c sont independantes ssi
K
X
(t) = log E(e
t
T
A
X
A
+t
T
A
c
X
A
c
) = K
X
A
(t
A
) +K
X
A
c
(t
A
c ), t T ;
il y a une injection entre les FGCs et les lois de probabilites.
Probabilites et Statistique pour SIC slide 202
78
Exemples
Exemple 189. Les emails arrivent comme processus de Poisson avec taux (jour)
1
: le nombre
demails qui arrivent chaque jour suit la loi de Poisson de param`etre . Chacun est un spam avec
probabilite p. Montrer que les nombres de bons emails et de spams sont des variables independantes
Poissoniennes de param`etres (1 p) et p.
Probabilites et Statistique pour SIC slide 203
Parenth`ese : Fonction caracteristique
Beaucoup de distributions nont pas de FGM, car E(e
tX
) < seulement pour t = 0. Dans ce cas, la
transformee de Laplace de la densite nexiste pas. Par contre la transformee de Fourier existe, ce qui
nous m`ene `a la denition suivante.
Denition 190. Soit i =

1. La fonction caracteristique de X est

X
(t) = E(e
itX
), t R.
Chaque variable aleatoire a une fonction caracteristique, qui poss`ede les memes proprietes cles que la
FGM. Les fonctions caracteristiques sont cependant plus compliquees `a traiter, car elles font appel `a
de lanalyse complexe.
Theor`eme 191. X et Y ont la meme fonction de repartition si et seulement si elles ont la meme
fonction caracteristique. Si X est continue et a pour densite f et pour fonction caracteristique alors
f(x) =
1
2
_

e
itx
(t) dt
pour tout x o` u f est dierentiable.
Probabilites et Statistique pour SIC slide 204
5.4 Loi Normale Multivariee slide 205
Denition
Denition 192. Soient = (
1
, . . . ,
n
)
T
R
n
, et une matrice n n denie positive composee
delements
jk
. Alors on dit que le vecteur aleatoire X = (X
1
, . . . , X
n
)
T
de densite
f(x; , ) =
1
(2)
p/2
[[
1/2
exp
_

1
2
(x )
T

1
(x )
_
, x R
n
, (2)
a une distribution normale multivariee desperance
n1
et de matrice de dispersion
nn
; on ecrit
X A
n
(, ). Ceci implique que
E(X
j
) =
j
, var(X
j
) =
jj
, cov(X
j
, X
k
) =
jk
.
On verra que si
jk
= 0, alors X
j
et X
k
sont independantes.
Probabilites et Statistique pour SIC slide 206
79
Densites normales bivariees
PDF normale avec n = 2,
1
=
2
= 0,
11
=
22
= 1, et correlation
=
12
/(
11

22
)
1/2
= 0, 0.5, 0.9.
Probabilites et Statistique pour SIC slide 207
FGM de A
p
Lemme 193. (a) La FGM de X A
p
(, ) est
M
X
(t) = E(e
t
T
X
) = E(e

p
r=1
trXr
) = exp
_
t
T
+
1
2
t
T
t
_
, t R
p
.
(b) Si / 1, . . . , p, et X
A
denote le sous-ensemble correspondant de X, alors
X
A
X
A
c
A,A
c = 0.
(c) Si X
1
, . . . , X
n
iid
A(,
2
), alors X
n1
= (X
1
, . . . , X
n
)
T
A
n
(1
n
,
2
I
n
).
(d) Les combinaisons lineaires de variables normales sont normales :
a
r1
+B
rp
X A
r
(a +B, BB
T
),
o` u on suppose que [BB
T
[ > 0.
Exemple 194. Soient X
1
, . . . , X
n
iid
N(0,
2
), trouver la loi de Y = BX quand
B =
_
_
_
_
1 1 1 1
1 1 1 1
1 1 1 1
1 1 1 1
_
_
_
_
.
Probabilites et Statistique pour SIC slide 208
80
Distributions marginales et conditionnelles
Theor`eme 195. Soit X A
p
(
p1
,
pp
), ou [[ > 0, et soit /, B 1, . . . , p avec
[/[ = q < p, [B[ = r < p et / B = .
Soient
A
,
A
et
AB
respectivement le q 1 sous-vecteur de , q q et q r sous-matrices de
conformees avec /, //, and /B. Alors
(a) la loi marginale de X
A
est normale,
X
A
A
q
(
A
,
A
);
et
(b) la loi conditionelle de X
A
sachant X
B
= x
B
est normale,
X
A
[ X
B
= x
B
A
q
_

A
+
AB

1
B
(x
B

B
),
A

AB

1
B

BA
_
.
Probabilites et Statistique pour SIC slide 209
Exemple
Exemple 196. Soit (X
1
, X
2
) la paire (hauteur (cm), poids (kg)) pour une population de personnes
agee de vingt ans. Pour modeliser ceci, on prend
=
_
180
70
_
, =
_
225 90
90 100
_
.
(a) Trouver les lois marginales de X
1
et de X
2
, et la correlation corr(X
1
, X
2
).
(b) Est-ce que les lois marginales determinent la loi conjointe ?
(c) Trouver les lois conditionelles de X
2
sachant que X
1
= x
1
et de X
1
sachant que X
2
= x
2
.
Probabilites et Statistique pour SIC slide 210
Loi normale bivaree
La densite normale bivariee pour (X
1
, X
2
) =(hauteur, poids), ainsi que les droites
E(X
2
[ X
1
= x
1
) = 70 + 0.4(x
1
180) (bleu) et E(X
1
[ X
2
= x
2
) = 180 + 0.9(x
2
70) (vert).
150 160 170 180 190 200 210
5
0
6
0
7
0
8
0
9
0
x1
x
2
Probabilites et Statistique pour SIC slide 211
81
Francis Galton (18221911)
Probabilites et Statistique pour SIC slide 212
Donnees de Galton
Galton a obtenu les hauteurs (pouces) des parents et de leurs enfants, montre par la droite.
La pente de la droite < 1 : les parents grands ont les enfants plus petits, en moyenne, et les parents
petits ont les enfants plus grands, en moyenne.
Probabilites et Statistique pour SIC slide 213
82
5.4 Transformations slide 214
Rappel : Transformation de variables aleatoires
On veut souvent calculer des lois de variables aleatoires `a partir dautres variables aleatoires.
Soit Y = g(X), o` u g est une fonction connue. On veut calculer F
Y
et f
Y
`a partir de F
X
et f
X
.
Soient g : R R, B R, et g
1
(B) R lensemble pour lequel gg
1
(B) = B. Alors
Pr(Y B) = Prg(X) B = PrX g
1
(B),
car X g
1
(B) ssi g(X) = Y gg
1
(B) = B.
Pour trouver F
Y
(y), on prend B
y
= (, y], nous donnant
F
Y
(y) = Pr(Y y) = Prg(X) B
y
= PrX g
1
(B
y
).
Si la fonction g est monotone avec inverse g
1
, on a
f
Y
(y) =
dF
Y
(y)
dy
=
dF
X
g
1
(y)
dy
=

dg
1
(y)
dy

f
X
g
1
(y)
Probabilites et Statistique pour SIC slide 215
X bivariee
On veut calculer Pr(Y B), avec Y R
d
fonction de X R
2
et
Y =
_
_
_
Y
1
.
.
.
Y
d
_
_
_
=
_
_
_
g
1
(X
1
, X
2
)
.
.
.
g
d
(X
1
, X
2
)
_
_
_
= g(X).
Soient g : R
2
R
d
une fonction connue, B R
d
, et g
1
(B) R
2
lensemble pour lequel
gg
1
(B) = B. Alors
Pr(Y B) = Prg(X) B = PrX g
1
(B).
Exemple 197. Soient X
1
, X
2
iid
exp(), calculer la loi de X
1
+X
2
.
Probabilites et Statistique pour SIC slide 216
83
Transformations de densite conjointe continue
Theor`eme 198. Soient X = (X
1
, X
2
) R
2
un vecteur aleatoire continu, Y = (Y
1
, Y
2
) avec
Y
1
= g
1
(X
1
, X
2
) et Y
2
= g
2
(X
1
, X
2
), o` u :
(a) le syst`eme dequations y
1
= g
1
(x
1
, x
2
), y
2
= g
2
(x
1
, x
2
) peut etre resolu pour tout (y
1
, y
2
),
donnant les solutions x
1
= h
1
(y
1
, y
2
), x
2
= h
2
(y
1
, y
2
) ; et
(b) g
1
and g
2
sont continuement dierentiables et ont pour Jacobien
J(x
1
, x
2
) =

g
1
x
1
g
1
x
2
g
2
x
1
g
2
x
2

qui est positif si f


X
1
,X
2
(x
1
, x
2
) > 0.
Alors
f
Y
1
,Y
2
(y
1
, y
2
) = f
X
1
,X
2
(x
1
, x
2
) [J(x
1
, x
2
)[
1

x
1
=h
1
(y
1
,y
2
),x
2
=h
2
(y
1
,y
2
)
.
Exemple 199. Calculer la densite conjointe de X
1
+X
2
et X
1
X
2
lorsque X
1
, X
2
iid
N(0, 1).
Exemple 200. Calculer la densite conjointe de X
1
+X
2
et X
1
/(X
1
+X
2
) lorsque X
1
, X
2
iid
exp().
Probabilites et Statistique pour SIC slide 217
Sommes de variables independantes
Theor`eme 201. Soient X, Y des variables aleatoires independantes, alors la pdf de leur somme
S = X +Y est la convolution f
X
f
Y
des pdfs f
X
, f
Y
:
f
S
(s) = f
X
f
Y
(s) =
_
_

f
X
(x)f
Y
(s x) dx, X, Y continues,

x
f
X
(x)f
Y
(s x), X, Y discr`etes.
Probabilites et Statistique pour SIC slide 218
84
Estimation de risque
Lestimation du risque est essentiel dans beaucoup dapplications, telles que les marches nanciers, les
centrales nucleaires, . . .. Souvent on a besoin de calculer leect devenements rares pour plusieures
variables ensemble, avec peu dinformation sur leur loi conjointe. Pour etre concret, soient X
1
, X
2
des chocs negatifs dans un marche nancier, et considerons S = X
1
+X
2
, dont on doit estimer les
quantiles s
1
, tels que
Pr(S s
1
) = 1 , Pr(S > s
1
) = ,
pour petit. On va considerer deux cas :
X
1
, X
2
A(,
2
), avec correlation ;
X
1
, X
2
ind
Pareto(
1
2
).
Il se trouve que
s
1,Normale
2z
1,Normale
, 2z
1,Pareto
< s
1,Pareto
:
dans le cas normale (souvent utilise en pratique) le double du risque marginale est une borne
superieure pour le risque conjoint, mais dans le cas Pareto cest une borne inferieure. Donc si lon base
des calculs de risque sur la loi normale mais la realite est Pareto, les pertes peuvent etre beaucoup
plus grandes que prevue.
Probabilites et Statistique pour SIC slide 219
Cas multivariee
Theor`eme 198 setend aux vecteurs aleatoires de densite continue Y = g(X) R
n
, o` u X R
n
est
une variable continue :
(X
1
, . . . , X
n
) (Y
1
= g
1
(X
1
, . . . , X
n
), . . . , Y
n
= g
n
(X
1
, . . . , X
n
)).
si la transformation inverse h existe, et a pour Jacobien
J(x
1
, . . . , x
n
) =

g
1
x
1

g
1
xn
.
.
.
.
.
.
.
.
.
gn
x
1

gn
xn

,
on trouve que
f
Y
1
,...,Yn
(y
1
, . . . , y
n
) = f
X
1
,...,Xn
(x
1
, . . . , x
n
) [J(x
1
, . . . , x
n
)[
1
,
evaluee `a x
1
= h
1
(y
1
, . . . , y
n
), . . . , x
n
= h
n
(y
1
, . . . , y
n
).
Theor`eme 202. Soient X
1
, . . . , X
n
des vecteurs aleatoires independantes, alors la pdf de
S = X
1
+ +X
n
est la convolution
f
S
(s) = f
X
1
f
Xn
(s).
Probabilites et Statistique pour SIC slide 220
85
5.6 Statistiques dOrdre slide 221
Denition
Denition 203. Les statistiques dordre des vas X
1
, . . . , X
n
sont les valeurs ordonnees
X
(1)
X
(2)
X
(n1)
X
(n)
.
Si les X
1
, . . . , X
n
sont continues, alors legalite de deux delles est impossible et
X
(1)
< X
(2)
< < X
(n1)
< X
(n)
.
En particulier, le minimum est X
(1)
, le maximum est X
(n)
, et la mediane est X
(m+1)
si n = 2m+1
est impair, et
1
2
(X
(m)
+X
(m+1)
) si n = 2m est pair. La mediane fait ressortir une position centrale de
lensemble des X
j
.
Probabilites et Statistique pour SIC slide 222
Theor`eme 204. Soient X
1
, . . . , X
n
iid
F, issu dune distribution continue de densite f, alors :
Pr(X
(n)
x) = F(x)
n
;
Pr(X
(1)
x) = 1 1 F(x)
n
;
f
X
(r)
(x) =
n!
(r 1)!(n r)!
F(x)
r1
f(x)1 F(x)
nr
, r = 1, . . . , n.
Exemple 205. Si X
1
, X
2
, X
3
iid
exp(), donner les densites des X
(r)
.
Exemple 206. Abelard et Heloise se donnent rendez-vous pour travailler. Chacun est retarde
independamment, et ils arrivent `a un temps distribue uniformement jusqu`a une heure apr`es le temps
agree. Trouver la loi et lesperance du temps auquel le premier arrive, et donner la densite de son
temps dattente. Trouver lesperance du temps auquel ils peuvent commencer `a travailler.
Probabilites et Statistique pour SIC slide 223
86
6. Approximation et Convergence slide 224
Motivation
Il est souvent dicile de calculer la probabilite p exacte dun evenement dinteret, et on doit
lapproximer. Approches possibles :
chercher `a borner p ;
approximation analytique, souvent par appel aux lois des grands nombres et au theor`eme central
limite ;
approximation numerique, souvent par des methodes de Monte Carlo.
Les derni`eres approches utilisent la notion de la convergence des suites de vas, que nous allons
etudier dans ce chapitre.
Nous avons dej`a vu plusieurs exemples de ces idees : approximation normale de la loi binomiale, loi de
petits nombres, . . .
Probabilites et Statistique pour SIC slide 225
6.1 Inegalites slide 226
Inegalites
Theor`eme 207. Soient X une variable aleatoire, a > 0 constante, h une fonction non-negative et g
une fonction convexe, alors
Prh(X) a Eh(X)/a, (inegalite de base)
Pr([X[ a) E([X[)/a, (inegalite de Markov)
Pr([X[ a) E(X
2
)/a
2
, (inegalite de Chebyshov)
Eg(X) gE(X). (inegalite de Jensen)
Exemple 208. On test une methode de classication, dont la probabilite dune classication correcte
est p, sur n cas independants. Soient Y
1
, . . . , Y
n
les indicatrices des classications correctes, et Y leur
moyenne. Pour = 0.2 et n = 100, borner
Pr([Y p[ > ).
Probabilites et Statistique pour SIC slide 227
87
Inegalite de Hoeding
Theor`eme 209. (Inegalite de Hoeding) Soient Z
1
, . . . , Z
n
des variables aleatoires independantes tel
que E(Z
i
) = 0 et a
i
Z
i
b
i
pour des constantes a
i
< b
i
. Soit > 0, alors pour tout t > 0,
Pr
_
n

i=1
Z
i

_
e
t
n

i=1
e
t
2
(b
i
a
i
)
2
/8
.
Exemple 210. Montrer que si X
1
, . . . , X
n
iid
Bernoulli(p) et > 0, alors
Pr([X p[ > ) 2e
2n
2
.
Pour = 0.2 et n = 100, borner
Pr([X p[ > ).
Probabilites et Statistique pour SIC slide 228
6.2 Convergence slide 229
La convergence
Denition 211 (Convergence deterministe). Soient x
1
, x
2
, . . . , x des reels, alors x
n
x ssi pour tout
> 0, il existe N

tel que [x
n
x[ < pour tout n > N

.
La convergence probabiliste est plus compliquee . . . On pourrait esperer que (par ex.) X
n
X si soit
Pr(X
n
x) Pr(X x), x R,
soit
E(X
n
) E(X)
quand n .
Exemple 212. Pour n = 1, 2, . . . soit X
n
la variable aleatoire telle que
Pr(X
n
= 0) = 1 1/n, Pr(X
n
= n
2
) = 1/n.
Alors quand n ,
Pr([X
n
[ > 0) = Pr(X
n
= n
2
) = 1/n 0,
E(X
n
) = 0 (1 1/n) +n
2
1/n = n .
Est-ce que X
n
0 ou X
n
?
Probabilites et Statistique pour SIC slide 230
88
Modes de convergence des variables aleatoires
Denition 213. Soient X, X
1
, X
2
, . . . des variables aleatoires ayant pour fonction de repartition
F, F
1
, F
2
, . . .. Alors
(a) X
n
converge presque s urement vers X, X
n
p.s.
X, si
Pr
_
lim
n
X
n
= X
_
= 1;
(b) X
n
converge vers X en moyenne quadratique, X
n
2
X, si
lim
n
E(X
n
X)
2
= 0, o` u E(X
2
n
), E(X
2
) < ;
(c) X
n
converge vers X en probabilite, X
n
P
X, si pour tout > 0,
lim
n
Pr([X
n
X[ > ) = 0;
(d) X
n
converge vers X en distribution (ou en loi), X
n
D
X, si
lim
n
F
n
(x) = F(x) en tout point x o` u F(x) est continue.
Probabilites et Statistique pour SIC slide 231
X
n
p.s.
X
Ceci `a lair complique, pas sans raison. Pour mieux comprendre :
il faut que toutes les variables X
n
, X soient denies par rapport `a un meme espace de probabilite,
(, T, Pr). Dans un cas general il nest pas triviale de construire cet espace, mais supposons que
ceci est fait (on a besoin du theor`eme de representation de Skorokhod).
Alors `a chaque correspond une suite de reels
X
1
(), X
2
(), . . . , X
n
(), . . .
qui va converger, ou pas.
Si X
n
p.s.
X, alors il existe une variable aleatoire X() telle que
Pr
__
: lim
n
X
n
() = X()
__
= 1.
Exemple 214. Soit U U(0, 1), o` u = [0, 1], U() = , X
n
() = U()
n
, n = 1, 2, . . ., et
X() = 0. Montrer que X
n
p.s.
X.
Probabilites et Statistique pour SIC slide 232
89
Relations entre modes de convergence
Noter que si X
n
p.s.
X, X
n
2
X, X
n
P
X, alors il faut que X
1
, X
2
, . . . , X soient tous
denits par rapport `a un memes espace de probabilte, mais que ceci nest pas le cas pour
X
n
D
X, qui ne concerne que les probabilites. Ce dernier est donc plus faible que les autres.
En fait, ces proprietes sont reliees entre elles comme suit :
X
n
p.s.
X
X
n
P
X X
n
D
X
X
n
2
X
Toutes autres implications sont fausses en general.
Les modes de convergence les plus importants dans ce cours sont
P
et
D
, car on souhaite
souvent approximer des probabilites, et
D
nous donne un moyen pour ce faire.
Exemple 215. Soient X
1
, . . . , X
n
iid
(,
2
) avec 0 <
2
< . Montrer que
X = (X
1
+ +X
n
)/n
2
.
Exemple 216. Soient X
n
= (1)
n
Z, o` u Z A(0, 1). Montrer que X
n
D
Z, mais que cest le seul
mode de convergence qui sapplique ici.
Probabilites et Statistique pour SIC slide 233
Theor`eme de continuite (rappel)
Theor`eme 217 (Continuite). Soient X
n
, X des variables aleatoires avec fonctions de repartitions
F
n
, F, dont les FGMs M
n
(t), M(t) existent pour 0 [t[ < b. Sil existe un 0 < a < b tel que
M
n
(t) M(t) pour [t[ a quand n , alors X
n
D
X, cest `a dire, F
n
(x) F(x) en chaque
x R o` u F est continue.
Nous pouvons remplacer ici de fa con equivalente M
n
(t) et M(t) par la fonction generatrice des
cumulants K
n
(t) = log M
n
(t) et K(t) = log M(t).
On etablit la loi de petits nombres (Theor`eme 108, approximation poissonienne de la loi binomiale)
en utilisant ce resultat.
Voici un autre exemple :
Exemple 218. Soit X une variable aleatoire qui poss`ede une distribution geom`etrique avec une
probabilite de succ`es p. Calculer la distribution limite de pX lorsque p 0.
Probabilites et Statistique pour SIC slide 234
90
Combinaison de suites convergentes
Theor`eme 219 (Combinaison de suites convergentes). Soient x
0
, y
0
des constantes,
X, Y, X
n
, Y
n
des variables aleatoires, et h une fonction continue en x
0
. Alors
X
n
D
x
0
X
n
P
x
0
,
X
n
P
x
0
h(X
n
)
P
h(x
0
),
X
n
D
X et Y
n
P
y
0
X
n
+Y
n
D
X +y
0
, X
n
Y
n
D
Xy
0
.
La 3
eme
ligne est connue sous le nom de lemme de Slutsky. Il est tr`es utile lors dapplications
statistiques.
Exemple 220. Soient X
1
, . . . , X
n
iid
(
X
,
2
X
), Y
1
, . . . , Y
n
iid
(
Y
,
2
Y
),
X
,= 0,
2
X
,
2
Y
< , et
denissons
R
n
= Y /X, Y = n
1
n

j=1
Y
j
, X = n
1
n

j=1
X
j
.
Montrer que R
n
P

Y
/
X
lorsque n .
Probabilites et Statistique pour SIC slide 235
6.3 Lois des grands nombres slide 236
Lois des grands nombres
Notre premi`ere partie de resultats limites est en rapport avec le comportement des moyennes de
variable aleatoires independantes.
Theor`eme 221. (Loi faible des grands nombres) Soient X
1
, X
2
, . . . une suite de variables aleatoires
independantes et identiquement distribuees, desperance nie . Notons leur moyenne par
X = n
1
(X
1
+ +X
n
).
Alors X
P
; cest `a dire, pour tout > 0,
Pr([X [ > ) 0, n .
Ainsi, sous de leg`eres conditions, les moyennes dechantillons de taille importante convergent vers
lesperance de la distribution dont lechantillon est issu.
Dans le cas o` u les X
i
sont des essais de Bernoulli independants, nous arrivons enn `a notre notion
primitive de probabilite comme limite de frequences relatives. Le cercle est clos.
Probabilites et Statistique pour SIC slide 237
91
Loi faible de grands nombres
Les graphes ci-dessous montre le comportement de X quand X
i
a deux moments nies (`a gauche),
seul E([X
i
[) < (centre), E(X
i
) nexiste pas (et donc var(X) nexiste pas non plus) (`a droite).
Quand E(X
i
) nexiste pas, la possibilite de valeurs enormes de X
i
implique que X ne peut pas
converger.
0 1000 3000 5000

1
.
0

0
.
5
0
.
0
0
.
5
1
.
0
Finite mean and variance
n
x
b
a
r
0 1000 3000 5000

1
.
0

0
.
5
0
.
0
0
.
5
1
.
0
Finite mean, infinite variance
n
x
b
a
r
0 1000 3000 5000

4
0
0
2
0
4
0
Infinite mean and variance
n
x
b
a
r
Probabilites et Statistique pour SIC slide 238
Remarques
La loi faible est facile `a prouver sous lhypoth`ese supplementaire suivante : var(X
j
) =
2
< . On
calcule E(X) et var(X), puis on applique linegalite de Chebyshov. Pour tout > 0,
Pr([X [ > ) var(X)/
2
=

2
n
2
0, n .
Le meme resultat sapplique `a de nombreuses statistiques qui peuvent etre representees comme des
moyennes, comme par exemple les fonctions de moyennes et les quantiles empiriques.
Soient X
1
, . . . , X
n
iid
F, o` u F est une fonction de repartition continue, et soit x
p
= F
1
(p) le p
quantile de F. En notant que
X
(np)
x
p

n

j=1
I(X
j
x
p
) np
et en appliquant la loi faible `a la somme de droite, on a X
(np)
P
x
p
.
Probabilites et Statistique pour SIC slide 239
92
Loi forte des grands nombres
En fait, un resultat plus fort est vrai :
Theor`eme 222. (Loi forte des grands nombres) Sous les conditions du theor`eme precedent,
X
p.s.
:
Pr
_
lim
n
X =
_
= 1.
Ceci est plus fort dans le sens que pour tout > 0, la loi faible permet `a l ev`enement [X [ >
de se produire un nombre inni de fois, avec cependant des probabilites de moins en moins petites.
La loi forte exclue cette possibilite : la loi forte implique que lev`enement [X [ > peut se
produire seulement un nombre ni de fois.
Les lois faibles et fortes restent valables sous certains types de dependance parmi les X
j
.
Probabilites et Statistique pour SIC slide 240
6.4 Theor`eme central limite slide 241
Standardisation dune moyenne
La loi des grands nombres nous indique que la moyenne X approche lorsque n . Ainsi
E(X) = , var(X) =
2
/n,
donc pour tout n, la dierence entre X et son esperance relative `a son ecart-type,
Z
n
=
X E(X)
var(X)
1/2
=
X
_

2
/n
=
n
1/2
(X )

a une esperance de zero et une variance unitaire. Quelle est son comportement limite ?
Probabilites et Statistique pour SIC slide 242
Theor`eme central limite
Theor`eme 223. Soient X
1
, X
2
, . . . des variables aleatoires independantes desperance et de
variance 0 <
2
< . Alors lorsque n ,
Z
n
=
n
1/2
(X )

D
Z,
o` u Z N(0, 1).
Donc
Pr
_
n
1/2
(X )

z
_
.
= Pr(Z z) = (z)
pour n grand.
La page suivante montre cet eet pour X
1
, . . . , X
n
iid
exp(1) ; les histogrammes montrent comment
les densites empiriques de Z
n
sapprochent `a la densite de Z.
Probabilites et Statistique pour SIC slide 243
93
n=5
z
D
e
n
s
i
t
y
4 2 0 2 4
0
.
0
0
.
2
0
.
4
n=10
z
D
e
n
s
i
t
y
4 2 0 2 4
0
.
0
0
.
2
0
.
4
n=20
z
D
e
n
s
i
t
y
4 2 0 2 4
0
.
0
0
.
2
0
.
4
n=100
z
D
e
n
s
i
t
y
4 2 0 2 4
0
.
0
0
.
2
0
.
4
Probabilites et Statistique pour SIC slide 244
Utilisation du TCL
Le TCL est utilise pour approximer des probabilites impliquant des sommes de VAs independantes.
Sous les conditions precedentes, on a
E
_
_
n

j=1
X
j
_
_
= n, var
_
_
n

j=1
X
j
_
_
= n
2
,
donc

n
j=1
X
j
n

n
2
=
n(X )

n
2
=
n
1/2
(X )

= Z
n
peut etre approxime par une variable normale :
Pr
_
_
n

j=1
X
j
x
_
_
= Pr
_

n
j=1
X
j
n

n
2

x n
(n
2
)
1/2
_
.
=
_
x n
(n
2
)
1/2
_
.
Probabilites et Statistique pour SIC slide 245
Exemple
Exemple 224. Un livre de 640 pages a un nombre derreurs aleatoires `a chaque page. Si le nombre
derreurs par page suit une loi de Poisson desperance = 0.1, quelle est la probabilite que le livre
contienne moins de 50 erreurs ?
Quand

n
j=1
X
j
prend des valeurs enti`eres, on peut obtenir une meilleure approximation en utilisant
une correction de la continuite :
Pr
_
_
n

j=1
X
j
x
_
_
.
=
_
x +
1
2
n
(n
2
)
1/2
_
;
ceci peut etre important quand la loi de

n
j=1
X
j
est assez discr`ete.
Probabilites et Statistique pour SIC slide 246
94
6.5 Methode delta slide 247
La methode delta
On a souvent besoin de la loi approximative dune fonction lisse dune moyenne.
Theor`eme 225. Soient X
1
, X
2
, . . . des variables aleatoires independantes desperance et de
variance 0 <
2
< , et soit g

() ,= 0, o` u g

est la derivee de g. Alors


g(X) g()
g

()
2

2
/n
1/2
D
N(0, 1), n .
Ceci implique que pour n grand, on a g(X)

N
_
g(), g

()
2

2
/n
_
. Combine avec le lemme de
Slutsky, on a
g(X)

N
_
g(), g

(X)
2
S
2
/n
_
.
Exemple 226. Si X
1
, . . . , X
n
iid
exp(), trouver la loi approximative de log X.
Probabilites et Statistique pour SIC slide 248
Quantiles de lechantillon
Denition 227. Soient X
1
, . . . , X
n
iid
F, et 0 < p < 1. Alors le p quantile de lechantillon de
X
1
, . . . , X
n
est la r
`eme
statistique dordre X
(r)
, o` u r = np.
Theor`eme 228. (Loi asymptotique des statistiques dordre) Soient 0 < p < 1, X
1
, . . . , X
n
iid
F, et
x
p
= F
1
(p). Alors si f(x
p
) > 0,
X
(np)
x
p
[p(1 p)/nf(x
p
)
2
]
1/2
D
N(0, 1), n .
Ceci implique que
X
(np)

N
_
x
p
,
p(1 p)
nf(x
p
)
2
_
.
Pour prouver ce dernier theor`eme, noter que X
(r)
x ssi S =

I(X
j
x) r, et appliquer le
TCL `a S.
Le meme argument setend aux fonctions plus compliquees de statistiques dordre, par exemple
linterquartile range (IQR)
IQR = X
(3n/4)
X
(n/4)
,
qui converge vers F
1
(3/4) F
1
(1/4).
Probabilites et Statistique pour SIC slide 249
95
Loi de la mediane
Ce graphique compare les densites exactes (noir) et approchees (rouge) de la mediane X
(n/2)
pour
X
1
, . . . , X
n
iid
exp(1) :
0.0 0.5 1.0 1.5 2.0
0
.
0
1
.
5
3
.
0
n=11
x
D
e
n
s
i
t
y
0.0 0.5 1.0 1.5 2.0
0
.
0
1
.
5
3
.
0
n=21
x
D
e
n
s
i
t
y
0.0 0.5 1.0 1.5 2.0
0
.
0
1
.
5
3
.
0
n=41
x
D
e
n
s
i
t
y
0.0 0.5 1.0 1.5 2.0
0
.
0
1
.
5
3
.
0
n=81
x
D
e
n
s
i
t
y
Probabilites et Statistique pour SIC slide 250
Variation de lIQR
Ce graphique montre la variation des quartiles empiriques, X
(n/4)
et X
(3n/4)
et le comportement
de lIQR pour des echantillons normaux de taille n; ici
IQR
P

1
(3/4)
1
(1/4) = z
0.75
z
0.25
= 1.349.
0 5 10 15 20

1
0
1
2
3
n=20
O
r
d
e
r
e
d

s
a
m
p
le
0 5 10 15 20

1
0
1
2
3
n=100
O
r
d
e
r
e
d

s
a
m
p
le
0 5 10 15 20

1
0
1
2
3
n=500
O
r
d
e
r
e
d

s
a
m
p
le
20 50 100 500 1000 5000
1
.
0
1
.
5
2
.
0
Sample size
I
Q
R
Probabilites et Statistique pour SIC slide 251
Exemple
Exemple 229. Montrer que la mediane dun echantillon normal de taille n est approximativement
distribue selon N,
2
/(2n).
Probabilites et Statistique pour SIC slide 252
96
7 La Statistique slide 253
7.1 Introduction slide 254
Introduction
Les mathematiques se basent sur la deduction :
axiomes consequences.
Dans le cas de la probabilite, on a
(, T, Pr) Pr(A), Pr(A B), Pr(X x) . . .
La statistique concerne linductionayant observe un evenement A, on veut dire qqc `a propos dun
espace de probabilite (, T, Pr) suppose etre soujacent :
A
?
(, T, P).
Statistique signie ne jamais devoir dire quon est certainparfois on utilise le terme
probabilite inverse pour ce processus.
Probabilites et Statistique pour SIC slide 255
Mod`ele statistique
On fait lhypoth`ese que les donnees observees, ou qui seront observees, peuvent etre considerees
comme les realisations dun processus aleatoire, et que lon va essayer de dire quelque chose de ce
processus `a partir des donnees.
Evidemment, puisque les donnees sont nies, et le processus est inconnu, il y aura de lincertitude
dans nos constats, et il faut aussi essayer de quantier cette incertitude le mieux possible.
Il y a plusieurs types de probl`emes :
specication dun mod`ele (ou mod`eles) pour les donnees ;
estimation des inconnus du mod`ele (param`etres, . . .) ;
tests dhypoth`eses concernant un mod`ele ;
planication danalyse, de collecte des donnees etc., pour repondre `a une question le plus
ecacemment possible (minimiser les co uts) ;
decision face `a lincertitude ;
prevision des futurs inconnus ;
derri`ere les autres probl`emes, la pertinence des donnees `a la question posee.
Probabilites et Statistique pour SIC slide 256
97
Quelques denitions
Notation : on utilisera y et Y pour representer les donnees y
1
, . . . , y
n
et Y
1
, . . . , Y
n
.
Denition 230. Un mod`ele statistique est une loi de probabilite f(y) choisie ou construite pour
apprendre `a partir des donnees observees y ou potentielles Y . Si f(y) = f(y; ) est determinee par un
param`etre de dimension nie, il sagit dun mod`ele parametrique, et sinon il est un mod`ele
nonparametrique. Un mod`ele parfaitement connu est appelle simple, sinon il est composite.
Denition 231. Une statistique S = s(Y ) est une fonction connue des donnees Y .
Denition 232. La loi dechantillonnage dune statistique S = s(Y ) est sa loi quand Y f(y).
Probabilites et Statistique pour SIC slide 257
Exemples
Exemple 233. Soient y
1
, . . . , y
n
supposees independantes, issues dun loi Bernoulli de param`etre
inconnu p (0, 1). Alors la statistique
s =
n

j=1
y
j
est consideree comme realisation de la variable aleatoire
S =
n

j=1
Y
j
,
dont la loi dechantillonnage est B(n, p), avec p inconnu.
Exemple 234. Soient y
1
, . . . , y
n
supposees independantes, issues dun loi A(,
2
), avec ,
2
inconnus. Alors y = n
1
(y
1
+ +y
n
) et s
2
= (n 1)
1

n
j=1
(y
j
y)
2
sont des statistiques,
realisations de
Y = n
1
(Y
1
+ +Y
n
), S
2
=
1
n 1
n

j=1
(Y
j
Y )
2
.
Donner la loi dechantillonnage de Y .
Probabilites et Statistique pour SIC slide 258
98
7.2 Tests Statistiques slide 259
Les tests statistiques
Exemple 235. En faisant tourner une pi`ece `a 5Fr 200 fois, jobserve 115 faces en la tournant, et 105
en la jetant. Donner un mod`ele statistique pour ce probl`eme. Est-elle equilibree ?
0 50 100 150 200
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
5Fr, 1978, spins
Number of spins
P
r
o
p
o
r
t
i
o
n

o
f

h
e
a
d
s
0 50 100 150 200
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
5Fr, 1978, tosses
Number of tosses
P
r
o
p
o
r
t
i
o
n

o
f

h
e
a
d
s
Probabilites et Statistique pour SIC slide 260
Une vraie histoire . . .
Seul certains details ont ete changes an de proteger les innocents . . .
Dans un pays lointain, les producteurs dune commodite C destinee `a lexportation la livrent par
camion `a un entrepot, o` u elle est pesee et stockee avant detre traitee. Selon la saison, un camion
peut contenir jusqu`a 300 sacs de C, qui sont ensuite peses, en general 3 sacs `a la fois, pour un
pesage moyen de 240kg et une variation standard de 20kg. Les pesages de chaque livraison
sont notes sur un bon de livraison, et les producteurs sont payes selon le poids de C livre.
Or, les livraisons de certains producteurs sont falsiees, pour quils re coivent plus dargent, dont une
partie est donnee au contr oleur de lentrepot. On peut fausser un bon de livraison soit en
augmentant les poids des pesages individuels reels, soit en ajoutant des pesages faux, soit un bon de
livraison peut etre enti`erement ctif.
Apr`es quelques annees la fraude est detectee, et lassureur aimerait savoir combien de bons de
livraison sont faux, an de determiner quelles sont ses pertes.
On veut donc regarder chaque bon de livraison, et decider sil soit bon ou mauvais, sur la base des
chires inscrits sur le bon.
Un des comptables remarque que sur certains bons, beaucoup des pesages se terminent par 0 ou
1, et il lui semble que ces bons pourraient etre faux.
On propose donc une procedure pour classier les bons . . .
Probabilites et Statistique pour SIC slide 261
99
Les donnees
Il y a quelques milliers de bons de livraison, mais on nen utilisera que 250 comme exemple
Voici les n = 92 pesages pour un des bons :
261 289 291 265 281 291 285 283 280 261 263 281 291 289 280
292 291 282 280 281 291 282 280 286 291 283 282 291 293 291
300 302 285 281 289 281 282 261 282 291 291 282 280 261 283
291 281 246 249 252 253 241 281 282 280 261 265 281 283 280
242 260 281 261 281 282 280 241 249 251 281 273 281 261 281
282 260 281 282 241 245 253 260 261 281 280 261 265 281 241
260 241
Les graphes suivants montrent les histogrammes et QQ-plots (normaux) pour les 12 premiers bons
de livraisons.
Les tailles des echantillons varient beaucoup, il y a des valeurs aberrantes par rapport `a la loi
normale.
Les derniers chires peuvent etre assez concentres sur certains chires. Par exemple, pour les
donnees ci-dessus on a
0 1 2 3 4 5 6 7 8 9
14 42 14 9 0 6 2 0 0 5
Probabilites et Statistique pour SIC slide 262
Histogrammes
Histogram of d
d
D
e
n
s
it
y
0 100 250
0
.
0
0
0
0
.
0
0
4
0
.
0
0
8
Histogram of d
d
D
e
n
s
it
y
0 100 250
0
.
0
0
0
0
.
0
0
6
Histogram of d
d
D
e
n
s
it
y
50 150 250
0
.
0
0
0
0
.
0
0
8
Histogram of d
d
D
e
n
s
it
y
100 200 300
0
.
0
0
0
0
.
0
0
8
Histogram of d
d
D
e
n
s
it
y
180 240 300
0
.
0
0
0
0
.
0
1
0
0
.
0
2
0
Histogram of d
d
D
e
n
s
it
y
200 220 240
0
.
0
0
0
.
0
2
0
.
0
4
Histogram of d
d
D
e
n
s
it
y
200 300
0
.
0
0
0
0
.
0
1
0
Histogram of d
d
D
e
n
s
it
y
150 250
0
.
0
0
0
0
.
0
1
0
Histogram of d
d
D
e
n
s
it
y
180 240 300
0
.
0
0
0
0
.
0
1
0
0
.
0
2
0
Histogram of d
d
D
e
n
s
it
y
160 200 240
0
.
0
0
0
.
0
2
Histogram of d
d
D
e
n
s
it
y
240 270 300
0
.
0
0
0
.
0
2
0
.
0
4
Histogram of d
d
D
e
n
s
it
y
260 280 300
0
.
0
0
0
.
0
4
0
.
0
8
Probabilites et Statistique pour SIC slide 263
100
QQplots
2 0 1 2
5
0
1
5
0
2
5
0
Normal QQ Plot
Theoretical Quantiles
O
r
d
e
r
e
d

w
e
ig
h
in
g
s
2 0 1 2
5
0
1
5
0
2
5
0
Normal QQ Plot
Theoretical Quantiles
O
r
d
e
r
e
d

w
e
ig
h
in
g
s
2 0 1 2
5
0
1
5
0
2
5
0
Normal QQ Plot
Theoretical Quantiles
O
r
d
e
r
e
d

w
e
ig
h
in
g
s
2 0 1 2
1
0
0
2
0
0
Normal QQ Plot
Theoretical Quantiles
O
r
d
e
r
e
d

w
e
ig
h
in
g
s
2 0 1 2
2
0
0
2
4
0
2
8
0
Normal QQ Plot
Theoretical Quantiles
O
r
d
e
r
e
d

w
e
ig
h
in
g
s
1.0 0.0 1.0
2
0
5
2
1
5
2
2
5
Normal QQ Plot
Theoretical Quantiles
O
r
d
e
r
e
d

w
e
ig
h
in
g
s
2 0 1 2
1
6
0
2
2
0
2
8
0
Normal QQ Plot
Theoretical Quantiles
O
r
d
e
r
e
d

w
e
ig
h
in
g
s
2 0 1 2
1
5
0
2
5
0
Normal QQ Plot
Theoretical Quantiles
O
r
d
e
r
e
d

w
e
ig
h
in
g
s
2 0 1 2
1
8
0
2
2
0
2
6
0
Normal QQ Plot
Theoretical Quantiles
O
r
d
e
r
e
d

w
e
ig
h
in
g
s
2 0 1 2
1
6
0
2
0
0
2
4
0
Normal QQ Plot
Theoretical Quantiles
O
r
d
e
r
e
d

w
e
ig
h
in
g
s
2 0 1 2
2
4
0
2
7
0
3
0
0
Normal QQ Plot
Theoretical Quantiles
O
r
d
e
r
e
d

w
e
ig
h
in
g
s
2 0 1 2
2
6
0
2
8
0
3
0
0
Normal QQ Plot
Theoretical Quantiles
O
r
d
e
r
e
d

w
e
ig
h
in
g
s
Probabilites et Statistique pour SIC slide 264
Derniers chires
0 2 4 6 8
0
2
0
4
0
n=44, P=11.9
Final digit
%
0 2 4 6 8
0
2
0
4
0
n=46, P=9.2
Final digit
%
0 2 4 6 8
0
2
0
4
0
n=71, P=4.1
Final digit
%
0 2 4 6 8
0
2
0
4
0
n=90, P=22.4
Final digit
%
0 2 4 6 8
0
2
0
4
0
n=17, P=10.6
Final digit
%
0 2 4 6 8
0
2
0
4
0
n=7, P=8.7
Final digit
%
0 2 4 6 8
0
2
0
4
0
n=42, P=11.8
Final digit
%
0 2 4 6 8
0
2
0
4
0
n=77, P=9.4
Final digit
%
0 2 4 6 8
0
2
0
4
0
n=36, P=20.7
Final digit
%
0 2 4 6 8
0
2
0
4
0
n=88, P=9.7
Final digit
%
0 2 4 6 8
0
2
0
4
0
n=92, P=158.2
Final digit
%
0 2 4 6 8
0
2
0
4
0
n=76, P=47.9
Final digit
%
Probabilites et Statistique pour SIC slide 265
101
La loi de Benford
Denition 236. Pour x R, soit d(x, j) la (base 10) j`eme signicant digit function, ainsi
d(0.00314, 1) = 3, d(0.00314, 2) = 1 et d(0.00314, 3) = 4.
Denition 237. Soit x R, et soient D
j
= d(x, j), pour j = 1, 2, . . ., alors D
1
, D
2
, . . . suivent la loi
de Benford si
Pr(D
1
= d
1
, D
2
= d
2
, . . . , D
k
= d
k
) = log
10
_
_
_
1 +
_
_
k

j=1
d
j
10
kj
_
_
1
_
_
_
.
Ainsi, par exemple, Pr(D
1
= 3, D
2
= 1, D
3
= 4) = log1 + (314)
1
0.0014.
Frequences (%) des derniers chires D
3
pour les entiers `a trois chires. Les deviations standards
pour les lois normale, exponentielle et gamma sont de 0.01%.
Dernier chire 0 1 2 3 4 5 6 7 8 9
Uniforme 10 10 10 10 10 10 10 10 10 10
Benford 10.178 10.137 10.097 10.057 10.017 9.978 9.940 9.901 9.864 9.826
Normale 10.002 10.004 10.007 9.997 9.982 9.991 10.010 9.992 9.997 10.012
Gamma 10.005 9.987 9.994 10.008 10.012 9.982 9.986 10.025 9.996 10.004
Exponentielle 9.992 10.163 10.140 10.082 10.047 9.993 9.959 9.913 9.867 9.844
Il semble que les derniers chires des pesages devraient etre tr`es proches de luniformite.
Comment alors verier ceci pour nos donnees ?
Probabilites et Statistique pour SIC slide 266
Karl Pearson (18571936)
Probabilites et Statistique pour SIC slide 267
102
Statistique de Pearson
Denition 238. Soient Z
1
, . . . , Z

iid
A(0, 1), alors W = Z
2
1
+ +Z
2

suit la loi de khi-deux avec


degres de liberte, dont la fonction de densite est
f
W
(w) =
1
2
/2
(/2)
w
/21
e
w/2
, w > 0, = 1, 2, . . . ,
o` u (a) =
_

0
u
a1
e
u
du, a > 0, est la fonction de gamma.
Denition 239. Soit O
1
, . . . , O
k
les nombres dobservations dun echantillon de taille
n = n
1
+ +n
k
tombant dans les categories 1, . . . , k, dont les nombres esperes sont E
1
, . . . , E
k
, o` u
E
i
> 0. Alors la statistique de Pearson (ou statistique khi-deux) est
P =
k

i=1
(O
i
E
i
)
2
E
i
.
Si la loi conjointe de O
1
, . . . , O
k
est multinomiale avec denominateur n et probabilites
p
1
= E
1
/n, . . . , p
k
= E
k
/n, alors on a P


2
k1
, lapproximation etant bonne si la moyenne des
E
i
, cest `a dire, k
1

E
i
5.
On peut donc utiliser P pour verier ladequation entre les donnees O
1
, . . . , O
k
et les probabilites
theoriques p
1
, . . . , p
k
.
Probabilites et Statistique pour SIC slide 268
Statistique de Pearson : Rationale
Si O
i
E
i
pour tout i, alors P sera petite, sinon elle aura tendance `a etre plus grande.
Si la loi conjointe de O
1
, . . . , O
k
est multinomiale avec denominateur n et probabilites p
i
= E
i
/n,
alors chaque O
i
B(n, p
i
), et donc
E(O
i
) = np
i
= E
i
, var(O
i
) = np
i
(1 p
i
) = E
i
(1 E
i
/n) E
i
,
ainsi Z
i
= (O
i
E
i
)/

E
i

A(0, 1), pour grand n, et on imaginerait que


P =
k

i=1
(O
i
E
i
)
2
E
i
=
k

i=1
Z
2
i


2
k
Mais : le fait que

i
O
i
= n impose une contrainte lineaire sur les Z
i
, dont seuls k 1 varient
independamment, ce qui reduit `a k 1 les degres de liberte.
Probabilites et Statistique pour SIC slide 269
103
Mod`eles statistiques
Dans lexemple des bons de livraison, un mod`ele statistique pour des derniers chires est quils sont
independants et distribues selon la loi uniforme sur 0, . . . , 9. Ceci implique que O
0
, . . . , O
9
ont
comme loi dechantillonnage la loi multinomiale (parametrique, simple) avec probabilites
p
0
= = p
9
= 0.1, et que la loi dechantillonnage approximative de la statistique de Pearson P
est
2
9
.
Un autre mod`ele est que les derniers chires sont independants mais pas uniformes, et donc que
O
0
, . . . , O
9
suivent une loi multinomiale avec probabilites p
0
, . . . , p
9
inegales. Ce mod`ele est
parametrique mais composite. Dans ce mod`ele (p
1
, . . . , p
9
) est de dimension 9, car
p
0
= 1 p
1
p
9
. Sous ce mod`ele, P calcule avec E
i
= n/10 a une loi dechantillonnage dont
la densite est deplacee `a droite par rapport au
2
9
.
Probabilites et Statistique pour SIC slide 270
Monte Carlo simulations de P, n = 50
Comparaison des O
0
, . . . , O
9
de 10,000 jeux de donnees avec les E
0
= = E
9
= n/10 pour une loi
uniforme sur 0, 1, . . . , 9, quand : (a) (en haut) les donnees sont generees avec cette loi uniforme ; (b)
(en bas) les donnees sont generees avec une loi multinomiale ayant p
0
= p
1
= 0.15,
p
2
= = p
9
= 0.0875. Les valeurs de P ont tendance `a etre plus grandes sous (b).
P
D
e
n
s
it
y
0 10 20 30 40 50 60
0
.
0
0
0
.
0
4
0
.
0
8
0
.
1
2
0 5 10 15 20 25 30 35
0
5
1
0
1
5
2
0
2
5
3
0
3
5
Quantiles of Chi^2_9
O
r
d
e
r
e
d

P
P
D
e
n
s
it
y
0 10 20 30 40 50 60
0
.
0
0
0
.
0
4
0
.
0
8
0
.
1
2
0 5 10 15 20 25 30 35
0
1
0
2
0
3
0
4
0
5
0
Quantiles of Chi^2_9
O
r
d
e
r
e
d

P
Probabilites et Statistique pour SIC slide 271
104
Monte Carlo simulations de P, n = 100, 50
Comparaison des O
0
, . . . , O
9
de 10,000 jeux de donnees avec les E
0
= = E
9
= n/10 pour une loi
uniforme sur 0, 1, . . . , 9, quand : (a) (en haut) les donnees sont generees avec p
0
= p
1
= 0.15,
p
2
= = p
9
= 0.0875, et n = 100 ; (b) (en bas) les donnees sont generees avec p
0
= p
1
= 0.2,
p
2
= = p
9
= 0.075 et n = 50.
P
D
e
n
s
it
y
0 20 40 60 80
0
.
0
0
0
.
0
4
0
.
0
8
0
.
1
2
0 5 10 15 20 25 30 35
0
2
0
4
0
6
0
8
0
Quantiles of Chi^2_9
O
r
d
e
r
e
d

P
P
D
e
n
s
it
y
0 20 40 60 80
0
.
0
0
0
.
0
4
0
.
0
8
0
.
1
2
0 5 10 15 20 25 30 35
0
1
0
2
0
3
0
4
0
5
0
Quantiles of Chi^2_9
O
r
d
e
r
e
d

P
Probabilites et Statistique pour SIC slide 272
Pour les vraies donnees
A gauche : QQplot de valeurs de P pour 250 bons de livraison. A droite : poids moyen des bons, et
valeurs de P. Noter que les bons avec les chires les moins uniformes (P grand) ont tendance aussi `a
etre plus lourd. Mais lesquels des bons sont bons ?
0 5 10 20 30
0
5
0
1
0
0
1
5
0
Quantiles of Chi^2_9
O
r
d
e
r
e
d

P
100 150 200 250 300
0
5
0
1
0
0
1
5
0
Mean weight
P
e
a
r
s
o
n

s
t
a
t
i
s
t
i
c
Probabilites et Statistique pour SIC slide 273
105
Hypoth`eses et types derreur
Pour chaque bon de livraison, nous voulons dire sil est bon ou mauvais. Nous formulons ceci
sous la forme de deux hypoth`eses :
Hypoth`ese nulle, H
0
: les derniers chires sont independants et issus dune loi uniforme sur
0, . . . , 9 (le bon est bon).
Hypoth`ese alternative, H
1
: H
0
nest pas realise (le bon est mauvais).
Une hypoth`ese simple determine enti`erement la loi des donnees, sinon elle est composite.
Si nous utilisons P pour decider laquelle des hypoth`eses est valable pour chacun des bons, les
possibilites sont :
Erreur de Type I : H
0
est vraie, mais on la rejette ;
Erreur de Type II : H
0
est fausse, mais on laccepte.
Decision
Accepte H
0
Rejette H
0
H
0
vraie Bon choix Erreur du Type I
H
1
vraie Erreur du Type II Bon choix
Probabilites et Statistique pour SIC slide 274
Taux derreur
Supposons que la decision de classier un bon comme bon ou mauvais est faite comme suit :
P < c bon, P c mauvais, 0 < c < .
Sous H
0
on peut calculer
Pr
0
(P c) = Pr(Erreur du Type I) = (c),
aussi appele le seuil, le false positive rate (FPR), ou 1 la specicite. Dans ce cas P


2
9
,
donc
(c)
.
= Pr(
2
9
c),
et ainsi
(5)
.
= 0.83, (10)
.
= 0.35, (15)
.
= 0.09, (20)
.
= 0.02.
Sous H
1
on peut calculer
Pr
1
(P c) = 1 Pr(Erreur du Type II) = (c),
aussi appelle la puissance, le true positive rate (TPR), ou la sensitivite.
Probabilites et Statistique pour SIC slide 275
106
Taux derreur II
Si on parle de trouver un mauvais bon comme un positif, et de ne pas le trouver comme negatif,
on peut ecrire :
Decision
Accepte H
0
Rejette H
0
H
0
vraie True negative rate, TNR False positive rate, FPR
1 (c) (c)
H
1
vraie False negative rate, FNR True positive rate, TPR
1 (c) (c)
Probabilites et Statistique pour SIC slide 276
ROC curve
Quand nous faison varier c de 0 `a , nous avons Pr
0
(P 0) = Pr
1
(P 0) = 1,
Pr
0
(P ) = Pr
1
(P ) = 0, mais
Pr
1
(P c) Pr
0
(P c), 0 < c < ,
et nous aimerions que Pr
1
(P c) Pr
0
(P c) si possible, pour bien distinguer les bons et les
mauvais.
On peut representer ces probabilites avec le receiver operating characteristic (ROC) curve
comme (Pr
0
(P c), Pr
1
(P c)) quand on varie c :
0.0 0.2 0.4 0.6 0.8 1.0
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
FPR, Pr_0(P>=c), 1Specificity
T
P
R
,

P
r
_
1
(
P
>
=
c
)
,

S
e
n
s
i
t
i
v
i
t
y
Probabilites et Statistique pour SIC slide 277
107
ROC curve, II
Le ROC depend aussi de la taille de lechantillon et de la dierence entre les mod`eles.
Ci-dessous :
n = 50, p
0
= p
1
= 0.15, p
2
= = p
9
= 0.0875 (noir) ;
n = 100, p
0
= p
1
= 0.15, p
2
= = p
9
= 0.0875 (rouge) ;
n = 50, p
0
= p
1
= 0.2, p
2
= = p
9
= 0.075 (bleu).
On a une plus grande probabilite de distinguer les bons et les mauvais si n est grand, ou si la
dierence entre les hypoth`eses devient plus agrante.
0.0 0.2 0.4 0.6 0.8 1.0
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
FPR, Pr_0(P>=c), 1Specificity
T
P
R
,

P
r
_
1
(
P
>
=
c
)
,

S
e
n
s
i
t
i
v
i
t
y
Probabilites et Statistique pour SIC slide 278
Seuil, puissance et test optimal
Nous aimerions maximiser (c) = Pr
1
(P c) pour (c) = Pr
0
(P c) donnee : si nous acceptons
un taux de faux positif, nous aimerions maximiser le taux de vrai positif. Donc le ROC curve devrait
etre le plus au nord-ouest possible.
Ainsi, si lon a plusieurs procedures de decision possible, il faudrait choisir celui donnant un ROC
curve qui domine tous autres ROC curves, si ceci existe.
Une procedure de decision binaire correspond `a la partition de lensemble fondamental contenant
les donnees Y en deux parties }, }, avec
Y } mauvais, Y } bon.
Il faut choisir } tel que Pr
1
(Y }) soit le plus grand possible etant donne que Pr
0
(Y }) =
Lemme 240 (NeymanPearson). Soient f
0
(y), f
1
(y) les densites de Y sous des hypoth`eses nulle et
alternative simples. Alors sil existe, lensemble
} = y : f
1
(y)/f
0
(y) > t
tel que Pr
0
(Y }) = maximise Pr
1
(Y }), parmi toutes les }

tel que Pr
0
(Y }

) . Donc
pour maximiser la puissance pour un seuil donne, il faut baser la decision sur }.
Probabilites et Statistique pour SIC slide 279
108
Exemples
Exemple 241. (a) Construire un test optimal de lhypoth`ese H
0
: p = 1/2 dans le cas de
lexemple 235, avec = 0.05.
(b) Est-ce que p = 1/2, selon vous ?
Exemple 242. Construire un test optimal de lhypoth`ese H
0
: p
0
= = p
9
= 0.1 dans le cas des
bons de livraison. Est-ce que ce test est realiste ?
Probabilites et Statistique pour SIC slide 280
Tests optimal et de Pearson, pour les bons
Dans ce cas il est impossible de trouver un test optimal sans specier une hypoth`ese alternative.
Ci-bas, on prend le test optimal pour lalternative p
0
= p
1
= 0.2, p
2
= = p
9
= 0.075, avec
n = 50
A gauche : ROC pour le test optimal (rouge), pour la statistique de Pearson (noir), et pour le test
optimal, mais quand les donnees sont generees avec p
0
= = p
7
= 0.075, p
8
= p
9
= 0.2 (bleu).
Dans ce cas le test optimal est catastrophique.
A droite : relation entre statistique de test optimal et P.
0.0 0.2 0.4 0.6 0.8 1.0
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
FPR, Pr_0(P>=c), 1Specificity
T
P
R
,

P
r
_
1
(
P
>
=
c
)
,

S
e
n
s
i
t
i
v
i
t
y
0 20 40 60 80

5
0
5
1
0
1
5
Correlation 0.88
Pearson statistic
O
p
t
i
m
a
l

s
t
a
t
i
s
t
i
c
Probabilites et Statistique pour SIC slide 281
109
Test de Pearson, pour les bons
Si nous prenons = 0.05, nous aurons un FPR de 5%, donc nous risquons de rejeter 5% des bon
bons, mais il semble que, si p
0
= p
1
= 0.2, p
2
= = p
9
= 0.075, nous allons detecter 50% des
mauvais.
Dans ce cas nous choisissons c comme 0.95 quantile de la loi
2
9
, soit
> qchisq(0.95,df=9)
[1] 16.91898
Dans ce cas, nous classions 65 des bons de livraisons comme mauvais (P > 16.92), et 185
comme bon (P 16.92) :
0 5 10 20 30
0
5
0
1
0
0
1
5
0
Quantiles of Chi^2_9
O
r
d
e
r
e
d

P
100 150 200 250 300
0
5
0
1
0
0
1
5
0
Mean weight
P
e
a
r
s
o
n

s
t
a
t
i
s
t
i
c
Probabilites et Statistique pour SIC slide 282
Commentaires
On a considere la situation o` u on veut faire un choix binaire entre deux hypoth`eses
lhypoth`ese nulle, contre laquelle on veut tester
lhypoth`ese alternative.
On doit accepter que lon peut faire des erreurs :
Decision
Accepte H
0
Rejette H
0
H
0
vraie Bon choix Erreur du Type I
H
1
vraie Erreur du Type II Bon choix
Si on essaye de minimiser la probabilite derreur de Type II pour une probabilite donnee derreur de
Type I, on peut construire un test optimal, mais ceci peut etre peu pratique, car souvent
lalternative nest pas bien speciee
Donc on peut preferer un test generique comme celui de Pearson, pour lequel la probabilite derreur
de Type II nest jamais trop faible, meme si elle nest jamais aussi elevee que celle dun test optimal.
Probabilites et Statistique pour SIC slide 283
110
7.3 Estimation Ponctuelle slide 284
Mod`eles statistiques
On aimerait etudier un ensemble dindividus ou delements appele population `a partir dun
sous-ensemble de cet ensemble appele echantillon :
mod`ele statistique : la loi f de X est supposee connue `a lexclusion de quelques param`etres, ;
echantillon (doit etre representatif de la population) : donnees y
1
, . . . , y
n
, souvent supposees la
realisation de Y
1
, . . . , Y
n
iid
f ;
statistique : toute fonction T = t(Y
1
, . . . , Y
n
) des variables aleatoires Y
1
, . . . , Y
n
;
estimateur : une statistique utilisee pour estimer certains param`etres de f.
Notations :
T = t(Y
1
, . . . , Y
n
) statistique (variable aleatoire)
t = t(y
1
, . . . , y
n
) realisation de T au moyen des y
j
;

estimateur dun param`etre inconnu .


Probabilites et Statistique pour SIC slide 285
Commentaires
Exemple 243. Soient Y
1
, . . . , Y
n
iid
A(,
2
), alors
= Y est une estimateur de , dont la valeur observee est y ;

2
= n
1

n
i=1
(Y
i
Y )
2
, est un estimateur de
2
, dont la valeur observee est n
1

n
i=1
(y
i
y)
2
.
Remarque :
une statistique T etant fonction des variables aleatoires Y
1
, . . . , Y
n
, cest elle-meme une variable
aleatoire !
La loi de T depend de la loi des Y
i
, et est appelee distribution dechantillonnage de T.
Si on ne peut pas deduire la loi de T de celle des Y
i
, on doit se contenter parfois de connatre E(T)
et var(T).
E(Y ) et var(Y ) peuvent donner une bonne information partielle sur la loi de T, et orent la
possibilite dans certains cas (par exemple T = Y ) dutiliser une loi approximative de T (theor`eme
centrale limite).
Probabilites et Statistique pour SIC slide 286
111
Loi dechantillonnage
mu <- rnorm(1,mean=0,sd=20)
y <- mu + matrix(rnorm(10*1000),10,1000)
y.bar <- apply(x,2,mean)
y.bar[1]
par(mfrow=c(1,2))
hist(y.bar,prob=T)
qqnorm(y.bar)
Histogram of y.bar
y.bar
D
e
n
s
i
t
y
7.5 8.0 8.5 9.0 9.5
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
1
.
2
3 2 1 0 1 2 3
7
.
5
8
.
0
8
.
5
9
.
0
9
.
5
Normal QQ Plot
Theoretical Quantiles
S
a
m
p
l
e

Q
u
a
n
t
i
l
e
s
Probabilites et Statistique pour SIC slide 287
Probl`emes `a etudier
On fait donc un mod`ele statistique et on souhaite :
estimer les param`etres de ce mod`ele ;
poser des questions au sujet de la valeur de ces param`etres, par exemple tester si = 0 ;
prevoir les valeurs des observations futures.
Pour estimer les param`etres on dispose de plusieurs methodes, par exemple :
methode des moments (simple) ;
methode des moindres carrees (simple) ;
methode du maximum de vraisemblance (plus generale, souvent utilise car optimale dans
beaucoup de situations).
Probabilites et Statistique pour SIC slide 288
Methode des moments
Supposons que lechantillon tire soit representatif de la population.
Pour obtenir des estimateurs pour les param`etres inconnus de la population, on egalise les
moments de lechantillon (empirique) `a ceux de la population (theorique).
k`eme moment par rapport `a lorigine :
Population (theorique) : M

k
= E(Y
k
).
Echantillon (empirique) : m

k
=
1
n

n
j=1
Y
k
j
.
On a donc besoin dautant de moments (supposes nies !) que de param`etres inconnus.
Exemple 244. Soient Y
1
, . . . , Y
n
iid
U(0, ), estimer .
Exemple 245. Soient Y
1
, . . . , Y
n
iid
A(,
2
), estimer et
2
.
Probabilites et Statistique pour SIC slide 289
112
Methode des moindres carrees
Soit Y
1
, . . . , Y
n
un echantillon, et supposons que le param`etre `a estimer est une esperance. Alors
chaque Y
j
doit etre proche de
chaque dierence Y
j
devrait etre assez petite
Donc une estimation raisonnable pour serait la valeur minimisant
S() =
n

i=1
(Y
j
)
2
.
Exemple 246. Soient Y
1
, . . . , Y
n
iid
f telles que E(Y
j
) = , trouver lestimation de moindres carrees
de .
Probabilites et Statistique pour SIC slide 290
Methode du maximum de vraisemblance
On a besoin dune methode destimation plus generale.
Denition 247. Soient x
1
, . . . , x
n
des donnees supposees etre une realisation dun echantillon
aleatoire Y
1
, . . . , Y
n
iid
f(y; ), alors la vraisemblance (likelihood en anglais) pour est
L() = f(y
1
; ) f(y
2
; ) f(y
n
; ).
Denition 248. Lestimateur du maximum de vraisemblance

dun param`etre est celui, parmi
tous les possibles, qui donne `a lechantillon obtenu la plus grande vraisemblance (probabilite)
detre obtenu. Donc

satisfait
L(

) L() pour chaque .


Probabilites et Statistique pour SIC slide 291
Calcul de

On facilite les calculs en maximisant () = ln L() plutot que L(). Le demarche est :
1) calculer L()
2) poser () = log L() (log-vraisemblance)
3) trouver

tel que d()/d = 0 ;
4) verier quil sagit bien dun maximum.
Exemple 249. Supposons que y
1
, . . . , y
n
sont des realisations dune loi exponentielle,
f(y; ) = e
y
, y 0, > 0.
Trouver

.
Probabilites et Statistique pour SIC slide 292
113
Biais
Denition 250. Le biais de lestimateur

de est deni par
b() = E(

) .
Interpretation du biais :
si pour tout , b() < 0, alors

sous-estime ;
si pour tout , b() > 0, alors

sur-estime ;
si pour tout , b() = 0, alors

est non biaise.
Un indicateur de la qualite de

est labsence dun ecart systematique entre

et , donc b() 0.
Un indicateur encore plus important est la taille moyenne de lecart (

)
2
.
Exemple 251. Soient Y
1
, . . . , Y
n
iid
A(,
2
). Trouver le biais et la variance de = Y et le biais de

2
= n
1

j
(Y
j
Y )
2
.
Probabilites et Statistique pour SIC slide 293
Biais et variance
High bias, low variability Low bias, high variability
High bias, high variability The ideal: low bias, low variability
= bulle centrale, suppose etre la vraie valeur


= echette rouge tiree sur la bulle centrale, valeur estimee `a laide des donnees
Probabilites et Statistique pour SIC slide 294
114
Erreur quadratique moyenne
Denition 252. Le erreur quadratique moyenne de lestimateur

de est
EQM(

) = E(

)
2
= = var(

) +b()
2
.
Denition 253. Soient

1
et

2
deux estimateurs sans biais du meme param`etre . Alors
EQM(

1
) = var(

1
) +b
1
()
2
= var(

1
)
EQM(

2
) = var(

2
) +b
2
()
2
= var(

2
),
et on dit que

1
est plus ecace que

2
si
var(

1
) var(

2
).
On pref`ere alors

1
.
Exemple 254. Soient Y
1
, . . . , Y
n
iid
A(,
2
), avec n grand. Trouver les proprietes de la mediane M
et de la moyenne Y . Lequel est preferable ? Et si des valeurs aberrantes peuvent apparatre ?
Probabilites et Statistique pour SIC slide 295
La methode delta
Souvent dans la pratique on consid`ere des fonctions destimateurs.
Theor`eme 255 (Methode delta). Soit

un estimateur base sur un echantillon de taille n, tel que


A(, v/n), n ,
et soit g une fonction telle que g

() ,= 0. Alors
g(

)

A
_
g() +vg

()/(2n), vg

()
2
/n
_
, n .
Ceci implique que le erreur quadratique moyenne de g(

) comme estimateur de g() est


EQM
_
g(

)
_

_
vg

()
2n
_
2
+
vg

()
2
n
.
Donc pour grand n on peut negliger la contribution du biais.
Exemple 256. Soient Y
1
, . . . , Y
n
iid
Poiss(). Trouver deux estimateurs de Pr(Y = 0), et comparer
leurs biais et variances.
Probabilites et Statistique pour SIC slide 296
115
7.3 Estimation par Intervalle slide 297
Pivots
Un element cle de la statistique est de donner une idee de lincertitude dun constat.
Soit un param`etre inconnu, et soit t = 1 la valeur dune estimation de basee sur un echantillon de
taille n :
alors si n = 10
5
on est beaucoup plus s ur que t que si n = 10 ;
en plus de t on aimerait ainsi donner un intervalle qui serait plus large quand n = 10 que quand
n = 10
5
, pour expliciter lincertitude liee `a t.
Rappels :
les donnees y
1
, . . . , y
n
sont traitees comme une realisation
dun echantillon Y
1
, . . . , Y
n
tire dun mod`ele statistique f(y; )
dont le param`etre est considere comme inconnu,
estime par lestimateur T = t(Y
1
, . . . , Y
n
) dont la realisation est t = t(y
1
, . . . , y
n
).
On doit donc trouver un moyen de lier et y
1
, . . . , y
n
.
Denition 257. Soient Y = (Y
1
, . . . , Y
n
) des donnees issues dune loi F avec param`etre . Alors un
pivot est une fonction Q = q(Y, ) dont la loi est connue et qui ne depend pas de . On dit alors que
Q est pivotale.
Exemple 258. Soient Y
1
, . . . , Y
n
iid
U(0, ) avec inconnu, M = max(Y
1
, . . . , Y
n
) et
Y = n
1

Y
j
. (a) Montrer que Q
1
= M/ est un pivot ; (b) utiliser le theor`eme central limite pour
trouver un pivot approximatif Q
2
pour n grand, base sur Y .
Probabilites et Statistique pour SIC slide 298
Les intervalles de conance
Denition 259. Soient Y = (Y
1
, . . . , Y
n
) des donnees issues dune loi parametrique F de param`etre
scalaire. Un intervalle de conance (B
I
, B
S
) pour est une statistique sous forme dintervalle qui
contient avec un probabilite speciee. Cette probabilite sappelle le niveau de lintervalle. Noter que
les limites B
I
, B
S
sont des fonctions des donnees Y
1
, . . . , Y
n
et non pas des inconnus ;
un intervalle de conance bilateral, de la forme (B
I
, B
S
) est le plus souvent utilise, mais
un intervalle de conance unilateral, de la forme
(, B
S
) ou (B
I
, ),
est parfois utile, B
S
et B
I
etant les bornes de conance superieure et inferieure pour .
Si nous ecrivons
Pr (, B
S
) = Pr ( < B
S
) = 1
S
, Pr (B
I
, ) = Pr ( > B
I
) = 1
I
,
alors le niveau de lintervalle (B
I
, B
S
) est
Pr (B
I
< B
S
) = Pr ( < B
S
) Pr ( < B
I
) = 1
S

I
.
Souvent en pratique on prend
I
=
S
= /2, donnant un intervalle bilateral de niveau (1 ), et on
dit que cest un IC `a (1 ) 100%.
Probabilites et Statistique pour SIC slide 299
116
Construction dun IC
Avec laide dun pivot, on peut construire des IC pour :
1. on trouve un pivot Q = q(Y, ) qui contient ;
2. on obtient les quantiles q
1
1
, q

2
de Q;
3. puis on transforme lequation
Prq

2
q(Y, ) q
1
1
= 1
1

2
en la forme
Pr(B
I
B
S
) = 1
1

2
,
o` u les bornes B
I
, B
S
sont fonction de Y , q

2
, q
1
1
, et pas de .
Dans beaucoup de cas, les bornes sont dune forme standard.
Pour les IC unilateraux, on peut prendre soit
1
= 0 soit
2
= 0.
Exemple 260. Dans lexemple 258, trouver les IC bases sur Q
1
et Q
2
.
Exemple 261. Un echantillon de n = 16 plaques des voitures vaudoises a maximum 523308 et
moyenne 320869. Donner des IC bilateraux `a 95% pour le nombre de voitures vaudoises.
Probabilites et Statistique pour SIC slide 300
Interpretation dun IC
(B
I
, B
S
) est un intervalle aleatoire qui contient avec probabilite 1 .
On imagine une suite innie de repetitions de lexperience qui a donne (B
I
, B
S
)
LIC que lon a calcule est un des ICs possibles, et on peut considerer quil a ete choisi au hasard
parmi ces possibilites.
Bien que nous ne sachions pas si notre IC contient , cet evenement a une probabilite 1 .
Pour illustrer ce raisonnement, ici le param`etre (vert) est contenu (ou pas) dans des realisations
de lIC (rouge) :
2 0 2 4 6 8 10 12
0
2
0
4
0
6
0
8
0
1
0
0
Parameter
R
e
p
e
t
i
t
i
o
n
Probabilites et Statistique pour SIC slide 301
117
Relation avec des tests
Il y a une relation intime entre les IC et les tests dhypoth`ese concernant les param`etres.
Soit H
0
: =
0
une hypoth`ese nulle concernant un param`etre .
Soit J = (B
I
, B
S
) un IC au niveau (1 ) 100% pour .
Alors
si
0
J, on consid`ere que
0
est compatible avec les donnees, et on ne rejette pas H
0
au niveau
.
Si par contre , J, on consid`ere que
0
est incompatible avec les donnees au niveau , et on
rejette H
0
.
Donc une mani`ere generale de faire un test au niveau sur est de construire un IC au niveau
(1 ) et daccepter tout se trouvant dans le IC, et de rejeter toute autre valeur de .
Probabilites et Statistique pour SIC slide 302
Les ecart-types
Dans le plupart des cas, on utilise des pivots approximatifs, bases sur des estimateurs, dont on a
besoin destimer les variances.
Denition 262. Soient T = t(Y
1
, . . . , Y
n
) un estimateur de ,
2
n
= var(T) sa variance, et
V = v(Y
1
, . . . , Y
n
) une statistique estimateur de
2
n
. Alors on appelle V
1/2
(egalement sa realisation
v
1/2
) un ecart-type de T.
Theor`eme 263. Soient T un estimateur et V son ecart-type se basant sur un echantillon de taille n,
avec
T

n
D
Z,
V

2
n
P
1, n ,
o` u Z A(0, 1). Alors par le theor`eme 219 on a
T
V
1/2
=
T


n
V
1/2
D
Z, n .
Implication : En construisant un IC par le TCL, on peut remplacer
n
par V
1/2
.
Probabilites et Statistique pour SIC slide 303
118
Des IC approximatifs
En general on construit des ICs approximatifs `a laide du theor`eme central limite. Rappelons que la
plupart des statistiques se basant sur les moyennes (implicites ou explicites) des variables
Y = (Y
1
, . . . , Y
n
) ont des lois normales pour n grand. Si T = t(Y ) est un estimateur de avec
ecart-type

V , et si
T

N(, V ),
alors (T )/

V

N(0, 1). Ainsi
Pr
_
z

2
< (T )/

V z
1
1
_
.
= (z
1
1
) (z

2
) = 1
1

2
,
impliquant quun IC (approx) de niveau (1
1

2
) pour est
(T

V z
1
1
, T

V z

2
).
Lexemple 260 en est un exemple, avec T = 2Y et V = T
2
/(3n), car pour n grand on a
B
I
T Tz
1
1
/(3n)
1/2
, B
S
T Tz

2
/(3n)
1/2
.
Probabilites et Statistique pour SIC slide 304
Moyenne et variance dun echantillon normal
Un cas tr`es important o` u les IC exacts sont disponibles est lechantillon normal.
Theor`eme 264. Soient Y
1
, . . . , Y
n
iid
A(,
2
), alors
Y A(,
2
/n)
(n 1)S
2
=

n
j=1
(Y
j
Y )
2

2

2
n1
_
independantes
o` u
2

represente la loi khi-deux avec degres de liberte.


Ainsi si
2
est inconnu,
Y
_
S
2
/n
t
n1
,
(n 1)S
2

2

2
n1
sont des pivots que lon peut utiliser pour trouver des IC `a (1 ) 100% pour et
2
,
respectivement, de forme
Y
S

n
t
n1
(/2),
_
(n 1)S
2

2
n1
(1 /2)
,
(n 1)S
2

2
n1
(/2)
_
,
o` u t

(p) et
2

(p) sont les quantiles des lois Student t avec degres de liberte et khi-deux avec
degres de liberte.
Probabilites et Statistique pour SIC slide 305
119
Densites de khi-deux et de Student
w
P
D
F
0 5 10 15 20
0
.
0
0
.
2
0
.
4
1
2
4
6
10
t
P
D
F
-4 -2 0 2 4
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
Densites (`a gauche)
2

avec = 1, 2, 4, 6, 10, et (`a droite) t

avec = 1 (le plus bas au centre), 2, 4,


20, (plus haut au centre).
Probabilites et Statistique pour SIC slide 306
Exemple
Exemple 265. On suppose que la resistance X dun certain type dequipements electriques est
distribuee approximativement suivant une loi normale avec S
2
= 0.12
2
ohm
2
. Un echantillon de taille
n = 9 a donne comme moyenne empirique la valeur x = 5.34 ohm.
(a) Trouver un IC bilateral pour au niveau 95%.
(b) Trouver un IC `a 95% pour
2
.
(c) Dans (a), quest-ce qui change sil est connu que
2
= 0.12
2
?
Note : Le remplacement dun
2
inconnu par S
2
elargit lIC, car la variabilite de S augmente
lincertitude concernant .
Probabilites et Statistique pour SIC slide 307
Commentaires
Un IC donne non seulement une idee do` u se trouve un param`etre inconnu, mais sa largeur donne
en plus un sens de la precision de lestimation.
En generale la largeur varie comme n
1/2
, et donc multiplier par 100 la taille de lechantillon
augmente la precision par un facteur de 10 seulement.
La construction des IC se base sur les pivots, souvent utilisant le theor`eme centrale limite pour
approcher la loi dun estimateur, et donc souvent approximatifs.
Dans certains cas, notamment pour des mod`eles normaux, les IC exacts sont disponibles.
Probabilites et Statistique pour SIC slide 308
120
8 Vraisemblance slide 309
8.1 Motivation slide 310
Motivation
La vraisemblance est une des idees de base de la statistique. Elle donne un cadre general et puissant
pour traiter toutes sortes dapplications, en particulier pour
trouver les estimateurs dont la variance est la plus petite possible dans les grands echantillons ; et
construire des tests puissants.
Probabilites et Statistique pour SIC slide 311
Illustration
Quand on lance une pi`ece, des petites asymetries inuencent la probabilite dobtenir une face, qui
nest pas forcement 1/2. Soient Y
1
, . . . , Y
n
les resultats d essais independants, alors
Pr(Y
j
= 1) = , Pr(Y
j
= 0) = 1 , 0 1, j = 1, . . . , n.
Ci-dessous une telle suite pour une pi`ece de 5Fr avec n = 10 :
1 1 1 1 1 0 1 1 1 1
Quelles valeurs de vous semblent les plus et les moins credibles :
= 0, = 0.3, = 0.9, = 0.99?
Comment les comparer ? Comment trouver les s les plus plausibles ?
Probabilites et Statistique pour SIC slide 312
Idee de base
Pour une valeur de peu credible, la densite des donnees sera petite : plus cette densite est grande,
plus credible est le correspondant. Puisque les y
1
, . . . , y
10
resultent dessais independants, on a
f(y
1
, . . . , y
10
; ) =
10

j=1
f(y
j
; ) = f(y
1
; ) f(y
10
; ) =
5
(1 )
4
=
9
(1 ),
que nous allons considerer comme fonction de pour 0 1, que nous appelons la vraisemblance
L() (anglais likelihood).
0.0 0.2 0.4 0.6 0.8 1.0
0
.
0
0
0
.
0
1
0
.
0
2
0
.
0
3
0
.
0
4
n=10
theta
L
i
k
e
l
i
h
o
o
d
Probabilites et Statistique pour SIC slide 313
121
Vraisemblance relative
Pour comparer les valeurs de , il nous sut de considerer le rapport des valeurs de L()
correspondantes :
L(
1
)
L(
2
)
=
f(y
1
, . . . , y
10
;
1
)
f(y
1
, . . . , y
10
;
2
)
=

9
1
(1
1
)

9
2
(1
2
)
= c
implique que
1
est c fois plus plausible que
2
.
La valeur la plus plausible est

, qui satisfait
L(

) L(), 0 1;

sappelle lestimation du maximum de vraisemblance (anglais maximum likelihood


estimate).
Alors la vraisemblance relative RL() = L()/L(

) donne la plausibilite de par rapport `a



.
Probabilites et Statistique pour SIC slide 314
Exemple
Exemple 266. Trouver

et RL() pour une suite dessais de Bernoulli independants.
Le graphique suivant represente RL(), pour n = 10, 20, 100 et la suite
1 1 1 1 1 0 1 1 1 1 0 1 1 1 1 0 1 0 1 1
1 1 1 1 1 1 0 1 0 1 0 0 1 1 0 1 1 1 0 1
1 1 1 0 0 1 0 1 1 1 1 1 0 0 1 1 1 1 1 1
1 0 1 0 1 1 0 1 1 1 0 0 1 1 1 0 1 1 1 1
1 0 0 0 0 1 0 1 0 0 1 0 0 1 1 1 1 1 1 0
Plus n augmente, plus RL() se concentre autour de

: des valeurs de eloignees de

deviennent
moins credibles par rapport `a

.
Ceci sugg`ere que lon pourrait construire un IC en prenant les tel que RL() c. On verra plus
tard comment choisir c.
Probabilites et Statistique pour SIC slide 315
122
Suite de Bernoullis
0.0 0.2 0.4 0.6 0.8 1.0
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
n=10 (black), n=20 (blue), n=100 (red)
theta
R
e
l
a
t
i
v
e

l
i
k
e
l
i
h
o
o
d
Probabilites et Statistique pour SIC slide 316
Suite de Bernoullis
0.0 0.2 0.4 0.6 0.8 1.0
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
n=10 (black), n=20 (blue), n=100 (red)
theta
R
e
l
a
t
i
v
e

l
i
k
e
l
i
h
o
o
d
c=0.1
c=0.3
Probabilites et Statistique pour SIC slide 317
123
8.2 Param`etre scalaire slide 318
La vraisemblance
Denition 267. Soit y un jeu de donnees, dont la densite de probabilite conjointe f(y; ) depend
dun param`etre , alors la vraisemblance et la log vraisemblance sont
L() = f(y; ), () = log L(),
considerees comme fonction de .
Si y = (y
1
, . . . , y
n
) est une realisation des variables aleatoires independantes de Y
1
, . . . , Y
n
, alors
L() = f(y; ) =
n

j=1
f(y
j
; ), () =
n

j=1
log f(y
j
; ),
o` u f(y
j
; ) represente la densite dune des y
j
.
Probabilites et Statistique pour SIC slide 319
Estimation de maximum de vraisemblance
Denition 268. Lestimation du maximum de vraisemblance

satisfait
L(

) L() pour tout ,


ce qui est equivalent `a (

) (), car L() et () ont les meme maximums. La variable aleatoire


correspondante sappelle lestimateur du maximum de vraisemblance (EMV) anglais
maximum likelihood estimator (MLE).
Dans la plupart des cas

satisfait
d(

)
d
= 0,
d
2
(

)
d
2
< 0.
Pour ce cours on supposera que la premi`ere de ces equations na quune solution (pas toujours vrai en
realite).
Dans des cas realistes on utilise des algorithmes numeriques pour obtenir

et d
2
(

)/d
2
.
Probabilites et Statistique pour SIC slide 320
Information
Denition 269. Linformation observee J() et linformation esperee (parfois aussi information
de Fisher) I() sont
J() =
d
2
()
d
2
, I() = EJ() = E
_

d
2
()
d
2
_
.
Elles mesurent la courbure de () : plus J() et I() sont grandes, plus () et L() sont
concentrees.
Exemple 270. Soient y
1
, . . . , y
n
iid
Bernoulli(), calculer L(), (),

, var(

), J(), et I().
Probabilites et Statistique pour SIC slide 321
124
Loi limite de lEMV
Theor`eme 271. Soient Y
1
, . . . , Y
n
un echantillon aleatoire issu dune densite parametrique f(y; ), et
soit

lEMV de . Si f satisfait des conditions de regularite (voir ci-apr`es), alors
J(

)
1/2
(

)
D
A(0, 1) n .
Donc pour n grand,


A
_
, J(

)
1
_
.
Ainsi un IC pour de niveau approximative de (1 ) est
J

0.95
= (B
I
, B
S
) = (

J(

)
1/2
z
1/2
,

+J(

)
1/2
z
1/2
).
On peut montrer que pour n grand (et un mod`ele regulier) aucun estimateur ne peut avoir une
variance plus petite que celle de lEMV. Il est alors optimal dans ce sens.
Exemple 272. Trouver ces ICs `a 95% pour les donnees de la pi`ece avec n = 10, 20, 100.
n Piles

J(

) J

0.95
J
W
0.95
10 9 0.9 111.1 (0.72, 1.08) (0.63, 0.99)
20 16 0.8 125.0 (0.62, 0.98) (0.59, 0.94)
100 69 0.69 467.5 (0.60, 0.78) (0.60, 0.78)
Probabilites et Statistique pour SIC slide 322
Statistique du rapport de vraisemblance
Parfois un IC base sur la loi limite normale de

nest pas raisonnable. Il vaut alors mieux utiliser ()
elle-meme.
Denition 273. Soit () la log vraisemblance pour un param`etre de dimension p, dont lEMV est

. Alors la statistique de rapport de vraisemblance est


W() = 2
_
(

) log()
_
.
Theor`eme 274. Soit
0
la valeur de qui a genere les donnees, alors sous les conditions de regularite
donnant `a

une loi limite normale,
W(
0
)
D

2
p
quand n ;
ainsi W(
0
)


2
p
pour n grand.
Exemple 275. Trouver W() quand Y
1
, . . . , Y
n
iid
Bernoulli(
0
).
Probabilites et Statistique pour SIC slide 323
125
Implications du theor`eme 274
Supposons que lon veuille tester lhypoth`ese H
0
: =
0
, o` u
0
est xe. Si H
0
est vraie, le
theor`eme implique que W(
0
)


2
p
. Plus W(
0
) est grand, plus on doute de H
0
. Alors on peut
prendre W(
0
) comme statistique de test, dont la valeur observee est w
obs
, et avec
p
obs
= Pr
_
W(
0
) w
obs
_
.
= Pr
_

2
p
w
obs
_
comme niveau de signication. Plus p
obs
est petite, plus on doute H
0
.
Soit c
p
(1 ) le (1 ) quantile de la loi
2
p
. Alors ce theor`eme implique quun IC pour
0
de
niveau (1 ) est lensemble
J
W
1
= : W() c
p
(1 ) =
_
: 2
_
(

) ()
_
c
p
(1 )
_
=
_
: () (

)
1
2
c
p
(1 )
_
.
Donc on dessine () comme fonction de , et on prend comme valeur credible `a niveau (1 )
tout tel que () (

)
1
2
c
p
(1 ).
Pour scalaire on a p = 1, et souvent 1 = 0.95, alors c
1
(0.95) = 3.84. Donc lIC `a 95% est
forme de tout tel que () (

) 1.92. Dans ce cas on a


RL() = L()/L(

) = exp() (

) exp(1.92) 0.15.
Probabilites et Statistique pour SIC slide 324
ICs base sur statistique du rapport de vraisemblance
0.0 0.2 0.4 0.6 0.8 1.0

1
0
n=10 (black), n=20 (blue), n=100 (red)
theta
L
o
g

l
i
k
e
l
i
h
o
o
d
Level 0.9
Level 0.95
Level 0.99
Quand n augmente, lIC devient moins large et plus symetrique autour de

.
Quand 1 augmente, lIC devient plus large.
Probabilites et Statistique pour SIC slide 325
126
Standard Model
Le top quark a ete decouvert en 1995.
Le resultat des experiences menees pour le trouver etait une variable y = 17, qui devrait avoir la loi
Poisson() avec = 6.7 si ce quark nexistait pas.
Probabilites et Statistique pour SIC slide 326
Top quark : Vraisemblance
5 10 15 20 25

2
0
theta
L
o
g

l
i
k
e
l
i
h
o
o
d
La statistique du rapport de vraisemblance est
w
obs
= W(
0
) = 2
_
log f(y;

) log f(y;
0
)
_
, avec y = 17,
0
= 6.7,
donc w
obs
= 11.06.
Probabilites et Statistique pour SIC slide 327
127
Regularite
Les conditions de regularite sont compliquees. Les cas o` u elles sont fausses sont le plus souvent les cas
o` u
le support de f(y; ) depend de , ou
le vrai se trouve sur une borne des valeurs possibles.
Elles sont satisfaites dans la grande majorite des cas rencontres en pratique.
Voici un exemple o` u elles ne sont pas veriees.
Exemple 276. Soient Y
1
, . . . , Y
n
iid
U(0, ), trouver la vraisemblance L() et lEMV

. Montrer que
la loi limite de n(

)/ quand n est exp(1). Discuter.


Probabilites et Statistique pour SIC slide 328
8.3 Param`etre vecteur slide 329
Vecteur
Souvent est un vecteur de dimension p. Alors les denitions et resultats ci-dessus sont valables avec
des petits changements :
lEMV

satisfait souvent lequation vectorielle
d(

)
d
= 0;
J() et I() sont des matrices p p ;
et dans des cas reguliers,


A
p
, J(

)
1
.
Exemple 277. Soit y
1
, . . . , y
n
un echantillon aleatoire N(,
2
), calculer et
2
et leurs lois
asymptotiques.
Probabilites et Statistique pour SIC slide 330
Statistique du rapport de vraisemblance
Mettons = (, ), o` u a dimension q et a dimension p q, et supposons que lon veuille tester
lhypoth`ese que =
0
, une valeur donnee. On dit alors que le mod`ele avec (
0
, ) est embotee
dans lautre, dont il est une simplication. Soient
lEMV,

= (

),
lEMV de quand =
0
,

0
= (
0
,

0
)
et ecrivons la statistique du rapport de vraisemblance
W(
0
) = 2
_
(

) (

0
)
_
.
Alors sil est vrai que =
0
(i.e., le mod`ele le plus simple des deux est vrai), on a
W(
0
)


2
q
.
Ceci donne une base pour les tests et les ICs comme auparavant.
Probabilites et Statistique pour SIC slide 331
128
Exemple
Exemple 278. Ci-dessous les resultats de 100 lances de deux pi`eces dierentes :
1 1 1 1 1 0 1 1 1 1 0 1 1 1 1 0 1 0 1 1
1 1 1 1 1 1 0 1 0 1 0 0 1 1 0 1 1 1 0 1
1 1 1 0 0 1 0 1 1 1 1 1 0 0 1 1 1 1 1 1
1 0 1 0 1 1 0 1 1 1 0 0 1 1 1 0 1 1 1 1
1 0 0 0 0 1 0 1 0 0 1 0 0 1 1 1 1 1 1 0
1 0 1 1 0 0 1 0 1 1 0 0 0 1 1 0 0 0 1 0
1 1 0 1 0 1 0 1 1 0 0 0 0 1 0 1 1 0 0 0
1 1 1 0 0 1 1 0 0 1 1 0 1 0 1 1 0 0 0 1
1 0 1 1 1 1 1 0 1 1 1 1 0 1 0 0 1 1 0 0
0 1 1 1 1 1 1 0 1 0 0 1 0 0 1 1 1 1 0 1
Soient
1
,
2
les probabilites dobtenir pile correspondantes. Trouver la vraisemblance, et la statistique
du rapport de vraisemblance. Est-ce que
1
=
2
: les probabilites sont-elles egales ?
Probabilites et Statistique pour SIC slide 332
Exemple : Vraisemblance
Contours of log likelihood
theta1
t
h
e
t
a
2
0.0 0.2 0.4 0.6 0.8 1.0
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
Probabilites et Statistique pour SIC slide 333
129
8.4 Modelisation statistique slide 334
Alcool au volant
Probabilites et Statistique pour SIC slide 335
Alcool au volant
Exemple 279. Formuler un mod`ele pour les donnees, et lutiliser pour verier le changement dans la
proportion daccidents d us `a lalcool en 20052006.
Y-a-t-il une dierence au-dela le Rostigraben ?
Probabilites et Statistique pour SIC slide 336
Valeurs du log vraisemblance maximisee

Mod`ele

Nombre de param`etres 2(

1
) df

ca
4668.59 1

ca
=
c
161.62 23 9011.9 22

ca
=
c
157.70 24 7.7 1

ca
=
c

r
155.20 25 5.2 1

ca
=
ca
146.72 46 16.9 21
Les indices :
c pour canton
a pour annee
r pour Rostigraben
Probabilites et Statistique pour SIC slide 337
130
Loi de la statistique du rapport de vraisemblance
Voici des simulations pour comparer les mod`eles avec 25 param`etres, et avec 46 param`etres. La loi

2
21
donne un tr`es bonne approximation de la loi empirique de la statistique du rapport de
vraisemblance, W.
Simulated likelihood ratio statistics
Likelihood ratio statistic
D
e
n
s
i
t
y
0 10 20 30 40 50
0
.
0
0
0
.
0
2
0
.
0
4
0
.
0
6
0
.
0
8
0
.
1
0
0 10 20 30 40 50
0
1
0
2
0
3
0
4
0
5
0
Quantiles of chisquared distribution, 21 df
O
r
d
e
r
e
d

L
R

s
t
a
t
i
s
t
i
c
s
Probabilites et Statistique pour SIC slide 338
Estimations
Voici quelques estimations pour le meilleur mod`ele :
Estimate Std. Error z value Pr(>|z|)
cantonFR 4.61884 0.07402 62.404 < 2e-16 ***
cantonJU 3.85312 0.10598 36.358 < 2e-16 ***
cantonVD 6.63906 0.03378 196.510 < 2e-16 ***
cantonNE 4.77156 0.06907 69.087 < 2e-16 ***
cantonAG 5.48651 0.04636 118.352 < 2e-16 ***
cantonAI 1.82690 0.27765 6.580 4.71e-11 ***
cantonAR 3.04614 0.15131 20.131 < 2e-16 ***
...
cantonZG 4.24556 0.08377 50.679 < 2e-16 ***
romand1:year -0.02753 0.04435 -0.621 0.534715
romand0:year 0.08787 0.02489 3.530 0.000415 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Probabilites et Statistique pour SIC slide 339
131
Approche generale
Ayant compris la situation et regarde les donnees :
1. on choisit un ou quelques mod`eles, se basant sur
des connaissances prealables, ou
un raisonnemment stochastique, ou
des notions purement empiriques ;
2. on ajuste les mod`eles par maximum de vraisemblance ;
3. on compare les mod`eles par leurs log vraisemblances maximisees, souvent avec la statistique du
rapport de vraisemblance 2(

1
) ;
4. on choisit un ou quelques meilleurs mod`eles, et on utilise lapproximation


A
0
, J(

)
1

pour trouver les ICs pour les param`etres, que lon peut interpreter par rapport au probl`eme
original ;
5. on verie si les meilleurs mod`eles sont bons ;
6. si tout va bien, on sarrete ; sinon, on recommence `a 1, ou on cherche plus de (meilleures ?)
donnees.
Probabilites et Statistique pour SIC slide 340
132
9 Inference Bayesienne slide 341
9.1 Idees de Bayes slide 342
Inference bayesienne
Jusqu`a ici nous avons suppose que toute information `a propos de provient des donnees y. Mais si
on des connaissances a priori sur sous forme dune densite a priori (anglais prior density)
(),
on peut trouver la densite a posteriori (anglais posterior density) pour , sachant les donnees y,
( [ y) =
f(y [ )()
f(y)
,
par le theor`eme de Bayes. On peut baser () sur
des donnees separees de y ;
une notion objective de ce quil est raisonnable de croire `a propos de ;
une notion subjective de ce que je crois `a propos de .
On consid`erera () apr`es discussion de la mechanisme bayesienne.
Probabilites et Statistique pour SIC slide 343
Rappel : Theor`eme de Bayes
Soient B
1
, . . . , B
k
une partition de lespace des echantillons E, et soit A un ev`enement quelconque de
lespace des echantillons. Alors
Pr(B
i
[ A) =
Pr(A B
i
)
Pr(A)
=
Pr(A [ B
i
)Pr(B
i
)
Pr(A)
=
Pr(A [ B
i
)Pr(B
i
)

k
j=1
Pr(A [ B
j
)Pr(B
j
)
.
Interpretation : la connaissance de la realisation de lev`enement A met `a jour les probabilites des
ev`enements B
1
, . . . , B
k
:
Pr(B
1
), . . . , Pr(B
k
) Pr(B
1
[ A), . . . , Pr(B
k
[ A).
Probabilites et Statistique pour SIC slide 344
133
Application du theor`eme de Bayes
On suppose que le param`etre a pour densite (), et que la densite conditionelle de Y sachant ,
est f(y [ ). La densite conjointe est
f(y, ) = f(y [ )(),
et par le theor`eme de Bayes la densite conditionelle de sachant que Y = y est
( [ y) =
f(y [ )()
f(y)
,
o` u
f(y) =
_
f(y [ )() d
est la densite marginale des donnees Y .
Probabilites et Statistique pour SIC slide 345
Mise `a jour bayesienne
Do` u lutilisation du theor`eme de Bayes pour mettre `a jour la densite a priori de en une densite a
posteriori de :
()
y
( [ y),
ou de mani`ere equivalente
incertitude a priori
donnees
incertitude a posteriori.
Nous utilisons (), ( [ y) (plutot que f(), f( [ y)) pour expliciter que ces lois dependent des
informations exterieures aux donnees.
Probabilites et Statistique pour SIC slide 346
134
La densite Beta(a, b)
Denition 280. La densite beta(a, b) pour (0, 1) a la forme
() =

a1
(1 )
b1
B(a, b)
, 0 < < 1, a, b > 0,
o` u a et b sont les param`etres, B(a, b) = (a)(b)/(a +b) est la fonction beta, et
(a) =
_

0
u
a1
e
u
du, a > 0,
est la fonction gamma.
Noter que a = b = 1 donne la densite U(0, 1).
Exemple 281. Montrer que si Beta(a, b), alors
E() =
a
a +b
, var() =
ab
(a +b + 1)(a +b)
2
.
Exemple 282. Calculer la densite a posteriori de pour une suite dessais de Bernoulli, si la densite a
priori est Beta(a, b).
Probabilites et Statistique pour SIC slide 347
Densites a priori
0.0 0.4 0.8
0
2
4
6
8
1
2
a= 0.5 , b= 0.5
theta
D
e
n
s
i
t
y

o
f

t
h
e
t
a
0.0 0.4 0.8
0
2
4
6
8
1
2
a= 1 , b= 1
theta
D
e
n
s
i
t
y

o
f

t
h
e
t
a
0.0 0.4 0.8
0
2
4
6
8
1
2
a= 5 , b= 5
theta
D
e
n
s
i
t
y

o
f

t
h
e
t
a
0.0 0.4 0.8
0
2
4
6
8
1
2
a= 5 , b= 10
theta
D
e
n
s
i
t
y

o
f

t
h
e
t
a
0.0 0.4 0.8
0
2
4
6
8
1
2
a= 10 , b= 5
theta
D
e
n
s
i
t
y

o
f

t
h
e
t
a
0.0 0.4 0.8
0
2
4
6
8
1
2
a= 10 , b= 10
theta
D
e
n
s
i
t
y

o
f

t
h
e
t
a
Probabilites et Statistique pour SIC slide 348
135
Densites a posteriori avec n = 10, s = 9
0.0 0.4 0.8
0
2
4
6
8
1
2
a+s= 9.5 , b+ns= 1.5
theta
D
e
n
s
i
t
y

o
f

t
h
e
t
a
0.0 0.4 0.8
0
2
4
6
8
1
2
a+s= 10 , b+ns= 2
theta
D
e
n
s
i
t
y

o
f

t
h
e
t
a
0.0 0.4 0.8
0
2
4
6
8
1
2
a+s= 14 , b+ns= 6
theta
D
e
n
s
i
t
y

o
f

t
h
e
t
a
0.0 0.4 0.8
0
2
4
6
8
1
2
a+s= 14 , b+ns= 11
theta
D
e
n
s
i
t
y

o
f

t
h
e
t
a
0.0 0.4 0.8
0
2
4
6
8
1
2
a+s= 19 , b+ns= 6
theta
D
e
n
s
i
t
y

o
f

t
h
e
t
a
0.0 0.4 0.8
0
2
4
6
8
1
2
a+s= 19 , b+ns= 11
theta
D
e
n
s
i
t
y

o
f

t
h
e
t
a
Probabilites et Statistique pour SIC slide 349
Densites a posteriori avec n = 30, s = 24
0.0 0.4 0.8
0
2
4
6
8
1
2
a+s= 24.5 , b+ns= 6.5
theta
D
e
n
s
i
t
y

o
f

t
h
e
t
a
0.0 0.4 0.8
0
2
4
6
8
1
2
a+s= 25 , b+ns= 7
theta
D
e
n
s
i
t
y

o
f

t
h
e
t
a
0.0 0.4 0.8
0
2
4
6
8
1
2
a+s= 29 , b+ns= 11
theta
D
e
n
s
i
t
y

o
f

t
h
e
t
a
0.0 0.4 0.8
0
2
4
6
8
1
2
a+s= 29 , b+ns= 16
theta
D
e
n
s
i
t
y

o
f

t
h
e
t
a
0.0 0.4 0.8
0
2
4
6
8
1
2
a+s= 34 , b+ns= 11
theta
D
e
n
s
i
t
y

o
f

t
h
e
t
a
0.0 0.4 0.8
0
2
4
6
8
1
2
a+s= 34 , b+ns= 16
theta
D
e
n
s
i
t
y

o
f

t
h
e
t
a
Probabilites et Statistique pour SIC slide 350
136
Densites a posteriori avec n = 100, s = 69
0.0 0.4 0.8
0
2
4
6
8
1
2
a+s= 69.5 , b+ns= 31.5
theta
D
e
n
s
i
t
y

o
f

t
h
e
t
a
0.0 0.4 0.8
0
2
4
6
8
1
2
a+s= 70 , b+ns= 32
theta
D
e
n
s
i
t
y

o
f

t
h
e
t
a
0.0 0.4 0.8
0
2
4
6
8
1
2
a+s= 74 , b+ns= 36
theta
D
e
n
s
i
t
y

o
f

t
h
e
t
a
0.0 0.4 0.8
0
2
4
6
8
1
2
a+s= 74 , b+ns= 41
theta
D
e
n
s
i
t
y

o
f

t
h
e
t
a
0.0 0.4 0.8
0
2
4
6
8
1
2
a+s= 79 , b+ns= 36
theta
D
e
n
s
i
t
y

o
f

t
h
e
t
a
0.0 0.4 0.8
0
2
4
6
8
1
2
a+s= 79 , b+ns= 41
theta
D
e
n
s
i
t
y

o
f

t
h
e
t
a
Probabilites et Statistique pour SIC slide 351
Interpretation de ( [ y)
( [ y) contient ma croyance au sujet de ayant vu les donnees y, quand ma croyance initiale de
est resumee dans la densite ().
La densite contient toute cette information, mais il est parfois utile dextraire des resumes, tel que
lesperance a posteriori ou la variance a posteriori,
E( [ y), var( [ y),
ou lestimation maximum a posteriori (estimation MAP), cest `a dire

tel que
(

[ y) ( [ y), .
Exemple 283. Calculer lesperance et la variance a posteriori de , et son estimation MAP, pour
lexemple precedent.
Probabilites et Statistique pour SIC slide 352
137
Les intervalles de credibilite
Lequivalent de lIC `a (1 ) pour , est lintervalle de credibilite de niveau (1 ) de
obtenu en utilisant les quantiles /2 et (1 /2) de ( [ y).
En prenant = 0.05, a = b = 0.5, on obtient
n = 10 n = 30 n = 100

1.96J(

)
1/2
Lower 0.619 0.633 0.595 0.599
Upper 0.989 0.912 0.774 0.781
Ici

est le MLE de , et J(

) est linformation observee.


a, b nont que peu dinuence pour des grands echantillons, car les donnees contiennent alors
beaucoup dinformation sur .
Probabilites et Statistique pour SIC slide 353
Fonctions de perte
Pour construire un estimateur base sur les donnees y, on consid`ere que le choix destimation
correspond `a une decision, et on cherche `a minimiser la perte potentielle.
Denition 284. Soit Y f(y; ), alors une fonction de perte R(y; ) est une fonction non-negative
de Y et de . La perte moyenne a posteriori est
ER(y; ) [ y =
_
R(y; )( [ y) d.
Exemple 285. Si je cherche `a estimer avec

(y) en minimisant ER(y; ) [ y par rapport `a

,
montrer quavec
R(y; ) = (

)
2
, R(y; ) = [

[,
jai respectivement

= E( [ y) et

la mediane de ( [ y).
Cette idee est utile aussi quand on veut baser une decision sur les donnees : on construit R(y; ) pour
representer la perte quand on observe y et y base la decision, mais letat de realite est .
Probabilites et Statistique pour SIC slide 354
Densites conjuguees
Des combinaisons particuli`eres de donnees et de densites a priori engendrent des densites a posteriori
de la meme forme que celles a priori. Exemple :
Beta(a, b)
s,n
[ x Beta(a +s, b +n s),
o` u les donnees s B(n, ).
La densite beta est dite conjuguee avec la binomial. Cest une idee tr`es utile, car souvent on peut
eviter de devoir integrer. Ainsi :
Si lon reconnat ( [ y), pas besoin dintegrer !
Exemple 286. Soient Y
1
, . . . , Y
n
[
iid
A(,
2
) et A(
0
,
2
), ou
2
et
2
sont connus.
Calculer la loi a posteriori de [ Y
1
, . . . , Y
n
, sans faire dintegration.
Probabilites et Statistique pour SIC slide 355
138
Prediction dune future variable aleatoire Z
Est-ce que le prochain resultat sera pile (Z = 0) ou face (Z = 1) ?
Utiliser le theor`eme de Bayes pour calculer la densite a posteriori de Z sachant Y = y :
Pr(Z = z [ Y = y) =
Pr(Z = z, Y = y)
Pr(Y = y)
=
_
f(z, y [ )() d
_
f(y [ )() d
.
Exemple 287. Calculer la loi a posteriori pour un autre essai de Bernoulli, independant des
precedents.
Rappel : B(a, b) = (a)(b)/(a +b), and (a + 1) = a(a), a, b > 0.
Probabilites et Statistique pour SIC slide 356
Lapproche bayesienne
On traite chaque inconnu (param`etre , predicat Z, . . .) comme une variable aleatoire, donner lui
une distribution (en utilisant souvent lindependance), et calculer sa distribution a posteriori sachant
les donnees, en utilisant le theor`eme de Bayes.
On pait en devant construire un mod`ele plus elabore, avec de linformation a priori, mais on gagne
en pouvant traiter tous les inconnus sur le meme baseparam`etres, donnees, valeurs manquantes,
predicats, etc.et donc on na qu`a appliquer les lois de probabilite, basant linference sur ce que
lon a observe.
Questions philosophique :
Est ce justie dincorporer les connaissances a priori de cette mani`ere ?
Do` u proviennent-elles ?
Souvent on choisit les lois a priori pour des raisons pratiques (e.g., lois conjugees) plutot que
philosophiques.
Question pratique :
Comment faire tous les integrales dont on a besoin ?
Souvent on utilise les methodes de Monte Carlo, qui construisent les chanes de Markov dont les
lois limites sont les lois a posteriori ( [ y). Cest une histoire pour un autre jour . . .
Probabilites et Statistique pour SIC slide 357
139
9.2 Modelisation Bayesienne slide 358
Donnees NMR
0 200 400 600 800 1000
0
2
0
4
0
6
0
NMR data
y
Wavelet Decomposition Coefficients
Daub cmpct on ext. phase N=2
Translate
R
e
s
o
l
u
t
i
o
n

L
e
v
e
l
9
8
7
6
5
4
3
2
1
0 128 256 384 512
A gauche : donnees originales, avec n = 1024
A droite : transformee orthogonale en n = 1024 coecients `a des resolutions dierentes
Probabilites et Statistique pour SIC slide 359
Representations parcimonieuses
Dans beaucoup dapplications modernes on veut extraire un signal dun environnemment bruite :
trouver la combinaison de genes menant `a une maladie ;
nettoyage dun image biomedicale ;
debruitage dun download ;
detection des spams.
On cherche souvent une representation parcimonieuse du signal, avec beaucoup delements nuls.
Probabilites et Statistique pour SIC slide 360
140
Transformation orthogonale
Donnees originales X avec signal
n1
bruite :
X A
n
(,
2
I
n
),
mettre Y
n1
= W
nn
X
n1
, o` u W
T
W = WW
T
= I
n
est orthogonale
choisir W tel que = W devrait avoir beaucoup delements petits
tuer des petits coecients de Y , qui correspondent au bruit, donnant

n1
= kill(Y ) = kill(WX),
puis estimer le signal par
= W
T

= W
T
kill(WX)).
Un bon choix de W sont les coecients dondelettes. Ici les ondelettes de Haar, avec n = 8 :
_
_
_
_
_
_
_
_
_
_
_
_
1 1 1 0 1 0 0 0
1 1 1 0 1 0 0 0
1 1 1 0 0 1 0 0
1 1 1 0 0 1 0 0
1 1 0 1 0 0 1 0
1 1 0 1 0 0 1 0
1 1 0 1 0 0 0 1
1 1 0 1 0 0 0 1
_
_
_
_
_
_
_
_
_
_
_
_
Probabilites et Statistique pour SIC slide 361
Lois a priori et a posteriori
Supposons que Y [ A(,
2
), et a priori on a le melange
=
_
0, avec probabilite 1 p,
A(0,
2
), avec probabilite p,
ainsi la densite a priori pour est
() = (1 p)() +p
1
(/), R,
o` u () est la fonction de delta, mettant une masse 1 `a = 0.
Supposant p, , connus, la densite a posteriori a la forme
( [ y) = (1 p
y
)() +p
y
b
1

_
ay
b
_
, R,
o` u
a =
2
/(
2
+
2
), b
2
= 1/(1/
2
+ 1/
2
),
et
p
y
=
p(
2
+
2
)
1/2
y/(
2
+
2
)
1/2

(1 p)
1
(y/) +p(
2
+
2
)
1/2
y/(
2
+
2
)
1/2

est la probabilite a posteriori que ,= 0.


Probabilites et Statistique pour SIC slide 362
141
Retrecissement bayesien
Pour trouver un estimateur de , on utilise la fonction de perte [

[, et ainsi

est la mediane a
posteriori de .
Voici les fonctions de repartition de a priori (gauche) et a posteriori quand p = 0.5, = = 1, et
y = 2.5 (centre), et y = 1 (droite).
Lignes : probabilite=0.5 (rouge) ; valeur de y (bleue) ; mediane a posteriori

(verte).
4 2 0 2 4
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
Prior
theta
C
D
F
4 2 0 2 4
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
Posterior, y=2.5, posterior median=0.98
theta
C
D
F
4 2 0 2 4
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
Posterior, y=1, posterior median=0
theta
C
D
F
Probabilites et Statistique pour SIC slide 363
Estimation adaptive des param`etres
Pour estimer les param`etres inconnus p, , on utilise maximum de vraisemblance :
la densite marginale de y est
f(y) = (1 p)
1
(y/) +p(
2
+
2
)
1/2
y/(
2
+
2
)
1/2
, y R,
et donc si lon a y
1
, . . . , y
n
iid
f, on peut estimer p, , en maximisant la log vraisemblance
(p, , ) =
n

j=1
log f(y
j
; p, , ).
Ici on trouve p = 0.92, = 0.54, = 0.028.
Maintenant on peut calculer le

j
pour chacun des y
j
, et obtenir le signal debruite.
Probabilites et Statistique pour SIC slide 364
Donnees NMR data, apr`es transformation
Original coefficients
Daub cmpct on ext. phase N=2
Translate
R
e
s
o
l
u
t
i
o
n

L
e
v
e
l
9
8
7
6
5
4
3
2
1
0 128 256 384 512
Shrunken coefficients
Daub cmpct on ext. phase N=2
Translate
R
e
s
o
l
u
t
i
o
n

L
e
v
e
l
9
8
7
6
5
4
3
2
1
0 128 256 384 512
Probabilites et Statistique pour SIC slide 365
142
Donnees NMR data, apr`es nettoyage
0 200 400 600 800 1000

2
0
0
2
0
4
0
6
0
NMR data
y
0 200 400 600 800 1000

2
0
0
2
0
4
0
6
0
Bayesian posterior median
w
r
(
w
)
Probabilites et Statistique pour SIC slide 366
Filtre `a spam
On veut construire un ltre `a spam en se basant sur la presence de certains caracteristiques
C
1
, . . . , C
m
des mels.
Les donnees Y sont de la forme
S C
1
C
2
C
m
1 0 1 1 1
2 1 0 1 0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
n 0 0 0 0
o` u S = 1 pour un spam, et C
i
= 1 si la caracteristique i (e.g., le mot Nigeria, langue russe,
adresse hotmail) est presente.
Mod`ele simple :
Pr(S = 1) = p, Pr(S = 0) = 1 p,
Pr(C
i
= 1 [ S = 1) =
i
, Pr(C
i
= 0 [ S = 1) = 1
i
,
Pr(C
i
= 1 [ S = 0) =
i
, Pr(C
i
= 0 [ S = 0) = 1
i
,
et les C
1
, . . . , C
m
sont independantes, sachant la valeur de S.
Probabilites et Statistique pour SIC slide 367
143
Filtre `a spam
Pour un nouveau mel avec C
+
1
, . . . , C
+
m
mais sans S
+
, on calculera
Pr(S
+
= 1 [ C
+
1
, . . . , C
+
m
, Y ),
puis on mettra le mel en quarantaine si cette probabilite depasse un seuil d (0, 1).
Si on ecrit = (p,
1
, . . . ,
m
,
1
, . . . ,
m
), et si on suppose a priori que
p,
1
, . . . ,
m
,
1
, . . . ,
m
iid
U(0, 1),
alors on a
( [ y) = f(y [ ) ()/f(y)

j=1
_
m

i=1

c
ji
i
(1
i
)
1c
ji
_
s
j
_
m

i=1

c
ji
i
(1
i
)
1c
ji
_
1s
j
1
=
m

i=1

j
s
j
c
ji
i
(1
i
)

j
s
j
(1c
ji
)

j
(1s
j
)c
ji
i
(1
i
)

j
(1s
j
)(1c
ji
)

i=1

t
i1
i
(1
i
)
t
i2

t
i3
i
(1
i
)
t
i4
B(1 +t
i1
, 1 +t
i2
)B(1 +t
i3
, 1 +t
i4
)
,
o` u t
i1
=

j
s
j
c
ji
, t
i2
=

j
s
j
(1 c
ji
), t
i3
=

j
(1 s
j
)c
ji
, t
i4
=

j
(1 s
j
)(1 c
ji
).
Probabilites et Statistique pour SIC slide 368
Filtre `a spam
Avec les caracteristiques nouvelles C
+
= (C
+
1
, . . . , C
+
m
), on aimerait caculer
Pr(S
+
= 1 [ C
+
, Y ) =
Pr(S
+
= 1, C
+
[ Y )
Pr(C
+
[ Y )
=
Pr(S
+
= 1, C
+
[ Y )
Pr(S
+
= 0, C
+
[ Y ) + Pr(S
+
= 1, C
+
[ Y )
o` u
Pr(S
+
= s
+
, C
+
[ Y ) =
_
Pr(S
+
= s
+
, C
+
= c
+
[ , y)( [ y) d,
et
Pr(S
+
= s
+
, C
+
= c
+
[ , y) = Pr(S
+
= s
+
, C
+
= c
+
[ )
=
_
m

i=1

c
+
i
i
(1
i
)
1c
+
i
_
s
+ _
m

i=1

c
+
i
i
(1
i
)
1c
+
i
_
1s
+
et donc
Pr(S
+
= s
+
, C
+
= c
+
[ )( [ y) =
m

i=1

t
+
i1
i
(1
i
)
t
+
i2

t
+
i3
i
(1
i
)
t
+
i4
B(1 +t
i1
, 1 +t
i2
)B(1 +t
i3
, 1 +t
i4
)
,
o` u t
+
i1
=

j
s
j
c
ji
+s
+
c
+
i
, t
+
i2
=

j
s
j
(1 c
ji
) +s
+
(1 c
+
i
), t
+
i3
=

j
(1 s
j
)c
ji
+ (1 s
+
)c
+
i
,
t
+
i4
=

j
(1 s
j
)(1 c
ji
) + (1 s
+
)(1 c
+
i
).
Probabilites et Statistique pour SIC slide 369
144
Filtre `a spam
Ainsi
Pr(S
+
= s
+
, C
+
[ Y ) =
m

i=1
B(1 +t
+
i1
, 1 +t
+
i2
)B(1 +t
+
i3
, 1 +t
+
i4
)
B(1 +t
i1
, 1 +t
i2
)B(1 +t
i3
, 1 +t
i4
)
,
do` u on obtient
Pr(S
+
= 1 [ C
+
, Y ) =
Pr(S
+
= 1, C
+
[ Y )
Pr(S
+
= 0, C
+
[ Y ) + Pr(S
+
= 1, C
+
[ Y )
,
ou, quantite equivalente, les
log odds = log
_
Pr(S
+
= 1, C
+
[ Y )/Pr(S
+
= 0, C
+
[ Y )
_
.
Ainsi il faut stocker les 4 m quantites,
t
11
=

j
s
j
c
j1
t
21
=

j
s
j
c
j2
t
m1
=

j
s
j
c
jm
t
12
=

j
s
j
(1 c
j1
) t
22
=

j
s
j
(1 c
j2
) t
m2
=

j
s
j
(1 c
jm
)
t
13
=

j
(1 s
j
)c
j1
t
23
=

j
(1 s
j
)c
j2
t
m3
=

j
(1 s
j
)c
jm
t
14
=

j
(1 s
j
)(1 c
j1
) t
24
=

j
(1 s
j
)(1 c
j2
) t
m4
=

j
(1 s
j
)(1 c
jm
)
et les mettre `a jour quand on a de nouvelles valeurs de s
j
, c
1
, . . . , c
m
.
Une hypoth`ese cle est que les C
1
, . . . , C
m
sont indeps, sachant S ; cest probablement faux, mais
peut-etre pas trop dommageant souvent idiots Bayes marche assez bien.
Probabilites et Statistique pour SIC slide 370
Resultats
Simulations avec p = 0.8, n = 100 mels dont S et C sont connus, et 1000 nouveaux mels dont
seulement C
+
est connu.
Ici un mel est classie comme spam si
Pr(S
+
= 1 [ C
+
, Y ) > Pr(S
+
= 0 [ C
+
, Y ).
De 183 bons, 44 sont mal-classies avec m = 2, tandis que pour 199 bons, que 5 sont mal-classies
avec m = 20.
m = 2 m = 20
Spam Bon Total Spam Bon Total
Spam 699 118 817 Spam 799 2 801
Bon 44 139 183 Bon 5 194 199
Probabilites et Statistique pour SIC slide 371
Commentaires
Les idees bayesiennes fournissent une approche integree au traitement de lincertitude et `a la
modelisation, avec laquelle on peut attaquer des probl`emes tr`es complexes
La diculte principale philosophique est le statut de linformation a priori
La diculte principale pratique est le besoin de calculer beaucoup dintegrales complexes et
multidimensionelles.
Probabilites et Statistique pour SIC slide 372
145