Explorer les Livres électroniques
Catégories
Explorer les Livres audio
Catégories
Explorer les Magazines
Catégories
Explorer les Documents
Catégories
et
Statistiques
1 Notion de probabilité 7
1.1 Événements. Espace probabilisable . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2 Probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3 Probabilités conditionnelles. Événements indépendants . . . . . . . . . . . . . . . . 9
1.4 Formule de BAYES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3
4
4 Convergences stochastiques 65
4.1 Différents types de convergence . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
4.1.1 Convergence en loi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
4.1.2 Convergence en probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
4.2 Loi faible des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.3 Théorème central limit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.4 Application : approximations de la loi binomiale . . . . . . . . . . . . . . . . . . . . 68
4.4.1 Approximation normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4.4.2 Approximation de P OISSON . . . . . . . . . . . . . . . . . . . . . . . . . . 68
5 Chaînes de M ARKOV 71
5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
5.2 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
5.3 Méthodes algébriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
5.3.1 Relation fondamentale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
5.3.2 Matrices stochastiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
5.3.3 Comportement asymptotique . . . . . . . . . . . . . . . . . . . . . . . . . . 76
5.4 Classification des états . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
5.4.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
5.4.2 Périodicité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
5.4.3 Récurrence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
6 Estimation 87
6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
6.2 Estimation ponctuelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
6.2.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
6.2.2 Exemples fondamentaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
6.2.3 Maximum de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . 92
6.3 Estimation par intervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
6.3.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
6.3.2 Exemples fondamentaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
6.4 Estimation d’une proportion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
6.4.1 Estimation ponctuelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
6.4.2 Estimation par intervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
6.5 Comparaison de moyennes et de variances . . . . . . . . . . . . . . . . . . . . . . . 99
6.5.1 Intervalle de confiance de la différence de deux moyennes . . . . . . . . . . 99
6.5.2 Intervalle de confiance du rapport de deux variances . . . . . . . . . . . . . 102
6.6 Méthode du « Bootstrap » . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
5
7 Tests 105
7.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
7.2 Tests paramétriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
7.2.1 Test de la moyenne pour une loi normale (σ connu) . . . . . . . . . . . . . . 106
7.2.2 Test de la moyenne pour une loi normale (σ inconnu) . . . . . . . . . . . . . 109
7.2.3 Test de l’écart-type pour une loi normale (m inconnue) . . . . . . . . . . . . 109
7.2.4 Comparaison de proportions . . . . . . . . . . . . . . . . . . . . . . . . . . 110
7.2.5 Comparaison de deux moyennes (observations appariées) . . . . . . . . . . . 111
7.2.6 Comparaison de plusieurs moyennes (observations non appariées) – analyse
de variance pour un facteur . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
7.2.7 Probabilité critique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
7.3 Test du khi-deux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
A Dénombrements 143
A.1 Suites. Arrangements sans répétition . . . . . . . . . . . . . . . . . . . . . . . . . . 143
A.2 Combinaisons sans répétition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
A.3 Arrangements avec répétition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
Bibliographie 159
Index 161
6
Chapitre 1
Notion de probabilité
Définition 1. Une tribu E d’événements est une partie de P(Ω) qui vérifie :
– Ω appartient à E.
– ∀A ∈ E, A = Ω \ A ∈ E.
– ∀(A, B) ∈ E 2 , A ∪ B ∈ E et A[∩ B ∈ E. \
– ∀I ⊂ N, (∀i ∈ I, Ai ∈ E) ⇒ Ai ∈ E et Ai ∈ E.
i∈I i∈I
Dans le cas où Ω est fini ou dénombrable on pourra toujours choisir E = P(Ω) ; lorsque Ω n’est pas
dénombrable on choisira pour E une partie stricte de P(Ω).
Un peu de vocabulaire :
– l’univers Ω est également appelé événement certain puisqu’il contient toujours, par définition, l’is-
sue de l’épreuve ;
– la partie vide ∅ = Ω est l’événement impossible ;
– A est dit événement contraire de A ;
– lorsque A ⊂ B on dit que A implique B ;
– A ∪ B se lit « A ou B » et A ∩ B se lit « A et B » ;
– lorsque A ∩ B = ∅ on dit que les événements A et B sont incompatibles.
8 Chapitre 1 – Notion de probabilité
1.2 Probabilité
Définition 3. Soit (Ω, E) un espace probabilisable. Une probabilité est une application P de E dans
l’intervalle [0, 1] telle que :
– P(Ω) = 1,
– ∀(A, B) ∈ E 2 , A ∩ B = ∅ =⇒ P(A ∪ B) = P(A) + P(B),
[ X
– ∀i ∈ I ⊂ N, Ai ∈ E et (i 6= j ⇒ Ai ∩ Aj = ∅) =⇒ P Ai = P(Ai ).
i∈I i∈I
Théorème 1. On a :
1. Probabilité du contraire
∀A ∈ E, P(A) = 1 − P(A).
2. Monotonie
∀(A, B) ∈ E 2 , A ⊂ B ⇒ P(A) ≤ P(B).
3. Théorème des « probabilités totales »
4. Généralisation
n
[ n
X n X
X n
P Ai = P(Ai ) − P(Ai ∩ Aj )
i=1 i=1 i=1 j=i+1
n
X n
X X n n
\
+ P(Ai ∩ Aj ∩ Ak ) − · · · + (−1)n−1 P Ai .
i=1 j=i+1 k=j+1 i=1
Cette méthode s’applique en particulier lorsque Ω est fini et les issues ωi équiprobables :
On obtient alors :
nombre d’issues favorables à A
ÉQUIPROBABILITÉ =⇒ P(A) = ·
nombre d’issues possibles
Les dénombrements des issues intervenant au numérateur et au dénominateur peuvent nécessiter des
théorèmes rappelés en annexe A (page 143).
S∞
1. Supposons que la suite (An )n∈N est croissante et que A0 = ∅ ; on a : lim An = i=0 Ai .
Alors :
∞
[ ∞
[ X∞
P(lim An ) = P Ai = P (Ai \ Ai−1 ) = P(Ai \ Ai−1 )
i=1 i=1 i=1
Xn n
X
= lim P(Ai \ Ai−1 ) = lim P(Ai ) − P(Ai−1 ) = lim P(An ).
i=1 i=1
T∞
2. Supposons que la suite (An )n∈N est décroissante ; on a : lim An = i=0 Ai .
La suite (A0 \ An )n∈N est croissante.
P(A0 ) − P(lim An ) = P(A0 \ lim An ) = P lim(A0 \ An ) = lim P(A0 \ An )
= lim P(A0 ) − P(An ) = P(A0 ) − lim P(An ).
Donc :
P(lim An ) = lim P(An ).
Théorème 3. Soit (Ω, E, P) un espace probabilisé et soit A un événement de probabilité non nulle.
P(A ∩ B)
L’application PA définie sur E par : PA (B) = est une probabilité sur l’espace probabili-
P(A)
sable (Ω, E).
On vérifie les axiomes d’une probabilité :
P(A ∩ Ω) P(A)
1. PA (Ω) = = = 1.
P(A) P(A)
2 P A ∩ (B ∪ C) P A ∩ B) ∪ (A ∩ C)
2. ∀(B, C) ∈ E , B ∩ C = ∅ =⇒ PA (B ∪ C) = = ·
P(A) P(A)
Or : B ∩ C = ∅ ⇒ (A ∩ B) ∩ (A ∩ C) = A ∩ (B ∩ C) = ∅ ; donc :
P(A ∩ B) + P(A ∩ C)
PA (B ∪ C) = = PA (B) + PA (C).
P(A)
3. On généralise sans peine la démonstration précédente.
Définition 5. La probabilité PA est appelée probabilité conditionnelle sachant que A s’est produit.
On peut noter PA (B) ou bien P(B/A) la probabilité conditionnelle de B sachant que A s’est produit.
Théorème 4.
∀(A, B) ∈ E 2 , P(A ∩ B) = P(A)P(B/A) = P(B)P(A/B).
La première égalité vient immédiatement de la définition de la probabilité conditionnelle, la deuxième
résulte de la symétrie de l’intersection.
Ce résultat peut être généralisé :
Théorème 5.
n
\
P Ai = P(A1 )PA1 (A2 )PA1 ∩A2 (A3 ) . . . PA1 ∩...∩An−1 (An ).
i=1
P(A ∩ B) = P(A)P(B).
1.4 – Formule de BAYES 11
k
\ k
Y
∀k ∈ {1, 2, . . . , n}, 1 ≤ i1 < i2 < · · · < ik ≤ n =⇒ P Aij = P Aij .
j=1 j=1
La notion d’indépendance mutuelle est (beaucoup) plus forte que celle d’indépendance deux à deux ;
c’est celle qui intervient le plus souvent.
Exemple : les résultats de n jets successifs d’un dé sont mutuellement indépendants.
n
[ n
[ n n
X X
P(A) = P(A ∩ Ω) = P A ∩ Bi = P (A ∩ Bi ) = P(A ∩ Bi ) = P(Bi )PBi (A).
i=1 i=1 i=1 i=1
On a utilisé : i 6= j ⇒ Bi ∩ Bj = ∅ ⇒ (A ∩ Bi ) ∩ (A ∩ Bj ) = ∅.
Théorème 7 (BAYES). Soit (Bi )1≤i≤n un système complet d’événements et soit A ∈ E tel que
P(A) 6= 0.
P(Bi )PBi (A)
PA (Bi ) = n ·
X
P(Bj )PBj (A)
j=1
12 Chapitre 1 – Notion de probabilité
Production Déchets
Machine 1 15% 5%
Machine 2 20% 4%
Machine 3 30% 3%
Machine 4 35% 2%
Au contrôle on constate qu’une pièce est défectueuse ; quelle est la probabilité pour qu’elle vienne
d’une machine donnée ?
Les « causes » sont les événements Bi = « la pièce vient de la machine i » ; A est l’événement « la
pièce est défectueuse ». On cherche les probabilités PA (Bi ) pour i = 1, 2, 3, 4.
On a :
P(B1 ) = 0.15, P(B2 ) = 0.20, P(B3 ) = 0.30, P(B4 ) = 0.35,
PB1 (A) = 0.05, PB2 (A) = 0.04, PB3 (A) = 0.03, PB4 (A) = 0.02.
D’où :
X 4
P(A) = P(Bi )PBi (A) = (75 + 80 + 90 + 70)10−4 = 3.15%
i=1
et
75 80
PA (B1 ) = = 23.8%, PA (B2 ) = = 25.4%,
315 315
90 70
PA (B3 ) = = 28.6%, PA (B4 ) = = 22.2%.
315 315
Chapitre 2
2.1 Définition
Soit Ω un univers fini ou dénombrable ; on choisit pour tribu d’événements E = P(Ω).
Définition 9. Une variable aléatoire sur (Ω, E) est une application de Ω dans R.
On notera par la suite les variables aléatoires par des lettres majuscules : X, Y, Z,. . . , U, V,. . .
Exemples :
1. Soit l’épreuve : on jette un dé ; on choisit pour univers Ω = {ω1 , ω2 , . . . , ω6 } où ωi représente
l’événement « on obtient la face i ». On définit une variable aléatoire X en posant : X(ωi ) = i ;
on peut aussi bien considérer les variables aléatoires définies par Y(ωi ) = i2 ou bien même
Z(ωi ) = log i, bien que ce soit moins naturel.
2. On tire au hasard une personne dans une population donnée ; l’événement élémentaire ωi est :
« on a tiré la personne numéro i ». On définit les variables aléatoires U, V, W par :
(a) U(ωi ) = taille de la personne en centimètres,
(b) V(ωi ) = poids de la personne en kilogrammes,
(c) W(ωi ) = année de naissance.
On peut évidemment associer bien d’autres variables aléatoires à ce tirage.
3. Si X est une application constante on dit que c’est une variable certaine.
Théorème 8. L’ensemble des variables aléatoires définies sur (Ω, E) a une structure d’espace vec-
toriel réel et d’anneau commutatif et unitaire pour les opérations définies par :
∀ω ∈ Ω, (X + Y)(ω) = X(ω) + Y(ω),
∀ω ∈ Ω, ∀λ ∈ R, (λX)(ω) = λ X(ω) ,
∀ω ∈ Ω, (XY)(ω) = X(ω)Y(ω).
On a de plus la propriété : λ(XY) = (λX)Y = X(λY).
On rappelle : X−1 (xi ) = {ω ∈ Ω | X(ω) = xi }. Cet événement peut s’énoncer : « X prend la valeur
xi » : on le notera donc en abrégé « X = xi » en commettant un abus de notation commode ; p(xi )
est donc la probabilité pour que la variable aléatoire X prenne la valeur xi .
Exemple : on considère la variable aléatoire U définie ci-dessus. Soit ui = 173 cm : p(ui ) est la
probabilité de tirer au hasard une personne dont la taille est égale à 1, 73 m. Cette probabilité dépend
évidemment de la population étudiée, donc de P.
Théorème 9. La loi de X définit une probabilité sur l’espace probabilisable X(Ω), P X(Ω) par :
X
p(A) = p(xi ).
xi ∈A
On notera plus simplement, mais c’est un abus, F (x) = P(X < x). Lorsque c’est nécessaire on note,
plus précisément, FX la fonction de répartition de la variable aléatoire X.
Théorème 10. La fonction de répartition F vérifie les propriétés suivantes :
X
1. F (x) = p(xi ),
xi <x
2. F est croissante, constante par intervalle (fonction en escalier),
3. F est continue à gauche en tout point,
4. lim F (x) = 0, lim F (x) = 1,
x→−∞ x→+∞
5. ∀i ∈ I, p(xi ) = F (xi + 0) − F (xi ) où F (xi + 0) = x→x
lim F (x).
i
x>xi
1. L’événement X−1 ] − ∞, x[ est la réunion disjointe des images réciproques X−1 (xi ) pour
et X−1 ] − ∞, x0 [ sont tous les deux égaux à la réunion disjointe ij=1 X−1 (xj ) ; donc :
S
3. Si x = xi on a F (x) = i−1 0 0
P
j=1 p(xj ) qui est la valeur de F (x ) pour tout x ∈]xi−1 , xi ].
4. Si X(Ω) est fini et égal à {x1 , x2 , . . . , xn } on a F (x) = 0 si x ≤ x1 et F (x) = 1 si x > xn .
Dans le cas où X(Ω) n’est pas fini voir la démonstration du théorème 39.
5. On a vu ci-dessus que F (x) = F (xi ) + p(xi ) si x ∈]xi , xi+1 ] ; d’où le résultat.
F (x)
1
x
x1 x2 0 x3 x4 x5 x6
Y −1 (yj )
Y
X −1 (xi )
yj X P
O xi 0 pij 1
16 Chapitre 2 – Variables aléatoires discrètes
Cette définition se généralise sans peine à un n-uplet (X1 , X2 , . . . , Xn ) de variables aléatoires qui
est un vecteur aléatoire.
Théorème 11. Sur l’espace probabilisable X(Ω)×Y(Ω), P X(Ω)×Y(Ω) la loi conjointe définit
une probabilité par :
X
∀A ⊂ X(Ω) × Y(Ω), p(A) = p(xi , yj ).
(xi , yj )∈A
[ [
P(X = xi ) = P (X = xi ) ∩ Ω = P (X = xi ) ∩ (Y = yj ) = P (X = xi ) ∩ (Y = yj )
j∈J j∈J
X
= P (X = xi ) ∩ (Y = yj ) car la réunion est disjointe.
j∈J
Dans les marges, en bas et à droite du tableau, on note les probabilités . . . marginales, obtenues en
additionnant les éléments de chaque colonne ou bien de chaque ligne.
Théorème 13. Si le moment d’ordre k existe tous les moments d’ordre inférieur à k existent égale-
ment.
Supposons k 0 ≤ k et montrons :
0
X X
|xi |k p(xi ) converge ⇒ |xi |k p(xi ) converge.
i∈I i∈I
0
On a : ∀a > 0, 0 ≤ k 0 ≤ k ⇒ ak ≤ 1 + ak ; en effet :
0 0 0 0
• a ≥ 1 ⇒ ak = ak ak−k ≥ ak et donc ak < 1 + ak ;
0
• a < 1 ⇒ ak < 1 ≤ 1 + ak .
Donc :
0
X X X
|xi |k p(xi ) ≤ 1 + |xi |k p(xi ) = 1 + |xi |k p(xi ).
Espérance mathématique
C’est le moment d’ordre 1 ; on le note :
X
E(X) = xi p(xi ).
i∈I
Remarques
1. Si l’on considère que, pour tout i, p(xi ) représente une masse ponctuelle placée à l’abscisse xi ,
E(X) est l’abscisse du centre d’inertie.
2. Soient f : R 7→ R et la variable aléatoire Z = f ◦ X, que l’on notera plus simplement f (X).
On a Z = f (xi ) lorsque (X = xi ), donc avec la probabilité p(xi ).
X
E(Z) = E f (X) = f (xi ) p(xi ).
i∈I
X
Cas particulier : f (x) = xk . On obtient : E(Xk ) = xki p(xi ) = mk (X).
i∈I
On n’utilisera plus la notation mk (X) par la suite.
Théorème 14. E est une forme linéaire positive sur l’espace vectoriel des variables aléatoires défi-
nies sur (Ω, E).
18 Chapitre 2 – Variables aléatoires discrètes
X
1. Montrons d’abord le lemme : E(X) = X(ω)P({ω}).
ω∈Ω
X
On a : p(xi ) = P X−1 (xi ) =
P({ω}). Donc :
ω∈X−1 (xi )
X X X X
E(X) = xi p(xi ) = xi P({ω}) = X(ω)P({ω})
i∈I i∈I ω∈X−1 (xi ) ω∈Ω
Variance
C’est le moment centré d’ordre 2 :
2
Var(X) = E X − E(X) .
Remarques
1. La variance de X représente le moment d’inertie des masses ponctuelles p(xi ) placées aux
abscisses xi par rapport au centre d’inertie.
2. Lorsque Var(X) = 0, X est une variable certaine.
P 2
Var(X) = i∈I xi − E(X) p(xi ) : si la variance est nulle tous les xi (pour lesquels p(xi )
est non nul) sont égaux à une même constante, qui est E(X).
p
Pour des raisons d’homogénéité on introduit l’écart-type : σ(X) = Var(X).
Coefficient de corrélation
Définition 16. La covariance des variables aléatoires X et Y est définie par :
h i
Cov(X, Y) = E X − E(X) Y − E(Y) .
Remarques
1. Cov(X, X) = Var(X).
2. Cov(X, Y) = E(XY) − E(X) E(Y).
Cov(X, Y) = E XY − XE(Y) − YE(X) + E(X)E(Y) , puis on utilise la linéarité de E.
Théorème 17. Si X et Y sont deux variables aléatoires indépendantes possédant une espérance
mathématique :
E(XY) = E(X) E(Y).
X X X
E(XY) = xi yj pij = xi pi. yj p.j = E(X) E(Y).
|{z}
i,j =pi. p.j i j
Théorème 18. Si les variables aléatoires X et Y sont indépendantes leur covariance est nulle.
La réciproque est fausse.
La démonstration est immédiate. X = −1 X=0 X=1
Un contre-exemple pour la réciproque est 1
Y=0 0 2 0
donné ci-contre. Y=1 1
0 1
4 4
n n n n
X
X X X 2 2
Var Xi = E Xi − E( Xi ) =E Xi − E(Xi )
i=1 i=1 i=1 i=1
n
X 2 X
= E Xi − E(Xi ) + 2 Xi − E(Xi ) Xj − E(Xj )
i=1 1≤i<j≤n
n
X 2 X
= E Xi − E(Xi ) +2 E Xi − E(Xi ) Xj − E(Xj )
i=1 1≤i<j≤n
| {z } | {z }
=Var(Xi ) =Cov(Xi , Xj )
20 Chapitre 2 – Variables aléatoires discrètes
Cas particulier important : si les variables aléatoires sont deux à deux indépendantes la variance de
leur somme est égale à la somme de leurs variances.
Définition 17. Le coefficient de corrélation des variables aléatoires X et Y est défini par :
Cov(X, Y)
ρ(X, Y) =
σ(X) σ(Y)
si X et Y possèdent des écart-types non nuls.
Théorème 20. Si X et Y sont indépendantes leur coefficient de corrélation est nul.
La réciproque est fausse ; le coefficient de corrélation donne donc une indication plus ou moins précise
de l’indépendance de deux variables aléatoires. Cependant on verra plus loin que la réciproque est
exacte pour la loi normale que l’on utilise fréquemment : ceci explique l’intérêt de ce coefficient.
Définition 18. Si ρ(X, Y) est nul les deux variables sont dites non-corrélées.
Théorème 21. 1. On a : ρ(X, Y) ∈ [−1, 1].
2. Si Y = αX + β (avec α 6= 0) on a |ρ(X, Y| = 1.
3. Si |ρ(X, Y)| = 1 les variables aléatoires X et Y sont liées par la relation affine :
X − E(X) Y − E(Y)
− ρ(X, Y) =0 (avec ρ(X, Y) = ±1 !).
σ(X) σ(Y)
D’où :
∀λ ∈ R, λ2 Var(Y) + 2λCov(X, Y) + Var(X) ≥ 0.
Le discriminant du trinôme est négatif ou nul c’est-à-dire : Cov(X, Y)2 ≤ Var(X)Var(Y) ;
donc ρ(X, Y)2 ≤ 1.
2. On a :
E(Y) = αE(X) + β, σ(Y) = |α|σ(X), E(XY) = αE(X2 ) + βE(X).
Donc :
Cov(X, Y) = αE(X2 ) + βE(X) − E(X) αE(X) + β = αVar(X)
et
αVar(X) 1 si α > 0;
ρ(X, Y) = =
σ(X) |α|σ(X) −1 si α < 0.
3. Si |ρ(X, Y)| = 1 le discriminant du trinôme
est nul : le trinôme a alors une racine double
2
λ0 = −Cov(X, Y)/Var(Y) et donc E X − E(X) + λ0 Y − E(Y) = 0.
Ceci entraîne X − E(X) + λ0 Y − E(Y) = 0, soit, en reportant et en simplifiant :
σ(X)
X − E(X) − ρ(X, Y) Y − E(Y) = 0.
σ(Y)
2.4 – Espérance mathématique. Variance. Coefficient de corrélation 21
i∈I 0
E |Z|r
∀r > 0, ∀ε > 0, P |Z| ≥ ε ≤ ·
εr
La démonstration est identique à celle ci-dessus :
X X
E |Z|r |zi |r p(zi ) ≥ |zi |r p(zi ) I 0 = {i ∈ I | |zi | ≥ ε}
= où
i∈I i∈I 0
X
≥ εr p(zi ) = εr P |Z| ≥ ε .
i∈I 0
1
P E(X) − λ σ(X) < X < E(X) + λ σ(X) > 1 − 2 ·
λ
Sous cette forme on voit clairement que l’écart-type caractérise la dispersion de la variable aléatoire
autour de son espérance mathématique.
Le rayon de convergence de la série entière de définition est au moins égal à 1 puisque la série
converge pour s = 1 :
X
gX (1) = P(X = k) = 1.
k∈N
S P
P(X + Y = k) = P i+j=k (X = i) ∩ (Y = j) = ki=0 P(X = i)P(Y = k − i), car les variables
aléatoires X et Y sont indépendantes et prennent des valeurs entières positives. Les séries utilisées
étant sommables :
∞ X
X k ∞ X
X ∞
gX+Y (s) = P(X = i)P(Y = k − i) sk = P(X = i)P(Y = k − i)sk
k=0 i=0 i=0 k=i
∞
X ∞
X ∞
X ∞
X
= P(X = i)si P(Y = k − i)sk−i = P(X = i)si P(Y = j)sj
i=0 k=i i=0 j=0
= gX (s) gY (s).
Théorème 27. Soit (Xi )i∈N∗ une suite de variables aléatoires à valeurs dans N, ayant toutes la même
loi qu’une variable X et mutuellement indépendantes.
P Soit N une variable aléatoire à valeurs dans
N∗ indépendante de chaque Xi . On pose : R = N i=1 Xi . La fonction génératrice de R est donnée
par :
gR = gN ◦ gX .
On a :
∞
X ∞
X n
X
P(R = k) = P(N = n) P(R = k/N = n) = P(N = n) P Xi = k .
n=1 n=1 i=1
En particulier
E(X) = gX0 (1) et Var(X) = gX00 (1) + gX0 (1) − gX0 (1)2 .
24 Chapitre 2 – Variables aléatoires discrètes
gX0 (1) = ∞
P
Pour m = 1 on obtient : k=1 kP(X = k) = E(X).
P∞
gX00 (1) E X(X − 1) = E(X2 ) − E(X).
Pour m = 2 on obtient : = k=2 k(k − 1)P(X = k) =
On dit que X est une variable binomiale de loi B(n, p) : une variable binomiale représente le nombre
de succès dans une suite d’épreuves indépendantes.
0,2
n = 20
p = 0, 7
0,1
0 1 10 20
2.7 – Lois de probabilité discrètes classiques 25
Théorème 29. La fonction génératrice de la loi binomiale B(n, p) est : gX (s) = (ps + q)n .
P
gX (s) = nk=0 nk pk q n−k sk = (ps + q)n .
gX0 (s) = np(ps + q)n−1 et gX00 (s) = n(n − 1)p2 (ps + q)n−2 ,
D’après le théorème 25 :
gX+Y (s) = gX (s)gY (s) = (ps + q)n1 (ps + q)n2 = (ps + q)n1 +n2 .
On peut aussi remarquer que si l’on tire successivement n1 boules puis n2 boules on a tiré (n1 + n2 )
boules. . .
Remarque : Lorsque n est grand le calcul de b(k, n, p) = nk pk q n−k est délicat ; on peut utiliser des
0 · · · 0 pm
On a :
m
T
X n! n1 n2 nm
X
fc
N (t) = E exp(it N) = p1 p2 · · · pm exp tj n j
P n1 !n2 ! · · · nm !
nj =n j=1
m
X n
= pj exp(itj )
j=1
m
X 1 n
= pj 1 + itj − t2j + o(t2j )
2
j=1
1 n
= 1 + itT p − tT d t + o ktk2
2
n n(n − 1) T 2
= 1 + it (np) − tT d t −
T
(t p) + o ktk2 .
2 2
D’après le théorème 50 on obtient :
E(N) = n p,
ce qui n’est pas une découverte, et
E(N NT ) = nd + n(n − 1)p pT (car (tT p)2 = tT p pT t).
D’où :
Var(N) = E(N NT ) − E(N) E(N)T = nd + n(n − 1)p pT − n2 p pT = n(d − p pT )
p1 (1 − p1 ) −p1 p2 ··· −p1 pm
.. ..
−p1 p2 p2 (1 − p2 ) . .
= n
.. .. ..
.
. . . −pm−1 pm
−p1 pm ··· −pm−1 pm pm (1 − pm )
2.7 – Lois de probabilité discrètes classiques 27
0,2
n = 20
a = 70
b = 30
0,1
0 1 10 20
a a b a+b−n
E(X) = n Var(X) = n ·
a+b a+b a+b a+b−1
Il n’est pas interdit de faire le calcul direct à partir de la définition, mais c’est assez pénible ; il est
plus intéressant d’utiliser une méthode indirecte.
On note que X = ni=1 Xi où Xi représente le nombre de boule blanche tirée au i-ième tirage ; pour
P
tout i la variable aléatoire Xi suit la loi de B ERNOULLI, c’est-à-dire la loi binomiale B(1, p) avec
a
p= · On a
a+b
ab b ,
∀i ∈ {1, . . . , n}, E(Xi ) = p et Var(Xi ) = pq = 2
où q = 1 − p =
(a + b) a+b
et donc
n
X a
E(X) = E(Xi ) = np = n ·
a+b
i=1
28 Chapitre 2 – Variables aléatoires discrètes
Les variables aléatoires Xi ne sont pas indépendantes puisque les tirages ont lieu sans remise. La
variable aléatoire Xj Xk suit la loi de B ERNOULLI dont la probabilité de succès, et donc l’espérance
mathématique, est
a a−1
P(Xj Xk = 1) = P (Xj = 1) ∩ (Xk = 1) = P(Xj = 1)P(Xj =1) (Xk = 1) = ·
a+ba+b−1
D’où
a(a − 1) a 2 −ab
Cov(Xj , Xk ) = − = 2
(a + b)(a + b − 1) a+b (a + b) (a + b − 1)
et
n
X X
Var(X) = Var(Xi ) + 2 Cov(Xj , Xk )
i=1 1≤j<k≤n
ab n(n − 1) −ab nab(a + b − n)
= n 2
+2 2
=
(a + b) 2 (a + b) (a + b − 1) (a + b)2 (a + b − 1)
a b a+b−n a+b−n
= n = npq ·
a+ba+ba+b−1 a+b−1
Remarque : il n’est peut-être pas évident que chaque variable Xi suit la loi binomiale B(1, p) ;
vérifions-le pour X2 :
P(X2 = 1) = P (X2 = 1) ∩ (X1 = 0) ∪ (X1 = 1)
= P(X1 = 0)P(X1 =0) (X2 = 1) + P(X1 = 1)P(X1 =1) (X2 = 1)
b a a a−1 a
= + = ·
a+ba+b−1 a+ba+b−1 a+b
Remarque : la loi hypergéométrique est voisine de la loi binomiale ; la seule différence est qu’il y
a tirage avec ou sans remise. On constate que le fait de ne pas remettre les boules ne modifie pas
l’espérance mathématique mais diminue la variance ( a+b−n
a+b−1 ≤ 1).
∀k ∈ N∗ , P(X = k) = q k−1 p.
On dit que X est une variable géométrique de loi G(p) : une variable géométrique représente le nombre
d’épreuves indépendantes nécessaires pour obtenir le premier succès.
2.7 – Lois de probabilité discrètes classiques 29
0, 3
0, 2
p = 0, 3
0, 1
0 1 10 20
∞
X ps
gX (s) = (q k−1 p)sk = avec |qs| < 1.
1 − qs
k=1
1 q
E(X) = , Var(X) = ·
p p2
On a
p 2pq
gX0 (s) = et gX00 (s) = ·
(1 − qs)2 (1 − qs)3
D’où (théorème 28)
p 1
E(X) = gX0 (1) = 2
=
(1 − q) p
et
2 2pq 1 1 q
Var(X) = gX00 (1) + gX0 (1) − gX0 (1) = 3
+ − 2 = 2·
(1 − q) p p p
µk
∀k ∈ N, P(X = k) = e−µ ·
k!
30 Chapitre 2 – Variables aléatoires discrètes
0,1
µ = 14
0,05
0 1 10 20 30
gX (s) = eµ(s−1) .
∞
X (µs)k
gX (s) = e−µ = e−µ eµs = eµ(s−1) .
k!
k=0
E(X) = µ, Var(X) = µ.
On a :
gX0 (s) = µeµ(s−1) et gX00 (s) = µ2 eµ(s−1)
D’après le théorème 25 :
gX+Y (s) = gX (s)gY (s) = eµ1 (s−1) eµ2 (s−1) = e(µ1 +µ2 )(s−1) .
2.7 – Lois de probabilité discrètes classiques 31
Processus de P OISSON
Un événement A (appel téléphonique arrivant à un central, par exemple) peut se produire à n’importe
quel instant t > 0. On fait les hypothèses suivantes :
1. La probabilité pour que A se produise entre les instants t et t + τ est égale à λτ où λ est une
constante indépendante de t, de τ et de la réalisation antérieure de A.
2. L’événement A ne peut se produire plus d’une fois entre les instants t et t+τ ; plus précisément
la probabilité pour que A se produise deux fois ou plus entre t et t + τ est un infiniment petit
par rapport à τ .
La variable aléatoire Xt qui représente le nombre de réalisations de A entre les instants 0 et t suit la
loi de P OISSON P(λt).
nA
On pose pn (t) = P(Xt = n) et on note l’événement « A se produit n fois entre les instants
t1 , t 2
t1 et t2 ».
Calculons pn (t) ; on commence par le cas n = 0 puis on effectue une récurrence.
0A 0A 0A 0A 0A
p0 (t + τ ) = P =P ∩ =P P
0, t + τ 0, t t, t + τ 0, t t, t + τ
0A
= p0 (t)P = p0 (t) 1 − λτ − o(τ ) .
0, τ
D’où :
p0 (t + τ ) − p0 (t)
= − λ + o(1) p0 (t) =⇒ p00 (t) = −λp0 (t).
τ τ →0
Tenant compte de la condition initiale p0 (0) = 1 on obtient immédiatement :
p0 (t) = e−λt .
Récurrence sur n :
n !
nA nA 0A (n − 1)A 1A [ (n − k)A kA
= ∩ ∪ ∩ ∪ ∩ .
0, t + τ 0, t t, t + τ 0, t t, t + τ 0, t t, t + τ
k=2
D’où
n
X
pn (t + τ ) = pn (t) 1 − λτ − o(τ ) + λτ pn−1 (t) + pn−k (t)o(τ ).
k=2
et
n
pn (t + τ ) − pn (t) X
pn−k (t)o(1) =⇒ p0n (t) = −λpn (t)+λpn−1 (t).
= − λ+o(1) pn (t)+λpn−1 (t)+
τ τ →0
k=2
La solution générale de l’équation homogène est : pn (t) = Cn e−λt . On détermine la solution générale
de l’équation complète par la « méthode de la variation de la constante » :
p1 (t) = λte−λt .
(λt)n−1 −λt
On suppose (hypothèse de récurrence vérifiée pour n = 1 et n = 2) : pn−1 (t) = e .
(n − 1)!
Alors :
tn−1 (λt)n (λt)n
Cn0 = λn ⇒ Cn = + Kn ⇒ pn (t) = + Kn e−λt .
(n − 1)! n! n!
D’après la condition initiale pn (0) = 0 = Kn on obtient finalement :
(λt)n −λt
pn (t) = P(Xt = n) = e .
n!
Le processus de P OISSON est le cas le plus simple d’apparition « naturelle » de la loi de P OISSON.
Chapitre 3
Dans ce chapitre l’univers Ω est non dénombrable ; la tribu E des événements doit être strictement
incluse dans P(Ω). On suppose définie une probabilité P sur (Ω, E).
Elle contient également les pavés fermés et, plus généralement, toutes les parties « usuelles » de Rn .
Ses éléments s’appellent les boréliens de Rn .
Définition 23. Une variable (resp. un vecteur) aléatoire sur l’espace probabilisable (Ω, E) est une
application X de Ω dans R (resp. dans Rn ) qui vérifie : pour tout borélien B de R (resp. de Rn ) on a
X−1 (B) ∈ E.
n
Qn que l’image réciproque de toute demi-droite ] − ∞, x[ (resp. de toute partie de R
Il suffit de vérifier
de la forme i=1 ] − ∞, xi [ ) est un événement.
Exemple (trivial) : toute application constante est une variable aléatoire. Soit X = k cette variable :
∅ si x ≤ k,
X−1 ( ] − ∞, x[ ) =
Ω si x > k.
1. Supposons x < y :
F (y) = P X−1 ] − ∞, y[ = P X−1 ] − ∞, x[∪[x, y[
= P X−1 ] − ∞, x[ ∪ X−1 [x, y[
(propriété de l’image réciproque)
= P X−1 ] − ∞, x[ + P X−1 [x, y[
(événements incompatibles)
| {z } | {z }
=F (x) ≥0
≥ F (x).
2. Soit a ∈ R :
1
X−1 ] − ∞, a[ = lim X−1 ] − ∞, a − [
n→∞ n
la suite étant croissante. D’après le théorème 2 :
−1
1
−1
F (a) = P X ] − ∞, a[ = P lim X ] − ∞, a − [
n→∞ n
1 1
= lim P X−1 ] − ∞, a − [ = lim F a −
n→∞ n n→∞ n
= F (a − 0).
On peut montrer par ailleurs que F admet une limite à droite en tout point. On a
1
X−1 ] − ∞, a] = lim X−1 ] − ∞, a + [
n→∞ n
la suite étant décroissante. D’après le théorème 2 :
1
P(X ≤ a) = P X−1 ] − ∞, a] = P lim X−1 ] − ∞, a + [
n→∞ n
1 1
= lim P X−1 ] − ∞, a + [ = lim F (a + ) = F (a + 0).
n→∞ n n→∞ n
Remarque :
P(X = a) = P(X ≤ a) − P(X < a) = lim F (x) − F (a).
x→a+
La suite d’événements X−1 ] − ∞, n[ est croissante :
n∈N
lim F (x) = lim P X−1 ] − ∞, n[
x→∞ n→∞
= P lim X−1 ] − ∞, n[ (voir théorème 2)
n→∞
= P X−1 (R) = P(Ω) = 1.
F (x)
1
x
x1 0 x2
La fonction de répartition représentée sur le graphe ci-dessus possède deux points de discontinuité
d’abscisses x1 et x2 ; nous supposerons par la suite que toute fonction de répartition est continue sur
R et qu’il existe une application f : R 7→ R, continue sauf en un nombre fini de points, telle que :
Z x
∀x ∈ R, F (x) = f (t) dt.
−∞
La variable aléatoire X est alors dite absolument continue ; la fonction f est sa densité de probabilité.
En faisant l’analogie entre une probabilité et une masse cela correspond au cas où la masse est répartie
et où il n’y a pas de masse ponctuelle.
On a alors :
Z b
P X−1 [a, b[ = P(a ≤ X < b) = F (b) − F (a) =
f (x) dx.
a
On supposera qu’il existe une densité de probabilité f : Rn 7→ R, continue sauf en un nombre fini de
points, telle que :
ZZ Z n
Y
F (x1 , x2 , . . . , xn ) = ... f (t1 , t2 , . . . , tn ) dt1 dt2 . . . dtn où Kn = ] − ∞, xi [.
Kn i=1
Si l’on connaît la densité d’un vecteur aléatoire on peut en déduire la densité de ses composantes ; on
donne le résultat dans le cas le plus simple :
Théorème 40. Soit V = (X, Y) un couple aléatoire ayant f pour densité ; les densités de probabilité
des variables marginales X et Y sont données par :
Z ∞ Z ∞
fX (x) = f (x, y) dy, fY (y) = f (x, y) dx.
−∞ −∞
On a : ZZ
FX (x) = P(X < x) = P (X < x) ∩ (Y ∈ R) = f (t, y) dt dy
Dx
où Dx = {(t, y) | t < x}. D’où :
Z x Z ∞
FX (x) = f (t, y) dy dt.
−∞ −∞
1. Si X et Y sont indépendantes, alors, pour tous x et y réels, les événements (X < x) et (Y < y)
sont indépendants et
F (x, y) = P (X < x) ∩ (Y < y) = P(X < x)P(Y < y) = FX (x)FY (y).
On conclut que X et Y sont indépendantes en remarquant que les boréliens sont obtenus à partir
des pavés par passage au complémentaire, intersections et réunions dénombrables (voir [16]).
Théorème 42. Si X et Y sont deux variables aléatoires indépendantes et si ϕ et ψ sont deux applica-
tions de R dans R les variables aléatoires ϕ(X) et ψ(Y) sont indépendantes.
Pour tous boréliens B1 et B2 on a :
P ϕ ◦ X)−1 (B1 ) ∩ ψ ◦ Y)−1 (B2 ) = P X−1 (ϕ−1 (B1 )) ∩ Y−1 (ψ −1 (B2 ))
= P X−1 (ϕ−1 (B1 )) P Y−1 (ψ −1 (B2 ))
= P ϕ ◦ X)−1 (B1 ) P ψ ◦ Y)−1 (B2 )
Alors :
ZZ
FZ (z) = f (t, u − t) dt du, où Dz = {(t, u) | u < z},
Dz
Z z Z ∞
= f (t, u − t) dt du.
−∞ −∞
f ∗ = g ∗ ⇐⇒ f = g presque partout.
Remarques :
– La densité de probabilité étant essentiellement utilisée dans des intégrations on peut modifier arbi-
trairement sa valeur sur un ensemble de mesure nulle.
– Si f est la densité de probabilité d’une variable aléatoire X on a : f ∗ (ϕ) = E ϕ(X) .
Pour la démonstration on consultera un cours sur les distributions de S CHWARTZ ([25], [4], [28] ou,
mieux, [29]).
Exemples d’applications :
1. Loi de Z = X + Y.
ZZ
∀ϕ ∈ D1 , fZ∗ (ϕ) = E ϕ(Z) = E ϕ(X + Y) =
ϕ(x + y)f(X,Y) (x, y) dx dy.
R2
T
Théorème 45. Soit X = X1 X2 . . . Xn un vecteur aléatoire de densité fX ; définissons le
T
vecteur aléatoire Y = Y1 Y2 . . . Yn par un changement de variables affine :
Avec les notations habituelles la fonction caractéristique d’une variable aléatoire est donnée par
X Z ∞
fcX (t) = p(xk )eitxk fX (t) =
c eitx fX dx
k∈I −∞
dans le cas discret, dans le cas continu.
On généralise aisément au cas d’un vecteur aléatoire.
Dans le cas continu la fonction caractéristique est la transformée de F OURIER de la densité de proba-
bilité.
Exemples
1. Cas discret
Si X(Ω) ⊂ N∗ on a fc it
X (t) = gX (e ) où gX est la fonction génératrice de X (voir § 2.6).
En particulier :
it n
peit , it
fc
X (t) = (pe + q) , fc
X (t) = X (t) = exp µ(e − 1) .
fc
1 − qeit
2. Cas continu : loi de C AUCHY
1 1
La variable aléatoire X de densité fX (x) = a pour fonction caractéristique
π 1 + x2
−|t|
fc
X (t) = e .
3.5 – Fonction caractéristique 41
Théorème 46. La fonction caractéristique d’une variable aléatoire (resp. d’un vecteur aléatoire) est
une fonction continue de R (resp. Rn ) dans C et |fc
X | ≤ 1.
2. Cas continu : Z
itx
|fX (x)e | ≤ fX (x) et fX (x) dx = 1.
R
Théorème 47. La fonction caractéristique d’une variable (resp. d’un vecteur) aléatoire X vérifie les
propriétés suivantes :
1. fc
X (0) = 1 ;
2. ∀t ∈ R, fc
X (−t) = fX (t) ;
c
3. ∀(a, b) ∈ R2 , ∀t ∈ R, f\ itb c
aX+b (t) = e fX (at)
(resp. ∀a ∈ MR (m, n), ∀b ∈ Rm , ∀t ∈ Rm , f\ itT b f T
aX+b (t) = e X (a t)).
c
Théorème 48. La fonction caractéristique d’une variable (resp. d’un vecteur) aléatoire X détermine
sa loi.
X
1. Cas discret : on développe fc
X (t) sous la forme p(xk )eitxk .
k∈I
42 Chapitre 3 – Variables aléatoires absolument continues
2. Cas continu : on utilise le théorème d’inversion de F OURIER (voir [4], par exemple).
Z ∞
1 −itx
fX (x) = fcX (t)e dt.
2π −∞
Démonstration identique dans le cas d’un vecteur aléatoire.
Théorème 49. Si le moment d’ordre k de la variable aléatoire X existe, sa fonction caractéristique
admet une dérivée d’ordre k au voisinage de 0 et
(k)
fc
X (0) = ik E(Xk ).
1. Cas discret
On a :
dk itxn
(e ) = (ixn )k eitxn et |(ixn )k eitxn | = |xn |k .
dtk
Puisque E(Xk ) existe, la série de terme général |xn |k p(xn ) est convergente et, donc, la série
∞
(k) X
fc
X (t) = (ixn )k eitxn p(xn ).
n=0
Donc :
∞
(k) X
fc
X (0) = (ixn )k p(xn ) = ik E(Xk ).
n=0
2. Cas continu
On a :
dk itx
e fX (x) = (ix)k eitx fX (x) |(ix)k eitx fX (x)| = |x|k fX (x).
k
et
dt
Puisque E(Xk ) existe, l’intégrale R |x|k fX (x) dx est convergente :
R
Z
(k)
fX (t) = (ix)k eitx fX (x) dx.
c
R
Donc : Z
(k)
fc
X (0) = (ix)k fX (x) dx = ik E(Xk ).
R
T
T 1 T 2 2
X (t) = E exp(it X) = E 1 + it X + (it X) + o ktk
fc
2
1
= E 1 + itT X − tT X XT t + o ktk2 car tT X = XT t ∈ R,
2
1
= 1 + itT E(X) − tT E(X XT ) t + o ktk2
par linéarité.
2
3.5 – Fonction caractéristique 43
Théorème 51. Si le couple aléatoire (X, Y) a pour fonction caractéristique fb les fonctions caracté-
ristiques des variables marginales X et Y sont données par :
fc
X (t) = f (t, 0)
b et fc
Y (u) = f (0, u).
b
itX
fc
X (t) = E(e ) = E(ei(tX+0Y) ) = fb(t, 0).
Théorème 52.
Théorème 53.
∀(λ, µ) ∈ R2 , ∀t ∈ R, f\ \
λX+µY (t) = f(X,Y) (λt, µt).
it(λX+µY)
f\
λX+µY (t) = E(e ) = E(ei(λtX+µtY) ) = f\
(X,Y) (λt, µt).
Théorème 55. Soit (Xk )k∈N∗ une suite de variables aléatoires mutuellement indépendantes ayant
toutes la même loi de probabilité qu’une variable X. Soit N une variable aléatoire à valeurs dans N∗ ,
indépendante de chaque Xk .
N
X
La fonction caractéristique de la variable aléatoire R = Xk est donnée par :
k=1
R = gN ◦ fX
fc c
On admet ce théorème.
44 Chapitre 3 – Variables aléatoires absolument continues
f (x)
1
b−a
0 si x 6∈ [a, b],
f (x) = 1
si x ∈ [a, b].
b−a
x
a 0 b
a + b, (a − b)2
E(X) = Var(X) = ·
2 12
b
1 h x2 ib
Z Z
x dx a + b,
E(X) = xf (x) dx = = =
R a b−a b−a 2 a 2
et
b
x2 dx 1 h x3 ib a2 + ab + b2
Z Z
2 2
E(X ) = x f (x) dx = = = ·
R a b−a b−a 3 a 3
D’où :
a2 + ab + b2 a2 + 2ab + b2 (a − b)2
Var(X) = − = ·
3 4 12
b−a
a + b sin 2 t
fb(t) = exp it ·
2 b−a
t
2
b
eitx 1 h eitx ib eitb − eita
Z
fb(t) = dx = = ·
a b−a b − a it a it(b − a)
3.6 – Lois de probabilités continues classiques 45
f (x)
α
(
0 si x < 0,
f (x) =
α e−αx si x ≥ 0.
x
0
−2α −2 2
fb00 (t) = 3
· D’où : fb00 (0) = 2 = −E(X2 ). Donc E(X2 ) = 2
(α − it) α α
et
2 1 2 1
Var(X) = 2
− = 2·
α α α
Y = X − τ sachant que X ≥ τ.
1. On a :
FY (y) = P(Y < y) = P(X − τ < y | X ≥ τ ) = P(X < y + τ | X ≥ τ ).
D’où :
• Si y ≤ 0 : FY (y) = 0.
• Si y > 0 :
P(τ ≤ X < τ + y) FX (y + τ ) − FX (τ ) (1 − e−α(y+τ ) ) − (1 − e−ατ )
FY (y) = = =
P(X ≥ τ ) 1 − FX (τ ) 1 − (1 − e−ατ )
= 1 − e−αy .
2. On a vu :
P(τ ≤ X < τ + y)
FY (y) = ·
P(X ≥ τ )
Donc :
• Si y ≤ 0 : FY (y) = 0.
• Si y > 0 :
FX (y + τ ) − FX (τ )
FY (y) = = FX (y) par hypothèse.
1 − FX (τ )
La fonction G définie par G(x) = 1 − FX (x) vérifie donc :
∀y ∈ R+ , G(y + τ ) = G(y)G(τ ).
D’où G(0) = 1 et
G(y + τ ) − G(τ ) G(τ ) G(y) − G(0)
= =⇒ G0 (τ ) = G(τ )G0 (0).
(y + τ ) − τ y y→0
On intègre immédiatement :
G(τ ) = e−ατ où α = −G0 (0).
D’où, en reportant :
FX (x) = FY (x) = 1 − e−αx si x ≥ 0.
Théorème 61. Supposons que les variables aléatoires Xk sont mutuellement indépendantes et suivent
la même loi exponentielle E(α) ; supposons que la variable aléatoire N est indépendante de chaque
Xk et suit la loi géométrique G(p). Alors la variable aléatoire
N
X
R= Xk
k=1
f (x)
La densité de la loi normale
N (m, σ) est définie par :
1 (x − m)2
f (x) = √ exp − .
σ 2π 2σ 2
x
m − 3σ 0 m m+σ m + 3σ
F (x)
La fonction de répartition de la 1
loi normale ne peut s’exprimer
à l’aide des fonctions élémen- 1
2
taires ; il faut utiliser une table
spéciale (cf. page 150). x
0 m
Théorème 62. La fonction caractéristique de la loi normale N (m, σ) est définie par :
σ 2 t2
fb(t) = exp itm − .
2
On cherche d’abord la fonction caractéristique ϕ
b de la loi
normale réduite N (0, 1) : y
Z ∞
1 x2 t
b =√
ϕ(t) exp − exp(itx) dx.
2π −∞ 2
x
z2 −r 0 r
On intègre la fonction g(z) = exp − , holomorphe sur
2
C, sur le lacet ci-contre. (Voir, par exemple [3].)
Lorsque r tend vers l’infini on obtient :
Z r Z t
x2 1
exp − (r + iy)2 dy
0 = exp − dx +i
2 2
| −r } |0
√
{z {z }
→ 2π → 0
Z r Z 0
1 2 1
exp − (−r + iy)2 dy .
− exp − (−x + it) dx +i
2 2
| −r {z } |t {z }
t2 √ →0
→ exp 2π ϕ(t)
b
2
t2
b = exp −
D’où : ϕ(t) .
2
48 Chapitre 3 – Variables aléatoires absolument continues
E(X) = m, Var(X) = σ 2 .
σ 2 t2
fb0 (t) = (im − σ 2 t) exp itm − . D’où : fb0 (0) = im et E(X) = m.
2
σ 2 t2
fb00 (t) = (im − σ 2 t)2 − σ 2 exp itm − . D’où : fb00 (0) = −m2 − σ 2 et E(X2 ) = m2 + σ 2 .
2
Donc :
Var(X) = (m2 + σ 2 ) − m2 = σ 2 .
Théorème 64. Si X suit la loi normale N (m, σ) alors Y = aX + b, avec a 6= 0, suit la loi normale
N (am + b, |a|σ).
itb c σ2 (aσ)2 2
(at)2 = exp i(am + b)t −
Y (t) = e fX (at) = exp(itb) exp i(at)m −
fc t
2 2
qui est la fonction caractéristique de la loi normale N (am + b, |a|σ).
Théorème 65 (stabilité). La somme de deux variables normales indépendantes suit une loi normale.
Plus précisément si X suit la loi normale N (m1 , σ1 ), si Y suit la loi √
normale N (m2 , σ2 ) et si X et
Y sont indépendantes, alors X + Y suit la loi normale N (m1 + m2 , σ1 2 + σ2 2 ).
D’après le théorème 54 :
σ12 2 σ2 σ 2 + σ22 2
(X,Y) (t) = fX (t)fY (t) = exp itm1 −
f\ c c t exp itm2 − 2 t2 = exp it(m1 + m2 ) − 1 t .
2 2 2
t σ2 2
fc
Y (t) = f
cZ ( ) = exp itm − t .
n 2n
3.6 – Lois de probabilités continues classiques 49
Vecteur gaussien
Définition 29. Un vecteur aléatoire X = (X1 , X2 , . . . , Xn ) est dit gaussien (non dégénéré) si sa
densité est de la forme :
1
f (x) = α exp − (x − m)T q(x − m)
2
où x ∈ Rn et m ∈ Rn sont représentés par des matrices colonnes et q ∈ Mn (R) est symétrique,
définie, positive.
On notera N (m, c) la loi de X où c = q −1 est la matrice de covariance et dont la densité est donc :
1 1
f (x) = √ exp − (x − m)T c−1 (x − m) .
(2π)n/2 det c 2
Remarque : la notation utilisée pour la loi normale n’est pas exactement la même dans le cas d’une
variable aléatoire ou dans celui d’un vecteur (écart-type remplacé par matrice de covariance).
D’après le théorème 45 la densité du vecteur aléatoire Y = X − m est :
1
fY (y) = fX (y + m) = α exp − y T qy .
2
Par raison de symétrie on a E(Y) = 0 et donc E(X) = E(Y) + m = m.
Puisque q est symétrique, définie et positive, il existe une matrice orthogonale u telle que
d = u−1 qu = uT qu
est diagonale avec des éléments diagonaux (valeurs propres) λj strictement positifs.
50 Chapitre 3 – Variables aléatoires absolument continues
1
Les variables aléatoires Zj sont indépendantes et suivent les lois normales N (0, σj ) avec λj = σj2
:
n n
Y 1 zj2 1 1X zj2
fZ (z) = √ exp − = exp − .
2σj2 (2π)n/2 nj=1 σj σ2
Q
σj 2π 2
j=1 j=1 j
Donc
n n
1 Y 1 Y det q
= (2π)n/2 σj et α = 2
n
λj = ·
α (2π) (2π)n
j=1 j=1
Enfin :
Var(X) = E(XXT ) = E (uZ)(uZ)T = uE(ZZT )uT = ud−1 uT = q −1 .
Corollaire 2. Si le couple (X, Y) est gaussien les variables marginales X et Y sont gaussiennes.
Dans ce cas si X suit la loi N (m1 , σ1 ) et Y la loi N (m2 , σ2 ) et si leur coefficient de corrélation est
égal à ρ la densité du couple (X, Y) est :
x−m
1 1 2 (x − m1 )(y − m2 ) y − m2 2
exp − − 2ρ +
2(1 − ρ2 ) σ1 σ1 σ2 σ2
f (x, y) = p ·
2πσ1 σ2 1 − ρ 2
On a :
σ12
−1
Var(X) Cov(X, Y) ρσ1 σ2
q = Var (X, Y) = = .
Cov(Y, X) Var(Y) ρσ1 σ2 σ22
D’où :
σ22
−1 1 −ρσ1 σ2
det q = σ12 σ22 (1 2
− ρ ), et q= 2 2 .
σ1 σ2 (1 − ρ2 ) −ρσ1 σ2 σ12
Enfin : s
1 1
α= =
(2π)2 σ12 σ22 (1 − ρ2 )
p
2πσ1 σ2 1 − ρ2
et
x − m1
Q(x, y) = x − m1 y − m2 q
y − m2
1 x − m1 2 (x − m1 )(y − m2 ) y − m2 2
= − 2ρ + .
1 − ρ2 σ1 σ1 σ2 σ2
3.6 – Lois de probabilités continues classiques 51
Théorème 68. Si le couple (X, Y) est gaussien et si ρ(X, Y) = 0 les deux variables sont indépen-
dantes.
En reportant ρ = 0 dans l’expression de la densité du couple on voit que f (x, y) = fX (x)fY (y).
Attention : il se peut que X et Y soient gaussiennes sans que le couple (X, Y) soit gaussien, auquel
cas on ne peut conclure à l’indépendance lorsque ρ(X, Y) = 0.
Exemple
Considérons le couple aléatoire (non gaussien. . . ) de densité
1 x2 − 2rxy + y 2 x2 + 2rxy + y 2
f (x, y) = √ exp − + exp − où − 1 < r < 1.
4π 1 − r2 2(1 − r2 ) 2(1 − r2 )
Les variables marginales X et Y suivent la loi normale réduite. En effet :
Z ∞ Z ∞
(y − rx)2 x2 (y + rx)2 x2
1
fX (x) = √ exp − − dy + exp − − dy
4π 1 − r2 −∞ 2(1 − r2 ) 2 −∞ 2(1 − r2 ) 2
√
x2 ∞ y ± rx ,
Z
2
= exp − exp(−u2 ) du en posant u = p
π 2 0 2(1 − r2 )
1 x2
= √ exp − .
2π 2
Elles ne sont pas indépendantes car f (x, y) 6= fX (x)fY (y) bien que Cov(X, Y) = E(XY) = 0 à
cause de la parité de f (x, y) par rapport à x et par rapport à y.
Fonction caractéristique
Théorème 69. Le vecteur X = (X1 , X2 , . . . , Xn ) est gaussien de loi N (m, c), où c est la matrice de
covariance, si et seulement si la fonction caractéristique de X est définie par :
1 T
∀t ∈ Rn , fc T
X (t) = exp it m − t c t .
2
E(λT X) = 0 et σ 2 = Var(λT X) = λT c λ.
T c T T T T 1 T T T
Y (t) = exp(it b)fX (a t) = exp it b + i(a t) m − (a t) c(a t)
fc
2
T 1 T T
= exp it (am + b) − t (aca )t .
2
On retrouve (voir théorème 22) :
Calculs numériques
On dispose de tables numériques donnant les valeurs de la densité ϕ et de la fonction de répartition Φ
de la loi normale réduite N (0, 1) (voir page 150) ; les valeurs de la fonction de répartition FX et de
la densité fX d’une variable X suivant la loi normale N (m, σ) s’en déduisent :
x − m 1 x − m
FX (x) = Φ , fX (x) = ϕ .
σ σ σ
X−m
D’après le théorème 64 si X suit la loi normale N (m σ) alors X∗ = , variable réduite associée,
σ
suit la loi normale réduite.
x − m x − m
FX (x) = P(X < x) = P X∗ < =Φ .
σ σ
En dérivant :
1 x − m
fX (x) = ϕ
σ σ
fX (x)
1
0<a<1
a=1
0, 5 1<a<2
a=2
a>2
x
0 2 4 6 8 10
1
fc
X (t) = ·
(1 − it)a
1 a−1 −z
g(z) = z e .
Γ(a)
D’où :
1
fc
X (t) = ·
(1 − it)a
E(X) = Var(X) = a.
Remarques
1. La loi γ(a, 1) est la loi γ(a).
2. La loi γ(1, λ) est la loi exponentielle E(λ).
Théorème 73. Soit α > 0.
λ
T suit la loi γ(a, λ) ⇐⇒ U = αT suit la loi γ(a, ).
α
En particulier : T suit la loi γ(a, λ) ⇐⇒ X = λT suit la loi γ(a).
1. Supposons que T suit la loi γ(a, λ). La fonction de répartition de U = αT est :
u u
FU (u) = P(U < u) = P T < = FT .
α α
On obtient la densité de probabilité en dérivant :
λ/α λ a−1 − λ u
1 u u e α si u > 0,
fU (u) = fT = Γ(a) α
α α 0 sinon.
λ
Donc U suit la loi γ(a, α ).
λ
On a, pour tout ϕ ∈ D1 :
2. Supposons que U suit la loi γ(a, α ).
U Z ∞ u
E ϕ(T) = E ϕ = ϕ fU (u) du
α −∞ α
Z ∞
= ϕ(t)fU (αt) αdt, en posant u = αt.
−∞
Remarque : nous avons utilisé deux méthodes différentes à titre d’exemple et de comparaison.
Théorème 74. Si T suit la loi γ(a, λ) on a :
a a
E(T) = et Var(T) = ·
λ λ2
La variable aléatoire X = λT suit la loi γ(a) ; donc :
X 1 a X 1 a
E(T) = E = E(X) = et Var(T) = Var = 2 E(X) = 2 ·
λ λ λ λ λ λ
Théorème 75 (stabilité). Si les variables aléatoires T et U suivent les lois γ(a, λ) et γ(b, λ) et sont
indépendantes leur somme suit la loi γ(a + b, λ).
On pose X = λT et Y = λU et on applique le théorème 72.
Théorème 76. La fonction caractéristique de la loi γ(a, λ) est :
1
fb(t) = ·
(1 − it/λ)a
Si T suit la loi γ(a, λ) alors X = λT suit la loi γ(a) ; on applique le théorème 47 :
c t = 1
fc
T (t) = fX/λ (t) = fX
d .
λ (1 − it/λ)a
X2
Théorème 77. Si X suit la loi normale réduite alors V = suit la loi γ( 12 ).
2
On applique le théorème 44. Pour toute fonction ϕ appartenant à D1 :
X2 Z ∞ x2 1 x2
E ϕ(V) = E ϕ = ϕ √ exp − dx
2 −∞ 2 2π 2
√
r Z ∞ r Z ∞
2 x2 x2 2 dv
= ϕ exp − dx = ϕ(v)e−v √ , où x = 2v.
π 0 2 2 π 0 2v
D’où :
1 −1/2 −v 1
√ v e = v −1/2 e−v si v > 0,
fV (v) =
π Γ(1/2)
0 sinon.
Donc V suit la loi γ( 12 ).
Théorème 78. Si X1 , X2 ,. . ., Xn suivent la loi normale réduite et sont indépendantes alors
n
1X 2
W= Xk
2
k=1
suit la loi γ( n2 ).
X2
Les variables aléatoires Vk = k sont indépendantes et suivent toutes la loi γ( 12 ) ; d’après le théo-
2
rème 72 W = nk=1 Vk suit la loi γ( n2 ).
P
56 Chapitre 3 – Variables aléatoires absolument continues
z a−1
1
si z > 0,
fZ (z) = B(a, b) (z + 1)a+b
0 sinon.
1
On pose : t = (1 + )u.
z
Z ∞
z a−1
fZ (z) = ta+b−1 e−t dt
Γ(a)Γ(b)(z + 1)a+b 0
z a−1 Γ(a + b) 1 z a−1
= = ·
Γ(a)Γ(b)(z + 1)a+b B(a, b) (z + 1)a+b
a a(a + b − 1)
E(Z) = (b > 1) et Var(Z) = (b > 2).
b−1 (b − 1)2 (b − 2)
3.6 – Lois de probabilités continues classiques 57
∞
z a+r−1
Z
r 1 z
E(Z ) = a+b
dz. On pose : u = ·
B(a, b) 0 (z + 1) z+1
u a+r−1
Z 1 Z 1
1 1−u du 1
= 1 a+b (1 − u)2 = B(a, b) ua+r−1 (1 − u)b−r−1 du
B(a, b) 0 ( 1−u ) 0
| {z }
=B(a+r,b−r)
B(a + r, b − r)
= si r < b.
B(a, b)
D’où
n
X
χ2n = Xk 2 .
k=1
n
1X 2
On sait (cf. théorème 78) que W = Xk suit la loi γ( n2 )· D’après le théorème 73 la variable
2
k=1
aléatoire χ2n = 2 W suit donc la loi γ( n2 , 12 )·
La densité de la loi du χ2 à n degrés de liberté est donc définie par
1 u n2 −1 − u
e 2 si u > 0,
fχ2n (u) = 2Γ( n2 ) 2
0 sinon,
fχ2n (u)
n=1
0.5
n=2
n=3
n=4
0, 1 n>4
u
0 2 4 6 8 10
La loi du khi-deux étant une loi gamma il suffit d’appliquer le théorème 75. On peut également re-
marquer que (X+Y) est la somme des carrés de (n1 +n2 ) variables normales réduites indépendantes.
Théorème 82. Soit X un vecteur gaussien de dimension n de loi N (m, c) ; la variable aléatoire
Y = (X − m)T c−1 (X − m) suit la loi du khi-deux à n degrés de liberté.
Or :
n n n 1 1 1
A = − ln n + ln 2 + + ln n − ln 2 − ln(2π) + o(1) (S TIRLING),
2 2 2 2 2 2
1 1 z 1 z2 1
B = (n − 1) − ln 2 + ln n + √ − − + o( ,
2 2 2n 4n 4n n
z 2 1 n z√
C = − + − − 2n − 1.
4 4 2 2
En regroupant et en simplifiant :
r
z2 z2
r
1 n 1 1
ln fZ (z) = − ln(2π) − +z 1− 1− + o(1) −→ − ln(2π) − ·
2 2 2 2n n→∞ 2 2
Donc :
1 z2
fZ (z) −→ √ e− 2 .
n→∞ 2π
On pose : r r
9n 3 χ2n 2
Z= − 1− .
2 n 9n
Par la même méthode que ci-dessus on obtient pour n grand, lorsque z est fixé :
1 n n−1 r 2 2 3n −1 n r 2 2 3
2
fZ (z) = 2
z + 1 − exp − z + 1 − .
Γ( n2 ) 2 9n 9n 2 9n 9n
1 z2
fZ (z) −→ √ e− 2 .
n→∞ 2π
Ces approximations donnent des résultats numériquement satisfaisants dès que n est supérieur à 30,
l’approximation de W ILSON-H ILFERTY étant un peu meilleure que celle de F ISHER.
X
T= p
Y/n
Théorème 86. La densité de probabilité de la loi de S TUDENT à n degrés de liberté est définie par :
1
fT (t) = ·
√ 1 n t2 n+1
n B( , ) (1 + ) 2
2 2 n
T2 X2 /2
On a : Z = = ·
n Y/2
Or, d’après le théorème 77 (page 55), X2 /2 suit la loi γ( 21 ) et, d’après le théorème 78, Y/2 suit la loi
γ( n2 ) ; d’autre part ces variables sont indépendantes. D’après le théorème 79 la variable aléatoire Z
suit la loi β( 12 , n2 ).
Par ailleurs
p
FT (−t) = P(T < −t) = P(X < −t Y/n)
p
= P(X > t Y/n), car X suit la loi normale réduite,
= P(T > t) = 1 − FT (t) ;
En dérivant on obtient :
2t
2fT (t) = fZ (t2 /n)
n
et la densité de probabilité de T :
t 1 (t2 /n)−1/2 1
fT (t) = 1 n 2 (n+1)/2
=√ 1 n
n B( 2 , 2 ) (1 + t /n) nB( 2 , 2 )(1 + t2 /n)(n+1)/2
fT (t)
0.4
n = 10
n=3
n=1
0, 1
t
−6 −4 −2 0 2 4 6
L’espérance mathématique est définie si n > 1 ; elle est nulle puisque la densité de probabilité est
paire. La variance est définie pour n > 2 :
1/2 n
Var(T) = E(T2 ) = E(n Z) = n = ·
n/2 − 1 n−2
Théorème 87. La loi de S TUDENT converge en loi vers une loi normale réduite.
et r
t2 (n+1)/2 t2 n t2 1/2 2
1+ = 1+ 1+ −→ et /2 .
n n n n→∞
Donc :
2
e−t /2
fT (t) −→ √ ·
n→∞ 2π
62 Chapitre 3 – Variables aléatoires absolument continues
fm,n (z)
1
n=8
m=1
m=4
m=8
m = 20
0, 1
z
0 1 5
3.6 – Lois de probabilités continues classiques 63
n n m/2 n
E(Z) = E(U) = = pour n > 2,
m m n/2 − 1 n−2
n 2 n2 m/2 (m + n)/2 − 1 2n2 (m + n − 2)
Var(Z) = Var(U) = 2 2
= pour n > 4.
m m (n/2 − 1) (n/2 − 2) m(n − 2)2 (n − 4)
1
Théorème 89. Si Z suit la loi F(m, n) alors suit la loi F(n, m) ; donc :
Z
1
Fn,m (t) = 1 − Fm,n ( ).
t
En échangeant les rôles de X et Y on échange m et n. Alors :
1 1 1
Fn,m (t) = P( < t) = P(Z > ) = 1 − Fm,n ( ).
Z t t
Théorème 90. Le carré d’une variable de S TUDENT à n degrés de liberté suit la loi de F ISHER-
S NEDECOR F(1, n).
X
Si T suit la loi de S TUDENT à n degrés de liberté on peut poser T = p où X suit la loi normale
Y/n
X2
réduite et Y la loi du khi-deux à n degrés de liberté. On a alors Z = T2 = où X2 suit la loi du
Y/n
khi-deux à un degré de liberté ; la conclusion découle de la définition de la loi de F ISHER-S NEDECOR.
64 Chapitre 3 – Variables aléatoires absolument continues
Chapitre 4
Convergences stochastiques
Le théorème suivant, que nous admettons, est souvent utilisé pour démontrer la convergence en loi.
p
On note : Xn −
→ X.
De
(Y < x) = (Y < x) ∩ (X < x + η) ∪ (Y < x) ∩ (X ≥ x + η) ⊂ (X < x + η) ∪ |X − Y| > η
on déduit
FY (x) ≤ FX (x + η) + P |X − Y| > η .
De même, de
(X < x − η) = (X < x − η) ∩ (Y < x) ∪ (X < x − η) ∩ (Y ≥ x) ⊂ (Y < x) ∪ |X − Y| > η
on déduit
FX (x − η) ≤ FY (x) + P |X − Y| > η .
D’où :
FX (x − η) − P |X − Y| > η ≤ FY (x) ≤ FX (x + η) + P |X − Y| > η .
Par ailleurs, puisque FX est croissante :
FX (x − η) ≤ FX (x) ≤ FX (x + η).
Le lemme s’en déduit par soustraction membre à membre.
Montrons le théorème.
Remplaçant Y par Xn dans le lemme nous obtenons :
∀n ≥ 1, ∀η > 0, FX (x) − FXn (x) ≤ FX (x + η) − FX (x − η) + P |X − Xn | > η .
Soit ε > 0.
– Supposons que FX est continue en x :
ε
∃α > 0, 0 < η < α ⇒ FX (x + η) − FX (x − η) ≤ ·
2
On choisit une valeur η0 de η vérifiant cette inégalité :
ε
FX (x + η0 ) − FX (x − η0 ) ≤ ·
2
– Supposons que (Xn )n≥1 converge en probabilité vers X : P |Xn − X| > η0 −−−→ 0.
n→∞
Donc : ε
∃N ∈ N, n ≥ N ⇒ P |X − Xn | > η0 ≤ ·
2
On en déduit
n ≥ N ⇒ FX (x) − FXn (x) ≤ FX (x + η0 ) − FX (x − η0 ) + P |X − Xn | > η0 ≤ ε,
| {z } | {z }
≤ε/2 ≤ε/2
c’est-à-dire : FXn (x) −−−→ FX (x) ; la suite (Xn )n≥1 converge en loi vers X.
n→∞
Il existe d’autres types de convergence stochastique : en moyenne quadratique, presque sûre. . . On
pourra consulter à ce sujet [8] ou [16] par exemple.
4.2 – Loi faible des grands nombres 67
σ2
On a immédiatement : E(Xn ) = m et Var(Xn ) = . On applique l’inégalité de B IENAYMÉ-
n
T CHEBYCHEV (théorème 24) :
Var(Xn ) σ2
P(|Xn − m| ≥ ε) = P(|Xn − E(Xn )| ≥ ε) ≤ = −−−→ 0.
ε2 nε2 n→∞
σ2 2
ϕ(t) = 1 − t + o(t2 ).
2
Pn
k=1 (X − m)
En appliquant les théorèmes 47 et 54 on obtient la fonction caractéristique de S∗n = √k :
σ n
t n t2 t2 n t2
fc
S∗n (t) = ϕ √ = 1− +o −−−→ exp −
σ n 2n n n→∞ 2
Le théorème 91 permet de conclure.
Il suffit d’appliquer le théorème 95 en prenant pour loi de Xn la loi de B ERNOULLI B(1, p).
1 k − np
Une valeur approchée de b(k, n, p) lorsque n est « grand » est : √ ϕ √ .
npq npq
En pratique les approximations sont convenables
1. lorsque p est voisin de 0.5 et n ≥ 10,
2. lorsque n ≥ 50.
µk
n k
pn (1 − pn )n−k −−−→ e−µ ·
k n→∞ k!
On pose : un = npn ; par hypothèse : un −−−→ µ.
n→∞
n k 1 n! u n k un n−k
pn (1 − pn )n−k = 1− .
k k! (n − k)! n n
Or :
4.4 – Application : approximations de la loi binomiale 69
k−1
n! k
Y i
• =n 1− ∼ nk ;
(n − k)! n
i=1
u n k µ k
• ∼ ;
n n
un n−k un
• ln 1 − = (n − k) ln 1 − −−−→ −µ.
n n n→∞
Donc :
µk
n k
pn (1 − pn )n−k −−−→ e−µ ·
k n→∞ k!
Remarque : puisque n pn tend vers une limite finie, pn tend vers zéro lorsque n tend vers l’infini ;
l’approximation de P OISSON de b(k, n, p) est valable pour les « petites » valeurs de p. En pratique
elle donne des résultats convenables lorsque p < 0.2 et 10 < np < 50. Sinon il vaut mieux utiliser
l’approximation normale.
0, 3
Loi binomiale
Approximation de Poisson
Approximation normale
0, 2
n = 40
p = 0, 05
0, 1
0 1 10
0, 3
Loi binomiale
Approximation de Poisson
Approximation normale
0, 2
n = 10
p = 0, 4
0, 1
0 1 10
70 Chapitre 4 – Convergences stochastiques
Chapitre 5
Chaînes de M ARKOV
5.1 Introduction
Définition 38. Un processus aléatoire est une application d’un ensemble T inclus dans R dans un
ensemble de variables aléatoires prenant leurs valeurs dans un ensemble E :
t ∈ T −→ (Xt : Ω → E)
(λt)k
P (Xt = k) = e−λt ·
k!
C’est un processus permanent à espace d’états dénombrable.
5.2 Définition
Définition 39. Une chaîne de M ARKOV est un processus aléatoire discret où T = N,
72 Chapitre 5 – Chaînes de M ARKOV
En d’autres termes l’état présent résume toute l’information utile pour connaître le comportement
futur. On a :
[ X
P (Xn+1 = j) = P (Xn = i) ∩ (Xn+1 = j) = P (Xn = i) P (Xn+1 = j | Xn = i).
i∈E i∈E
{n}
ai,j = P (Xn+1 = j | Xn = i) pi,n = P (Xn = i)
On a alors :
r
{n}
X
∀j ∈ {1, 2, . . . , r}, pj,n+1 = pi,n ai,j
i=1
Nous nous limiterons par la suite aux chaînes homogènes à espace d’états fini.
5.2 – Définition 73
q2 q3
p2 p3 1
1 2 3 4
1 r2 r3
1 q2 q3 q4 1
p2 p3 p4
1 2 3 4 5
r2 r3 r4
où l’on a posé q = 1 − p.
74 Chapitre 5 – Chaînes de M ARKOV
et
r
X
∀i ∈ {1, 2, . . . , r}, ai,j = 1.
j=1
r
X r
X r
[
∀i ∈ {1, 2, . . . , r}, ai,j = P (Xn+1 = j | Xn = i) = P(Xn =i) (Xn+1 = j) = 1.
j=1 j=1 j=1
| {z }
Ω
Théorème 100. Le produit de deux matrices stochastiques est une matrice stochastique.
Supposons que les matrices A et B sont stochastiques et posons C = AB. On a
r
X
2
∀(i, j) ∈ {1, 2, . . . , r} , ci,j = ai,k bk,j ≥ 0
k=1
et
r
X r X
X r r
X r
X r
X
∀i ∈ {1, 2, . . . , r}, ci,j = ai,k bk,j = ai,k bk,j = ai,k = 1.
j=1 j=1 k=1 k=1 j=1 k=1
| {z }
=1,∀k
Donc λxj1 est l’un des xj , par exemple xj2 : xj2 = λxj1 = λ2 xk . Distinguons deux cas :
1. soit xj2 = xk et λ2 = 1 : λ est une racine de l’unité ;
2. soit xj2 6= xk et on itère le procédé. Le nombre de coordonnées de x étant fini on finira par
obtenir xjp = λp xk = xk et donc λp = 1 : λ est racine de l’unité.
Théorème 103. Si A 0 la seule valeur propre de module égal à 1 est 1 (elle est simple ou multiple).
Théorème admis.
76 Chapitre 5 – Chaînes de M ARKOV
(n+1) (n)
c’est-à-dire que ai,j est le barycentre des ak,j 1≤k≤r affectés des poids ai,k ≥ 0.
Supposons j fixé.
(n+1) (n)
Pour tout i appartenant à {1, 2, . . . , r}, ai,j appartient à l’intervalle qui contient les ak,j 1≤k≤r .
Soient y1 , y2 , . . . , yr les éléments de la j-ième colonne de An en supposant 0 ≤ y1 ≤ y2 ≤ · · · ≤
(n) (n) (n)
yr ≤ 1 : {y1 , y2 , . . . , yr } = {a1,j , a2,j , . . . , ar,j }.
(n)
`n = yr − y1 est l’amplitude de l’intervalle qui contient tous les ai,j .
De même notons z1 , z2 , . . . , zr les éléments de la j-ième colonne de An+1 en supposant 0 ≤ z1 ≤
(n+1) (n+1) (n+1)
z2 ≤ · · · ≤ zr ≤ 1 : {z1 , z2 , . . . , zr } = {a1,j , a2,j , . . . , ar,j } ⊆ [y1 , yr ].
On a `n+1 = zr − z1 et
r
X ∀(h, k), ch,k ≥ ε > 0,
∀h ∈ {1, 2, . . . , r}, zh = ch,k yk avec Pr
k=1 ch,k = 1,
k=1
car les ch,k sont les éléments d’une ligne de A. D’où, pour tout h :
r
X r
X r
X
zh − y 1 = ch,k yk − ch,k y1 = ch,k (yk − y1 )
k=1 k=1 k=1
r−1
X
= ch,k (yk − y1 ) + ch,r (yr − y1 ) ≥ ε`n .
| {z } |{z} | {z }
k=1
≥0 ≥ε =`n
r
X
yr − zh = ch,1 (yr − y1 ) + ch,k (yr − yk ) ≥ ε`n .
k=2
`n
On en déduit :
y1 yr
`n+1 ≤ `n (1 − 2ε). z1 z2 zr
ε`n `n+1 ε`n
5.3 – Méthodes algébriques 77
Or `1 ≤ 1 − 2ε car le plus petit terme de toute colonne de A est supérieur ou égal à ε et le plus grand
terme est inférieur ou égal à (1 − ε) puisque la somme des termes de sa ligne, tous supérieurs ou
égaux à ε, est égale à 1 (il est même inférieur à 1 − (r − 1)ε . . . ).
Donc : `n ≤ (1 − 2ε)n −−−→ 0 ; tous les éléments de la j-ième colonne de An appartiennent à un
n→∞
intervalle In dont la longueur tend vers zéro : ils ont une limite commune aj .
On a de plus
I1
2 (n) n I2
∀n ≥ 1, ∀(i, j) ∈ {1, 2, . . . , r} , |ai,j −aj | ≤ (1−2ε)
Enfin :
r r r
X
(n) (n)
X X
aj = lim a = lim ai,j = 1.
n→∞ i,j n→∞
j=1 j=1 j=1
Une condition suffisante pour que ce théorème s’applique est |i − j| ≤ 1 =⇒ ai,j > 0.
(n) ε
∀(i, j) ∈ {1, 2, . . . , r}2 , ∃N (i, j) tel que n ≥ N (i, j) ⇒ |ai,j − aj | ≤
2
et donc
(n) ε
∀(i, j) ∈ {1, 2, . . . , r}2 , ai,j ≥ ·
2
(m) ε
Soit m = max N (i, j) ; on a ∀(i, j) ∈ {1, 2, . . . , r}2 , ai,j ≥ et donc Am 0.
(i,j) 2
Définition 41. Une chaîne est irréductible si elle possède une seule classe d’équivalence.
Définition 42. Une classe dont on peut sortir est une classe de passage (on ne peut y entrer à nou-
veau. . . ) ; sinon c’est une classe finale.
Exemple 5.4.1. Promenade avec barrières réfléchissantes (voir exemple 5.2.1) : la chaîne est irré-
ductible.
Exemple 5.4.2. Promenade avec barrières absorbantes (voir exemple 5.2.2). Il y a trois classes :
5.4.2 Périodicité
(n)
Définition 43. La période d(i) de l’état i est le PGCD des entiers n ≥ 1 tels que ai,i > 0.
(n)
Si ai,i est nul pour tout n ≥ 1 on note d(i) = 0 par convention.
Si tous les états ont pour période 1 la chaîne est apériodique.
(n d(i))
Théorème 107. ∀i ∈ {1, 2, . . . , r}, ∃N ∈ N, n ≥ N =⇒ ai,i > 0.
(d(i))
Attention : on n’a pas en général ai,i > 0. Dans l’exemple 5.2.1 l’état 4 a une période égale à 1 si
q3 6= 0, mais on ne peut y revenir en une transition.
Théorème 108. Tous les états d’une même classe ont la même période : c’est la période de la classe.
(m) (n)
Soient i et j deux états d’une même classe : ∃m ≥ 1, ai,j > 0 et ∃n ≥ 1, aj,i > 0.
(s)
Soit s ≥ 1 tel que ai,i > 0 (s = m + n convient, par exemple). On a :
r r X
r
(n+m+s) (n+s) (m) (n) (s) (m) (n) (s) (m)
X X
aj,j = aj,k ak,j = aj,l al,k ak,j ≥ aj,i ai,i ai,j > 0.
k=1 k=1 l=1
5.4.3 Récurrence
Définition 44. La probabilité de premier retour en i en n étapes est :
n−1
(n)
\
fi,i = P (Xn = i) ∩ [ (Xj 6= i)] | (X0 = i) .
j=1
(n)
Notant Ti,j le temps de premier passage en j partant de i on a fi,i = P (Ti,i = n).
(0)
On pose par convention : fi,i = 0.
Théorème 109.
n
(n) (k) (n−k)
X
∀n ≥ 1, ai,i = fi,i ai,i .
k=0
80 Chapitre 5 – Chaînes de M ARKOV
(n)
ai,i = P (Xn = i | X0 = i)
n hk−1
[ !
\ i
= P(X0 =i) (Xn = i) ∩ (Xk = i) ∩ 6 i)
(Xl =
k=1 l=1
n
X hk−1
\ i
= P(X0 =i) (Xn = i) ∩ (Xk = i) ∩ 6 i)
(Xl =
k=1 l=1
n
X hk−1
\ i
= P(X0 =i) (Xk = i) ∩ (Xl 6= i) P (Xn = i | Xk = i)
k=1 l=1
n n
(k) (n−k) (k) (n−k)
X X
= fi,i ai,i = fi,i ai,i
k=1 k=0
(k)
Cette relation permet de calculer les fi,i de proche en proche. On peut également utiliser les fonctions
génératrices ; on pose :
∞ ∞ ∞ ∞
(k) (k) (k) (k)
X X X X
Fi,i (z) = fi,i z k = fi,i z k et Ai,i (z) = ai,i z k = 1 + ai,i z k .
k=0 k=1 k=0 k=1
Théorème 110.
|z| < 1 =⇒ Fi,i (z) Ai,i (z) = Ai,i (z) − 1.
∞
X ∞
X X∞
(k) (k)
Fi,i (z) Ai,i (z) = fi,i z k ai,i z k = cn z n
k=0 k=0 n=0
(0)
avec c0 = 0 car fi,i = 0 et
n
(k) (n−k) (n)
X
cn = fi,i ai,i = ai,i si n ≥ 1
k=0
∞
(n)
X
Un état qui n’est pas récurrent est dit transitoire : fi,i < 1.
n=1
5.4 – Classification des états 81
∞
(n)
X
Théorème 111. L’état i est récurrent ⇐⇒ ai,i = ∞ (la série diverge).
n=1
On rappelle le théorème :
Soit une série entière dont le rayon de convergence est égal à R. Si la série converge pour x = R sa
somme est continue sur l’intervalle [0, R].
∞ ∞
(n) (n)
X X
1. Supposons que l’état i est récurrent : fi,i = 1. La série entière Fi,i (z) = fi,i z n
n=1 n=1
converge pour z = 1 ; sa somme Fi,i est donc continue sur l’intervalle [0, 1] : Fi,i (z) −−−−→ 1.
z→1−
∞ ∞
(n) (n)
X X
Donc Ai,i (z) −−−−→ +∞ et ai,i = +∞ car sinon la série ai,i z n converge pour
z→1−
n=0 n=0
z = 1 et la fonction Ai,i , continue sur [0, 1], a une limite finie lorsque z tend vers 1 par valeur
inférieure.
∞
(n)
X
2. Si la série ai,i diverge on a Ai,i (z) −−−−→ +∞, donc Fi,i (z) −−−−→ 1 et finalement
z→1− z→1−
n=0
∞
(n)
X
fi,i = 1.
n=1
∞
(s)
X
Supposons que l’état i est récurrent : ai,i = +∞. Alors :
s=1
∞ ∞ X
r ∞ X
r X
r
(m+n+s) (m) (n+s) (m) (s) (n)
X X X
aj,j = aj,k ak,j = aj,k ak,l al,j
s=1 s=1 k=1 s=1 k=1 l=1
∞ ∞
(m) (s) (n) (m) (n) (s)
X X
≥ aj,i ai,i ai,j = aj,i ai,j ai,i = +∞
s=1 s=1
∞
(k)
X
Donc aj,j = +∞ : l’état j est récurrent.
k=1
Théorème 113. Le nombre de classes récurrentes est égal à la multiplicité de 1 comme valeur propre
de A.
Quitte à renuméroter les états si besoin on note T = {1, 2, . . . , ν} et on introduit les matrices :
T T
Q= ai,j 1≤i,j≤ν
, X(C) = x1 (C) · · · xν (C) et R(C) = r1 (C) · · · rν (C) .
On a :
X(C) = (I − Q)−1 R(C).
∞ ∞ ∞
X (n)
X (n) 1 X (n) 2
2. a2,2 = a4,4 = a3,3 = : les états 2, 3 et 4 sont transitoires.
2 5
n=1 n=1 n=1
Par ailleurs :
T T
R(C1 ) = 2/3 0 0 et R(C2 ) = 0 0 1/3 .
1 T 1 T
X(C1 ) = 14 12 8 et X(C2 ) = 1 3 7 .
15 15
1 0 0 0 0
On peut en déduire (mais ce résultat peut éga-
14/15 0 0 0 1/15
lement être obtenu en passant à la limite dans A∞ =
12/15 0 0 0 3/15
An ) :
8/15 0 0 0 7/15
0 0 0 0 1
D’où :
∞
A1,1 (s) − 1 X (n)
F1,1 (s) = =s= f1,1 sn
A1,1 (s)
n=1
Donc
(1) (n)
f1,1 = 1 et f1,1 = 0 pour n ≥ 2,
2s2
∞
1 2 2k 2k 1 − 3
9
X
A2,2 (s) = 1 + s = pour |s| < ·
2 3 4s2 2
k=1 1−
9
84 Chapitre 5 – Chaînes de M ARKOV
D’où :
∞
2s2 X 2 k
F2,2 (s) = = s2k .
9 − 2s2 9
k=1
Donc
(2k) 2 k (2k−1)
f2,2 = et f2,2 = 0 pour k ∈ N∗ .
9
∗ =
P∞ (n) 2
f2,2 n=1 f2,2 = 7 , ce qui confirme que l’état 2 est transitoire.
On a un résultat identique pour l’état 4.
3. État 3 :
∞
X 2 2k 2k 1 3
A3,3 (s) = 1 + s = pour |s| < ·
3 4s2 2
k=1 1−
9
D’où :
4s2
F3,3 (s) = ·
9
Donc
(2) 4 (n)
f3,3 = et f3,3 = 0 pour n 6= 2,
9
ce qui est assez évident. . .
∗ =
P∞ (n) 4
f3,3 n=1 f3,3 = 9 , ce qui confirme que l’état 3 est transitoire.
Soit Ni,j le temps total de séjour dans l’état transitoire j en partant de l’état transitoire i. Posons :
(k)
ri,j = P(Ni,j = k), mi,j = E(Ni,j ) et M = (mi,j )1≤i,j≤ν .
Donc :
∞ ∞ ∞
(k) (k) (k)
X X X X X X
mi,j = k ri,j = k ai,s rs,j = ai,s k rs,j = ai,s ms,j .
k=0 k=0 s∈T s∈T k=0 s∈T
• Si i = j :
(0)
ri,i = 0,
(1) (0)
X X
ri,i = ai,s + ai,s rs,i ,
s∈R s∈T
(k) (k−1)
X
ri,i = ai,s rs,i pour k ≥ 2.
s∈T
5.4 – Classification des états 85
Donc :
∞ ∞
(k) (0) (k−1)
X X X X X
mi,i = k ri,i = ai,s + ai,s rs,i + k ai,s rs,i
k=0 s∈R s∈T k=2 s∈T
∞
(0) (k−1)
X X X X
= ai,s + ai,s rs,i + ai,s k rs,i
s∈R s∈T s∈T k=2
∞
(0) (l)
X X X X
= ai,s + ai,s rs,i + ai,s (l + 1) rs,i
s∈R s∈T s∈T l=1
∞ ∞
(0) (k) (k)
X X X X X X
= ai,s + ai,s rs,i + ai,s rs,i + ai,s k rs,i
s∈R s∈T s∈T k=1 s∈T
| {z } |k=1 {z }
∞ =ms,i
(k)
X X
= ai,s rs,i
s∈T
|k=0{z }
=1
X X X
= ai,s + ai,s + ai,s ms,i
s∈R s∈T s∈T
| {z }
=1
X
= 1+ ai,s ms,i .
s∈T
M = (I − Q)−1 .
Estimation
6.1 Introduction
Soit X une variable aléatoire dont la densité de probabilité f (x, θ) dépend d’un paramètre θ apparte-
nant à Rk .
Au vu d’un échantillon de X il s’agit de déterminer au mieux la « vraie » valeur θ0 de θ. On peut
utiliser deux méthodes :
– Estimation ponctuelle : on calcule une valeur vraisemblable θb de θ0 .
– Estimation par intervalle : on cherche un intervalle dans lequel θ0 se trouve avec une probabilité
élevée.
Définition 46. Un n-échantillon de X est un n-uplet (X1 , X2 , . . . , Xn ) tel que les Xk ont la même loi
que X et sont indépendantes.
Définition 47. Une réalisation de l’échantillon est un n-uplet (x1 , x2 , . . . , xn ) où les xk sont des
nombres réels, résultats d’expériences.
Définition 48. Une statistique de l’échantillon est une variable aléatoire ϕ(X1 , X2 , . . . , Xn ) où ϕ est
une application de Rn dans R.
Définition 50. Le biais de l’estimateur est (E(T) − θ0 ). S’il est nul T est un estimateur sans biais.
lim E(Tn ) = θ0 .
n→∞
88 Chapitre 6 – Estimation
Définition 52. L’estimateur est convergent si la suite (Tn ) converge en probabilité vers θ0 :
Théorème 114. Un estimateur convergent est asymptotiquement sans biais. Pour qu’un estimateur
asymptotiquement sans biais soit convergent il suffit que Var(Tn ) −−−→ 0.
n→∞
Définition 53. Soient T1 et T2 deux estimateurs de θ. On dira que T1 est plus efficace que T2 si
E((T1 − θ0 )2 ) ≤ E((T2 − θ0 )2 ).
Si T1 et T2 sont des estimateurs sans biais cette condition s’écrit : Var(T1 ) ≤ Var(T2 ).
Définition 54. Une estimation est la valeur de l’estimateur correspondant à une réalisation de
l’échantillon.
Estimation de m
n
1X
Théorème 115. La moyenne empirique Xn = Xk est un estimateur sans biais et convergent
n
k=1
de m.
On a
n n
1X 1 X σ2
E(Xn ) = E(Xk ) = m et Var(Xn ) = 2
Var(Xk ) = −−−→ 0.
n n n n→∞
k=1 k=1
2
Donc S00n est un estimateur convergent.
2
Donc Sn est un estimateur convergent.
Théorème 118. Un estimateur sans biais et convergent de σ 2 est la variance empirique corrigée :
n
2 1 X
S0n = (Xk − Xn )2 .
n−1
k=1
2 n 2
Puisque S0n = Sn on a :
n−1
2 n 2 2 n 2 2
E(S0n ) = E(Sn ) = σ 2 et Var(S0n ) = Var(Sn ) −−−→ 0.
n−1 n−1 n→∞
Remarque : on ne saurait déduire de ce théorème que S0n est un estimateur sans biais de σ.
90 Chapitre 6 – Estimation
= 0 si k est impair.
Si k est pair :
∞ ∞
2p σ 2p 2p+1 σ 2p
Z Z
2p −u2 2
µ2p = √ u e du = √ u2p e−u du
π −∞ π 0
∞
2p σ 2p √
Z
1
= √ v p− 2 e−v dv en posant u = v,
π 0
2p σ 2p 1 (2p)! 2p
= √ Γ(p + ) = p σ .
π 2 2 (p!)
2 1 2 1 2(n − 1) 2
Var(Sn ) = (µ4 − µ2 2 ) − 2 (µ4 − 2µ2 2 ) + 3 (µ4 − 3µ2 2 ) = µ2 .
n n n n2
Théorème 119. Soit (X1 , X2 , . . . , Xn ) un échantillon d’une variable normale réduite ; n(Xn )2 suit
une loi du χ2 à un degré de liberté.
X + X + · · · + X 2
1 2 n
On a : n(Xn )2 = √ . Or les Xk suivent la loi normale réduite et sont indépen-
n
n
√ 1 X
dantes ; donc leur somme suit la loi N (0, n) et √ Xk suit la loi normale réduite.
n
k=1
Théorème 120 (F ISHER). Soit (X1 , X2 , . . . , Xn ) un échantillon d’une variable normale réduite ; les
variables aléatoires
n
√ X 2 2
n Xn et (Xk − Xn )2 = nSn = (n − 1)S0n
k=1
6.2 – Estimation ponctuelle 91
On a 1 1 1
n n ... n
Xn X1
n−1
− n1 . . . − n1
n
X1 − Xn X2
1 n−1 . . .
.
..
= a où : a = − .
.. ... n n
. . .. ..
..
. . −n 1
Xn − Xn Xn
1 1 n−1
−n . . . −n n
T
Le vecteur aléatoire X1 X2 . . . Xn est gaussien de loi N (0, I) ; d’après le corollaire 3
T
est également gaussien, de loi N (0, a aT ). Or :
le vecteur Xn X1 − Xn . . . Xn − Xn
1
n 0 0 ... 0
n−1
− n1 − n1
0 n ...
.. ..
a aT = 0 − n1 n−1 . .
n
.. .. .. ..
1
. . . . −n
0 − n1 ... − n1 n−1
n
T
La variable aléatoire Xn est indépendante du vecteur aléatoire X1 − Xn X2 − Xn . . . Xn − Xn :
Pn 2
elle est donc indépendante de k=1 (Xk − Xn ) .
√ √
2. On sait que Xn suit la loi normale N (0, 1/ n). Donc n Xn suit la loi normale réduite.
2 Pn
3. Montrons que nSn = k=1 (Xk − Xn )2 suit la loi du χ2 à (n − 1) degrés de liberté.
T T
X1 − Xn X2 − Xn . . . Xn − Xn =b X1 X2 . . . Xn
| {z } | {z }
=Y =X
où b est la matrice obtenue en supprimant la première ligne de a.
b est symétrique : il existe une matrice orthogonale u telle que b = u d uT où d est la matrice
diagonale des valeurs propres de b. Or celles-ci sont :
• la valeur propre simple égale à 0 dont le sous-espace propre associé a pour équation x1 =
x2 = · · · = xn ;
• la valeur propre d’ordre (n − 1) égale à 1 dont le sous-espace propre a pour équation x1 +
x2 + · · · + xn = 0.
En ordonnant convenablement la base de vecteurs propres on peut choisir :
1 0 ... 0
.
0 . . . . . . ..
d= . .
.
.. . . 1 0
0 ... 0 0
92 Chapitre 6 – Estimation
On a : Y = b X = u d uT X et
n
X
uT u d uT X = (uT X)T d (uT X).
(Xk − Xn )2 = YT Y = XT u d |{z}
k=1
| =I
{z }
=d
T
Or le vecteur aléatoire Z = uT X est gaussien de loi N (0, u
| {zI u}). Donc
=I
n
X n−1
X
(Xk − Xn )2 = ZT d Z = Z2i
k=1 i=1
On en déduit immédiatement que si (X1 , X2 , . . . , Xn ) est un échantillon d’une variable normale de loi
N (m, σ) la variable aléatoire
n 2
1 X 2 (n − 1)S0n
(Xk − Xn ) =
σ2 σ2
k=1
∀θ ∈ Θ, L(θ) ≤ L(θ).
b
6.3 – Estimation par intervalle 93
Remarques
∂f ∂2f
Théorème 121. Si f > 0 et si et sont continues l’estimateur θb du maximum de vraisem-
∂θ ∂θ2
blance vérifie
∂ ln L b
∀i ∈ {1, 2, . . . , k}, (θ) = 0,
∂θi
∂ 2 ln L
2. la condition suffisante de maximum : la matrice hessienne de ln L, (θ)
b , est
∂θi ∂θj 1≤i,j≤k
définie négative.
d(ln L) b d2 (ln L) b
(θ) = 0, (θ) < 0.
dθ dθ2
6.3.1 Définitions
Définition 55. Soit X une variable aléatoire dont la loi dépend d’un paramètre θ.
T1 et T2 étant deux statistiques définies sur un n-échantillon de X on dit que l’intervalle [T1 , T2 ] est
un intervalle de confiance au niveau α pour θ si :
P(T1 ≤ θ ≤ T2 ) = α.
La probabilité d’erreur, c’est-à-dire que θ ne se trouve pas dans l’intervalle [T1 , T2 ], est égale à
(1 − α).
1−α
Définition 56. Si P(θ < T1 ) = P(θ > T2 ) = on dit que l’intervalle [T1 , T2 ] est symétrique
2
en probabilité.
94 Chapitre 6 – Estimation
α = P(Xn − a ≤ m ≤ Xn + b) = P(−b ≤ Xn − m ≤ a)
√ √ √ √
−b n Xn − m a n a n −b n
= P( ≤ √ ≤ ) = Φ( ) − Φ( )
σ σ/ n σ σ σ
Φ(u2 ) − Φ(u1 ) = α.
De √ √
a n −b n
= u2 et = u1
σ σ
on déduit un intervalle de confiance au niveau α :
h σ σ i
Xn − u2 √ , Xn − u1 √ .
n n
Notons zα le fractile d’ordre α de la loi normale réduite, c’est-à-dire le nombre qui vérifie :
Φ(zα ) = α.
Exemple : puisque z0,975 = 1.96 l’intervalle de confiance de m au niveau 95%, symétrique en proba-
bilité, est h σ σ i
Xn − 1.96 √ , Xn + 1.96 √ ,
n n
ce qui signifie que sur un grand nombre d’expériences cet intervalle contiendra effectivement m dans
95% des cas en moyenne.
6.3 – Estimation par intervalle 95
n
2 1 X
On estime σ par S0n tel que S0n = (Xk − Xn )2 . On veut obtenir :
n−1
k=1
√ √
−b n Xn − m a n
α = P(Xn − a ≤ m ≤ Xn + b) = P(−b ≤ Xn − m ≤ a) = P( 0 ≤ 0 √ ≤ 0 )
Sn Sn / n Sn
Posons
,s 2 2
Xn − m Xn − m S0n S0n U
T= 0 √ = √ et = ·
Sn / n σ/ n σ2 σ 2 n−1
n
1 X
Alors, d’après le théorème 120 (page 90), U = 2 (Xk − Xn )2 suit la loi du χ2 à (n − 1) degrés
σ
k=1
de liberté. Donc T suit la loi de S TUDENT à (n − 1) degrés de liberté (voir § 3.6.7, page 60).
On détermine dans la table (page 154) les valeurs de u1 et u2 telles que : P(u1 ≤ T ≤ u2 ) = α.
L’intervalle de confiance est alors :
h S0 S0 i
Xn − u2 √n , Xn − u1 √n .
n n
Exemple : pour n = 10, avec un niveau de confiance de 95% et un intervalle symétrique on obtient
l’intervalle
h S0 S0 i
Xn − 2.26 √n , Xn + 2.26 √n .
n n
Remarque : l’intervalle de confiance est plus grand que celui obtenu lorsqu’on connaît σ.
96 Chapitre 6 – Estimation
n 2
Xk − m X Xk − m
Si Xk suit la loi normale N (m, σ) alors suit la loi normale réduite et donc χ2n =
σ σ
k=1
suit la loi du χ2 à n degrés de liberté. On cherche dans les tables (page 152) les valeurs de u1 et u2
telles que
P(u1 ≤ χ2n ≤ u2 ) = α.
De
n n n
1 X 2 1 X 2 2 1 X
α = P(u1 ≤ 2 (Xk − m) ≤ u2 ) = P( (Xk − m) ≤ σ ≤ (Xk − m)2 )
σ u2 u1
k=1 k=1 k=1
h 1 Xn n
2, 1
X i
(Xk − m) (Xk − m)2 .
u2 u1
k=1 k=1
1−α 1−α
P(χ2n < u1 ) = et P(χ2n > u2 ) = ·
2 2
En notant un,α le fractile d’ordre α de la loi du khi-deux à n degrés de liberté, c’est-à-dire le nombre
qui vérifie
Fχ2n (un,α ) = α,
n n
h 1 X 1 X i
(Xk − m)2 , (Xk − m)2 .
un, 1+α un, 1−α
2 k=1 2 k=1
6.3 – Estimation par intervalle 97
n 2
X Xk − Xn
On estime m par Xn . D’après le théorème 120 (page 90) la variable aléatoire suit
σ
k=1
la loi du khi-deux à (n − 1) degrés de liberté.
Par le même raisonnement qu’au paragraphe précédent on obtient l’intervalle de confiance au niveau
α pour σ 2 .
L’intervalle de confiance au niveau α de σ 2 symétrique en probabilité est :
h 1
n
X 1
n
X i h (n − 1)S0 2 (n − 1)S0 2 i
2, 2 n , n
(Xk − Xn ) (Xk − Xn ) = .
un−1, 1+α un−1, 1−α un−1, 1+α un−1, 1−α
2 k=1 2 k=1 2 2
Remarque : un intervalle de confiance pour l’écart-type σ est obtenu à partir de celui de la variance
en prenant les racines carrées des bornes.
X
T= ·
n
Le nombre X d’individus de l’échantillon ayant la propriété suit la loi binomiale B(n, p). On a :
1 1 p(1 − p)
E(T) = E(X) = p et Var(T) = Var(X) = −−−→ 0.
n n2 n n→∞
X − np T−p
p =q suit approximativement la loi normale réduite N (0, 1).
np(1 − p) p(1−p)
n
T − a, T + b est un intervalle de confiance de p au niveau α si
b T−p a
α = P(T − a < p < T + b) = P − q <q <q
p(1−p) p(1−p) p(1−p)
n n n
a b
' Φ q − Φ −q .
p(1−p) p(1−p)
n n
Cette approximation de l’intervalle de confiance est meilleure que celle fournie par le théorème pré-
cédent.
On a :
T−p p(1 − p)
−u < q < u ⇔ (T − p)2 < u2
p(1−p) n
n
u2 u2
⇔ p2 1 + − 2p T + + T2 < 0.
n 2n
p doit donc être compris entre les racines du trinôme du second degré. On vérifie aisément que ce
trinôme a deux racines réelles appartenant à l’intervalle [0, 1]. D’où l’intervalle de confiance indiqué.
6.5 – Comparaison de moyennes et de variances 99
Lorsque n est faible la solution analytique est délicate : on utilise des abaques. . . ou un logiciel spé-
cialisé.
où l’on a posé
a −b
u2 = q et u1 = q ·
2
σ1 2
σ2 σ1 2 σ2 2
n1 + n2 n1 + n2
L’hypothèse d’égalité des variances peut être vérifiée en appliquant le théorème 134.
On pourrait remplacer σ1 et σ2 par les estimateurs S1 et S2 définis par :
n1 2n
1 X 2 1 X 2
S1 2 = Xi − X et S2 2 = Yj − Y .
n1 − 1 n2 − 1
i=1 j=1
Mais il est préférable d’utiliser un estimateur basé sur la réunion des deux échantillons. D’après le
n1
X Xi − X 2
théorème de F ISHER (th. 120 page 90) U1 = suit la loi du khi-deux à (n1 − 1) degrés
σ1
i=1
n2
X Yj − Y 2
de liberté et U2 = suit la loi du khi-deux à (n2 − 1) degrés de liberté ; de plus ces
σ2
j=1
deux variables sont indépendantes : d’après le théorème 81, U = U1 + U2 suit la loi du khi-deux à
(n1 + n2 − 2) degrés de liberté. En posant σ1 = σ2 = σ on obtient :
n1 n2
1 X 2 X 2
E(U) = n1 + n2 − 2 = E Xi − X + Yj − Y .
σ2
i=1 j=1
On pose :
,r
D − (m1 − m2 ) D − (m1 − m2 ) S2
T= = .
σ2
q q
1 1
S n1 + n2 σ n11 + n12
D − (m1 − m2 ) S2 U
Le numérateur q suit la loi normale réduite. Au dénominateur on a 2 =
σ n11 + n12 σ n1 + n2 − 2
où U suit la loi du khi-deux à (n1 + n2 − 2) degrés de liberté ; donc, par définition, T suit la loi de
S TUDENT à (n1 + n2 − 2) degrés de liberté.
En choisissant u1 et u2 tels que P(u1 ≤ T ≤ u2 ) = α on obtient l’intervalle de confiance annoncé.
r r
h 1 1, 1 1 i
D − tn1 +n2 −2, 1+α S + D + tn1 +n2 −2, 1+α S + .
2 n1 n2 2 n1 n2
Lorsque σ1 et σ2 sont inconnus, non nécessairement égaux, on utilise l’une des deux méthodes ap-
prochées suivantes.
D − (m1 − m2 )
Il suffit de remarquer que la variable aléatoire p √ suit sensiblement la loi normale
S1 2 + S2 2 / n
réduite.
1 1
h q q i
2 2,
D − z 1+α √ S1 + S2 D + z 1+α √ S1 2 + S2 2 .
2 n 2 n
102 Chapitre 6 – Estimation
n1 n2
X Xi − X 2 X Yj − Y 2
On a vu au paragraphe précédent que U1 = et U2 = suivent les lois
σ1 σ2
i=1 j=1
du khi-deux à (n1 − 1) et (n2 − 1) degrés de liberté respectivement et sont indépendantes.
On pose :
n1
1 X
U1
2
(Xi − X)2
n −1 (n 1 − 1)σ 1 S1 2 /S2 2
i=1
Z= 1 = n = ·
U2 1 X 2
σ1 2 /σ2 2
2
n2 − 1 (Yj − Y)
(n2 − 1)σ2 2
j=1
6.5 – Comparaison de moyennes et de variances 103
Par définition (voir § 3.6.8) Z suit la loi de F ISHER-S NEDECOR F(n1 − 1, n2 − 1). On cherche a et
b tels que :
σ1 2
α = P(a ≤ ≤ b) = P(u1 ≤ Z ≤ u2 ) = Fn1 −1,n2 −1 (u2 ) − Fn1 −1,n2 −1 (u1 )
σ2 2
où l’on a posé
S1 2 /S2 2 S1 2 /S2 2
u1 = et u2 = ·
b a
L’intervalle de confiance indiqué s’en déduit immédiatement.
On note fn,m,α le fractile d’ordre α de la loi de F ISHER-S NEDECOR F(n, m). On obtient un intervalle
symétrique en probabilité en choisissant u1 = fn1 −1,n2 −1, 1−α et u2 = fn1 −1,n2 −1, 1+α :
2 2
h 1 S1 2 , 1 S1 2 i
.
fn1 −1,n2 −1, 1+α S2 2 fn1 −1,n2 −1, 1−α S2 2
2 2
S = {s1 , s2 , . . . , sB }
que l’on peut représenter par un histogramme. Sur cette population on peut calculer une estimation
de la moyenne et de l’écart-type :
v
B u B
1 X u 1 X 2
s= sk , t sk − s .
B B−1
k=1 k=1
La population S peut être triée par valeurs croissantes ce qui permet de déterminer un intervalle de
confiance en gardant une certaine proportion des valeurs « centrales ». Par exemple si B = 1000 et
les valeurs triées de S sont α1 ≤ α2 ≤ α3 ≤ · · · ≤ α1000 , l’intervalle de confiance à 95% est
si
α25 , α975 .
104 Chapitre 6 – Estimation
Chapitre 7
Tests
7.1 Introduction
Un test d’hypothèse a pour but d’effectuer un choix entre deux hypothèses statistiques portant sur les
caractéristiques d’une population. Ces caractéristiques peuvent dépendre, ou non, de paramètres :
– tests paramétriques : comparaison de moyennes. . .
– tests non paramétriques : tests d’adéquation (χ2 par exemple). . .
Les deux hypothèses ne jouent pas des rôles symétriques. L’une des deux est supposée vraie a priori
et est soumise au test : c’est l’hypothèse « nulle », notée H0 ; l’hypothèse alternative est notée H1 . Le
test pourra conduire à rejeter H0 ou à ne pas la rejeter ; il ne peut pas permettre de conclure que H0
est vraie, mais seulement d’affirmer qu’il n’y a pas de raison de la rejeter.
Exemple : test d’un lot de pièces reçues d’un fournisseur. L’hypothèse nulle H0 est de considérer que
le lot est bon ; le rejet à tort de H0 est plus grave que celui de H1 .
Il existe deux types d’erreurs de décision :
– rejet à tort de l’hypothèse nulle ; P(rejeter H0 | H0 ) est le risque de première espèce,
– acceptation à tort de l’hypothèse nulle ; P(rejeter H1 | H1 ) est le risque de deuxième espèce.
L’idéal serait de réduire ces deux risques au minimum (et même de les annuler. . . ) ; ce n’est pas
possible car, pour diminuer le risque de première espèce, il faut éviter de rejeter H0 , ce qui augmente
le risque de deuxième espèce. Le risque de première espèce est considéré comme le plus important :
on va le limiter à un seuil et on va alors tenter de minimiser le risque de deuxième espèce.
La puissance du test est 1 − P(rejeter H1 | H1 ) = P(rejeter H0 | H0 ).
La variable aléatoire X a pour densité de probabilité f (x, θ) où le paramètre θ appartient à une partie Θ
de R. Le test est basé sur une statistique d’un n-échantillon de X ; on accepte H0 si ϕ(X1 , X2 , . . . , Xn )
appartient à une partie A de R et on la rejette sinon : A est la région d’acceptation du test et R \ A
est la région critique ou région de rejet. La définition du test consiste à choisir la région de rejet.
Nous allons développer quelques exemples.
106 Chapitre 7 – Tests
Hypothèses simples
Nous choisissons Θ = {θ0 , θ1 } avec θ0 < θ1 et :
H0 : θ = θ 0 , H 1 : θ = θ1 .
0 θ0 c θ1
Risque de deuxième espèce Risque de première espèce
P(Xn ≥ c | θ = θ0 ) ≤ α
P(Xn < c | θ = θ1 ).
et c − θ
P(Xn < c | θ = θ1 ) = Φ √ 1 est minimum.
σ/ n
| {z }
ψ1 (c)
c − θ θ −θ
P(Xn < c | θ = θ1 ) = Φ √ 1 = Φ z1−α − 1 √ 0 .
σ/ n σ/ n
La puissance du test est d’autant plus grande que ce risque est plus petit et donc
– que θ1 − θ0 est grand (valeurs testées nettement distinctes),
– que n est grand (échantillon de taille importante).
Application numérique : θ0 = 1, θ1 = 2, σ = 1, n = 20, α = 0, 05.
On a z1−α = 1, 645 et c = 1, 368 ; la puissance du test est égale à 0,998.
Si on choisit un seuil α = 0, 01 on obtient c = 1, 52 et la puissance du test est égale à 0,984.
Dans cet exemple les hypothèses sont simples, c’est-à-dire correspondent à une seule valeur du para-
mètre ; sinon l’hypothèse est composite.
On remarque que la valeur de c trouvée ci-dessus ne dépend pas de θ1 ; on peut donc choisir Θ = [θ0 , +∞[,
prendre pour hypothèses
σ
et décider de rejeter H0 si Xn ≥ c où c = θ0 + z1−α √ ·
n
Le risque de première espèce P(Xn ≥ c | H0 ) est encore égal à α.
Le risque de deuxième espèce est une fonction de θ :
c−θ θ − θ0
P(Xn < c | H1 ) = Φ √ = Φ z1−α − √ .
σ/ n σ/ n
c−θ
L(θ) = P(ne pas rejeter H0 | θ fixé) = P(Xn < c | θ fixé) = Φ √ .
σ/ n
108 Chapitre 7 – Tests
L(θ)
1 n=2
1−α n=4
n=8
n = 16
n = 32
n = 64
0 θ
θ0 θ0 + σ
La fonction θ 7→ %(θ) étant croissante il faut et il suffit que l’inégalité soit vérifiée lorsque θ = θ0 ;
donc c doit vérifier c − θ
1−Φ √ 0 ≤ α.
σ/ n
| {z }
ψ(c)
L(θ)
1 n=2
1−α n=4
n=8
n = 16
n = 32
n = 64
θ
0 θ0 θ0 + σ
On constate que le test est d’autant plus efficace que n est grand. . . ce qui n’est pas surprenant.
2 2
S0 S0
On rejette H0 si n2 < l1 < 1 ou si n2 > l2 > 1. En partageant équitablement le risque de
θ0 θ0
première espèce α entre les deux cas on aura
2 2
S0
n
(n − 1)S0
n
α un−1, α2
P < l1 = P < (n − 1)l1 = , d’où l1 = ,
θ02 θ02 2 n−1
et
2 2
S0
n
(n − 1)S0
n
α un−1,1− α2
P > l2 = P > (n − 1)l2 = , d’où l2 = ·
θ02 θ02 2 n−1
fχ2n−1 (u)
On rejette donc H0 si
2 un−1, α2 θ02
S0n <
n−1
α α
2 2
ou
2 un−1,1− α2 θ02
S0n > ·
n−1 u
0 un−1, α2 un−1,1− α2
fχ2n−1 (u)
Nous choisissons Θ = R et
H0 : θ ≤ θ 0 , H 1 : θ > θ0 .
H 0 : p1 = p 2 et H1 : p1 6= p2 .
Les variables X et Y suivent respectivement les lois binomiales B(n1 , p1 ) et B(n2 , p2 ). On sup-
pose que n1 et n2 sont assez grands pour que l’on puisse approcher les lois binomiales par des lois
7.2 – Tests paramétriques 111
p
p ; alors X/n1 et Y/n2 suivent respectivement les lois normales N (p1 ,
normales p1 (1 − p1 )/n1 ) et
N (p2 , p2 (1 − p2 )/n2 ).
La statistique de test
X Y
T= −
n1 n2
p
suit alors la loi normale N (p1 − p2 , p1 (1 − p1 )/n1 + p2 (1 − p2 )/n2 ).
p
Sous H0 , en notant p = p1 = p2 , T suit la loi normale N (0, p(1 − p)(1/n1 + 1/n2 )).
Soient Xi et Yi les résultats de deux mesures sur une même unité i ∈ {1, 2, . . . , n} (ou sur deux
unités appariées) ; par exemple Xi et Yi sont les notes obtenues par un même étudiant dans deux
matières. On suppose que les variables Xi (resp. Yi ) suivent la même loi normale N (m1 , σ1 ) (resp.
N (m2 , σ2 )) et que ces variables sont indépendantes.
On choisit :
H0 : m1 = m2 et H1 : m1 6= m2 .
p
Sous H0 les variables Di = Xi − Yi suivent la loi normale N (0, σ12 + σ22 ) et sont indépendantes.
On pose :
n n
1X 2 1 X
D= Di et S0n = (Di − D)2 .
n n−1
i=1 i=1
D
La statistique de test √ suit la loi de S TUDENT à (n−1) degrés de liberté (voir la démonstration
S0n /n
du théorème 123).
fT (t)
Avec un risque égal à α on rejette donc H0 si
S0
|D| > tn−1,1− α2 √n α α
n 2 2
On suppose que, pour tout i, les variables aléatoires Xij suivent, pour tout j, la même loi normale
N (mi , σ). On désire tester l’hypothèse nulle :
H0 : m1 = m2 = · · · = mk .
On rejettera cette hypothèse si la variance des moyennes des échantillons est grande par rapport à la
variance dans les échantillons.
On pose :
n k
1X 1X
Xi = Xij et X= Xi .
n k
j=1 i=1
Sous H0 et en notant m la valeur commune des mi , la variable aléatoire Xi suit, pour tout i, la loi
√
normale N (m, σ/ n) ; donc, d’après le théorème de F ISHER (voir th. 120, page 90), la variable
aléatoire
k k
1 X 2 n X 2
√ 2 Xi − X = 2 Xi − X
(σ/ n) σ
i=1 i=1
k
X 2
SCE = n Xi − X "sommes des carrés entre échantillons"
i=1
en posant
k X
n
X 2
SCI = Xij − Xi ("somme des carrés à l’intérieur des échantillons"),
i=1 j=1
Généralisation
Le test s’applique encore lorsque les effectifs des échantillons ne sont pas égaux ; soit ni la taille du
i-ième échantillon. Les formules sont alors :
ni Pk
1 X ni Xi
Xi = Xij , X = Pi=1 k
,
ni i=1 n i
j=1
k k X ni
X 2 X 2 SCE /k − 1
SCE = ni Xi − X , SCI = Xij − Xi , F = ·
SCI / ki=1 (ni − 1)
P
i=1 i=1 j=1
La statistique de test F suit la loi de F ISHER-S NEDECOR à (k − 1, ki=1 (ni − 1)) degrés de liberté.
P
Les résultats sont résumés dans le tableau d’analyse de variance qui se présente ainsi :
– Test unilatéral
On rejette H0 si T > ` ; la probabilité critique est
pc (t) = P T ≥ t | θ = θ0 .
Lorsque la probabilité critique est faible la contradiction est forte entre H0 et les valeurs obtenues
dans l’échantillon : si le risque de première espèce est égal à α on décide de rejeter H0 si pc < α.
Les logiciels de statistique fournissent généralement la probabilité critique (« p-value »), laissant
l’utilisateur conclure en fonction du risque de première espèce choisi.
m
X (Nj − npj )2
Théorème 135. La variable converge en loi vers la loi du khi-deux à (m−1) degrés
npj
j=1
de liberté lorsque n tend vers l’infini.
Remarque : la loi limite est indépendante des probabilités pj .
On reprend les notations du § 2.7.2.
(k)
Pour tout j ∈ {1, 2, . . . , m} et tout k ∈ {1, 2, . . . , n} soit Xj le nombre (égal à 0 ou 1) d’élément
(k)
de type j tiré au k-ième tirage. Pour j fixé les variables (Xj )1≤k≤n sont indépendantes et, pour tout
(k)
k, P(Xj = 1) = pj .
Nous introduisons alors, pour k ∈ {1, 2, . . . , n}, les vecteurs aléatoires
X(k) − pj
j
Yk = √
npj 1≤j≤m
et le vecteur aléatoire
n n (k)
X X Xj − pj N − np
j j
Zn = Yk = √ = √ .
npj 1≤j≤m npj 1≤j≤m
k=1 k=1
Les vecteurs Yk étant indépendants et de même loi la fonction caractéristique de Zn est définie par
(voir théorème 54) : n
∀t ∈ Rm , fd
Zn (t) = fY1 (t) .
c
7.3 – Test du khi-deux 115
Par définition
m (1)
X Xj − pj
fc
Y1 (t) = E exp i t j √ .
npj
j=1
D’où :
m √ m
X tk p k X tj
Zn (t) = n log fY1 (t) = −in
log fd c √ + n log pj exp i √
n npj
k=1 j=1
m m
√ X √ n X tj o
= −i n tk pk + n log 1 + pj exp i √ −1
npj
k=1 j=1
m m
√ X √ n X t
j t2j 1 o
= −i n tk pk + n log 1 + pj i √ − +o
npj 2npj n
k=1 j=1
m m m
√ X √ i X √
1 X 2 1
= −i n tk pk + n log 1 + √ tj p j − tj + o
n 2n n
k=1 j=1 j=1
m m
n 1 X
2 1 1 X √ 2 1 o
= n − tj − − tj p j +o
2n 2 n n
j=1 j=1
m m
1 X 1 X √ 2
= − t2j + tj pj + o(1)
2 2
j=1 j=1
Donc
m m
1X
2 1 X √ 2 1
= exp − tT c t
fZn (t) −−−→ exp −
d tj + tj p j
n→∞ 2 2 2
j=1 j=1
où
√ √ √
c = I − v vT avec v T =
p1 p2 · · · pm
D’après le théorème 91 le vecteur aléatoire Zn converge en loi vers un vecteur gaussien Z de loi
N (0, c).
La matrice c est symétrique : il existe une matrice orthogonale u telle que d = uT c u soit la matrice
diagonale des valeurs propres de c. Or celles-ci sont :
• la valeur propre simple égale à 0 dont le sous-espace propre associé est engendré par v ;
m
X √
• la valeur propre d’ordre (m−1) égale à 1 dont le sous-espace propre a pour équation pj xj = 0.
j=1
116 Chapitre 7 – Tests
D’après le corollaire 3 le vecteur aléatoire W = uT Z est gaussien de loi N (0, d). La variable aléatoire
m
X (Nj − npj )2
= ZTn Zn
npj
j=1
m
X m−1
X
T T T T T
Z Z = (uW) (uW) = W u u W = W W = Wj2 = Wj2 ,
j=1 j=1
puisque Wm est presque sûrement nulle car elle a une espérance mathématique et une variance nulles.
Pour j ∈ {1, 2, . . . , m − 1} la variable aléatoire Wj suit la loi normale réduite et ces variables sont
indépendantes ; par définition ZT Z suit la loi du khi-deux à (m − 1) degrés de liberté.
m
X (Nj − npj )2
Lorsque n est grand la variable aléatoire suit donc sensiblement la loi du khi-deux
npj
j=1
à (m − 1) degrés de liberté.
Soit (n1 , n2 , . . . , nm ) une réalisation de l’échantillon (N1 , N2 , . . . , Nm ). On évalue la somme
m
X (nj − npj )2
t= ·
npj
j=1
fχ2m−1 (x)
L’hypothèse H0 est rejetée si t est trop
grande : on fixe un niveau α « petit » et
on ne rejette pas H0 si t est inférieure au
fractile um−1,1−α tel que
P(χ2m−1 ≥ um−1,1−α ) = α.
L’éventualité de rejeter H0 lorsqu’elle est vraie constitue le risque de première espèce ; on choisit une
probabilité α « petite » afin de limiter ce risque. On ne sait rien (a priori) sur le risque d’accepter H0
lorsqu’elle est fausse (risque de seconde espèce) ; il est supposé de moindre importance que le risque
de première espèce.
7.3 – Test du khi-deux 117
Remarques
1. En pratique les valeurs des produits npj ne doivent pas être trop petites : npj ≥ 5 est raison-
nable. Si ce n’est pas le cas il faut regrouper les (données en) classes.
2. Si certains paramètres pj sont inconnus et doivent être estimés le nombre de degrés de liberté
de la loi du χ2 est diminué d’autant.
118 Chapitre 7 – Tests
Chapitre 8
Régression linéaire
On pose :
X pij 1 X
∀i ∈ I, mi = E(Y | X = xi ) = yj = yj pij .
pi. pi.
j∈J j∈J
où l’on a posé
n n
1X 1X
x= xi et Y= Yi .
n n
i=1 i=1
Donc (b
a, bb) est bien le minimum de ϕ.
Remarque : malgré l’abandon des conventions typographiques utilisées dans ce cours et l’adoption
du « chapeau » habituel dans la littérature, il ne faut pas oublier que les estimateurs des paramètres
sont des variables aléatoires.
E(b
a) = a et E(bb) = b.
122 Chapitre 8 – Régression linéaire
puis
∀i ∈ {1, 2, . . . , n}, Yi − Y = b(xi − x) + (Ui − U).
On reporte dans l’expression de bb :
n
X n
X n
X n
X
2
(xi − x)(Yi − Y ) b (xi − x) + (xi − x)(Ui − U ) (xi − x)(Ui − U )
bb = i=1 i=1 i=1 i=1
n = n =b+ n
X X X
2 2
(xi − x) (xi − x) (xi − x)2
i=1 i=1 i=1
n
X n
X n
X
(xi − x)Ui − U (xi − x) (xi − x)Ui
i=1 i=1 i=1
= b+ n =b+ n · (8.1)
X X
2 2
(xi − x) (xi − x)
i=1 i=1
D’où :
n
X
(xi − x)E(Ui )
i=1
E(bb) = b + n = b, car, pour tout i, E(Ui ) = 0.
X
2
(xi − x)
i=1
Par ailleurs
a = Y − bb x = a + (b − bb)x + U
b
et donc
a) = a + x b − E(bb) + E(U) = a.
E(b
Corollaire 4. On a :
E(Y
b i ) = E(Yi ) = a + bxi .
E(Y
b i ) = E(b
a + bbxi ) = a + bxi .
D’autre part
n
X
(xi − x)Ui
i=1
1. D’après la relation 8.1 on a : bb − b = n ·
X
2
(xi − x)
i=1
D’où :
n
X 2
E (xi − x)Ui
i=1
Var(bb) = E (bb − b)2 =
n
X 2
(xi − x)2
i=1
n
1 X 2 X
= n E (xi − x)Ui + 2 (xi − x)(xj − x)Ui Uj
X 2
(xi − x)2 i=1 1≤i<j≤n
i=1
n
1 X X
= n (xi − x)2 E(U2i ) +2 (xi − x)(xj − x) E(Ui Uj )
X 2 | {z }
(xi − x)2
| {z }
i=1 1≤i<j≤n
=σ 2 =0
i=1
Xn
2
σ (xi − x)2
i=1 σ2
= n = n ·
X 2 X
(xi − x)2 (xi − x)2
i=1 i=1
On connaît
σ2 σ2
Var(bb) = n et Var(U) = ·
X n
(xi − x)2
i=1
σ2 nx2
En reportant : Var(b
a) = 1+ n . On obtient l’expression annoncée de Var(b
a)
n X
2
(xi − x)
i=1
en remarquant :
n
X n
X n
X n
X
2 2
x2i 2 2
x2i .
(xi − x) + nx = − 2x xi +nx + nx =
i=1 i=1
|i=1
{z } i=1
=nx
y bbx
+
Théorème 139. Soit U b i = Yi − Yb i le résidu en ba
=
xi . On a la relation d’analyse de la variance : y
n
1X 2
Yi − Y
n y
| i=1 {z }
variance « totale »
n n
1 X
bi − Y
2 1X b b 2
yi
= Y b + Ui − U ybi
n n
i=1
| {z } | i=1 {z }
variance « expliquée » variance « résiduelle »
xi x x
Remarque : les notations yi , ybi et y sont utilisées dans le graphique pour souligner que ce sont des
réalisations des variables aléatoires Yi , Y
b i et Y.
b i = Yi − (b
U a + bb xi ) = Yi − Y − bb(xi − x), a = Y − bb x)
(car b
8.2 – Régression linéaire simple 125
et on a par ailleurs
n
b= 1
X
Y Y
bi = b
a + bb x = Y
n
i=1
et
n n n
b= 1 bi = 1 1 Xb
X X
U U Yi − Yi = Y − Y
b = 0.
n n n
i=1 i=1 i=1
D’où :
n n
b 2+ b 2
X X
bi − U
U bi − Y
Y
i=1 i=1
n n
X X 2
= b2 +
U bi − Y
Y
i
i=1 i=1
n n
X 2 X 2
= Yi − Y − b(xi − x) +
b a + bb xi ) − (b
(b a + bb x)
i=1 i=1
n
X n
X n
X n
X
= (Yi − Y) + bb2
2 2
(xi − x) − 2bb (xi − x)(Yi − Y) + b
b 2
(xi − x)2
i=1 i=1
|i=1 {z } i=1
b n 2
P
=b i=1 (xi −x)
n
X
= (Yi − Y)2 .
i=1
(Y − Y)2 = (Y − Y)
b 2 + (Y b 2,
b − Y)
1
Si dans un tétraèdre ABCD les angles ABC,
\ ABD\ et BCD
\ sont droits, alors l’angle ACD
\ est également droit.
Le coefficient de détermination donne une bonne indication sur la qualité de l’ajustement : plus il est
grand, plus la variance résiduelle est faible.
On suppose que le vecteur aléatoire U = (U1 , U2 , . . . , Un ) est gaussien de loi N (0, σ 2 In ), c’est-à-
dire que les variables aléatoires Ui sont normales, centrées et indépendantes, d’écart-type σ.
n
X
(xi − x)(Yi − Y )
i=1 ,
bb =
n a = Y − bb x
b
X
(xi − x)2
i=1
et
n n
c2 = 1 1 X b2
X
σ a − bbxi )2 =
(Yi − b Ui .
n n
i=1 i=1
n
√ 1 X
L(a, b, σ 2 ) = (σ 2π)−n exp − 2 (Yi − a − bxi )2 .
2σ
i=1
n
n 1 X
(Yi − a − bxi )2 .
ψ(a, b, v) = ln L(a, b, v) = − ln(2πv) −
2 2v
i=1
8.2 – Régression linéaire simple 127
Les deux premières donnent les équations normales de la méthode des moindres carrés ; la dernière
fournit l’estimateur de v = σ 2 .
On peut vérifier que la matrice hessienne est définie négative.
Les estimateurs du maximum de vraisemblance de a et b sont les estimateurs des moindres carrés
(voir th. 136), ce qui n’était pas évident a priori : ils sont donc sans biais (voir th. 137).
c2 ) = n−2 2
E(σ σ .
n
D’après le théorème 139 :
n
X n
X n
X
2 b i − Y)2 + b 2.
(Yi − Y) = (Y U i
i=1 i=1 i=1
Or
)
Y
bi = b
a + bb xi Yi = a + bxi + Ui
⇒Y
b i −Y = bb(xi −x) et ⇒ Yi −Y = b(xi −x)+(Ui −U).
Y=b a + bb x Y = a + bx + U
D’où, en reportant :
n
X n
X n
X n
X n
X
b 2 = b2
U (xi − x) + 2
(Ui − U) + 2b 2
(xi − x)(Ui − U) − bb2 (xi − x)2 .
i
i=1 i=1 i=1 i=1 i=1
Or
n
X n
X
E (xi − x)(Ui − U) = (xi − x)E(Ui − U) = 0
i=1 i=1
et
n n n
X
2
X 2 X 2 σ2
U2i E(U2i ) − nE(U ) = nσ 2 − n = (n − 1)σ 2 .
E (Ui − U) =E − nU =
n
i=1 i=1 i=1
128 Chapitre 8 – Régression linéaire
D’où enfin :
n
X n
X n
X
b2 2
(xi − x) + (n − 1)σ − E(bb2 )
2 2
(xi − x)2
E Ui = b
i=1 i=1 i=1
n n
2
X
2 2
σ2 2
X
= b (xi − x) + (n − 1)σ − Pn +b (xi − x)2
i=1 (xi − x)2
i=1 i=1
2
= (n − 2)σ .
Le couple (b a, bb) s’exprime linéairement en fonction des Ui , qui sont gaussiennes ; d’après le corol-
laire 3 il est donc gaussien. Le calcul des espérances mathématiques, variances et covariance a été
effectué aux théorèmes 137 et 138 sans supposer que les Ui sont gaussiennes (mais le résultat est
encore valable. . . ).
c2 est telle que
Théorème 144. La loi de l’estimateur σ
c2
σ
(n − 2) suit la loi du khi-deux à (n − 2) degrés de liberté.
σ2
Ce théorème est un cas particulier du théorème 161.
c2 est
Corollaire 5. La variance de l’estimateur σ
c2 ) = 2σ 4
Var(σ ·
n−2
c2
σ 2 (n − 2)2 c2 ).
Var (n − 2) = Var(χn−2 ) = 2(n − 2) = Var(σ
σ2 σ4
D’où le résultat.
8.2 – Régression linéaire simple 129
De
b i = Yi − Y
U b i = (a + bxi + Ui ) − (b
a + bb xi ) = −(b
a − a) − (bb − b)xi + Ui
on déduit
b i ) = − E(b
E(U a) − a − E(bb) − b xi + E(Ui ) = 0
et
Cov(bb, U b i ) = −E bb(b
b i ) = E(bb U a − a) − xi E bb(bb − b) + E(bb Ui ).
Or :
σ2x ,
a − a) = Cov(b
E bb(b a, bb) + bE(b a − a) = Cov(b a, bb) = − Pn 2
i=1 (xi − x)
σ 2
E bb(bb − b) = Var(bb) + bE(bb − b) = Var(bb) = Pn 2
et
i=1 (xi − x)
P n
j=1 (xj − x)Uj
E(b Ui ) = E b + Pn
b
2
U i (d’après 8.1)
i=1 (xi − x)
n
1 X
= bE(Ui ) + Pn 2
(xj − x) E(Ui Uj )
i=1 (xi − x) j=1
| {z }
2
σ si j = i,
=
0 sinon.
σ 2 (x − x)
= Pn i 2
·
i=1 (xi − x)
En reportant on obtient
Cov(bb, U
b i ) = 0.
a ; on obtient
On procède de même pour b
Cov(b
a, U
b i ) = E(b
aUb i ) = −E b a−a) −xi E b
a(b a Ui ) = −Var(b
a(bb−b) +E(b a)−xi Cov(b
a, bb)+E(b
a Ui ).
Or
a Ui ) = E (Y − bb x)Ui = E(YUi ) − xE(bb Ui )
E(b
et
n n n
1 X 1X 1X σ2
E(YUi ) = E (a + bxj + Uj )Ui = (a + bxj )E(Ui ) + E(Ui Uj ) = ·
n n n n
j=1 j=1 j=1
En reportant on obtient
Cov(b
a, U
b i ) = 0.
130 Chapitre 8 – Régression linéaire
1+α
où tn−2, 1+α représente le fractile d’ordre 2 de la loi de S TUDENT à (n − 2) degrés de liberté et
p2
où S = σ c2 1 .
bb − b c2
σ
On sait que pPn suit la loi normale réduite et que (n − 2) 2 suit la loi du khi-deux
σ/ i=1 (xi − x)
2 σ
à (n − 2) degrés de liberté ; donc
,s
bb − b c2
σ bb − b
pPn = n
σ2
p
2 2
P
σ/ i=1 (xi − x) S/ i=1 (xi − x)
suit la loi de S TUDENT à (n − 2) degrés de liberté. L’intervalle de confiance s’en déduit immédiate-
ment.
1+α
où tn−2, 1+α représente le fractile d’ordre 2 de la loi de S TUDENT à (n − 2) degrés de liberté et
p2
où S = σ c2 .
Théorème 148. Une région de confiance au niveau α de (a, b) est l’ellipse dont l’équation dans le
plan (a, b) s’écrit
n c2
2 1X 2b 2σ
(b a − a)(b − b) +
a − a) + 2x(b b xi (b − b)2 < f2,n−2,α
n n
i=1
Donc :
Pn 2
n i=1 xi
a − a)2 + 2x(b (bb − b)2 .
W = 2 (b a − a)(bb − b) +
σ n
c2
σ
Par ailleurs (théorème 144) Z = (n − 2) 2 suit la loi du khi-deux à (n − 2) degrés de liberté. Donc
σ
(définition 35) le rapport
Pn 2
W/2 n i=1 xi
a − a)2 + 2x(b (bb − b)2
Q= = (b a − a)(bb − b) +
Z/(n − 2) 2σ
c 2 n
suit la loi de F ISHER-S NEDECOR à 2 et (n − 2) degrés de liberté F(2, n − 2). On en déduit immé-
diatement l’ellipse de confiance.
b
1, 05
−0, 15
−0, 05
−0, 1
0, 05
a
À partir des données représentées à la page 124 on a
tracé sur le graphique ci-contre :
0, 95
– l’ellipse de confiance du couple (a, b) ; (b
a, bb)
– les deux intervalles de confiance de a et b.
Le niveau de confiance est égal à 95 %. 0, 9
0, 85
1−α 1+α
où kn−2, 1−α et kn−2, 1+α représentent les fractiles d’ordres 2 et 2 de la loi du khi-deux à (n−2)
2 2
degrés de liberté.
Au risque α on rejette H0 si
|bb − b0 |
.pP > tn−2,1− α2
n 2
S i=1 (x i − x)
p
c2 et où t α
où S = σ n−2,1− α
2
représente le fractile d’ordre 1 − 2 de la loi de S TUDENT à (n − 2)
degrés de liberté.
Remarque : ce test est surtout utilisé avec b0 = 0, c’est-à-dire pour savoir si la variable expliquée est
indépendante de la variable explicative.
On sait que bb suit la loi normale N (b, σb ) où σb2 =
2
bb − b0
Pn σ 2 ; donc, sous l’hypothèse H0 ,
fT (t)
i=1 (x i −x) σb
suit la loi normale réduite. Par ailleurs (voir le théo-
rème 144) σ c2 suit la loi du khi-deux à (n − 2) de-
α α
grés de liberté. Donc (voir la démonstration du théo- 2 2
bb − b0
rème 146) le rapport .pP suit la t
n 2
S i=1 (xi − x) −tn−2,1− α2 tn−2,1− α2
0
loi de S TUDENT à (n − 2) degrés de liberté. La ré-
gion de rejet s’en déduit immédiatement.
Théorème 151 (Test bilatéral sur b (variante)). On teste l’hypothèse nulle
Au risque α on rejette H0 si
(bb − b0 )2
> f1,n−2,1−α
c2 /Pn (xi − x)2
σ i=1
On peut définir de même (c’est un bon exercice. . . ) des test unilatéraux sur b correspondants aux
hypothèses nulles
H0 : b ≥ b0 ou H0 : b ≤ b0 .
8.2 – Régression linéaire simple 133
Au risque α on rejette H0 si
|b
a − a0 |
s Pn > tn−2,1− α2
S x2
√ Pn i=1 i 2
n i=1 (xi − x)
p
c2 et où t α
où S = σ n−2,1− α
2
représente le fractile d’ordre 1 − 2 de la loi de S TUDENT à (n − 2)
degrés de liberté.
Au risque α on rejette H0 si
Pn 2
n i=1 xi
a − a0 )2 + 2x(b (bb − b0 )2 > f2,n−2,1−α
Q= (b a − a0 )(bb − b0 ) +
2σ
c 2 n
Y
b0 = b
a + bb x0 .
D’après le modèle on a
U0 suit la loi normale N (0, σ),
Y0 = a + bx0 + U0 où
∀i ∈ {1, 2, . . . , n}, E(U0 Ui ) = 0.
b 0 − Y0 = (b
La différence Y a − a) + (bb − b)x0 − U0 suit la loi normale N (0, s) où
1 Pn
La variance σ 2 , inconnue, est estimée par σ
c2 =
n−2
b2
i=1 Ui ; on pose
2
c2 1 + 1 + P (x0 − x)
S2 = σ n 2
n i=1 (xi − x)
b 0 − Y0
Y
Donc (voir la démonstration du théorème 146) le rapport suit la loi de S TUDENT à (n − 2)
S
degrés de liberté.
Un intervalle de confiance au niveau α de Y0 (intervalle de prévision) est donc :
h i
b0 − t
Y n−2, 1+α S, Y0 + tn−2, 1+α S .
b
2 2
Lorsque la valeur x0 varie, les deux extrémités de l’intervalle de prévision décrivent deux courbes
d’équations s
Pn b 2 s
i=1 Ui 1 (x0 − x)2
y=b a + bb x0 ± tn−2, 1+α 1 + + Pn 2
.
2 n−2 n i=1 (xi − x)
On montre sans (trop de) peine que ce sont les deux branches d’une hyperbole.
y
3
2
Sur le graphique ci-contre nous avons représenté
les données de la page 124 et l’« hyperbole de 1
confiance » délimitant les intervalles de confiance −3 −2 −1 1 2 3 x
au niveau 95 % pour la prédiction de la variable ex-
pliquée. −1
−2
−3
On a noté xi,j la valeur de la variable xj pour l’individu i ; l’ensemble de ces valeurs est regroupé
dans une matrice
x1,1 x1,2 . . . x1,k
x2,1 x2,2 . . . x2,k
x= . .. .
. .. . .
. . . .
xn,1 xn,2 . . . xn,k
8.3 – Régression linéaire multiple 135
La colonne j représente les valeurs de la variable xj pour tous les individus. On suppose que n > k
et que la matrice x est de rang k.
En introduisant les vecteurs
Y1 U1 b1
Y2 U2 b2
Y = . , U = . et b = .
.
. .
. ..
Yn Un bk
Remarque : on obtient un modèle affine (ou « avec constante ») en choisissant xi,1 = 1 pour tout i ;
on a alors
k
X
∀i ∈ {1, 2, . . . , n}, Yi = b1 + bj xi,j + Ui
j=2
bb = xT x −1 xT Y .
n k
∂ϕ(b) X X
=2 Yi − bj xi,j (−xi,` ).
∂b`
i=1 j=1
ou encore
k X
X n n
X
∀` ∈ {1, 2, . . . , k}, xi,j xi,` bj = xi,` Yi
j=1 i=1 i=1
136 Chapitre 8 – Régression linéaire
La matrice hessienne est donc égale à 2xT x ; bb est un minimum de ϕ si elle est définie positive, ce
que nous supposerons.
La valeur ajustée de Y est
b = xbb = x(xT x)−1 xT Y = pY
Y en posant p = x(xT x)−1 xT .
1. p est un projecteur :
2. q est un projecteur :
q 2 = (In − p)2 = In − 2p + p2 = In − p = q.
3. p et q sont symétriques :
T
pT = x(xT x)−1 xT = x(xT x)−1 xT = p
et
q T = (In − p)T = In − p = q.
px = x(xT x)−1 xT x = x,
donc toutes les colonnes de la matrice x sont des vecteurs propres de p associés à la valeur
propre 1. La dimension du sous-espace propre E1 est au moins égale à k. Le sous-espace
orthogonal à E1 , ensemble des vecteurs y qui vérifient xT y = 0, est de dimension (n − k) ;
c’est le noyau de p. La dimension de E1 est égale à k. Donc
rg(p) = tr(p) = k.
On a :
bb = (xT x)−1 xT Y = (xT x)−1 xT (xb + U) = b + (xT x)−1 xT U.
Donc :
E(bb) = b + (xT x)−1 xT E(U) = b
Par ailleurs :
Par définition :
b = E (bb − b) U
Cov(bb, U) b T .
b − E(U)
Or :
b = qY = q(xb + U) = qU, car qx = (In − p)x = x − px = 0.
U
D’où E(U)
b = 0 et
Théorème 157. On a :
E(U)
b =0 et b = σ 2 (In − x(xT x)−1 xT )
Var(U)
Var(U)
b = E(U
bUb T ) = E(qUUT q T ) = q E(UUT ) q T = σ 2 q 2 = σ 2 q.
| {z }
=σ 2 In
138 Chapitre 8 – Régression linéaire
Qualité de l’ajustement
1. Modèle affine (avec « terme constant »)
On a l’équation d’analyse de la variance :
n
X n
X n
X
(Yi − Y)2 = b 2+
b i − Y)
(Y b 2.
U i
i=1 i=1 i=1
2 n − 1 k−1
R − R2 = (1 − R2 ) 1 − =− (1 − R2 ) ≤ 0.
n−k n−k
Le triangle (O, Y, Y)
b est rectangle ; on applique le théorème de P YTHAGORE.
Comme indicateur de la qualité de l’ajustement on peut utiliser le rapport :
Pn b 2 Pn b 2
2 Yi U
cos α = Pn i=1
2 = 1 − Pni=1 i2 ·
i=1 Yi i=1 Yi
8.3 – Régression linéaire multiple 139
1 X n k
n X 2
L(b, v) = (2πv)− 2 exp − Yi − xi,j bj .
2v
i=1 j=1
On pose
n k
n 1 X X 2
ψ(b, v) = ln L(b, v) = − ln(2πv) − Yi − xi,j bj .
2 2v
i=1 j=1
n k
∂ψ(b, v) 1X X
∀` ∈ {1, 2, . . . , k}, = Yi − xi,j bj xi,` = 0,
∂b` v
i=1 j=1
n k
∂ψ(b, v) n 1 X X 2
= − + 2 Yi − xi,j bj = 0.
∂v 2v 2v
i=1 j=1
Les premières équations donnent les équations normales de la méthode des moindres carrés ; on en
déduit donc l’estimateur des moindres carrés de b :
bb = (xT x)−1 xT Y.
n k n
1X X 2 1 X b2
vb = Yi − xi,j bj = Ui .
n n
i=1 j=1 i=1
On a :
n
X n X
X n
b2 = U
U bT U
b = (qU)T (qU) = UT q T qU = UT qU = qi,j Ui Uj .
i
i=1 i=1 j=1
D’où :
n
X n X
n n
X X
E b2 =
U qi,j E(Ui Uj ) = σ2 qi,i = σ 2 tr(q) = (n − k)σ 2 .
i
| {z }
i=1 i=1 j=1 i=1
σ 2 si j = i,
=
0 sinon.
Donc :
n−k 2
E(b
v) = σ .
n
L’estimateur sans biais de σ 2 déduit de l’estimateur du maximum de vraisemblance est
n
c2 = n vb = 1
X
σ b 2.
U i
n−k n−k
i=1
bb est linéaire en Y, donc en U qui est gaussien : d’après le corollaire 3 il est gaussien. Nous avons déjà
calculé son espérance mathématique et sa matrice de covariance (voir théorème 155).
c2
Théorème 161. L’estimateur σ c2 de σ 2 est tel que (n − k) σ suit la loi du khi-deux à (n − k) degrés
σ2
de liberté.
Nous avons montré (démonstration du théorème 159) que n U b 2 = UT qU. Or q, symétrique, est
P
i=1 i
diagonalisable et ses valeurs propres sont 1, d’ordre (n−k), et 0, d’ordre k. Il existe donc une matrice
orthogonale ω telle que
1
..
.
−1 T
1
ω qω = ω qω = d = .
0
..
.
0
où la diagonale contient (n − k) fois 1 et k fois 0. Alors :
n
X n−k
X
b 2 = UT ωdω T U = ZT dZ =
U Z2i où Z = ω T U.
i
i=1 i=1
Théorème 162 (Test bilatéral sur un paramètre). Pour une valeur de j comprise entre 1 et k on
teste l’hypothèse nulle
bbj − b0j
On sait (théorème 160) que, sous H0 , le rapport √ suit la loi normale réduite. Par ailleurs
σ vj
c2
σ bbj − b0j
(théorème 161) (n − k) 2 suit la loi du khi-deux à (n − k) degrés de liberté. Donc √ suit la loi
σ S vj
de S TUDENT à (n − k) degrés de liberté. La règle de décision s’en déduit immédiatement.
Pour b0j = 0 on teste si la présence de bj est significative dans le modèle.
Théorème 163 (Test sur l’ensemble des paramètres). On teste l’hypothèse nulle
1. Sous H0 le vecteur bb est gaussien, de loi N b0 , σ 2 (xT x)−1 ; donc, d’après le théorème 82,
xT x
(bb − b0 )T 2 (bb − b0 ) suit la loi du khi-deux à k degrés de liberté.
σ
c2
σ
2. On sait (théorème 161) que (n − k) 2 suit la loi du khi-deux à (n − k) degrés de liberté.
σ
T −1 T
3. Le vecteur (b, U) = b + (x x) x U, qU s’exprime de façon affine en fonction de U qui est
b b
gaussien ; donc (corollaire 3) il est gaussien. D’après le théorème 68, puisque Cov(bb, U)
b = 0,
bb et U
b sont indépendantes et donc également bb et σ c2 = 1 U b T U.
b
n−k
142 Chapitre 8 – Régression linéaire
suit la loi de F ISHER-S NEDECOR à k et (n − k) degrés de liberté F(k, n − k). La règle de décision
s’en déduit.
Lorsque b0 = 0 on teste si la présence de b est significative dans le modèle.
Annexe A
Dénombrements
Quelques techniques de dénombrement élémentaires sont indispensables dans les calculs de probabi-
lités discrètes.
k
Y
ni = n1 n2 . . . nk .
i=1
Récurrence sur k.
Ces suites sont les éléments, appelés aussi k-uplets, de l’ensemble produit A1 × A2 × . . . × Ak .
Corollaire 6. Soit A un ensemble ayant n éléments ; le nombre de suites de k éléments de A est égal
à nk .
Une telle suite est un arrangement sans répétition de k éléments pris parmi n.
(n)k est le nombre d’applications injectives d’un ensemble de k éléments dans un ensemble de n
éléments.
Lorsque n = k on obtient le nombre de bijections entre deux ensembles ayant n éléments (ou de
permutations d’un ensemble ayant n éléments) : (n)n = n!.
144 Annexe A – Dénombrements
Théorème 166.
Quelques propriétés élémentaires des coefficients du binôme :
– nk = n−k n
;
– nk = n−1 + n−1
k k−1 ;
Théorème 168. Le nombre d’arrangements avec répétition associés à la suite (r1 , r2 , . . . , rk ) est
égal à
(r1 + r2 + · · · + rk )!
·
r1 ! r 2 ! · · · r k !
Soit (x1 , x2 , . . . , xn ) un tel arrangement avec répétition. En posant j ∈ Ai ⇔ xj = ai on définit
une bijection de l’ensemble des arrangements avec répétition associés à la suite (r1 , r2 , . . . , rk ) dans
l’ensemble des partitions de {1, 2, . . . , n} en k sous-ensembles A1 , A2 ,. . . , Ak ayant r1 , r2 ,. . . , rk
éléments. On est ramené au théorème précédent.
6!
Il y a, par exemple 2! 1! 3! = 60 suites contenant deux fois a, une fois b et trois fois c.
Annexe B
Fonctions eulériennes
Les fonctions eulériennes interviennent dans des domaines nombreux et variés ; elles sont très utiles,
et même indispensables, dans l’étude de certaines lois de probabilité.
Définition 60.
– La fonction eulérienne de première espèce
Z 1
B(x, y) = tx−1 (1 − t)y−1 dt
0
Théorème 169.
∀x > 0, Γ(x + 1) = x Γ(x).
Théorème 170.
∀n ∈ N∗ , Γ(n) = (n − 1)!
Théorème 171. Z π
2
B(x, y) = 2 cos2x−1 θ sin2y−1 θ dθ.
0
√
On effectue le changement de variable défini par θ = arccos t.
Théorème 172.
Γ(x) Γ(y)
B(x, y) = ·
Γ(x + y)
√
En effectuant le changement de variable défini par u = t dans la définition on obtient
Z ∞
2
Γ(x) = 2 e−u u2x−1 du
0
146 Annexe B – Fonctions eulériennes
et de la même façon Z ∞
2
Γ(y) = 2 e−v v 2y−1 dv.
0
2
Posant ∆ = R+∗ et D =]0, π/2[×R+∗ on obtient
ZZ
2 2
Γ(x)Γ(y) = 4 e−(u +v ) u2x−1 v 2y−1 du dv
Z Z∆
2
= 4 e−r (r cos θ)2x−1 (r sin θ)2y−1 r dr dθ
D
– Formule de G AUSS
nx n!
∀x > 0, Γ(x) = lim ·
n→∞ x(x + 1) · · · (x + n)
– Formule de W EIERSTRASS
∞ x
e−γx Y e n
∀x > 0, Γ(x) =
x 1 + nx
n=1
n
X 1
où γ, constante d’E ULER, est définie par γ = lim − ln n .
n→∞ k
k=1
– Formule de L EGENDRE-G AUSS
z z+1 z+p−1 p−1 1
∀z ∈ C − Z− , ∀p ∈ N∗ , Γ( )Γ( ) · · · Γ( ) = (2π) 2 p 2 −z Γ(z).
p p p
– Considérons la dérivée logarithmique de Γ :
+∗ d ln(Γ(x) Γ0 (x)
∀x ∈ R , ψ(x) = = ·
dx Γ(x)
Tables numériques
x 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0. 0.5 0.50399 0.50798 0.51197 0.51595 0.51994 0.52392 0.52790 0.53188 0.53586
0.1 0.53983 0.54380 0.54776 0.55172 0.55567 0.55962 0.56356 0.56749 0.57142 0.57535
0.2 0.57926 0.58317 0.58706 0.59095 0.59483 0.59871 0.60257 0.60642 0.61026 0.61409
0.3 0.61791 0.62172 0.62552 0.62930 0.63307 0.63683 0.64058 0.64431 0.64803 0.65173
0.4 0.65542 0.65910 0.66276 0.66640 0.67003 0.67364 0.67724 0.68082 0.68439 0.68793
0.5 0.69146 0.69497 0.69847 0.70194 0.70540 0.70884 0.71226 0.71566 0.71904 0.72240
0.6 0.72575 0.72907 0.73237 0.73565 0.73891 0.74215 0.74537 0.74857 0.75175 0.75490
0.7 0.75804 0.76115 0.76424 0.76730 0.77035 0.77337 0.77637 0.77935 0.78230 0.78524
0.8 0.78814 0.79103 0.79389 0.79673 0.79955 0.80234 0.80511 0.80785 0.81057 0.81327
0.9 0.81594 0.81859 0.82121 0.82381 0.82639 0.82894 0.83147 0.83398 0.83646 0.83891
1. 0.84134 0.84375 0.84614 0.84849 0.85083 0.85314 0.85543 0.85769 0.85993 0.86214
1.1 0.86433 0.86650 0.86864 0.87076 0.87286 0.87493 0.87698 0.87900 0.88100 0.88298
1.2 0.88493 0.88686 0.88877 0.89065 0.89251 0.89435 0.89617 0.89796 0.89973 0.90147
1.3 0.90320 0.90490 0.90658 0.90824 0.90988 0.91149 0.91309 0.91466 0.91621 0.91774
1.4 0.91924 0.92073 0.92220 0.92364 0.92507 0.92647 0.92785 0.92922 0.93056 0.93189
1.5 0.93319 0.93448 0.93574 0.93699 0.93822 0.93943 0.94062 0.94179 0.94295 0.94408
1.6 0.94520 0.94630 0.94738 0.94845 0.94950 0.95053 0.95154 0.95254 0.95352 0.95449
1.7 0.95543 0.95637 0.95728 0.95818 0.95907 0.95994 0.96080 0.96164 0.96246 0.96327
1.8 0.96407 0.96485 0.96562 0.96638 0.96712 0.96784 0.96856 0.96926 0.96995 0.97062
1.9 0.97128 0.97193 0.97257 0.97320 0.97381 0.97441 0.97500 0.97558 0.97615 0.97670
2. 0.97725 0.97778 0.97831 0.97882 0.97932 0.97982 0.98030 0.98077 0.98124 0.98169
2.1 0.98214 0.98257 0.98300 0.98341 0.98382 0.98422 0.98461 0.98500 0.98537 0.98574
2.2 0.98610 0.98645 0.98679 0.98713 0.98745 0.98778 0.98809 0.98840 0.98870 0.98899
2.3 0.98928 0.98956 0.98983 0.99010 0.99036 0.99061 0.99086 0.99111 0.99134 0.99158
2.4 0.99180 0.99202 0.99224 0.99245 0.99266 0.99286 0.99305 0.99324 0.99343 0.99361
2.5 0.99379 0.99396 0.99413 0.99430 0.99446 0.99461 0.99477 0.99492 0.99506 0.99520
2.6 0.99534 0.99547 0.99560 0.99573 0.99585 0.99598 0.99609 0.99621 0.99632 0.99643
2.7 0.99653 0.99664 0.99674 0.99683 0.99693 0.99702 0.99711 0.99720 0.99728 0.99736
2.8 0.99744 0.99752 0.99760 0.99767 0.99774 0.99781 0.99788 0.99795 0.99801 0.99807
2.9 0.99813 0.99819 0.99825 0.99831 0.99836 0.99841 0.99846 0.99851 0.99856 0.99861
1 t2
Densité de la loi normale réduite : ϕ(x) = √ exp −
2π 2
1. 0.24197 0.23955 0.23713 0.23471 0.23230 0.22988 0.22747 0.22506 0.22265 0.22025
1.1 0.21785 0.21546 0.21307 0.21069 0.20831 0.20594 0.20357 0.20121 0.19886 0.19652
1.2 0.19419 0.19186 0.18954 0.18724 0.18494 0.18265 0.18037 0.17810 0.17585 0.17360
1.3 0.17137 0.16915 0.16694 0.16474 0.16256 0.16038 0.15822 0.15608 0.15395 0.15183
1.4 0.14973 0.14764 0.14556 0.14350 0.14146 0.13943 0.13742 0.13542 0.13344 0.13147
1.5 0.12952 0.12758 0.12566 0.12376 0.12188 0.12001 0.11816 0.11632 0.11450 0.11270
1.6 0.11092 0.10915 0.10741 0.10567 0.10396 0.10226 0.10059 0.09893 0.09728 0.09566
1.7 0.09405 0.09246 0.09089 0.08933 0.08780 0.08628 0.08478 0.08329 0.08183 0.08038
1.8 0.07895 0.07754 0.07614 0.07477 0.07341 0.07206 0.07074 0.06943 0.06814 0.06687
1.9 0.06562 0.06438 0.06316 0.06195 0.06077 0.05959 0.05844 0.05730 0.05618 0.05508
2. 0.05399 0.05292 0.05186 0.05082 0.04980 0.04879 0.04780 0.04682 0.04586 0.04491
2.1 0.04398 0.04307 0.04217 0.04128 0.04041 0.03955 0.03871 0.03788 0.03706 0.03626
2.2 0.03547 0.03470 0.03394 0.03319 0.03246 0.03174 0.03103 0.03034 0.02965 0.02898
2.3 0.02833 0.02768 0.02705 0.02643 0.02582 0.02522 0.02463 0.02406 0.02349 0.02294
2.4 0.02239 0.02186 0.02134 0.02083 0.02033 0.01984 0.01936 0.01888 0.01842 0.01797
2.5 0.01753 0.01709 0.01667 0.01625 0.01585 0.01545 0.01506 0.01468 0.01431 0.01394
2.6 0.01358 0.01323 0.01289 0.01256 0.01223 0.01191 0.01160 0.01130 0.01100 0.01071
2.7 0.01042 0.01014 0.00987 0.00961 0.00935 0.00909 0.00885 0.00861 0.00837 0.00814
2.8 0.00792 0.00770 0.00748 0.00727 0.00707 0.00687 0.00668 0.00649 0.00631 0.00613
2.9 0.00595 0.00578 0.00562 0.00545 0.00530 0.00514 0.00499 0.00485 0.00470 0.00457
11 0. 0.260 0.540 0.876 1.363 1.796 2.201 2.718 3.106 4.025 4.437
12 0. 0.259 0.539 0.873 1.356 1.782 2.179 2.681 3.055 3.930 4.318
13 0. 0.259 0.538 0.870 1.350 1.771 2.160 2.650 3.012 3.852 4.221
14 0. 0.258 0.537 0.868 1.345 1.761 2.145 2.624 2.977 3.787 4.140
15 0. 0.258 0.536 0.866 1.341 1.753 2.131 2.602 2.947 3.733 4.073
16 0. 0.258 0.535 0.865 1.337 1.746 2.120 2.583 2.921 3.686 4.015
17 0. 0.257 0.534 0.863 1.333 1.740 2.110 2.567 2.898 3.646 3.965
18 0. 0.257 0.534 0.862 1.330 1.734 2.101 2.552 2.878 3.610 3.922
19 0. 0.257 0.533 0.861 1.328 1.729 2.093 2.539 2.861 3.579 3.883
20 0. 0.257 0.533 0.860 1.325 1.725 2.086 2.528 2.845 3.552 3.850
21 0. 0.257 0.532 0.859 1.323 1.721 2.080 2.518 2.831 3.527 3.819
22 0. 0.256 0.532 0.858 1.321 1.717 2.074 2.508 2.819 3.505 3.792
23 0. 0.256 0.532 0.858 1.319 1.714 2.069 2.500 2.807 3.485 3.768
24 0. 0.256 0.531 0.857 1.318 1.711 2.064 2.492 2.797 3.467 3.745
25 0. 0.256 0.531 0.856 1.316 1.708 2.060 2.485 2.787 3.450 3.725
26 0. 0.256 0.531 0.856 1.315 1.706 2.056 2.479 2.779 3.435 3.707
27 0. 0.256 0.531 0.855 1.314 1.703 2.052 2.473 2.771 3.421 3.690
28 0. 0.256 0.530 0.855 1.313 1.701 2.048 2.467 2.763 3.408 3.674
29 0. 0.256 0.530 0.854 1.311 1.699 2.045 2.462 2.756 3.396 3.659
30 0. 0.256 0.530 0.854 1.310 1.697 2.042 2.457 2.750 3.385 3.646
40 0. 0.255 0.529 0.851 1.303 1.684 2.021 2.423 2.704 3.307 3.551
60 0. 0.254 0.527 0.848 1.296 1.671 2.000 2.390 2.660 3.232 3.460
80 0. 0.254 0.526 0.846 1.292 1.664 1.990 2.374 2.639 3.195 3.416
100 0. 0.254 0.526 0.845 1.290 1.660 1.984 2.364 2.626 3.174 3.390
200 0. 0.254 0.525 0.843 1.286 1.653 1.972 2.345 2.601 3.131 3.340
∞ 0. 0.253 0.524 0.842 1.282 1.645 1.960 2.326 2.576 3.090 3.291
Le fractile fn1 ,n2,p est tel que P(Zn1 ,n2 < fn1 ,n2,p ) = p.
156 Annexe C – Tables numériques
p = 0.975
n2 \ n1 1 2 3 4 5 6 7 8 10 12 20 40 60 100 ∞
2 38.51 39.00 39.17 39.25 39.30 39.33 39.36 39.37 39.40 39.41 39.45 39.47 39.48 39.49 39.50
3 17.44 16.04 15.44 15.10 14.88 14.73 14.62 14.54 14.42 14.34 14.17 14.04 13.99 13.96 13.90
4 12.22 10.65 9.98 9.60 9.36 9.20 9.07 8.98 8.84 8.75 8.56 8.41 8.36 8.32 8.26
5 10.01 8.43 7.76 7.39 7.15 6.98 6.85 6.76 6.62 6.52 6.33 6.18 6.12 6.08 6.02
6 8.81 7.26 6.60 6.23 5.99 5.82 5.70 5.60 5.46 5.37 5.17 5.01 4.96 4.92 4.85
7 8.07 6.54 5.89 5.52 5.29 5.12 4.99 4.90 4.76 4.67 4.47 4.31 4.25 4.21 4.14
8 7.57 6.06 5.42 5.05 4.82 4.65 4.53 4.43 4.30 4.20 4.00 3.84 3.78 3.74 3.67
9 7.21 5.71 5.08 4.72 4.48 4.32 4.20 4.10 3.96 3.87 3.67 3.51 3.45 3.40 3.33
10 6.94 5.46 4.83 4.47 4.24 4.07 3.95 3.85 3.72 3.62 3.42 3.26 3.20 3.15 3.08
11 6.72 5.26 4.63 4.28 4.04 3.88 3.76 3.66 3.53 3.43 3.23 3.06 3.00 2.96 2.88
12 6.55 5.10 4.47 4.12 3.89 3.73 3.61 3.51 3.37 3.28 3.07 2.91 2.85 2.80 2.73
13 6.41 4.97 4.35 4.00 3.77 3.60 3.48 3.39 3.25 3.15 2.95 2.78 2.72 2.67 2.60
14 6.30 4.86 4.24 3.89 3.66 3.50 3.38 3.29 3.15 3.05 2.84 2.67 2.61 2.56 2.49
15 6.20 4.77 4.15 3.80 3.58 3.41 3.29 3.20 3.06 2.96 2.76 2.59 2.52 2.47 2.40
16 6.12 4.69 4.08 3.73 3.50 3.34 3.22 3.12 2.99 2.89 2.68 2.51 2.45 2.40 2.32
17 6.04 4.62 4.01 3.66 3.44 3.28 3.16 3.06 2.92 2.82 2.62 2.44 2.38 2.33 2.25
18 5.98 4.56 3.95 3.61 3.38 3.22 3.10 3.01 2.87 2.77 2.56 2.38 2.32 2.27 2.19
19 5.92 4.51 3.90 3.56 3.33 3.17 3.05 2.96 2.82 2.72 2.51 2.33 2.27 2.22 2.13
20 5.87 4.46 3.86 3.51 3.29 3.13 3.01 2.91 2.77 2.68 2.46 2.29 2.22 2.17 2.09
21 5.83 4.42 3.82 3.48 3.25 3.09 2.97 2.87 2.73 2.64 2.42 2.25 2.18 2.13 2.04
22 5.79 4.38 3.78 3.44 3.22 3.05 2.93 2.84 2.70 2.60 2.39 2.21 2.14 2.09 2.00
23 5.75 4.35 3.75 3.41 3.18 3.02 2.90 2.81 2.67 2.57 2.36 2.18 2.11 2.06 1.97
24 5.72 4.32 3.72 3.38 3.15 2.99 2.87 2.78 2.64 2.54 2.33 2.15 2.08 2.02 1.94
25 5.69 4.29 3.69 3.35 3.13 2.97 2.85 2.75 2.61 2.51 2.30 2.12 2.05 2.00 1.91
26 5.66 4.27 3.67 3.33 3.10 2.94 2.82 2.73 2.59 2.49 2.28 2.09 2.03 1.97 1.88
27 5.63 4.24 3.65 3.31 3.08 2.92 2.80 2.71 2.57 2.47 2.25 2.07 2.00 1.94 1.85
28 5.61 4.22 3.63 3.29 3.06 2.90 2.78 2.69 2.55 2.45 2.23 2.05 1.98 1.92 1.83
29 5.59 4.20 3.61 3.27 3.04 2.88 2.76 2.67 2.53 2.43 2.21 2.03 1.96 1.90 1.81
30 5.57 4.18 3.59 3.25 3.03 2.87 2.75 2.65 2.51 2.41 2.20 2.01 1.94 1.88 1.79
40 5.42 4.05 3.46 3.13 2.90 2.74 2.62 2.53 2.39 2.29 2.07 1.88 1.80 1.74 1.64
60 5.29 3.93 3.34 3.01 2.79 2.63 2.51 2.41 2.27 2.17 1.94 1.74 1.67 1.60 1.48
120 5.15 3.80 3.23 2.89 2.67 2.52 2.39 2.30 2.16 2.05 1.82 1.61 1.53 1.45 1.31
∞ 5.03 3.69 3.12 2.79 2.57 2.41 2.29 2.19 2.05 1.95 1.71 1.49 1.39 1.30 1.04
C.4 – Loi de F ISHER -S NEDECOR 157
p = 0.99
n2 \ n1 1 2 3 4 5 6 7 8 10 12 20 40 60 100 ∞
2 98.50 99.00 99.17 99.25 99.30 99.33 99.36 99.37 99.40 99.42 99.45 99.47 99.48 99.49 99.50
3 34.12 30.82 29.46 28.71 28.24 27.91 27.67 27.49 27.23 27.05 26.69 26.41 26.32 26.24 26.13
4 21.20 18.00 16.69 15.98 15.52 15.21 14.98 14.80 14.55 14.37 14.02 13.75 13.65 13.58 13.46
5 16.26 13.27 12.06 11.39 10.97 10.67 10.46 10.29 10.05 9.89 9.55 9.29 9.20 9.13 9.02
6 13.75 10.92 9.78 9.15 8.75 8.47 8.26 8.10 7.87 7.72 7.40 7.14 7.06 6.99 6.88
7 12.25 9.55 8.45 7.85 7.46 7.19 6.99 6.84 6.62 6.47 6.16 5.91 5.82 5.75 5.65
8 11.26 8.65 7.59 7.01 6.63 6.37 6.18 6.03 5.81 5.67 5.36 5.12 5.03 4.96 4.86
9 10.56 8.02 6.99 6.42 6.06 5.80 5.61 5.47 5.26 5.11 4.81 4.57 4.48 4.41 4.31
10 10.04 7.56 6.55 5.99 5.64 5.39 5.20 5.06 4.85 4.71 4.41 4.17 4.08 4.01 3.91
11 9.65 7.21 6.22 5.67 5.32 5.07 4.89 4.74 4.54 4.40 4.10 3.86 3.78 3.71 3.60
12 9.33 6.93 5.95 5.41 5.06 4.82 4.64 4.50 4.30 4.16 3.86 3.62 3.54 3.47 3.36
13 9.07 6.70 5.74 5.21 4.86 4.62 4.44 4.30 4.10 3.96 3.66 3.43 3.34 3.27 3.17
14 8.86 6.51 5.56 5.04 4.69 4.46 4.28 4.14 3.94 3.80 3.51 3.27 3.18 3.11 3.01
15 8.68 6.36 5.42 4.89 4.56 4.32 4.14 4.00 3.80 3.67 3.37 3.13 3.05 2.98 2.87
16 8.53 6.23 5.29 4.77 4.44 4.20 4.03 3.89 3.69 3.55 3.26 3.02 2.93 2.86 2.75
17 8.40 6.11 5.18 4.67 4.34 4.10 3.93 3.79 3.59 3.46 3.16 2.92 2.83 2.76 2.65
18 8.29 6.01 5.09 4.58 4.25 4.01 3.84 3.71 3.51 3.37 3.08 2.84 2.75 2.68 2.57
19 8.18 5.93 5.01 4.50 4.17 3.94 3.77 3.63 3.43 3.30 3.00 2.76 2.67 2.6 2.49
20 8.10 5.85 4.94 4.43 4.10 3.87 3.70 3.56 3.37 3.23 2.94 2.69 2.61 2.54 2.42
21 8.02 5.78 4.87 4.37 4.04 3.81 3.64 3.51 3.31 3.17 2.88 2.64 2.55 2.48 2.36
22 7.95 5.72 4.82 4.31 3.99 3.76 3.59 3.45 3.26 3.12 2.83 2.58 2.50 2.42 2.31
23 7.88 5.66 4.76 4.26 3.94 3.71 3.54 3.41 3.21 3.07 2.78 2.54 2.45 2.37 2.26
24 7.82 5.61 4.72 4.22 3.90 3.67 3.50 3.36 3.17 3.03 2.74 2.49 2.40 2.33 2.21
25 7.77 5.57 4.68 4.18 3.85 3.63 3.46 3.32 3.13 2.99 2.70 2.45 2.36 2.29 2.17
26 7.72 5.53 4.64 4.14 3.82 3.59 3.42 3.29 3.09 2.96 2.66 2.42 2.33 2.25 2.13
27 7.68 5.49 4.60 4.11 3.78 3.56 3.39 3.26 3.06 2.93 2.63 2.38 2.29 2.22 2.10
28 7.64 5.45 4.57 4.07 3.75 3.53 3.36 3.23 3.03 2.90 2.60 2.35 2.26 2.19 2.07
29 7.60 5.42 4.54 4.04 3.73 3.50 3.33 3.20 3.00 2.87 2.57 2.33 2.23 2.16 2.04
30 7.56 5.39 4.51 4.02 3.70 3.47 3.30 3.17 2.98 2.84 2.55 2.30 2.21 2.13 2.01
40 7.31 5.18 4.31 3.83 3.51 3.29 3.12 2.99 2.80 2.66 2.37 2.11 2.02 1.94 1.81
60 7.08 4.98 4.13 3.65 3.34 3.12 2.95 2.82 2.63 2.50 2.20 1.94 1.84 1.75 1.60
120 6.85 4.79 3.95 3.48 3.17 2.96 2.79 2.66 2.47 2.34 2.03 1.76 1.66 1.56 1.38
∞ 6.64 4.61 3.78 3.32 3.02 2.80 2.64 2.51 2.32 2.19 1.88 1.59 1.48 1.36 1.05
Bibliographie
[1] Gérard BAILLARGEON. Méthodes statistiques de l’ingénieur. Les éditions SMG, 1990.
[2] Jean BASS. Éléments de calcul des probabilités théorique et appliqué. Masson, 1967.
[3] Jean BASS. Cours de mathématiques (tome 2). Masson, 1968.
[4] Jean BASS. Cours de mathématiques (tome 3). Masson, 1971.
[5] Jean BASS. Éléments de calcul des probabilités. Masson, 1974.
[6] S. B LUMENTHAL. Statistique appliquée. Les éditions d’organisation, 1989.
[7] N. B OULEAU. Probabilités de l’ingénieur. Hermann, 1986.
[8] Pierre B RÉMAUD. Introduction aux probabilités. Springer-Verlag, 1988.
[9] D. C ARTON. Processus aléatoires utilisés en recherche opérationnelle. Masson, 1975.
[10] P. C HRÉTIENNE et R. FAURE. Processus stochastiques, leurs graphes, leurs usages. Gauthier-
Villars, 1974.
[11] G. C ULLMANN. Initiation aux chaînes de Markov — Méthodes et applications. Masson, 1975.
[12] Yadolah D ODGE. Premiers pas en statistique. Springer, 2000.
[13] Bradley E FRON et Robert T IBSHIRANI. An introduction to the Bootstrap. Chapman and Hall,
1993.
[14] Arthur E NGEL. Les certitudes du hasard. Aléas, 1990.
[15] William F ELLER. An introduction to probability Theory and its applications. John Wiley &
Sons, 1968.
[16] Dominique F OATA et Aimé F UCHS. Calcul des probabilités. Masson, 1996.
[17] Maurice G IRAULT. Processus aléatoires. Dunod, 1965.
[18] Maurice G IRAULT. Calcul des probabilités en vue des applications. Dunod, 1972.
[19] P.-G. H OEL. Statistique mathématique. Armand Colin, 1984.
[20] S. K ARLIN. Initiation aux processus aléatoires. Dunod, 1969.
[21] S. L ESSARD et M ONGA. Statistique. Concepts et méthodes. Masson, 1993.
[22] M. M ÉTIVIER. Notions fondamentales de la théorie des probabilités. Dunod, 1968.
[23] M. M ÉTIVIER. Probabilités : dix leçons d’introduction. Ellipses, 1987.
[24] J. N EVEU. Bases mathématiques du calcul des probabilités. Masson, 1971.
[25] Alain R EY. « Analyse 3 – Notions sur la théorie des distributions ». ENSAM CER d’Angers,
1988.
159
160 Bibliographie
161
162 Index
de transition, 72 vecteur
stochastique, 74 aléatoire, 16, 21
moment, 17, 38 d’état permanent, 77
moyenne empirique, 88 gaussien, 49
vraisemblance, 92
prédiction de la variable expliquée, 133
probabilité, 8
conditionnelle, 10
critique, 113
probabilités
totales, 8
processus
aléatoire, 71
de P OISSON, 31, 71
homogène, 72
régression linéaire
multiple, 134
simple, 120
risque
de deuxième espèce, 105
de première espèce, 105
statistique, 87
système complet, 11
test
du khi-deux, 114
tests
paramétriques, 105
théorème
de F ISHER, 90
de la limite centrée, 67
tribu, 7
de B OREL, 33
variable aléatoire
continue, 33
discrète, 13
réduite, 19
variables aléatoires
indépendantes, 16, 36
mutuellement indépendantes, 16
non-corrélées, 20
variance, 18
empirique, 89
empirique corrigée, 89