1
Chapitre 1
Fondements Mathématiques et
Statistiques
Ce chapitre sert à présenter brièvement quelques rappels sur la loi normale, la loi du khi-
deux, la loi t de Student et la loi F de Fisher. La connaissance de quelques propriétés
fondamentales de ces lois est indispensable à un traitement statistique rigoureux de l’analyse
de la variance.
(x − µ)2
1 −
f (x) = √ e 2σ 2 x∈<
2πσ
Cette fonction est bel et bien une fonction de densité puisqu’on a:
2
Le premier point est trivial. On peut vérifier le deuxième comme suit
Z ∞ Z ∞
1 1 x−µ 2
f (x)dx = √ e− 2 ( σ ) dx
−∞ −∞ 2πσ
Z ∞
1 2
= √ e−y /2 dy
−∞ 2π
s Z
∞ 1 Z ∞
1
= ( √ e−x2 /2 dx)( √ e−y2 /2 dy)
−∞ 2π −∞ 2π
sZ
∞ Z ∞ 1
= e−(x2 +y2 )/2 dxdy
−∞ −∞ 2π
s
Z 2π Z ∞
1 −r2 /2
= e rdrdθ
0 0 2π
s
Z 2πZ ∞
1
= dθ re−r2 /2 dr
0 2π 0
√
= 1 = 1.
On peut vérifier facilement que la moyenne et la variance de cette loi sont respectivement
égales à µ et σ 2 .
Démonstration
MX (t) = E[etX ]
Z ∞
1 1 x−µ 2
= e− 2 ( σ ) dx
etx √
−∞ 2πσ 2
Z ∞
1 2
= et(µ+σy) √ e−y /2 dy
−∞ 2π
Z ∞
1 2 2 2 2 2
= etµ √ e−(y −2tσy+t σ −t σ )/2 dy
−∞ 2π
Z ∞
2 2 1 2 2 2
= etµ+t σ /2 √ e−(y−tσ) /2 dy = etµ+t σ /2
−∞ 2π
La dernière intégrale est égale à 1 car c’est l’intégrale sur R de la densité de la loi normale
avec moyenne tσ et variance 1.
3
0.4
densité
0.2
0.0
−4 −2 0 2 4
x
Variance égale
0.4
densité
0.2
0.0
−4 −2 0 2 4
x
Moyenne égale
Calculons f.m.g. de Y :
MY (t) = E[etY ]
Pn
= E[et(a0 + i=1
ai Xi )
]
n n
= eta0 E[etai Xi ] = eta0
Y Y
MXi (tai )
i=1 i=1
n
2 a2 σ 2 /2
= eta0 etai µi +t
Y
i i
i=1
Pn Pn
t{a0 + ai µi }+t2 { a2i σi2 }/2
= e i=1 i=1
Pn Pn
On reconnaı̂t la f.g.m. d’une loi normale de moyenne a0 + i=1 ai µi et de variance i=1 a2i σi2
4
rôle primordial en calcul de probabilité. Notons ses fonctions de densité et de répartition par
2 √ Rz
φ(·) et Φ(·) respectivement. Elles sont définies par φ(z) = e−z /2 / 2π et Φ(z) = −∞ φ(t)dt.
Notons qu’il n’y a pas d’expressions explicites pour Φ(·). Ses valeurs numériques sont données
par des tables qu’on trouve dans presque tous les livres de statistiques et probabilités, des
logiciels d’analyses statistiques et certaines calculatrices scientifiques. Ainsi, on peut calculer
numériquement des probabilités du type P (a < X ≤ b), −∞ ≤ a ≤ b ≤ ∞, comme suit :
a−µ b−µ
P (a < X ≤ b) = P ( <Z≤ )
σ σ
b−µ a−µ
= Φ( ) − Φ( )
σ σ
Exemple 1.2 Soit {X1 , X2 , · · · , Xn } un échantillon issu d’une loi normale N(µ, σ 2 ), c’est
à dire n variables aléatoires i.i.d. Appliquons
P le théorème précédent avec a0 = 0 et ai = 1/n
n
Xi
pour i = 1, · · · , n. On obtient alors X̄ = i=1
n
∼ N(µ, σ 2 /n).
Définition 1.1 Soit k un entier strictement positif. On dit qu’une variable aléatoire con-
tinue X suit une loi de Khi-deux et on écrit X ∼ χ2k si et seulement si la fonction de densité
de X s’écrit:
1
Γ(k/2)2k/2
xk/2−1 e−x/2 si x ≥ 0
f (x) = (1.1)
0 sinon
R ∞ α−1 −y
où Γ(α) = 0 y e dy.
Vérifions que la fonction définie par 1.1 est bel et bien une densité. Il est évident que
cette fonction est positive. Reste à vérifier qu’elle s’intégre à 1. Par définition, on a Γ(r/2) =
R ∞ r/2−1 −y
0 y e dy. Effectuons le changement de variable y = x/2. Cette dernière intégrale est
alors égale à
Z ∞
x dx
Γ(r/2) = ( )r/2−1 e−x/2
0 2 2
Z ∞
1 r/2−1 −x/2
= x e dx
0 2r/2
5
On en déduit que Z ∞
1
xr/2−1 e−x/2 dx = 1.
0 2r/2 Γ(r/2)
C’est ce qu’il fallait démontrer.
Proposition 1.3 La f.g.m. de la loi du Khi-deux à r degrés de liberté est donnée par
M (t) = (1 − 2t)−r/2 pour t < 1/2
En effet, on a:
M (t) = E[eXt ]
Z ∞
1
= ext r/2
xr/2−1 e−x/2 dx
0 Γ(r/2)2
Z ∞ − x2 (1−2t) r/2−1
e x
= dx
0 Γ(r/2)2r/2
y
Z ∞
e− 2 y r/2−1
= r/2 r/2
dy = (1 − 2t)−r/2
0 Γ(r/2)2 (1 − 2t)
Calculons la fonction de densité fX (x) pour x > 0. Elle est égale à:
d
fX (x) = FX (x)
dx
d
= P (X ≤ x)
dx
d
= P (Z 2 ≤ x)
dx
d √ √
= P (− x ≤ Z ≤ x)
dx
d √ √
= {Φ( x) − Φ(− x)}
dx
6
Densites de lois du khi−deux
0.5
0.4
0.3
d.l.=2
density
d.l.=4
d.l.=6
0.2
0.1
0.0
0 5 10 15
d √
= {2Φ( x) − 1}
dx
√ d √
= 2φ( x) { x}
dx
1
= √ e−x/2
2πx
On reconnaı̂t la densité d’une loi khi-deux à 1 degré de liberté.
Théorème 1.5 Soient U et V deux variables aléatoires indépendantes telles que U ∼ χ2u et
V ∼ χ2v . On a alors W = U + V ∼ χ2u+v .
Calculons la f.g.m de W .
7
Exemple 1.3 Soit {X1 , X2 , · · · , Xn } un échantillon issu d’une loi normale N(µ, σ 2 ). Posons
n
S∗2 = (Xi − µ)2 /n
X
i=1
8
Densites de lois du khi−deux
0.4
Normale
d.l.=15
d.l.=10
0.3
d.l.=5
d.l.=2
density
0.2
0.1
0.0
−4 −2 0 2 4
Z ∞
fT (t) = g(t, u)du
0
Z ∞
1 (r+1)/2−1 − u
2
(1+ tr )
= √ u e 2 du
0 2πrΓ(r/2)2r/2
Z ∞
1 2z 2
= √ ( 2
)(r+1)/2−1 e−z ( )dz
0 2πrΓ(r/2)2 r/2 1 + t /r 1 + t2 /r
Γ[(r + 1)/2] 1
= √
πrΓ[r/2] (1 + t /r)(r+1)/2
2
9
Densites de lois F de Fisher a d.l.1=5
0.6
0.5
0.4
density
d.l.2=7
0.3
d.l.2=5
d.l.2=2
0.2
0.1
0.0
0 1 2 3 4 5
n/2
Γ((n+m)/2)(n/m) w(n/2)−1
Γ(n/2)Γ(m/2) (1+nw/m)(n+m)/2
si w ≥ 0
f (w) =
0 sinon
où n et m sont des entiers strictement positifs appelés degrés de liberté. On écrit alors
W ∼ Fn,m .
Si m ≤ 2, l’espérence de W n’existe pas. Si m > 2, on a E[W ] = m/(m − 2).
2m2 (n+m−2)
Si m ≤ 3, la variance de W n’existe pas. Si m > 4, on a V ar[W ] = n(m−2)2 (m−4)
.
Proposition 1.7 Soient U et V deux variables aléatoires indépendantes telles que U ∼ χ2n
et V ∼ χ2m . Posons W = (U/n)/(V /m). Alors, on a W ∼ Fn,m .
10
Densites de lois F de Fisher a d.l.2=5
0.6
0.5
0.4
density
d.l.1=10
0.3
d.l.1=7
d.l.1=5
0.2
0.1
0.0
0 1 2 3 4 5
2
indépendants, on a donc : (Sx,∗ 2
/σx2 )/(Sy,∗ /σy2 ) ∼ Fn,m d’après la proposition 1.7. Cette pro-
priété est utilisée pour trouver un intervalle de confiance au niveau 1 − α pour le rapport
de variances σx2 /σy2 lorsque les moyennes théoriques µx et µy sont connues. Celui-ci s’écrit
alors
2 2
" #
1 Sx,∗ 1 Sx,∗
2
, 2
Fα/2,n,m Sy,∗ F1−α/2,n,m Sy,∗
où Fγ,r,s est le quantile d’ordre 1 − γ de la loi Fr,s . Donc si W ∼ Fr,s , Fγ,r,s est la valeur telle
que P {W > Fγ,r,s } = γ. Cette même propriété est utilisée pour tester l’égalité de variances
de deux échantillons indépendants lorsque les moyennes théoriques sont connues. On rejette
l’hypothèse H0 : σx2 = σy2 si et seulement si 1 n’appartient pas à l’intervalle de confiance
ci-dessus, c’est à dire si
2
Sx,∗
2
≥ Fα/2,n,m ,
Sy,∗
ou
2
Sx,∗
2
≤ F1−α/2,n,m .
Sy,∗
11
1.5 Les lois non-centrées
Dans cette section, on introduit les lois du Khi-deux et F de Fisher non centrées. En analyse
de la variance, certaines statistiques étudiées suivent ces distributions sous l’hypothèse alter-
native, c’est-à-dire lorsque les moyennes ne sont pas toutes égales. Ces distributions servent
alors pour le calcul de la puissance des tests.
Calculons la f.g.m de Y :
n
2
MY (t) = E[eY t ] = E[eXi t ]
Y
i=1
La dernière intégrale est égale à 1 puisqu’on intégre la denstié d’une loi normale de
moyenne µi (1 − 2t)−1 et de variance (1 − 2t)−1 sur l’ensemble R. Finalement, on obtient:
tδ
MY (t) = (1 − 2t)−n/2 e 1−2t
Le cas δ = 0 correspond à la loi du khi-deux présentée à la section 1.2. Un long et
fastudieux calcul nous donne MY0 (0) = n + δ et MY00 (0) = n2 + 2n(δ + 1) + δ(δ + 4). On peut
alors annoncer la proposition suivante:
12
Densites de lois du Khi−deux a 5 d.l.
0.15
0.10
centree
non−centree, d=2
non−centree, d=5
density
0.05
0.00
0 5 10 15 20 25 30
Théorème 1.9 Soient U et V deux variables aléatoires telles que U ∼ χ2n (δ) et V ∼ χ2m .
Posons W = (U/n)/(V /m). On a alors le résultat suivant: W suit une loi F de Fisher
décentrée à n et m degrés de liberté et de paramètre de non-centralité δ. On écrit alors
W ∼ Fn,m (δ).
13
Densites de lois F de Fisher non−centrees 5 et 5 degres de liberte
0.6
0.5
0.4
density
delta=0
0.3
delta=1
delta=2
0.2
0.1
0.0
0 1 2 3 4 5
14
Exemple 1.5 Soit X = {X1 , X2 , · · · , Xn } un échantillon de taille n. Le carré de la moyenne
arithmétique X̄ 2 est une forme quadratique aléatoire en X. En effet, on a
n n
2 1X 2
X 1 2 2 X
X̄ = { Xi } = 2
X i + Xi Xj .
n i=1 i=1 n n2 i<j
1
Tous les élements de la matrice A correspondante sont égaux à n2
. La matrice A s’écrit
1
alors A = 1 1T
n2 n n
où 1n est le vecteur de taille n dont tous les élements sont égaux à 1.
Le théorème suivant énonce les conditions nécéssaires et suffisantes pour qu’une forme
quadratique aléatoire suive une loi du Khi-deux.
15
Dans l’exemple qui suit, on utilise le dernier théorème pour démontrer un résultat clas-
sique de la théorie d’échantillonage à partir d’une population normale. Ce résultat nous sera
très utile pour la suite de ce cours.
Exemple 1.7 Reconsidérons l’exemple 1.6 dans le cas où le vecteur X est un échantillon
de taille n issu d’une loi normale de moyenne µ et de variance σ 2 . Dans ce cas, on a
E[X] = µ1n . On a vu que la statistique Q = (n − 1)S 2 est une forme quadratique et que sa
matrice correspondante est égale à B = In − n1 1n 1T
n . On a:
1 1 1
B2 = In − 1n 1T T T
n + 2 1n 1n 1n 1n − 1n 1T
n
n n n
Or on a 1T
n 1n = n, donc les deux derniers termes du côté gauche de la dernière équation
s’annulent et on a B2 = B. D’après le théorème précédent, Q/σ 2 = (n − 1)S 2 /σ 2 suit une
loi du khi-deux non-centrée à d degrés de libertés et de paramètre δ = µ2 /σ 2 1T
n B1n où d est
égal au rang de la matrice B. La somme de toutes les colonnes 1T
n B de la matrice B est
nulle, on a donc δ = 0 et d ≤ n − 1. Les n − 1 premières colonnes de B sont indépendantes
donc d = n − 1.
Sx2 Sx2
" #
1 1
,
Fα/2,n−1,m−1 Sy2 F1−α/2,n−1,m−1 Sy2
Cette même propriété est utilisée pour tester l’égalité de variances de deux échantillons
indépendants lorsque les moyennes théoriques sont inconnues. On rejette l’hypothèse H0 :
σx2 = σy2 si et seulement si 1 n’appartient pas à l’intervalle de confiance si dessus, c’est à dire
si
Sx2
≥ Fα/2,n−1,m−1
Sy2
16
ou
Sx2
≤ F1−α/2,n−1,m−1
Sy2
Exemple 1.9 Reconsidérons les deux exemples 1.5 et 1.6 dans le cas où le vecteur X est un
échantillon de taille n issu d’une loi normale de moyenne µ et de variance σ 2 . On a vu que
1
X̄ 2 et (n − 1)S 2 sont des formes quadratiques de matrices associées respectives A = 1 1T
n2 n n
et B = In − n1 1n 1T
n . Calculons le produit matriciel AB. On a :
1 1
AB = 2
1n 1T
n (In − 1n 1T
n)
n n
1 1
= 2
1n 1T T
n − 3 1n 1n 1n 1n
T
n n
or 1T
n 1n = n donc on a AB = 0. Ainsi, d’après le théorème précédent, les statistiques S
2
et X̄ sont indépendantes.
On vient donc de montrer un résultat classique en théorie de l’échantillonage d’une loi
normale:
Proposition 1.12 Soit {X1 , X2 , · · · , Xn } un échantillon issu d’une loi normale N(µ, σ 2 ).
Soient X̄ et S 2 la moyenne et la variance échantillonales respectivement définies par X̄ =
Pn Pn
i=1 Xi /n et S 2 = i=1 (Xi − X̄)2 /(n − 1). On a alors:
17