Explorer les Livres électroniques
Catégories
Explorer les Livres audio
Catégories
Explorer les Magazines
Catégories
Explorer les Documents
Catégories
* Ce cours reprend dans ses grandes lignes le cours de Mme F. Duheille-Bienvenüe (MASS 42, 2001, Université Claude
Bernard - Lyon 1) dont on n'a pu qu'apprécier la clarté et la concision.
Exemples : simulation d'un trafic urbain, de gestion d'un hôpital, d'évolution d'une population, de
variations boursières, etc.
Remarque.
Dès qu'on sait simuler une loi de Bernoulli, on sait simuler les lois qui en dérivent : loi
géométrique (nombre d'épreuves pour arriver à un succès), somme de variables
géométriques de même paramètre (nombre d'épreuves pour arriver à k succès), loi
binomiale (nombre de succès en n épreuves).
Exemple (engendré avec la fonction ALEA d'Excel).
Uniforme sur [0;1] 0.175 0.693 0.162 0.822 0.024 0.051 0.720 0.882 0.069 0.797 0.489 0.206 0.675 0.546 0.880 0.086 0.346 0.986 0.604 0.005
Bernoulli (0.32) 0 1 0 1 0 0 1 1 0 1 0 0 0 0 1 0 0 1 0 0
Geom*(0.32) 2 2 3 1 2 5 3
Somme de 2 Geom*(0.32) 4 4 7
Binom(20;0.32) 15
Uniforme sur [0;1] 0.133 0.230 0.802 0.210 0.351 0.806 0.850 0.238 0.282 0.166 0.371 0.332 0.521 0.115 0.751 0.428 0.999 0.065 0.516 0.533
Bernoulli (0.32) 0 0 1 0 0 1 1 0 0 0 0 0 0 0 1 0 1 0 0 0
Geom*(0.32) 5 3 1 8 2
Somme de 2 Geom*(0.32) 8 4 10
Binom(20;0.32) 22
Uniforme sur [0;1] 0.497 0.008 0.407 0.815 0.800 0.168 0.795 0.552 0.383 0.331 0.366 0.036 0.804 0.604 0.340 0.372 0.002 0.036 0.753 0.561
Bernoulli (0.32) 0 0 0 1 1 0 1 0 0 0 0 0 1 0 0 0 0 0 1 0
Geom*(0.32) 7 1 2 6 6
Somme de 2 Geom*(0.32) 8 8
Binom(20;0.32) 16
Uniforme sur [0;1] 0.507 0.315 0.122 0.554 0.387 0.506 0.199 0.025 0.831 0.292 0.862 0.105 0.240 0.651 0.352 0.487 0.027 0.650 0.116 0.281
Bernoulli (0.32) 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0 0
Geom*(0.32) 10 2
Somme de 2 Geom*(0.32) 16
Binom(20;0.32) 16
Uniforme sur [0;1] 0.794 0.714 0.330 0.965 0.643 0.117 0.747 0.403 0.888 0.275 0.802 0.136 0.352 0.356 0.759 0.982 0.911 0.473 0.558 0.634
Bernoulli (0.32) 1 1 0 1 0 0 1 0 1 0 1 0 0 0 1 1 1 0 0 0
Geom*(0.32) 10 1 2 3 2 2 4 1 1
Somme de 2 Geom*(0.32) 12 3 5 6 2
Binom(20;0.32) 28
1.1.2.2. Simulation d'une variable aléatoire X de loi discrète à support borné ou
non.
— pour chaque nombre u i, 1 ≤ i ≤ n, choisi au hasard dans l'intervalle [0, 1] des valeurs
de la fonction de répartition, on prend pour valeur x i de X, l'abscisse du point
d'intersection de la droite d'ordonnée u i avec la courbe représentative de la fonction de
répartition de X.
— (x 1, ... , x n) est la réalisation d'un n-échantillon de X.
Méthode alternative.
pour 1 ≤ j ≤ k – 1.
On désigne par x i le
nombre de y j compris entre 1 – p et 1.
Explication.
Cet algorithme revient à définir, à partir de la variable aléatoire U de loi uniforme sur [0,
1], d'abord une suite (Y j) 1 ≤ j ≤ k de variables aléatoires à valeurs dans [0, 1] par Y 1 = U
puis
Yj+1 = 1 [0, 1 – p] (Y j) + 1 ]1 – p, 1] (Y j)
et X = 1 ]1 – p, 1] (Y j).
Y 1 = U suit une loi uniforme sur [0, 1]. Donc la probabilité que Y 1 prenne une valeur
dans un intervalle de longueur a contenu dans [0, 1] est a.
Supposons, hypothèse de récurrence, que la probabilité que Y j prenne une valeur dans
un intervalle de longueur a contenu dans [0, 1] soit a, pour tout a ∈ ]0, 1[.
D'après le dessin et la définition de Y j + 1, Y j + 1 est compris entre x et x + a lorsque Y j est
compris entre x (1 – p) et (x + a)(1 – p), ou entre p x + (1 – p) et p (x + a) + (1 – p) :
P [x < Y j + 1 ≤ x + a] = P [x (1 – p) ≤ Y j ≤ (x + a)(1 – p)] + P [p x + (1 – p) ≤ Y j ≤ p (x +
a) + (1 – p)]
= a (1 – p) + a p = a.
Donc l'hypothèse de récurrence est vraie encore pour j + 1, dès qu'elle est vraie pour j.
Le résultat est donc établi pour tout j ∈ N * puisqu'il est vrai pour j = 1 :
1 [0, 1 – p] (Y j)
1 [0, 1 – p] (Y j + 1) 0 1 Total
0 p² p (1 – p) p
1 p (1 – p) (1 – p) ² 1 – p
Total p 1–p 1
P [0 ≤ Y j + 1 ≤ 1 – p} | {0 ≤ Y j ≤ 1 – p}] = =1–p
Le tableau de la loi conjointe montre que les probabilités conjointes peuvent aussi
s'obtenir par produit des lois marginales :
donc deux variables aléatoires consécutives 1 [0, 1 – p] (Y j) et 1 [0, 1 – p] (Y j + 1) sont
indépendantes.
On peut en déduire que les variables aléatoires 1 [0, 1 – p] (Y j) sont indépendantes dans leur
ensemble (résultat admis ici)
La variable aléatoire X suit une loi binomiale de paramètres k et p, parce que X est
somme de k variables aléatoires de Bernoulli indépendantes de paramètre p, car chaque
variable aléatoire 1 ]1 – p, 1] (Y j) est une variable de Bernoulli de paramètre p :
P [1 ]1 – p, 1] (Y j) = 1] = P [1 – p < Y j ≤ 1] = 1 – (1 – p) = p, pour j ≥ 1, d'après le
résultat précédent.
Le n-uple (x 1, ... , x n) forme ainsi une réalisation d'un n-échantillon de loi binomiale de
paramètres k et p.
L'avantage de la méthode est qu'il suffit d'une valeur de U pour définir une valeur de X.
Remarque.
Dès qu'on sait simuler une loi exponentielle, on sait simuler la loi Gamma de
paramètres n et λ qui en découle : Y = X 1 + ... + X n, où X 1, ... , X n, suivent une loi
exponentielle de même paramètre λ.
1.2.2. Justification.
dy = .
n–1
De sorte que, par suite de l'indépendance des variables, P [{T = n}] = × 1– .
Cette égalité qui montre que T suit une loi géométrique sur N *, de paramètre .
P [X ≤ x] = P [{Y n ≤ x} {T = n}]
n–1
= 1– P [{Y n ≤ x} {U n ≤ h (Y n)}]
n–1
Or 1– = =c
Donc :
P [X ≤ x] = c du g (y) dy
=c h (y) g (y) dy
= f (y) dy
Remarque.
On commence par simuler une variable aléatoire A ayant pour densité de probabilité celle de la
valeur absolue d'une variable normale centrée réduite.
La densité de probabilité de A est de la forme c h (x) g (x) avec c = , g (x) = e – x, h (x) = e
.
g est la densité de probabilité d'une variable exponentielle de paramètre 1 : on sait la simuler
(1.1.3.3).
La méthode de rejet de Von Neumann permet donc de simuler A.
On sait simuler aussi une variable discrète ε prenant les valeurs 1 et – 1 avec les probabilités .
X= cos (2 π V) et Y = sin (2 π V)
X ² + Y ² = – 2 ln U
U=e
tan (2 π V) =
V= Arctan
= h (x, y) dx dy
= h (x, y) dx dy
= h (x, y) e dx dy = h (x, y) e e dx dy
Et ceci montre que les variables X et Y sont indépendantes et suivent chacune la loi normale centrée
réduite.
Remarque.
Dès qu'on sait simuler une variable aléatoire X de loi normale centrée réduite, on sait simuler les lois
qui en découlent :
— loi normale de paramètres µ et σ ² : Y = µ + σ X, où X suit une loi normale centrée réduite ;
— loi χ ² de Karl Pearson à ν degrés de liberté : χ ν ² = X 1 ² + ... + X ν ², où X 1, ... , X ν, suivent une
loi normale centrée réduite.
— loi de Student à ν degrés de liberté : T = , où X suit une loi normale centrée réduite et χ ν
p*=f
On obtient une estimation ponctuelle sans biais de Var (F) en prenant la réalisation
de l'estimateur de cette variance dans l'échantillon.
f – uα ; f + uα
E * (X) = xi
E * (X) – t α ; E * (X) + t α
σ*²= xi ² – xi
Si la taille est grande (dépassant les capacités de la table), la loi de Student peut
être remplacée par une loi normale.
E * (X) – u α ; E * (X) + u α
E * (X) – u α ; E * (X) + u α
E * (X) – u α ; E * (X) + u α
σ*²= xi ² – xi
σ*²= xi ² – xi
(n – 1) ; (n – 1)
σ * – uα ; σ * + uα
Statistiques - 2e année - Chapitre 3 - Tests statistiques Page 16
Une hypothèse est dite paramétrique si elle se rapporte aux paramètres d'une loi. Elle est dite non
paramétrique dans les autres cas.
Une hypothèse paramétrique est dite simple si elle est associée à une valeur unique. Elle est dite
multiple dans les autres cas.
En général, les hypothèses H 0 et H 1 ne jouent pas des rôles symétriques, et on choisit pour
hypothèse nulle H 0 l'hypothèse à laquelle on croit ou on tient, ou encore celle qui permet de faire des
calculs, ou encore celle dont le rejet est lourd de conséquences.
3.1.2. Test.
3.1.2.1. Définition.
Les hypothèses à confronter, H 0 et H 1, étant identifiées, leur validité est soumise à l'épreuve à l'aide
d'un test d'hypothèses.
Un test d'hypothèses est une règle de décision qui permet, sur la base des données obsdervées et
avec des risques d'erreur déterminés, d'accepter ou de refuser une hypothèse statistique.
La règle de décision d'un test étant basée sur l'observation d'un échantillon et non sur la base d'une
information exhaustive, on n'est jamais sûr de l'exactitude de la conclusion : il y a donc toujours un
risque d'erreur.
L'erreur de première espèce consiste à rejeter H 0 à tort : le risque d'erreur de première espèce est
noté α, c'est le risque d'erreur que l'on prend en rejetant H 0 alors qu'elle est vraie. On l'appelle aussi
le niveau du test.
L'erreur de deuxième espèce consiste à rejeter H 1 à tort : le risque d'erreur de deuxième espèce est
noté β, c'est le risque d'erreur que l'on prend en rejetant H 1 alors qu'elle est vraie.
η = 1 – β est appelé la puissance du test.
Statistiques - 2e année - Chapitre 3 - Tests statistiques Page 17
On s'efforce de construire des tests qui limitent les risques à des niveaux jugés acceptables.
En règle générale, on impose un seuil α à ne pas dépasser (par exemple 5 %, par défaut) et, compte
tenu de cette contrainte, on cherche à construire les tests ayant la plus grande puissance possible.
Un test basé sur un échantillon de taille n est déterminé par une région R de R n appelée région
critique, ou région de refus de l'hypothèse H 0.
Le complémentaire A de R est appelé la région d'acceptation de H 0.
La règle de décision d'un test est la suivante : si x = (x 1, ... , x n) est le vecteur des valeurs observées,
on décide de refuser H 0 (et d'accepter H 1) si x ∈ R, et on décide d'accepter H 0 si x ∉ R.
Dans la pratique, on essaie de définir une variable aléatoire D, que l'on appelle variable de décision,
ou fonction discriminante, et dont la loi est connue, au moins sous l'hypothèse H 0.
La région critique sera alors la région dans laquelle la probabilité des valeurs de la fonction
discriminante a tendance à augmenter lorsque H 0 n'est pas vraie. Cette région est définie à l'aide du
risque α de première espèce du test.
Le test du Khi-deux (χ ²) est un test non paramétrique qui permet de tester l'hypothèse H 0 selon
laquelle les données observées sont engendrées par un modèle faisant intervenir une loi de
probabilité, ou une famille de lois de probabilité.
Le choix du modèle résulte de diverses considérations théoriques ou expérimentales, et il importe de
tester son adéquation.
On définit une fonction discriminante D n qui constitue une mesure normalisée de l'écart entre les
valeurs théoriques déduites du modèle et les valeurs observées dans l'échantillon.
Lorsque H 0 n'est pas vraie, les valeurs de D n augmentent et lorsque H 0 est vraie, D n suit, au moins
asymptotiquement, une loi du χ ² de Pearson à ν degrés de liberté.
La région critique du test est donc constituée des grandes valeurs de D n.
Pour tout indice i de 1 à k, on note p i la probabilité théorique de la classe C i donnée par la loi µ :
Lorsque µ dépend de paramètres inconnus, on note la loi entièrement spécifiée obtenue en estimant
les paramètres de la loi µ (généralement par la méthode du maximum de vraisemblance), et i
= (C
)=
i
d l'estimation correspondante de la probabilité théorique de la classe C i.
Ainsi, pour tout indice i de 1 à k, n p i (resp. n i) représente l'effectif (resp. une estimation de
l'effectif) théorique espéré de la classe C i en n observations, sous l'hypothèse H 0.
Statistiques - 2e année - Chapitre 3 - Tests statistiques Page 19
Pour la validité de l'approximation par la loi du Khi-deux avec un nombre correct de degrés de
liberté, tous ces effectifs théoriques doivent, en général, être supérieurs à 5.
Dn =
représente une mesure normalisée de l'écart global entre les valeurs théoriques et les valeurs
observées.
On démontre alors que D n suit asymptotiquement une loi du Khi-deux à ν degrés de liberté, avec ν
= k – r – 1, r étant le nombre de paramètres estimés de la loi théorique.
1. On considère que l'approximation par la loi du Khi-deux est satisfaisante si n ≥ 30 et si tous les
effectifs théoriques sont supérieurs ou égaux à 5.
Si les effectifs des classes extrêmes sont inférieurs à 5, il faut procéder à des regroupements de
classes.
2. Le choix des classes, quand il est possible, doit être tel que les effectifs théoriques soient proches
les uns des autres, quand ils ne sont pas tous égaux.
3. Le nombre k des classes, lorsqu'il est à définir, doit être à la fois assez grand pour perdre le moins
d'information possible, et assez petit pour que les effectifs des classes ne soient pas trop réduits.
Empiriquement, la formule k = [ ] (partie entière de la racine carrée de n) paraît convenable.
Pour cela, on partage convenablement l'ensemble des valeurs de X en k classes et, sur la base de n
observations, on définit la fonction discriminante :
n, la valeur c i j = .
fonction discriminante D n.
Les données et les calculs sont présentés dans un tableau à r + 2 lignes et s + 2 colonnes :
— dans la première colonne, figurent les modalités du caractère A ; dans la première ligne, figurent
les modalités du caractère B ;
— dans la dernière ligne, figurent les effectifs marginaux des modalités de B ; dans la dernière
Statistiques - 2e année - Chapitre 3 - Tests statistiques Page 22
valeur observée d = d i j de D n.
On peut aussi calculer, à partir de la valeur observée d de D n, la probabilité critique, qui permet
d'apprécier la crédibilité de l'hypothèse H 0.
On considère ici la répartition d'un caractère A, qualitatif ou quantitatif, dans s populations, B 1, ... , B
s
.
Le caractère A présente r modalités, A 1, ... , A r.
Le problème est de savoir si, au vu d'un échantillon, la répartition du caractère A dépend ou non de la
population.
On teste donc :
— l'hypothèse H 0 : la répartition du caractère A est indépendante de la population,
contre :
— l'hypothèse H 1 : la répartition du caractère A n'est pas indépendante de la population.
Le problème est exactement du même type que le précédent : seule la formulation change un peu.
La présentation, les calculs et la conclusion, se font donc de manière tout à fait analogue à ce qui
vient d'être fait dans le test d'indépendance.
Dans ce test, les calculs sur les lois de probabilité se font sur les fonctions de répartition : on mesure
l'écart entre la fonction de répartition théorique et la fonction de répartition observée.
On considère ainsi une variable aléatoire X de fonction de répartition F, que l'on veut comparer à une
fonction de répartition théorique F 0 continue.
On souhaite tester :
— l'hypothèse H 0 : F = F 0,
contre :
— l'hypothèse H 1 : F ≠ F 0.
échantillon est :
F n (x) = 1 ]–∞, x] (X k)
F n (x) est la proportion des observations dont la valeur est inférieure ou égale à x.
L'écart entre les valeurs observées et les valeurs théoriques du modèle déduites de la fonction de
répartition F 0 peut donc être mesuré par la variable aléatoire :
∆n = | F n (x) – F 0 (x) |
En posant U n = ∆ n, on démontre que lorsque H 0 n'est pas vraie, U n tend vers + ∞, et, lorsque H 0
est vraie, U n suit asymptotiquement une loi sur R + définie par sa fonction de répartition K (y) =
e – 2 n ² y ².
Remarques.
On démontre que :
1. Les valeurs de δ n sont toujours comprises entre et 1.
2. Pour tout n ≥ 1 et tout t ≥ 0, P [{ ∆ n ≥ t}] ≤ 6 e – 2 t ².
3. Pour n > 100, la valeur critique du test de Kolmogorov-Smirnov est, approximativement de la
forme .
Dans le cas général, les hypothèses à tester doivent être considérées avec soin et doivent
correspondre à une idée pertinente de la situation traitée pour éviter les conclusions erronées.
En l'absence d'information supplémentaire, on adoptera la règle suivante.
Lorsque la variable de décision appartient à la région critique, on refuse H 0, et lorsqu'elle appartient
à la région d'acceptation, on refuse H 1.
On distingue deux cas selon que les échantillons sont indépendants ou appariés.
L'idée générale du test de Wilcoxon est de définir une fonction discriminante qui prend des valeurs
centrales sous H 0, et qui a tendance à prendre des petites ou des grandes valeurs sinon.
On fait ce choix de la façon suivante, en considérant la somme des rangs des valeurs d'un
échantillon.
Après avoir rangé par ordre croissant la suite des valeurs {X 1, ... , X m, Y 1, ... , Y n} supposées toutes
distinctes, on note R X le vecteur rang des observations de X : c'est le vecteur (R X , ... , R X ), où R X ,
1 m i
1 ≤ i ≤ m, est le rang de l'observation X i dans la suite ordonnée des valeurs {X 1, ... , X m, Y 1, ... , Y n}.
De même, on note R Y le vecteur rang des observations de Y.
On note :
Nous avons : W X + W Y = .
Sous l'hypothèse H 0, la loi de probabilité de W X, appelée loi de Wilcoxon, (donc aussi celle de W Y),
ne dépend pas de F X, elle dépend seulement de m et n : la probabilité de l'événement {W X = k } est le
rapport entre le nombre de combinaisons de m des N = m + n nombres de 1 à m + n dont la somme
est k, et le nombre total des combinaisons de m + n éléments m à m, chaque combinaison ayant la
même probabilité sous H 0.
Cependant, il n'y a pas d'expression simple de cette loi et on la calcule une fois pour toute par
récurrence : la loi est donc tabulée et on se sert de tables pour appliquer le test.
= m (n + 1) + =
Lorsque m et n deviennent très grands, la loi de probabilité de W X tend asymptotiquement vers une
loi normale.
Remarques.
1. Test de Mann-Whitney.
UX = 1 {X >Y }
.
i j
Si l'on note R ' X , 1 ≤ i ≤ m, est le rang de l'observation X i dans la suite ordonnée des valeurs {X 1, ...
i
RX = R 'X + 1 {X >Y }
i i i j
WX = RX = R 'X + 1 {X >Y }
i i i j
WX = + UX
Nous voyons donc que U X prend des valeurs de 0 à m n, et que, sous H 0, sa loi de probabilité dans
cet intervalle de N est une loi symétrique, d'espérance et de variance = Var (W X).
Comme la loi de Wilcoxon, la loi de Mann-Whitney tend asymptotiquement vers une loi normale.
Bien qu'il existe des tables de la loi de Wilcoxon pour des valeurs de m et n allant jusqu'à 50, de
nombreux auteurs tolèrent l'application de la loi normale pour Min (m, n) > 8.
Il est alors recommandé dans ce cas, de tenir compte de la correction de continuité et d'utiliser la
loi normale centrée réduite pour la variable :
Z= =
3. Les cas d'ex aequo sont traités par la méthode du rang moyen.
Dans le cas où les valeurs de X et Y ne sont pas toutes distinctes, W X est remplacé par X
= X
,
i
où X
est le rang moyen du groupe d'ex aequo auquel appartient X i.
i
Si c k est le nombre d'observations du groupe d'ex aequo auquel appartient X i, le rang moyen de
chaque valeur du groupe est :
(R + (R + 1) + ... + (R + (c k – 1)) = R + ,
R étant le rang qu'aurait la valeur commune des X i du groupe si elle était unique.
Autrement dit, quand on affecte un rang à chaque valeur de X, la première valeur d'un groupe d'ex
aequo peut être affectée du rang R, puis, pour chaque valeur suivante ex aequo, on augmente la
valeur du rang de .
E[ X
]= ,
Statistiques - 2e année - Chapitre 3 - Tests statistiques Page 27
C'est la même expression que pour E [W X] quand il n'y a pas d'ex aequo.
Var [ X
]= – c k (c k ² – 1),
r étant le nombre de groupes d'ex aequo, et c k le nombre d'observations du k ème groupe d'ex aequo.
Le signe moins dans l'expression montre que l'existence de groupes d'ex aequo (c k > 1) a tendance à
diminuer la dispersion des valeurs de la somme des rangs.
On observe maintenant un n-échantillon ((X 1, Y 1), ... , (X n, Y n)) d'une variable (X, Y).
On note Z = Y – X et Z i = Y i – X i, 1 ≤ i ≤ n.
Dire que X et Y sont stochastiquement indépendantes revient à dire que la loi de Z est symétrique
autour de 0.
Ici, l'hypothèse H 0 est F Z = F – Z.
Pour un test bilatéral, on prendra, pour hypothèse H 1, F Z ≠ F – Z.
Pour un test unilatéral, on prendra, pour hypothèse H 1, F Z > F – Z, ou F Z < F – Z, suivant que Y a
tendance à prendre des valeurs plus grandes que X, ou que X a tendance à prendre des valeurs plus
grandes que Y.
Pour cela, on range par ordre croissant la suite des valeurs absolues ( | Z 1 |, ... , | Z n | ), qu'on
suppose, dans un premier temps, toutes distinctes et non nulles.
On note R Z = ( ε (Z 1) R Z , ... , ε (Z n) R Z ) le vecteur des signes et des rangs de l'échantillon (Z 1, ... ,
1 n
Z n).
R Z est le rang de | Z i | dans la suite des valeurs absolues ( | Z 1 |, ... , | Z n | ) rangée par ordre
i
croissant.
ε (Z i) est le signe de Z i : + 1 si Z i est positive, – 1 si Z i est négative.
Sous l'hypothèse H 0, W + et W – suivent la même loi de probabilité qui ne dépend pas de la loi de Z.
Dans un test bilatéral, sous l'hypothèse H 1, W + a tendance à prendre des valeurs qui s'éloignent de la
valeur moyenne et on prendra une région critique de la forme [ 0 ; c ] t –c;
suivant que, sous H 1, X a tendance à prendre des valeurs plus grandes que Y, ou que Y a tendance à
prendre des valeurs plus grandes que X.
Remarques.
Z= =
2. Les cas d'ex aequo sont traités par la méthode du rang moyen.
Soit r le nombre de groupes d'ex aequo non nuls, c k est le nombre d'observations du k ème groupe d'ex
aequo non nuls, c 0 le nombre d'observations nulles.
Les premiers rangs sont ceux des c 0 observations nulles.
+
E[ ]= [ n (n + 1) – c 0 (c 0 + 1) ]
+
Var [ ]= [ n (n + 1) (2 n + 1) – c 0 (c 0 + 1) (2 c 0 + 1)] – c k (c k ² – 1)
Statistiques - 2e année - Chapitre 3 - Tests statistiques Page 29
Le calcul des régions de refus ou d'acceptation d'un test paramétrique est fait à partir d'une fonction
discriminante.
En réalité, il est souvent plus intéressant de calculer, à partir de la valeur observée de la fonction
discriminante, la probabilité critique du test, qui donne une vision plus complète de la situation et
donne une mesure de crédibilité de l'hypothèse H 0.
Pour les autres échantillons, une étude adaptée doit être faite, ou alors des propriétés asymptotiques
sont utilisées lorsque les échantillons sont de grande taille.
Dans ce qui suit, sauf mention expresse du contraire, les variables parents des échantillons
étudiés sont supposées normales.
Pour chaque test V, on est amené à considérer trois versions : un test bilatéral V 0 et deux tests
unilatéraux V + et V –.
On précise alors les hypothèses H 0 et H 1 à confronter, le niveau α du test et les régions d'acceptation
ou de refus de l'hypothèse H 0.
—U= ,T= , K = (n – 1) .
Hypothèses à tester.
H0 : µ = µ0
H 10 : µ ≠ µ 0, test bilatéral V 0.
H 1+ : µ > µ 0, test unilatéral à droite V +.
H 1– : µ < µ 0, test unilatéral à gauche V –.
V 0 (test bilatéral).
Sous l'hypothèse H 0, les valeurs de U ne doivent pas trop s'éloigner de 0.
La région d'acceptation est un intervalle de la forme –u ;+u , où u est le fractile
d'indice 1 – de la loi normale centrée réduite, c'est-à-dire la valeur de u telle que F u =1–
V 0 (test bilatéral).
Sous l'hypothèse H 0, les valeurs de T ne doivent pas trop s'éloigner de 0.
La région d'acceptation est un intervalle de la forme –t ;+t , où t est le fractile
Hypothèses à tester.
H0 : σ ² = σ0 ²
H 10 : σ ² ≠ σ 0 ², test bilatéral V 0.
H 1+ : σ ² > σ 0 ², test unilatéral à droite V +.
H 1– : σ ² < σ 0 ², test unilatéral à gauche V –.
V 0 (test bilatéral).
Sous l'hypothèse H 0, les valeurs de K ne doivent pas trop s'éloigner de son espérance n – 1.
La région d'acceptation est un intervalle de la forme χ ²;χ ² , où χ ² vérifie F χ ² = ,
– .
On pose ν i = n i – 1, n = ni , ν = ν i = n – k.
On note :
— i
= X i j la moyenne empirique de E i , estimateur de µ i ,
— Si ² = (X i j – i
) ² la variance empirique de E i , estimateur de σ i ².
— = Xij = ni i
, moyenne arithmétique des moyennes empiriques des
Le problème est de savoir si les moyennes µ i sont homogènes (hypothèse H 0 : µ i = µ j pour tout i ∈
[ 1 ; k ] et tout j ∈ [ 1 ; k ], i ≠ j ), ou si les variances σ i ² sont homogènes (hypothèse H 0 : σ i ² = σ j ²
pour tout i ∈ [ 1 ; k ] et tout j ∈ [ 1 ; k ], i ≠ j ).
1
G µ 1, ; 2
G µ 2, ; 1
– 2
G µ 1 – µ 2, + .
V 0 (test bilatéral).
H 0 : µ 1 = µ 2 ; H 1 : µ 1 ≠ µ 2.
Sous l'hypothèse H 0, les valeurs de U ne doivent pas trop s'éloigner de 0.
La région d'acceptation est un intervalle de la forme –u ;+u , où u est le fractile
Statistiques - 2e année - Chapitre 3 - Tests statistiques Page 34
d'indice 1 – de la loi normale centrée réduite, c'est-à-dire la valeur de u telle que F u =1–
V 0 (test bilatéral).
Sous l'hypothèse H 0, les valeurs de T ne doivent pas trop s'éloigner de 0.
La région d'acceptation est un intervalle de la forme –t ;+t , où t est le fractile
V 0 (test bilatéral).
Sous l'hypothèse H 0, les valeurs de T ne doivent pas trop s'éloigner de 0.
La région d'acceptation est un intervalle de la forme –t ;+t , où t est le fractile
V 0 (test bilatéral).
Sous l'hypothèse H 0, les valeurs de T ne doivent pas trop s'éloigner de 0.
La région d'acceptation est un intervalle de la forme –t ;+t , où t est le fractile
Ici, n 1 = n 2 = n.
Le test se ramène à une test de conformité à une moyenne nulle de l'échantillon (Z 1 , ... , Z n), avec
Z i = X 1 i – X 2 i.
Ce cas a déjà été traité auparavant, dans 3.3.2.1 : test de Gauss si la variance est connue, test de
Student si la variance est inconnue.
Statistiques - 2e année - Chapitre 3 - Tests statistiques Page 37
Ici, on suppose que les échantillons E i sont indépendants et qu'ils ont des variables parentes
normales de même variance σ ² :
σ i ² = σ ², pour tout i, 1 ≤ i ≤ k.
Si l'on n'est pas certain que la variance est la même, on fera un test d'égalité des variances (3.3.3.4).
Si le test est positif, on admet l'égalité des variances.
On a toujours ni ai = ni µi – ni µ = n i µ i – n µ = 0.
Dire que H 0 est vraie, c'est dire que les a i sont tous nuls.
Dans l'hypothèse H 0 :
— i
= X i j, moyenne empirique de E i , est un estimateur de µ i donc de µ ;
— = Xij = ni i
, moyenne arithmétique des moyennes empiriques des
E( i
)= n i µ i = µ.
Les écarts i – sont d'autant plus importants que les µ i sont différentes.
On les appelle les écarts expliqués (par les différences de moyennes).
X i j – = ( i – ) + (X i j – i).
L'écart entre une observation et la moyenne générale est la somme de l'écart expliqué par la
différence des moyennes, et d'un écart résiduel (X i j – i) entre cette observation et la moyenne de
son groupe résultant de fluctuations aléatoires.
En élevant au carré la relation précédente et en additionnant pour toutes les valeurs possibles de i et
j, on obtient l'équation suivante, appelée équation de l'analyse de la variance :
(X i j – )²= ni ( i
– )²+ (X i j – )²
i
( i
– ) (X i j – i
)= i
Xij – Xij – ni i
²+ ni i
= ni i
²– ni i
– ni i
²+ ni i
= 0.
La covariance de ( i
– ) et de (X i j – ) est nulle.
i
— ni ( i
– ) ² est la somme des carrés des écarts expliqués (SCE), ou entre échantillons,
— (X i j – i
) ² est la somme des carrés des écarts résiduels (SCR), on à l'intérieur des
échantillons,
et l'équation d'analyse de la variance s'écrit :
conditionnée.
Posons Y i j = X i j – a i.
Ei (Y i j) = Ei (X i j) – a i = µ i – (µ i – µ) = µ
E (Y i j) = E (Ei (Y i j)) (théorème de la moyenne conditionnée).
E (Y i j) = E (µ) = µ, quels que soient i ∈ {1, ... , k} et j ∈ {1, ... , n i }.
Toutes les variables Y i j ont la même espérance µ.
Statistiques - 2e année - Chapitre 3 - Tests statistiques Page 39
Donc, si les X i j sont des variables normales indépendantes, les Y i j sont des variables aléatoires
indépendantes qui suivent toutes la même loi normale d'espérance µ et de variance σ ².
= (X i j – a i) = Xij – ai
= – ni ai = .
E ( ) = E ( ) = µ.
Il en résulte :
X i j – = (Y i j – ) + a i
(X i j – ) ² = (Y i j – ) ² + a i ² + 2 a i (Y i j – )
(X i j – )²= (Y i j – ) ² + ai ² + 2 a i (Y i j – )
= (Y i j – ) ² + ni ai ² + 2 a i (Y i j – )
E a i (Y i j – ) = a i E (Y i j – )
= a i (E (Y i j) – E ( )) = a i (µ – µ) = 0
E (SCT) = E (Y i j – ) ² + E ni ai ²
=E (Y i j – ) ² + ni ai ²
Statistiques - 2e année - Chapitre 3 - Tests statistiques Page 40
D'après Probabilités, Chapitre 18, Exercice 2.1°, (Y i j – ) ² peut se mettre sous la forme :
(Y i j – ) ² = Var (Y i j) Zh ² = σ ² Z h ²,
E (Y i j – ) ² = σ ² E (Z h ²) = (n – 1) σ ²
E (SCT) = (n – 1) σ ² + ni ai ²
On obtient, de même :
E (SCR) = ν i E (S i ²) = ν σ ² = (n – k) σ ².
E (SCE) = (k – 1) σ ² + ni ai ²
Enfin, on peut démontrer que la covariance de SCE et SCR est nulle, ce qui entraîne, lorsque les
échantillons sont gaussiens, l'indépendance de SCE et SCR.
Sous l'hypothèse H 0, tous les a i sont nuls, les carrés moyens CME = et CMR = sont tous
deux des estimateurs sans biais de σ ², et suivent des lois du Khi-deux à (k – 1) degrés de
liberté et à (n – k) degrés de liberté, respectivement.
Lorsque H 1 est vraie, certains des a i ne sont pas nuls, donc CME a tendance à prendre de grandes
valeurs puisque sa moyenne a tendance à augmenter donc F augmente.
On peut donc prendre F pour fonction discriminante et la région critique sera un intervalle [ f 1 – α , +
∞ [, où le fractile f 1 – α vérifie F (f 1 – α) = 1 – α, F étant la fonction de répartition de la variable de
Fisher-Snedecor à (k – 1, n – k) degrés de liberté.
Statistiques - 2e année - Chapitre 3 - Tests statistiques Page 41
Les calculs précédents sont présentés dans un tableau qu'on appelle le tableau d'analyse de la
variance :
Remarques.
2. L'expérience montre que l'analyse de variance est peu sensible à la non-normalité des échantillons.
En pratique, il suffit de ne pas l'utiliser lorsque les distributions dans les échantillons sont, d'une part,
très différentes entre elles et, d'autre part, très différentes de distributions normales, et, surtout, de ne
pas l'utiliser lorsque les échantillons sont trop petits.
3. L'hypothèse de l'égalité des variances semble relativement secondaire lorsque les effectifs des
échantillons ne sont pas trop différents entre eux.
4. Lorsque les conditions d'application du test ne sont pas satisfaites, il existe des techniques de
transformation qui permettent de normaliser les distributions et de stabiliser les variances. On peut
utiliser aussi des tests non paramétriques.
S1 ² = (X 1 j – 1
) ², variance empirique de E 1 , est un estimateur de σ 1 ².
S2 ² = (X 2 j – 2
) ², variance empirique de E 2 , est un estimateur de σ 2 ².
En divisant les variables de Khi-deux par leurs nombres de degré de liberté, on trouve donc que
V 0 (test bilatéral).
Sous l'hypothèse H 0, les valeurs de F ne doivent pas trop s'éloigner de 1.
La région d'acceptation est un intervalle de la forme f ;f , où f vérifie F (f ) = , et F (f
La fonction discriminante est H = , dont la loi de probabilité est tabulée dans certains
1, n i – 1) degrés de liberté, on a f 1 – α ≤ h 1 – α.
2
Donc si la valeur observée h de H est inférieure à f 1 – α, on est déjà assuré d'accepter l'hypothèse H 0.
Statistiques - 2e année - Chapitre 3 - Tests statistiques Page 43
Ce test est d'autant plus satisfaisant que les effectifs des échantillons sont proches les uns des autres.
Il est très sensible à la non-normalité des échantillons : il est donc peu fiable lorsque les échantillons
ne sont pas tirés de populations normales.
Q ne prend que des valeurs positives, petites lorsque les variances sont égales.
Sous H 0, B suit à peu près une loi du Khi-deux à k – 1 degrés de liberté.
La région critique (région de rejet de l'hypothèse H 0) est de la forme [ χ 1 – α ² ; + ∞ [, où F (χ 1 – α ²) =
1 – α, F étant la fonction de répartition de la variable du Khi-deux à k – 1 degrés de liberté.
Remarques.
1. L'approximation par la loi du Khi-deux à k – 1 degrés de liberté est satisfaisante si les effectifs n i
des échantillons sont suffisamment élevés (supérieurs à 4) et si k n'est pas très élevé par rapport aux
effectifs n i.
2. Le test est très sensible à la non-normalité des échantillons : il est donc peu fiables lorsque les
variables parentes des échantillons ne sont pas gaussiennes.
3. Le test de Hartley est moins puissant que le test de Bartlett dans les conditions normales
d'utilisation, mais, en fait, la perte de puissance semble négligeable dans de nombreux cas.
Remarque.
Les cas étudiés montrent que ce test est raisonnable et qu'il est d'autant plus satisfaisant que les
effectifs des échantillons sont proches les uns des autres.
De plus, le test de Levene est peu sensible à la non-normalité des variables parentes des
échantillons : il est robuste.
Statistiques - 2e année - Chapitre 4 - Analyse de variance Page 44
variable expliquée.
L'échantillon E i est donc constitué de n i variables aléatoires indépendantes et identiquement
distribuées, de moyenne µ i et de variance σ ².
On étudie ici uniquement le cas où la variable parente est normale (gaussienne).
Sous certaines conditions (échantillons de grande taille, par exemple), les résultats obtenus peuvent
s'étendre au cas où la variable parente n'est pas gaussienne.
indépendants.
Conditions d'application.
L'équation d'analyse de la variance s'écrit (voir Statistiques (2e année), chapitre 3, § 3.3.3.2.1) :
avec :
Statistiques - 2e année - Chapitre 4 - Analyse de variance Page 45
SCT = (X i j – )²
SCE = ni ( i
– )²
SCR = (X i j – i
)²; i
= Xij ; = Xij = ni i
.
4.1.1.
Réalisation des
calculs.
Les données se
présentent sous forme
d'un tableau à k colonnes
(une par modalité du
facteur A).
Dans la colonne i, il y a n
i
lignes utiles. Le tableau
des données possède
donc k colonnes et Max
(n i) lignes.
Dans la colonne i, la
cellule de la j-ème ligne,
1 ≤ j ≤ n i, contient la
valeur x i j de la variable
aléatoire X i j.
En bas de chaque
colonne, on ajoute :
— une ligne pour la
valeur de n i,
— une ligne pour la
valeur de x i . = x i j,
On teste :
— l'hypothèse H 0 : µ i = µ j, pour tout i ∈ {1, ... , k} et tout j ∈ {1, ... , k}, i ≠ j,
contre :
— l'hypothèse H 1 : les moyennes µ i ne sont pas toutes égales.
Les valeurs obtenues dans le tableau de calculs permettent de remplir le tableau d'analyse de la
variance.
La fonction discriminante est F = . Sous l'hypothèse H 0, elle suit une loi de Fisher-Snedecor à
(k – 1, n – k) degrés de liberté.
La dernière colonne du tableau d'analyse de la variance peut être remplie à l'aide de la table de la
fonction de répartition de la variable de Fisher-Snedecor à (k – 1, n – k) degrés de liberté.
a) i
est un estimateur sans biais de la moyenne µ i.
Statistiques - 2e année - Chapitre 4 - Analyse de variance Page 47
4. Dans le cas où tous les n i ont la même valeur h (n = k h), le test de Newmann-Keuls donne des
précisions supplémentaires sur les contrastes et permet de regrouper les modalités de A en groupes
homogènes ne présentant pas de différence significative de moyennes.
On commence par classer les modalités de A par valeurs décroissantes de moyenne i.
La table "Range Studentisé" donne, en fonction du nombre a de moyennes à regrouper et du nombre
de degrés de liberté n – k de la variance résiduelle CMR, une valeur seuil t s.
Il est dit équilibré si les n i j sont tous égaux à un entier r ≥ 1 (tous les échantillons ont la même
taille r).
Il est dit orthogonal si, pour tout couple (i, j) ∈ {1, ... , p} × {1, ... , q}, on a n i j = .
ni. = n i j = q r, n . j = n i j = p r, n = n i . = p q r.
Donc = r = n i j.
Tout modèle équilibré est orthogonal.
Comme dans le cas d'un seul facteur, on décompose convenablement l'écart d'une observation X i j k à
la moyenne générale pour mettre en évidence l'effet des différentes modalités (niveaux) et
combinaisons de modalités (traitements).
On pose :
ij
= X i j k, moyenne empirique du traitement (A i , B j ),
ij
G µij ,
i.
= nij ij
= X i j k, moyenne empirique du niveau A i ,
i.
G µi. ,
.j
= nij ij
= X i j k, moyenne empirique du niveau B j ,
.j
G µ.j ,
= Xijk = ni. i.
= n.j .j
, moyenne empirique
générale.
G µ, ; –µ G 0, .
Xijk – = ( ij – ) + (X i j k – i j )
Le terme (X i j k – ij
) traduit l'écart entre une observation et la moyenne du traitement (A i , B j ).
Xijk – ij
G 0,σ² 1–
Statistiques - 2e année - Chapitre 4 - Analyse de variance Page 49
Par exemple, dans un modèle complet sans répétition, il y a une, et une seule, observation par
traitement, tous les n i j valent 1, et X i j k = i j.
Comme dans l'analyse de variance à un facteur contrôlé, nous avons toujours l'équation d'analyse de
la variance :
(X i j k – )²= ( ij
– )²+ (X i j k – ij
)²
= nij ( ij
– )²+ (X i j k – ij
)²
( ij – ) = ( i.
– )+( .j
– )+( ij
– i.
– .j
+ )
(X i j k – ) = ( i.
– )+( .j
– )+( ij
– i.
– .j
+ ) + (X i j k – ij
)
( ij
– )²=( i.
– )²+( .j
– ) ² + Rij
nij ( ij
– )²= nij ( i.
– )²+ nij ( .j
– )²+ nij Rij
= ni. ( i.
– )²+ n.j ( .j
– )²+ n i j R i j.
nij ( ij
– .j
)( .j
– )–2 nij ( i.
– )( .j
– )
Dans le cas d'un modèle orthogonal, nous avons n i j = , et on montre alors que nij Ri
j
se réduit à :
Statistiques - 2e année - Chapitre 4 - Analyse de variance Page 50
De sorte que l'équation d'analyse de la variance prend alors une expression de la forme :
(X i j k – )²= ni. ( i.
– )²+ n.j ( .j
– ) ² + SCRM + SCRV
dans laquelle :
SCEA = ni. ( i.
– ) ² est la somme des carrés des écarts expliquée par A, elle traduit les
SCEB = n.j ( .j
– ) ² est la somme des carrés des écarts expliquée par B, elle traduit les
SCEAB = nij ( ij
– i.
– .j
+ ) ² est la somme des carrés des écarts résiduels de la
moyenne, traduisant les fluctuations de i j autour de sa moyenne µ, abstraction faite des variations
des moyennes marginales i . et . j. Cette somme des carrés des écarts mesure donc l'influence
l'interaction des facteurs A et B sur la moyenne.
SCR = (X i j k – ij
) ² est la somme des carrés des écarts résiduels de la variable :
Si bien que les carrés moyens des écarts CMEA = , CMR = lorsque n n'est pas égal à p
On rejettera l'hypothèse H 0 pour les grandes valeurs du rapport et l'intervalle critique (zone de
rejet) sera de la forme [ c 1 – α ; + ∞ [, intervalle de probabilité α : F (c 1 – α) = 1 – α, où F est la
fonction de répartition de la variable de Fisher-Snedecor à (p – 1, n – p q) degrés de liberté.
Si bien que les carrés moyens des écarts CMEB = , CMR = lorsque n n'est pas égal à p
On rejettera l'hypothèse H 0 pour les grandes valeurs du rapport et l'intervalle critique (zone de
rejet) sera de la forme [ c 1 – α ; + ∞ [, intervalle de probabilité α : F (c 1 – α) = 1 – α, où F est la
fonction de répartition de la variable de Fisher-Snedecor à (q – 1, n – p q) degrés de liberté.
Si bien que les carrés moyens des écarts CMEAB = , CMR = lorsque n n'est pas
µ i . – µ . j + µ) ².
On rejettera l'hypothèse H 0 pour les grandes valeurs du rapport et l'intervalle critique (zone de
rejet) sera de la forme [ c 1 – α ; + ∞ [, intervalle de probabilité α : F (c 1 – α) = 1 – α, où F est la
fonction de répartition de la variable de Fisher-Snedecor à ((p – 1)(q – 1), n – p q) degrés de liberté.
Lorsque le test du rapport F AB est négatif, et permet donc de conclure à l'absence d'influence de
l'interaction de A et B sur la moyenne, on pourra prendre comme somme de carrés résiduelle
(variance résiduelle) : SCR' = SCEAB + SCR.
C'est la somme d'une variable de Khi-deux à (p – 1)(q – 1) degrés de liberté et d'une variable de Khi-
deux à (n – p q) degrés de liberté : c'est donc une variable de Khi-deux à (p – 1)(q – 1) + (n – p q) =
(n – p – q + 1) degrés de liberté, et le carré moyen correspondant est CMR' = .
Dans ce cas, on obtient un test plus puissant en prenant CMR' à la place de CMR, puisque
l'estimation de la variance donnée par CMR' est plus précise que l'estimation donnée par CMR (elle
possède plus de degrés de liberté) :
— Le rapport F' A = suit une loi de Fisher-Snedecor à (p – 1, n – p – q + 1) degrés de
liberté : il permet de tester l'influence du facteur A.
— Le rapport F' B = suit une loi de Fisher-Snedecor à (q – 1, n – p – q + 1) degrés de
liberté : il permet de tester l'influence du facteur B.
= p q, donc SCR = 0.
On suppose alors que le modèle est additif, ce qui veut dire qu'il n'y a pas d'interaction de A et B.
La variance résiduelle est CMEAB, qui tient compte des variations aléatoires des observations autour
de leur moyenne, déduction faite de l'influence principale de A et de l'influence principale de B.
— Le rapport F A = suit une loi de Fisher-Snedecor à (p – 1, n – p – q + 1) degrés de
liberté : il permet de tester l'influence du facteur A.
— Le rapport F B = suit une loi de Fisher-Snedecor à (q – 1, n – p – q + 1) degrés de
liberté : il permet de tester l'influence du facteur B.
Comme précédemment, l'intervalle de rejet de l'hypothèse H 0 dans chacun de ces tests est un
intervalle [ c 1 – α ; + ∞ [, de probabilité α, variable suivant le nombre de degrés de liberté.
Statistiques - 2e année - Chapitre 4 - Analyse de variance Page 54
FA =
Facteur A SCEA p–1 CMEA = pA
FB =
Facteur B SCEB q–1 CMEB = pB
CMEAB = F AB =
(p – 1)(q – p AB
Interaction AB SCEAB
1)
Somme des
Degrés de Probabilité
Source de variations Carrés des Carrés moyens F
liberté critique
Ecarts
F' A =
Facteur A SCEA p–1 CMEA = p' A
F' B =
Facteur B SCEB q–1 CMEB = p' B
C'est le cas, dans un modèle orthogonal avec répétition, lorsque la probabilité critique p AB du test
d'interaction de A et B est grande, supérieure à 0,25 ou à 0,50 par exemple (on accepte H 0).
C'est le cas, dans un modèle complet sans répétition (n i j = 1), dans lequel on admet qu'il n'y a pas
d'interaction des facteurs A et B.
La seule chose qui change dans le tableau d'analyse de la variance est que n est égal à p q r.
n = p q.
La somme des carrés des écarts résiduels SCER est nulle.
Il faut supposer que le modèle est additif (pas d'interaction de A et B).
Le tableau d'analyse de la variance se réduit à :
Somme des
Degrés de Probabilité
Source de variations Carrés des Carrés moyens F
liberté critique
Ecarts
F' A =
Facteur A SCEA p–1 CMEA = p' A
F' B =
Facteur B SCEB q–1 CMEB = p' B
CMR' =
SCR' = SCT – n – p – q +
Résiduelle
SCEA – SCEB 1
On pose SCADD = et F = .
Sous l'hypothèse d'additivité, F suit une loi de Fisher-Snedecor à (1, (p – 1)(q – 1) – 1) degrés de
liberté : on rejette l'hypothèse d'additivité pour les grandes valeurs de F.
CMR (CMR' dans un modèle additif) est un estimateur sans biais de la variance σ ².