Vous êtes sur la page 1sur 100

Inférence statistique

2ème et 3ème années de Licence


& Master de Psychologie

Françoise Lefèvre

U.F.R de Psychologie

Ce recueil, autorisé à l’examen, ne peut, en aucun cas, être annoté.

1
1 INTRODUCTION
L’étudiant en psychologie que vous êtes, s’intéresse aux comportements des êtres vivants
et plus particulièrement de l’être humain. De nos jours, la recherche en psychologie repose la
plupart du temps sur l’expérimentation, c’est-à-dire le recueil suivant une méthodologie précise,
de données expérimentales. L’analyse statistique de ces données empiriques est donc cruciale
dans l’élaboration des théories psychologiques modernes.
Ce cours sera l’occasion pour vous de prendre contact avec la démarche d’une inférence sta-
tistique, par l’étude des principales méthodes statistiques classiques. Il devrait vous apprendre
à manipuler les quelques clés élémentaires vous donnant accès, le cas échéant, à l’apprentissage
et à l’utilisation de méthodes statistiques plus sophistiquées (le plus souvent avec l’aide d’un
logiciel statistique)... Il est temps à présent de définir de manière plus précise l’objectif et la
démarche d’une inférence statistique.

1.1 Statistique descriptive, probabilité et inférence statistique


Faire de la statistique suppose que l’on étudie un ensemble d’objets ou d’individus équivalents
sur lesquels on observe des caractéristiques appelées variables. Cet ensemble est appelé po-
pulation. Ce terme hérité des premières applications de la statistique qui concernaient la
démographie, est employé pour désigner toute collection d’individus ou d’objets à étudier ayant
des propriétés communes. Ces éléments sont appelés des individus ou unités statistiques.
Généralement, la population étudiée est trop vaste pour être observée de manière exhaustive
et on n’en observe qu’une partie, appelée un échantillon. Il existe plusieurs techniques pour
sélectionner les unités statistiques constituant un échantillon, la plus simple et également la plus
importante étant l’échantillonnage aléatoire simple correspondant à des tirages équiprobables
et indépendants les uns des autres. Un échantillon extrait d’une population suivant ce mode
de tirage sera appelé un échantillon aléatoire simple ou échantillon aléatoire indépendant et
identiquement distribué (i.i.d.). Le nombre d’individus dans un échantillon est appelé l’effectif
de l’échantillon et est noté n. Chaque individu d’une population est décrit par un ensemble de
caractéristiques appelées variables (ou parfois caractères). Ces variables peuvent être classées
suivant la structure de l’ensemble de leurs modalités observables : variables nominales, ordinales,
métriques et numériques. Suivant qu’on ne s’intéresse qu’à une ou plusieurs variables à la fois,
on parlera d’une analyse statistique univariée ou multivariée (pour deux variables, on dira
bivariée).
Après le recueil des données, la démarche statistique consiste à traiter et interpréter les infor-
mations recueillies. Elle comporte deux grands aspects : l’aspect descriptif et l’aspect inférentiel
(ou inductif).
La statistique descriptive a pour but de synthétiser, résumer, structurer l’information conte-
nue dans les données (représentation sous forme de tableaux ou de graphiques, calcul de résumés
numériques tels que mode, moyenne, médiane, écart-type, méthodes factorielles pour données
multidimensionnelles telles que l’analyse en composantes principales et l’analyse des correspon-
dances). Les conclusions d’une telle analyse concernent uniquement l’échantillon considéré.
Le but d’une analyse statistique inférentielle est d’étendre les propriétés constatées sur
un échantillon à l’ensemble de la population dont est extrait cet échantillon. Le calcul des
probabilités y joue un rôle fondamental car la théorie des probabilités permet de modéliser
l’échantillonnage aléatoire simple. La statistique inférentielle comporte deux problèmes géné-
raux, celui de l’estimation et celui de la décision statistique.

2
1.2 L’estimation ponctuelle et par intervalle de confiance
Supposons par exemple que l’on s’intéresse au score moyen à une épreuve d’aptitude des
élèves de Terminale. On procède au tirage d’un échantillon aléatoire simple de n élèves de
Terminale auxquels on applique cette épreuve d’aptitude, soient x1 , x2 , ..., xn les scores réalisés
par ces n élèves. On peut admettre que ces valeurs constituent des observations ou réalisations
indépendantes d’une variable aléatoire X d’espérance mathématique (ou moyenne théorique) µ ;
par exemple, on supposera que X est une variable aléatoire normale d’espérance µ et de variance
σ 2 , X ∼ N (µ, σ 2 ). On peut également considérer qu’à chaque élève i (i = 1, · · · , n) correspond
une variable aléatoire Xi dont on observe une seule réalisation xi (le score à l’épreuve d’aptitude
de l’élève i) ; on désignera donc un échantillon aléatoire simple par X1 , X2 , ..., Xn , n variables
aléatoires indépendantes et identiquement distribuées (ou v.a.i.i.d.). La loi des grands nombres
montre que la moyenne X (n) = X1 +X2n+···+Xn converge vers l’espérance mathématique µ lorsque
n → +∞. La moyenne observée dans l’échantillon x(n) sera donc une estimation (ponctuelle)
de la moyenne théorique (ou espérance) µ et la variable aléatoire X (n) un estimateur de µ.
Une fonction f (X1 , X2 , · · · , Xn ) des n variables aléatoires d’un échantillon d’effectif n, telle
que X (n) , est appelée une statistique.
Un bon estimateur pour un paramètre d’une loi de probabilité est un estimateur dont
l’espérance mathématique est égale à ce paramètre ; on dit alors que l’estimateur est sans biais.
La moyenne arithmétique X (n) est un estimateur sans biais de l’espérance mathématique µ car
E(X (n) ) = µ.
Lorsque l’effectif n de l’échantillon est assez grand, la théorie des probabilités 1 fournit de
2
manière relativement précise la loi de probabilité de l’estimateur X (n) de µ, X (n) ≈ N (µ, σn ),
et on pourrait en déduire, si µ était connu, un intervalle de la forme (µ − ∆µ, µ + ∆µ) ayant une
probabilité fixée, disons 95%, de contenir X (n) . Connaissant une observation x(n) , on inverse
alors la problématique et on peut en déduire un intervalle de confiance pour la vraie valeur du
paramètre inconnu µ. Plus précisément, on sait par les tables de la variable normale centrée
réduite Z ∼ N (0, 1), que celle-ci est comprise entre −1.96 et 1.96 avec probabilité 0.95 (par
symétrie de la loi normale et puisque le quantile d’ordre 0.975, z0.975 = 1.96). En réarrangeant,
on obtient l’intervalle de confiance au niveau de confiance 1 − α = 0.05 pour µ, noté IC1−α (µ),
tel que la probabilité que µ appartienne à cet intervalle soit égale à 1 − α = 0.95
σ σ
IC1−α (µ) = (X (n) − 1.96 √ , X (n) + 1.96 √ ).
n n

1.3 La décision statistique, les tests d’hypothèses


Reprenons notre exemple du score à une épreuve d’aptitude des élèves de Terminale. Suppo-
sons qu’une étude antérieure ait établi que le score à cette même épreuve d’aptitude des élèves de
Troisième est une variable aléatoire normale d’espérance 100 et d’écart-type 15, N (100, 152 ).
Un psychologue s’interroge sur l’amélioration éventuelle du score des élèves à cette épreuve
entre la Troisième et la Terminale. Il procède au tirage d’un échantillon aléatoire simple de
n = 50 élèves de Terminale auxquels il applique cette épreuve de performance. Soient X1 , X2 ,
1. Plus précisément, le Théorème Central-Limite (TCL) dit que si X1 , X2 , ..., Xn sont n variables aléatoires
indépendantes et identiquement distribuées suivant une loi de probabilité d’espérance µ et de variance σ 2 , la loi
de probabilité de la moyenne centrée réduite converge vers la loi normale centrée réduite lorsque n → +∞,

X (n) − µ
√ → Z ∼ N (0, 1).
σ/ n

3
..., X50 , les 50 variables aléatoires indépendantes et identiquement distribuées constituant cet
échantillon et x1 , x2 , ..., x50 les observations (ou réalisations) de ces 50 variables aléatoires.
Ce psychologue estime qu’il peut supposer que les scores (X1 , X2 , ..., X50 ) des élèves de
Terminale suivent une loi de probabilité normale d’écart-type σ = 15 mais d’espérance µ incon-
nue. Il a donc choisi un modèle (ou une hypothèse maintenue), noté Hm , pour son échantillon
aléatoire simple ; ce modèle est le suivant

 Hm : X1 , X2 , ..., X50 sont n = 50 variables aléatoires indépendantes
et identiquement distribuées suivant la loi N (µ, 152 ), ou
X1 , X2 , ..., X50 v.a.i.i.d. ∼ N (µ, 152 )

La question qu’il se pose peut donc se traduire de la manière suivante : l’espérance du score
à cette épreuve d’aptitude des élèves de Terminale est-elle supérieure à 100 (l’espérance du
score des élèves de Troisième) ? En effet, les deux lois de probabilité ayant la même forme (deux
lois normales) et la même dispersion (même écart-type), la seule différence possible devrait se
situer au niveau des moyennes. Il doit donc comparer une moyenne (ou espérance) µ à une
valeur fixée ou norme µ0 = 100.
Le psychologue calculera donc la moyenne x(50) observée des réalisations des 50 variables
aléatoires dont il dispose. Supposons qu’il observe x(50) = 103 ; peut-il, sur base de cette valeur
observée, affirmer que le score moyen des élèves de Terminale est meilleur que celui des élèves
de Troisième ?
La valeur x(50) = 103 n’est qu’une des réalisations possibles de la variable aléatoire 2 X (n) :
s’il avait tiré un autre échantillon aléatoire, la valeur observée de X (n) aurait sans doute été
différente et presque toujours différente de 100. Pour répondre à sa question, le psychologue doit
donc choisir entre deux hypothèses, que l’on notera H0 (l’hypothèse nulle) et H1 (l’alternative)

 H0 : il n’y a pas d’amélioration, µ = µ0 (avec µ0 = 100),

la différence observée est due aux fluctuations d’échantillonnage



H1 : il y a amélioration, µ > µ0 (avec µ0 = 100),
la différence observée n’est pas due aux fluctuations




d’échantillonnage, elle est significative

Nous venons de poser deux hypothèses statistiques. Une hypothèse statistique est une affirmation
relative aux caractéristiques (valeurs des paramètres ou forme de la loi de probabilité) de une
ou plusieurs variables dans une ou plusieurs populations. Dans l’hypothèse nulle, notée H0 , on
fixe a priori la valeur d’un paramètre ou la forme de la population considérée. Toute autre
hypothèse qui diffère de l’hypothèse nulle s’appelle alternative et est notée H1 . En général,
l’hypothèse nulle H0 est une hypothèse simple (posant une égalité, par exemple µ = 100) tandis
que l’alternative H1 est une hypothèse composée (non égalité, par exemple µ > 100, µ < 100
ou µ 6= 100). En d’autres termes, il n’existe qu’une situation (µ = 100) vérifiant H0 mais il en
existe une infinité vérifiant H1 (pour H1 : µ > 100, on peut avoir µ = 101, µ = 120, µ = 200,
µ = 102.3, · · · ). On distingue des alternatives bilatérale, de la forme H1 : µ 6= µ0 , unilatérale
à droite, de la forme H1 : µ > µ0 , et unilatérale à gauche, de la forme H1 : µ < µ0 .
Comment fixer H0 et H1 ? En règle générale, l’hypothèse nulle H0 est celle du statu quo,
tandis que l’alternative H1 est celle que le chercheur désire confirmer ou affirmer avec une
probabilité fixée a priori de se tromper (dans notre exemple, qu’il y a amélioration du score à
l’épreuve d’aptitude entre la Troisième et la Terminale).
2
2. Lorsque les n√ v.a. X1 , X2 , ..., Xn sont ∼ N (µ, σ ), la variable aléatoire X (n) est normale d’espérance µ
et d’écart-type σ/ n.

4
Pour être capable de choisir entre H0 et H1 , on construit un test d’hypothèses, c’est-à-dire
une démarche statistique qui a pour but de fournir une règle de décision permettant de faire
un choix entre deux hypothèses statistiques et ce sur base d’observations sur un ou plusieurs
échantillons. Un test d’hypothèses peut se ramener à un problème de décision (statistique)
concernant les deux états de l’hypothèse H0 , soit H0 est vraie, soit H0 est fausse, et les deux
décisions possibles, soit Ne pas rejeter H0 (N RH0 ), soit Rejeter H0 (RH0 ).
Si on voulait déterminer sans aucun risque d’erreur l’état de H0 , un contrôle exhaustif
sur toute la population concernée serait nécessaire. Comme ce contrôle est fastidieux voire
impossible dans la majorité des cas, la prise de décision est toujours basée sur une information
partielle (données recueillies sur l’échantillon) et, de ce fait, on ne prendra pas toujours la bonne
décision. Ce sera le cas
– si on rejette H0 alors qu’elle est vraie, ou
– si on ne rejette pas H0 alors qu’elle est fausse.
Par ailleurs, on prendra la bonne décision
– si on rejette H0 alors qu’elle est fausse, ou
– si on ne rejette pas H0 alors qu’elle est vraie.
On souhaite prendre le plus rarement possible chacune des deux mauvaises décisions et plus
particulièrement connaı̂tre les risques ou probabilités de se tromper. On appelle erreur de type
I (ou de première espèce) celle qui consiste à rejeter l’hypothèse nulle H0 alors qu’elle est vraie.
La probabilité de commettre cette erreur est notée α et appelée le seuil de signification du test.
Ce risque est consenti à l’avance ; il s’écrit

α = P (rejeter H0 alors que H0 est vraie) = P (rejeter H0 | H0 est vraie) = P (RH0 | H0 )

L’erreur consistant à ne pas rejeter H0 alors qu’elle est fausse, s’appelle l’erreur de type II (ou
de seconde espèce). La probabilité de commettre cette erreur est notée β et correspond à

β = P (ne pas rejeter H0 alors que H0 est fausse) = P (N RH0 | H1 )

Nous pouvons résumer la situation par le tableau suivant

Décision
RH0 N RH0
H0 vraie Erreur de type I (avec proba α) Décision correcte
H1 vraie Décision correcte Erreur de type II (avec proba β)

De façon générale, on voudrait utiliser un test qui minimise à la fois α et β. Malheureuse-


ment, en pratique, ce n’est pas possible. On fixe donc la probabilité α (en général, on prendra
α = 0.05, 0.01 ou 0.001) de l’erreur de type I et pour chaque test disponible, on en déduit la
valeur de la probabilité de l’erreur de type II, β. On choisira ainsi le test pour lequel β sera le
plus petit ; on dira alors que ce test est le plus puissant, la puissance d’un test, notée π, étant
la probabilité de ne pas commettre l’erreur de type II (donc π = 1 − β).
Avant de préciser cette notion de puissance, revenons à notre exemple relatif à l’améliora-
tion éventuelle du score des élèves à l’épreuve d’aptitude entre la Troisième et la Terminale.
S’il n’y a réellement pas eu d’amélioration (si H0 est vraie), l’échantillon aléatoire X1 , X2 , ...,
X50 est distribué suivant la loi N (100, 152 ), et la√ variable aléatoire moyenne X (50) est de loi
normale d’espérance µ = 100 et d’écart-type 15/ 50 = 2.121, c’est-à-dire X (50) ∼ N (100, 4.5)
(en supposant que le modèle Hm est valide). Il s’agira à présent de vérifier si la probabilité
d’observer une valeur aussi élevée que x(50) = 103 pour cette variable X (50) , est inférieure ou
supérieure au seuil de signification α = 0.05 fixé.

5
Pour ce faire, on choisit une statistique de décision T dont on connaı̂t de manière précise la
loi de probabilité si le modèle Hm est valide et si H0 est vraie. Pour le test sur une moyenne µ
d’une loi normale de variance σ 2 connue, on connaı̂t la loi de la variable aléatoire X (n) centrée
réduite T c’est-à-dire
X (n) − µ
T = √ ∼ N (0, 1) sous Hm
σ/ n
Pour prendre notre décision, on considère alors la statistique Z

X (n) − µ0
Z= √ ∼ N (0, 1) sous Hm et H0 .
σ/ n

Ensuite, on calcule la valeur observée dans l’échantillon de cette statistique de décision, soit
zobs . Dans notre exemple, on calcule

103 − 100
zobs = √ = 1.414
15/ 50

On vérifie à présent si cette valeur zobs = 1.414 est suffisamment grande pour pouvoir dire
qu’il est peu probable que l’hypothèse H0 soit vraissemblable et donc rejeter cette hypothèse
H0 (pas d’amélioration des scores). Plus précisément, si la probabilité (que nous appellerons la
probabilité critique, notée p.c.) d’observer pour une variable Z ∼ N (0, 1) une valeur au moins
aussi élevée que 1.414 est inférieure au seuil de signification α, soit α = 0.05, on dira que le
test est significatif puisqu’il y a peu de chances d’observer une telle valeur si H0 est vraie et on
concluera, par conséquent, que l’hypothèse H0 n’est pas acceptable.
Par contre, si la probabilité (p.c.) d’observer pour une variable Z ∼ N (0, 1) une valeur aussi
élevée que 1.414 est supérieure au seuil de signification α = 0.05, on concluera que H0 ne peut
pas être rejetée. Cela ne signifie pas pour autant qu’elle soit vraie mais seulement que l’écart
observé entre la statistique X (n) et la valeur du paramètre spécifiée dans H0 (µ0 ) semble plutôt
dû aux fluctuations d’échantillonnage. Les informations dont on dispose ne permettent donc
pas de rejeter H0 .
La règle de décision s’énonce habituellement comme suit :
– Rejeter H0 (avec une probabilité d’erreur ≤ au seuil α fixé) si la valeur observée tobs de
la statistique de décision 3 appartient à un ensemble de valeurs appelé la région critique
et noté R.C.α (T ) et
– Ne pas rejeter H0 dans le cas contraire.
La région critique R.C.α (T ) est définie comme l’ensemble de toutes les valeurs de la statis-
tique de décision qui vont dans le sens de l’alternative H1 et dont la probabilité, sous H0 , est
au maximum égale au seuil de signification α, c’est-à-dire, si la statistique de décision est notée
T,
P (T ∈ R.C.α (T ) | H0 est vraie) ≤ α.
Dans notre exemple, l’alternative est unilatérale à droite, les valeurs critiques de la sta-
tistique Z ∼ N (0, 1) seront donc des valeurs élevées de cette statistique (puisque si µ > µ0 ,
la valeur zobs devrait être trop élevée). On recherche donc un ensemble R.C.α (Z) de valeurs
extrêmes à droite et de probabilité α = 0.05, c’est-à-dire R.C.α (Z) = {z | z > z1−α } où
z1−α = z0.95 est le quantile d’ordre 1 − α = 0.95 (à gauche) de la loi normale centrée réduite.
3. Dans notre exemple d’inférence sur une moyenne, la statistique de décision est T = Z donc la valeur
observée est zobs et la région critique est R.C.α (Z).

6
Les tables de la loi N (0, 1) nous donnent la valeur z0.95 = 1.645, la région critique pour ce test
au seuil de signification α = 0.05 est donc

R.C.α=0.05 (Z) = {z | z > 1.645} =]1.645 ; +∞[.

La valeur observée dans l’échantillon zobs = 1.414 n’appartient pas à cette région critique
R.C.α=0.05 (Z) (car 1.414 6> 1.645), on ne peut donc pas rejeter l’hypothèse H0 avec une pro-
babilité de se tromper ≤ à α = 0.05. La moyenne observée x(n) = 103 pour ces 50 élèves de
Terminale n’est donc pas suffisamment élevée pour pouvoir en conclure qu’il y a amélioration
du score des élèves à l’épreuve d’aptitude entre la Troisième et la Terminale 4 . L’écart entre
x(n) = 103 et µ0 = 100 peut être simplement dû aux fluctuations d’échantillonnage.
Nous pouvons résumer la démarche d’un test d’hypothèses de la manière suivante :
1. Déterminer le type de problème (permettant de répondre à la question posée) et le modèle
Hm (les hypothèses relatives à la loi de probabilité des v.a. de l’échantillon). Fixer le seuil
de signification α.
2. Enoncer l’hypothèse nulle H0 et l’alternative H1 (dans les termes d’un ou plusieurs pa-
ramètres des lois de probabilité des v.a. de l’échantillon ou de la forme de ces lois de
probabilité).
3. Choisir la statistique de décision T et spécifier sa loi de probabilité si le modèle Hm est
vérifié et l’hypothèse H0 est vraie.
4. Calculer la valeur observée de cette statistique de décision, soit tobs , sur base des données
recueillies et en supposant que l’hypothèse H0 est vraie.
5. Déterminer, en fonction de la forme de l’alternative H1 (bilatérale, unilatérale à gauche
ou unilatérale à droite) et du seuil de signification α fixé, la région critique R.C.α (T ),
telle que
P (T ∈ R.C.α (T ) | H0 est vraie ) ≤ α
en se basant sur les tables de la loi de probabilité de la statistique de décision T si le
modèle Hm est valide et l’hypothèse H0 est vraie 5 .
6. Décision statistique :
- si tobs ∈ R.C.α (T ), RH0 au seuil α : on rejette H0 (et on peut affirmer H1 ) avec proba-
bilité de se tromper ≤ au seuil α fixé (on dira que le test est significatif au seuil α) ;
- si tobs 6∈ R.C.α (T ), N RH0 au seuil α : on ne peut pas rejeter H0 (ni affirmer H1 ) avec
probabilité d’erreur ≤ α (on dira que le test n’est pas significatif au seuil α).
7. Conclusion du test :
- si RH0 pour α, on peut affirmer H1 avec une probabilité d’erreur inférieure à α ;
4. Exercice : Quelle serait votre conclusion si la même moyenne x(n) = 103 avait été observée dans un
échantillon d’effectif n = 100 ?
5. Lorsque les tables le permettent, les étapes (5.) et (6.) pourront être remplacées par
5’. Calculer la probabilité critique, p.c., définie comme la probabilité que la statistique de décision prenne
une valeur au moins aussi extrême que la valeur observée dans le sens de l’alternative H1 (bilatérale,
unilatérale à gauche ou unilatérale à droite).
6’. Décision statistique :
- si p.c. ≤ α, RH0 au seuil α ;
- si p.c. > α, N RH0 au seuil α.
Cette démarche sera systématiquement suivie lorsque l’analyse sera faite par un logiciel statistique, le logiciel
fournissant toujours la valeur de p.c., appelée “niveau de probabilité p”.

7
- si N RH0 , on ne peut pas affirmer 6 H1 avec une probabilité d’erreur inférieure à α.
Revenons à présent à la notion de puissance π d’un test. Par définition, la puissance est
la probabilité de ne pas commettre l’erreur de type II ; en d’autres termes, la puissance est la
probabilité de rejeter l’hypothèse H0 alors que cette hypothèse est fausse ou l’alternative H1
est vraie,
π = P (T ∈ R.C.α (T ) | H1 est vraie ).
Notons dès à présent que la puissance dépend donc du seuil de signification α fixé (puisque la
région critique dépend de α). Par ailleurs, nous avons remarqué précédemment que l’alternative
est une hypothèse composée, il existe donc une infinité de situations la vérifiant. Le calcul de
la puissance π devra donc se faire pour chacune de ces différentes situations. Reprenons notre
exemple où l’alternative est H1 : µ > 100. La statistique de décision Z n’est parfaitement
définie que lorsqu’on a fixé la valeur de l’espérance µ ; si on suppose que H0 est vraie, on sait
que µ = 100, tandis que si on suppose que H1 est vraie, la valeur de µ reste inconnue, on sait
seulement qu’elle est > 100. Il faudra donc calculer la puissance pour chacune de ces valeurs
µ > 100. Dans ce cas, pour α fixé, on calculera donc ∀ µ > 100

π(α, µ) = P (Z ∈ R.C.α (Z) | µ est la vraie moyenne).

Le calcul de la puissance d’un test d’hypothèses sort du cadre de ce cours. Notons seulement
que lorsque l’effectif de l’échantillon augmente, la puissance augmente également. Il est donc
toujours plus facile de prouver une hypothèse H1 en se basant sur un échantillon aléatoire
d’effectif relativement grand.
Terminons cette partie introductive par la définition des grandes catégories de tests. Un
test est dit paramétrique si les hypothèses H0 et H1 portent sur la valeur d’un ou de plusieurs
paramètres d’une variable aléatoire (de loi spécifiée ou non) : l’exemple que nous avons traité
est un test paramétrique. Dans la plupart des cas, ces tests sont basés sur une hypothèse de
normalité des populations (modèle Hm ). La question se pose alors de savoir si les résultats
restent encore valables lorsque la population n’est pas normale : si les résultats sont valables,
on dit que le test est robuste. La robustesse d’un test par rapport à un certain modèle Hm
est donc la qualité de rester relativement insensible à certaines modifications du modèle : par
exemple, les tests sur une moyenne sont robustes.
Une catégorie particulièrement intéressante de tests robustes est la classe des tests libres
(en anglais distribution free) : il s’agit de tests valables quelle que soit la loi de probabilité de
la variable aléatoire étudiée, donc valables lorsqu’on ignore tout de cette loi. Ces tests sont
très souvent des tests non paramétriques, tests dont les hypothèses ne portent pas sur la valeur
d’un ou plusieurs paramètres d’une variable aléatoire, mais ce n’est pas forcément le cas (voir
Chapitre 8).

1.4 Objectif du cours


L’objectif de ce cours est l’étude des méthodes classiques de l’inférence statistique. A partir
d’un ensemble de données recueillies suivant une méthodologie précise, il s’agira de
– poser les questions judicieuses et les opérationnaliser, c’est-à-dire les traduire dans les
termes d’une inférence statistique,
6. Attention : en aucun cas, on ne pourra affirmer que H0 est vraie. En effet, le N RH0 ne signifie pas pour
autant que l’hypothèse H0 soit vraie, mais seulement que la probabilité (p.c.) que l’écart entre la valeur observée
(ici, xobs ) et la valeur théorique (µ0 sous H0 ) soit dû aux fluctuations d’échantillonage est trop grande (> α)
pour rejeter H0 .

8
– choisir une ou plusieurs méthodes statistiques inférentielles permettant de répondre à ces
questions initiales (en tenant compte de la structure des données),
– mettre en oeuvre ces méthodes statistiques inférentielles et
– interpréter les résultats de l’analyse effectuée, c’est-à-dire tirer de manière précise la
conclusion de l’analyse et répondre aux questions initiales posées.

1.5 Références
– MEOT Alain, “Introduction aux statistiques inférentielles, de la logique à la pratique”,
Bruxelles, Paris, De Boeck Université (Méthodes en Sciences Humaines), 2003.
– MARTIN Louise et Gérald BAILLARGEON, “Statistique Appliquée à la Psychologie”,
Editions SMG, Trois-Rivières, Québec, 1989.
– FERGUSON A. George, “Statistical Analysis in Psychology and Education”, McGraw-Hill
Inc., New York, 1981.
– HOWELL David C., “Méthodes Statistiques en Sciences Humaines”, Bruxelles, Paris, De
Boeck Université, 1998 (traduction française de “Statistical Methods for Psychology”, 4th
edition, Duxbury Press, 1997).
– ROUANET Henry, Jean-Marc BERNARD et Brigitte LE ROUX, “Statistique en Sciences
Humaines : Analyse Inductive des Données”, Dunod, Bordas, Paris, 1990.
– TOOTHAKER Larry E., “Multiple Comparisons for Researchers”, Sage Publications,
Inc., Newbury Park, California, 1991.
– ABDI Hervé, “Introduction au Traitement Statistique des Données Expérimentales”, Presses
Universitaires de Grenoble, Grenoble, 1987.
– LINDMAN Harold, “Analysis of Variance in Complex Experimental Designs”, W. H.
Freeman and Company, San Francisco, California, U.S.A., 1974.
– SPRENT Peter, ”Pratique des Statistiques Nonparamétriques”, INRA Editions, Paris,
1992.
– DAGNELIE Pierre, “Statistique Théorique et Appliquée”, Tomes 1 et 2, Bruxelles, Paris,
De Boeck Université, 1998.
– CONOVER W.J. “Practical Nonparametric Statistics”, John Wiley and Sons, 2d ed, 1980.
– SHAPIRO S.S. et WILK M.B., “An Analysis of Variance Test of Normality (complete
samples)”, in Biometrika, 52, 591-611.
– MARASCUILO L. et M. McSWEENEY, “Nonparametric and Distribution-Free Methods
for the Social Sciences”, Brooks/ Cole Publishing Company, Monterey, California, U.S.A.,
1977.
– SIEGEL S. et CASTELLAN N. J., Jr, “Nonparametric Statistics for the Behavioral
Sciences” Second edition, McGraw-Hill International editions, New York, 1988.

9
2 CADRE ET NOTATIONS GENERALES
2.1 Les paramètres
Tous les paramètres des lois de probabilité seront représentés par des lettres grecques, par
exemple,
φ : fréquence ou probabilité de l’occurence d’un événement aléatoire
(voir variable aléatoire binomiale ci-dessous, section 2.3.1)
Soient X et Y deux variables aléatoires 7 quantitatives, les principaux paramètres théoriques
sont

µ ou µX : espérance mathématique ou moyenne théorique de la v.a. X,


µX = E(X)
σ 2 ou σX
2
: variance théorique de la v.a. X,
σX2
= E[(X − E(X))2 ] = E (X 2 ) − (E(X)) p
2

2
σ ou σX : écart-type théorique de la v.a. X, σX = σX
σXY : covariance théorique entre les v.a. X et Y
σXY = E[(X − E(X))(Y − E(Y ))] = E(XY ) − E(X)E(Y )
ρ ou ρXY : coefficient de corrélation linéaire théorique entre les v.a. X et Y
ρXY = σXY /(σX · σY )
Soient X1 , X2 , · · · , Xj , · · · , Xp , p variables aléatoires quantitatives, on considère le vecteur
aléatoire (ou ve. a.), noté X (en caractères gras) 8 , constitué des p composantes correspondant
aux p v. a. Xj , j = 1, · · · , p. On écrira
 
X1
 X2 
 . 
 . 
 . 
X=
 Xj 

 . 
 .. 
Xp
On dira que le vecteur aléatoire X est de dimension p.
Le vecteur moyen ou vecteur des espérances mathématiques des p variables aléatoires, µj =
E(Xj ) (j = 1, · · · , p), noté µ, est défini par
 
µ1
 µ2 
 . 
 . 
 . 
µ=
 µj 

 . 
 .. 
µp
et la matrice de variance-covariance, notée Σ, est la matrice composée des variances de chacune
des p variables aléatoires, σj2 , variance de Xj (j = 1, · · · , p), et des covariances entre chacune
7. On écrira souvent v.a. pour variable aléatoire. On négligera l’indice faisant référence à la v.a. considérée
lorsque cela n’engendre aucune ambiguı̈té.
8. Il est d’usage de différentier les vecteurs et matrices des nombres en les notant en caractères gras ; dans
la suite de l’exposé, nous suivrons cette convention.

10
de ces variables aléatoires prises deux par deux, σjk , covariance entre les v. a. Xj et Xk (j et
k = 1, · · · , p) ; plus précisément
 2 
σ1 σ12 · · · σ1j ··· σ1k · · · σ1p
 σ21 σ22 · · · σ2j ··· σ2k · · · σ2p 
 .. .. .. ..
 
 . . . .


 σj1 σj2 · · · σj2 · · · σjk · · · σjp
 

Σ=  ... .. .. .. 
 . . . 

 k1 k2 · · · σkj
 σ σ · · · σk2 · · · σkp 

 . .. .. ... ..
 ..

. . . 
σp1 σp2 · · · σpj · · · σpk · · · σp2

Il est important de noter que cette matrice est symétrique puisque σjk = σkj pour tout j
et k = 1, · · · , p. De plus, rappelons que la variance d’une variable n’est rien d’autre que la
covariance de cette variable avec elle-même, σj2 = σjj .

2.2 Les statistiques ou estimateurs


Soit une expérience aléatoire donnant lieu (entre autres) à l’événement aléatoire A ; si cette
expérience aléatoire est répétée n fois de manière indépendante,

f : la fréquence de l’événement aléatoire A, est le nombre d’occurences de


l’événement A divisé par n, le nombre de répétitions de l’expérience,
estimateur sans biais de la fréquence théorique φ.
Soit un échantillon aléatoire i.i.d. d’effectif n extrait d’une population, X1 , X2 , ..., Xn ,
on peut définir les statistiques suivantes,
T ou TX : la somme (ou le Total) des n v.a. Xi , i = 1, · · · , n,
n
X
T = Xi
i=1

X ou X (n) : moyenne arithmétique des n v.a. X1 , X2 , ..., Xn , estimateur sans biais


de leur moyenne théorique (ou espérance) µ ou µX ,
n
1X T
X= Xi =
n i=1 n

SC ou SCX : la Somme des Carrés des n v.a. Xi , i = 1, · · · , n,


n
X
SCX = Xi2
i=1

SCE ou SCEX : la Somme des Carrés d’Ecarts à la moyenne des n v.a. Xi , i = 1, · · · , n,


n
X 2 TX2
SCEX = Xi − X (n) = SCX −
i=1
n

11
S 2 ou SX
2
: variance des n v.a. X1 , X2 , ..., Xn , estimateur sans biais de leur variance
théorique σ 2 ou σX
2
,

n
2 1 X 2 SCEX
SX = (Xi − X) =
n − 1 i=1 n−1

p
S ou SX : écart-type 9 des n v.a. X1 , X2 , ..., Xn , SX = 2
SX .

Soit un second échantillon aléatoire i. i. d. d’effectif n, Y1 , Y2 , ..., Yn , on définit comme


ci-dessus, les statistiques
TY , la somme (ou le Total) des n v.a. Yi , i = 1, · · · , n,
Y ou Y (n) , la moyenne arithmétique des n v.a. Yi ,
SCY , la Somme des Carrés des n v.a. Yi ,
SCEY , la Somme des Carrés d’Ecarts à la moyenne des n v.a. Yi ,
SY2 , la variance des n v.a. Yi , p
SY , l’écart-type des n v.a. Y1 , Y2 , ..., Yn , SY = SY2 .
puis les nouvelles statistiques suivantes (pour étudier la liaison de X et Y ),
SPXY : la Somme des Produits des n v.a. Xi et Yi , i = 1, · · · , n,

n
X
SPXY = X i · Yi
i=1

SP EXY : la Somme des Produits d’Ecarts aux moyennes des n v.a. Xi et Yi , i = 1, · · · , n,

n
X   TX · TY
SP EXY = Xi − X (n) · Yi − Y (n) = SPXY −
i=1
n

SXY : covariance entre les v. a. X et Y , estimateur sans biais de leur covariance


théorique σXY ,

n
1 X SP EXY
SXY = (Xi − X)(Yi − Y ) =
n − 1 i=1 n−1

R ou RXY : coefficient de corrélation linéaire entre les v.a. X et Y ,

SXY SP EXY
RXY = =√
SX SY SCEX · SCEY

Soit un échantillon de n vecteurs aléatoires de dimension p extrait d’une population, X1 ,


X2 , · · · , Xi , · · · , X n ,

9. Notons que cet écart-type, défini comme la racine carrée de la variance sans biais, est biaisé, la racine
carrée n’étant pas une fonction linéaire.

12
X : le vecteur des moyennes arithmétiques des p composantes des vecteurs aléatoires Xi ,
estimateur sans biais du vecteur moyen µ
 
X1

 X2 

 .. 
 . 
X= 
 Xj 
..
 
 
 . 
Xp

où X j = ni=1 Xij est la moyenne arithmétique des n variables de l’échantillon aléatoire cor-
P
respondant à la jème composante des n vecteurs aléatoires et

S : la matrice de variance-covariance empirique des vecteurs aléatoires Xi ,


estimateur sans biais de la matrice de variance-covariance théorique Σ

S12 S12 · · · S1j · · · S1k


 
··· S1p
 S21 S22 · · · S2j · · · S2k ··· S2p 
.. ... .. ..
 
. . .
 
 
Sj1 Sj2 · · · Sj2 · · · Sjk ··· Sjp
 
 
S= .. .. .. .. 

 . . . . 


 Sk1 Sk2 · · · Skj · · · Sk2 · · · Skp 

 .. .. .. .. .. 
 . . . . . 
Sp1 Sp2 · · · Spj · · · Spk · · · Sp2

où Sj2 est l’estimateur sans biais de la variance σj2 et Sjk est l’estimateur sans biais de la
covariance σjk (voir ci-dessus).

2.3 Les lois de probabilité


2.3.1 La loi binomiale X ∼ Bi(n, φ)

Soit une expérience aléatoire donnant lieu à deux événements possibles appelés “Succès” et
“Echec”. Soit φ la probabilité du Succès et donc 1 − φ la probabilité de l’Echec. On répète n
fois de manière indépendante cette expérience aléatoire. La variable aléatoire X définie par le
nombre de Succès observés lors de ces n expériences 10 , est appelée variable aléatoire binomiale
d’effectif n et de paramètre φ et notée X ∼ Bi(n, φ).
La loi de probabilité de la variable aléatoire binomiale est donnée par

n!
P (X = k) = Cnk φk (1 − φ)n−k avec Cnk =
k!(n − k)!

10. On peut voir également la variable binomiale X ∼ Bi(n, φ) comme la somme de n variables aléatoires
indépendantes et identiquement distribuées, U1 , U2 , ..., Un , appelées indicatrices où Ui est égal à 1 si le résultat
du ième essai de l’espérience aléatoire est le Succès et 0 si ce résultat est l’Echec (∀ i = 1, · · · , n). Dans ce sens,
la fréquence du Succès f = X/n est la moyenne des n v.a.i.i.d. que sont ces indicatrices.

13
pour toute valeur possible k = 0, 1, · · · , n. Il s’agit donc d’une variable discrète. Cette loi de
probabilité est également définie par sa fonction de répartition 11
x
X
FX (x) = P (X ≤ x) = P (X = k)
k=1

pour x = 0, 1, · · · , n (voir Tables statistiques 1.1 à 1.5).


On démontre que l’espérance mathématique depX est égale à µX = nφ et la variance de X
2
est σX = nφ(1 − φ) ; donc l’écart-type vaut σX = nφ(1 − φ).
Par le Théorème Central-Limite (voir ci-dessous Section 2.3.3, “Loi normale” ), si nφ > 5
et n(1 − φ) > 5, on peut approcher la v.a. binomiale X ∼ Bi(n, φ) par la loi N (nφ, nφ(1 − φ)),
ce qui donne les résultats approximatifs suivants
X
X − nφ −φ
n
p ≈ Z ∼ N (0, 1) ou p ≈ Z ∼ N (0, 1)
nφ(1 − φ) φ(1 − φ)/n

Pour affiner l’approximation de la loi binomiale (loi discrète) par la loi normale (loi continue),
on utilisera parfois une correction de continuité ; cette correction qui est basée sur l’identité
P [X = x] = P [x − 0.5 ≤ X ≤ x + 0.5], consiste à “agrandir” le domaine de variation de la
variable comme suit
!
x + 0.5 − nφ
P [X ≤ x] = P [X ≤ x + 0.5] ≈ Φ p
nφ(1 − φ)

et !
x − 0.5 − nφ
P [X ≥ x] = 1 − P [X ≤ x − 1] = 1 − P [X ≤ x − 0.5] ≈ 1 − Φ p
nφ(1 − φ)
où Φ(z) désigne la fonction de répartition de la loi normale centrée réduite (voir ci-dessous).

2.3.2 La loi multinomiale


Comme son nom l’indique, cette loi généralise la loi binomiale. Soit une expérience aléatoire
donnant lieuPk à k événements possibles, A1 , A2 , ..., Ak , de probabilités respectives φ1 , φ2 , ...,
φk (avec j=1 φj = 1). On répète n fois l’expérience aléatoire et on compte le nombre de
réalisations de chacun des événements Aj , soit Nj ce nombre (donc kj=1 Nj = n). Le vec-
P
teur aléatoire (N1 , N2 , · · · , Nk ) suit alors par définition une loi multinomiale d’effectif n et de
paramètres p1 , p2 , · · · , pk .
La loi de probabilité conjointe du vecteur aléatoire (N1 , N2 , · · · , Nk ) est donnée par

n!
P (N1 = n1 ; N2 = n2 ; · · · ; Nk = nk ) = φ1 n1 φ2 n2 · · · φk nk
n1 !n2 ! · · · nk !

pour les valeurs possibles (n1 , n2 , · · · , nk ) telles que kj=1 nj = n et nj est un entier positif
P
∀j = 1, 2, · · · , k. Il s’agit d’un vecteur aléatoire discret.

11. On peut déduire la probabilité P (X = k) de cette fonction de répartition par la relation suivante P (X =
k) = P (X ≤ k) − P (X ≤ k − 1) pour tout k = 0, 1, · · · , n.

14
2.3.3 La loi normale de moyenne µ et de variance σ 2 , X ∼ N (µ, σ 2 )
La loi normale est la loi de probabilité continue la plus fréquemment utilisée en statistique.
C’est, en effet, la loi qui s’applique à une variable qui est la résultante d’un grand nombre de
causes indépendantes, dont les effets s’additionnent et dont aucune n’est prépondérante (par le
Théorème Central-Limite) 12 . En particulier, la loi normale apparaı̂t comme une approximation
de la loi de la moyenne de v.a.i.i.d. et de la loi binomiale lorsque l’effectif de l’échantillon est
grand.
La loi normale centrée réduite (de moyenne µ = 0 et d’écart-type σ = 1) est celle d’une
variable aléatoire Z ∼ N (0, 1), définie par sa fonction de répartition notée Φ(z),
Φ(z) = FZ (z) = P (Z ≤ z), ∀ z ∈ IR
qui est une fonction positive strictement croissante telle que
lim Φ(z) = 0 et lim Φ(z) = 1
z→−∞ z→+∞

Cette fonction réelle Φ(z) est tabulée (voir Table statistique 2.1) et correspond à la surface
sous le graphe de la densité de probabilité fZ (z) (ou fonction de fréquence 13 ) pour toutes les
valeurs ≤ z ∈ IR .
La densité de probabilité fZ (z) est symétrique par rapport à la valeur 0 ( fZ (−z) =
fZ (z), ∀ z) et la surface totale sous la courbe est égale à 1 (puisque limz→+∞ Φ(z) = 1) 14 .
On l’appelle souvent courbe de Gauss ou encore gaussienne.
Le quantile zq d’ordre q de la loi normale centrée réduite est défini par
Φ(zq ) = P (Z ≤ zq ) = q, ∀q ∈ (0, 1).
La loi normale de moyenne µ et de variance σ 2 , N (µ, σ 2 ), s’obtient par transformation
linéaire de la loi normale centrée réduite, en multipliant par l’écart-type et en ajoutant la
moyenne ; plus précisément, si X ∼ N (µ, σ 2 ), alors X = µ + σZ avec Z ∼ N (0, 1). Donc, la loi
de probabilité de toute variable aléatoire normale X ∼ N (µ, σ 2 ) s’obtient à partir de la loi de
probabilité de la variable aléatoire Z ∼ N (0, 1) par la transformation
X −µ
= Z ∼ N (0, 1)
σ
et la densité de probabilité de X, fX (x), est symétrique par rapport à la moyenne µ.
12. Enoncé du Théorème Central-Limite : Soient X1 , X2 , · · · , Xi , · · · , Xn , n v.a.i.i.d. telles que E (Xi ) = µ
et V ar (Xi ) = σ 2 , lorsque l’effectif n est suffisamment grand, la v.a. somme Sn = X1 + X2 + · · · + Xn est
2
approximativement de loi N (nµ, nσ 2 ) et la v.a. X (n) est approximativement de loi N (µ, σn ), donc

X (n) − µ
√ ≈ Z ∼ N (0, 1)
σ/ n

13. La densité de probabilité de la loi normale centrée réduite est donnée par
1 −z 2
fZ (z) = √ exp( )
2π 2
et est reliée à la fonction de répartition par la relation suivante
Z z
Φ(z) = FZ (z) = fZ (u) du
−∞

14. Cette dernière propriété n’est pas une propriété spécifique à la loi normale centrée réduite mais est vérifiée
pour n’importe quelle loi de probabilité continue.

15
2.3.4 La loi χ2ν à ν degrés de liberté
La loi de probabilité χ21 (χ2 à 1 degré de liberté) est définie comme étant celle d’une variable
aléatoire normale centrée réduite élevée au carré

Z 2 ∼ χ21

Comme son nom et sa définition l’indiquent, il s’agit d’une variable aléatoire continue prenant
uniquement des valeurs positives.
La loi de probabilité χ2ν (χ2 à ν degrés de liberté) est définie comme étant celle de la somme
de ν variables aléatoires indépendantes χ21 , ou la somme des carrés de ν v.a. normales centrées
réduites Z1 , Z2 , ..., Zν ,
X ν
Z12 + Z22 + · · · + Zν2 = Zi2 ∼ χ2ν
i=1

La variable aléatoire χ2ν


est une variable aléatoire continue à valeurs positives (∀ ν ≥ 1). Les
quantiles χν,q d’ordre q d’une v.a. U ∼ χ2ν , définis par
2

P (U ≤ χ2ν,q ) = q, ∀q ∈ (0, 1),

sont tabulés pour ν ≤ 100 (voir Table statistique 4).

2.3.5 La loi tν de Student à ν degrés de liberté


Soient deux variables aléatoires indépendantes, Z ∼ N (0, 1) et U ∼ χ2ν , on définit la variable
aléatoire T de Student à ν degrés de liberté comme étant
Z
T =p ∼ tν .
U/ν

Cette loi est symétrique par rapport à la valeur 0, comme la loi normale centrée réduite vers
laquelle elle tend lorsque le nombre de degrés de liberté tend vers +∞.
Les quantiles tν,q d’ordre q d’une v.a. T ∼ tν , définis par

P (T ≤ tν,q ) = q, ∀q ∈ (0, 1),

sont tabulés pour ν ≤ 100 (voir Table statistique 3) ; pour ν > 100, on utilise les tables de
la loi normale centrée réduite.

2.3.6 La loi Fν1 ,ν2 de Fisher-Snédécor (ou de Fisher) à (ν1 , ν2 ) degrés de liberté
Soient deux variables aléatoires indépendantes, U1 ∼ χ2ν1 et U2 ∼ χ2ν2 , on définit la variable
aléatoire F de Fisher-Snédécor (ou simplement de Fisher) à (ν1 , ν2 ) degrés de liberté comme
étant
U1 /ν1
F = ∼ Fν1 ,ν2
U2 /ν2
Par définition, cette variable aléatoire prend toujours des valeurs positives. Ses quantiles Fν1 ,ν2 ,q
d’ordre q définis par
P (F ≤ Fν1 ,ν2 ,q ) = q, ∀q ∈ (0, 1)
sont tabulés (voir Table statistique 5).

16
2.3.7 La loi normale multivariée Np (µ, Σ)
0
On dit que le vecteur aléatoire X = X1 X2 · · · Xj · · · Xp (de dimension p) suit
une loi normale multivariée si toute combinaison linéaire de ses composantes suit une loi normale
univariée, c’est-à-dire toute variable aléatoire T définie par
p
X
T = aj X j
j=1

pour des constantes aj arbitraires pour j = 1, · · · , p. On dira alors que le vecteur X est un
vecteur gaussien. Un vecteur aléatoire gaussien est défini par son espérance µ et sa matrice de
variance-covariance Σ (voir Section 2.1). On écrira X ∼ Np (µ, Σ). Il n’est pas possible de
construire des tables donnant les probabilités correspondant à une loi multivariée.

17
3 INFERENCE SUR LES FREQUENCES
A. Un échantillon

3.1 Inférence sur une fréquence φ


Soit un échantillon aléatoire i.i.d. d’effectif n classé suivant une variable dichotomique A
(prenant deux modalités différentes A1 et A2 ). Soit φ la fréquence de la modalité A1 dans la
population dont on a extrait cet échantillon. Le test de comparaison de la fréquence φ à une
norme φ0 s’écrit 
H0 : φ = φ0
H1 : φ 6= φ0 (ou φ < φ0 ou φ > φ0 )
Soit la v.a. X définie comme le nombre de A1 (considéré comme le “Succès”) parmi les n
expériences avec fréquence φ de A1 donc X est une v.a. binomiale, X ∼ Bi(n, φ).
La statistique de décision et sa loi sous H0 sont
X ∼ Bi(n, φ0 )
Si nφ0 > 5 et n(1 − φ0 ) > 5, on peut utiliser l’approximation donnée par le Théorème Central-
Limite (voir Section 2.3.3)
X − n · φ0 f − φ0
Z=p =q ∼ N (0, 1)
n · φ0 · (1 − φ0 ) φ0 ·(1−φ0 )
n

X
où f est la fréquence de “Succès” dans l’échantillon d’effectif n, donc f =.
n
Parfois, on pourra appliquer la correction de continuité suivante (voir Section 2.3.1)
X ± 21 − n · φ0 1
f ± 2n − φ0
Z=p = q ∼ N (0, 1).
n · φ0 · (1 − φ0 ) φ0 ·(1−φ0 )
n

Si nf > 20 et n(1 − f ) > 20, l’intervalle de confiance pour φ au niveau de confiance 1 − α,


IC1−α (φ), est donné par
r r !
f · (1 − f ) f · (1 − f )
IC1−α (φ) = f − z1−α/2 , f + z1−α/2
n n

= f − z1−α/2 · Sf , f + z1−α/2 · Sf ou f ± z1−α/2 · Sf
r
f · (1 − f )
où Sf = désigne l’estimateur de l’écart-type de la fréquence f , appelé erreur-type
n
de la fréquence f . Pour estimer une fréquence φ par IC1−α (φ) avec une erreur maximale fixée
e, l’effectif nécessaire n pour atteindre cette précision doit satisfaire
2
z1−α/2 · f0 · (1 − f0 )
n≥ où f0 désigne une estimation préalable de φ
e2
ou si aucune estimation préalable de la fréquence φ n’est disponible,
2
z1−α/2
n≥ .
4 · e2
Si nf ≤ 20 et/ou n(1 − f ) ≤ 20, l’intervalle de confiance IC1−α (φ) s’obtient par abaque
elliptique, les limites de l’intervalle étant tabulées pour différentes valeurs de f , n et α (voir
Table statistique 1.6).

18
3.2 Tests d’ajustement à un modèle théorique
Pk
3.2.1 Inférence sur plusieurs fréquences φ1 , φ2 , · · · et φk (avec j=1 φj = 1) : le test
χ2 pour une variable catégorisée.
Soit un échantillon aléatoire i.i.d. d’effectif n classé suivant une variable catégorisée A pre-
nant k modalités incompatibles et exhaustives (s’excluant mutuellement) A1 , A2 , · · · et Ak .
Soit φj la fréquence de la modalité Aj dans la population dont on a extrait cet échantillon
(∀ j = 1, 2, · · · , k). Le test d’ajustement de la distribution de fréquence φ1 , φ2 , · · · et φk au
modèle théorique φ01 , φ02 , · · · et φ0k s’écrit

H0 : φ1 = φ01 , φ2 = φ02 , · · · , φk = φ0k
H1 : ∃ j ∈ {1, · · · , k} tel que φj 6= φ0j
Soit n∗j = nφ0j l’effectif théorique de la modalité Aj (∀ j = 1, · · · , k) si H0 est vraie ; si tous
ces effectifs théoriques sont ≥ 1 et pas plus de 20% de ces effectifs théoriques ne sont < 5, on
utilise la statistique 15 de décision χ2 de Pearson, de loi approximativement χ2k−1 sous H0 ,
k 2
2
X nj − n∗j
χ = ≈ χ2k−1 , χ2 à k − 1 d.d.l.
j=1
n∗j

Pour le calcul, on pourra utiliser la formule équivalente suivante :


k
2
X n2j
χ = − n.
j=1
n∗j

Une autre statistique de test, appelé test du rapport de vraisemblance, permet de mettre à
l’épreuve l’hypothèse d’adéquation au modèle théorique ; elle est donnée par
k   
2
X nj
G =2 nj ln .
j=1
n∗j

Sous H0 , la loi de cette statistique est également approximativement χ2k−1 ,

G2 ≈ χ2k−1 , χ2 à k − 1 d.d.l.

Cette statistique est principalement utilisée dans l’analyse des modèles log-linéaires.

15. Ces conditions d’application ont été proposées par Cochran (“The χ2 Test of Goodness of Fit”, Annals
of Mathematical Statistics, 1952, vol. 23, 315-345) ; plus précisément, il a établi le nombre maximal d’effectifs
théoriques < 5 en fonction du nombre k de fréquences (ou de classes)

Nombre de Nombre maximal d’effectifs


classes théoriques < 5
1 à 4 0
5 à 9 1
10 à 14 2
15 à 19 3
20 à 24 4
25 à 29 5
30 à 34 6
etc

19
3.2.2 Le test χ2 pour une variable numérique discrète
Soit X1 , X2 , ..., Xn un échantillon de n variables aléatoires i.i.d. suivant une loi de probabilité
discrète inconnue 16 . On désire tester si cet échantillon peut être considéré comme un échantillon
aléatoire i.i.d. suivant une loi de probabilité (discrète) connue F0 . Ce test peut s’énoncer de
deux manières différentes, soit en spécifiant totalement cette loi de probabilité (par exemple,
une loi binomiale d’effectif m et de fréquence φ connus), soit en spécifiant seulement la forme
de cette loi de probabilité mais pas la valeur de tous les paramètres (par exemple, loi binomiale
d’effectif m connu mais de fréquence φ inconnue) :

H0 : échantillon i.i.d. suivant loi F0 (de paramètres connus ou inconnus)
H1 : négation de H0

Ce test d’ajustement s’effectue en constituant un certain nombre k de classes de valeurs


pour la variable considérée, puis en comparant les fréquences observées dans l’échantillon avec
les fréquences théoriques φ0j (j = 1, · · · , k) de chacune de ces classes pour la loi de probabilité
testée F0 (sous H0 ). Si certains paramètres ne sont pas spécifiés dans l’hypothèse nulle H0 , on
les estime à partir des données. Ensuite, ce test s’effectue de manière semblable à celui d’une
inférence sur plusieurs fréquences φ1 , φ2 , · · · et φk (voir ci-dessus Section 3.2.1). Le nombre
de classes sera déterminé de manière à vérifier les conditions d’application de cette inférence
sur plusieurs fréquences. La statistique de décision est identique à celle donnée en Section
3.2.1.). Si l’hypothèse H0 est vraie et si la condition sur les effectifs théoriques (n∗j = nφ0j pour
j = 1, · · · , k) est vérifiée, cette statistique suit approximativement une loi χ2 dont le nombre de
degrés de liberté est diminué du nombre r de paramètres non spécifiés dans l’hypothèse nulle
H0 (et donc estimés à partir des données), c’est-à-dire
k 2
2
X nj − n∗j
χ = ≈ χ2k−1−r , χ2 à k − 1 − r d.d.l.
j=1
n∗j

avec n∗j = nφ0j pour j = 1, · · · , k. Pour le calcul, on pourra à nouveau utiliser la formule
équivalente suivante :
k
2
X n2j
χ = − n.
n∗
j=1 j

3.2.3 Le test de Kolmogorov (variable numérique continue)


Soit X1 , X2 , ..., Xn un échantillon aléatoire i.i.d. d’effectif n suivant une loi de probabilité
continue de fonction de répartition inconnue F (x) (rappelons que F (x) = P (X ≤ x) ∀ x ∈ IR ).
Soit F0 (x) une fonction de répartition fixée (correspondant à une loi de probabilité continue).
Le test d’ajustement à la loi de fonction de répartition F0 (x) s’écrit

H0 : ∀ x ∈ IR , F (x) = F0 (x)
H1 : négation de H0 (∃ x ∈ IR tel que F (x) 6= F0 (x))
16. On utilise parfois le test χ2 comme statistique de décision pour l’ajustement à une distribution continue
(souvent la loi normale de paramètres µ et σ 2 connus ou estimés à partir des données). Cette procédure n’est
recommandée que dans le cas où seules les données regroupées en classes sont accessibles. Les regroupements
arbitraires peuvent conduire à des incohérences, un regroupement conduisant au rejet de l’hypothèse H0 et un
autre ne permettant pas ce rejet. L’ajustement à une loi continue s’effectuera plutôt par le test de Kolmogorov
ou celui de Lilliefors présentés ci-dessous.

20
La statistique de décision K de Kolmogorov est la distance maximale (ou encore l’écart absolu
maximal) entre la fonction de répartition théorique sous H0 , F0 , et la fonction de répartition
empirique (basée sur les observations), F̂ (x), qui se calcule comme suit 17
nombre de valeurs ≤ x dans l’échantillon
F̂ (x) = .
n
La statistique K et sa loi sous H0 sont données par

K = maxx∈IR | F̂ (x) − F0 (x) | ∼ Kn de Kolmogorov pour un échantillon d’effectif n.

En pratique, la valeur observée de cette statistique de décision s’obtient comme suit : on


calcule toutes les différences 18 F̂ (xi ) − F0 (xi ) et F̂ (xi−1 ) − F0 (xi ) pour i = 1, · · · , n, puis on
prend le maximum des valeurs absolues de toutes ces différences

kobs = maxi=1,··· ,n {| F̂ (xi ) − F0 (xi ) |, | F̂ (xi−1 ) − F0 (xi ) |}.

Les quantiles de la statistique de Kolmogorov sont tabulés pour n ≤ 40 (voir Table sta-
tistique 15) ; lorsque n > 40, on utilisera des valeurs approchées, par exemple 1.36 √ et 1.63
n
√ pour
n
α = 0.05 et α = 0.01 respectivement.
Il est également possible d’utiliser le test de Kolmogorov pour une alternative unilatérale,
H1 : ∃x ∈ IR , F (x) > F0 (x) (c’est-à-dire la distribution F se situe plus à gauche, vers les valeurs
plus faibles, que la distribution F0 en au moins un point x) ou H1 : ∃x ∈ IR , F (x) < F0 (x) (c’est-
à-dire la distribution F se situe plus à droite, vers les valeurs plus élevées, que la distribution F0
en au moins un point x). Dans ce cas, on utilise les tables unilatérales (voir Table statistique
15) et on n’oublie pas de vérifier que le sens de la différence correspond bien à l’alternative
considérée.

3.2.4 Le test de Lilliefors (ajustement à une loi normale)


Le test de Lilliefors est une adaptation du test de Kolmogorov pour l’ajustement à une
loi normale N (µ, σ 2 ) de paramètres µ et σ inconnus. Soit FN (x) la fonction de répartition
correspondant à cette loi normale. Les hypothèses sont

H0 : ∀ x ∈ IR , F (x) = FN (x) (distribution normale)
H1 : négation de H0 (∃ x ∈ IR tel que F (x) 6= FN (x))

où F (x) est la fonction de répartition dans la population dont on a extrait un échantillon
aléatoire i.i.d. X1 , X2 , ..., Xn d’effectif n.
La statistique L de Lilliefors est une distance entre la fonction de répartition empirique
calculée à partir des données centrées réduites et la fonction de répartition normale centrée
réduite N (0, 1). Plus précisément, on calcule la moyenne arithmétique des observations (la
17. La fonction de répartition empirique F̂ (x), parfois appelée fonction cumulée à gauche de l’échantillon,
est l’estimation, à partir de l’échantillon, de la fonction de répartition F (x) de la population. Il s’agit d’une
fonction en escaliers, constante entre deux valeurs observées et augmentant d’une hauteur égale à 1/n au niveau
de chacune des valeurs observées ; lorsque plusieurs valeurs observées sont égales, l’augmentation est égale au
nombre de valeurs égales /n. La fonction F̂ (x) est donc une fonction croissante sur IR partant de la valeur 0 et
atteignant la valeur 1.
18. Puisque la fonction de répartition empirique est une fonction croissante partant de la valeur 0 pour arriver
à la valeur 1 par sauts de hauteur 1/n, cette fonction prend donc n + 1 valeurs différentes (sauf lorsque plusieurs
valeurs observées sont égales, auquel cas certaines des valeurs de F̂ (xi ) coı̈ncident, ce qui ne modifie en rien la
formule). Par convention, on notera donc F̂ (x0 ) = 0, F̂ (x1 ) = 1/n, F̂ (x2 ) = 2/n, · · · , F̂ (xn ) = n/n = 1.

21
2
valeur observée de X (n) , l’estimateur sans biais de la moyenne µ) et la valeur observée de S(n)
(l’estimateur sans biais de la variance σ 2 ) et on utilise ces valeurs pour centrer et réduire les
données ; soient
xi − x(n)
z(i) = , i = 1, · · · , n
s(n)
ces données centrées réduites rangées en ordre croissant.
Ensuite, on construit la fonction de répartition empirique associée à ces données centrées
réduites, soit F̂ (z) cette fonction (voir ci-dessus pour la définition de cette fonction empirique),
et on calcule les valeurs Φ(z(i) ) de la fonction de répartition de la loi normale N (0, 1) aux
données centrées réduites z(i) (i = 1, · · · , n) en utilisant les tables de la loi normale N (0, 1)
(voir Table statistique 2.1).
La statistique de décision L de Lilliefors et sa loi sous H0 sont données par

L = maxz∈ IR | F̂ (z) − Φ(z) | ∼ Ln de Lilliefors pour un échantillon d’effectif n.

En pratique, la valeur observée de cette statistique de décision s’obtient comme suit : on


calcule toutes les différences 19 F̂ (zi ) − Φ(zi ) et F̂ (zi−1 ) − Φ(zi ) pour i = 1, · · · , n, puis on prend
le maximum des valeurs absolues de toutes ces différences

lobs = maxi=1,··· ,n {| F̂ (zi ) − Φ(zi ) |, | F̂ (zi−1 ) − Φ(zi ) |}.

Les quantiles de la statistique de Lilliefors sont tabulés pour n ≤ 30 (voir Table statistique
16) ; lorsque n > 30, on utilisera des valeurs approchées, par exemple 0.886

n
et 1.031

n
pour α = 0.05
et α = 0.01 respectivement.

3.2.5 Le test de Shapiro-Wilk (ajustement à une loi normale)


3.2.5.1 Fondements théoriques.

a Considérons deux variables aléatoires, Z ∼ N (0, 1), normale centrée réduite, et X ∼


N (µ, σ 2 ), normale de moyenne µ et de variance σ 2 quelconques.
Nous nous intéressons aux quantiles d’ordre p à gauche de ces deux variables :
– zp défini par P [Z ≤ zp ] = FN (0,1) (zp ) = p (= Φ(zp )) et
– xp défini par P [X ≤ xp ] = FN (µ,σ2 ) (xp ) = p.
Si nous traçons le graphe des quantiles de ces deux variables,

{(xp , zp ) | 0 < p < 1}

nous obtenons une droite, appelée droite de Henry, dont l’équation est la suivante
1 µ
zp = · xp −
σ σ
Cette droite contient toujours le point (µ, 0) et a une pente égale à 1/σ.

b Considérons un échantillon aléatoire i.i.d. Xi , i = 1, · · · , n, ∼ N (µ, σ 2 ). Si nous rangeons


19. Puisque la fonction de répartition empirique est une fonction croissante partant de la valeur 0 pour arriver
à la valeur 1 par sauts de hauteur 1/n, cette fonction prend donc n + 1 valeurs différentes (sauf lorsque plusieurs
valeurs observées sont égales, auquel cas certaines des valeurs de F̂ (zi ) coı̈ncident, ce qui ne modifie en rien la
formule). Par convention, on notera donc F̂ (z0 ) = 0, F̂ (z1 ) = 1/n, F̂ (z2 ) = 2/n, · · · , F̂ (zn ) = n/n = 1.

22
les valeurs de cet échantillon, nous obtenons les statistiques d’ordre, X(i) , i = 1, · · · , n, telles
que
X(1) ≤ X(2) ≤ · · · ≤ X(i) ≤ · · · ≤ X(n−1) ≤ X(n)
Ces valeurs doivent être proches (aux erreurs d’échantillonnage près) des quantiles de la loi des
Xi , càd ici de la loi N (µ, σ 2 ). Plus précisément, posons

i − 1/2
p(i) = , ∀ i = 1, · · · , n
n
et considérons les quantiles normaux zp(i) , appelés scores normaux (ou “normal scores”).

Si l’échantillon Xi provient bien d’une population normale, le graphe des points X(i) , zp(i) pour
i = 1, · · · , n, est proche d’une droite. Ce graphique est appelé diagramme Quantile-Quantile
(ou “Q-Q plot”).

3.2.5.2 Procédure statistique.


Supposons à présent que l’échantillon aléatoire i.i.d. Xi , i = 1, · · · , n, ∼ F (x), une loi de
probabilité supposée continue dont nous voulons tester l’adéquation à un modèle normal. Les
hypothèses
 statistiques considérées sont donc (voir test de Lilliefors)
H0 : X ∼ N (µ, σ 2 ) (normalité)
H1 : X ∼ / N (µ, σ 2 ) (non normalité)
Si nous rangeons les valeurs de l’échantillon comme indiqué ci-dessus, soient X(i) ces valeurs
rangées, il suffit donc pour tester la normalité de la loi F de tester la linéarité de la relation
entre
 les X(i) et les zp(i) càd
H0 : linéarité (normalité)
H1 : non linéarité (non normalité)
La statistique de décision W de Shapiro-Wilk est donc définie comme le coefficient de
détermination entre les X(i) et les zp(i) c’est-à-dire
 2
W = rX(i) zp(i)

Loi sous H0 : W ∼ Wn de Shapiro-Wilk pour un échantillon d’effectif n.


Par symétrie de la loi normale, les scores normaux sont toujours de moyenne égale à 0. De plus,
pour simplifier les calculs, on choisit la normalisation
P suivante pour les scores normaux ai (voir
Table statistique 23.1 pour ces coefficients) : ni=1 a2i = 1. Cette normalisation ne modifiant
pas la valeur du coefficient de corrélation linéaire, on obtient ainsi la formule simplifiée suivante
pour la statistique de Shapiro-Wilk
Pn 2
i=1 X(i) ai
 2
W = rX(i) ai = Pn 2
i=1 (Xi − X)

La région critique pour un seuil α est constituée des valeurs de la statistique W inférieures à
la valeur critique wn;α lue dans la Table statistique 23.2, c’est-à-dire

RCα (Wn ) = {w | w ≤ wn;α }

Terminons par l’interprétation du diagramme Q-Q : si ce graphique présente une concavité vers
le haut (fonction convexe), la distribution est étalée vers la gauche, si par contre, le graphique

23
est concave, la distribution est étalée vers la droite. Il est également possible de détecter une
forme platykurtique ou leptokurtique (voir Annexe B).
Ce test est très puissant pour détecter des valeurs extrêmes et une dissymétrie de la loi.
Remarquons qu’il existe d’autres tests d’ajustement à une loi normale ; citons par exemple le
test de D’Agostino.

3.3 Test d’indépendance entre 2 variables catégorisées


Soit un échantillon d’effectif total n classé suivant 2 variables catégorisées prenant respec-
tivement l et c modalités. On dispose donc d’un tableau de contingence lP × c (l lignes et c
colonnes) d’effectifs conjoints njk (case (j, k)), d’effectifs marginaux nj• = ck=1 njk (ligne j)
et n•k = lj=1 njk (colonne k) et d’effectif total n = lj=1 ck=1 njk . Le test s’écrit
P P P

H0 : indépendance (φjk = φj• · φ•k , ∀ j = 1, · · · , l et ∀ k = 1, · · · , c)
H1 : négation de H0 (∃ j, ∃ k tels que φjk 6= φj• · φ•k )
où φjk est la fréquence théorique de la case (j, k), φj• la fréquence marginale de la ligne j et
φ•k la fréquence marginale de la colonne k.

3.3.1 Lorsque l > 2 ou c > 2,


n n
si l’effectif total n ≥ 50, tous les effectifs théoriques n∗jk = j•n •k sont ≥ 1 (j = 1, · · · , l
et k = 1, · · · , c) et au plus 20% des effectifs théoriques sont < 5, la statistique de décision de
Pearson, approximativement χ2(l−1)(c−1) sous H0 , est
l X c
2
2
X njk − n∗jk
χ = ∗
≈ χ2(l−1)(c−1) , χ2 à (l − 1)(c − 1) d.d.l.
j=1 k=1
n jk

Le calcul de cette statistique peut être effectué par la formule équivalente suivante
l X
c
2
X n2jk
χ = − n.
j=1 k=1
n∗jk
Si le résultat est significatif, on pourra préciser le sens et la force de la liaison par le calcul et
l’interprétation des taux de liaison, tjk (∀ j = 1, · · · , l et ∀ k = 1, · · · , c), définis par
njk − n∗jk
tjk = .
n∗jk

3.3.2 Lorsque l = 2 et c = 2 (tableau 2 × 2),


n n
si l’effectif total n ≥ 20 et au plus un des effectifs théoriques n∗jk = j•n •k est < 5 (j = 1, 2
et k = 1, 2), on peut utiliser la même statistique de décision que lorsque le tableau est plus
grand (de loi approximativement χ2 à un seul d.d.l. dans ce cas) ; néanmoins, on dispose d’une
formule plus simple pour le calcul de cette statistique de décision 20
n(n11 n22 − n12 n21 )2
χ2 = ≈ χ21 , χ2 à 1 d.d.l.
n1• n2• n•1 n•2
20. Vous trouverez également dans la littérature, une version corrigée de cette statistique de décision proposée
par Yates (appelée correction de continuité de Yates)Cette formule est la suivante
2
n(| n11 n22 − n12 n21 | −n/2)
χ2 = ≈ χ21 , χ2 à 1 d.d.l.
n1• n2• n•1 n•2

24
B. Deux échantillons en mesures répétées

0
3.4 Inférence sur deux fréquences φ et φ pour deux échantillons en
mesures répétées
Soient deux échantillons aléatoires i.i.d. appareillés d’effectif total n, classés suivant une
variable dichotomique (prenant deux modalités “Succès” et “Echec”). On dispose donc d’un
tableau 2 × 2 souvent présenté de la manière suivante
P
Ech. 1 \\ Ech. 2 : Echec | Succès ||
Succès || nSE | nSS || nS•
Echec || nEE | nES || nE•
P
|| n•E | n•S || n
0
Soient φ et φ les fréquences du “Succès” dans chacune des deux populations dont on a
extrait ces deux échantillons en mesures répétées. Le test de comparaison des fréquences du
“Succès” s’écrit  0
H0 : φ = φ
0
H1 : φ 6= φ
Si nSE + nES ≥ 10, la statistique de décision χ2 de Mc Nemar est

2 (nSE − nES )2
χ = ' χ21 , χ2 à 1 d.d.l.
nSE + nES
où nSE et nES sont les cases de désaccord (ou de discordance).
Ce test est une adaptation du test de comparaison d’une fréquence, la fréquence d’un des
deux désaccords (par exemple, SE) conditionnellement au désaccord (SE ou ES), à la norme
1/2. Ceci permet de définir une autre statistique de décision, équivalente au χ2 de Mc Nemar.
Cette statistique Z, de loi approximativement normale centrée réduite sous H0 si nSE + nES ≥
10, est donnée 21 par
nSE − nES
Z=√ ≈ N (0, 1)
nSE + nES
Cette autre version de ce test permet plus facilement de considérer une hypothèse alternative
0 0
orientée, de la forme H1 : φ < φ ou H1 : φ > φ ou encore d’effectuer le test avec peu de
données (nSE + nES < 10) à l’aide d’une statistique X ∼ Bi(nSE + nES , 1/2) (voir Section
3.1 Inférence sur une fréquence).

L’effet de cette correction de continuité est de réduire la valeur observée de la statistique χ2 . L’utilité de cette
correction fait l’objet de discussions multiples au sein de la communauté des statisticiens. Par exemple, Plackett
(The Continuity Correction in 2 × 2 Tables, Biometrika, 1964, vol. 51, p.327-337) a montré que cette correction
améliore l’approximation si les fréquences marginales nj. et n.k sont fixées et connues avant même le prélèvement
de l’échantillon, ce qui n’arrive jamais dans les applications. Camilli et Hopkins (Applicability of chi-square to
2 × 2 contingency tables with small expected frequencies, Psychological Bulletin, 1978, vol. 85, p. 163-167)
précisent même que la correction de continuité de Yates diminue la précision des énoncés probabilistiques et
conduit à une perte de puissance du test. C’est la raison pour laquelle nous préférons ne pas l’utiliser.
21. Notons que Z 2 ≡ χ2 .

25
C. Deux échantillons indépendants

3.5 Inférence sur deux fréquences φ1 et φ2 pour 2 échantillons indé-


pendants d’effectifs n1 et n2
Ce test, qui est encore appelé test d’homogénéité de deux échantillons indépendants pour
une variable dichotomique (prenant deux modalités “Succès” et “Echec”), s’écrit

H0 : φ1 = φ2
H1 : φ1 6= φ2 (ou φ1 < φ2 ou φ1 > φ2 )
où φ1 (respectivement φ2 ) est la fréquence du “Succès” dans la population dont est extrait
l’échantillon d’effectif n1 (respectivement n2 ).
Soient N = n1 + n2 l’effectif total des deux échantillons, Xj le nombre de “Succès” dans
l’échantillon d’effectif nj (j = 1, 2), fj = Xj /nj la fréquence de “Succès” dans l’échantillon j
(j = 1, 2) et f = (X1 + X2 )/(n1 + n2 ) la fréquence marginale de “Succès”.
Si l’effectif total N = n1 + n2 est ≥ 20, si tous les effectifs théoriques (sous H0 ) f nj et
(1 − f )nj (pour j = 1, 2) sont ≥ 1 et au maximum l’un d’entre eux est < 5, on montre (par le
Théorème Central-Limite) que la statistique
(f1 − f2 ) − (φ1 − φ2 )
q ≈ N (0, 1).
f1 (1−f1 ) f2 (1−f2 )
n1
+ n2

La statistique de décision 22 pour le test est


(f1 − f2 )
Z=r   ≈ N (0, 1) sous H0 .
f (1 − f ) n11 + 1
n2

Si le nombre de succès (Xj ) et le nombre d’échecs (nj −Xj ) dans les deux échantillons (j = 1, 2)
sont ≥ 10, l’intervalle de confiance pour la différence des fréquences φ1 − φ2 au niveau 1 − α,
IC1−α (φ1 − φ2 ), est donné par
s
f1 (1 − f1 ) f2 (1 − f2 )
IC1−α (φ1 − φ2 ) = (f1 − f2 ) ± z1−α/2 + ou (f1 − f2 ) ± z1−α/2 · S(f1 −f2 )
n1 n2
22. Puisque sous H0 , φ1 = φ2 , on a remplacé la différence φ1 − φ2 par la valeur 0 dans la formule de cette
statistique de décision ; de plus, sous H0 , on peut estimer φ1 = φ2 par l’estimateur marginal f . D’autres
statistiques sont parfois utilisées, citons
0 (f1 − f2 )
Z =q ≈ N (0, 1) sous H0
f1 (1−f1 ) f2 (1−f2 )
n1 + n2

équivalente au résultat donné par l’IC1−α (φ1 − φ2 ) et


 
1 1 1
00
(f1 − f 2 ) ± 2 n1 + n2
Z = r   ≈ N (0, 1) sous H0
1 1
f (1 − f ) n1 + n2

qui intègre la correction de continuité de Yates.


La formule que nous avons proposée, mise en oeuvre par la plupart des logiciels statistiques, a l’avantage de se
généraliser aux cas où le nombre d’échantillons et/ou le nombre de modalités de la variables catégorisée est plus
élevé (voir plus loin).

26
q
où S(f1 −f2 ) désigne l’erreur-type de la différence de fréquences, S(f1 −f2 ) = f1 (1−f
n1
1)
+ f2 (1−f
n2
2)
.
Pour l’alternative bilatérale H1 : φ1 6= φ2 , on peut également utiliser (sous les mêmes
conditions que ci-dessus) la statistique de décision 23 de loi approximativement χ21 sous H0 ,

N (X1 n2 − X2 n1 )2
χ2 = ≈ χ21 , χ2 à 1 d.d.l.
n1 n2 (X1 + X2 ) (n1 + n2 − (X1 + X2 ))
Rhoades et Overall (1982) 24 ont proposé une formule corrigée pour le calcul de cette statis-
tique de décision

2 (N − 1)(X1 n2 − X2 n1 )2
χ = ≈ χ21 , χ2 à 1 d.d.l.
n1 n2 (X1 + X2 ) (n1 + n2 − (X1 + X2 ))

3.6 Test d’homogénéité de 2 échantillons indépendants suivant une


variable catégorisée à plus de deux modalités
Soient 2 échantillons indépendants d’effectifs n1 et n2 classés suivant une variable catégorisée
A prenant l modalités différentes (A1 , A2 , · · · , Al ). Soit φjk la fréquence de la modalité Aj dans la
population correspondant à l’échantillon k (avec j = 1, · · · , l et k = 1, 2). Le test d’homogénéité
des 2 échantillons indépendants suivant la variable catégorisée A s’écrit

H0 : homogénéité des 2 échantillons (∀ j = 1, · · · , l, φj1 = φj2 )
H1 : négation de H0 (∃ j ∈ {1, · · · , l} tel que φj1 6= φj2 )

Soient N = n1 + n2 l’effectif total des 2 échantillons, njk l’effectif de la modalité Aj dans


l’échantillon k (d’effectif nk ) et nj• l’effectif marginal de la modalité Aj (pour les 2 échantillons
réunis). On calcule les effectifs théoriques n∗jk (sous H0 ) de chacune des 2l cases (j, k) de ce
n n
tableau d’homogénéité 25 comme n∗jk = j•N k (pour j = 1, · · · , l et k = 1, 2). Si tous les effectifs
théoriques n∗jk sont ≥ 1 et pas plus de 20% de ces effectifs théoriques ne sont < 5, la statistique
de décision χ2 et sa loi approximative sous H0 sont
l X 2
2
2
X njk − n∗jk
χ = ≈ χ2l−1 , χ2 à l − 1 d.d.l.
j=1 k=1
n∗jk

On pourra éventuellement utiliser la formule de calcul suivante


l X
2
2
X n2jk
χ = −N
j=1 k=1
n∗jk

23. Cette statistique est équivalente à celle du Z ∼ N (0, 1) donnée précédemment mais elle ne permet pas de
considérer une alternative unilatérale, ni de construire un intervalle de confiance pour la différence des fréquences
φ1 −φ2 . Pour le calcul de la valeur observée de cette statistique de décision, on peut également utiliser la formule
(équivalente mais plus classique) donnée ci-dessous pour le test d’homogénéité de 2 échantillons indépendants
suivant une variable catégorisée à plus de deux modalités (voir Section 3.6).
24. Rhoades, H.M., Overall, J.E., A Sample Size Correction for Pearson chi-square in 2 × 2 Contingency
Tables, Psychological Bulletin, vol. 91, 1982, p. 418-423.
25. On remarquera que le calcul des effectifs théoriques d’un tableau d’homogénéité est identique à celui des
effectifs théoriques d’un tableau de contingence pour le test d’indépendance entre deux variables catégorisées
(voir Section 3.3). Toutefois, les principes sous-jacents sont très différents ; par exemple, ici nous avons 2
échantillons d’effectifs connus dès le départ et non un seul échantillon.

27
Si ce test conduit au rejet de H0 , on peut essayer de localiser les différences en comparant
pour chacune des modalités Aj , les fréquences de cette modalité au sein des deux populations
dont sont issus les échantillons (pour un j fixé, H0 : φj1 = φj2 ). Ces différentes comparaisons
se ramènent à une inférence sur deux fréquences pour deux échantillons indépendants (voir
Section 3.5) 26 .

3.7 Test de Kolmogorov-Smirnov pour l’identité de deux distribu-


tions
Soient X1 , X2 , ..., Xn1 et Y1 , Y2 , ..., Yn2 deux échantillons de aléatoires i.i.d. suivant les
lois de probabilité (continues) de fonctions de répartition inconnues F (u) et G(u) (c’est-à-
dire F (u) = P (X ≤ u) et G(u) = P (Y ≤ u), ∀ u ∈ IR ). Le test de comparaison des deux
distributions F et G (dans les populations dont on a extrait ces deux échantillons aléatoires)
s’écrit 
H0 : ∀ u ∈ IR , F (u) = G(u)
H1 : négation de H0 (∃ u ∈ IR tel que F (u) 6= G(u))
La statistique KS de décision de Kolmogorov-Smirnov est la distance maximale (ou encore
écart absolu maximal) entre les fonctions de répartition empiriques des deux échantillons, F̂ (u)
et Ĝ(u) (pour la définition de ces fonctions de répartition empiriques, voir Section 3.2.3)
définie comme suit

KS = maxu∈IR | F̂ (u) − Ĝ(u) |∼ KSn1 ,n2 , KS de Kolmogorov-Smirnov

pour deux échantillons d’effectifs n1 et n2 respectivement.


Les quantiles de la statistique de Kolmogorov-Smirnov sont tabulés pour certaines valeurs
des effectifs n1 et n2 ; pour d’autres valeurs n1 et n2 , on utilisera des valeurs approchées (voir
Table statistique 17).
Il est également possible de considérer les alternatives unilatérales H1 : ∃ u ∈ IR , F (u) >
G(u) ou H1 : ∃ u ∈ IR , F (u) < G(u). Pour de telles alternatives, on procède de la même
manière que ci-dessus mais on utilise les tables unilatérales pour la détermination de la valeur
critique (voir Table statistique 17) et on n’oublie pas de vérifier que le sens de la différence
correspond bien à l’alternative considérée.
Remarquons que le test de Kolmogorov-Smirnov est une alternative intéressante au test
classique pour la comparaison de deux moyennes (échantillons indépendants) lorsque les distri-
butions parentes ne sont pas normales (voir Section 5.2).

26. Il est important de remarquer que la multiplication des tests augmente la probabilité globale de l’erreur
de type I, c’est-à-dire le seuil du test. Il sera donc beaucoup plus judicieux si l’analyse est motivée par une
question précise, de se restreindre à une seule comparaison répondant à cette question, plutôt que de procéder
à une analyse statistique aveugle englobant toutes les comparaisons possibles.

28
D. Plus de deux échantillons indépendants

3.8 Homogénéité de c > 2 échantillons indépendants


3.8.1 suivant une variable catégorisée à plus de deux modalités
Soient c échantillons indépendants d’effectifs n1 , n2 ,...,nc , classés suivant une variable catégorisée
A prenant l modalités différentes (A1 , A2 , · · · , Al ). Soit φjk la fréquence de la modalité Aj dans
la population correspondant à l’échantillon k (avec j = 1, · · · , l et k = 1, · · · , c). Le test d’ho-
mogénéité des c échantillons indépendants suivant la variable catégorisée A s’écrit

H0 : homogénéité des c échantillons (∀ j = 1, · · · , l, φj1 = φj2 = · · · = φjc )
H1 : négation de H0
Pc
Soient N = k=1 nk l’effectif total des c échantillons, njk l’effectif de la modalité Aj dans
l’échantillon k (d’effectif nk ) et nj• l’effectif marginal de la modalité Aj (pour les c échantillons
réunis). On calcule les effectifs théoriques n∗jk (sous H0 ) de chacune des cases (j, k) de ce tableau
n n
d’homogénéité 27 comme n∗jk = j•N k (pour j = 1, · · · , l et k = 1, · · · , c). Si tous les effectifs
théoriques n∗jk sont ≥ 1 et pas plus de 20% de ces effectifs théoriques ne sont < 5, la statistique
de décision χ2 et sa loi approximative sous H0 sont
l X c
2
2
X njk − n∗jk
χ = ∗
≈ χ2(l−1)(c−1) , χ2 à (l − 1)(c − 1) d.d.l.
j=1 k=1
n jk

Si ce test conduit au rejet de H0 , on peut essayer de localiser les différences en comparant pour
chacune des modalités Aj , les fréquences de cette modalité au sein des différentes populations
(dont sont issus les échantillons), prises deux à deux (par exemple, pour un j fixé, H0 : φj1 =
φj3 ). Ces différentes comparaisons se ramènent à une inférence sur deux fréquences pour deux
échantillons indépendants (voir Section 3.5) 28 .

3.8.2 suivant une variable dichotomique (prenant 2 modalités)


Soient c échantillons indépendants d’effectifs n1 , n2 ,...,nc , classés suivant une variable dicho-
tomique A (prenant 2 modalités différentes A1 et A2 ). Soit φk la fréquence de la modalité A1
dans la population correspondant à l’échantillon k (avec k = 1, · · · , c). Le test d’homogénéité
des c échantillons indépendants suivant la variable dichotomique A s’écrit donc 29

H0 : homogénéité des c échantillons (φ1 = φ2 = · · · = φc )
H1 : négation de H0 (∃ k1 , k2 tels que φk1 6= φk2 )
Le traitement statistique s’effectue de la même manière que ci-dessus ; si les conditions d’ap-
plication sont vérifiées, la statistique suit donc approximativement sous H0 la loi χ2 à (c − 1)
degrés de liberté.
27. On remarquera que le calcul des effectifs théoriques d’un tableau d’homogénéité est identique à celui des
effectifs théoriques d’un tableau de contingence pour le test d’indépendance entre deux variables catégorisées
(voir Section 3.3). Toutefois, les principes sous-jacents sont très différents ; par exemple, ici nous avons c
échantillons d’effectifs connus dès le départ et non un seul échantillon.
28. Il est important de remarquer que la multiplication des tests augmente la probabilité globale de l’erreur
de type I, c’est-à-dire le seuil du test. Il sera donc beaucoup plus judicieux si l’analyse est motivée par une
question précise, de se restreindre à une seule comparaison répondant à cette question, plutôt que de procéder
à une analyse statistique aveugle englobant toutes les comparaisons possibles.
29. Notons que puisque la variable est dichotomique, il suffit de considérer la fréquence d’une seule des deux
modalités.

29
4 INFERENCE SUR LES VARIANCES
4.1 Inférence sur une variance

H0 : σ 2 = σ02
H1 : σ2 =6 σ02 (ou σ 2 < σ02 ou σ 2 > σ02 )
Si la population parente est normale (ou si l’effectif de l’échantillon est grand, n ≥ 60), la
statistique de décision 30 est
(n − 1)S 2 SCE
χ2 = 2
= = χ2n−1 ∼ χ2 à n − 1 degrés de liberté sous H0
σ0 σ02
et l’intervalle de confiance pour σ 2 au niveau de confiance 1 − α, IC1−α (σ 2 ), est donné par
! !
2 2
(n − 1)S (n − 1)S SCE SCE
IC1−α (σ 2 ) = , = ,
χ2n−1,1−α/2 χ2n−1,α/2 χ2n−1,1−α/2 χ2n−1,α/2

où S 2 est l’estimateur sans biais de la variance σ 2 et SCE la somme des carrés d’écarts à la
moyenne.

4.2 Inférence sur deux variances (échantillons indépendants)


Il s’agit du test d’homogénéité des variances de deux échantillons indépendants, encore
appelé test de l’homoscédasticité des deux échantillons,

H0 : σ12 = σ22
H1 : σ12 6= σ22 (ou σ12 < σ22 ou σ12 > σ22 ).

4.2.1 Test “classique” F


Si les populations parentes sont normales (ou si les effectifs des échantillons sont grands, n1
et n2 ≥ 60), la statistique 31 de décision “classique” F et sa loi sous H0 sont

S12
F = 2 = Fn1 −1,n2 −1 ∼ F de Fisher à (n1 − 1, n2 − 1) degrés de liberté 32
S2
où Sj2 est l’estimateur sans biais de la variance σj2 de l’échantillon de taille nj (j = 1, 2).
30. Sinon (population parente non normale et effectif n < 60) on utilisera une méthode statistique non
paramétrique de type “Jackknife” ou “Bootstrap” (voir Sprent pages 234-240). Cette remarque est valable pour
l’ensemble de ce chapitre relatif à l’inférence sur les variances. Il faut insister sur le fait que la condition de
normalité est relativement stricte pour les méthodes relatives à la dispersion, même dans le cas d’échantillons
d’effectifs assez importants, contrairement notamment à ce qui se passe pour l’étude des moyennes.
31. En raison de la grande variabilité des distributions d’échantillonnage des variances, ce test est très peu
puissant surtout pour des échantillons d’effectifs réduits. De plus, la distribution de cette statistique F est gra-
vement influencée par l’anormalité des données. Nous conseillerons donc l’utilisation de méthodes alternatives,
telles que le test de ou le test de O’Brien (exposés ci-dessous), tests plus robustes en pratique.
32. Remarquons que le quantile p de la loi F à (n1 − 1, n2 − 1) degrés de liberté est l’inverse du quantile
d’ordre 1 − p de la loi F à (n2 − 1, n1 − 1) degrés de liberté, c’est-à-dire
1
Fn1 −1,n2 −1,p =
Fn2 −1,n1 −1,1−p

30
4.2.2 Test de Levene
Le test de Levene 33 a pour principe de calculer, séparément pour les deux échantillons, les
écarts par rapport aux moyennes, et de soumettre les valeurs absolues de ces écarts, Dij =|
Xij −X j | (j = 1, 2, i = 1, · · · , nj ), à un test de comparaison de deux moyennes pour échantillons
indépendants. L’hypothèse H0 testée d’égalité des deux moyennes des valeurs absolues des écarts
est alors considérée comme équivalente à l’hypothèse d’égalité des deux variances.
Les hypothèses s’écrivent donc

H0 : µD1 = µD2
H1 : µD1 6= µD2

où les moyennes µDj sont définies par µDj = E[Dij ] pour j = 1, 2 et la statistique utilisée est
de loi tn1 +n2 −2 (voir Chapitre 5).

4.2.3 Test de O’Brien


Le test de O’Brien est une variante du test de Levene pour laquelle les écarts Dij sont
0
remplacés par une valeur transformée, que nous noterons Dij , définie par

2
0 (nj − 1.5)nj (Xij − X j ) − 0.5Sj2 (nj − 1)
Dij =
(nj − 1)(nj − 2)
0
puis à effectuer l’analyse comme pour le test de Levene avec µD0 = E[Dij ].
j

4.3 Test de Pitman-Morgan (échantillons appariés)


Le test de Pitman-Morgan 34 permet de comparer les variances de deux échantillons ap-
pariés, X1i et X2i , i = 1, · · · , n, (ou mesures répétées sur les mêmes individus) sous l’hypthèse
de normalité bivariée des couples de v.a. soit le modèle  2 
σ1 σ12
Hm : (X1i , X2i ) i.i.d. ∼ N2 ((µ1 , µ2 ), Σ) avec la matrice de variance-covariance Σ =
σ12 σ22
où σ12 désigne la variance de X1 , σ22 la variance de X2 et σ12 la covariance entre X1 et X2 .
Les hypothèses s’écrivent donc

H0 : σ12 = σ22
H1 : σ12 6= σ22

33. Levene, H. (1960). In Contributions to Probability and Statistics : Essays in Honor of Harold Hotelling,
I. Olkin et al. eds., Stanford University Press, pp. 278-292. Une variante de ce test a été proposée par Brown et
Forsythe (Brown, M. B. and Forsythe, A. B. (1974), Journal of the American Statistical Association, 69, 364-
367) ; il s’agit de remplacer la moyenne X j de l’échantillon j, dans le calcul des écarts, par la médiane de cet
échantillon X̃j , donc Dij =| Xij − X̃j |. Ils ont montré que l’emploi de la médiane fournit un test plus puissant
pour des distributions asymétriques alors que l’emploi de la moyenne donne une meilleure puissance pour des
distributions symétriques et mésokurtiques (comme la loi normale, voir Annexe B). Même si le choix optimal
dépend de la forme des distributions, la définition basée sur la médiane semble le meilleur choix, c’est-à-dire le
choix le plus robuste pour beaucoup de distributions, tout en conservant une bonne puissance.
34. Morgan, W.A. (1939). A test for the significance of the difference between two variances in a sample
from a normal bivariate distribution. Biometrika, 31, 13-19. et Pitman, E.J.G. A note on normal correlation.
Biometrika, 31, 9-12. Ce test est peu robuste par rapport à l’hypothèse de binormalité.

31
S12
Soient F = le rapport entre les deux variances Sj2 (j = 1, 2 ou l’inverse) et R12 le coefficient
S22
de corrélation linéaire entre les v.a. X1 et X2 (voir Section 2.2). La statistique de décision T
est définie par √
(F − 1) n − 2
T = p
2
.
2 1 − R12
Sous H0 : T ∼ tn−2 , t de Student avec n − 2 d.d.l.

4.4 Inférence sur plusieurs variances (échantillons indépendants)


Il s’agit du test d’homogénéité des variances de plusieurs échantillons indépendants, appelé
test de l’homoscédasticité de plusieurs échantillons (K ≥ 2),

H0 : σ12 = σ22 = · · · = σK
2

H1 : négation de H0 .

4.4.1 Test de Bartlett


Si les K populations parentes sont normales, les effectifs nj (j = 1, 2, · · · , K) des K
échantillons sont ≥ 4 et le nombre de variances K n’est pas trop élevé par rapport aux ef-
fectifs nj , la statistique de décision de Bartlett
PK
B = (N − K) · ln(S ∗2 ) − j=1 (nj − 1) · ln(Sj2 ) ou
P 
1 K 1 1
BC = B/C avec C =1 + 3(K−1) j=1 nj −1 − N −K

2 35
suit approximativementPK une loi2χ à K − 1 degrés de liberté où N est l’effectif 2
total des K
échantillons (N = j=1 nj ), Sj est l’estimateur sans biais de la variance σj de l’échantillon
d’effectif nj (j = 1, 2, · · · , K) et S ∗2 est l’estimateur sans biais de la variance commune σ12 =
2
σ22 = · · · = σK = σ 2 , c’est-à-dire
K
∗2 1 X
S = (nj − 1)Sj2
N − K j=1

4.4.2 Test de Hartley (ou Fmax )


Lorsque les K échantillons ont même effectif (n1 = · · · = nK = n ≥ 5) et les K populations
parentes sont normales, on peut utiliser la statistique Fmax de Hartley

maxj Sj2 (K)


Fmax = ∼ Fmax,ν de Hartley
minj Sj2

où maxj Sj2 et minj Sj2 sont respectivement la plus grande et la plus petite des K variances
calculées (S12 , ..., Sj2 , ..., SK
2
), ν = n − 1 est le nombre de degrés de liberté de chacune des K
2
variances Sj et K est le nombre de variances à comparer (voir Table Statistique 6).

35. Le dénominateur dans la formule corrigée BC étant toujours supérieur à 1, il ne doit être calculé que
lorsque la valeur de B est supérieure au quantile χ2K−1,1−α .

32
4.4.3 Test de Levene
Le test de Levene 36 a pour principe de calculer, séparément pour les différents échantillons,
les écarts par rapport aux moyennes, et de soumettre les valeurs absolues de ces écarts, Dij =|
Xij − X j | (j = 1, · · · , K, i = 1, · · · , nj ), à l’analyse de la variance à un facteur, plan S <
GK >. L’hypothèse H0 d’égalité des moyennes des valeurs absolues des écarts, µDj = E[Dij ]
(j = 1, · · · , K), hypothèse testée par l’analyse de la variance, est alors considérée comme
équivalente à l’hypothèse d’égalité des variances.
Cette méthode, qui est à différents égards approchée 37 , a l’avantage d’être en pratique plus
robuste que les tests de Bartlett et de Hartley.

4.5 Sphéricité d’une matrice de variance-covariance


Dans le cadre de l’analyse de variance en mesures répétées sur les mêmes sujets, plan Sn ∗ Tp
(échantillons appariés ou structure de croisement), les hypothèses nécessaires pour l’applica-
tion de la méthode statistique paramétrique basée sur des statistiques F de Fisher-Snédécor
(voir par exemple Sections 6.2, 6.4 et 6.5) portent, entre autres, sur la matrice de variance-
covariance des variables dépendantes. Nous allons préciser ces hypothèses et montrer comment
il est possible de les mettre à l’épreuve.
Soit Xij la v.a. correspondant à la donnée du ième sujet lors du jème traitement. Pour
chaque sujet i = 1, · · · , n, on considère le vecteur aléatoire (ve.a.) Xi des p variables aléatoires
correspondant aux différents traitements (j = 1, · · · , p), appelé vecteur-profil
 
Xi1
 Xi2 
 .. 
.
 
Xi = 
 
 Xij


 .
 ..


Xip
On suppose que les n ve.a. X1 , X2 , · · · , Xi , · · · , Xn , constituent un échantillon aléatoire
de vecteurs indépendants et identiquement distribués (i.i.d.) suivant la loi normale multivariée
de moyenne théorique (ou espérance mathématique) µ et de matrice de variance-covariance Σ,
c’est-à-dire Xi ∼ Np (µ, Σ), ∀ i = 1, · · · , n ; rappelons (voir Chapitre 2) que le vecteur moyen
 
µ1
 µ2 
 .. 
.
 
µ=
 
µj

 
 .. 
 . 
µp
avec µj = E(Xij ), l’espérance de la jème composante des n vecteurs-profils (i = 1, · · · , n et
j = 1, · · · , p) et la matrice de variance-covariance (symétrique)
36. Voir également Section 4.2.2.
37. Le caractère approché de la méthode provient du fait que, d’une part, les écarts par rapport aux moyennes
ne sont pas indépendants les uns des autres, en particulier dans le cas de très petits échantillons, et d’autre
part, les valeurs absolues des écarts ne possèdent pas elles-mêmes, des distributions normales, ce que suppose
cependant l’analyse de la variance.

33
σ12 σ12 · · · σ1j · · · σ1k
 
··· σ1p
 σ21 σ22 · · · σ2j · · · σ2k ··· σ2p 
.. ... .. ..
 
. . .
 
 
σj1 σj2 · · · σj2 · · · σjk ··· σjp
 
 
Σ= .. .. .. .. 

 . . . . 


 σk1 σk2 · · · σkj · · · σk2 · · · σkp 

 .. .. .. .. .. 
 . . . . . 
σp1 σp2 · · · σpj · · · σpk · · · σp2
avec σjk la covariance (théorique) entre les composantes j et k (Xij et Xik ) de chacun des n
vecteurs-profils (∀ i = 1, · · · , n), ∀ j 6= k, et σj2 la variance (théorique) de la jème composante
Xij de chacun de ces n vecteurs-profils (∀ i = 1, · · · , n). De plus, l’analyse de variance pourra
s’effectuer à l’aide de statistiques de décision F de Fisher-Snédécor si et seulement si la matrice
de variance-covariance du vecteur-profil Σ satisfait la condition de circularité ou sphéricité.
Cette condition est définie ci-dessous.
– La matrice de variance-covariance du vecteur-profil Σ est une matrice circulaire (encore
appelée matrice de type H) si et seulement si la variance de la différence Xij − Xik entre
deux composantes quelconques j et k des vecteurs-profils Xi est une constante, soit 2γ.
Il s’agit de la condition de sphéricité ou encore de circularité de la matrice de variance-
covariance du vecteur-profil Σ.
Cette condition s’écrit de manière plus explicite en introduisant la matrice C d’ordre p × (p − 1)
dont les p − 1 colonnes correspondent à p − 1 contrastes orthonormés, c’est-à-dire orthogonaux
et de norme 38 1
 
1/c1 1/c2 · · · 1/ci · · · 1/cp−1
 −1/c1 1/c2 · · · 1/ci · · · 1/cp−1 
 
 0
 −2/c2 · · · 1/ci · · · 1/cp−1 

 0 0 · · · 1/c i · · · 1/c p−1

. .
 
C=  .. .. −i/ci · · · 1/cp−1


 .
. .
.


 . . 0 1/c p−1


 .. .. .. .. 
 . . . . 
0 0 ··· 0 · · · −(p − 1)/cp−1
p
avec ci = i(i + 1), ∀ i = 1, · · · , p − 1. On vérifie en effet que la somme des produits des
coefficients de deux colonnes différentes quelconques de la matrice C est toujours égal à 0 et
que la somme des carrés des coefficients d’une même colonne quelconque est toujours égal à 1.
– La matrice de variance-covariance du vecteur-profil Σ est une matrice circulaire si et
0 0
seulement si la matrice de variance-covariance C · Σ · C du vecteur transformé Y = C · X
(de dimension p − 1) satisfait la relation
0
C · Σ · C = γ · Ip−1

où γ est la constante positive définie ci-dessus et Ip−1 est la matrice unité d’ordre p − 1.
Cette relation exprime que les composantes du vecteur aléatoire Y sont indépendantes et
de même variance γ.
38. Les contrastes orthogonaux sont définis au Chapitre 7 relatif à la méthode des contrastes ; un contraste
est de norme 1 si la somme des carrés de ses coefficients cj est égale à 1.

34
Le test préliminaire à la mise en oeuvre d’une analyse de variance en mesures répétées à
l’aide de statistiques de décision F de Fisher-Snédécor est donc le suivant

H0 : La matrice Σ est circulaire (ou de type H)
H1 : La matrice Σ n’est pas circulaire
ou encore  0
H0 : La matrice C · Σ · C = γ · Ip−1 avec γ > 0
H1 : Négation de H0 .
La statistique de décision M de Mauchly est définie par
( )( !)
2(p − 1)2 + p + 1 tr S̃
M = − (n − 1) − ln S̃ − (p − 1) ln

6(p − 1) p−1

où
0
– S̃ = C · S · C est la matrice carrée (et symétrique) d’ordre (p − 1) × (p − 1) calculée à
partir de S, l’estimateur sans biais de la matrice de variance-covariance théorique Σ (voir
Chapitre
2),
– S̃ est le déterminant de la matrice S̃ et

– tr S̃ est la trace de la matrice S̃ (voir annexe relative à l’algèbre linéaire).


Lorsque n est suffisamment grand, la statistique de Mauchly suit approximativement la loi
du χ2 avec (p − 2)(p + 1)/2 d.d.l. ; plus précisément, au seuil α, on rejette l’hypothèse H0 de
circularité de la matrice de variance-covariance Σ si la valeur observée de la statistique de
Mauchly, Mobs , appartient à la région critique R.C.α (M ) donnée par

R.C.α (M ) = m | m > χ2(p−2)(p+1)/2,1−α




où χ2(p−2)(p+1)/2,1−α est le quantile d’ordre 1 − α à gauche du χ2 avec un d.d.l. égal à (p − 2)(p +
1)/2. Dans le cas contraire, on ne rejette pas l’hypothèse de circularité et on peut donc mettre
en oeuvre une analyse de variance paramétrique basée sur des statistiques de décision F de
Fisher-Snédécor.

4.6 Homogénéité de plusieurs matrices de variance-covariance


Considérons le modèle de l’analyse de variance à deux facteurs, le facteur G définissant K
groupes indépendants de n sujets (structure d’emboı̂tement) et le facteur A correspondant aux
p modalités d’un traitement en mesures répétées (structure de croisement). Le plan complet
est donc équilibré et s’écrit Sn < GK > ∗Tp (voir Section 6.5). Les hypothèses nécessaires
pour l’application de la méthode paramétrique basée sur des statistiques F de Fisher-Snédécor
portent sur la normalité des échantillons, sur l’homogénéité des matrices de variance-covariance
des différents échantillons et sur la circularité de ces différentes matrices. Nous allons préciser
ces hypothèses et donner les statistiques de décision à utiliser pour les mettre à l’épreuve.
Soit Xijk la v.a. correspondant à la donnée du ième sujet (i = 1, · · · , n) lors du jème
traitement (j = 1, · · · , p) dans le groupe k (k = 1, · · · , K). Il est important de remarquer
que nous avons N = nK sujets différents répartis de manière égale entre les K groupes. Soit
k un groupe fixé parmi les K groupes (k = 1, · · · , K) ; on considère, pour chaque sujet i
(i = 1, · · · , n), le ve.a. des p variables correspondant aux différents traitements (j = 1, · · · , p),
appelé vecteur-profil de ce sujet i du groupe k,

35
 
Xi1k
 Xi2k 
 .. 
.
 
Xik = 
 
 Xijk


 .
 ..


Xipk
On suppose que, dans chaque groupe k = 1, · · · , K, les ve.a. X1k , · · · , Xik , · · · , Xnk , constituent
un échantillon aléatoire de vecteurs indépendants et identiquement distribués suivant la loi
normale de moyenne µk et de matrice de variance-covariance Σk , c’est-à-dire Xik ∼ Np (µk , Σk ),
∀ i = 1, · · · , n.
Le test préliminaire à la mise en oeuvre d’une analyse de variance en mesures répétées à
l’aide de statistiques de décision F de Fisher-Snédécor est donc le suivant

H0 : Les matrices Σk sont homogènes et circulaires
H1 : Négation de H0 .

ou encore si on utilise la matrice C d’ordre p × (p − 1) des p − 1 contrastes orthonormés définie


dans la section précédente
 0 0
H0 : Les matrices C · Σ1 · C = · · · = C · ΣK · C = γ · Ip−1 avec γ > 0
H1 : Négation de H0 .

Ce test s’effectue en deux étapes, la première portant sur l’homogénéité des matrices de
variance-covariance des différents groupes et la seconde sur la circularité de ces matrices (sup-
posées homogènes).
1. Homogénéité des matrices Σk . L’hypothèse d’homogénéité des K matrices de variance-
covariance se traduit de la manière suivante
(
(1) 0 0 0
H0 : C · Σ1 · C = C · Σ2 · C = · · · = C · ΣK · C
(1) (1)
H1 : Négation de H0 .

Pour construire la statistique de décision, on commence par estimer séparément chacune des
K matrices Σk par son estimateur sans biais Sk . On construit ensuite les matrices transformées,
0
d’ordre (p − 1) × (p − 1), S̃k = C · Sk · C et l’estimateur global (si les matrices sont homogènes)
est la matrice pondérée S̃ définie par
K
1 X
S̃ = S̃k
K k=1

La statistique de décision est H = (1 − C)K où K et C sont définis ci-dessous

K
X
K = (N − K) ln S̃ − (n − 1) ln S̃k

k=1
2
 
2p − p − 2 K 1
C = · −
6p(K − 1) n−1 N −K

36
(1)
Sous H0 , cette statistique suit approximativement la loi χ2 avec un d.d.l. égal à p(p − 1)(K −
1)/2. La région critique au seuil α s’écrit

R.C.α (H) = h | h > χ2p(p−1)(K−1)/2,1−α




(1)
Si on ne peut pas rejeter H0 , on peut ensuite mettre à l’épreuve l’hypothèse de circularité de
ces matrices supposées homogènes.
2. Circularité ou sphéricité des matrices Σk . Soit Σ la matrice de variance-
covariance commune aux K groupes (par la première étape du test). Nous devons à présent
(2)
vérifier que cette matrice est circulaire c’est-à-dire mettre à l’épreuve l’hypothèse H0 suivante
(
(2) 0
H0 : C · Σ · C = γ · Ip−1 avec γ > 0
(2) (2)
H1 : Négation de H0 .

La statistique de décision est une adaptation de la statistique de Mauchly donnée dans la


section précédente
( )( !)
2(p − 1)2 + p + 1 tr S̃
M = − (N − K) − ln S̃ − (p − 1) ln

6(p − 1) p−1

suivant approximativement la loi du χ2 avec un d.d.l. égal à (p − 2)(p + 1)/2. La région critique
est identique à celle donnée pour un seul échantillon (voir Section 4.4). Si on ne peut pas
(2)
rejeter H0 , il est donc possible d’effectuer une analyse de variance paramétrique basée sur les
statistiques F de Fisher-Snédécor pour le plan Sn < GK > ∗Tp .

37
5 INFERENCE SUR LES MOYENNES
5.1 Inférence sur une moyenne µ
Soit un échantillon de v.a. i.i.d., Xi , i = 1, · · · , n, d’espérance µ = E(Xi ) et de variance
σ 2 = V ar(Xi ). On considère le test sur l’espérance µ

H0 : µ = µ0
H1 : µ 6= µ0 (ou µ < µ0 ou µ > µ0 )

5.1.1 Si la population parente est normale de variance σ 2 connue (cas théorique),


la statistique de décision est

X (n) − µ0
√ = Z ∼ N (0, 1) sous H0
σ/ n

et l’intervalle de confiance pour µ au niveau de confiance 1 − α, IC1−α (µ), est donné par
   
σ σ σ
IC1−α (µ) = X (n) − z1−α/2 · √ , X (n) + z1−α/2 · √ ou X (n) ± z1−α/2 · √
n n n

5.1.2 Si la variance σ 2 est inconnue et l’effectif de l’échantillon est petit (n < 60),
on suppose Hm : Xi i.i.d. ∼ N (µ, σ 2 ), i = 1, · · · , n.
La statistique de décision T et sa loi sous H0 sont

X (n) − µ0 X (n) − µ0
T = √ = ∼ tn−1 , t de Student à n − 1 degrés de liberté
S/ n SX (n)

1
Pn 2 SCE
où S 2 = n−1 2
i=1 (Xi − X (n) ) = n−1 est l’estimateur sans biais de la variance σ et SX (n)
désigne l’écart-type de la moyenne arithmétique X (n) , appelé erreur-type de la moyenne X (n) .

L’intervalle de confiance pour µ au niveau de confiance 1 − α, IC1−α (µ), est donné par
 
S S  
IC1−α (µ) = X (n) − tn−1,1−α/2 · √ , X (n) + tn−1,1−α/2 · √ ou X (n) ± tn−1,1−α/2 · SX (n) .
n n

5.1.3 Si l’effectif de l’échantillon est grand (n ≥ 60),


quelle que soit la distribution de la population parente 39 , on peut utiliser la statistique de
décision de loi approximative 40 sous H0
39. Lorsque la population parente n’est pas normale, certaines conditions d’application doivent néanmoins
être remplies (existence des moments d’ordres 1 et 2) et il est important de s’interroger sur la signification réelle
de la comparaison de la moyenne à une norme. Par contre, lorsque la population parente est normale, ce test
est toujours applicable et la distribution exacte de la statistique de décision est un t de Student à n − 1 degrés
de liberté mais, comme la loi t de Student à n − 1 degrés de liberté tend vers la loi normale centrée réduite
N (0, 1) lorsque n tend vers +∞, on admet l’approximation normale du t de Student pour n ≥ 60.
40. Certains auteurs acceptent cette approximation normale pour des effectifs plus faibles, à partir de n ≥ 30.

38
X (n) − µ0 X (n) − µ0
√ = ≈ Z ∼ N (0, 1)
S/ n SX (n)
et l’intervalle de confiance pour µ au niveau de confiance 1 − α, IC1−α (µ),
 
S S  
IC1−α (µ) = X (n) − z1−α/2 · √ , X (n) + z1−α/2 · √ ou X (n) ± z1−α/2 · SX (n) .
n n

1
Pn 2 SCE
où S 2 = n−1 2
i=1 (Xi − X (n) ) = n−1 est l’estimateur sans biais de la variance σ et SX (n)
désigne l’écart-type de la moyenne arithmétique X (n) , appelé erreur-type de la moyenne X (n) .

5.1.4 Si la population parente n’est pas normale et l’effectif n de l’échantillon est


petit (< 60),
on devra avoir recours à une méthode statistique non paramétrique.

5.2 Inférence sur deux moyennes µ1 et µ2 , échantillons indépendants


Soient deux échantillons indépendants de v.a. i.i.d., (Xi1 )i=1,··· ,n1 et (Xi2 )i=1,··· ,n2 , d’espérances
µ1 = E(Xi1 ) et µ2 = E(Xi2 ), et de variances σ12 = V ar(Xi1 ) et σ22 = V ar(Xi2 ). On considère le
test de comparaison des deux espérances µ1 et µ2

H0 : µ1 = µ2
H1 : µ1 6= µ2 (ou µ1 < µ2 ou µ1 > µ2 )

5.2.1 Si les populations parentes sont normales de variances σ12 et σ22 connues (cas
théorique),
la statistique de décision est

X (n1 ) − X (n2 )
Z= q 2 ∼ N (0, 1) sous H0
σ1 σ22
n1
+ n2

où X (nj ) est la moyenne arithmétique des données de l’échantillon de taille nj , d’espérance µj et
de variance σj2 (j = 1, 2) et l’intervalle de confiance pour µ1 −µ2 au niveau 1−α, IC1−α (µ1 −µ2 ),
est donné par s
 σ12 σ22
IC1−α (µ1 − µ2 ) = X (n1 ) − X (n2 ) ± z1−α/2 · +
n1 n2

5.2.2 Si les deux populations sont normales de variances σ12 et σ22 inconnues mais
supposées homogènes (σ12 = σ22 ) c’est-à-dire
Hm : Xij i.i.d. ∼ N (µj , σ 2 ), pour j = 1, 2, i = 1, · · · , nj .
Soit Sj2 l’estimateur sans biais de la variance σj2 de l’échantillon de taille nj (j = 1, 2) et S ∗2 ,
l’estimateur sans biais de la variance commune σ12 = σ22 = σ 2 , défini par

(n1 − 1) S12 + (n2 − 1) S22 SCE1 + SCE2


S ∗2 = =
n1 + n2 − 2 n1 + n2 − 2

39
Pnj 2
avec SCEj = i=1 (Xij − X j ) la somme des carrés d’écarts de l’échantillon j (j = 1, 2).
La statistique de décision 41 T et sa loi sous H0 sont
 
X (n1 ) − X (n2 ) X (n1 ) − X (n2 )
T = q = ∼ tn1 +n2 −2 , t de Student à n1 + n2 − 2 d.d.l.
S∗ · 1
+ 1 S(X (n ) −X (n ) )
n1 n2 1 2

q
= S∗ · 1 1

où S(X (n −X (n2 ) ) n1
+ n2
désigne l’erreur-type de X (n1 ) − X (n2 ) .
1)

L’intervalle de confiance pour µ1 − µ2 au niveau de confiance 1 − α, IC1−α (µ1 − µ2 ), est


r
 ∗ 1 1
IC1−α (µ1 − µ2 ) = X (n1 ) − X (n2 ) ± tn1 +n2 −2,1−α/2 · S +
n1 n2

= X (n1 ) − X (n2 ) ± tn1 +n2 −2,1−α/2 · S(X (n ) −X (n ) )
1 2

On peut mesurer la taille de l’effet (effect size, en anglais) de la V.I. (le facteur “Groupes”
à deux modalités G2 ) sur la VD X, par l’effet standardisé (ES) δ défini par
µ1 − µ2
δ=
σ
dont l’estimateur 42 noté D (également appelé le d de Cohen) est défini par
X (n1 ) − X (n2 ) D−δ
D= ∗
de distribution donnée par q ∼ tn1 +n2 −2 .
S 1
+ 1 n1 n2

L’interprétation de la taille de l’effet estimée δb est la suivante 43


Taille de | δb |< 0.20 0.20 ≤| δb |< 0.50 0.50 ≤| δb |< 0.80 | δb |≥ 0.80
l’effet insignifiante faible moyenne importante

5.2.3 Si les effectifs des deux échantillons n1 et n2 sont grands (≥ 60),


la statistique de décision approximativement normale 44 sous H0 est

X (n1 ) − X (n2 )
q 2 ≈ Z ∼ N (0, 1)
S1 S22
n1
+ n2

et l’intervalle de confiance pour µ1 − µ2 au niveau de confiance 1 − α, IC1−α (µ1 − µ2 ), est donné


par s
 S12 S22
IC1−α (µ1 − µ2 ) = X (n1 ) − X (n2 ) ± z1−α/2 · + .
n1 n2
41. Remarquons que même si la technique statistique est applicable quels que soient les effectifs des deux
échantillons, il est important de s’interroger sur le bien-fondé de la comparaison de deux moyennes calculées à
partir de deux échantillons d’effectifs très différents, l’un d’entre eux étant beaucoup plus petit que l’autre.
42. Cet estimateur, quoique légèrement biaisé, fournit une première estimation de la taille de l’effet ; la
définition de l’estimateur sans biais de δ sort du cadre de ce cours, voir ouvrages de méta-analyse, par exemple
Hunter, J.E. & Schmidt, F.L. (2004), Methods of meta-analysis : Correcting error and bias in research synthesis
(2nd ed.), Sage.
43. Cohen, J. (1992). A power primer. Psychological Bulletin, 112, 155-159.
44. Même si aucune hypothèse n’est préalable à l’utilisation de cette statistique pourvu que les effectifs des
deux échantillons soient grands, on peut toujours s’interroger sur la légitimité de comparer les moyennes de
deux distributions asymétriques ou ayant des formes différentes.

40
5.2.4 Si au moins un des effectifs n1 et n2 est faible (n1 ou n2 < 60) et si les
populations parentes ne sont pas normales ou si les populations parentes
sont normales mais les variances σ12 et σ22 inconnues sont différentes,
on devra avoir recours à une méthode statistique non paramétrique 45 .

0
5.3 Inférence sur deux moyennes µ et µ , mesures répétées
0
Soient Xi et Xi deux mesures répétées de la même variable quantitative sur les sujets i, i =
0 0
1, · · · , n (plan S ∗ T2 ). Considérons les moyennes µ = E[Xi ] et µ = E[Xi ]. Le test s’écrit
 0
H0 : µ = µ
0 0 0
H1 : µ 6= µ (ou µ < µ ou µ > µ )
0
Considèrons les différences Di = Xi − Xi (pour i = 1, · · · , n). Ce test peut se traduire 46 en une
inférence sur la moyenne des différences µD en se basant sur la moyenne arithmétique D(n) et
2 2
la variance σD (ou son estimateur sans biais SD (n)
), c’est-à-dire

H0 : µD = 0
H1 : µD 6= 0 (ou µD < 0 ou µD > 0)
Pour la suite, vous procèderez comme en Section 5.1 en vous appuyant sur l’échantillon
a.i.i.d. Di , i = 1, · · · , n, avec la norme µD0 = 0 sous H0 . La taille de l’effet de la V.I. (le facteur
“Traitement” à deux modalités T2 ) sur la VD X est donnée par l’effet standardisé (ES) δ défini
par
µD
δ=
σD
dont l’estimateur (également appelé le d de Cohen) est défini par δb = D . SD
L’interprétation de la taille de l’effet estimée δb est identique à celle donnée en 5.2.2.

5.4 Inférence sur plusieurs moyennes


La comparaison de plusieurs moyennes (échantillons indépendants ou mesures répétées) est
classiquement appelée l’analyse de la variance (ou ANOVA) ; les procédures statistiques de
l’analyse de la variance sont présentées dans la section suivante. Il s’agit en fait d’analyser l’effet
d’une ou plusieurs variables catégorisées appelées facteurs (VI), sur une variable quantitative
(VD).
45. Si au moins un des effectifs n1 et n2 est faible (n1 ou n2 < 60) et les populations parentes sont normales
de variances inconnues différentes, on propose parfois la statistique de décision suivante

X (n1 ) − X (n2 )
T = q 2 ≈ tr , t de Student à r d.d.l.
S1 S22
n1 + n2
2
S12 S22

n1 + n2
où r est l’entier le plus proche du nombre  2 2  2
2 Il s’agit de la solution de Welch-Satterthwaite au
S1 S2
n1 n2

n1 −1 + n2 −1
problème de Behrens-Fisher. En pratique, on n’utilise cette formule que lorsque les effectifs n1 et n2 sont petits
et diffèrent sensiblement. Lorsque n1 = n2 , on peut utiliser la loi t de Student à n1 + n2 − 2 degrés de liberté
et lorsque n1 et n2 sont grands, on peut utiliser la loi N (0, 1). Remarquons néanmoins qu’il est important de
s’interroger sur le bien-fondé de la comparaison de deux moyennes lorsque les dispersions sont très différentes.
0 0
46. Par la linéarité de l’espérance mathématique, µD = E[Di ] = E[Xi ] − E[Xi ] = µ − µ .

41
6 ANALYSE DE VARIANCE (ANOVA)
6.1 Un facteur (G), K échantillons indépendants, plan S < GK >
(structure d’emboı̂tement)
On dira que les sujets sont emboı̂tés dans les K différentes modalités du facteur G. Soit K
échantillons indépendants, ∀ j = 1, · · · , K, (Xij )i=1,··· ,nj éch.a. i.i.d. ∼ N (µj , σ 2 ), on désigne
Xij : v.a. du sujet i dans le groupe j,
nj : effectif du groupe j,
Xj : moyenne du groupe j,
X : moyenne générale et
: effectif total des K groupes (N = K
P
N j=1 nj )

L’effet du facteur G est testé par



H0 : µ1 = µ2 = · · · = µK (absence d’effet du facteur)
H1 : négation de H0 (∃ j1 , j2 ∈ {1, · · · , K} tels que µj1 6= µj2 )

Une autre formulation de ce test s’obtient en décomposant l’espérance µj = E(Xij ), du


résultat Xij de chaque sujet i dans la condition j (i = 1, · · · , nj ), en l’espérance ou moyenne
générale µ et l’effet du facteur G, soit αj 47 :

µj = µ + αj avec
K
1 X
µ = · nj µj (la moyenne générale) et
N j=1
αj = µj − µ (l’effet de la modalité j du facteur G)

Sous cette nouvelle formulation, l’effet du facteur G est testé par



H0 : α1 = α2 = · · · = αK = 0 (absence d’effet du facteur)
H1 : négation de H0 (∃ j ∈ {1, · · · , K} tel que αj 6= 0)

L’analyse de variance à un facteur en groupes indépendants, s’effectue en décomposant la


somme des carrés des écarts à la moyenne générale, appelée Somme des Carrés des écarts Totaux
et notée SCT , en deux sommes de carrés, la Somme de Carrés d’écarts expliqués par le facteur
G, notée SCG , et la Somme de Carrés d’écarts non expliqués par ce facteur ou Résiduelle,
notée SCR . A chacune de ces sommes correspond un nombre de degrés de liberté noté d.d.l..
Cette décomposition, appelée équation fondamentale de l’analyse de variance à un facteur (G),
échantillons indépendants, est donnée ci-dessous.
47. Remarquons que suivant la définition de l’effet du facteur G, la moyenne pondérée des effets αj est toujours
nulle :
XK
nj αj = 0
j=1

puisque
K
X K
X K
X K
X
nj α j = nj (µj − µ) = nj µj − nj µ = N · µ − N · µ = 0
j=1 j=1 j=1 j=1

42
Equation fondamentale de l’analyse de variance :
PK Pnj 2 PK 2 PK Pnj 2
j=1 i=1 (Xij − X) = j=1 nj (X j − X) + j=1 i=1 (Xij − X j )
notées SCT = SCG + SCR
(d.d.l.) : (N − 1) = (K − 1) + (N − K)
On calcule ensuite les Carrés Moyens associés aux deux sommes de carrés expliqués et
non expliqués par le facteur, notés respectivement CMG et CMR . La statistique de décision
permettant de mettre à l’épreuve l’hypothèse d’absence d’effet du facteur est le quotient de
ces carrés moyens, dont la loi de probabilité, sous H0 et sous l’hypothèse de normalité et
d’homoscédasticité des populations, est un F de Fisher-Snédécor dont les degrés de libertés
correspondent à ceux de ces carrés moyens. Il est d’usage de présenter le calcul de la valeur
observée de cette statistique de décision dans un tableau, appelé tableau de l’analyse de variance,
de la forme suivante.

Tableau de l’analyse de variance :


| Source de | | Somme des Carrés | Carré Moyen | |
SC
| variation | d.d.l. | (SC) | (CM = d.d.l. ) | Rapport F |
| | | | | |
| | | | | |
PK 2 SCG
| inter | K −1 | j=1 nj (X j − X) | CMG = K−1 | |
| (facteur G) | | (= SCG ) | | F = CM
CMR
G
|
| | | | | ∼ FK−1,N −K |
PK Pnj 2 SCR
| intra | N −K | j=1 i=1 (Xij − X j ) | CMR = N −K | |
| (résidu) | | (= SCR ) | | |
| | | | | |
| | | | | |
PK Pnj 2
| Total | N −1 | j=1 i=1 (Xij − X) | | |
| | | (= SCT ) | | |
Si les K populations parentes sont normales de même variance (hypothèses de normalité et
d’homoscédasticité), la statistique de décision F et sa loi sous H0
CMG
F = ∼ FK−1,N −K , F de Fisher-Snédécor à (K − 1, N − K) d.d.l.
CMR
Pour le calcul des sommes de carrés (SC), on pourra utiliser les formules équivalentes
suivantes :
K X nj K X nj
X 2 X T2
SCT = (Xij − X) = Xij 2 −
j=1 i=1 j=1 i=1
N
K K
X 2 X Tj2 T2
SCG = nj (X j − X) = −
j=1 j=1
nj N
nj
K X K
X 2 X
SCR = (Xij − X j ) = (nj − 1)Sj2
j=1 i=1 j=1
K K X nj K
X X X Tj2
= SCEj = Xij 2 −
j=1 j=1 i=1 j=1
nj

43
où
Pnj
Tj désigne le total du groupe j, Tj = i=1 X ,
PKij
T le total général des observations, T = j=1 Tj ,
SCEj la somme des carrés d’écarts à la moyenne dans le groupe j,
Pnj 2
SCEj = i=1 Xij − X j , et
Sj2 l’estimateur sans biais de la variance du groupe
P j, Tj2
2

2 1
P nj
 SCE j 1 nj 2
Sj = nj −1 i=1 Xij − X j = nj −1 = nj −1 i=1 Xij − nj .

Il est important de rappeler que les sommes de carrés et les degrés de liberté sont addi-
tifs. L’estimateur sans biais de la variance σ 2 dans les K populations (variance commune par
l’hypothèse d’homoscédasticité) est le carré moyen résiduel (ou intra) CMR . De plus, on peut
monter que si αj = µj − µ (pour tout j = 1, · · · , K)
2
P
2 j nj αj
E (CMG ) = σ +
K −1
On peut mesurer la taille de l’effet du facteur G sur la variable dépendante X par le carré
du rapport de corrélation ηX|G défini par

2 SCG
ηX|G =
SCT
donnant la proportion de la somme des carrés des écarts d’écarts de la VD (la variable X)
qui est expliquée par la VI (le facteur G). On peut généraliser cet indice pour des plans plus
complexes de l’analyse de la variance.

Lorsque n1 = n2 = · · · = nK = n = N/K (plan équilibré Sn < GK >),


le calcul des carrés moyens peut s’effectuer comme suit :
CMR est la moyenne des variances sans biais Sj2 , c’est-à-dire
CMR = K1 K 2
P
j=1 Sj et
CMG est la variance  sans biais desPmoyennes  multipliée par n, c’est-à-dire
K 2
n
PK 2 ( j=1 X j )
CMG = K−1 j=1 X j − K
.

Remarque. On distingue dans l’analyse de variance, les modèles fixe et aléatoire. Dans le
modèle fixe, les K modalités du facteur G sont fixées et la comparaison des moyennes ne porte
que sur ces K modalités. La technique développée ci-dessus n’est valable que si le modèle est fixe.
Le modèle aléatoire peut être considéré comme un modèle d’échantillonnage à deux niveaux : on
choisit d’abord au hasard les K populations à comparer puis dans chacune de celles-ci, on prélève
au hasard un échantillon d’effectif nj . Dans les modèles aléatoires, l’hypothèse de normalité des
observations est souvent cruciale et, bien que certains problèmes soient développés dans le cas
non équilibré, il est préférable de se limiter au cas équilibré. Les techniques adaptées pour la
comparaison des K moyennes dans le modèle aléatoire sont des techniques approximatives que
nous ne développerons pas ici (voir par exemple Abdi opcit.).

44
6.2 Un facteur (A), mesures répétées, plan Sn ∗ Tp (structure de croi-
sement)
On dira que les sujets sont croisés avec les p différentes modalités du facteur
 A, parfoisappelé
traitement. Soit un échantillon de n vecteurs aléatoires i.i.d. de dimension p, (Xij )j=1,··· ,p ,
i=1,··· ,n
correspondant à p échantillons appariés (Xij )i=1,··· ,n pour j = 1, · · · , p, où
Xij : v.a. du sujet i lors de la jème répétition,
n : effectif de l’échantillon (nombre de sujets),
p : nombre de répétitions (ou de modalités du facteur A),
X •j : moyenne de la répétition j,
X i• : moyenne du sujet i,
X •• : moyenne générale (parfois notée X) et
N : nombre de données (N = np)

On considère le vecteur-profil des données d’un même sujet i lors des p répétitions,
 
Xi1
 Xi2 
 .. 
.
 
Xi = 
 
 Xij


 .
 ..


Xip

On suppose que ces vecteurs constituent un échantillon aléatoire i.i.d. suivant une loi normale
multivariée de dimension p, d’espérance µ et de matrice de variance-covariance Σ, c’est-à-dire
Xi ∼ Np (µ, Σ), ∀ i = 1, · · · , n.
Pour pouvoir écrire simplement le test portant sur l’effet du facteur “répétition” (A), on
décompose l’espérance µij = E(Xij ), du résultat Xij du sujet i dans la répétition (ou condition)
j, en l’espérance ou moyenne générale µ•• , l’effet du facteur “sujet” αi et l’effet du facteur
“répétition” βj :

µij = µ•• + αi + βj avec


n p
1 XX
µ•• = · µij
np i=1 j=1
p
1X
αi = µi• − µ•• où µi• = µij
p j=1
n
1X
βj = µ•j − µ•• où µ•j = µij
n i=1

Il est intéressant de noter que suivant la définition des effets du facteur “sujet” et du facteur
“répétition”, la somme de ces effets est toujours égale à 0
n p
X X
αi = βj = 0.
i=1 j=1

45
L’effet du facteur “répétition” (A) est testé par
(
(A)
H0 : µ•1 = µ•2 = · · · = µ•p (absence d’effet du facteur A)
(A) (A)
H1 : négation de H0 (∃ j1 , j2 ∈ {1, · · · , p} tels que µ•j1 6= µ•j2 )

Ce test peut donc également s’écrire comme suit


(
(A)
H0 : β1 = β2 = · · · = βp = 0
(A) (A)
H1 : négation de H0 (∃ j ∈ {1, · · · , p} tel que βj 6= 0)

Le facteur “sujet” S est un facteur aléatoire alors que, comme annoncé précédemment, le
facteur A est fixe. On parle dans ce cas d’un modèle mixte. Dans ce modèle, il n’est pas permis
de tester l’effet du facteur “sujet”. Par contre, lorsque le facteur A est aléatoire, ce test est
possible 48 .
L’analyse de variance à un facteur en groupes appariés, s’effectue en décomposant la somme
des carrés des écarts à la moyenne générale, appelée Somme des Carrés des écarts Totaux et
notée SCT , en trois sommes de carrés, la Somme de Carrés d’écarts expliqués par le facteur
“répétition” A (ou inter répétitions), notée SCA , la Somme de Carrés d’écarts expliqués par le
facteur “sujets” S (ou inter sujets), notée SCS et la Somme de Carrés d’écarts non expliqués par
ces deux facteurs, Résiduelle ou intra, notée SCR . Cette dernière somme de carrés correspond
également à l’interaction entre le facteur “sujet” et le facteur “répétition” ; dans ce modèle,
ces deux sommes de carrés sont confondues. A chacune de ces trois sommes correspond un
nombre de degrés de liberté noté d.d.l.. Cette décomposition, appelée équation fondamentale
de l’analyse de variance à un facteur (A), échantillons appariés, est donnée ci-dessous.

Equation fondamentale de l’analyse de variance :


Pp Pn 2 2
= n pj=1 (X •j − X •• )
P
SCT = j=1 (Xij − X •• )
i=1
(d.d.l. : np − 1) notée SCA (d.d.l. : p − 1)
2
+ p ni=1 (X i• − X •• )
P
notée SCS (d.d.l. : n − 1)
Pp Pn 2
+ j=1 i=1 (Xij − X i• − X •j + X •• )
notée SCR (d.d.l. : (n − 1)(p − 1))
On calcule ensuite les Carrés Moyens associés à ces trois sommes de carrés, notés respec-
tivement CMA , CMS et CMR . La statistique de décision permettant de mettre à l’épreuve
l’hypothèse d’absence d’effet du facteur “répétition” A est le quotient du carré moyen expliqué
(A)
par ce facteur et du carré moyen résiduel (ou intra), dont la loi de probabilité, sous H0 et sous
les hypothèses de normalité multivariée et de circularité de la matrice de variance-covariance
précisées ci-dessous, est un F de Fisher-Snédécor de degrés de libertés correspondant à ceux
48. Lorsque le facteur A est aléatoire, l’effet du facteur “sujet” (S) est testé par
(
(S)
H0 : µ1• = µ2• = · · · = µn• (absence d’effet du facteur S)
(S) (S)
H1 : négation de H0 (∃ i1 , i2 ∈ {1, · · · , n} tels que µi1 • 6= µi2 • )
qui peut s’écrire de manière équivalente de la manière suivante
(
(S)
H0 : α1 = α2 = · · · = αn = 0
(S) (S)
H1 : négation de H0 (∃ i ∈ {1, · · · , n} tel que αi 6= 0)

46
de ces carrés moyens utilisés. Ces résultats sont habituellement présentés dans le tableau de
l’analyse de variance suivant

Tableau de l’analyse de variance :

| Source de | d.d.l. | Somme des Carrés | Carré Moyen | Rapport F |


SC
| variation | | (SC) | (CM = d.d.l. ) | |
| | | | | |
| | | | | |
2
n pj=1 (X •j − X •• ) | CMA = SC CMA
| F (A) = CM
P
| inter répét. | p−1 | p−1
A
R
∼ |
| (facteur A) | | (= SCA ) | | Fp−1,(n−1)(p−1) |
| | | | | |
2
p ni=1 (X i• − X •• ) | CMS = SC
P
| inter sujets | n−1 | n−1
S
| |
| (facteur S) | | (= SCS ) | | |
| | | P P | | |
p n
| intra | (n − 1)× | j=1 i=1 (Xij − X i• | CMR = | |
2 SCR
| (résidu) | (p − 1) | −X •j + X •• ) | (n−1)(p−1)
| |
| | | (= SCR ) | | |
| | | | | |
Pp Pn 2
| Total | np − 1 | j=1 i=1 (Xij − X •• ) | | |
| | | (= SCT ) | | |

Si la population parente des vecteurs aléatoires Xi (i = 1, · · · , n) est normale multivariée


Np (µ, Σ) et si la matrice de variance-covariance Σ satisfait la condition de circularité ou
sphéricité (voir Chapitre 4), la statistique de décision F (A) permettant de tester l’effet du
(A)
facteur “répétition” (H0 ) est 49

CMA
F (A) = ∼ Fp−1,(n−1)(p−1) , F de Fisher-Snédécor à (p − 1, (n − 1)(p − 1)) d.d.l.
CMR

Pour le calcul des sommes de carrés (SC), on pourra utiliser les formules équivalentes
suivantes :
p n p n
X X 2 X X T2
SCT = (Xij − X •• ) = Xij 2 −
j=1 i=1 j=1 i=1
N
n n
X T2
X 2 i• T2
SCS = p (X i• − X •• ) = −
i=1 i=1
p N
p p2
X 2 X T•j T2
SCA = n (X •j − X •• ) = −
j=1 j=1
n N

49. Pour le test permettant de mettre à l’épreuve l’absence d’effet du facteur “sujet” lorsque le facteur A est
aléatoire (voir remarque précédente), la statistique de décision est

CMS (S)
F (S) = ∼ Fn−1,(n−1)(p−1) , F de Fisher-Snédécor à (n − 1, (n − 1)(p − 1)) d.d.l. sous H0 .
CMR

47
p n p n n p 2
X X 2 X X
2
X T2 i•
X T•j T2
SCR = (Xij − X i• − X •j + X •• ) = Xij − − +
j=1 i=1 j=1 i=1 i=1
p j=1
n N
où
désigne le total du sujet i, Ti• = pj=1 Xij ,
P
Ti•
Pn
T•j désigne le total de la répétition j, T•j =
P i=1 Xij ,P
et
T le total général des observations, T = ni=1 Ti• = pj=1 T•j .

Il est important de rappeler que les sommes de carrés et les degrés de liberté sont additifs.
On trouve dans la littérature différentes manières de mesurer la taille de l’effet du facteur
A sur la variable dépendante X. Citons d’abord le η 2 partiel, noté ηP2 et défini par
SCA SCA
ηP2 = =
SCT − SCS SCA + SCR
et ensuite le η 2 généralisé, noté ηG
2
et défini par
2 SCA
ηG =
SCA + SCS + SCAS
2
qui peut s’écrire simplement ηG = SCA
SCT
lorsque le plan ne comporte qu’un seul facteur.
Un cas particulier de matrice de variance-covariance Σ circulaire est la matrice
 
1 ρ ρ ··· ··· ρ
 ρ 1 ρ ··· ··· ρ 
 ..
 
. ρ 1 ρ · · · ρ

2
 
Σ = σ  .. .. . . . .. . . 
. . .. 
 . . . 
 . . .
 .. .. .. 1 ρ 

ρ ρ ··· ρ ρ 1
Autrement dit, si les p variables aléatoires correspondant aux différents traitements ont même
variance (σ 2 ) et les covariances entre ces variables prises deux par deux sont égales (ρσ 2 ), la
matrice Σ est circulaire (mais cette condition n’est pas nécessaire). Dans ce cas, l’estimateur
sans biais de la variance commune σ 2 dans chacune des np populations est le carré moyen
résiduel (ou intra) CMR .
En général, l’estimateur sans biais de la matrice Σ est la matrice des estimateurs sans biais
de chacune des variances et des covariances prises séparément ; cette matrice, notée S, est définie
au Chapitre 2 et reprise au Chapitre 4.
Remarque. Le calcul des carrés moyens peut également s’effectuer comme suit :
CMA est la variance
 sans biais desPmoyennes par groupe multipliée par n, c’est-à-dire
p 2
n
Pp 2 ( j=1 X •j )
CMA = p−1 j=1 X •j − p
et
CMS est la variance
 sans biais desPmoyennes  par sujet multipliée par p, c’est-à-dire
n 2
p Pn 2 ( i=1 X i• )
CMS = n−1 i=1 X i• − n
.

Lorsque la matrice de variance-covariance Σ n’est pas circulaire, on peut utiliser une procédure
approchée, celle-ci est basée sur la quantité, notée ε, définie ci-dessous
 0 2
tr C ΣC
ε=  
0 2
(p − 1)tr [C ΣC]

48
où C est la matrice d’ordre p × (p − 1), dont les colonnes sont formées par p − 1 contrastes
orthonormés (voir Section 4.4).
On peut montrer que la relation suivante est toujours vérifiée
1
≤ε≤1
p−1
Lorsque la matrice de variance-covariance Σ est circulaire, ε = 1. De plus, on peut dire que
plus la valeur de ε s’éloigne de 1, moins la matrice Σ est circulaire.
En pratique, on estime ε en remplaçant la matrice Σ par son estimateur, la matrice S.
Différentes procédures approchées sont disponibles.
1. Le test ε-ajusté consiste à modifier les degrés de liberté du F (A) utilisé pour mettre à
(A) (A)
l’épreuve l’hypothèse H0 . Plus précisément, sous H0 , on a approximativement
CMA
F (A) = ∼ Fε(p−1),ε(n−1)(p−1)
CMR
Ce type de procédure revient à diminuer le nombre de degrés de liberté de la statistique
F et donc, pour un même seuil de signification α, à augmenter la valeur critique rendant
ainsi plus difficile le rejet de H0 .
1
2. Une autre procédure, la procédure conservatrice, consiste à prendre la valeur ε = p−1
c’est-à-dire à considérer que
CMA
F (A) = ∼ F1,(n−1)
CMR
utilisant ainsi la statistique pour laquelle le nombre de degrés de liberté est minimal. Bien
qu’elle présente l’avantage de ne pas nécessiter l’estimation de ε, cette procédure présente
l’inconvénient de réduire la puissance du test.
3. Une troisième procédure est parfois proposée, il s’agit d’une procédure à trois pas. On
commence par effectuer le test conventionnel comme si la matrice Σ était circulaire. Si
on ne rejette pas l’hypothèse H0 , on ne peut pas prouver l’existence d’un effet du facteur
“répétition” (A) et on peut arrêter le travail. Par contre, si on peut rejeter l’hypothèse
H0 , on passe à la procédure conservatrice. Si cette procédure confirme le rejet de H0 , on
peut conclure à l’effet du facteur “répétition” (A) au seuil α fixé ; la procédure est donc
terminée. Dans le cas contraire, on utilise le test ε-ajusté pour lever la contradiction entre
les deux premières procédures utilisées.

6.3 Deux facteurs (F et G), échantillons indépendants : plan


S < Fl × Gc >
6.3.1 Une seule donnée par case : Fl × Gc (modèle additif )
Lorsqu’un seul des deux facteurs est aléatoire (modèle mixte), le traitement statistique s’ef-
fectue de la même manière que pour une analyse de variance à un facteur fixe avec mesures
répétées sur les sujets (rappelons que le facteur “sujet” est toujours aléatoire). Lorsque les
deux facteurs sont aléatoires (modèle complètement aléatoire), le traitement statistique s’effec-
tue comme pour une analyse de variance à un facteur aléatoire avec mesures répétées sur les
sujets (voir section précédente 6.2). Le cas où les deux facteurs sont fixes, ne sera pas traité
dans ce texte (voir par exemple, Abdi opcit.).

49
6.3.2 Plusieurs données par case : S < Fl × Gc > (non-additif )
Nous nous limiterons au plan équilibré Sn < Fl × Gc >. De plus, nous supposerons que les
deux facteurs sont fixes ; les traitements statistiques correspondant au modèle aléatoire (deux
facteurs aléatoires) et au modèle mixte (un facteur fixe et un facteur aléatoire) sont plus com-
plexes (voir, par exemple, Abdi opcit).
Soient l × c échantillons indépendants tels que ∀ i = 1, · · · , l et ∀ j = 1, · · · , c,
(Xijk )k=1,··· ,n éch.a. i.i.d. ∼ N (µij , σ 2 ). On désigne

Xijk : v.a. du sujet k de la case de ligne i et de colonne j, case (i, j)


n : effectif de chaque case (i, j)
l : nombre de lignes (ou modalités du facteur F )
c : nombre de colonnes (ou modalités du facteur G)
X ij• : moyenne de la case (i, j)
X i•• : moyenne de la ligne i
X •j• : moyenne de la colonne j
X ••• : moyenne générale (parfois notée X)
Ni• : effectif total de la ligne i (Ni• = cn)
N•j : effectif total de la colonne j (N•j = ln)
N : effectif total (N = lcn)

On décompose l’espérance µij = E(Xijk ), de la donnée k de la ligne i et de la colonne j,


Xijk , en la moyenne générale µ, l’effet du facteur “ligne” αi , l’effet du facteur “colonne” βj et
l’effet de l’interaction entre ces deux facteurs (αβ)ij :

µij = µ + αi + βj + (αβ)ij avec


l X
c
1 X
µ = · µij
lc i=1 j=1
c
1X
αi = µi• − µ où µi• = µij
c j=1
l
1X
βj = µ•j − µ où µ•j = µij et
l i=1
(αβ)ij = µij − µi• − µ•j + µ = µij − αi − βj − µ

Le modèle peut donc également s’écrire

Xijk = µ + αi + βj + (αβ)ij + εijk avec les résidus i.i.d. εijk ∼ N (0, σ 2 )

L’effet principal du facteur “ligne” se traduit par les αi correspondant aux l modalités de ce
facteur (F ), l’effet principal du facteur “colonne” se traduit par les βj correspondant aux c
modalités de ce facteur (G) et l’effet d’interaction entre les facteurs “ligne” et “colonne” par
les (αβ)ij correspondant aux lc modalités du croisement de ces deux facteurs” 50 .
50. Il est intéressant de noter que, suivant la définition de ces effets, on a
l
X c
X l
X c
X
αi = 0, βj = 0 et (αβ)ij = (αβ)ij = 0
i=1 j=1 i=1 j=1

50
Les paramètres de ce modèle sont au nombre de lc + 1 que l’on peut énumérer comme suit :
la moyenne µ, les l − 1 effets principaux αi du facteur F , les c − 1 effets principaux βj du facteur
G, les (l − 1)(c − 1) effets d’interactions 51 et la variance résiduelle σ 2 .
1. L’effet principal du facteur “ligne” (facteur F ) est testé par
(
(F )
H0 : α1 = α2 = · · · = αl = 0
(F ) (F )
H1 : négation de H0 (∃ i tel que αi 6= 0)
2. l’effet principal du facteur “colonne” (facteur G) par
(
(G)
H0 : β1 = β2 = · · · = βc = 0
(G) (G)
H1 : négation de H0 (∃ j tel que βj 6= 0)
3. et l’effet d’interaction par
(
(F G)
H0 : (αβ)11 = (αβ)12 = · · · = (αβ)lc = 0
(F G) (F G)
H1 : négation de H0 (∃ i, j tel que (αβ)ij 6= 0)
D’autres hypothèses peuvent également être testées en combinant ces trois hypothèses prin-
cipales : l’effet du facteur “ligne” (en combinant les tests 1. et 3.), l’effet du facteur “colonne”
(en combinant les tests 2. et 3.) et l’effet conjoint des deux facteurs (en combinant les trois
tests).
L’analyse de variance à deux facteurs F et G, groupes indépendants, s’effectue en décompo-
sant la somme des carrés des écarts à la moyenne générale, appelée Somme des Carrés des écarts
Totaux et notée SCT , en quatre sommes de carrés, la Somme de Carrés d’écarts expliqués par le
facteur F (ou inter lignes), notée SCF , la Somme de Carrés d’écarts expliqués par le facteur G
(ou inter colonnes), notée SCG , la Somme des Carrés d’écarts expliqués par l’interaction entre
les deux facteurs F et G, notée SCF G et la Somme de Carrés d’écarts non expliqués par les
deux facteurs et par l’interaction, Résiduelle ou intra, notée SCR . A chacune de ces sommes
correspond un nombre de degrés de liberté noté d.d.l.. Cette décomposition, appelée équation
fondamentale de l’analyse de variance à deux facteurs (F et G), échantillons indépendants, est
donnée ci-dessous.

Equation fondamentale de l’analyse de variance :

Pl Pc Pn 2 2
= cn li=1 (X i•• − X)
P
SCT = i=1 j=1 (Xijk − X)
k=1
(d.d.l. : N − 1) notée SCF (d.d.l. : l − 1)
2
+ ln cj=1 (X •j• − X)
P

notée SCG (d.d.l. : c − 1)


2
+ n li=1 cj=1 (X ij• − X i•• − X •j• + X)
P P

notée SCF G (d.d.l. : (l − 1)(c − 1))


Pl Pc Pn 2
+ i=1 j=1 k=1 (Xijk − X ij• )
notée SCR (d.d.l. : lc(n − 1))
et que l’effet d’interaction (ou de non-additivité des effets) peut également s’écrire
(αβ)ij = (µij − µ) − (µi• − µ) − (µ•j − µ) = (µij − µ) − αi − βj

Pl
51. Rappelons que les relations liant ces différents effets (par exemple, i=1 αi = 0) diminuent le nombre de
paramètres libres.

51
On calcule ensuite les Carrés Moyens associés à ces quatre sommes de carrés, notés res-
pectivement CMF , CMG , CMF G et CMR . Les statistiques de décision permettant de mettre à
l’épreuve les hypothèses d’absence d’effet du facteur F , d’absence d’effet du facteur G et d’ab-
sence d’interaction entre les deux facteurs sont les quotients des carrés moyens associés à ces
trois sources de variation et du carré moyen résiduel (ou intra), dont la loi de probabilité, sous
(F ) (G) (F G)
H0 , H0 et H0 respectivement et sous les hypothèses de normalité et d’homoscédasticité
des lc populations, est un F de Fisher-Snédécor de degrés de libertés correspondant à ceux
de ces carrés moyens utilisés. Ces résultats sont habituellement présentés dans le tableau de
l’analyse de variance donné ci-dessous.
Si les hypothèses de normalité et d’homoscédasticité des résidus sont vérifiées, modèle Hm :
εijk i.i.d. ∼ N (0, σ 2 ), ∀i, j, k, les statistiques de décision et leurs lois sont :
- pour le test (1) de l’effet principal du facteur F ,

CMF
F (F ) = ∼ Fl−1,lc(n−1) , F de Fisher à (l − 1, lc(n − 1)) d.d.l.,
CMR

- pour le test (2) de l’effet principal du facteur G,

CMG
F (G) = ∼ Fc−1,lc(n−1) , F de Fisher à (c − 1, lc(n − 1)) d.d.l. et
CMR

- pour le test (3) de l’effet d’interaction des facteurs F et G,

CMF G
F (F G) = ∼ F(l−1)(c−1),lc(n−1) , F de Fisher à ((l − 1)(c − 1), lc(n − 1)) d.d.l.
CMR

Tableau de l’analyse de variance :

| Source de | d.d.l. | Somme des Carrés | Carré Moyen | Rapport F |


SC
| variation | | (SC) | (CM = d.d.l. ) | |
Pl 2
| inter | l−1 | cn i=1 (X i•• − X) | CMF | F (F ) = CM
CMR
F
∼ |
| lignes (F ) | | (= SCF ) | | Fl−1,lc(n−1) |
| | | | | |
2
ln cj=1 (X •j• − X) | F (G) = CM
P
| inter | c−1 | | CMG CMR
G
∼ |
| colonnes (G) | | (= SCG ) | | Fc−1,lc(n−1) |
| | | | | |
| n li=1 cj=1 (X ij• − X i•• | F (F G) = CM
P P
| interaction | (l − 1)× | CMF G CMR
FG
∼ |
2
|F ×G | (c − 1) | −X •j• + X) (= SCF G ) | | F(l−1)(c−1),lc(n−1) |
| | | | | |
Pl Pc Pn
| intra | lc(n − 1) | i=1 j=1 k=1 | CMR | |
2
| (résidu) | | (Xijk − X ij• ) (= SCR ) | | |
Pl Pc Pn
| Total | N −1 | i=1 j=1 k=1 | | |
2
| | | (Xijk − X) (= SCT ) | | |

Rappelons à nouveau que les sommes de carrés et les degrés de liberté sont additifs :

SCF +SCG +SCF G +SCR = SCT et (l−1)+(c−1)+(l−1)(c−1)+lc(n−1) = lcn−1 = N −1.

52
Pour le calcul des sommes de carrés (SC), on pourra utiliser les formules équivalentes
suivantes :
l X c X n l X c X n
X 2 X T2
SCT = (Xijk − X) = Xijk 2 −
i=1 j=1 k=1 i=1 j=1 k=1
N
l l
X 2 1 X 2 T2
SCF = cn (X i•• − X) = T −
i=1
cn i=1 i• N
c c
X 1 X 2
2 T2
SCG = ln (X •j• − X) = T −
j=1
ln j=1 •j N
l X
c X
n l X
c X
n l c
X 2 X
2 1 XX 2
SCR = (Xijk − X ij• ) = Xijk − T
i=1 j=1 k=1 i=1 j=1 k=1
n i=1 j=1 ij
l X
X c l X
X c
= (n − 1)Sij2 = SCEij
i=1 j=1 i=1 j=1
SCF G = SCT − (SCF + SCG + SCR )
l c l c
1 XX 2 1 X 2 1 X 2 T2
= Tij − Ti• − T•j +
n i=1 j=1 cn i=1 ln j=1 N

où
j), Tij = nk=1 Xijk ,
P
Tij désigne le total de la case (i,P
Ti• le total de la ligne i, Ti• = cj=1 Tij ,
le total de la colonne j, T•j = li=1 Tij
P
T•j
le total général des observations, T = li=1 Ti• = cj=1 T•j ,
P P
T
2
la somme des carrés d’écarts dans la case (i, j), SCEij = nk=1 (Xijk − X ij• )
P
SCEij
1
Pn 2
Sij2 la variance sans biais dans la case (i, j), Sij2 = n−1 k=1 (Xijk − X ij• ) .

L’estimateur sans biais de la variance résiduelle σ 2 dans les lc populations (variance com-
mune par l’hypothèse d’homoscédasticité) est le carré moyen résiduel (ou intra) CMR .
Remarquons que puisque le plan est équilibré (même effectif n dans chaque case du tableau
de données), le calcul des carrés moyens peut également s’effectuer comme suit :
CMR est la moyenne des variances sans biais Sij2 dans chacune des cases,
CMR = lc1 li=1 cj=1 Sij2 ,
P P

CMF est la variance  sans biais desPmoyennes par ligne X i•• multipliée par cn,
l 2
cn
P l 2 ( i=1 i•• )
X
CMF = l−1 i=1 X i•• − l
et
CMG est la variance
 sans biais des P
moyennes  par colonne X •j• multipliée par ln,
c 2
ln
Pc 2 ( j=1 •j• )
X
CMG = c−1 j=1 X •j• − c
.

6.4 Deux facteurs (A et B), mesures complètement répétées : plan


Sn ∗ Tl ∗ T̃c
Nous nous limiterons au cas où les deux facteurs A et B sont fixes ; le traitement plus
complexe des cas où l’un des deux facteurs est aléatoire (appelé modèle mixte) et le cas où les

53
deux facteurs sont aléatoires (appelé modèle complètement aléatoire), ne sera pas traité dans ce
texte (voir par exemple Abdi opcit.). Les sujets sont donc croisés avec chacune des lc modalités
provenant du croisement des facteurs A et B, parfois appelés traitements.
Soit un échantillon de n vecteurs aléatoires de dimension l × c,
 
 
(Xijk ) 
 j = 1, · · · , l 
k = 1, · · · , c i=1,··· ,n

où
Xijk : la v.a. du sujet i lors de la combinaison de la jème modalité du facteur
A et de la kème modalité du facteur B
n : effectif de l’échantillon (nombre de sujets)
l : nombre de modalités du facteur A
c : nombre de modalités du facteur B
X i•• : moyenne du sujet i (lors des lc répétitions)
X •j• : moyenne de la jème modalité du facteur A (pour les différents sujets i lors
des c répétitions correspondant au facteur B)
X ••k : moyenne de la kème modalité du facteur B (pour les différents sujets i lors
des l répétitions correspondant au facteur A)
X •jk : moyenne correspondant à la combinaison de la jème modalité du facteur A
et de la kème modalité du facteur B (pour les différents sujets i)
X ij• : moyenne du sujet i lors de la jème modalité du facteur A
(pour les c modalités du facteur B)
X i•k : moyenne du sujet i lors de la kème modalité du facteur B
(pour les l modalités du facteur A)
X ••• : moyenne générale (parfois notée X)
N : nombre total de données (N = nlc)

On considère le vecteur-profil des données d’un même sujet i lors des lc différents traitements
provenant du croisement des l modalités du facteur A et des c modalités du facteur B,
0
Xi = Xi11 Xi12 · · · Xi1c Xi21 Xi22 · · · Xi2c · · · Xil1 · · · Xilc

On suppose que ces vecteurs constituent un échantillon aléatoire suivant la loi normale multi-
variée de dimension lc, d’espérance µi et de matrice de variance-covariance Σ, c’est-à-dire les
n vecteurs aléatoires, Xi , ∀ i = 1, · · · , n, sont indépendants et ∼ Nlc (µi , Σ) avec les vecteurs
µi , de dimension lc, des espérances µijk = E (Xijk ),
0
µi = µi11 µi12 · · · µi1c µi21 µi22 · · · µi2c · · · µil1 · · · µilc
2
et la matrice de variance-covariance (symétrique) Σ de dimension lc où σX ijk
est la variance
des données d’un même sujet i lors du croisement des modalités j du facteur A et k du facteur
B et σXijk Xij0 k0 est la covariance des données Xijk et Xij 0 k0 d’un même sujet i, ∀ i = 1, · · · , n,
 2

σX i11
σXi11 Xi12 ··· σXi11 Xilc
 σX X 2
i11 i12
σX i12
σXi12 Xilc 
Σ=
 
.. ... .. 
 . . 
2
σXi11 Xilc ··· σXil(c−1) Xilc σX ilc

54
Pour pouvoir écrire les différents tests relatifs à l’effet des facteurs et à leur interaction, on
décompose la donnée Xijk du sujet i lors de la combinaison de la jème modalité du facteur A
et de la kème modalité du facteur B de la manière suivante :
Xijk = µijk + εijk = µ + αj + βk + (αβ)jk + δi + (αδ)ij + (βδ)ik + (αβδ)ijk + εijk où

µ est la moyenne générale de toutes les données


αj est l’effet principal du facteur A
βk est l’effet principal du facteur B
(αβ)jk est l’interaction entre les facteurs A et B
δi est l’effet principal du facteur “sujet”
(αδ)ij est l’interaction entre le facteur A et le facteur “sujet”
(βδ)ik est l’interaction entre le facteur B et le facteur “sujet”
(αβδ)ijk est entre le facteur “sujet” et les deux facteurs A et B
εijk est le terme d’erreur (de distribution normale de moyenne 0)

Ces différents effets sont définis par les relations suivantes


µijk = µ + αj + βk + (αβ)jk + δi + (αδ)ij + (βδ)ik + (αβδ)ijk avec
n l c
1 XXX
µ = µijk où µijk = E (Xijk )
nlc i=1 j=1 k=1
n c
1 XX
αj = µ•j• − µ où µ•j• = µijk
nc i=1 k=1
n l
1 XX
βk = µ•.k − µ où µ•.k = µijk
nl i=1 j=1
n
1X
(αβ)jk = µ•jk − µ où µ•jk = µijk
n i=1
l c
1 XX
δi = µi•• − µ où µi•• = µijk
lc j=1 k=1
c
1X
(αδ)ij = µij• − µ où µij• = µijk
c k=1
l
1X
(βδ)ik = µi•k − µ où µi•k = µijk
l j=1
 
(αβδ)ijk = µijk − µ + αj + βk + (αβ)jk + δi + (αδ)ij + (βδ)ik

Le dernier terme (αβδ)ijk correspond à l’interaction entre le facteur “sujet” et les facteurs A
et B, cette interaction est appelée interaction d’ordre deux dans la mesure où elle fait intervenir
trois variables. Ce terme est confondu avec le terme d’erreur ou résiduel (comme dans le cas
des mesures répétées, plan Sn ∗ Tp ).
Il est intéressant de noter que par définition de ces effets, les relations suivantes sont vérifiées
l
X c
X l
X c
X
αj = 0, βk = 0, (αβ)jk = (αβ)jk = 0,
j=1 k=1 j=1 k=1

55
n
X n
X l
X n
X c
X
δi = 0, (αδ)ij = (αδ)ij = 0, (βδ)ik = (βδ)ik = 0
i=1 i=1 j=1 i=1 k=1

n
X l
X c
X
et (αβδ)ijk = (αβδ)ijk = (αβδ)ijk = 0
i=1 j=1 k=1

Ces relations permettent d’écrire simplement les tests relatifs aux différents effets des facteurs
fixes 52 .
1. L’effet principal du facteur A est testé par
(
(A)
H0 : α1 = α2 = · · · = αl = 0 (absence d’effet)
(A) (A)
H1 : négation de H0 (∃ j ∈ {1, · · · , l} tel que αj 6= 0)

2. L’effet principal du facteur B est testé par


(
(B)
H0 : β1 = β2 = · · · = βc = 0 (absence d’effet)
(B) (B)
H1 : négation de H0 (∃ k ∈ {1, · · · , c} tel que βk 6= 0)

3. L’effet d’interaction entre les facteurs A et B est testé par


(
(AB)
H0 : (αβ)11 = (αβ)12 = · · · = (αβ)jk = · · · = (αβ)lc = 0 (absence d’effet)
(AB) (AB)
H1 : négation de H0 (∃ j, k tel que (αβ)jk 6= 0)

D’autres hypothèses peuvent également être testées en combinant ces trois hypothèses prin-
cipales : l’effet du facteur A (en combinant les tests 1. et 3.), l’effet du facteur B (en combinant
les tests 2. et 3.) et l’effet conjoint des deux facteurs (en combinant les trois tests).
L’analyse de variance à deux facteurs A et B, mesures complètement répétées, s’effectue
en décomposant la somme des carrés des écarts à la moyenne générale, appelée Somme des
Carrés des écarts Totaux et notée SCT , en sept sommes de carrés, la Somme de Carrés d’écarts
expliqués par le facteur A (ou inter lignes), notée SCA , la Somme de Carrés d’écarts expliqués
par le facteur B (ou inter colonnes), notée SCB , la Somme des Carrés d’écarts expliqués par
l’interaction entre les deux facteurs A et B, notée SCAB , la Somme des Carrés des écarts
expliqués par le facteur “sujet” S (ou inter sujets), notée SCS , la Somme des Carrés d’écarts
expliqués par l’interaction entre le facteur A et le facteur “sujet” S, notée SCAS , la Somme
des Carrés d’écarts expliqués par l’interaction entre le facteur B et le facteur “sujet” S, notée
SCBS et la Somme de Carrés d’écarts Résiduelle ou intra, notée SCR (qui est confondue avec la
somme de carrés d’écarts expliqués par l’interaction entre le facteur “sujet” et les deux facteurs
A et B, parfois notée SCABS ). A chacune de ces sommes correspond un nombre de degrés de
liberté noté d.d.l.. Cette décomposition, appelée équation fondamentale de l’analyse de variance
à deux facteurs (A et B), mesures complètement répétées, est donnée ci-dessous.

52. On propose parfois des tests permettant de mettre à l’épreuve l’absence d’effet des facteurs A et B lorsqu’ils
sont aléatoires ; ces tests ne sont pas exacts mais approximatifs (voir par exemple, Abdi opcit).

56
Equation fondamentale de l’analyse de variance :

2 2
SCT = ni=1 lj=1 ck=1 (Xijk − X) = cn lj=1 (X •j• − X)
P P P P

(d.d.l. : nlc − 1 = N − 1) notée SCA (d.d.l. : l − 1)


2
+ ln ck=1 (X ••k − X)
P
notée SCB (d.d.l. : c − 1)
2
+ n lj=1 ck=1 (X .jk − X •j• − X ••k + X)
P P

notée SCAB (d.d.l. : (l − 1)(c − 1))


2
+ lc ni=1 (X i•• − X)
P
notée SCS (d.d.l. : n − 1)
2
+ c ni=1 lj=1 (X ij• − X i•• − X •j• + X)
P P

notée SCAS (d.d.l. : (n − 1)(l − 1))


2
+ l ni=1 ck=1 (X i•k − X i•• − X ••k + X)
P P
notée SCBS (d.d.l. : (n − 1)(c − 1))
Pn Pl Pc
+ i=1 j=1 k=1 (Xijk + X i•• + X •j• + X ••k
2
−X ij• − X i•k − X •jk − X)
notée SCR (d.d.l. : (n − 1)(l − 1)(c − 1))

On calcule ensuite les Carrés Moyens associés à ces sept sommes de carrés, notés res-
pectivement CMA , CMB , CMAB , CMS , CMAS , CMBS et CMR . Les statistiques de décision
permettant de mettre à l’épreuve les hypothèses d’absence d’effet du facteur A, d’absence d’ef-
fet du facteur B et d’absence d’interaction entre les deux facteurs A et B sont les quotients
des carrés moyens associés à ces trois sources de variation et du carré moyen intra associé
(A) (B) (AB)
(CMAS , CMBS et CMR respectivement), dont la loi de probabilité, sous H0 , H0 et H0
respectivement et sous les hypothèses de normalité multivariée et de régularité de la matrice de
variance-covariance (voir ci-dessous), est un F de Fisher-Snédécor de degrés de libertés corres-
pondant à ceux de ces carrés moyens utilisés. Ces résultats sont habituellement présentés dans
le tableau de l’analyse de variance page suivante.

Si l’hypothèse de normalité multivariée des vecteurs-profil Xi est vérifiée et si la matrice de


2
variance-covariance Σ a la forme particulière induite par la propriété que les variances σX ijk
0
sont homogènes (soit σ 2 leur valeur commune), les corrélations entre deux modalités j et j du
facteur A sont homogènes (soit ρ2 leur valeur commune), les corrélations entre deux modalités
0
k et k du facteur B sont homogènes (soit ρ1 leur valeur commune) et les corrélations entre une
modalité j du facteur A et une modalité k du facteur B sont homogènes (soit ρ3 leur valeur
commune) 53 , les statistiques de décision sont :
53. Par exemple, si le facteur A possède l = 2 modalités et le facteur B c = 3 modalités, le vecteur Xi est
donné par
0
Xi = Xi11 Xi12 Xi13 Xi21 Xi22 Xi23
dont la matrice de variance-covariance (symétrique) doit donc avoir la forme suivante
 
1 ρ1 ρ1 ρ2 ρ3 ρ3
 ρ1 1 ρ1 ρ3 ρ2 ρ3 
 
 ρ1 ρ1 1 ρ3 ρ3 ρ2 
Σ = σ2 · 
 ρ2 ρ3 ρ3 1 ρ1
.
 ρ1 
 ρ3 ρ2 ρ3 ρ1 1 ρ1 
ρ3 ρ3 ρ2 ρ1 ρ1 1

57
- pour le test (1) de l’effet principal du facteur A,

CMA
F (A) = ∼ Fl−1,(l−1)(n−1) , F de Fisher à (l − 1, (l − 1)(n − 1))) d.d.l.,
CMAS

- pour le test (2) de l’effet principal du facteur B,

CMB
F (B) = ∼ Fc−1,(c−1)(n−1) , F de Fisher à (c − 1, (c − 1)(n − 1)) d.d.l. et
CMBS

- pour le test (3) de l’effet d’interaction entre les facteurs A et B,

CMAB
F (AB) = ∼ F(l−1)(c−1),(l−1)(c−1)(n−1) , à (l − 1)(c − 1), (l − 1)(c − 1)(n − 1) ddl
CMR

Tableau de l’analyse de variance :

Source de d.d.l. Somme des Carré Moyen Rapports F


SC
variation Carrés(SC) (CM = d.d.l. )

CMA
inter l−1 SCA CMA F (A) = CM AS

lignes (A) Fl−1,(l−1)(n−1)

CMB
inter c−1 SCB CMB F (B) = CM BS

colonnes (B) Fc−1,(c−1)(n−1)

inter n−1 SCS CMS


sujets (S)

CMAB
interaction (l − 1)× SCAB CMAB F (AB) = CMR

A×B (c − 1) F(l−1)(c−1),(l−1)(c−1)(n−1)

interaction (l − 1)× SCAS CMAS


A×S (n − 1)

interaction (c − 1)× SCBS CMBS


B×S (n − 1)

intra (l − 1)× SCR CMR


(résidu) (c − 1)×
(n − 1)
Total N −1 SCT

Pour le calcul des sommes de carrés (SC), on pourra utiliser les formules équivalentes

58
suivantes :

n X
l X
c n X
l X
c
X 2 X T2
SCT = (Xijk − X) = Xijk 2 −
i=1 j=1 k=1 i=1 j=1 k=1
N
l l 2
X 2 X T•j• T2
SCA = cn (X •j• − X) = −
j=1 j=1
cn N
c c 2
X 2 X T••k T2
SCB = ln (X ••k − X) = −
k=1 k=1
ln N
n n 2
X 2 X Ti•• T2
SCS = lc (X i•• − X) = −
i=1 i=1
lc N
l Xc
X 2
SCAB = n (X •jk − X •j• − X ••k + X)
j=1 k=1
l X
c 2 l 2 c 2
X T•jk X T•j• X T••k T2
= − − +
j=1 k=1
n j=1
cn k=1
ln N
n X
l
X 2
SCAS = c (X ij• − X i•• − X •j• + X)
i=1 j=1
n X
l 2 n l 2
X Tij• X T2 i••
X T•j• T2
= − − +
i=1 j=1
c i=1
lc j=1
cn N
n X c
X 2
SCBS = l (X i•k − X i•• − X ••k + X)
i=1 k=1
n X
c n c
X T2 i•k
X T2 i••
X T2 ••k T2
= − − +
i=1 k=1
l i=1
lc k=1
ln N
SCR = SCT − (SCA + SCB + SCAB + SCS + SCAS + SCBS )
n Xl Xc
X 2
= (Xijk + X i•• + X •j• + X ••k − X ij• − X i•k − X •jk − X)
i=1 j=1 k=1
n X
l X
c l 2 c n
X
2
X T•j• X T2 ••k
X T2 i••
= Xijk + + +
i=1 j=1 k=1 j=1
cn k=1
ln i=1
lc
n X
l 2 n X
c l X
c 2
X Tij• X T2 i•k
X T•jk T2
− − − −
i=1 j=1
c i=1 k=1
l j=1 k=1
n N

où

59
désigne le total du sujet i, Ti•• = lj=1 ck=1 Xijk ,
P P
Ti••
T•j• désignePle total de la ligne j (modalité j = 1, · · · , l du facteur A)
n Pc
T•j• = i=1 k=1 Xijk ,
T••k désigne le total de la colonne k (modalité k = 1, · · · , c du facteur B)
T••k = ni=1 lj=1 Xijk ,
P P

Tij• désignePle total des données du sujet i lors de la modalité j du facteur A


Tij• = ck=1 Xijk
Ti•k désigne le total des données du sujet i lors de la modalité k du facteur B
Ti•k = lj=1 Xijk
P

T•jk désigne le total des données lors du croisement


Pn de la modalité j du facteur A
et de la modalité k du facteur B, T•jk = i=1 Xijk , et

T le total général des observations,


T = ni=1 Ti•• = lj=1 T•j• = ck=1 T••k = ni=1 lj=1 ck=1 Xijk .
P P P P P P

Si la matrice de variance-covariance Σ a la forme donnée précédemment, l’estimateur sans


biais de la variance σ 2 est le carré moyen résiduel ou intra CMR . Aucun test simple ne permet
de mettre à l’épreuve l’hypothèse relative à la forme de cette matrice ; le choix de ce modèle
reposera donc sur la connaissance préalable du phénomène étudié.

Lorsque cette hypothèse d’homogénéité des variances et des corrélations entre les différen-
tes modalités des deux facteurs (voir ci-dessus) ne semble pas vérifiée, il est possible d’utili-
ser le modèle de l’analyse de variance multivariée (MANOVA) pour lequel aucune structure
particulière de la matrice de variance-covariance Σ n’est requise. Cependant, cette technique
nécessite l’estimation de tous les paramètres de cette matrice, soit lc(lc + 1)/2 paramètres. Elle
a donc l’inconvénient d’entraı̂ner une baisse considérable de la puissance du test et de n’être
applicable que lorsque le nombre de sujets est important ; plus précisément, il faut que n > lc.
Remarquons que l’analyse de variance multivariée (MANOVA) permet également de traiter du
plan Sn ∗ Tp (mesures répétées sur un seul facteur) lorsque la matrice de variance-covariance
ne satisfait pas l’hypothèse de circularité (voir Section 6.2). Mais à nouveau, cette méthode
entraı̂ne une perte de puissance et requiert un nombre important de sujets.

6.5 Deux facteurs, plan Sn < GK > ∗Tp

Nous nous limiterons donc au plan équilibré (n sujets dans chacun des K groupes). Les sujets
sont donc emboı̂tés dans K groupes indépendants et croisés avec les p modalités du facteur A
(souvent appelé “traitement”).

Soient K échantillonsindépendantsde n vecteurs aléatoires i.i.d. de dimension p, c’est-à-dire


∀ groupe i = 1, · · · , K, (Xijk )j=1,··· ,p , où
k=1,··· ,n

60
Xijk : v.a. du sujet k dans le groupe i lors de la jème répétition
n : effectif de chacun des K groupes
K : nombre de groupes indépendants (ou modalités du facteur G)
p : nombre de répétitions (ou modalités du facteur A)
X i•• : moyenne du groupe i (i = 1, · · · , K)
X •j• : moyenne de la répétition j (j = 1, · · · , p)
X ij• : moyenne du groupe i lors de la répétition j
X i•k : moyenne du kème sujet du groupe i (lors des différentes répétitions j)
X ••• : moyenne générale (parfois notée X)
N : nombre de sujets (N = nK)

On considère le vecteur-profil des données d’un même sujet k du groupe i lors des p
répétitions,  
Xi1k
 Xi2k 
 . 
 . 
 . 
Xik = 
 Xijk 

 . 
 .. 
Xipk
On suppose qu’au sein d’un même groupe i fixé (i = 1, · · · , K), ces vecteurs constituent un
échantillon aléatoire i.i.d. suivant une loi normale multivariée de dimension p, d’espérance µi et
de matrice de variance-covariance Σi , c’est-à-dire ∀i = 1, · · · , K, les n ve. a. Xik (k = 1, · · · , n),
sont i.i.d. ∼ Np (µi , Σi ) avec le vecteur µi des espérances µij , j = 1, · · · , p
 
µi1
 µi2 
 . 
 . 
 . 
µi = 
 µij 

 . 
 .. 
µip
2
et la matrice de variance-covariance (symétrique) Σi , où σX ij
est la variance de la donnée Xijk
de chaque sujet k du groupe i lors de la répétition j et σXij1 Xij2 est la covariance entre les
données Xij1 k et Xij2 k d’un même sujet k du groupe i lors des répétitions j1 et j2 ,
 
2
σX i1
σX i1 X i2
· · · σX i1 X ij
· · · σ Xi1 X ip
2
 σX X
 i1 i2
σX i2
σXi2 Xij · · · σXi2 Xip  
 .. . . .. 
 . . . 
Σi =   2

σX i1 X ij
σX ij
σ X ij Xip

.. ..
 
..
.
 
 . . 
2
σXi1 Xip ··· · · · σXij Xip σX ip

Il est souvent intéressant de tester l’effet du facteur “groupe” G, l’effet du facteur “répétition”
A et l’effet d’interaction entre ces deux facteurs. Pour pouvoir écrire ces différents tests, on
décompose l’espérance µij = E(Xijk ), de la donnée d’un sujet k dans le groupe i lors de
la répétition j, Xijk , en la moyenne générale µ, l’effet du facteur G, αi , l’effet du facteur
“répétition” A, βj , et l’effet de l’interaction entre ces deux facteurs, (αβ)ij ,

61
µij = µ + αi + βj + (αβ)ij avec
K p
1 XX
µ = · µij
Kp i=1 j=1
p
1X
αi = µi• − µ où µi• = µij
p j=1
K
1 X
βj = µ•j − µ où µ•j = µij et
K i=1
(αβ)ij = µij − µi• − µ•j + µ = µij − αi − βj − µ

Le modèle peut donc également s’écrire

Xijk = µ + αi + βj + (αβ)ij + εijk

où, pour chaque groupe i fixé (i = 1, · · · , K), les vecteurs aléatoires de résidus εik définis par
0
εik = (εi1k , εi2k , · · · , εijk , · · · εipk )

constituent un échantillon aléatoire i.i.d. suivant la loi normale multivariée de dimension p,


d’espérance nulle et de matrice de variance-covariance Σi introduite ci-dessus. Autrement dit,
∀ groupe i = 1, · · · , K, les n vecteurs aléatoires εik (k = 1, · · · , n) sont i.i.d. ∼ Np (0, Σi ) avec
0
0 = 0 ··· 0 ··· 0 .
L’effet principal du facteur “groupe” se traduit par les αi correspondant aux K modalités
de ce facteur (G), l’effet principal du facteur “répétition” se traduit par les βj correspondant
aux p modalités de ce facteur (A) et l’effet d’interaction entre les facteurs G et A par les (αβ)ij
correspondant aux pK modalités du croisement de ces deux facteurs 54 .
1. L’effet principal du facteur “groupe” (facteur G) est testé par
(
(G)
H0 : α1 = α2 = · · · = αK = 0
(G) (G)
H1 : négation de H0 (∃ i tel que αi 6= 0)

2. l’effet principal du facteur “répétition” (facteur A) par


(
(A)
H0 : β1 = β2 = · · · = βp = 0
(A) (A)
H1 : négation de H0 (∃ j tel que βj 6= 0)

54. Il est intéressant de noter que, suivant la définition de ces effets, on a


K
X p
X K
X p
X
αi = 0, βj = 0 et (αβ)ij = (αβ)ij = 0
i=1 j=1 i=1 j=1

et que l’effet d’interaction (ou de non-parallélisme des profils) peut également s’écrire

(αβ)ij = (µij − µ) − (µi• − µ) − (µ•j − µ) = (µij − µ) − αi − βj

62
3. et l’effet d’interaction entre les deux facteurs par
(
(GA)
H0 : (αβ)11 = (αβ)12 = · · · = (αβ)Kp = 0
(GA) (GA)
H1 : négation de H0 (∃ i, j tel que (αβ)ij 6= 0)

D’autres hypothèses peuvent également être testées en combinant ces trois hypothèses prin-
cipales : l’effet du facteur “groupe” (en combinant les tests 1. et 3.), l’effet du facteur “répétition”
(en combinant les tests 2. et 3.) et l’effet conjoint des deux facteurs (en combinant les trois
tests).
L’analyse de variance à deux facteurs, plan Sn < GK > ∗Tp , s’effectue en décomposant
la somme des carrés des écarts à la moyenne générale, appelée Somme des Carrés des écarts
Totaux et notée SCT , en cinq sommes de carrés, la Somme de Carrés d’écarts expliqués par
le facteur “groupe” G (ou inter groupes), notée SCG , la Somme de Carrés d’écarts expliqués
par le facteur “répétition” A (ou inter répétitions), notée SCA , la Somme des Carrés d’écarts
expliqués par l’interaction entre les deux facteurs G et A, notée SCGA et la Somme de Carrés
d’écarts non expliqués par les deux facteurs et par l’interaction, Résiduelle ou intra, est cette
fois décomposée en deux termes : la Somme de Carrés d’écarts expliqués par la variabilité entre
les sujets à l’intérieur de leur groupe, notée SCR1 , et la Somme de Carrés d’écarts expliqués par
l’interaction entre les sujets et le traitement à l’intérieur de leur groupe, notée SCR2 . A chacune
de ces sommes correspond un nombre de degrés de liberté noté d.d.l.. Cette décomposition,
appelée équation fondamentale de l’analyse de variance à deux facteurs (F et G), échantillons
indépendants, est donnée ci-dessous.

Equation fondamentale de l’analyse de variance :


PK Pp Pn 2 PK Pp Pn 2
SCT = i=1 j=1 (Xijk − X)
k=1 = i=1 j=1 (X i•• − X)
k=1
(d.d.l. : N p − 1) notée SCG (d.d.l. : K − 1)
PK Pp Pn 2
+ i=1 j=1 k=1 (X •j• − X)
notée SCA (d.d.l. : p − 1)
PK Pp Pn 2
+ i=1 j=1 k=1 (X ij• − X i•• − X •j• + X)
notée SCGA (d.d.l. : (K − 1)(p − 1))
PK Pp Pn 2
+ i=1 j=1 k=1 (X i•k − X i•• )
notée SCR1 (d.d.l. : N − K))
PK Pp Pn 2
+ i=1 j=1 k=1 (Xijk − X ij• − X i•k + X i•• )
notée SCR2 (d.d.l. : (p − 1)(N − K))

On calcule ensuite les Carrés Moyens associés à ces cinq sommes de carrés, notés respective-
ment CMG , CMA , CMGA , CMR1 et CMR2 . Les statistiques de décision permettant de mettre
à l’épreuve les hypothèses d’absence d’effet du facteur G, d’absence d’effet du facteur A et
d’absence d’interaction entre les deux facteurs sont les quotients des carrés moyens associés
à ces trois sources de variation et d’un carré moyen résiduel (CMR1 ou CMR2 ), dont la loi
(G) (A) (GA)
de probabilité, sous H0 , H0 et H0 respectivement et sous les hypothèses de normalité
multivariée et de régularité de la matrice de variance-covariance (voir ci-dessous), est un F
de Fisher-Snédécor de degrés de libertés correspondant à ceux de ces carrés moyens utilisés.
Ces résultats sont habituellement présentés dans le tableau de l’analyse de variance donné page
suivante.

63
Si les hypothèses de normalité multivariée des résidus εik , et d’homogénéité et de circularité
des matrices de variance-covariance de ces résidus Σi sont vérifiées, c’est-à-dire εik ∼ N (0, Σi ),
∀i, k avec Σi homogènes et circulaires (voir Chapitre 4), les statistiques de décision sont :
- pour le test (1) de l’effet principal du facteur G,

CMG
F (G) = ∼ FK−1,N −K , F de Fisher à (K − 1, N − K)) d.d.l.,
CMR1

- pour le test (2) de l’effet principal du facteur A,

CMA
F (A) = ∼ Fp−1,(p−1)(N −K) , F de Fisher à (p − 1, (p − 1)(N − K)) d.d.l. et
CMR2

- pour le test (3) de l’effet d’interaction entre les facteurs G et A,

CMGA
F (GA) = ∼ F(K−1)(p−1),(p−1)(N −K) , à ((K − 1)(p − 1), (p − 1)(N − K)) ddl
CMR2

Tableau de l’analyse de variance :

| Source de | d.d.l. | Somme des | Carré Moyen | Rapports F |


SC
| variation | | Carrés(SC) | (CM = d.d.l. ) | |
| | | | | |
| inter | K −1 | SCG | CMG | |
CMG
| groupes (G) | | | | F (G) = CM R1
∼ |
| | | | | FK−1,N −K |
| intra | N −K | SCR1 | CMR1 | |
| groupes | | | | |
| | | | | |
| | | | | |
CMA
| inter | p−1 | SCA | CMA | F (A) = CM R2
∼ |
| répét. (A) | | | | F(p−1),(p−1)(N −K) |
| | | | | |
| interaction | (p − 1)× | SCGA | CMGA | F (GA) = CM GA
CMR2
∼ |
|G×A | (K − 1) | | | F(p−1)(K−1),(p−1)(N −K) |
| | | | | |
| interaction | (p − 1)× | SCR2 | CMR2 | |
| sujet et | (N − K) | | | |
| répétition | | | | |
| | | | | |
| Total | Np − 1 | SCT | | |
| | | | | |

Rappelons que les sommes de carrés d’écarts et les degrés de liberté sont additifs. Pour le

64
calcul des sommes de carrés (SC), on pourra utiliser les formules équivalentes suivantes :

p
K X n p
K X n
X X 2 X X T2
SCT = (Xijk − X) = Xijk 2 −
i=1 j=1 k=1 i=1 j=1 k=1
Np
K K
X 2 X T2 i•• T2
SCG = np (X i•• − X) = −
i=1 i=1
np Np
p p2
X 2 X T•j• T2
SCA = nK (X •j• − X) = −
j=1 j=1
nK Np
K X
n K X
n K
X 2 X Ti•k 2 X T2 i••
SCR1 = p (X i•k − X i•• ) = −
i=1 k=1 i=1 k=1
p i=1
pn
K p
XX 2
SCGA = n (X ij• − X i•• − X •j• + X)
i=1 j=1
p
K X 2 K p 2
X Tij• X T2 i••
X T•j• T2
= − − +
i=1 j=1
n i=1
np j=1
nK Np
SCR2 = SCT − (SCG + SCA + SCGA + SCR1 )
K Xp n
X X 2
= (Xijk − X ij• − X i•k + X i•• )
i=1 j=1 k=1
p
K X n p
K X 2 K X
n K
X X X Tij• X T2 X T2 i••
= Xijk 2 − − i•k
+
i=1 j=1 k=1 i=1 j=1
n i=1 k=1
p i=1
np

où
Tij• désignePle total de la case (i, j), répétition j dans le groupe i
Tij• = nk=1 Xijk ,
Ti•• désignePle total
Pndu groupeP i,
Ti•• = j=1 k=1 Xijk = pj=1 Tij• ,
p

T•j• désigne le total de la répétition j,


T•j• = K
P Pn PK
i=1 k=1 X ijk = i=1 Tij• ,
Ti•k désignePle total du sujet i du groupe k (pour les différentes répétitions),
Ti•k = pj=1 Xijk et
T le total général des N p observations,
T = K
P Pp Pn PK Pp
i=1 j=1 k=1 Xijk = i=1 Ti•• = j=1 T•j• .

Supposons que les K matrices de variance-covariance Σi sont homogènes, c’est-à-dire Σi =


Σ, ∀ i = 1, · · · , K. Si les p variables aléatoires correspondant aux différents traitements ont
même variance (σ 2 ) et si les covariances entre ces variables prises deux par deux sont égales
(σ 2 ρ), la matrice Σ est circulaire (mais cette condition n’est pas nécessaire). Dans ce cas, cette

65
matrice a la forme particulière suivante
 
1 ρ ρ ··· ··· ρ
 ρ 1 ρ ··· ··· ρ 
..
 
.
ρ 1 ρ ··· ρ 
 

2
Σ=σ  ..
.. . . . . . . . . .. 
 .. . . 

 .... .. 
 . . . 1 ρ 
ρ ρ ··· ρ ρ 1

et l’estimateur sans biais de la variance commune σ 2 dans chacune des populations est le carré
moyen résiduel (ou intra) CMR2 .
En général, l’estimateur sans biais de la matrice de variance-covariance commune Σ est la
matrice pondérée des estimateurs sans biais de chacune des variances et des covariances prises
séparément pour chacun des K groupes ; cette matrice, notée S̃, est définie au Chapitre 4.
Lorsque l’hypothèse d’homogénéité des matrices de variance-covariance est vérifiée mais
que la matrice de variance-covariance commune Σ n’est pas circulaire, on peut utiliser une
procédure approchée basée sur la quantité ε définie ci-dessus (voir Section 6.2). Rappelons
que cette quantité est toujours comprise entre 1/(p − 1) et 1, que ε = 1 pour une matrice
circulaire et que plus la valeur de ε s’éloigne de 1, moins la matrice est circulaire.
En pratique, on estime ε en remplaçant la matrice Σ inconnue par son estimateur sans biais
S̃. Trois procédures approchées sont disponibles.
1. Le test ε-ajusté consiste à modifier les degrés de liberté du F utilisé pour mettre à l’épreuve
(G)
les hypothèses nulles. Plus précisément, si les matrices Σi sont homogènes, sous H0 , la
statistique F (G) n’est pas modifiée
CMG
F (G) = ∼ FK−1,N −K
CMR1
(A)
sous H0 , on a approximativement
CMA
F (A) = ∼ Fε(p−1),ε(N −K)(p−1)
CMR2
(GA)
et sous H0 , on a approximativement
CMGA
F (GA) = ∼ Fε(p−1)(K−1),ε(N −K)(p−1)
CMR2
Ce type de procédure revient à diminuer le nombre de degrés de libertés de la statistique
F et donc, pour un même seuil de signification α, à augmenter la valeur critique rendant
(A) (GA)
ainsi plus difficile le rejet de H0 et H0 .
2. Une autre procédure, la procédure conservatrice, consiste à prendre la valeur
1
ε=
p−1
(A)
c’est-à-dire à considérer que sous H0 , la statistique de décision
CMA
F (A) = ∼ F1,N −K
CMR2

66
(GA)
et sous H0 , la statistique de décision

CMGA
F (GA) = ∼ FK−1,N −K
CMR2

utilisant ainsi la statistique pour laquelle le nombre de degrés de liberté est minimal. Bien
qu’elle présente l’avantage de ne pas nécessiter l’estimation de ε, cette procédure présente
l’inconvénient de réduire la puissance du test.
3. Une troisième procédure est parfois proposée, il s’agit d’une procédure à trois pas. On
commence par effectuer le test conventionnel comme si la matrice Σ était circulaire. Si on
(A) (GA)
ne rejette pas une des deux hypothèses H0 ou H0 , on ne peut pas prouver l’existence
d’un effet (du facteur “répétition” ou d’interaction entre “groupe” et “répétition”) et on
peut arrêter le travail pour cette hypothèse. Par contre, si on peut rejeter une de ces deux
hypothèses nulles, on passe à la procédure conservatrice. Si cette procédure confirme le
rejet de l’hypothèse nulle, on peut conclure à l’existence d’un effet (du facteur “répétition”
ou d’interaction entre “groupe” et “répétition”) au seuil α fixé ; la procédure est donc
terminée. Dans le cas contraire, on utilise le test ε-ajusté pour lever la contradiction entre
les deux premières procédures utilisées.
Lorsque les hypothèses d’homogénéité et de circularité des matrices de variance-covariance
ne sont pas vérifiées, il est également possible d’utiliser la technique de l’analyse de variance
multivariée (MANOVA). Cette méthode a l’inconvénient d’être peu puissante et de nécessiter
des échantillons d’effectif très important.

67
7 LA METHODE DES CONTRASTES
Dans le modèle de l’analyse de variance, les contrastes permettent de comparer deux moyennes
ou plus généralement deux ensembles de moyennes (ou espérances).
La méthode des contrastes est applicable aux différents plans de l’analyse de la variance
étudiés au Chapitre 6 ; pour simplifier l’exposé, nous présentons d’abord ci-dessous le cas
particulier du plan S < GK >, un facteur G et K échantillons indépendants (6.1). A la fin de
ce chapitre, vous trouverez le principe permettant de traiter le cas général, en tenant compte
du terme d’erreur adéquat et de son degré de liberté (voir 7.5).

7.1 Les contrastes


7.1.1 Définition
Un contraste λ est une combinaison linéaire des moyennes µj dont la somme des coefficients
est égale à 0, c’est-à-dire
K
X XK
λ= cj µj avec cj = 0
j=1 j=1

où K est le nombre de degrés du facteur considéré. Par exemple, pour comparer les degrés 1 et
2 d’un facteur, on prendra le contraste λ = µ1 − µ2 , c’est-à-dire c1 = 1, c2 = −1 et les autres
coefficients nuls (cj = 0 pour j = 3, · · · , K) ; pour comparer le premier degré du facteur aux
deux suivants réunis (2 et 3), on choisira λ = 2µ1 − (µ2 + µ3 ), c’est-à-dire c1 = 2, c2 = c3 = −1
et les autres coefficients (éventuels) nuls.
On distingue les contrastes a priori (ou planifiés) et les contrastes a posteriori (ou post hoc).
Un contraste a priori permet à un expérimentateur de répondre à une question expérimentale
qu’il a posée dès le départ (lors de la conception du plan expérimental) ; par contre, un contraste
a posteriori est une comparaison effectuée au vu des résultats de l’expérience (c’est-à-dire une
fois l’expérience réalisée).

7.1.2 Inférence sur un contraste


Pratiquement, on effectuera un test d’hypothèses sur un contraste λ de la forme

H0 : λ=0
H1 6 0 (ou λ > 0 ou λ < 0)
: λ=

ou on tentera d’estimer ce contraste λ par intervalle de confiance au niveau 1−α, noté IC1−α (λ).
Un contraste λ = K
P PK
j=1 cj µj sera estimé par la statistique L = j=1 cj X j , la combinaison
linéaire appliquée aux moyennes observées. Cet estimateur est un estimateur sans biais du
contraste λ. De plus, si les hypothèses de normalité et d’homoscédasticité au sein des groupes
sont vérifiées,
PK on 2montre que l’estimateur suit une loi normale de moyenne µL = λ et de variance
2 2
σL = σ · j=1 cj /nj ,
K
2
X c2j
L ∼ N (λ, σ · )
j=1
n j

où σ 2 est la variance intra (ou variance de l’erreur).

68
La variance intra σ 2 étant inconnue, on l’estime par son estimateur sans biais, qui, pour le
plan S < GK >, est le carré moyen intra CMR dont le nombre de ddl est N − K (voir 6.1) 55 .
On obtient donc la statistique de décision T suivante (de loi sous H0 )

L L
T =r = ∼ tN −K , t de Student à N − K d.d.l.
c2j SL
CMR · K
P
j=1 nj

et l’intervalle de confiance pour λ au niveau de confiance 1 − α


v
K
c2j
u
u X
IC1−α (λ) = L ± tN −K,1−α/2 · tCMR · ou L ± tN −K,1−α/2 · SL
j=1
n j

où SL désigne l’erreur-type de l’estimateur L et CMR = K 2


P
j=1 (nj − 1)Sj /(N − K) (voir 6.1).
On peut également utiliser une statistique F de Fisher à (1, N − K) ddl. En effet, il est
possible de montrer que la somme des carrés des écarts provenant du contraste (c’est-à-dire de
l’opposition des deux groupes de moyennes), notée SCλ , est donnée par

L2
SCλ = P c2j
K
j=1 nj

et que cette somme de carrés d’écarts n’a qu’un seul degré de liberté ; donc le carré moyen
associé à un contraste est donné par CMλ = SCλ .
Il suffit donc de procéder comme dans le tableau de l’analyse de variance pour obtenir 56
CMλ
F = ∼ F1,N −K , F de Fisher-Snedecor à (1, N − K) ddl.
CMR

Notons que lorsque le plan est équilibré (nj = n constant ∀ j), la somme des carrés des
écarts provenant du contraste peut se calculer par

n · L2
SCλ = PK 2 .
j=1 cj

7.1.3 L’orthogonalité des contrastes


Pour le plan 57 équilibré Sn < GK >, deux contrastes λ1 = K
P PK
j=1 c1j µj et λ2 = j=1 c2j µj
sont orthogonaux si la somme des produits des coefficients est égale à 0, c’est-à-dire
K
X
c1j c2j = 0
j=1

55. Rappelons ici que dans le cas général, on prendra le carré moyen de l’erreur associé au facteur étudié avec
son degré de liberté (voir Chapitre 6, sections 6.1 à 6.5).
56. Notons néanmoins que cette statistique F ne permet pas de construire un intervalle de confiance sur la
2
valeur du contraste ni d’effectuer un test unilatéral. Il est également intéressant de noter que T 2 = SL2 = F .
PK c c L
57. Dans le cas général (plan non équilibré), la condition d’orthogonalité devient j=1 1jnj2j = 0 ; mais cette
condition est beaucoup moins fréquemment vérifiée car elle donne lieu à des coefficients difficile à justifier dans
la pratique.

69
Pour un facteur à K degrés, on peut trouver K − 1 contrastes orthogonaux deux à deux. Par
exemple, si K = 3, les deux contrastes λ1 = µ1 − µ3 et λ2 = µ1 − 2µ2 + µ3 sont orthogonaux et
il n’est pas possible de construire un 3ème contraste orthogonal à ces deux contrastes.
Lorsque le plan est équilibré, si λ1 , · · · , λi , · · · , λK−1 est une famille de K − 1 contrastes
orthogonaux, alors la somme des carrés des écarts expliqués par le facteur G, SCG , est la somme
des sommes des carrés des écarts provenant de ces K − 1 contrastes,
K−1
X
SCG = SCλi = SCλ1 + · · · + SCλi + · · · + SCλK−1
i=1

chacune de ces sommes de carrés d’écarts ayant un seul ddl (voir ci-dessus). De plus, les degrés
de liberté sont également additifs puisque le nombre de ddl de la somme des carrés des écarts
expliqués par le facteur (SCG ) est égal à K − 1. On peut donc construire le tableau suivant

| Source de | d.d.l. | Somme des | Carré Moyen | Rapport F |


SC
| variation | | Carrés (SC) | (CM = d.d.l. ) | |
| | | | | |
CMλ1
| contraste λ1 | 1 | SCλ1 | CMλ1 = SCλ1 | F (1) = CMR
|
.. .. .. ..
| . | . | . | . | |
(i) CMλi
| contraste λi | 1 | SCλi | CMλi = SCλi | F = CMR
|
.. .. .. ..
| . | . | . | . | |
CMλK−1
| contraste λK−1 | 1 | SCλK−1 | CMλK−1 = SCλK−1 | F (K−1) = CMR
|
| | | | | |
| intra | N −K | SCR | CMR = NSC R
−K
| |
| | | | | |
| Total | N −1 | SCT | | |

Sous les conditions d’application de l’analyse de la variance (normalité et homoscédasticité


pour le plan Sn < GK >), la statistique de décision F (i) pour un des contrastes λi est donc

CMλi
F (i) = ∼ F1,N −K , F de Fisher à (1, N − K) ddl
CMR

si on s’intéresse au test d’hypothèses


(
(i)
H0 : λi = 0
(i)
H1 6 0
: λi =

Notons que l’on ne parle de contrastes orthogonaux que dans le cas de comparaisons pla-
nifiées ou a priori (voir 7.2).

7.1.4 Inférence sur une famille de contrastes


Lorsqu’on effectue une inférence sur une famille de contrastes (prenons C contrastes, λ1 , · · · , λC ),
de la forme 
H0 : λ1 = · · · = λi = · · · = λC = 0
H1 : négation de H0 (un des λi est 6= 0)

70
il est important de noter que si la probabilité d’erreur de type I utilisée pour l’inférence sur
chacun de ces contrastes est égale à α, la probabilité qu’il y ait une erreur parmi les C compa-
raisons effectuées n’est en général plus égale à α mais elle lui est de loin supérieure ; on parle de
l’erreur de type I par famille de contrastes par opposition avec l’erreur de type I par contraste. Il
faudra donc être vigilant lorsqu’on souhaite considérer plusieurs contrastes. On distinguera les
cas de contrastes a priori orthogonaux, de contrastes a priori non orthogonaux et de contrastes
a posteriori. Ces différents cas sont développés ci-dessous.

7.2 Comparaisons a priori orthogonales deux à deux


L’inférence à un seuil de signification α fixé, sur une famille de C contrastes orthogonaux
deux à deux planifiés (ou a priori) s’effectue comme C inférences parallèles à ce même seuil
α. On ne distingue donc pas, dans ce cas, la probabilité de l’erreur de type I par contraste
et la probabilité de l’erreur de type I par famille de contrastes. Pour chacun des C contrastes
considérés (λi , i = 1, · · · , C), on utilisera donc (voir Inférence sur un contraste, section 7.1.2)
– la statistique Tλi de loi tN −K de Student avec la région critique au seuil α fixé donnée par

R.C.α (Tλi ) = [−∞; −tN −K,1−α/2 ] ∪ [tN −K,1−α/2 ; +∞[ si test bilatéral ou

R.C.α (Tλi ) = [tN −K,1−α ; +∞[ si test unilatéral à droite


– ou pour un test bilatéral uniquement, la statistique de décision F (i) = CMλi /CMR de loi
F1,N −K de Fisher sous H0 avec la région critique au seuil α fixé pour F (i) donnée par

R.C.α (F (i) ) = {f | f > F1,N −K,1−α } = [F1,N −K,1−α ; +∞[.

7.3 Comparaisons a priori non orthogonales deux à deux


Dans le cas d’une famille de contrastes a priori non othogonaux deux à deux, on distinguera
l’erreur de type I par contraste et l’erreur de type I par famille de contrastes. Si on souhaite
effectuer une inférence sur C contrastes planifiés non orthogonaux, avec une probabilité d’erreur
de type I égale à α fixé pour l’ensemble des C contrastes considérés, il faut ajuster l’erreur de
type I de chacune des C comparaisons ; soit α(C), la probabilité de l’erreur de type I pour
chacun des C contrastes de la famille.

7.3.1 Les tests de Sidàk et de Boole-Bonferroni-Dunn


Il existe un lien entre les deux probabilités d’erreur de type I, α la probabilité pour la
famille de C contrastes et α(C) la probabilité pour chacun des contrastes. Deux inégalités sont
disponibles :
1. l’inégalité de Sidàk
α ≤ 1 − [1 − α(C)]C
2. l’inégalité de Boole-Bonferroni-Dunn

α < C · α(C)

Ces deux ingégalités permettent de choisir le seuil α(C) à utiliser pour chacune des C compa-
raisons de telle sorte que la probabilité de l’erreur de type I pour la famille de C contrastes
soit au maximum égale au seuil α fixé. On peut montrer que l’inégalité de Sidàk est meilleure

71
que celle de Boole-Bonferroni-Dunn (α ≤ 1 − [1 − α(C)]C < C · α(C)). Au lieu de calculer le
seuil α(C) à utiliser pour chacun des C contrastes 58 , dans le cas d’alternatives bilatérales, on
peut lire directement dans les tables les valeurs critiques pour les rapports F (i) = CMλi /CMR
(i = 1, · · · , C) en fonction du nombre C de comparaisons planifiées, du nombre de ddl du
dénominateur ν2 = N − K et du seuil α = 0.05 et α = 0.01 pour la famille de C contrastes, soit
FC,N −K,α (voir Tables statistiques 59 9 et 10). La région critique pour un seuil α fixé pour la
famille de C contrastes a priori non orthogonaux (avec des alternatives H1 bilatérales λi 6= 0),
sera donc pour chacun de ces C contrastes

R.C.α (F (i) ) = {f | f > FC,N −K,α } = [FC,N −K,α ; +∞[

où FC,N −K,α est lu soit dans la table de Sidàk, soit dans la table de Boole-Bonferroni-Dunn.

7.3.2 Le test de Dunnett


Le test de Dunnett s’applique dans le cas où le plan d’expérience comporte un groupe
contrôle et différents groupes expérimentaux et lorsque l’on est uniquement intéressé par les
comparaisons de chacun des groupes expérimentaux avec le groupe contrôle. L’inférence sur
cette famille de K − 1 contrastes a priori non orthogonaux deux à deux (où K est le nombre
CM
de groupes) s’effectue toujours en calculant les rapports F (i) = CMλRi , mais Dunnett a calculé
les valeurs critiques 60 correspondant à cette famille particulière de contrastes, en fonction du
nombre de groupes K, du nombre de ddl du dénominateur N − K et du seuil α fixé pour la
famille de contrastes (α = 0.05 et α = 0.01 pour des alternatives H1 bilatérales λi 6= 0). Ces
valeurs sont tabulées (voir Table statistique 8). Notons que dans ce cas (comparaison de tous
les groupes à un groupe contrôle), il est toujours préférable d’utiliser les valeurs critiques de
Dunnett que celles de Sidàk.

7.4 Comparaisons a posteriori


Lorsqu’un chercheur décide au vu de ses résultats expérimentaux d’effectuer des compa-
raisons (comparaisons dites a posteriori), il ne choisit que les comparaisons qui (au vu des
résultats) ont une chance de donner un résultat significatif. On peut donc dire que ce chercheur
considère toujours toutes les comparaisons possibles même s’il n’en retient que quelques-unes.
Le nombre de comparaisons possibles (non orthogonales deux à deux) augmente très rapide-
ment avec le nombre de groupes (pour K = 4 groupes, il existe déjà 25 contrastes possibles et
pour K = 5 groupes, 90 contrastes). Si on adaptait le seuil α(C) en fonction de ce nombre C
de contrastes possibles pour atteindre une probabilité d’erreur de type I α pour la famille de
tous ces contrastes possibles, on serait très vite amené à prendre α(C) ≈ 0, et aucun de ces
contrastes ne serait significatif.
1/C
58. Si on utilise l’inégalité de Sidàk, on devrait prendre α(C) = 1 − [1 − α] et si on utilise l’inégalité de
Boole-Bonferroni-Dunn, il faudrait α(C) = α/C. Par exemple, pour une probabilité d’erreur de type I égale à
α = 0.05 pour une famille de C = 4 contrastes a priori non orthogonaux, on prendrait respectivement, suivant
l’inégalité de Sidàk, α(C) ≈ 0.01274 et suivant l’inégalité de Boole-Bonferroni-Dunn, α(C) = 0.0125. Notons
que les valeurs critiques des lois tN −K de Student et F1,N −K de Fisher correspondant à ces seuils ne sont
généralesment pas tabulées.
59. Notons qu’il est toujours préférable de choisir la valeur critique donnée par Sidàk que par Boole-Bonferroni-
Dunn, puisque l’inégalité de Sidàk est meilleure que celle de Boole-Bonferroni-Dunn.
60. Ce test de Dunnett est parfois présenté sous une autre forme basée sur la statistique T(λi ) de loi t de
Student avec la table des quantiles correspondants, voir par exemple Howell.

72
7.4.1 La méthode de Scheffé : tous les contrastes
Scheffé a établi que pour un facteur à K degrés (c’est-à-dire K groupes), on peut utiliser
la valeur critique (K − 1) · FK−1,N −K,1−α (où FK−1,N −K,1−α est la quantile d’ordre 1 − α de
CM
la loi F de Fisher aavec (K − 1, N − K) ddl) pour le rapport F (i) = CMλRi de chacun des
contrastes possibles λi , la probabilité qu’il y ait une erreur de type I parmi tous ces contrastes
possibles étant donnée par α. Ce test est conservateur (ou peu puissant) dans la mesure où il
est relativement rare que l’on considère tous les contrastes possibles.
Il est fréquent que l’on présente la méthode de Scheffé sous la forme d’intervalles de confiance
simultanés pour tous les contrastes possibles, IC(λi ), tels que la probabilité qu’un seul de ces
contrastes λ ne soit pas dans son intervalle de confiance IC(λ), est égale à α. Ces intervalles
de confiance, pour un niveau de confiance “global” 1 − α fixé, sont donnés par
v
K
c2j
u
u X
IC1−α (λ) = L ± t(K − 1)FK−1,N −K,1−α · CMR
n
j=1 j
PK PK
pour un contraste λ = j=1 cj µj estimé par L = j=1 cj Xj .

7.4.2 Comparaisons par paires


D’autres méthodes sont disponibles lorsque l’on se restreint à la comparaison (a posteriori)
par paires de tous les groupes.
1. La méthode de Tukey. (Honestly Significant Difference, HSD, 1953)
Pour comparer tous les groupes deux à deux (ou par paires), on range toutes les moyennes
observées, soient X(1) ≤ X (2) ≤ · · · ≤ X (K) ces moyennes rangées en ordre croissant.
Ensuite, on calcule toutes les différences observées L(i,j) = X (j) − X (i) pour i < j (esti-
mation du contraste λ(i,j) = µ(j) − µ(i) ), et les sommes de carrés des écarts 61 provenant
de la comparaison entre ces deux groupes, SCλ(i,j) (∀ i < j). Pour chacun des couples
CMλ
(i, j), on calcule le rapport F(ij) = CM(i,j)
R
que l’on compare à la valeur critique de Tukey
T ukey
Fr=K,ν2 =N −K,α où r = K est le nombre de groupes, ν2 = N − K le nombre de ddl du
dénominateur et α le seuil fixé pour la famille de comparaisons par paires (voir Table
statistique 12). Chacune des paires (i, j) telle que le rapport F(ij) est > à cette valeur
critique, donnera une différence de moyennes significative (µi 6= µj ), la probabilité qu’il
y ait une erreur de type I parmi toutes les comparaisons par paires étant égale à α.
Une autre présentation (plus classique, “Studentized range” ou “q de Student”) du test
de Tukey repose sur des intervalles de confiance simultanés IC1−α (i, j) définis 62 par
X (j) − X (i)
IC1−α (i, j) = q(ij) ± qα (K, N − K) où q(ij) = r  ,
CMR · 12 · n1i + 1
nj

d’où l’on déduit des intervalles de confiance sur λ(i,j) définis par
s  
1 1 1
IC1−α (λ(i,j) ) = X (j) − X (i) ± qα (K, N − K) · CMR · · + ,
2 ni nj
61. Notons que plus i est loin de j, plus la somme des carrés des écarts provenant du contraste sera élevée.
62. Ces IC conviennent que√les paires de moyennes soient ordonnées ou non ; remarquons le lien entre le q et
le t de Student, q(ij) = t(ij) · 2.

73
où ni et nj sont les effectifs des groupes i et j respectivement et qα (K, N − K) est la
valeur critique pour K groupes, le seuil α et N − K, le nombre de ddl du CMR ; les
valeurs critiques qα (K, N − K) sont tabulées (voir Table statistique 11). Tout couple
(i, j) tel que la valeur 0 6∈ IC1−α (i, j) correspondra à une différence significative.
Notons que lorsque le plan est équilibré,
q les IC1−α (λ(i,j) ) possèdent tous la même demi-
longueur, égale à qα (K, N − K) · CM n
R
.
Le lien entre les deux tables pour le test de Tukey (q et F ) est donné par

T ukey qα2 (K, N − K)


FK,N −K,α =
2

2. Le test de Newman-Keuls. Le test de Newman-Keuls est une variante (de type séquentiel)
du test de Tukey pour la famille de comparaisons par paires. On range les moyennes ob-
servées en ordre croissant, soient X (1) ≤ X (2) ≤ · · · ≤ X (K) ces moyennes rangées. Puis
on compare les groupes extrêmes (correspondant à la moyenne la plus petite X (1) et à
la moyenne la plus élevée X (K) ) ; on considère donc le contraste λ(1,K) = µ(K) − µ(1) ,
d’étendue r = K, l’étendue étant définie comme le nombre de moyennes impliquées dans
la comparaison (y compris les extrêmes). Cette comparaison s’effectue par le test de Tu-
key. Si la différence n’est pas significative, on arrête ; sinon, on considère les comparaisons
d’étendue r = K−1, λ(1,K−1) = µ(K−1) −µ(1) et λ(2,K) = µ(K) −µ(2) . Ces deux comparaisons
s’effectuent par la méthode de Tukey en tenant compte que l’étendue r est maintenant
T ukey
égale à K − 1 (on utilise la valeur critique de Tukey FK−1,N −K,α ou qα (K − 1, N − K)).
Tant qu’on obtient une différence significative, on continue en considérant des contrastes
d’étendue diminuée d’une unité (r = K −2, puis r = K −3, . . .) 63 et ce jusqu’à épuisement
de l’ensemble des paires. Il s’agit donc bien d’une procédure séquentielle. Mais cette
procédure de Newman-Keuls, plus puissante que celle de Tukey, a l’inconvénient de ne
pas respecter la condition d’un seuil α fixé pour l’erreur de type I globale.
3. La méthode de Duncan. La méthode de Duncan pour la famille de toutes les compa-
raisons par paires est une procédure séquentielle semblable à celle de Newman-Keuls. La
différence réside dans l’utilisation de tables statistiques différentes : au lieu de la table de
Tukey, on utilise cette fois la table de Duncan (voir Table statistique 13). Notons que
cette méthode est plus pluissante que celle de Newman-Keuls.

7.5 Les autres plans de l’analyse de la variance


La méthode des contrastes s’applique à tous les plans de l’analyse de la variance (et non pas
seulement au cas S < GK > considéré ci-dessus). Dans le cas général, il faut identifier le terme
d’erreur associé au facteur (ou à l’interaction entre les facteurs) dont on veut analyser l’effet. La
variance de l’erreur σ 2 doit toujours être estimée par son estimateur sans biais, le carré moyen
de l’erreur adapté au plan (CMR , CMR1 ou CMR2 ...) dont le nombre de ddl varie d’un plan à
l’autre (voir Chapitre 6) ; par exemple, au lieu d’un ddl égal à N − K, nous pourrons avoir
(n − 1)(p − 1), lc(n − 1), ou encore (p − 1)(N − K) suivant le plan considéré. De plus, le nombre
de contrastes orthogonaux doit être adapté en conséquence : il pourra s’agir de p − 1, de l − 1
ou c − 1, ou encore de (p − 1)(K − 1) suivant le plan de l’analyse de variance.

63. Par exemple si la différence λ(1,K−1) est significative, on considèrera les deux comparaisons λ(1,K−2)
et λ(2,K−1) d’étendue r = K − 2. Ensuite, si la différence λ(2,K−1) est significative, on considèrera les deux
comparaisons λ(2,K−2) et λ(3,K−1) d’étendue r = K − 3 . . .

74
8 METHODES NON PARAMETRIQUES
Dans l’introduction, nous avons défini un test non paramétrique comme étant un test dont
les hypothèses statistiques ne portent pas sur la valeur d’un ou plusieurs paramètres d’une
variable aléatoire. Parfois, le qualificatif non paramétrique est également utilisé pour désigner
les tests libres, c’est-à-dire les tests valables quelle que soit la loi de probabilité de la variable
aléatoire considérée. Cet emploi abusif du qualificatif non paramétrique provient du fait que
la plupart des tests non paramétriques sont libres, ou en tout cas, ne reposent pas sur des
hypothèses de normalité de la (ou des) population(s) parente(s).
Nous avons déjà présenté quelques tests non paramétriques dans ce cours, citons par exemple
les tests d’ajustement χ2 , de Kolmogorov et de Lilliefors et le test de Kolmogorov-Smirnov (voir
Chapitre 3).
Les méthodes non paramétriques présentées ci-dessous s’appliqueront à des données quan-
titatives (sur une échelle numérique) dont la loi de probabilité dans la population parente est
continue. Il existe des méthodes non paramétriques adaptées à l’analyse statistique de données
sur une échelle nominale ou ordinale ; ces méthodes ne seront pas présentées dans ce cours.
L’étudiant intéressé par ces méthodes est renvoyé à l’ouvrage de Peter Sprent (opcit.). Notons
pour terminer que l’emploi des méthodes statistiques non paramétriques tend à se généraliser
de plus en plus. En effet, ces méthodes sont souvent d’une mise en oeuvre plus fastidieuse
que les méthodes paramétriques classiques mais cet inconvénient tend à disparaı̂tre avec le
développement de logiciels statistiques appropriés.

8.1 Tests relatifs à p = 2 échantillons appariés


0
Soit X, X un couple de variables aléatoires quantitatives (VD d’un plan Sn ∗ T2 ) dont
0
on prend un échantillon aléatoire i.i.d. d’effectif n, Xi , Xi i=1,..,n . Notons F la fonction de
0 0
répartition de la loi de X et F la fonction de répartition de la loi de X . On désire comparer
0
les distributions de X et de X .

Les hypothèses statistiques sont :


 0
 H0 : absence de différence de position entre les distributions F et F ,

(la différence observée est due aux fluctuations d’échantillonnage)



H1 : la distribution F est différente de (resp. plus à droite ou plus à gauche que)
0
la distribution F ,




(la différence observée n’est pas due aux fluctuations d’échantillonnage)

Comme dans le cas paramétrique (cfr. Section 5.3), on définit la différence aléatoire D =
0 0
X − X dont Di = Xi − Xi , ∀ i = 1, · · · , n, est un échantillon aléatoire i.i.d.
Soit µδD la médiane 64 de cette variable aléatoire, définie par : P (D ≤ µδD ) = 1/2.
Une traduction des hypothèses serait alors :

H0 : µδD = 0
H1 : µδD 6= 0 (resp. µδD > 0 ou µδD < 0)
0 0
c’est-à-dire que l’on veut tester si la probabilité P (X > X ) est égale à la probabilité P (X < X )
(et valent donc toutes deux 1/2), ou au contraire, si la première est différente de (respectivement
plus petite ou plus grande que) la seconde.
64. Remarque : si la distribution de D est symétrique (ce qui doit être le cas pour le test de Wilcoxon et le
test de Fisher), alors µδD = µD = E(D), l’espérance de D.

75
Une autre traduction des hypothèses, en posant
 0
φ+ = P (D > 0) = P (X > X ) et
0
φ− = P (D < 0) = P (X < X )

serait encore (de manière équivalente) :



H0 : φ+ = 1/2
H1 : φ+ 6= 1/2 (resp. φ+ > 1/2 ou φ+ < 1/2)
ou encore 
H0 : φ− = 1/2
H1 : φ− 6= 1/2 (resp. φ− < 1/2 ou φ− > 1/2)
Sous cette forme, le test se ramène donc à la comparaison d’une fréquence à la norme 1/2.
Le modèle sur lequel se fondent les tests présentés ci-dessous est

Hm : la distribution de la population de la différence D est continue.

Cette hypothèse de continuité est purement technique : elle permet d’éviter les différences
nulles ; mais en cas de différences égales à 0, il est possible de ne pas les exclure en les compta-
bilisant du côté de l’hypothèse nulle H0 .

8.1.1 Le test du signe


Pour le test du signe, on ne considère que le signe des différences Di (i = 1, · · · , n) et on
teste si les fréquences des signes + et des signes − dans la population des différences sont égales,
φ+ = φ− = 1/2 ; autrement dit, on met à l’épreuve l’hypothèse selon laquelle la médiane dans
la population des différences Di est nulle (voir hypothèses statistiques ci-dessus). Il s’agit donc
simplement d’une inférence sur une fréquence (voir Section 3.1).
Soit X+ la variable aléatoire qui comptabilise le nombre de différences strictement positives
parmi les n différences observées. Elle est modélisée par X+ ∼ Bi(n, φ+ ).
La statistique 65 de décision est :
X+
X+ ou f+ =
n
Loi sous H0 :
1
X+ = nf+ ∼ Bi(n, )
2
65. Si n > 10 (ce qui implique ici que nφ0 > 5 et n(1 − φ0 ) > 5), on peut aussi utiliser l’approximation donnée
par le Théorème Central-Limite (voir Section 2.3.3) :
1
f+ − 2 X+ − n2
Z = q1 = √ ∼ N (0, 1) sous H0
1
2 (1− 2 )
n/2
n

ou mieux, en introduisant la correction de continuité (vu que X+ est discrète et Z continue, voir Section 2.3.1)
et en tenant compte du sens de l’alternative et de la valeur observée de X+ (pour le choix du signe de ±0.5),
la formule corrigée suivante
X+ ±0.5 1 n
− (X+ ± 0.5) −
Zcorr = qn1 2
= √ 2
∼ N (0, 1) sous H0 .
1
2 (1− 2 )
n/2
n

Notons toutefois que cette formule n’est qu’approximative et que cette approximation n’est absolument pas
nécessaire vu que nous disposons de tables pour la loi binomiale Bi(n, 12 ) avex n ≤ 50.

76
Lorsqu’il y a des différences observées di nulles, on conseille souvent dans la littérature
de les éliminer de l’échantillon. Néanmoins, ces différences nulles contiennent une information
importante vu qu’elles vont tout à fait dans le sens de l’hypothèse nulle H0 : pas de différence ;
nous conseillerons donc de les comptabiliser du côté où le rejet de l’hypothèse H0 devient plus
difficile, ce qui rend le test plus conservateur (diminue la probabilité de rejeter H0 ). Certains
auteurs suggèrent d’assigner au hasard un signe à ces valeurs nulles ; nous ne conseillerons pas
cette procédure car à partir d’un même échantillon de données, deux expérimentateurs peuvent
conclure de manière opposée.
L’avantage du test du signe est sa simplicité de mise en oeuvre mais son inconvénient
principal est sa faible puissance par rapport aux tests classiques (le t de Student ou le test
exact de Fisher). Cette faible puissance s’explique par la perte d’information engendrée en ne
considérant que le signe des différences observées et non leur amplitude. Pour fixer les idées, le
test du signe appliqué à deux échantillons appariés d’effectif n = 100 (extraits de populations
normales) a la même puissance qu’un test basé sur la loi tn−1 de Student (ou un test de Fisher)
appliqué à deux échantillons d’effectif n = 64.

8.1.2 Le test exact de Fisher


Ce test est conditionnel aux données, il n’existe donc pas de tables permettant de déterminer
la région critique une fois pour toutes (en fonction du seuil de confiance α fixé) ; cette région
critique doit donc être construite pour chaque échantillon de différences observées di (i =
1, · · · , n).
Ce test conditionnel aux données repose sur le modèle suivant,

Hm : la distribution de la population des différences D est continue et symétrique.

Les hypothèses statistiques testées peuvent s’écrire :


(
H0 : µD = 0
H1 : µD 6= 0 (resp. µD > 0 ou µD < 0)

La statistique de décision est


n
X
T(n) = Di
i=1

mais la loi sous H0 de cette statistique se construit conditionnellement aux données observées.
On calcule d’abord la somme des différences observées T(n) obs . Ensuite, on classe par ordre
croissant les différences Di en ne considérant que leur valeur absolue |Di | (i = 1, · · · , n).
Si l’hypothèse H0 est vraie, chacune de ces valeurs absolues |Di | devait correspondre à une
différence Di , soit > 0, soit < 0 avec probabilité 1/2, dans l’échantillon de départ. Il existe 2n
manières d’assigner des signes (+ ou −) aux n valeurs |Di |, chacune de ces assignations ayant
même probabilité 1/2n et donnant une certaine valeur t de la somme des différences.
On calcule les sommes t “extrêmes” correspondant à de telles assignations de signes (+ ou
−) à chacune des n différences en valeur absolue |Di |. Par “extrêmes”, on désigne les sommes
de différences les plus petites (la plus petite correspondant à n signes −) ou les plus grandes
(la plus grande correspondant à n signes +).
La région critique est constituée des K assignations extrêmes où K est le plus grand nombre
entier tel que K/2n ≤ α (α est le seuil de signification fixé), c’est-à-dire K ≤ 2n · α. Lorsque
le test est bilatéral, on sépare la région critique en deux parties de K/2 sommes extrêmes (les

77
plus petites et les plus grandes). Lorsque le test est unilatéral, on prend les K sommes les plus
petites ou les plus grandes suivant le sens de l’alternative.
Donc, si la somme observée T(n) obs appartient à la région critique 66 , on rejette H0 ; dans le
cas contraire, on ne peut pas rejeter H0 .
Remarquons que la mise en oeuvre de ce test devient rapidement difficile lorsque l’effectif
n devient grand ; pour un effectif n = 10 et un seuil α = 0.05, la région critique contient déjà
K = 51 valeurs et la détermination de ces 51 valeurs extrêmes (conditionnelles aux différences
observées) doit être recommencée pour chaque nouveau problème. Pour n grand (≥ 25), l’ap-
proximation du test exact de Fisher est le test paramétrique sur la moyenne théorique des
différences (H0 : µD = 0) par la statistique de loi tn−1 de Student (à n − 1 ddl) ou de loi
approximativement N (0, 1) si n ≥ 60 (cfr. Section 5.3). Notons que le test exact de Fisher est
aussi puissant que le test basé sur le tn−1 de Student même lorsque les conditions d’application
du tn−1 sont vérifiées (normalité de la population des différences).

8.1.3 Le test de Wilcoxon


Le test de Wilcoxon est un compromis entre le test exact de Fisher (difficile à mettre
en oeuvre car test conditionnel aux données) et le test du signe (peu puissant vu la perte
d’information en ne considérant que les signes des différences observées).
Le test de Wilcoxon (également appelé test des “signes et rangs”) réduit la perte d’informa-
tion en ne se limitant pas aux signes des différences mais en prenant en compte le rang de leur
amplitude. Ce test est donc plus puissant que le test du signe mais ses conditions d’application
sont plus restrictives ; le modèle traduisant ces conditions est le suivant :

Hm : la distribution de la population des différences D est continue et symétrique.

Les hypothèses statistiques testées peuvent s’écrire :



H0 : µδD = 0
H1 : µδD 6= 0 (resp. µδD > 0 ou µδD < 0)

• L’hypothèse de continuité est essentiellement technique : elle permet d’éviter les différences
nulles et les différences “égales” (“tied values” en anglais).
• L’hypothèse de symétrie est plus fondamentale : si la distribution des différences est symétrique,
les différences (en valeur absolue) ont autant de chance d’être positives que négatives, ce qui
n’est pas le cas si elle n’est pas symétrique. C’est le principe même de la construction de la loi
de la statistique de Wilcoxon (et donc des tables). Donc, si la distribution n’est pas symétrique,
le test n’est pas applicable. Il est possible de mettre à l’épreuve la symétrie d’une distribution
mais il s’agit en fait d’un test de normalité (accompagné du test de l’aplatissement) ; nous nous
limiterons ici à l’examen à vue des données sur un axe orienté et gradué puis à l’interprétation
(purement descriptive) des indices d’asymétrie et d’aplatissement définis dans l’Annexe B du
poly d’Inférence statistique.

Pour le test de Wilcoxon, on remplace les valeurs absolues des différences |Di | par leur rang
Ri (i = 1, · · · , n) de 1 à n puis on procède comme pour le test exact de Fisher à partir de ces
66. Remarquons qu’il est parfois plus simple de calculer directement la probabilité critique (p.c.) que de
construire entièrement la région critique. Ce calcul s’effectue en comptabilisant le nombre de valeurs t de la
somme aussi extrêmes que la valeur T(n) obs du côté de l’alternative, soit k ce nombre ; on obtient simplement
p.c. = k/2n .

78
rangs. Cette procédure permet de tenir compte de l’amplitude des différences tout en allégeant
de manière considérable le traitement par rapport au test exact de Fisher. En effet cette fois, la
région critique peut être déterminée une fois pour toutes, indépendamment des valeurs observées
dans l’échantillon ; il existe donc des tables statistiques pour le test de Wilcoxon, en fonction
de l’effectif n des deux échantillons appariés (voir Table statistique 18). Notons que la perte
d’information due au remplacement des différences observées par des rangs, n’engendre qu’une
faible perte de puissance par rapport au test exact de Fisher (plus précisément, le test de
Wilcoxon appliqué à deux échantillons d’effectif n = 100 a la même puissance que le test exact
de Fisher appliqué à deux échantillons d’effectif n = 95).
Pratiquement, on additionne les rangs correspondant à des différences de signe +, soit T+
cette somme, et les rangs correspondant à des différences de signe −, soit T− cette somme.
Donc 67 ,
Xn Xn
T+ = Ri · I{Di >0} et T− = Ri · I{Di <0} .
i=1 i=1
68
Ces deux sommes vérifient toujours la relation
n(n + 1)
T+ + T− =
2
On a le choix pour la statistique de décision entre les statistiques T+ et T− , qui toutes deux
suivent sous H0 , une loi de Wilxoxon,
T+ ( et T− ) ∼ W(n) de Wilcoxon pour effectif n sous H0 .
La distribution de Wilcoxon est de forme unimodale et symétrique, prenant ses valeurs dans
{0, 1, 2, · · · , n(n + 1)/2}. Désignons par W , la statistique T+ ou T− (au choix). La table de
Wilcoxon donne (en fonction de l’effectif n des échantillons) la probabilité 69 pour la statistique
W de loi ∼ W(n) , P [ W ≤ w | H0 est vraie ] pour des valeurs w entières faibles (inférieures à
n(n + 1)/4) ; cette table est donc unilatérale 70 .
Lorsque certaines différences observées sont égales en valeur absolue, on assigne à ces valeurs
égales le rang moyen qu’on aurait dû leur assigner si elles avaient été différentes (par exemple,
si trois valeurs sont égales au niveau des rangs 3, 4 et 5, on leur attribuera le rang 4 à toutes les
trois ; si on a deux valeurs égales au niveau des rangs 6 et 7, on leur attribuera le même rang
6.5). Dans le cas d’un trop grand nombre de valeurs égales, les tables de Wilcoxon ne seront
plus applicables puisqu’elles sont construites pour n rangs différents (hypothèse de continuité
des distributions). Lorsque certaines différences sont nulles, on procèdera comme pour le test
du signe (voir ci-dessus).
Lorsque l’effectif n est > 20, on peut utiliser la forme approximative suivante du test de
Wilcoxon (approximation normale par le Théorème Central-Limite) 71
T+ − µT+
≈ Z ∼ N (0, 1)
σT+
67. La fonction I{Di >0 } est la fonction indicatrice de l’événement aléatoire {Di > 0}, prenant la valeur 1 si
Di > 0 est réalisé et 0 sinon. Pn
68. car la somme des entiers de 1 à n, i=1 i = 1 + 2 + · · · + n = n(n + 1)/2.
69. La symétrie autour de l’espérance n(n + 1)/4, se traduit par le fait que
P [ W ≤ w | H0 est vraie ] = P [ W ≥ n(n + 1)/2 − w | H0 est vraie ].

70. Si l’alternative H1 est unilatérale, on peut donc lire directement la valeur de la probabilité critique. Par
contre si l’alternative H1 est bilatérale, il sera nécessaire de multiplier la probabilité lue par un facteur 2.
71. Le même résultat s’applique bien entendu à la statistique T− .

79
où, sous H0 , l’espérance et la variance de T+ sont
n(n + 1) n(n + 1)(2n + 1)
µT+ = et σT2+ = .
4 24
Dans le cas de valeurs égales au même niveau, on peut corriger la variance de T+ en la multipliant
par une constante C donnée par
S
1 X
C =1− ts (t2s − 1)
2n(n + 1)(2n + 1) s=1
où ts désigne le nombre de valeurs égales au même niveau s et S le nombre de niveaux à valeurs
égales. La statistique approximative corrigée s’obtient donc par
T+ − µT+ Z
Zcorr = q =√ .
C · σ2 C
T+

Notons que cette correction ne devient significative que lorsque le nombre de valeurs égales est
très important. Cette correction a pour effet d’augmenter la valeur de la statistique de décision ;
elle ne doit donc pas être calculée lorsque, sans la correction, le résultat est déjà significatif.

8.2 Tests relatifs à K = 2 échantillons indépendants


Soient X1i (i = 1, · · · , n1 ) et X2j (j = 1, · · · , n2 ) deux échantillons (aléatoires i.i.d.)
indépendants d’effectif n1 et n2 respectivement, pour une VD quantitative (plan S < G2 >).
On désire comparer les populations dont sont extraits ces échantillons.
Soit X1 la variable aléatoire dont on observe n1 réalisations, réalisations de l’échantillon aléatoire
i.i.d. X1i , i = 1, .., n1 (on choisit, par convention et pour faciliter le travail ultérieur, l’indice 1
pour l’échantillon d’effectif le plus faible, donc n1 ≤ n2 ). Notons F1 la fonction de répartition
de sa loi.
Soit X2 la variable aléatoire dont on observe n2 réalisations (réalisations de l’échantillon aléatoire
i.i.d. X2i , i = 1, .., n2 ). Notons F2 la fonction de répartition de sa loi.
Le modèle général sur lequel reposent tous les tests présentés est
Hm : les deux distributions F1 et F2 sont continues.
Les hypothèses statistiques sont les suivantes :


 H0 : les deux échantillons proviennent d’une même population,
les deux populations ont la même distribution, F1 = F2 ,




(la différence observée est due aux fluctuations d’échantillonnage) ;


 H1 : les deux échantillons ne proviennent pas d’une même population,
F1 est différente de F2 [ou F1 est plus à droite (ou à gauche) que F2 ]




(la différence observée n’est pas due aux fluctuations d’échantillonnage)

Plus précisément, les hypothèses à tester sont :




 H0 : La distribution de X1 est identique à celle de X2 ,
∀ u ∈ R F1 (u) = F2 (u)




H : La distribution de X1 est différente de celle de X2 ,

1



∃ u ∈ R, F1 (u) 6= F2 (u),


 [resp. la distribution de X1 est plus à gauche que celle de X2 ,
∀ u ∈ R, F1 (u) > F2 (u);




ou la distribution de X1 est plus à droite que celle de X2 ,




∀ u ∈ R, F1 (u) < F2 (u).].

80
8.2.1 Le test de la médiane
Pour comparer F1 et F2 , nous comparons les médianes associées à ces deux distributions,
soient µδ1 et µδ2 . Sous l’hypothèse nulle, les n1 + n2 observations sont issues d’une même
distribution de médiane µδ . La probabilité φ1 que les observations issues du groupe 1 soient
inférieures à cette médiane, φ1 = P (X1 ≤ µδ ) = F1 (µδ ), est alors égale à la probabilité φ2 pour
une observation du groupe 2 d’être inférieure à µδ , φ2 = P (X2 ≤ µδ ) = F2 (µδ ).
Nous ne connaissons pas la distribution de ces variables. Nous commençons par estimer la
médiane µδ à partir de l’échantillon des n1 + n2 observations de sorte à construire la dichotomie
la plus équilbrée sur l’ensemble des deux échantillons, soit X̃ cet estimateur.
Les hypothèses statistiques s’écrivent :

 H0 : les deux distributions ont même médiane (µδ1 = µδ2 )
H1 : les deux distributions ont des médianes différentes (µδ1 6= µδ2 )
(resp. µδ1 > µδ2 ou µδ1 < µδ2 )

Ce qui se traduit en :
(
H0 : φ1 = φ2
H1 : φ1 6= φ2 (resp. φ1 > φ2 ou φ1 < φ2 )

Il s’agit donc simplement d’une comparaison de deux fréquences sur échantillons indépendants 72
(voir Section 3.5).
L’avantage du test de la médiane est la simplicité de sa mise en oeuvre, son inconvénient
est sa faible puissance due à la perte d’information en regroupant les données en deux classes.
Pour fixer les idées, le test de la médiane appliqué à deux échantillons indépendants d’effectifs
n1 = n2 = 100 (extraits de populations normales de même variance) a la même puissance qu’un
test de comparaison de moyennes par la statistique de loi tn1 +n2 −2 de Student (ou par un test
exact de Fisher) appliqué à deux échantillons d’effectifs n1 = n2 = 64.

8.2.2 Le test exact de Fisher


Ce test est conditionnel aux données, il n’existe donc pas de tables permettant de déterminer
la région critique une fois pour toutes (en fonction du seuil de confiance α fixé) ; cette région
critique doit donc être construite en fonction des valeurs observées dans les deux échantillons
x1i (i = 1, · · · , n1 ) et x2i (i = 1, · · · , n2 ).
Ce test conditionnel aux données repose sur le modèle suivant,
Hm : les deux distributions F1 et F2 sont continues et symétriques.
Les hypothèses testées s’écrivent :

H0 : µ1 = µ2
H1 : µ1 =6 µ2 (resp. µ1 > µ2 ou µ1 < µ2 )
La statistique de décision est la somme dans l’échantillon d’effectif n1
n1
X
Tn1 = X1i
i=1

72. Rappelons rapidement l’importance des conditions d’application des tests proposés, n1 + n2 ≥ 20 et au
maximum l’un des effectifs théoriques strictement inférieur à 5, ce qui peut se traduire approximativement ici
par n1 et n2 ≥ 10 vu la norme φ1 = φ2 = 1/2 sous H0 .

81
mais la loi sous H0 de cette statistique se construit conditionnellement aux données observées.
On calcule d’abord la somme Tn1 obs des observations dans l’échantillon d’effectif le plus petit,
n1 (rappelons que par convention, n1 ≤ n2 ).
Si l’hypothèse H0 est vraie, chacune des n1 +n2 observations a autant de chances de provenir
de chacun des deux échantillons (l’échantillon d’effectif n1 et l’échantillon d’effectif n2 ). Il y a
Cnn11+n2 possibilités 73 de répartir les n1 + n2 valeurs observées en deux échantillons d’effectifs
n1 et n2 ; si l’hypothèse H0 est vraie, chacune de ces répartitions a même probabilité égale à
1/Cnn11+n2 .
On range globalement les n1 +n2 valeurs observées dans les deux échantillons, puis on calcule
les sommes de n1 valeurs observées, t1 , “extrêmes” correspondant à de telles répartitions des
n1 + n2 valeurs observées. Par “extrêmes”, on désigne les sommes les plus petites (la plus petite
correspondant à la somme des n1 plus petites valeurs des n1 + n2 valeurs observées) ou les
plus grandes (la plus grande correspondant à la somme des n1 plus grandes valeurs des n1 + n2
valeurs observées).
La région critique est constituée des K répartitions extrêmes où K est le plus grand nombre
entier tel que K/Cnn11+n2 ≤ α (α est le seuil de signification fixé), c’est-à-dire K ≤ Cnn11+n2 α.
Lorsque le test est bilatéral, on sépare la région critique en deux parties de K/2 valeurs extrêmes
(les plus petites et les plus grandes sommes t1 ). Lorsque le test est unilatéral, on prend les K
valeurs extrêmes les plus petites ou les plus grandes suivant le sens de l’alternative.
Si la somme observée Tn1 obs des observations dans l’échantillon d’effectif n1 appartient à
la région critique 74 , on rejette l’hypothèse H0 avec une probabilité d’erreur ≤ α ; sinon, on ne
peut pas rejeter H0 .
Il est important de noter que la mise en oeuvre de ce test devient rapidement fastidieuse
lorsque les effectifs n1 et n2 deviennent grands ; pour deux échantillons d’effectifs 10 et un seuil
de signification α = 0.05, la région critique contient déjà K = 9237 valeurs extrêmes (car
K ≤ 184756 × 0.05 = 9237.8) et la détermination de ces 9237 valeurs extrêmes (conditionnelles
aux observations) doit être recommencée pour chaque nouveau problème. Pour n1 et n2 grands
(≥ 25), l’approximation du test exact de Fisher est le test paramétrique de comparaison de
deux moyennes pour échantillons indépendants (H0 : µ1 = µ2 ) par la statistique de loi tn1 +n2 −2
de Student (à n1 + n2 − 2 ddl) ou si n1 et n2 ≥ 60, par la statistique de loi approximativement
N (0, 1) lorsque n1 ≥ 60 et n2 ≥ 60 (cfr. Section 5.2.3). Le test exact de Fisher a la même
puissance que le test basé sur la statistique de loi tn1 +n2 −2 de Student même lorsque celui-ci est
applicable (populations normales de même variance).

8.2.3 Le test de Wilcoxon - Mann-Whitney

Le test de Wilcoxon - Mann-Whitney est un compromis entre le test exact de Fisher (difficile
à mettre en oeuvre car test conditionnel aux données) et le test de la médiane (simple mais
peu puissant). Ce test qui réduit la perte d’information du test de la médiane en tenant compte
du rang des données des deux échantillons, est plus puissant que le test de la médiane mais
ses conditions d’application sont plus restrictives ; le modèle traduisant ces conditions est le

73. Rappelons que Cnk désigne le nombre de combinaisons de k éléments parmi n et se calcule par la formule
n!
Cnk = k!(n−k)! .
74. Remarquons qu’il est parfois plus simple de calculer directement la probabilité critique (p.c.) que de
construire entièrement la région critique. Ce calcul s’effectue en comptabilisant le nombre de valeurs t1 de la
somme aussi extrêmes que la valeur Tn1 obs du côté de l’alternative, soit k ce nombre ; on obtient simplement
p.c. = k/Cnn11+n2 .

82
suivant :
Hm : les deux distributions F1 et F2 sont continues et de même forme.
Il faudra donc veiller à examiner à vue les deux échantillons pour se rendre compte si cette
hypothèse peut être maintenue. Nous nous limiterons ici à un examen à vue et à l’interprétation
(purement descriptive) des indices de symétrie et d’aplatissement (voir Annexe B du poly
d’Inférence statistique). Les hypothèses statistiques s’écrivent :

 H0 : les deux distributions sont identiques (F1 = F2 )
H1 : il existe un décalage de position entre les deux distributions
( bilatéral ou unilatéral, à gauche ou à droite)

Pour le test de Wilcoxon - Mann-Whitney, on remplace les observations par leur rang de 1
à n1 + n2 , en regroupant les deux échantillons. Ensuite, on procède de la même manière que
pour le test exact de Fisher mais à partir des rangs attribués. Cette procédure permet de tenir
compte de la position relative des valeurs observées dans les deux échantillons tout en allégeant
considérablement le traitement par rapport au test de Fisher. En effet, la région critique peut
être déterminée une fois pour toutes, en fonction de la taille respective des deux échantillons et
du seuil de signification α fixé ; il existe donc des tables statistiques pour le test de Wilcoxon -
Mann-Whitney (voir Table statistique 19).
En pratique, soit R1i , le rang attribué à la v.a. X1i de l’échantillon 1 (i = 1, · · · , n1 ) et R2i ,
le rang attribué à la v.a. X2i de l’échantillon 2 (i = 1 · · · , n2 ). On additionne les rangs attribués
aux données de chacun des deux échantillons, soient T1 , la somme des rangs dans l’échantillon
d’effectif le plus faible n1 , et T2 , la somme des rangs dans l’échantillon d’effectif le plus élevé
n2 (rappelons que n1 ≤ n2 par convention). Donc,
n1
X n2
X
T1 = R1i et T2 = R2i .
i=1 i=1

Ces deux sommes vérifient toujours la relation 75


(n1 + n2 )(n1 + n2 + 1)
T1 + T2 = .
2
La statistique T de Wilcoxon - Mann-Whitney (W-MW) est définie comme la somme des rangs
dans l’échantillon d’effectif le plus faible n1 ,
T = T1 ∼ W M W(n1 ,n2 ) de loi Wilcoxon - Mann-Whitney pour effectifs (n1 , n2 ) sous H0 .
La distribution de W M W(n1 ,n2 ) est de forme symétrique et unimodale prenant ses valeurs
sur {n1 (n1 + 1)/2, · · · , n1 (n1 + 2n2 + 1)/2} d’espérance n1 (n1 + n2 + 1)/2. Par symétrie, la
table de Wilcoxon - Mann-Whitney donne la probabilité, pour les effectifs n1 ≤ n2 fixés,
P [T ≤ tg | H0 est vraie] = P [T ≥ td | H0 est vraie] pour des couples de nombres entiers
(tg , td ) tels que tg +td = n1 (n1 +n2 +1) (avec l’indice g pour gauche et l’indice d pour droite). On
consulte donc les tables pour trouver la probabilité que la statistique soit au moins aussi extrême
que la valeur observée ; on peut lire P [T ≤ T1;obs | H0 est vraie] ou P [T ≥ T1;obs | H0 est vraie]
suivant que Tobs est ≤ ou ≥ à n1 (n1 + n2 + 1)/2 et on en déduit la probabilité critique (p.c.).
Cette table est donc unilatérale 76 .
75. La somme de tous les rangs est forcément égale à la somme des entiers de 1 à n1 + n2 .
76. Si l’alternative est unilatérale, on peut donc lire directement la valeur de la probabilité critique. Si l’al-
ternative est bilatérale, il est nécessaire de multiplier la probabilité lue par un facteur 2.

83
Lorsque certaines valeurs observées sont égales, on attribue à ces valeurs égales le rang
moyen qu’on aurait dû leur attribuer si elles avaient été différentes, de manière à conserver la
même somme de rangs sans privilégier aucune de ces valeurs (voir test de Wilcoxon, Section
8.1.3 ci-dessus). Dans le cas d’un trop grand nombre de valeurs égales, les probabilités lues
dans la table de Wilcoxon - Mann-Whitney ne seront que très approximatives puisque la table
est construite pour n1 +n2 rangs différents (suivant l’hypothèse de continuité des distributions).
Lorsque les effectifs n1 et n2 sont > 10, on peut utiliser la forme approximative suivante du
test de Wilcoxon - Mann-Whitney (approximation normale par le Théorème Central-Limite)
T1 − µT1
≈ Z ∼ N (0, 1)
σT1
où, sous H0 , l’espérance et la variance de T1 sont
n1 (n1 + n2 + 1) n1 n2 (n1 + n2 + 1)
µT1 = et σT21 = .
2 12
Dans le cas de valeurs égales (et donc de rangs moyens), on peut corriger la variance de T1 en
la multipliant par la constante C suivante :
S
1 X
C =1− ts (ts 2 − 1)
(n1 + n2 ) (n1 + n2 )2 − 1 s=1


où ts désigne le nombre de valeurs égales au même niveau s et S le nombre de niveaux à valeurs
égales. La statistique approximative corrigée s’obtient donc par
T1 − µT1 Z
Zcorr = q =√ .
C · σ2 C
T1

Notons que cette correction ne devient significative que lorsque le nombre de valeurs égales est
très important. Cette correction a pour effet d’augmenter la valeur de la statistique de décision ;
elle ne doit donc pas être calculée lorsque, sans la correction, le résultat est déjà significatif.
Il existe une autre version (tout à fait équivalente à la précédente) de ce test. Il s’agit de la
version de Mann-Whitney pour laquelle la statistique de décision, notée U , est définie par
n1 (n1 + 1)
U = n1 n2 + − T1 ∼ U(n1 ,n2 ) de Mann-Whitney pour effectifs (n1 , n2 ) sous H0 .
2
La version précédente, pour laquelle la statistique est simplement T = T1 , est due à Wilcoxon.
Il existe des tables donnant les probabilités associées à la statistique U en fonction des effectifs
n1 et n2 des deux échantillons ; cette table, équivalente à celle pour la statistique T1 , n’a pas
été introduite dans le polycopié de tables.
La forme approximative de la statistique U pour des effectifs n1 et n2 > 10, est donnée par
U − µU
≈ Z ∼ N (0, 1)
σU
où, sous H0 , l’espérance et la variance de la statistique U sont
n1 n2 n1 n2 (n1 + n2 + 1)
µU = et σU2 =
2 12
avec la même correction de continuité pour valeurs égales que celle donnée ci-dessus.
La perte de puissance due au remplacement des valeurs observées par des rangs n’est pas très
importante. Par exemple, un test de Wilcoxon - Mann-Whitney appliqué à deux échantillons
de même effectif n = 100 a la même puissance qu’un test paramétrique basé sur une statistique
de loi t de Student appliquée à deux échantillons d’effectifs n1 = n2 = 95 (dans les conditions
d’application du t de Student, normalité et homogénéité des variances).

84
8.2.4 Le test de Kolmogorov-Smirnov
Voir Section 3.7, inférence sur les fréquences.

8.3 Tests relatifs à plus de 2 échantillons


8.3.1 p > 2 échantillons appariés : l’analyse de variance de Friedman
Soit (X1 , X2 , · · · , Xp ) un vecteur de p variables aléatoires quantitatives (VD d’un plan
Sn ∗ Tp ) dont on prend un échantillon aléatoire i.i.d. d’effectif n, (X1i , X2i , · · · , Xpi )i=1,..,n . No-
tons Fj la fonction de répartition de la loi de Xj (∀ j = 1, · · · , p). On désire comparer les
distributions de X1 , X2 , ... et Xp .

Les hypothèses statistiques à tester sont les suivantes :




 H0 : il n’y a pas de différence entre les p distributions des populations dont sont
extraits les p échantillons appariés (F1 = · · · = Fj = · · · = Fp )


 H 1 : il y a une différence de position dans (au moins) une des p distributions des
populations dont sont extraits les p échantillons appariés.

L’analyse de variance de Friedman est la généralisation du test du signe pour plus de deux
mesures répétées (p > 2). Le modèle sur lequel se fonde l’analyse statistique est le suivant,
Hm : les p distributions Fj (j = 1, · · · , p) sont continues.
Souvent, les p mesures répétées correspondent à p traitements pour chacun des n sujets. Pour
chaque sujet (i = 1, · · · , n), on range les p données observées pour chacun des traitements, puis
on leur attribue un rang de 1 à p. Ensuite, on calcule la somme Rj des n rangs correspondant à
chacun des traitements j = 1, · · · , p. Les hypothèses statistiques peuvent s’écrire sous la forme

H0 : E(R1 ) = E(R2 ) = · · · = E(Rp )
H1 : ∃ j1 , j2 ∈ {1, · · · , p}, E(Rj1 ) 6= E(Rj2 )
La statistique de décision F ried est définie par :
p
12 X
F ried = R2 − 3n(p + 1) ∼ F riedp,n
np(p + 1) j=1 j

de loi sous H0 , F riedp,n de Friedman pour p échantillons appariés d’effectifs n.


Les quantiles 77 de cette statistique de décision sont tabulés (voir Table statistique 21)
pour p ≤ 6 et n ≤ 25. Lorsque p > 6 ou n > 25, on pourra utiliser l’approximation suivante
F ried ∼ χ2p−1 , de loi approximativement χ2 à p − 1 ddl sous H0 .
Lorsque certaines valeurs observées pour un même sujet au cours de différents traitements
sont égales, on attribue à ces valeurs égales le rang moyen qu’on aurait dû leur attribuer si elles
avaient été différentes (voir test de Wilcoxon, Section 8.1.3 ci-dessus). Dans le cas où on a
G groupes de valeurs égales au même niveau t1 , t2 , · · · , tg , · · · , tG , on divise la statistique de
décision par le facteur correcteur C suivant :
G
1 X
2

C =1− t g t g − 1
np (p2 − 1) g=1

77. Une valeur observée trop élevée (supérieure à la valeur critique) conduit au rejet de l’hypothèse H0 .

85
Cette correction a pour effet d’augmenter la valeur observée de la statistique de décision ; elle
ne doit donc pas être appliquée lorsque sans correction, le résultat est déjà significatif.
Des comparaisons multiples (à l’aide de contrastes) peuvent être effectuées comme dans
l’analyse de variance paramétrique (voir Sprent).
La perte d’information due à la substitution de rangs de 1 à p aux valeurs observées engendre
une perte de puissance. Cette perte de puissance diminue lorsque le nombre p de traitements
augmente. Ainsi, une analyse de variance de Friedman appliquée à p échantillons appariés
d’effectif n = 100 a la même puissance qu’une analyse de variance classique pour p échantillons
appariés d’effectif n = 64 lorsque p = 3 et d’effectif n = 91 lorsque p devient très grand, lorsque
les conditions d’une analyse de variance classique sont vérifiées (normalité et sphéricité de la
matrice de variance-covariance).
Lorsque l’hypothèse alternative est orientée, une version plus puissante est le test de Page.
Les hypothèses statistiques s’écrivent

H0 : E(R1 ) = E(R2 ) = · · · = E(Rp )
H1 : E(R1 ) < E(R2 ) < · · · < E(Rp )
La statistique de décision L de Page s’écrit
p
X
L= j · Rj ∼ Ln,p de Page pour p échantillons d’effectifs n sous H0
j=1

dont les quantiles sont tabulés (voir Table statistique 22).

8.3.2 K > 2 échantillons indépendants : l’analyse de variance de Kruskal-


Wallis
L’analyse de variance de Kruskal-Wallis est la généralisation pour plus de deux échantillons
du test de Wilcoxon - Mann-Whitney, dans la formulation de Wilcoxon.
Soient K échantillons (aléatoires i.i.d.) indépendants pour une VD quantitative, (Xij )i=1,··· ,nj ,
∀ j = 1, · · · , K (plan S < GK >, K échantillons d’effectifs n1 , n2 , · · · , nj , · · · , nK respective-
ment). On cherche à comparer les K populations dont sont extraits ces K échantillons.
Soit Xj (j = 1, · · · , K) la variable aléatoire dont on observe nj réalisations, Xij , i = 1, · · · , nj .
Notons Fj la fonction de répartition de la loi de Xj . Les hypothèses statistiques testées peuvent
s’écrire :

H0 : les K distributions Fj (j = 1, · · · , K) sont identiques ;
H1 : il existe un décalage de position dans (au moins) une des K distributions

Le modèle sur lequel se fonde l’analyse statistique est le suivant,

Hm : les K distributions Fj (j = 1, · · · , K) sont continues et de même forme.

Soit N = K
P
j=1 nj l’effectif total des K échantillons réunis. On attribue un rang, globalement
de 1 à N , à chacune des N observations (en regroupant les K échantillons), soit Rij le rang
attribué à l’observation Xij (j = 1, · · · , K et i = 1, · · · , nj ). Dans le cas de valeurs égales au
même niveau, on attribue à ces valeurs égales le rang moyen qu’on aurait dû leur attribuer
si elles avaient été différentes (voir test de Wilcoxon, Section 8.1.3). Ensuite, on additionne
pour chaque échantillon j (de 1 à K) les rangs attribués aux nj valeurs, soient Tj ces sommes

86
observées (analogue des sommes T1 et T2 pour le test de Wilcoxon - Mann-Whitney) ; donc,
∀ j = 1, · · · , K, on pose
nj
X
Tj = Rij .
i=1

La statistique H de Kruskal-Wallis est définie par

X Tj2 K
12 (K)
H= − 3(N + 1) ∼ H(nj ) sous H0
N (N + 1) j=1 nj j=1,··· ,K

loi de Kruskal-Wallis pour K échantillons d’effectifs n1 , · · · , nj , · · · , nK .


Il existe des tables statistiques donnant les quantiles de la statistique de Kruskal-Wallis pour
K = 3 et nj ≤ 5, et pour K ≤ 6 échantillons de même taille n ≤ 25 (Table statistique 20).
Pour plus de 6 échantillons (K > 6) ou des échantillons de plus de 25 observations, on pourra
utiliser l’approximation suivante

H ∼ χ2K−1 , de loi approximativement χ2 à K − 1 ddl sous H0 .

Dans le cas de valeurs égales, on peut corriger la valeur de la statistique de décision H


comme suit :
S
H 1 X
ts t2s − 1

Hcorr = où C = 1 − 2
C N (N − 1) s=1
où ts désigne le nombre de valeurs égales au niveau s et S le nombre de niveaux à valeurs égales.
Cette correction a pour effet d’augmenter la valeur observée de la statistique de décision ; on
ne doit donc pas l’appliquer lorsque le résultat est déjà significatif sans la correction.
S’il y a peu de valeurs égales, cette correction de continuité (pour rangs égaux) ne modifie
que très peu la valeur de la statistique de décision H ; on pourra donc la négliger la plupart du
temps.
Des comparaisons multiples (à l’aide de contrastes) peuvent être effectuées comme dans
l’analyse de variance paramétrique (voir Sprent).
La perte de puissance due au remplacement des valeurs observées par des rangs n’est pas très
importante. Par exemple, une analyse de variance de Kruskal-Wallis appliquée à K échantillons
de même effectif n = 100 a la même puissance qu’une analyse de variance classique appliquée
à K échantillons d’effectif n = 95 (dans les conditions d’application de l’analyse de variance
classique, normalité et homogénéité des variances des K populations).

87
A ELEMENTS D’ ALGEBRE LINEAIRE
A.1 Définitions
– Une matrice est un tableau rectangulaire de nombres, paramètres ou variables dont chacun
a été disposé à une place précise. On spécifiera souvent le nombre de lignes et le nombre
de colonnes de ce tableau, on dira d’une matrice comportant m lignes et n colonnes qu’elle
est d’ordre m × n ; soit A une matrice 78 d’ordre m × n d’éléments aij pour i = 1, · · · , m
et j = 1, · · · , n, on écrira A ou Am×n = (aij ) pour

a11 a12 · · · a1j · · · a1n


 
 a21 a22 · · · a2j · · · a2n 
 . .. .. .. 
 .
 . . . . 

A=
 ai1 ai2 · · · aij · · · ain 

 . .. .. .. 
 .. . . . 
am1 am2 · · · amj · · · amn
– Un vecteur-colonne est une matrice constituée d’une seule colonne, c’est-à-dire une matrice
d’ordre m × 1 ; on dira qu’un tel vecteur est de dimension m. Soit x un vecteur-colonne
de dimension m,  
x1
 x2 
 . 
 . 
 . 
x=
 xi 

 . 
 .. 
xm
– Un vecteur-ligne est une matrice constituée d’une seule ligne, c’est-à-dire une matrice
d’ordre 1 × n ; on dira qu’un tel vecteur est de dimension n. Soit x un vecteur-ligne de
dimension n, 
x = x1 x2 · · · xj · · · xn
– Le terme vecteur de dimension m désigne un vecteur-colonne, en négligeant de spécifier
qu’il s’agit d’une colonne lorsqu’il n’y a pas d’ambiguı̈té.
– La transposée A0 d’une matrice A d’ordre m × n est la matrice d’ordre n × m où on a
interverti les lignes et les colonnes de la matrice A
0
··· ··· a11 a21 · · · ai1 · · ·
  
a11 a12 a1j a1n am1
 a21 a22 ··· a2j ··· a2n   a12 a22 · · · ai2 · · · am2 
 .. .. .. ..   .. .. .. .. 
. . . . . . . .
   
A0 =   =
   
 ai1 ai2 · · · aij ··· ain a1j a2j · · · aij · · · amj

  
 . .. .. .. .. .. .. ..
 ..
  
. . .   . . . . 
am1 am2 · · · amj · · · amn a1n a2n · · · ain · · · amn
0
Autrement dit, l’élément aij de la ième ligne (i = 1, · · · n) et de la jème colonne (j =
1, · · · , m) de la matrice A0 est l’élément aji de la jème ligne (j = 1, · · · m) et de la ième
colonne (i = 1, · · · , n) de la matrice A.
78. Nous désignerons les matrices par des notations en caractères gras.

88
Par exemple, la transposée d’un vecteur-ligne est un vecteur colonne et vice-versa. On
écrira parfois un vecteur-colonne de dimension m explicitement de cette manière x =
0
x1 x2 · · · xi · · · xm pour alléger le texte.
– Une matrice carrée d’ordre n est une matrice d’ordre n × n, c’est-à-dire une matrice dont
le nombre de lignes et le nombre de colonnes sont égaux. On écrira parfois An .
– La trace, trA, d’une matrice carrée d’ordre n × n, A = (aij ), est un Pnnombre, égal à la
somme des éléments diagonaux de cette matrice
 c’est-à-dire trA = i=1 aii .
7 3 −4
La trace de la matrice A =  2 1 −1  est donc trA = 7 + 1 + 0 = 8.
0 3 0
– Une matrice symétrique A est une matrice carrée égale à sa transposée ; autrement dit, une
matrice A d’ordre n est symétrique si et seulement si A0 = A, c’est-à-dire ∀i, j = 1, · · · , n,
aij = aji .
– Une matrice diagonale d’ordre n est une matrice carrée dont tous les éléments sont nuls
à l’exception de ceux de la diagonale, soit D = (dii ), une matrice diagonale,

d11 0 · · · 0 · · · 0
 
 0 d22 · · · 0 · · · 0 
 .. .. .. 

. . .

D=
 
0 0 · · · dii · · · 0

 
 .. .. .. .. 
 . . . . 
0 0 · · · 0 · · · dnn

Une matrice diagonale est donc symétrique.

A.2 Opérations sur les matrices


Les principales opérations sur les matrices sont l’addition et la soustraction, la multiplication
par un nombre et la multiplication de matrices.

A.2.1 Addition et soustraction


L’addition de deux matrices de même ordre m × n donne une matrice du même ordre et
s’effectue terme à terme, l’élément de la ième ligne et de la jème colonne étant la somme
des éléments correspondant des deux matrices additionnées. Soient A = (aij ) et B = (bij ), la
matrice C = A + B = (cij ) est définie par les relations cij = aij + bij pour tout i = 1, · · · , m et
j = 1, · · · , n.
La soustraction se définit de la même manière entre matrices du même ordre m × n, C =
A − B = (cij ) avec cij = aij − bij pour tout i = 1, · · · , m et j = 1, · · · , n.
La matrice d’ordre m × n entièrement composée de zéros, notée O ou Om×n , est l’élément
neutre de l’addition ; autrement dit, A + O = O + A = A pour toute matrice A d’ordre m × n.
Notons que l’addition et la soustraction de deux vecteurs de même dimension se définit de
la même manière que l’addition et la soustraction de deux matrices du même ordre.

A.2.2 Multiplication d’une matrice par un nombre


La multiplication d’une matrice d’ordre m × n par un nombre k, donne une matrice dont
chacun des éléments a été multiplié par ce nombre, k · A = (kaij ).

89
A.2.3 Multiplication d’un vecteur-ligne par un vecteur-colonne

La multiplication d’un vecteur-ligne de dimension n, a = a1 a2 · · · ai · · · an , par
0
un vecteur-colonne de dimension n, b = b1 b2 · · · bi · · · bn , donne un nombre égal à
la somme des produits des éléments correspondant
 
b1
 b2 
 . 
n
  .. 
 X
a · b = a1 a2 · · · ai · · · an ·   = a1 b 1 + a2 b 2 + · · · + an b n = ai b i
 bi 
 .  i=1
 .. 
bn
Soulignons qu’il n’est possible d’effectuer le produit d’un vecteur-ligne et d’un vecteur-
colonne que si ces deux vecteurs ont même dimension. Autrement dit, on effectue le produit
d’un tableau d’ordre 1 × n par un tableau d’ordre n × 1, le nombre de colonnes du premier
tableau étant égal au nombre de lignes du second tableau. Ce point sera important pour définir
le produit de matrices ci-dessous.

A.2.4 Multiplication de matrices


Le produit d’une matrice Am×p d’ordre m × p et d’une matrice Bp×n d’ordre p × n est la
matrice Cm×n d’ordre m × n dont l’élément cij est le produit de la ième ligne de la matrice
A par la jème colonne de la matrice B (i = 1, · · · , m et j = 1, · · · , n). Plus précisément, si
A = (aik ) et B = (bkj ) , la matrice
i = 1, · · · , m k = 1, · · · , p
k = 1, · · · , p j = 1, · · · , n
C=A·B
est la matrice (cij ) dont les éléments sont définis par
p
X
cij = ai1 b1j + ai2 b2j + · · · + aip bpj = aik bkj
k=1

Remarquons que le nombre de colonnes de la première matrice doit absolument correspondre


au nombre de lignes de la seconde matrice (p dans notre exemple),
Am×p · Bp×n = Cm×n
ce nombre “disparaissant” lors de la multiplication. En effet, l’expression ci-dessous devrait
permettre de mieux visualiser le produit de deux matrices ; l’élément cij de ce produit est le
résultat du produit de la iéme ligne de la première matrice par la jème colonne de la seconde,
tous ces éléments étant notés en caractères gras

··· ··· b11 b12 · · · b1j · · ·


   
a11 a12 a1k a1p b1n
 a21 a22 ··· a2k ··· a2p   b21 b22 · · · b2j · · · b2n 
 .. .. .. ..   .. .. .. .. 
. . . . . . . .
   
A·B =  ·
   
 ai1 ai2 · · · aik ··· aip bk1 bk2 · · · bkj · · · bkn 

 
 . .. .. .. .. .. .. .. 
 ..
 
. . .   . . . . 
am1 am2 · · · amk · · · amp bp1 bp2 · · · bpj · · · bpn

90
··· ···
 
c11 c12 c1j c1n
 c21 c22 ··· c2j ··· c2n 
 .. .. .. .. 
. . . .
 
= 
 
 ci1 ci2 · · · cij ··· cin


 . .. .. ..
 ..

. . . 
cm1 cm2 · · · cmj · · · cmn
Par définition, la multiplication de deux matrices ne peut donc pas être commutative ; en
général
A · B 6= B · A
Un cas particulier très important est le cas du produit de matrices carrées de même ordre
n. Cette opération est interne, ce qui signifie que le produit de deux matrices carrées d’ordre n
fournit une matrice carrée d’ordre n. Le neutre de cette opération est la matrice unité d’ordre
n, notée In ,
1 0 0 ··· ··· 0 ··· 0
 
 0 1 0 ··· ··· 0 ··· 0 
 
 0 0 1
 . . 0 · · · 0 · · · 0 
 . . .. . . .. . .
. . .. . 
.. 
 . .
In = 

 0 0 ··· 0 1 0 ··· 0 

 . . . . . . . . .. 
 .. .. . . . . 
 
 0 0 ··· ··· 0 1 0 
0 0 ··· ··· 0 0 1
vérifiant pour toute matrice A carrée d’ordre n,

A · In = In · A = A

Autrement dit, multiplier une matrice à gauche ou à droite par la matrice identité In laisse la
matrice inchangée (comme multiplier un nombre par le nombre 1 n’a aucun effet).

A.3 Expression matricielle d’un système d’équations linéaires


Soit un système de m équations linéaires à n inconnues, x1 , x2 , · · · , xn , de coefficients aij
(i = 1, · · · , m et j = 1, · · · , n) où aij est le coefficient de la variable xj (j = 1, · · · , n) dans
la ième équation, et de termes indépendants bi (i = 1, · · · , m). Explicitement, ce système a la
forme suivante

a11 x1 + a12 x2 + · · · + a1j xj + · · · a1n xn = b1







 a21 x2 + a22 x2 + · · · + a2j xj + · · · a2n xn = b2

 ..
.

 ai1 x2 + ai2 x2 + · · · + aij xj + · · · ain xn = bi
..





 .
am1 x2 + am2 x2 + · · · + amj xj + · · · amn xn = bm

Si on définit la matrice d’ordre m×n, A = (aij ), le vecteur de dimension n, x = x1 x2 · · · xj · ·


0
et le vecteur de dimension m, b = b1 b2 · · · bi · · · bn , le système d’équations linéaires
s’écrit simplement
A·x=b

91
c’est-à-dire
··· ···
     
a11 a12 a1j a1n x1 b1
 a21 a22 ··· a2j ··· a2n   x2   b2 
 .. .. .. ..   ..   .. 
. . . . . .
     
· =
     
 ai1 ai2 · · · aij ··· ain xj bi
 
    
 . .. .. .. .. ..
 ..
    
. . .   .   . 
am1 am2 · · · amj · · · amn xn bm
Cette écriture nous suggère que s’il était possible d’inverser la matrice A, la solution de ce
système d’équations linéaires s’écrirait simplement

x = A−1 · b

où A−1 serait la matrice inverse de A, vérifiant la relation A−1 ·A = In . En effet, en multipliant
les deux membres de l’équation matricielle par la matrice A−1 à gauche, on obtiendrait

A−1 · A · x = In · x = x = A−1 · b

puisque In · x = x par définition de la matrice unité.


Cette procédure n’est possible que si la matrice A est une matrice carrée, c’est-à-dire si le
nombre d’équations est égal au nombre d’inconnues dans le système. De plus, toute matrice
carrée n’est pas inversible. Nous allons étudier le caractère inversible ou non inversible des
matrices carrées ainsi que la méthode de calcul de cet inverse dans le paragraphe suivant.

A.4 Inverse et déterminant d’une matrice carrée


– L’inverse d’une matrice A carrée d’ordre n × n est la matrice (unique) carrée d’ordre
n × n, notée A−1 , vérifiant
A−1 · A = A · A−1 = In
où In est la matrice unité d’ordre n.
– Une matrice carrée d’ordre n × n possédant une matrice inverse est appelée matrice
régulière ou inversible.
– Une matrice carrée d’ordre n × n ne possédant pas de matrice inverse est appelée matrice
singulière ou non inversible.
La signification de la singularité d’une matrice est donnée par la propriété suivante.

Propriété. Une matrice carrée est singulière si et seulement si une ligne (ou une colonne)
est combinaison linéaire des autres lignes (ou colonnes).

La singularité d’une matrice carrée traduit donc une redondance au niveau des lignes ou
des colonnes. Par exemple, considérons la matrice carrée d’ordre 3 × 3,
 
1 2 3
A= 2 0 4 
0 −4 −2
 
La 3ème ligne de cette matrice, l3 = 0 −4 −2 est égale à la 2ème ligne, l2 = 2 0 4
moins deux fois la première ligne, l1 = 1 2 3 ; en effet,

l3 = l2 − 2 · l1

92
cette relation devant être vérifiée élément par élément, 0 = 2−2·1, −4 = 0−2·2 et −2 = 4−2·3.
Cette matrice est donc singulière (ou non inversible).
Un critère simple et automatique pour déterminer si une matrice carrée d’ordre n est
régulière ou singulière est de calculer son déterminant. La méthode de calcul du déterminant
d’une matrice carrée est donnée par récurrence sur n le nombre de lignes et de colonnes de la
matrice.
– Le déterminant d’une matrice carrée A, noté |A|, est un nombre ; ce nombre est égal à 0
si et seulement si la matrice A est singulière.
– Le déterminant d’une matrice carrée  d’ordre 2× 2 se calcule de la manière suivante : le
a11 a12
déterminant de la matrice A2×2 = , est
a21 a22
 
a11 a12
|A| = = a11 a22 − a21 a12
a21 a22
On vérifie aisément que si les deux lignes (ou les deux colonnes) de la matrice sont propor-
tionnelles, son déterminant sera nul. En effet, supposons  par exemple  que la deuxième ligne
a11 a12
soit égale à 3 fois la première, c’est-à-dire A2×2 = , donc le déterminant
3a11 3a12
sera
 
a11 a12
|A| = = a11 · (3a12 ) − (3a11 ) · a12 = 3a11 a12 − 3a11 a12 = 0
3a11 3a12
– Le déterminant d’une matrice carrée d’ordre 3 × 3 s’exprime en fonction de celui de trois
matrices d’ordre 2 × 2. On choisit arbitrairement une ligne (ou une colonne) de la matrice
et on parcourt cette ligne (ou cette colonne) en considérant chacun deses élements. Pour 
a11 a12 a13
fixer les idées, considérons la deuxième ligne de la matrice A3×3 =  a21 a22 a23 ,
 a31 a32 a33
c’est-à-dire la ligne l2 = a21 a22 a23 ; à chacun de ces trois élements, on associe le
déterminant de la matrice 2 × 2 obtenue si on supprime la ligne et la colonne de l’élément
considéré dans la matrice de départ.
 Par exemple,
 au premier élément de la deuxième ligne
a12 a13
a21 , on associe le déterminant ; ce déterminant est appelé le mineur associé
a32 a33
à l’élément a21 et noté M21 . En général, on parlera du mineur Mij associé à l’élément aij .
Ensuite, on multiplie ce mineur par ±1 suivant la position de l’élément considéré dans la
matrice de départ ; plus précisément, on définit le cofacteur associé à l’élément aij de la
matrice A comme étant le mineur de cet élément multiplié par (−1)(i+j) (c’est-à-dire par
+1 si i + j est pair et par −1 si i + j est impair) ; le cofacteur de l’élément aij , noté Cij ,
est donc défini par
Cij = (−1)(i+j) · Mij
Enfin, le déterminant de la matrice carrée d’ordre 3×3 est donné par la formule suivante :
soit i une ligne fixée de la matrice A (i = 1, 2, 3),
3
X 3
X
|A| = ai1 Ci1 + ai2 Ci2 + ai3 Ci3 = aij Cij = aij (−1)(i+j) · Mij
j=1 j=1

ou encore si j est une colonne fixée de la matrice A (j = 1, 2, 3),


3
X 3
X
|A| = a1j C1j + a2j C2j + a3j C3j = aij Cij = aij (−1)(i+j) · Mij
i=1 i=1

93
Cette formule de calcul s’appelle l’expansion de Laplace.
– De la même manière, le déterminant d’une matrice carrée d’ordre n × n (pour n ≥ 3)
s’exprime en fonction de celui de n matrices d’ordre (n − 1) × (n − 1), par l’expansion de
Laplace. La formule de calcul est simplement, quelle que soit la ligne i fixée (i = 1, · · · , n)
ou la colonne j fixée (j = 1, · · · , n)
n
X
|A| = ai1 Ci1 + ai2 Ci2 + · · · + ain Cin = aij Cij
j=1
Xn
= a1j C1j + a2j C2j + · · · + anj Cnj = aij Cij
i=1

où Cij est le cofacteur associé à l’élément aij

Cij = (−1)(i+j) · Mij

et Mij est le mineur associé à cet élément aij , c’est-à-dire le déterminant de la matrice
carrée d’ordre (n − 1) × (n − 1) obtenue à partir de la matrice carrée A d’ordre n × n
après avoir supprimé la ligne i et la colonne j.
Par l’expansion de Laplace, il est toujours avantageux de choisir pour le calcul du déterminant,
une ligne ou une colonne de la matrice  comportantun ou plusieurs zéros ; calculons, par exemple,
7 3 −4
le déterminant de la matrice A =  2 1 −1  ; si on utilise la première ligne pour mettre
0 3 0
en oeuvre l’expansion de Laplace, on calcule
     
1 −1
(1+1) (1+2)
2 −1 (1+3)
2 1
|A| = 7 × (−1) 3 0
+ 3 × (−1)


0 0
+ (−4) × (−1)


0 3

= 7 × (−1)2 ((1 · 0) − (−1 · 3)) + 3 × (−1)3 ((2 · 0) − (−1 · 0))


+(−4) × (−1)4 ((2 · 3) − (0 · 1))
= 7 × 3 − 3 × 0 − 4 × 6 = 21 − 24 = −3

d’autre part, si on utilise la 3ème ligne,


 
7 −4
(3+2)
|A| = 0 × C31 + 3 × (−1) 2 −1 + 0 × C33

= 0 + 3 × (−1)5 ((7 · −1) − (2 · −4)) + 0 = 3 × (−1) · (−7 + 8) = 3 × (−1) = −3

Passons à présent au calcul de l’inverse d’une matrice carrée régulière. Soit A une matrice
carrée d’ordre n × n dont le déterminant |A| est différent de 0.
– On appelle matrice adjointe de la matrice A, notée AdjA, la matrice carrée d’ordre n × n
transposée de la matrice formée des cofacteurs Cij des éléments de la matrice A, c’est-à-
dire 0
AdjA = (Cij ) = (Cji )
– L’inverse de la matrice régulière A, notée A−1 , est égale à la matrice adjointe de A divisée
par le déterminant de cette matrice,
1
A−1 = · AdjA
|A|

94
 
7 3 −4
Reprenons l’exemple de la matrice A =  2 1 −1  ; cette matrice est régulière puisque
0 3 0
son déterminant, |A | est
 = −3 (voir
 ci-dessus). Calculons les cofacteurs Cij :
1 −1
– C11 = (−1)1+1 · = (−1)2 · (1 · 0 − (−1 · 3)) = 1 · (0 + 3) = 3,

 3 0 

2 −1
– C12 = (−1)1+2 · = (−1)3 · (2 · 0 − (−1 · 0)) = −1 · (0 + 0) = 0,
 0 0

2 1
– C13 = (−1)1+3 · = (−1)4 · (2 · 3 − (1 · 0)) = 1 · (6 + 0) = 6,
 0 3

2+1
3 −4
– C21 = (−1) · = (−1)3 · (3 · 0 − (−4 · 3)) = −1 · (0 + 12) = −12,
 3 0 

7 −4
– C22 = (−1)2+2 · = (−1)4 · (7 · 0 − (−4 · 0)) = 1 · (0 + 0) = 0,
 0 0 

7 3
– C23 = (−1)2+3 · = (−1)5 · (7 · 3 − (0 · 3)) = −1 · (21 + 0) = −21,
 0 3

3+1
3 −4
– C31 = (−1) · = (−1)4 · (3 · −1 − (−4 · 1)) = 1 · (−3 + 4) = 1,
 1 −1 

7 −4
– C32 = (−1)3+2 · = (−1)5 · (7 · −1 − (−4 · 2)) = −1 · (−7 + 8) = −1 et
 2 −1 

7 3
– C33 = (−1)3+3 · = (−1)6 · (7 · 1 − (2 · 3)) = 1 · (7 − 6) = 1
2 1
Donc la matrice des cofacteurs (Cij ) est
 
3 0 6
(Cij ) =  −12 0 −21 
1 −1 1

et la transposée de cette matrice, la matrice AdjA


 0  
0
3 0 6 3 −12 1
AdjA = (Cij ) =  −12 0 −21  =  0 0 −1 
1 −1 1 6 −21 1

L’inverse de la matrice A est donc


   
3 −12 1 −1 4 −1/3
1 
A−1 = · 0 0 −1  =  0 0 1/3 
−3
6 −21 1 −2 7 −1/3

Nous pouvons vérifier notre calcul par les relations


         
−1 4 −1/3 7 3 −4 7 3 −4 −1 4 −1/3 1 0 0
 0 0 1/3  ·  2 1 −1  =  2 1 −1  ·  0 0 1/3  =  0 1 0 
−2 7 −1/3 0 3 0 0 3 0 −2 7 −1/3 0 0 1

95
B ASYMETRIE ET APLATISSEMENT
Dans certaines applications, il est important de s’intéresser à la forme de la distribution
dont est issu l’échantillon, plus particulièrement l’asymétrie et l’aplatissement de la densité de
probabilité. Nous allons définir les paramètres d’asymétrie et d’aplatissement de Pearson et
de Fisher de la loi d’une variable aléatoire X et leurs estimateurs à partir d’un échantillon
aléatoire.

B.1 Définitions
Soit X une variable aléatoire, on définit les moments centrés d’ordre k ≥ 1 par
µk = E[(X − EX)k ].
2
On a évidemment toujours µ1 = 0 et µ2 = σX . De plus, si la distribution de la variable aléatoire
X est symétrique, on a toujours des moments centrés d’ordre impair µ2k+1 = 0.
Les moments centrés µ3 et µ4 sont utilisés pour caractériser la forme de la distribution. Pour
obtenir des quantités sans dimension, on divise par l’écart-type à la puissance correspondante,
ce qui donne le paramètre d’asymétrie γ1 défini par
µ3
γ1 = 3
σ
et le paramètre d’aplatissement (ou voussure) γ2 défini par
µ4
γ2 = 4
σ
On montre que la relation suivante est toujours vérifiée
γ2 ≥ 1 + (γ1 )2 donc γ2 ≥ 1
Pour une loi normale, X ∼ N (µ, σ 2 ), on obtient
γ1 = 0 et γ2 = 3.

B.2 Interprétation de ces “paramètres”


L’interprétation de ces paramètres se fait de la manière suivante :

– γ1 = 0 signifie “ distribution symétrique”,


– γ1 > 0 “asymétrie positive”, distribution concentrée à gauche et étalée vers la droite et
– γ1 < 0 “asymétrie négative”, distribution concentrée à droite et étalée vers la gauche.

Si la distribution n’est pas trop asymétrique (γ1 “proche” de 0), on peut s’intéresser à l’apla-
tissement (kurtosis ou voussure) c’est-à-dire à la concentration au centre, dans les extrémités
inférieure et supérieure (les “queues”) et au niveau des “épaules” (entre les extrémités et le
centre) en comparaison avec une loi normale,

– γ2 “proche” de 3, la distribution est mésokurtique (comme la loi normale),


– γ2 > 3, la distribution est leptokurtique (ou pointue, c’est-à-dire plus de densité au centre
et dans les queues mais moins sur les épaules),
– γ2 < 3, la distribution est platykurtique (ou plate c’est-à-dire plus de densité sur les
épaules, moins au centre et dans les queues) ; par exemple, la distribution uniforme donne
γ2 = 1.8 et une courbe en U donnera γ2 < 1.8.

96
B.3 Les estimateurs
Soit (Xi )i=1,··· ,n un échantillon aléatoire i.i.d., n réalisations indépendantes de la v.a. X.
Les estimateurs (sans biais) des paramètres γ1 et γ2 sont donnés par les statistiques G1 et G2
suivantes :
Coefficient d’asymétrie :
n  3
n X Xi − X
G1 =
(n − 1)(n − 2) i=1 S

Coefficient d’aplatissement 79 :
n 4
3(n − 1)2

n(n + 1) X Xi − X
G2 = − +3
(n − 1)(n − 2)(n − 3) i=1 S (n − 2)(n − 3)

B.4 En pratique...
Le calcul des estimations g1 et g2 des paramètres γ1 et γ2 nous fournit donc une indication
sur la forme de la distribution dont est issu un échantillon de données (xi )i=1,··· ,n . Ce calcul
devra dans tous les cas, être accompagné d’un examen à vue des données, par une représentation
graphique telle qu’un diagramme en bâtonnets, un histogramme ou encore un Boxplot ou un
Q-Q plot.
Dans certaines applications, les critères indicatifs suivants pourront être utilisés (descriptifs) :
– Une distribution peut être considérée comme symétrique si l’indice d’asymétrie ne s’éloigne
pas de la norme “0” de plus de 1. Si de plus, son indice d’aplatissement ne s’éloigne
pas de la norme “3” de plus de 1/2, elle pourra être considérée comme symétrique et
mésokurtique.
– Deux distributions peuvent être considérées comme étant de ”même forme” si les deux
indices d’asymétrie ne s’éloignent pas de plus de 1/2 et les deux indices d’aplatissement
ne s’éloignent pas de plus de 1.
Plusieurs tests de normalité basés sur les paramètres γ1 et γ2 existent dans la littérature ;
les hypothèses testées s’écrivent

H0 : γ1 = 0 et γ2 = 3 (normalité de la loi de X) ;
H1 : négation de H0

Citons ici la statistique de Jarque-Bera (et sa loi sous H0 )


 2
G1 (G2 − 3)2

JB = n · + ∼ χ2(2) , loi χ2 à ν = 2 d.d.l. sous H0
6 24

Une autre statistique de décision est simplement le couple (G1 , G2 ) dont il s’agit de calculer
l’estimation (g1 , g2 ) puis de la situer dans une table en forme d’abaque (Table statistique 25,
voir Dagnelie Tome 2).

0
79. Attention, la plupart des logiciels (Excel, Statistica etc.) donnent la valeur (notée ici G2 ) de G2 diminuée
0
de 3 de manière à ce que la norme pour une loi normale soit égale à 0 ; donc G2 = G2 − 3.

97
Table des matières
1 INTRODUCTION 2
1.1 Statistique descriptive, probabilité et inférence statistique . . . . . . . . 2
1.2 L’estimation ponctuelle et par intervalle de confiance . . . . . . . . . . . 3
1.3 La décision statistique, les tests d’hypothèses . . . . . . . . . . . . . . . . 3
1.4 Objectif du cours . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.5 Références . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2 CADRE ET NOTATIONS GENERALES 10


2.1 Les paramètres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2 Les statistiques ou estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.3 Les lois de probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.3.1 La loi binomiale X ∼ Bi(n, φ) . . . . . . . . . . . . . . . . . . . . . . 13
2.3.2 La loi multinomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.3.3 La loi normale de moyenne µ et de variance σ 2 , X ∼ N (µ, σ 2 ) . 15
2.3.4 La loi χ2ν à ν degrés de liberté . . . . . . . . . . . . . . . . . . . . 16
2.3.5 La loi tν de Student à ν degrés de liberté . . . . . . . . . . . . 16
2.3.6 La loi Fν1 ,ν2 de Fisher-Snédécor (ou de Fisher) à (ν1 , ν2 ) degrés
de liberté . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.3.7 La loi normale multivariée Np (µ, Σ) . . . . . . . . . . . . . . . . . 17

3 INFERENCE SUR LES FREQUENCES 18


3.1 Inférence sur une fréquence φ . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.2 Tests d’ajustement à un modèle théorique . . . . . . . . . . . P . . . . . . . 19
3.2.1 Inférence sur plusieurs fréquences φ1 , φ2 , · · · et φk (avec kj=1 φj =
1) : le test χ2 pour une variable catégorisée. . . . . . . . . . . . . . 19
3.2.2 Le test χ2 pour une variable numérique discrète . . . . . . . . . . 20
3.2.3 Le test de Kolmogorov (variable numérique continue) . . . . . . 20
3.2.4 Le test de Lilliefors (ajustement à une loi normale) . . . . . . . . 21
3.2.5 Le test de Shapiro-Wilk (ajustement à une loi normale) . . . . . 22
3.3 Test d’indépendance entre 2 variables catégorisées . . . . . . . . . . . . . 24
3.3.1 Lorsque l > 2 ou c > 2, . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.3.2 Lorsque l = 2 et c = 2 (tableau 2 × 2), . . . . . . . . . . . . . . . . . 24
0
3.4 Inférence sur deux fréquences φ et φ pour deux échantillons en me-
sures répétées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.5 Inférence sur deux fréquences φ1 et φ2 pour 2 échantillons indépen-
dants d’effectifs n1 et n2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.6 Test d’homogénéité de 2 échantillons indépendants suivant une va-
riable catégorisée à plus de deux modalités . . . . . . . . . . . . . . . . . 27
3.7 Test de Kolmogorov-Smirnov pour l’identité de deux distributions . . 28
3.8 Homogénéité de c > 2 échantillons indépendants . . . . . . . . . . . . . . 29
3.8.1 suivant une variable catégorisée à plus de deux modalités . . . . 29
3.8.2 suivant une variable dichotomique (prenant 2 modalités) . . . . . 29

4 INFERENCE SUR LES VARIANCES 30


4.1 Inférence sur une variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.2 Inférence sur deux variances (échantillons indépendants) . . . . . . . . . . . 30

98
4.2.1 Test “classique” F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.2.2 Test de Levene . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.2.3 Test de O’Brien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.3 Test de Pitman-Morgan (échantillons appariés) . . . . . . . . . . . . . . . 31
4.4 Inférence sur plusieurs variances (échantillons indépendants) . . . . . . . . 32
4.4.1 Test de Bartlett . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.4.2 Test de Hartley (ou Fmax ) . . . . . . . . . . . . . . . . . . . . . . . . 32
4.4.3 Test de Levene . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.5 Sphéricité d’une matrice de variance-covariance . . . . . . . . . . . . . . 33
4.6 Homogénéité de plusieurs matrices de variance-covariance . . . . . . . . 35

5 INFERENCE SUR LES MOYENNES 38


5.1 Inférence sur une moyenne µ . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.1.1 Si la population parente est normale de variance σ 2 connue (cas théorique), 38
5.1.2 Si la variance σ 2 est inconnue et l’effectif de l’échantillon est petit (n <
60), on suppose Hm : Xi i.i.d. ∼ N (µ, σ 2 ), i = 1, · · · , n. . . . . . . . . . 38
5.1.3 Si l’effectif de l’échantillon est grand (n ≥ 60), . . . . . . . . . . . . . . . 38
5.1.4 Si la population parente n’est pas normale et l’effectif n de l’échantillon
est petit (< 60), . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
5.2 Inférence sur deux moyennes µ1 et µ2 , échantillons indépendants . . . . 39
5.2.1 Si les populations parentes sont normales de variances σ12 et σ22
connues (cas théorique), . . . . . . . . . . . . . . . . . . . . . . . . . 39
5.2.2 Si les deux populations sont normales de variances σ12 et σ22 in-
connues mais supposées homogènes (σ12 = σ22 ) c’est-à-dire
Hm : Xij i.i.d. ∼ N (µj , σ 2 ), pour j = 1, 2, i = 1, · · · , nj . . . . . . . . 39
5.2.3 Si les effectifs des deux échantillons n1 et n2 sont grands (≥ 60), 40
5.2.4 Si au moins un des effectifs n1 et n2 est faible (n1 ou n2 < 60)
et si les populations parentes ne sont pas normales ousi les po-
pulations parentes sont normales mais les variances σ12 et σ22
inconnues sont différentes, . . . . . . . . . . . . . . . . . . . . . . . . 41
0
5.3 Inférence sur deux moyennes µ et µ , mesures répétées . . . . . . . . . . 41
5.4 Inférence sur plusieurs moyennes . . . . . . . . . . . . . . . . . . . . . . . 41

6 ANALYSE DE VARIANCE (ANOVA) 42


6.1 Un facteur (G), K échantillons indépendants, plan S < GK > (structure
d’emboı̂tement) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
6.2 Un facteur (A), mesures répétées, plan Sn ∗ Tp (structure de croisement) 45
6.3 Deux facteurs (F et G), échantillons indépendants : plan
S < Fl × Gc > . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
6.3.1 Une seule donnée par case : Fl × Gc (modèle additif ) . . . . . . . 49
6.3.2 Plusieurs données par case : S < Fl × Gc > (non-additif ) . . . . . 50
6.4 Deux facteurs (A et B), mesures complètement répétées : plan Sn ∗ Tl ∗ T̃c 53
6.5 Deux facteurs, plan Sn < GK > ∗Tp . . . . . . . . . . . . . . . . . . . . . . . 60

7 LA METHODE DES CONTRASTES 68


7.1 Les contrastes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
7.1.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
7.1.2 Inférence sur un contraste . . . . . . . . . . . . . . . . . . . . . . 68

99
7.1.3 L’orthogonalité des contrastes . . . . . . . . . . . . . . . . . . . 69
7.1.4 Inférence sur une famille de contrastes . . . . . . . . . . . . . 70
7.2 Comparaisons a priori orthogonales deux à deux . . . . . . . . . . . . . . 71
7.3 Comparaisons a priori non orthogonales deux à deux . . . . . . . . . . . 71
7.3.1 Les tests de Sidàk et de Boole-Bonferroni-Dunn . . . . . . . . 71
7.3.2 Le test de Dunnett . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
7.4 Comparaisons a posteriori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
7.4.1 La méthode de Scheffé : tous les contrastes . . . . . . . . . . 73
7.4.2 Comparaisons par paires . . . . . . . . . . . . . . . . . . . . . . . . . 73
7.5 Les autres plans de l’analyse de la variance . . . . . . . . . . . . . . . . . 74

8 METHODES NON PARAMETRIQUES 75


8.1 Tests relatifs à p = 2 échantillons appariés . . . . . . . . . . . . . . . . . . 75
8.1.1 Le test du signe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
8.1.2 Le test exact de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . 77
8.1.3 Le test de Wilcoxon . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
8.2 Tests relatifs à K = 2 échantillons indépendants . . . . . . . . . . . . . . 80
8.2.1 Le test de la médiane . . . . . . . . . . . . . . . . . . . . . . . . . . 81
8.2.2 Le test exact de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . 81
8.2.3 Le test de Wilcoxon - Mann-Whitney . . . . . . . . . . . . . . . 82
8.2.4 Le test de Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . 85
8.3 Tests relatifs à plus de 2 échantillons . . . . . . . . . . . . . . . . . . . . . 85
8.3.1 p > 2 échantillons appariés : l’analyse de variance de Friedman 85
8.3.2 K > 2 échantillons indépendants : l’analyse de variance de
Kruskal-Wallis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

A ELEMENTS D’ ALGEBRE LINEAIRE 88


A.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
A.2 Opérations sur les matrices . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
A.2.1 Addition et soustraction . . . . . . . . . . . . . . . . . . . . . . . . 89
A.2.2 Multiplication d’une matrice par un nombre . . . . . . . . . . . 89
A.2.3 Multiplication d’un vecteur-ligne par un vecteur-colonne . 90
A.2.4 Multiplication de matrices . . . . . . . . . . . . . . . . . . . . . . . 90
A.3 Expression matricielle d’un système d’équations linéaires . . . . . . . . 91
A.4 Inverse et déterminant d’une matrice carrée . . . . . . . . . . . . . . . . . 92

B ASYMETRIE ET APLATISSEMENT 96
B.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
B.2 Interprétation de ces “paramètres” . . . . . . . . . . . . . . . . . . . . . . 96
B.3 Les estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
B.4 En pratique... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

100