InfStat L2 L3 M1.15 16 PDF

Inférence statistique
2ème et 3ème années de Licence

& Master de Psychologie
Françoise Lefèvre
U.F.R de Psychologie
Ce recueil, autorisé à l’examen, ne peut, en aucun cas, être annoté.
1
1 INTRODUCTION
L’étudiant en psychologie que vous êtes, s’intéresse aux comportements des êtres vivants
et plus particulièrement de l’être humain. De nos jours, la recherche en psychologie repose la
plupart du temps sur l’expérimentation, c’est-à-dire le recueil suivant une méthodologie précise,
de données expérimentales. L’analyse statistique de ces données empiriques est donc cruciale
dans l’élaboration des théories psychologiques modernes.
Ce cours sera l’occasion pour vous de prendre contact avec la démarche d’une inférence sta-
tistique, par l’étude des principales méthodes statistiques classiques. Il devrait vous apprendre
à manipuler les quelques clés élémentaires vous donnant accès, le cas échéant, à l’apprentissage
et à l’utilisation de méthodes statistiques plus sophistiquées (le plus souvent avec l’aide d’un
logiciel statistique)... Il est temps à présent de définir de manière plus précise l’objectif et la
démarche d’une inférence statistique.
1.1 Statistique descriptive, probabilité et inférence statistique

Faire de la statistique suppose que l’on étudie un ensemble d’objets ou d’individus équivalents
sur lesquels on observe des caractéristiques appelées variables. Cet ensemble est appelé po-
pulation. Ce terme hérité des premières applications de la statistique qui concernaient la
démographie, est employé pour désigner toute collection d’individus ou d’objets à étudier ayant
des propriétés communes. Ces éléments sont appelés des individus ou unités statistiques.
Généralement, la population étudiée est trop vaste pour être observée de manière exhaustive
et on n’en observe qu’une partie, appelée un échantillon. Il existe plusieurs techniques pour
sélectionner les unités statistiques constituant un échantillon, la plus simple et également la plus
importante étant l’échantillonnage aléatoire simple correspondant à des tirages équiprobables
et indépendants les uns des autres. Un échantillon extrait d’une population suivant ce mode
de tirage sera appelé un échantillon aléatoire simple ou échantillon aléatoire indépendant et
identiquement distribué (i.i.d.). Le nombre d’individus dans un échantillon est appelé l’effectif
de l’échantillon et est noté n. Chaque individu d’une population est décrit par un ensemble de
caractéristiques appelées variables (ou parfois caractères). Ces variables peuvent être classées
suivant la structure de l’ensemble de leurs modalités observables : variables nominales, ordinales,
métriques et numériques. Suivant qu’on ne s’intéresse qu’à une ou plusieurs variables à la fois,
on parlera d’une analyse statistique univariée ou multivariée (pour deux variables, on dira
bivariée).
Après le recueil des données, la démarche statistique consiste à traiter et interpréter les infor-
mations recueillies. Elle comporte deux grands aspects : l’aspect descriptif et l’aspect inférentiel
(ou inductif).
La statistique descriptive a pour but de synthétiser, résumer, structurer l’information conte-
nue dans les données (représentation sous forme de tableaux ou de graphiques, calcul de résumés
numériques tels que mode, moyenne, médiane, écart-type, méthodes factorielles pour données
multidimensionnelles telles que l’analyse en composantes principales et l’analyse des correspon-
dances). Les conclusions d’une telle analyse concernent uniquement l’échantillon considéré.
Le but d’une analyse statistique inférentielle est d’étendre les propriétés constatées sur
un échantillon à l’ensemble de la population dont est extrait cet échantillon. Le calcul des
probabilités y joue un rôle fondamental car la théorie des probabilités permet de modéliser
l’échantillonnage aléatoire simple. La statistique inférentielle comporte deux problèmes géné-
raux, celui de l’estimation et celui de la décision statistique.
2
1.2 L’estimation ponctuelle et par intervalle de confiance
Supposons par exemple que l’on s’intéresse au score moyen à une épreuve d’aptitude des
élèves de Terminale. On procède au tirage d’un échantillon aléatoire simple de n élèves de
Terminale auxquels on applique cette épreuve d’aptitude, soient x1 , x2 , ..., xn les scores réalisés
par ces n élèves. On peut admettre que ces valeurs constituent des observations ou réalisations
indépendantes d’une variable aléatoire X d’espérance mathématique (ou moyenne théorique) µ ;
par exemple, on supposera que X est une variable aléatoire normale d’espérance µ et de variance
σ 2 , X ∼ N (µ, σ 2 ). On peut également considérer qu’à chaque élève i (i = 1, · · · , n) correspond
une variable aléatoire Xi dont on observe une seule réalisation xi (le score à l’épreuve d’aptitude
de l’élève i) ; on désignera donc un échantillon aléatoire simple par X1 , X2 , ..., Xn , n variables
aléatoires indépendantes et identiquement distribuées (ou v.a.i.i.d.). La loi des grands nombres
montre que la moyenne X (n) = X1 +X2n+···+Xn converge vers l’espérance mathématique µ lorsque
n → +∞. La moyenne observée dans l’échantillon x(n) sera donc une estimation (ponctuelle)
de la moyenne théorique (ou espérance) µ et la variable aléatoire X (n) un estimateur de µ.
Une fonction f (X1 , X2 , · · · , Xn ) des n variables aléatoires d’un échantillon d’effectif n, telle
que X (n) , est appelée une statistique.
Un bon estimateur pour un paramètre d’une loi de probabilité est un estimateur dont
l’espérance mathématique est égale à ce paramètre ; on dit alors que l’estimateur est sans biais.
La moyenne arithmétique X (n) est un estimateur sans biais de l’espérance mathématique µ car
E(X (n) ) = µ.
Lorsque l’effectif n de l’échantillon est assez grand, la théorie des probabilités 1 fournit de
2
manière relativement précise la loi de probabilité de l’estimateur X (n) de µ, X (n) ≈ N (µ, σn ),
et on pourrait en déduire, si µ était connu, un intervalle de la forme (µ − ∆µ, µ + ∆µ) ayant une
probabilité fixée, disons 95%, de contenir X (n) . Connaissant une observation x(n) , on inverse
alors la problématique et on peut en déduire un intervalle de confiance pour la vraie valeur du
paramètre inconnu µ. Plus précisément, on sait par les tables de la variable normale centrée
réduite Z ∼ N (0, 1), que celle-ci est comprise entre −1.96 et 1.96 avec probabilité 0.95 (par
symétrie de la loi normale et puisque le quantile d’ordre 0.975, z0.975 = 1.96). En réarrangeant,
on obtient l’intervalle de confiance au niveau de confiance 1 − α = 0.05 pour µ, noté IC1−α (µ),
tel que la probabilité que µ appartienne à cet intervalle soit égale à 1 − α = 0.95
σ σ
IC1−α (µ) = (X (n) − 1.96 √ , X (n) + 1.96 √ ).
n n
1.3 La décision statistique, les tests d’hypothèses

Reprenons notre exemple du score à une épreuve d’aptitude des élèves de Terminale. Suppo-
sons qu’une étude antérieure ait établi que le score à cette même épreuve d’aptitude des élèves de
Troisième est une variable aléatoire normale d’espérance 100 et d’écart-type 15, N (100, 152 ).
Un psychologue s’interroge sur l’amélioration éventuelle du score des élèves à cette épreuve
entre la Troisième et la Terminale. Il procède au tirage d’un échantillon aléatoire simple de
n = 50 élèves de Terminale auxquels il applique cette épreuve de performance. Soient X1 , X2 ,
1. Plus précisément, le Théorème Central-Limite (TCL) dit que si X1 , X2 , ..., Xn sont n variables aléatoires
indépendantes et identiquement distribuées suivant une loi de probabilité d’espérance µ et de variance σ 2 , la loi
de probabilité de la moyenne centrée réduite converge vers la loi normale centrée réduite lorsque n → +∞,
X (n) − µ
√ → Z ∼ N (0, 1).
σ/ n
3
..., X50 , les 50 variables aléatoires indépendantes et identiquement distribuées constituant cet
échantillon et x1 , x2 , ..., x50 les observations (ou réalisations) de ces 50 variables aléatoires.
Ce psychologue estime qu’il peut supposer que les scores (X1 , X2 , ..., X50 ) des élèves de
Terminale suivent une loi de probabilité normale d’écart-type σ = 15 mais d’espérance µ incon-
nue. Il a donc choisi un modèle (ou une hypothèse maintenue), noté Hm , pour son échantillon
aléatoire simple ; ce modèle est le suivant

 Hm : X1 , X2 , ..., X50 sont n = 50 variables aléatoires indépendantes
et identiquement distribuées suivant la loi N (µ, 152 ), ou
X1 , X2 , ..., X50 v.a.i.i.d. ∼ N (µ, 152 )

La question qu’il se pose peut donc se traduire de la manière suivante : l’espérance du score
à cette épreuve d’aptitude des élèves de Terminale est-elle supérieure à 100 (l’espérance du
score des élèves de Troisième) ? En effet, les deux lois de probabilité ayant la même forme (deux
lois normales) et la même dispersion (même écart-type), la seule différence possible devrait se
situer au niveau des moyennes. Il doit donc comparer une moyenne (ou espérance) µ à une
valeur fixée ou norme µ0 = 100.
Le psychologue calculera donc la moyenne x(50) observée des réalisations des 50 variables
aléatoires dont il dispose. Supposons qu’il observe x(50) = 103 ; peut-il, sur base de cette valeur
observée, affirmer que le score moyen des élèves de Terminale est meilleur que celui des élèves
de Troisième ?
La valeur x(50) = 103 n’est qu’une des réalisations possibles de la variable aléatoire 2 X (n) :
s’il avait tiré un autre échantillon aléatoire, la valeur observée de X (n) aurait sans doute été
différente et presque toujours différente de 100. Pour répondre à sa question, le psychologue doit
donc choisir entre deux hypothèses, que l’on notera H0 (l’hypothèse nulle) et H1 (l’alternative)

 H0 : il n’y a pas d’amélioration, µ = µ0 (avec µ0 = 100),

la différence observée est due aux fluctuations d’échantillonnage



H1 : il y a amélioration, µ > µ0 (avec µ0 = 100),
la différence observée n’est pas due aux fluctuations




d’échantillonnage, elle est significative

Nous venons de poser deux hypothèses statistiques. Une hypothèse statistique est une affirmation
relative aux caractéristiques (valeurs des paramètres ou forme de la loi de probabilité) de une
ou plusieurs variables dans une ou plusieurs populations. Dans l’hypothèse nulle, notée H0 , on
fixe a priori la valeur d’un paramètre ou la forme de la population considérée. Toute autre
hypothèse qui diffère de l’hypothèse nulle s’appelle alternative et est notée H1 . En général,
l’hypothèse nulle H0 est une hypothèse simple (posant une égalité, par exemple µ = 100) tandis
que l’alternative H1 est une hypothèse composée (non égalité, par exemple µ > 100, µ < 100
ou µ 6= 100). En d’autres termes, il n’existe qu’une situation (µ = 100) vérifiant H0 mais il en
existe une infinité vérifiant H1 (pour H1 : µ > 100, on peut avoir µ = 101, µ = 120, µ = 200,
µ = 102.3, · · · ). On distingue des alternatives bilatérale, de la forme H1 : µ 6= µ0 , unilatérale
à droite, de la forme H1 : µ > µ0 , et unilatérale à gauche, de la forme H1 : µ < µ0 .
Comment fixer H0 et H1 ? En règle générale, l’hypothèse nulle H0 est celle du statu quo,
tandis que l’alternative H1 est celle que le chercheur désire confirmer ou affirmer avec une
probabilité fixée a priori de se tromper (dans notre exemple, qu’il y a amélioration du score à
l’épreuve d’aptitude entre la Troisième et la Terminale).
2
2. Lorsque les n√ v.a. X1 , X2 , ..., Xn sont ∼ N (µ, σ ), la variable aléatoire X (n) est normale d’espérance µ
et d’écart-type σ/ n.
4
Pour être capable de choisir entre H0 et H1 , on construit un test d’hypothèses, c’est-à-dire
une démarche statistique qui a pour but de fournir une règle de décision permettant de faire
un choix entre deux hypothèses statistiques et ce sur base d’observations sur un ou plusieurs
échantillons. Un test d’hypothèses peut se ramener à un problème de décision (statistique)
concernant les deux états de l’hypothèse H0 , soit H0 est vraie, soit H0 est fausse, et les deux
décisions possibles, soit Ne pas rejeter H0 (N RH0 ), soit Rejeter H0 (RH0 ).
Si on voulait déterminer sans aucun risque d’erreur l’état de H0 , un contrôle exhaustif
sur toute la population concernée serait nécessaire. Comme ce contrôle est fastidieux voire
impossible dans la majorité des cas, la prise de décision est toujours basée sur une information
partielle (données recueillies sur l’échantillon) et, de ce fait, on ne prendra pas toujours la bonne
décision. Ce sera le cas
– si on rejette H0 alors qu’elle est vraie, ou
– si on ne rejette pas H0 alors qu’elle est fausse.
Par ailleurs, on prendra la bonne décision
– si on rejette H0 alors qu’elle est fausse, ou
– si on ne rejette pas H0 alors qu’elle est vraie.
On souhaite prendre le plus rarement possible chacune des deux mauvaises décisions et plus
particulièrement connaı̂tre les risques ou probabilités de se tromper. On appelle erreur de type
I (ou de première espèce) celle qui consiste à rejeter l’hypothèse nulle H0 alors qu’elle est vraie.
La probabilité de commettre cette erreur est notée α et appelée le seuil de signification du test.
Ce risque est consenti à l’avance ; il s’écrit
α = P (rejeter H0 alors que H0 est vraie) = P (rejeter H0 | H0 est vraie) = P (RH0 | H0 )
L’erreur consistant à ne pas rejeter H0 alors qu’elle est fausse, s’appelle l’erreur de type II (ou
de seconde espèce). La probabilité de commettre cette erreur est notée β et correspond à
β = P (ne pas rejeter H0 alors que H0 est fausse) = P (N RH0 | H1 )
Nous pouvons résumer la situation par le tableau suivant
Décision
RH0 N RH0
H0 vraie Erreur de type I (avec proba α) Décision correcte
H1 vraie Décision correcte Erreur de type II (avec proba β)
De façon générale, on voudrait utiliser un test qui minimise à la fois α et β. Malheureuse-

ment, en pratique, ce n’est pas possible. On fixe donc la probabilité α (en général, on prendra
α = 0.05, 0.01 ou 0.001) de l’erreur de type I et pour chaque test disponible, on en déduit la
valeur de la probabilité de l’erreur de type II, β. On choisira ainsi le test pour lequel β sera le
plus petit ; on dira alors que ce test est le plus puissant, la puissance d’un test, notée π, étant
la probabilité de ne pas commettre l’erreur de type II (donc π = 1 − β).
Avant de préciser cette notion de puissance, revenons à notre exemple relatif à l’améliora-
tion éventuelle du score des élèves à l’épreuve d’aptitude entre la Troisième et la Terminale.
S’il n’y a réellement pas eu d’amélioration (si H0 est vraie), l’échantillon aléatoire X1 , X2 , ...,
X50 est distribué suivant la loi N (100, 152 ), et la√ variable aléatoire moyenne X (50) est de loi
normale d’espérance µ = 100 et d’écart-type 15/ 50 = 2.121, c’est-à-dire X (50) ∼ N (100, 4.5)
(en supposant que le modèle Hm est valide). Il s’agira à présent de vérifier si la probabilité
d’observer une valeur aussi élevée que x(50) = 103 pour cette variable X (50) , est inférieure ou
supérieure au seuil de signification α = 0.05 fixé.
5
Pour ce faire, on choisit une statistique de décision T dont on connaı̂t de manière précise la
loi de probabilité si le modèle Hm est valide et si H0 est vraie. Pour le test sur une moyenne µ
d’une loi normale de variance σ 2 connue, on connaı̂t la loi de la variable aléatoire X (n) centrée
réduite T c’est-à-dire
X (n) − µ
T = √ ∼ N (0, 1) sous Hm
σ/ n
Pour prendre notre décision, on considère alors la statistique Z
X (n) − µ0
Z= √ ∼ N (0, 1) sous Hm et H0 .
σ/ n
Ensuite, on calcule la valeur observée dans l’échantillon de cette statistique de décision, soit
zobs . Dans notre exemple, on calcule
103 − 100
zobs = √ = 1.414
15/ 50
On vérifie à présent si cette valeur zobs = 1.414 est suffisamment grande pour pouvoir dire
qu’il est peu probable que l’hypothèse H0 soit vraissemblable et donc rejeter cette hypothèse
H0 (pas d’amélioration des scores). Plus précisément, si la probabilité (que nous appellerons la
probabilité critique, notée p.c.) d’observer pour une variable Z ∼ N (0, 1) une valeur au moins
aussi élevée que 1.414 est inférieure au seuil de signification α, soit α = 0.05, on dira que le
test est significatif puisqu’il y a peu de chances d’observer une telle valeur si H0 est vraie et on
concluera, par conséquent, que l’hypothèse H0 n’est pas acceptable.
Par contre, si la probabilité (p.c.) d’observer pour une variable Z ∼ N (0, 1) une valeur aussi
élevée que 1.414 est supérieure au seuil de signification α = 0.05, on concluera que H0 ne peut
pas être rejetée. Cela ne signifie pas pour autant qu’elle soit vraie mais seulement que l’écart
observé entre la statistique X (n) et la valeur du paramètre spécifiée dans H0 (µ0 ) semble plutôt
dû aux fluctuations d’échantillonnage. Les informations dont on dispose ne permettent donc
pas de rejeter H0 .
La règle de décision s’énonce habituellement comme suit :
– Rejeter H0 (avec une probabilité d’erreur ≤ au seuil α fixé) si la valeur observée tobs de
la statistique de décision 3 appartient à un ensemble de valeurs appelé la région critique
et noté R.C.α (T ) et
– Ne pas rejeter H0 dans le cas contraire.
La région critique R.C.α (T ) est définie comme l’ensemble de toutes les valeurs de la statis-
tique de décision qui vont dans le sens de l’alternative H1 et dont la probabilité, sous H0 , est
au maximum égale au seuil de signification α, c’est-à-dire, si la statistique de décision est notée
T,
P (T ∈ R.C.α (T ) | H0 est vraie) ≤ α.
Dans notre exemple, l’alternative est unilatérale à droite, les valeurs critiques de la sta-
tistique Z ∼ N (0, 1) seront donc des valeurs élevées de cette statistique (puisque si µ > µ0 ,
la valeur zobs devrait être trop élevée). On recherche donc un ensemble R.C.α (Z) de valeurs
extrêmes à droite et de probabilité α = 0.05, c’est-à-dire R.C.α (Z) = {z | z > z1−α } où
z1−α = z0.95 est le quantile d’ordre 1 − α = 0.95 (à gauche) de la loi normale centrée réduite.
3. Dans notre exemple d’inférence sur une moyenne, la statistique de décision est T = Z donc la valeur
observée est zobs et la région critique est R.C.α (Z).
6
Les tables de la loi N (0, 1) nous donnent la valeur z0.95 = 1.645, la région critique pour ce test
au seuil de signification α = 0.05 est donc
R.C.α=0.05 (Z) = {z | z > 1.645} =]1.645 ; +∞[.
La valeur observée dans l’échantillon zobs = 1.414 n’appartient pas à cette région critique
R.C.α=0.05 (Z) (car 1.414 6> 1.645), on ne peut donc pas rejeter l’hypothèse H0 avec une pro-
babilité de se tromper ≤ à α = 0.05. La moyenne observée x(n) = 103 pour ces 50 élèves de
Terminale n’est donc pas suffisamment élevée pour pouvoir en conclure qu’il y a amélioration
du score des élèves à l’épreuve d’aptitude entre la Troisième et la Terminale 4 . L’écart entre
x(n) = 103 et µ0 = 100 peut être simplement dû aux fluctuations d’échantillonnage.
Nous pouvons résumer la démarche d’un test d’hypothèses de la manière suivante :
1. Déterminer le type de problème (permettant de répondre à la question posée) et le modèle
Hm (les hypothèses relatives à la loi de probabilité des v.a. de l’échantillon). Fixer le seuil
de signification α.
2. Enoncer l’hypothèse nulle H0 et l’alternative H1 (dans les termes d’un ou plusieurs pa-
ramètres des lois de probabilité des v.a. de l’échantillon ou de la forme de ces lois de
probabilité).
3. Choisir la statistique de décision T et spécifier sa loi de probabilité si le modèle Hm est
vérifié et l’hypothèse H0 est vraie.
4. Calculer la valeur observée de cette statistique de décision, soit tobs , sur base des données
recueillies et en supposant que l’hypothèse H0 est vraie.
5. Déterminer, en fonction de la forme de l’alternative H1 (bilatérale, unilatérale à gauche
ou unilatérale à droite) et du seuil de signification α fixé, la région critique R.C.α (T ),
telle que
P (T ∈ R.C.α (T ) | H0 est vraie ) ≤ α
en se basant sur les tables de la loi de probabilité de la statistique de décision T si le
modèle Hm est valide et l’hypothèse H0 est vraie 5 .
6. Décision statistique :
- si tobs ∈ R.C.α (T ), RH0 au seuil α : on rejette H0 (et on peut affirmer H1 ) avec proba-
bilité de se tromper ≤ au seuil α fixé (on dira que le test est significatif au seuil α) ;
- si tobs 6∈ R.C.α (T ), N RH0 au seuil α : on ne peut pas rejeter H0 (ni affirmer H1 ) avec
probabilité d’erreur ≤ α (on dira que le test n’est pas significatif au seuil α).
7. Conclusion du test :
- si RH0 pour α, on peut affirmer H1 avec une probabilité d’erreur inférieure à α ;
4. Exercice : Quelle serait votre conclusion si la même moyenne x(n) = 103 avait été observée dans un
échantillon d’effectif n = 100 ?
5. Lorsque les tables le permettent, les étapes (5.) et (6.) pourront être remplacées par
5’. Calculer la probabilité critique, p.c., définie comme la probabilité que la statistique de décision prenne
une valeur au moins aussi extrême que la valeur observée dans le sens de l’alternative H1 (bilatérale,
unilatérale à gauche ou unilatérale à droite).
6’. Décision statistique :
- si p.c. ≤ α, RH0 au seuil α ;
- si p.c. > α, N RH0 au seuil α.
Cette démarche sera systématiquement suivie lorsque l’analyse sera faite par un logiciel statistique, le logiciel
fournissant toujours la valeur de p.c., appelée “niveau de probabilité p”.
7
- si N RH0 , on ne peut pas affirmer 6 H1 avec une probabilité d’erreur inférieure à α.
Revenons à présent à la notion de puissance π d’un test. Par définition, la puissance est
la probabilité de ne pas commettre l’erreur de type II ; en d’autres termes, la puissance est la
probabilité de rejeter l’hypothèse H0 alors que cette hypothèse est fausse ou l’alternative H1
est vraie,
π = P (T ∈ R.C.α (T ) | H1 est vraie ).
Notons dès à présent que la puissance dépend donc du seuil de signification α fixé (puisque la
région critique dépend de α). Par ailleurs, nous avons remarqué précédemment que l’alternative
est une hypothèse composée, il existe donc une infinité de situations la vérifiant. Le calcul de
la puissance π devra donc se faire pour chacune de ces différentes situations. Reprenons notre
exemple où l’alternative est H1 : µ > 100. La statistique de décision Z n’est parfaitement
définie que lorsqu’on a fixé la valeur de l’espérance µ ; si on suppose que H0 est vraie, on sait
que µ = 100, tandis que si on suppose que H1 est vraie, la valeur de µ reste inconnue, on sait
seulement qu’elle est > 100. Il faudra donc calculer la puissance pour chacune de ces valeurs
µ > 100. Dans ce cas, pour α fixé, on calculera donc ∀ µ > 100
π(α, µ) = P (Z ∈ R.C.α (Z) | µ est la vraie moyenne).
Le calcul de la puissance d’un test d’hypothèses sort du cadre de ce cours. Notons seulement
que lorsque l’effectif de l’échantillon augmente, la puissance augmente également. Il est donc
toujours plus facile de prouver une hypothèse H1 en se basant sur un échantillon aléatoire
d’effectif relativement grand.
Terminons cette partie introductive par la définition des grandes catégories de tests. Un
test est dit paramétrique si les hypothèses H0 et H1 portent sur la valeur d’un ou de plusieurs
paramètres d’une variable aléatoire (de loi spécifiée ou non) : l’exemple que nous avons traité
est un test paramétrique. Dans la plupart des cas, ces tests sont basés sur une hypothèse de
normalité des populations (modèle Hm ). La question se pose alors de savoir si les résultats
restent encore valables lorsque la population n’est pas normale : si les résultats sont valables,
on dit que le test est robuste. La robustesse d’un test par rapport à un certain modèle Hm
est donc la qualité de rester relativement insensible à certaines modifications du modèle : par
exemple, les tests sur une moyenne sont robustes.
Une catégorie particulièrement intéressante de tests robustes est la classe des tests libres
(en anglais distribution free) : il s’agit de tests valables quelle que soit la loi de probabilité de
la variable aléatoire étudiée, donc valables lorsqu’on ignore tout de cette loi. Ces tests sont
très souvent des tests non paramétriques, tests dont les hypothèses ne portent pas sur la valeur
d’un ou plusieurs paramètres d’une variable aléatoire, mais ce n’est pas forcément le cas (voir
Chapitre 8).
1.4 Objectif du cours

L’objectif de ce cours est l’étude des méthodes classiques de l’inférence statistique. A partir
d’un ensemble de données recueillies suivant une méthodologie précise, il s’agira de
– poser les questions judicieuses et les opérationnaliser, c’est-à-dire les traduire dans les
termes d’une inférence statistique,
6. Attention : en aucun cas, on ne pourra affirmer que H0 est vraie. En effet, le N RH0 ne signifie pas pour
autant que l’hypothèse H0 soit vraie, mais seulement que la probabilité (p.c.) que l’écart entre la valeur observée
(ici, xobs ) et la valeur théorique (µ0 sous H0 ) soit dû aux fluctuations d’échantillonage est trop grande (> α)
pour rejeter H0 .
8
– choisir une ou plusieurs méthodes statistiques inférentielles permettant de répondre à ces
questions initiales (en tenant compte de la structure des données),
– mettre en oeuvre ces méthodes statistiques inférentielles et
– interpréter les résultats de l’analyse effectuée, c’est-à-dire tirer de manière précise la
conclusion de l’analyse et répondre aux questions initiales posées.
1.5 Références
– MEOT Alain, “Introduction aux statistiques inférentielles, de la logique à la pratique”,
Bruxelles, Paris, De Boeck Université (Méthodes en Sciences Humaines), 2003.
– MARTIN Louise et Gérald BAILLARGEON, “Statistique Appliquée à la Psychologie”,
Editions SMG, Trois-Rivières, Québec, 1989.
– FERGUSON A. George, “Statistical Analysis in Psychology and Education”, McGraw-Hill
Inc., New York, 1981.
– HOWELL David C., “Méthodes Statistiques en Sciences Humaines”, Bruxelles, Paris, De
Boeck Université, 1998 (traduction française de “Statistical Methods for Psychology”, 4th
edition, Duxbury Press, 1997).
– ROUANET Henry, Jean-Marc BERNARD et Brigitte LE ROUX, “Statistique en Sciences
Humaines : Analyse Inductive des Données”, Dunod, Bordas, Paris, 1990.
– TOOTHAKER Larry E., “Multiple Comparisons for Researchers”, Sage Publications,
Inc., Newbury Park, California, 1991.
– ABDI Hervé, “Introduction au Traitement Statistique des Données Expérimentales”, Presses
Universitaires de Grenoble, Grenoble, 1987.
– LINDMAN Harold, “Analysis of Variance in Complex Experimental Designs”, W. H.
Freeman and Company, San Francisco, California, U.S.A., 1974.
– SPRENT Peter, ”Pratique des Statistiques Nonparamétriques”, INRA Editions, Paris,
1992.
– DAGNELIE Pierre, “Statistique Théorique et Appliquée”, Tomes 1 et 2, Bruxelles, Paris,
De Boeck Université, 1998.
– CONOVER W.J. “Practical Nonparametric Statistics”, John Wiley and Sons, 2d ed, 1980.
– SHAPIRO S.S. et WILK M.B., “An Analysis of Variance Test of Normality (complete
samples)”, in Biometrika, 52, 591-611.
– MARASCUILO L. et M. McSWEENEY, “Nonparametric and Distribution-Free Methods
for the Social Sciences”, Brooks/ Cole Publishing Company, Monterey, California, U.S.A.,
1977.
– SIEGEL S. et CASTELLAN N. J., Jr, “Nonparametric Statistics for the Behavioral
Sciences” Second edition, McGraw-Hill International editions, New York, 1988.
9
2 CADRE ET NOTATIONS GENERALES
2.1 Les paramètres
Tous les paramètres des lois de probabilité seront représentés par des lettres grecques, par
exemple,
φ : fréquence ou probabilité de l’occurence d’un événement aléatoire
(voir variable aléatoire binomiale ci-dessous, section 2.3.1)
Soient X et Y deux variables aléatoires 7 quantitatives, les principaux paramètres théoriques
sont
µ ou µX : espérance mathématique ou moyenne théorique de la v.a. X,

µX = E(X)
σ 2 ou σX
2
: variance théorique de la v.a. X,
σX2
= E[(X − E(X))2 ] = E (X 2 ) − (E(X)) p
2
2
σ ou σX : écart-type théorique de la v.a. X, σX = σX
σXY : covariance théorique entre les v.a. X et Y
σXY = E[(X − E(X))(Y − E(Y ))] = E(XY ) − E(X)E(Y )
ρ ou ρXY : coefficient de corrélation linéaire théorique entre les v.a. X et Y
ρXY = σXY /(σX · σY )
Soient X1 , X2 , · · · , Xj , · · · , Xp , p variables aléatoires quantitatives, on considère le vecteur
aléatoire (ou ve. a.), noté X (en caractères gras) 8 , constitué des p composantes correspondant
aux p v. a. Xj , j = 1, · · · , p. On écrira
 
X1
 X2 
 . 
 . 
 . 
X=
 Xj 

 . 
 .. 
Xp
On dira que le vecteur aléatoire X est de dimension p.
Le vecteur moyen ou vecteur des espérances mathématiques des p variables aléatoires, µj =
E(Xj ) (j = 1, · · · , p), noté µ, est défini par
 
µ1
 µ2 
 . 
 . 
 . 
µ=
 µj 

 . 
 .. 
µp
et la matrice de variance-covariance, notée Σ, est la matrice composée des variances de chacune
des p variables aléatoires, σj2 , variance de Xj (j = 1, · · · , p), et des covariances entre chacune
7. On écrira souvent v.a. pour variable aléatoire. On négligera l’indice faisant référence à la v.a. considérée
lorsque cela n’engendre aucune ambiguı̈té.
8. Il est d’usage de différentier les vecteurs et matrices des nombres en les notant en caractères gras ; dans
la suite de l’exposé, nous suivrons cette convention.
10
de ces variables aléatoires prises deux par deux, σjk , covariance entre les v. a. Xj et Xk (j et
k = 1, · · · , p) ; plus précisément
 2 
σ1 σ12 · · · σ1j ··· σ1k · · · σ1p
 σ21 σ22 · · · σ2j ··· σ2k · · · σ2p 
 .. .. .. ..
 
 . . . .


 σj1 σj2 · · · σj2 · · · σjk · · · σjp
 

Σ=  ... .. .. .. 
 . . . 

 k1 k2 · · · σkj
 σ σ · · · σk2 · · · σkp 

 . .. .. ... ..
 ..

. . . 
σp1 σp2 · · · σpj · · · σpk · · · σp2
Il est important de noter que cette matrice est symétrique puisque σjk = σkj pour tout j
et k = 1, · · · , p. De plus, rappelons que la variance d’une variable n’est rien d’autre que la
covariance de cette variable avec elle-même, σj2 = σjj .
2.2 Les statistiques ou estimateurs

Soit une expérience aléatoire donnant lieu (entre autres) à l’événement aléatoire A ; si cette
expérience aléatoire est répétée n fois de manière indépendante,
f : la fréquence de l’événement aléatoire A, est le nombre d’occurences de

l’événement A divisé par n, le nombre de répétitions de l’expérience,
estimateur sans biais de la fréquence théorique φ.
Soit un échantillon aléatoire i.i.d. d’effectif n extrait d’une population, X1 , X2 , ..., Xn ,
on peut définir les statistiques suivantes,
T ou TX : la somme (ou le Total) des n v.a. Xi , i = 1, · · · , n,
n
X
T = Xi
i=1
X ou X (n) : moyenne arithmétique des n v.a. X1 , X2 , ..., Xn , estimateur sans biais

de leur moyenne théorique (ou espérance) µ ou µX ,
n
1X T
X= Xi =
n i=1 n
SC ou SCX : la Somme des Carrés des n v.a. Xi , i = 1, · · · , n,

n
X
SCX = Xi2
i=1
SCE ou SCEX : la Somme des Carrés d’Ecarts à la moyenne des n v.a. Xi , i = 1, · · · , n,

n
X 2 TX2
SCEX = Xi − X (n) = SCX −
i=1
n
11
S 2 ou SX
2
: variance des n v.a. X1 , X2 , ..., Xn , estimateur sans biais de leur variance
théorique σ 2 ou σX
2
,
n
2 1 X 2 SCEX
SX = (Xi − X) =
n − 1 i=1 n−1
p
S ou SX : écart-type 9 des n v.a. X1 , X2 , ..., Xn , SX = 2
SX .
Soit un second échantillon aléatoire i. i. d. d’effectif n, Y1 , Y2 , ..., Yn , on définit comme

ci-dessus, les statistiques
TY , la somme (ou le Total) des n v.a. Yi , i = 1, · · · , n,
Y ou Y (n) , la moyenne arithmétique des n v.a. Yi ,
SCY , la Somme des Carrés des n v.a. Yi ,
SCEY , la Somme des Carrés d’Ecarts à la moyenne des n v.a. Yi ,
SY2 , la variance des n v.a. Yi , p
SY , l’écart-type des n v.a. Y1 , Y2 , ..., Yn , SY = SY2 .
puis les nouvelles statistiques suivantes (pour étudier la liaison de X et Y ),
SPXY : la Somme des Produits des n v.a. Xi et Yi , i = 1, · · · , n,
n
X
SPXY = X i · Yi
i=1
SP EXY : la Somme des Produits d’Ecarts aux moyennes des n v.a. Xi et Yi , i = 1, · · · , n,
n
X TX · TY
SP EXY = Xi − X (n) · Yi − Y (n) = SPXY −
i=1
n
SXY : covariance entre les v. a. X et Y , estimateur sans biais de leur covariance

théorique σXY ,
n
1 X SP EXY
SXY = (Xi − X)(Yi − Y ) =
n − 1 i=1 n−1
R ou RXY : coefficient de corrélation linéaire entre les v.a. X et Y ,
SXY SP EXY
RXY = =√
SX SY SCEX · SCEY
Soit un échantillon de n vecteurs aléatoires de dimension p extrait d’une population, X1 ,

X2 , · · · , Xi , · · · , X n ,
9. Notons que cet écart-type, défini comme la racine carrée de la variance sans biais, est biaisé, la racine
carrée n’étant pas une fonction linéaire.
12
X : le vecteur des moyennes arithmétiques des p composantes des vecteurs aléatoires Xi ,
estimateur sans biais du vecteur moyen µ
 
X1

 X2 

 .. 
 . 
X= 
 Xj 
..
 
 
 . 
Xp
où X j = ni=1 Xij est la moyenne arithmétique des n variables de l’échantillon aléatoire cor-
P
respondant à la jème composante des n vecteurs aléatoires et
S : la matrice de variance-covariance empirique des vecteurs aléatoires Xi ,

estimateur sans biais de la matrice de variance-covariance théorique Σ
S12 S12 · · · S1j · · · S1k

 
··· S1p
 S21 S22 · · · S2j · · · S2k ··· S2p 
.. ... .. ..
 
. . .
 
 
Sj1 Sj2 · · · Sj2 · · · Sjk ··· Sjp
 
 
S= .. .. .. .. 

 . . . . 


 Sk1 Sk2 · · · Skj · · · Sk2 · · · Skp 

 .. .. .. .. .. 
 . . . . . 
Sp1 Sp2 · · · Spj · · · Spk · · · Sp2
où Sj2 est l’estimateur sans biais de la variance σj2 et Sjk est l’estimateur sans biais de la
covariance σjk (voir ci-dessus).
2.3 Les lois de probabilité

2.3.1 La loi binomiale X ∼ Bi(n, φ)
Soit une expérience aléatoire donnant lieu à deux événements possibles appelés “Succès” et
“Echec”. Soit φ la probabilité du Succès et donc 1 − φ la probabilité de l’Echec. On répète n
fois de manière indépendante cette expérience aléatoire. La variable aléatoire X définie par le
nombre de Succès observés lors de ces n expériences 10 , est appelée variable aléatoire binomiale
d’effectif n et de paramètre φ et notée X ∼ Bi(n, φ).
La loi de probabilité de la variable aléatoire binomiale est donnée par
n!
P (X = k) = Cnk φk (1 − φ)n−k avec Cnk =
k!(n − k)!
10. On peut voir également la variable binomiale X ∼ Bi(n, φ) comme la somme de n variables aléatoires
indépendantes et identiquement distribuées, U1 , U2 , ..., Un , appelées indicatrices où Ui est égal à 1 si le résultat
du ième essai de l’espérience aléatoire est le Succès et 0 si ce résultat est l’Echec (∀ i = 1, · · · , n). Dans ce sens,
la fréquence du Succès f = X/n est la moyenne des n v.a.i.i.d. que sont ces indicatrices.
13
pour toute valeur possible k = 0, 1, · · · , n. Il s’agit donc d’une variable discrète. Cette loi de
probabilité est également définie par sa fonction de répartition 11
x
X
FX (x) = P (X ≤ x) = P (X = k)
k=1
pour x = 0, 1, · · · , n (voir Tables statistiques 1.1 à 1.5).

On démontre que l’espérance mathématique depX est égale à µX = nφ et la variance de X
2
est σX = nφ(1 − φ) ; donc l’écart-type vaut σX = nφ(1 − φ).
Par le Théorème Central-Limite (voir ci-dessous Section 2.3.3, “Loi normale” ), si nφ > 5
et n(1 − φ) > 5, on peut approcher la v.a. binomiale X ∼ Bi(n, φ) par la loi N (nφ, nφ(1 − φ)),
ce qui donne les résultats approximatifs suivants
X
X − nφ −φ
n
p ≈ Z ∼ N (0, 1) ou p ≈ Z ∼ N (0, 1)
nφ(1 − φ) φ(1 − φ)/n
Pour affiner l’approximation de la loi binomiale (loi discrète) par la loi normale (loi continue),
on utilisera parfois une correction de continuité ; cette correction qui est basée sur l’identité
P [X = x] = P [x − 0.5 ≤ X ≤ x + 0.5], consiste à “agrandir” le domaine de variation de la
variable comme suit
!
x + 0.5 − nφ
P [X ≤ x] = P [X ≤ x + 0.5] ≈ Φ p
nφ(1 − φ)
et !
x − 0.5 − nφ
P [X ≥ x] = 1 − P [X ≤ x − 1] = 1 − P [X ≤ x − 0.5] ≈ 1 − Φ p
nφ(1 − φ)
où Φ(z) désigne la fonction de répartition de la loi normale centrée réduite (voir ci-dessous).
2.3.2 La loi multinomiale

Comme son nom l’indique, cette loi généralise la loi binomiale. Soit une expérience aléatoire
donnant lieuPk à k événements possibles, A1 , A2 , ..., Ak , de probabilités respectives φ1 , φ2 , ...,
φk (avec j=1 φj = 1). On répète n fois l’expérience aléatoire et on compte le nombre de
réalisations de chacun des événements Aj , soit Nj ce nombre (donc kj=1 Nj = n). Le vec-
P
teur aléatoire (N1 , N2 , · · · , Nk ) suit alors par définition une loi multinomiale d’effectif n et de
paramètres p1 , p2 , · · · , pk .
La loi de probabilité conjointe du vecteur aléatoire (N1 , N2 , · · · , Nk ) est donnée par
n!
P (N1 = n1 ; N2 = n2 ; · · · ; Nk = nk ) = φ1 n1 φ2 n2 · · · φk nk
n1 !n2 ! · · · nk !
pour les valeurs possibles (n1 , n2 , · · · , nk ) telles que kj=1 nj = n et nj est un entier positif
P
∀j = 1, 2, · · · , k. Il s’agit d’un vecteur aléatoire discret.
11. On peut déduire la probabilité P (X = k) de cette fonction de répartition par la relation suivante P (X =
k) = P (X ≤ k) − P (X ≤ k − 1) pour tout k = 0, 1, · · · , n.
14
2.3.3 La loi normale de moyenne µ et de variance σ 2 , X ∼ N (µ, σ 2 )
La loi normale est la loi de probabilité continue la plus fréquemment utilisée en statistique.
C’est, en effet, la loi qui s’applique à une variable qui est la résultante d’un grand nombre de
causes indépendantes, dont les effets s’additionnent et dont aucune n’est prépondérante (par le
Théorème Central-Limite) 12 . En particulier, la loi normale apparaı̂t comme une approximation
de la loi de la moyenne de v.a.i.i.d. et de la loi binomiale lorsque l’effectif de l’échantillon est
grand.
La loi normale centrée réduite (de moyenne µ = 0 et d’écart-type σ = 1) est celle d’une
variable aléatoire Z ∼ N (0, 1), définie par sa fonction de répartition notée Φ(z),
Φ(z) = FZ (z) = P (Z ≤ z), ∀ z ∈ IR
qui est une fonction positive strictement croissante telle que
lim Φ(z) = 0 et lim Φ(z) = 1
z→−∞ z→+∞
Cette fonction réelle Φ(z) est tabulée (voir Table statistique 2.1) et correspond à la surface
sous le graphe de la densité de probabilité fZ (z) (ou fonction de fréquence 13 ) pour toutes les
valeurs ≤ z ∈ IR .
La densité de probabilité fZ (z) est symétrique par rapport à la valeur 0 ( fZ (−z) =
fZ (z), ∀ z) et la surface totale sous la courbe est égale à 1 (puisque limz→+∞ Φ(z) = 1) 14 .
On l’appelle souvent courbe de Gauss ou encore gaussienne.
Le quantile zq d’ordre q de la loi normale centrée réduite est défini par
Φ(zq ) = P (Z ≤ zq ) = q, ∀q ∈ (0, 1).
La loi normale de moyenne µ et de variance σ 2 , N (µ, σ 2 ), s’obtient par transformation
linéaire de la loi normale centrée réduite, en multipliant par l’écart-type et en ajoutant la
moyenne ; plus précisément, si X ∼ N (µ, σ 2 ), alors X = µ + σZ avec Z ∼ N (0, 1). Donc, la loi
de probabilité de toute variable aléatoire normale X ∼ N (µ, σ 2 ) s’obtient à partir de la loi de
probabilité de la variable aléatoire Z ∼ N (0, 1) par la transformation
X −µ
= Z ∼ N (0, 1)
σ
et la densité de probabilité de X, fX (x), est symétrique par rapport à la moyenne µ.
12. Enoncé du Théorème Central-Limite : Soient X1 , X2 , · · · , Xi , · · · , Xn , n v.a.i.i.d. telles que E (Xi ) = µ
et V ar (Xi ) = σ 2 , lorsque l’effectif n est suffisamment grand, la v.a. somme Sn = X1 + X2 + · · · + Xn est
2
approximativement de loi N (nµ, nσ 2 ) et la v.a. X (n) est approximativement de loi N (µ, σn ), donc
X (n) − µ
√ ≈ Z ∼ N (0, 1)
σ/ n
13. La densité de probabilité de la loi normale centrée réduite est donnée par
1 −z 2
fZ (z) = √ exp( )
2π 2
et est reliée à la fonction de répartition par la relation suivante
Z z
Φ(z) = FZ (z) = fZ (u) du
−∞
14. Cette dernière propriété n’est pas une propriété spécifique à la loi normale centrée réduite mais est vérifiée
pour n’importe quelle loi de probabilité continue.
15
2.3.4 La loi χ2ν à ν degrés de liberté
La loi de probabilité χ21 (χ2 à 1 degré de liberté) est définie comme étant celle d’une variable
aléatoire normale centrée réduite élevée au carré
Z 2 ∼ χ21
Comme son nom et sa définition l’indiquent, il s’agit d’une variable aléatoire continue prenant
uniquement des valeurs positives.
La loi de probabilité χ2ν (χ2 à ν degrés de liberté) est définie comme étant celle de la somme
de ν variables aléatoires indépendantes χ21 , ou la somme des carrés de ν v.a. normales centrées
réduites Z1 , Z2 , ..., Zν ,
X ν
Z12 + Z22 + · · · + Zν2 = Zi2 ∼ χ2ν
i=1
La variable aléatoire χ2ν

est une variable aléatoire continue à valeurs positives (∀ ν ≥ 1). Les
quantiles χν,q d’ordre q d’une v.a. U ∼ χ2ν , définis par
2
P (U ≤ χ2ν,q ) = q, ∀q ∈ (0, 1),
sont tabulés pour ν ≤ 100 (voir Table statistique 4).
2.3.5 La loi tν de Student à ν degrés de liberté

Soient deux variables aléatoires indépendantes, Z ∼ N (0, 1) et U ∼ χ2ν , on définit la variable
aléatoire T de Student à ν degrés de liberté comme étant
Z
T =p ∼ tν .
U/ν
Cette loi est symétrique par rapport à la valeur 0, comme la loi normale centrée réduite vers
laquelle elle tend lorsque le nombre de degrés de liberté tend vers +∞.
Les quantiles tν,q d’ordre q d’une v.a. T ∼ tν , définis par
P (T ≤ tν,q ) = q, ∀q ∈ (0, 1),
sont tabulés pour ν ≤ 100 (voir Table statistique 3) ; pour ν > 100, on utilise les tables de
la loi normale centrée réduite.
2.3.6 La loi Fν1 ,ν2 de Fisher-Snédécor (ou de Fisher) à (ν1 , ν2 ) degrés de liberté
Soient deux variables aléatoires indépendantes, U1 ∼ χ2ν1 et U2 ∼ χ2ν2 , on définit la variable
aléatoire F de Fisher-Snédécor (ou simplement de Fisher) à (ν1 , ν2 ) degrés de liberté comme
étant
U1 /ν1
F = ∼ Fν1 ,ν2
U2 /ν2
Par définition, cette variable aléatoire prend toujours des valeurs positives. Ses quantiles Fν1 ,ν2 ,q
d’ordre q définis par
P (F ≤ Fν1 ,ν2 ,q ) = q, ∀q ∈ (0, 1)
sont tabulés (voir Table statistique 5).
16
2.3.7 La loi normale multivariée Np (µ, Σ)
0
On dit que le vecteur aléatoire X = X1 X2 · · · Xj · · · Xp (de dimension p) suit
une loi normale multivariée si toute combinaison linéaire de ses composantes suit une loi normale
univariée, c’est-à-dire toute variable aléatoire T définie par
p
X
T = aj X j
j=1
pour des constantes aj arbitraires pour j = 1, · · · , p. On dira alors que le vecteur X est un
vecteur gaussien. Un vecteur aléatoire gaussien est défini par son espérance µ et sa matrice de
variance-covariance Σ (voir Section 2.1). On écrira X ∼ Np (µ, Σ). Il n’est pas possible de
construire des tables donnant les probabilités correspondant à une loi multivariée.
17
3 INFERENCE SUR LES FREQUENCES
A. Un échantillon
3.1 Inférence sur une fréquence φ

Soit un échantillon aléatoire i.i.d. d’effectif n classé suivant une variable dichotomique A
(prenant deux modalités différentes A1 et A2 ). Soit φ la fréquence de la modalité A1 dans la
population dont on a extrait cet échantillon. Le test de comparaison de la fréquence φ à une
norme φ0 s’écrit
H0 : φ = φ0
H1 : φ 6= φ0 (ou φ < φ0 ou φ > φ0 )
Soit la v.a. X définie comme le nombre de A1 (considéré comme le “Succès”) parmi les n
expériences avec fréquence φ de A1 donc X est une v.a. binomiale, X ∼ Bi(n, φ).
La statistique de décision et sa loi sous H0 sont
X ∼ Bi(n, φ0 )
Si nφ0 > 5 et n(1 − φ0 ) > 5, on peut utiliser l’approximation donnée par le Théorème Central-
Limite (voir Section 2.3.3)
X − n · φ0 f − φ0
Z=p =q ∼ N (0, 1)
n · φ0 · (1 − φ0 ) φ0 ·(1−φ0 )
n
X
où f est la fréquence de “Succès” dans l’échantillon d’effectif n, donc f =.
n
Parfois, on pourra appliquer la correction de continuité suivante (voir Section 2.3.1)
X ± 21 − n · φ0 1
f ± 2n − φ0
Z=p = q ∼ N (0, 1).
n · φ0 · (1 − φ0 ) φ0 ·(1−φ0 )
n
Si nf > 20 et n(1 − f ) > 20, l’intervalle de confiance pour φ au niveau de confiance 1 − α,

IC1−α (φ), est donné par
r r !
f · (1 − f ) f · (1 − f )
IC1−α (φ) = f − z1−α/2 , f + z1−α/2
n n

= f − z1−α/2 · Sf , f + z1−α/2 · Sf ou f ± z1−α/2 · Sf
r
f · (1 − f )
où Sf = désigne l’estimateur de l’écart-type de la fréquence f , appelé erreur-type
n
de la fréquence f . Pour estimer une fréquence φ par IC1−α (φ) avec une erreur maximale fixée
e, l’effectif nécessaire n pour atteindre cette précision doit satisfaire
2
z1−α/2 · f0 · (1 − f0 )
n≥ où f0 désigne une estimation préalable de φ
e2
ou si aucune estimation préalable de la fréquence φ n’est disponible,
2
z1−α/2
n≥ .
4 · e2
Si nf ≤ 20 et/ou n(1 − f ) ≤ 20, l’intervalle de confiance IC1−α (φ) s’obtient par abaque
elliptique, les limites de l’intervalle étant tabulées pour différentes valeurs de f , n et α (voir
Table statistique 1.6).
18
3.2 Tests d’ajustement à un modèle théorique
Pk
3.2.1 Inférence sur plusieurs fréquences φ1 , φ2 , · · · et φk (avec j=1 φj = 1) : le test
χ2 pour une variable catégorisée.
Soit un échantillon aléatoire i.i.d. d’effectif n classé suivant une variable catégorisée A pre-
nant k modalités incompatibles et exhaustives (s’excluant mutuellement) A1 , A2 , · · · et Ak .
Soit φj la fréquence de la modalité Aj dans la population dont on a extrait cet échantillon
(∀ j = 1, 2, · · · , k). Le test d’ajustement de la distribution de fréquence φ1 , φ2 , · · · et φk au
modèle théorique φ01 , φ02 , · · · et φ0k s’écrit

H0 : φ1 = φ01 , φ2 = φ02 , · · · , φk = φ0k
H1 : ∃ j ∈ {1, · · · , k} tel que φj 6= φ0j
Soit n∗j = nφ0j l’effectif théorique de la modalité Aj (∀ j = 1, · · · , k) si H0 est vraie ; si tous
ces effectifs théoriques sont ≥ 1 et pas plus de 20% de ces effectifs théoriques ne sont < 5, on
utilise la statistique 15 de décision χ2 de Pearson, de loi approximativement χ2k−1 sous H0 ,
k 2
2
X nj − n∗j
χ = ≈ χ2k−1 , χ2 à k − 1 d.d.l.
j=1
n∗j
Pour le calcul, on pourra utiliser la formule équivalente suivante :

k
2
X n2j
χ = − n.
j=1
n∗j
Une autre statistique de test, appelé test du rapport de vraisemblance, permet de mettre à
l’épreuve l’hypothèse d’adéquation au modèle théorique ; elle est donnée par
k
2
X nj
G =2 nj ln .
j=1
n∗j
Sous H0 , la loi de cette statistique est également approximativement χ2k−1 ,
G2 ≈ χ2k−1 , χ2 à k − 1 d.d.l.
Cette statistique est principalement utilisée dans l’analyse des modèles log-linéaires.
15. Ces conditions d’application ont été proposées par Cochran (“The χ2 Test of Goodness of Fit”, Annals
of Mathematical Statistics, 1952, vol. 23, 315-345) ; plus précisément, il a établi le nombre maximal d’effectifs
théoriques < 5 en fonction du nombre k de fréquences (ou de classes)
Nombre de Nombre maximal d’effectifs

classes théoriques < 5
1 à 4 0
5 à 9 1
10 à 14 2
15 à 19 3
20 à 24 4
25 à 29 5
30 à 34 6
etc
19
3.2.2 Le test χ2 pour une variable numérique discrète
Soit X1 , X2 , ..., Xn un échantillon de n variables aléatoires i.i.d. suivant une loi de probabilité
discrète inconnue 16 . On désire tester si cet échantillon peut être considéré comme un échantillon
aléatoire i.i.d. suivant une loi de probabilité (discrète) connue F0 . Ce test peut s’énoncer de
deux manières différentes, soit en spécifiant totalement cette loi de probabilité (par exemple,
une loi binomiale d’effectif m et de fréquence φ connus), soit en spécifiant seulement la forme
de cette loi de probabilité mais pas la valeur de tous les paramètres (par exemple, loi binomiale
d’effectif m connu mais de fréquence φ inconnue) :

H0 : échantillon i.i.d. suivant loi F0 (de paramètres connus ou inconnus)
H1 : négation de H0
Ce test d’ajustement s’effectue en constituant un certain nombre k de classes de valeurs

pour la variable considérée, puis en comparant les fréquences observées dans l’échantillon avec
les fréquences théoriques φ0j (j = 1, · · · , k) de chacune de ces classes pour la loi de probabilité
testée F0 (sous H0 ). Si certains paramètres ne sont pas spécifiés dans l’hypothèse nulle H0 , on
les estime à partir des données. Ensuite, ce test s’effectue de manière semblable à celui d’une
inférence sur plusieurs fréquences φ1 , φ2 , · · · et φk (voir ci-dessus Section 3.2.1). Le nombre
de classes sera déterminé de manière à vérifier les conditions d’application de cette inférence
sur plusieurs fréquences. La statistique de décision est identique à celle donnée en Section
3.2.1.). Si l’hypothèse H0 est vraie et si la condition sur les effectifs théoriques (n∗j = nφ0j pour
j = 1, · · · , k) est vérifiée, cette statistique suit approximativement une loi χ2 dont le nombre de
degrés de liberté est diminué du nombre r de paramètres non spécifiés dans l’hypothèse nulle
H0 (et donc estimés à partir des données), c’est-à-dire
k 2
2
X nj − n∗j
χ = ≈ χ2k−1−r , χ2 à k − 1 − r d.d.l.
j=1
n∗j
avec n∗j = nφ0j pour j = 1, · · · , k. Pour le calcul, on pourra à nouveau utiliser la formule
équivalente suivante :
k
2
X n2j
χ = − n.
n∗
j=1 j
3.2.3 Le test de Kolmogorov (variable numérique continue)

Soit X1 , X2 , ..., Xn un échantillon aléatoire i.i.d. d’effectif n suivant une loi de probabilité
continue de fonction de répartition inconnue F (x) (rappelons que F (x) = P (X ≤ x) ∀ x ∈ IR ).
Soit F0 (x) une fonction de répartition fixée (correspondant à une loi de probabilité continue).
Le test d’ajustement à la loi de fonction de répartition F0 (x) s’écrit

H0 : ∀ x ∈ IR , F (x) = F0 (x)
H1 : négation de H0 (∃ x ∈ IR tel que F (x) 6= F0 (x))
16. On utilise parfois le test χ2 comme statistique de décision pour l’ajustement à une distribution continue
(souvent la loi normale de paramètres µ et σ 2 connus ou estimés à partir des données). Cette procédure n’est
recommandée que dans le cas où seules les données regroupées en classes sont accessibles. Les regroupements
arbitraires peuvent conduire à des incohérences, un regroupement conduisant au rejet de l’hypothèse H0 et un
autre ne permettant pas ce rejet. L’ajustement à une loi continue s’effectuera plutôt par le test de Kolmogorov
ou celui de Lilliefors présentés ci-dessous.
20
La statistique de décision K de Kolmogorov est la distance maximale (ou encore l’écart absolu
maximal) entre la fonction de répartition théorique sous H0 , F0 , et la fonction de répartition
empirique (basée sur les observations), F̂ (x), qui se calcule comme suit 17
nombre de valeurs ≤ x dans l’échantillon
F̂ (x) = .
n
La statistique K et sa loi sous H0 sont données par
K = maxx∈IR | F̂ (x) − F0 (x) | ∼ Kn de Kolmogorov pour un échantillon d’effectif n.
En pratique, la valeur observée de cette statistique de décision s’obtient comme suit : on

calcule toutes les différences 18 F̂ (xi ) − F0 (xi ) et F̂ (xi−1 ) − F0 (xi ) pour i = 1, · · · , n, puis on
prend le maximum des valeurs absolues de toutes ces différences
kobs = maxi=1,··· ,n {| F̂ (xi ) − F0 (xi ) |, | F̂ (xi−1 ) − F0 (xi ) |}.
Les quantiles de la statistique de Kolmogorov sont tabulés pour n ≤ 40 (voir Table sta-
tistique 15) ; lorsque n > 40, on utilisera des valeurs approchées, par exemple 1.36 √ et 1.63
n
√ pour
n
α = 0.05 et α = 0.01 respectivement.
Il est également possible d’utiliser le test de Kolmogorov pour une alternative unilatérale,
H1 : ∃x ∈ IR , F (x) > F0 (x) (c’est-à-dire la distribution F se situe plus à gauche, vers les valeurs
plus faibles, que la distribution F0 en au moins un point x) ou H1 : ∃x ∈ IR , F (x) < F0 (x) (c’est-
à-dire la distribution F se situe plus à droite, vers les valeurs plus élevées, que la distribution F0
en au moins un point x). Dans ce cas, on utilise les tables unilatérales (voir Table statistique
15) et on n’oublie pas de vérifier que le sens de la différence correspond bien à l’alternative
considérée.
3.2.4 Le test de Lilliefors (ajustement à une loi normale)

Le test de Lilliefors est une adaptation du test de Kolmogorov pour l’ajustement à une
loi normale N (µ, σ 2 ) de paramètres µ et σ inconnus. Soit FN (x) la fonction de répartition
correspondant à cette loi normale. Les hypothèses sont

H0 : ∀ x ∈ IR , F (x) = FN (x) (distribution normale)
H1 : négation de H0 (∃ x ∈ IR tel que F (x) 6= FN (x))
où F (x) est la fonction de répartition dans la population dont on a extrait un échantillon
aléatoire i.i.d. X1 , X2 , ..., Xn d’effectif n.
La statistique L de Lilliefors est une distance entre la fonction de répartition empirique
calculée à partir des données centrées réduites et la fonction de répartition normale centrée
réduite N (0, 1). Plus précisément, on calcule la moyenne arithmétique des observations (la
17. La fonction de répartition empirique F̂ (x), parfois appelée fonction cumulée à gauche de l’échantillon,
est l’estimation, à partir de l’échantillon, de la fonction de répartition F (x) de la population. Il s’agit d’une
fonction en escaliers, constante entre deux valeurs observées et augmentant d’une hauteur égale à 1/n au niveau
de chacune des valeurs observées ; lorsque plusieurs valeurs observées sont égales, l’augmentation est égale au
nombre de valeurs égales /n. La fonction F̂ (x) est donc une fonction croissante sur IR partant de la valeur 0 et
atteignant la valeur 1.
18. Puisque la fonction de répartition empirique est une fonction croissante partant de la valeur 0 pour arriver
à la valeur 1 par sauts de hauteur 1/n, cette fonction prend donc n + 1 valeurs différentes (sauf lorsque plusieurs
valeurs observées sont égales, auquel cas certaines des valeurs de F̂ (xi ) coı̈ncident, ce qui ne modifie en rien la
formule). Par convention, on notera donc F̂ (x0 ) = 0, F̂ (x1 ) = 1/n, F̂ (x2 ) = 2/n, · · · , F̂ (xn ) = n/n = 1.
21
2
valeur observée de X (n) , l’estimateur sans biais de la moyenne µ) et la valeur observée de S(n)
(l’estimateur sans biais de la variance σ 2 ) et on utilise ces valeurs pour centrer et réduire les
données ; soient
xi − x(n)
z(i) = , i = 1, · · · , n
s(n)
ces données centrées réduites rangées en ordre croissant.
Ensuite, on construit la fonction de répartition empirique associée à ces données centrées
réduites, soit F̂ (z) cette fonction (voir ci-dessus pour la définition de cette fonction empirique),
et on calcule les valeurs Φ(z(i) ) de la fonction de répartition de la loi normale N (0, 1) aux
données centrées réduites z(i) (i = 1, · · · , n) en utilisant les tables de la loi normale N (0, 1)
(voir Table statistique 2.1).
La statistique de décision L de Lilliefors et sa loi sous H0 sont données par
L = maxz∈ IR | F̂ (z) − Φ(z) | ∼ Ln de Lilliefors pour un échantillon d’effectif n.
En pratique, la valeur observée de cette statistique de décision s’obtient comme suit : on

calcule toutes les différences 19 F̂ (zi ) − Φ(zi ) et F̂ (zi−1 ) − Φ(zi ) pour i = 1, · · · , n, puis on prend
le maximum des valeurs absolues de toutes ces différences
lobs = maxi=1,··· ,n {| F̂ (zi ) − Φ(zi ) |, | F̂ (zi−1 ) − Φ(zi ) |}.
Les quantiles de la statistique de Lilliefors sont tabulés pour n ≤ 30 (voir Table statistique
16) ; lorsque n > 30, on utilisera des valeurs approchées, par exemple 0.886
√
n
et 1.031
√
n
pour α = 0.05
et α = 0.01 respectivement.
3.2.5 Le test de Shapiro-Wilk (ajustement à une loi normale)

3.2.5.1 Fondements théoriques.
a Considérons deux variables aléatoires, Z ∼ N (0, 1), normale centrée réduite, et X ∼

N (µ, σ 2 ), normale de moyenne µ et de variance σ 2 quelconques.
Nous nous intéressons aux quantiles d’ordre p à gauche de ces deux variables :
– zp défini par P [Z ≤ zp ] = FN (0,1) (zp ) = p (= Φ(zp )) et
– xp défini par P [X ≤ xp ] = FN (µ,σ2 ) (xp ) = p.
Si nous traçons le graphe des quantiles de ces deux variables,
{(xp , zp ) | 0 < p < 1}
nous obtenons une droite, appelée droite de Henry, dont l’équation est la suivante
1 µ
zp = · xp −
σ σ
Cette droite contient toujours le point (µ, 0) et a une pente égale à 1/σ.
b Considérons un échantillon aléatoire i.i.d. Xi , i = 1, · · · , n, ∼ N (µ, σ 2 ). Si nous rangeons

19. Puisque la fonction de répartition empirique est une fonction croissante partant de la valeur 0 pour arriver
à la valeur 1 par sauts de hauteur 1/n, cette fonction prend donc n + 1 valeurs différentes (sauf lorsque plusieurs
valeurs observées sont égales, auquel cas certaines des valeurs de F̂ (zi ) coı̈ncident, ce qui ne modifie en rien la
formule). Par convention, on notera donc F̂ (z0 ) = 0, F̂ (z1 ) = 1/n, F̂ (z2 ) = 2/n, · · · , F̂ (zn ) = n/n = 1.
22
les valeurs de cet échantillon, nous obtenons les statistiques d’ordre, X(i) , i = 1, · · · , n, telles
que
X(1) ≤ X(2) ≤ · · · ≤ X(i) ≤ · · · ≤ X(n−1) ≤ X(n)
Ces valeurs doivent être proches (aux erreurs d’échantillonnage près) des quantiles de la loi des
Xi , càd ici de la loi N (µ, σ 2 ). Plus précisément, posons
i − 1/2
p(i) = , ∀ i = 1, · · · , n
n
et considérons les quantiles normaux zp(i) , appelés scores normaux (ou “normal scores”).

Si l’échantillon Xi provient bien d’une population normale, le graphe des points X(i) , zp(i) pour
i = 1, · · · , n, est proche d’une droite. Ce graphique est appelé diagramme Quantile-Quantile
(ou “Q-Q plot”).
3.2.5.2 Procédure statistique.

Supposons à présent que l’échantillon aléatoire i.i.d. Xi , i = 1, · · · , n, ∼ F (x), une loi de
probabilité supposée continue dont nous voulons tester l’adéquation à un modèle normal. Les
hypothèses
statistiques considérées sont donc (voir test de Lilliefors)
H0 : X ∼ N (µ, σ 2 ) (normalité)
H1 : X ∼ / N (µ, σ 2 ) (non normalité)
Si nous rangeons les valeurs de l’échantillon comme indiqué ci-dessus, soient X(i) ces valeurs
rangées, il suffit donc pour tester la normalité de la loi F de tester la linéarité de la relation
entre
les X(i) et les zp(i) càd
H0 : linéarité (normalité)
H1 : non linéarité (non normalité)
La statistique de décision W de Shapiro-Wilk est donc définie comme le coefficient de
détermination entre les X(i) et les zp(i) c’est-à-dire
2
W = rX(i) zp(i)
Loi sous H0 : W ∼ Wn de Shapiro-Wilk pour un échantillon d’effectif n.

Par symétrie de la loi normale, les scores normaux sont toujours de moyenne égale à 0. De plus,
pour simplifier les calculs, on choisit la normalisation
P suivante pour les scores normaux ai (voir
Table statistique 23.1 pour ces coefficients) : ni=1 a2i = 1. Cette normalisation ne modifiant
pas la valeur du coefficient de corrélation linéaire, on obtient ainsi la formule simplifiée suivante
pour la statistique de Shapiro-Wilk
Pn 2
i=1 X(i) ai
2
W = rX(i) ai = Pn 2
i=1 (Xi − X)
La région critique pour un seuil α est constituée des valeurs de la statistique W inférieures à
la valeur critique wn;α lue dans la Table statistique 23.2, c’est-à-dire
RCα (Wn ) = {w | w ≤ wn;α }
Terminons par l’interprétation du diagramme Q-Q : si ce graphique présente une concavité vers
le haut (fonction convexe), la distribution est étalée vers la gauche, si par contre, le graphique
23
est concave, la distribution est étalée vers la droite. Il est également possible de détecter une
forme platykurtique ou leptokurtique (voir Annexe B).
Ce test est très puissant pour détecter des valeurs extrêmes et une dissymétrie de la loi.
Remarquons qu’il existe d’autres tests d’ajustement à une loi normale ; citons par exemple le
test de D’Agostino.
3.3 Test d’indépendance entre 2 variables catégorisées

Soit un échantillon d’effectif total n classé suivant 2 variables catégorisées prenant respec-
tivement l et c modalités. On dispose donc d’un tableau de contingence lP × c (l lignes et c
colonnes) d’effectifs conjoints njk (case (j, k)), d’effectifs marginaux nj• = ck=1 njk (ligne j)
et n•k = lj=1 njk (colonne k) et d’effectif total n = lj=1 ck=1 njk . Le test s’écrit
P P P

H0 : indépendance (φjk = φj• · φ•k , ∀ j = 1, · · · , l et ∀ k = 1, · · · , c)
H1 : négation de H0 (∃ j, ∃ k tels que φjk 6= φj• · φ•k )
où φjk est la fréquence théorique de la case (j, k), φj• la fréquence marginale de la ligne j et
φ•k la fréquence marginale de la colonne k.
3.3.1 Lorsque l > 2 ou c > 2,

n n
si l’effectif total n ≥ 50, tous les effectifs théoriques n∗jk = j•n •k sont ≥ 1 (j = 1, · · · , l
et k = 1, · · · , c) et au plus 20% des effectifs théoriques sont < 5, la statistique de décision de
Pearson, approximativement χ2(l−1)(c−1) sous H0 , est
l X c
2
2
X njk − n∗jk
χ = ∗
≈ χ2(l−1)(c−1) , χ2 à (l − 1)(c − 1) d.d.l.
j=1 k=1
n jk
Le calcul de cette statistique peut être effectué par la formule équivalente suivante
l X
c
2
X n2jk
χ = − n.
j=1 k=1
n∗jk
Si le résultat est significatif, on pourra préciser le sens et la force de la liaison par le calcul et
l’interprétation des taux de liaison, tjk (∀ j = 1, · · · , l et ∀ k = 1, · · · , c), définis par
njk − n∗jk
tjk = .
n∗jk
3.3.2 Lorsque l = 2 et c = 2 (tableau 2 × 2),

n n
si l’effectif total n ≥ 20 et au plus un des effectifs théoriques n∗jk = j•n •k est < 5 (j = 1, 2
et k = 1, 2), on peut utiliser la même statistique de décision que lorsque le tableau est plus
grand (de loi approximativement χ2 à un seul d.d.l. dans ce cas) ; néanmoins, on dispose d’une
formule plus simple pour le calcul de cette statistique de décision 20
n(n11 n22 − n12 n21 )2
χ2 = ≈ χ21 , χ2 à 1 d.d.l.
n1• n2• n•1 n•2
20. Vous trouverez également dans la littérature, une version corrigée de cette statistique de décision proposée
par Yates (appelée correction de continuité de Yates)Cette formule est la suivante
2
n(| n11 n22 − n12 n21 | −n/2)
χ2 = ≈ χ21 , χ2 à 1 d.d.l.
n1• n2• n•1 n•2
24
B. Deux échantillons en mesures répétées
0
3.4 Inférence sur deux fréquences φ et φ pour deux échantillons en
mesures répétées
Soient deux échantillons aléatoires i.i.d. appareillés d’effectif total n, classés suivant une
variable dichotomique (prenant deux modalités “Succès” et “Echec”). On dispose donc d’un
tableau 2 × 2 souvent présenté de la manière suivante
P
Ech. 1 \\ Ech. 2 : Echec | Succès ||
Succès || nSE | nSS || nS•
Echec || nEE | nES || nE•
P
|| n•E | n•S || n
0
Soient φ et φ les fréquences du “Succès” dans chacune des deux populations dont on a
extrait ces deux échantillons en mesures répétées. Le test de comparaison des fréquences du
“Succès” s’écrit 0
H0 : φ = φ
0
H1 : φ 6= φ
Si nSE + nES ≥ 10, la statistique de décision χ2 de Mc Nemar est
2 (nSE − nES )2
χ = ' χ21 , χ2 à 1 d.d.l.
nSE + nES
où nSE et nES sont les cases de désaccord (ou de discordance).
Ce test est une adaptation du test de comparaison d’une fréquence, la fréquence d’un des
deux désaccords (par exemple, SE) conditionnellement au désaccord (SE ou ES), à la norme
1/2. Ceci permet de définir une autre statistique de décision, équivalente au χ2 de Mc Nemar.
Cette statistique Z, de loi approximativement normale centrée réduite sous H0 si nSE + nES ≥
10, est donnée 21 par
nSE − nES
Z=√ ≈ N (0, 1)
nSE + nES
Cette autre version de ce test permet plus facilement de considérer une hypothèse alternative
0 0
orientée, de la forme H1 : φ < φ ou H1 : φ > φ ou encore d’effectuer le test avec peu de
données (nSE + nES < 10) à l’aide d’une statistique X ∼ Bi(nSE + nES , 1/2) (voir Section
3.1 Inférence sur une fréquence).
L’effet de cette correction de continuité est de réduire la valeur observée de la statistique χ2 . L’utilité de cette
correction fait l’objet de discussions multiples au sein de la communauté des statisticiens. Par exemple, Plackett
(The Continuity Correction in 2 × 2 Tables, Biometrika, 1964, vol. 51, p.327-337) a montré que cette correction
améliore l’approximation si les fréquences marginales nj. et n.k sont fixées et connues avant même le prélèvement
de l’échantillon, ce qui n’arrive jamais dans les applications. Camilli et Hopkins (Applicability of chi-square to
2 × 2 contingency tables with small expected frequencies, Psychological Bulletin, 1978, vol. 85, p. 163-167)
précisent même que la correction de continuité de Yates diminue la précision des énoncés probabilistiques et
conduit à une perte de puissance du test. C’est la raison pour laquelle nous préférons ne pas l’utiliser.
21. Notons que Z 2 ≡ χ2 .
25
C. Deux échantillons indépendants
3.5 Inférence sur deux fréquences φ1 et φ2 pour 2 échantillons indé-

pendants d’effectifs n1 et n2
Ce test, qui est encore appelé test d’homogénéité de deux échantillons indépendants pour
une variable dichotomique (prenant deux modalités “Succès” et “Echec”), s’écrit

H0 : φ1 = φ2
H1 : φ1 6= φ2 (ou φ1 < φ2 ou φ1 > φ2 )
où φ1 (respectivement φ2 ) est la fréquence du “Succès” dans la population dont est extrait
l’échantillon d’effectif n1 (respectivement n2 ).
Soient N = n1 + n2 l’effectif total des deux échantillons, Xj le nombre de “Succès” dans
l’échantillon d’effectif nj (j = 1, 2), fj = Xj /nj la fréquence de “Succès” dans l’échantillon j
(j = 1, 2) et f = (X1 + X2 )/(n1 + n2 ) la fréquence marginale de “Succès”.
Si l’effectif total N = n1 + n2 est ≥ 20, si tous les effectifs théoriques (sous H0 ) f nj et
(1 − f )nj (pour j = 1, 2) sont ≥ 1 et au maximum l’un d’entre eux est < 5, on montre (par le
Théorème Central-Limite) que la statistique
(f1 − f2 ) − (φ1 − φ2 )
q ≈ N (0, 1).
f1 (1−f1 ) f2 (1−f2 )
n1
+ n2
La statistique de décision 22 pour le test est

(f1 − f2 )
Z=r ≈ N (0, 1) sous H0 .
f (1 − f ) n11 + 1
n2
Si le nombre de succès (Xj ) et le nombre d’échecs (nj −Xj ) dans les deux échantillons (j = 1, 2)
sont ≥ 10, l’intervalle de confiance pour la différence des fréquences φ1 − φ2 au niveau 1 − α,
IC1−α (φ1 − φ2 ), est donné par
s
f1 (1 − f1 ) f2 (1 − f2 )
IC1−α (φ1 − φ2 ) = (f1 − f2 ) ± z1−α/2 + ou (f1 − f2 ) ± z1−α/2 · S(f1 −f2 )
n1 n2
22. Puisque sous H0 , φ1 = φ2 , on a remplacé la différence φ1 − φ2 par la valeur 0 dans la formule de cette
statistique de décision ; de plus, sous H0 , on peut estimer φ1 = φ2 par l’estimateur marginal f . D’autres
statistiques sont parfois utilisées, citons
0 (f1 − f2 )
Z =q ≈ N (0, 1) sous H0
f1 (1−f1 ) f2 (1−f2 )
n1 + n2
équivalente au résultat donné par l’IC1−α (φ1 − φ2 ) et

1 1 1
00
(f1 − f 2 ) ± 2 n1 + n2
Z = r ≈ N (0, 1) sous H0
1 1
f (1 − f ) n1 + n2
qui intègre la correction de continuité de Yates.

La formule que nous avons proposée, mise en oeuvre par la plupart des logiciels statistiques, a l’avantage de se
généraliser aux cas où le nombre d’échantillons et/ou le nombre de modalités de la variables catégorisée est plus
élevé (voir plus loin).
26
q
où S(f1 −f2 ) désigne l’erreur-type de la différence de fréquences, S(f1 −f2 ) = f1 (1−f
n1
1)
+ f2 (1−f
n2
2)
.
Pour l’alternative bilatérale H1 : φ1 6= φ2 , on peut également utiliser (sous les mêmes
conditions que ci-dessus) la statistique de décision 23 de loi approximativement χ21 sous H0 ,
N (X1 n2 − X2 n1 )2
χ2 = ≈ χ21 , χ2 à 1 d.d.l.
n1 n2 (X1 + X2 ) (n1 + n2 − (X1 + X2 ))
Rhoades et Overall (1982) 24 ont proposé une formule corrigée pour le calcul de cette statis-
tique de décision
2 (N − 1)(X1 n2 − X2 n1 )2
χ = ≈ χ21 , χ2 à 1 d.d.l.
n1 n2 (X1 + X2 ) (n1 + n2 − (X1 + X2 ))
3.6 Test d’homogénéité de 2 échantillons indépendants suivant une

variable catégorisée à plus de deux modalités
Soient 2 échantillons indépendants d’effectifs n1 et n2 classés suivant une variable catégorisée
A prenant l modalités différentes (A1 , A2 , · · · , Al ). Soit φjk la fréquence de la modalité Aj dans la
population correspondant à l’échantillon k (avec j = 1, · · · , l et k = 1, 2). Le test d’homogénéité
des 2 échantillons indépendants suivant la variable catégorisée A s’écrit

H0 : homogénéité des 2 échantillons (∀ j = 1, · · · , l, φj1 = φj2 )
H1 : négation de H0 (∃ j ∈ {1, · · · , l} tel que φj1 6= φj2 )
Soient N = n1 + n2 l’effectif total des 2 échantillons, njk l’effectif de la modalité Aj dans

l’échantillon k (d’effectif nk ) et nj• l’effectif marginal de la modalité Aj (pour les 2 échantillons
réunis). On calcule les effectifs théoriques n∗jk (sous H0 ) de chacune des 2l cases (j, k) de ce
n n
tableau d’homogénéité 25 comme n∗jk = j•N k (pour j = 1, · · · , l et k = 1, 2). Si tous les effectifs
théoriques n∗jk sont ≥ 1 et pas plus de 20% de ces effectifs théoriques ne sont < 5, la statistique
de décision χ2 et sa loi approximative sous H0 sont
l X 2
2
2
X njk − n∗jk
χ = ≈ χ2l−1 , χ2 à l − 1 d.d.l.
j=1 k=1
n∗jk
On pourra éventuellement utiliser la formule de calcul suivante

l X
2
2
X n2jk
χ = −N
j=1 k=1
n∗jk
23. Cette statistique est équivalente à celle du Z ∼ N (0, 1) donnée précédemment mais elle ne permet pas de
considérer une alternative unilatérale, ni de construire un intervalle de confiance pour la différence des fréquences
φ1 −φ2 . Pour le calcul de la valeur observée de cette statistique de décision, on peut également utiliser la formule
(équivalente mais plus classique) donnée ci-dessous pour le test d’homogénéité de 2 échantillons indépendants
suivant une variable catégorisée à plus de deux modalités (voir Section 3.6).
24. Rhoades, H.M., Overall, J.E., A Sample Size Correction for Pearson chi-square in 2 × 2 Contingency
Tables, Psychological Bulletin, vol. 91, 1982, p. 418-423.
25. On remarquera que le calcul des effectifs théoriques d’un tableau d’homogénéité est identique à celui des
effectifs théoriques d’un tableau de contingence pour le test d’indépendance entre deux variables catégorisées
(voir Section 3.3). Toutefois, les principes sous-jacents sont très différents ; par exemple, ici nous avons 2
échantillons d’effectifs connus dès le départ et non un seul échantillon.
27
Si ce test conduit au rejet de H0 , on peut essayer de localiser les différences en comparant
pour chacune des modalités Aj , les fréquences de cette modalité au sein des deux populations
dont sont issus les échantillons (pour un j fixé, H0 : φj1 = φj2 ). Ces différentes comparaisons
se ramènent à une inférence sur deux fréquences pour deux échantillons indépendants (voir
Section 3.5) 26 .
3.7 Test de Kolmogorov-Smirnov pour l’identité de deux distribu-

tions
Soient X1 , X2 , ..., Xn1 et Y1 , Y2 , ..., Yn2 deux échantillons de aléatoires i.i.d. suivant les
lois de probabilité (continues) de fonctions de répartition inconnues F (u) et G(u) (c’est-à-
dire F (u) = P (X ≤ u) et G(u) = P (Y ≤ u), ∀ u ∈ IR ). Le test de comparaison des deux
distributions F et G (dans les populations dont on a extrait ces deux échantillons aléatoires)
s’écrit
H0 : ∀ u ∈ IR , F (u) = G(u)
H1 : négation de H0 (∃ u ∈ IR tel que F (u) 6= G(u))
La statistique KS de décision de Kolmogorov-Smirnov est la distance maximale (ou encore
écart absolu maximal) entre les fonctions de répartition empiriques des deux échantillons, F̂ (u)
et Ĝ(u) (pour la définition de ces fonctions de répartition empiriques, voir Section 3.2.3)
définie comme suit
KS = maxu∈IR | F̂ (u) − Ĝ(u) |∼ KSn1 ,n2 , KS de Kolmogorov-Smirnov
pour deux échantillons d’effectifs n1 et n2 respectivement.

Les quantiles de la statistique de Kolmogorov-Smirnov sont tabulés pour certaines valeurs
des effectifs n1 et n2 ; pour d’autres valeurs n1 et n2 , on utilisera des valeurs approchées (voir
Table statistique 17).
Il est également possible de considérer les alternatives unilatérales H1 : ∃ u ∈ IR , F (u) >
G(u) ou H1 : ∃ u ∈ IR , F (u) < G(u). Pour de telles alternatives, on procède de la même
manière que ci-dessus mais on utilise les tables unilatérales pour la détermination de la valeur
critique (voir Table statistique 17) et on n’oublie pas de vérifier que le sens de la différence
correspond bien à l’alternative considérée.
Remarquons que le test de Kolmogorov-Smirnov est une alternative intéressante au test
classique pour la comparaison de deux moyennes (échantillons indépendants) lorsque les distri-
butions parentes ne sont pas normales (voir Section 5.2).
26. Il est important de remarquer que la multiplication des tests augmente la probabilité globale de l’erreur
de type I, c’est-à-dire le seuil du test. Il sera donc beaucoup plus judicieux si l’analyse est motivée par une
question précise, de se restreindre à une seule comparaison répondant à cette question, plutôt que de procéder
à une analyse statistique aveugle englobant toutes les comparaisons possibles.
28
D. Plus de deux échantillons indépendants
3.8 Homogénéité de c > 2 échantillons indépendants

3.8.1 suivant une variable catégorisée à plus de deux modalités
Soient c échantillons indépendants d’effectifs n1 , n2 ,...,nc , classés suivant une variable catégorisée
A prenant l modalités différentes (A1 , A2 , · · · , Al ). Soit φjk la fréquence de la modalité Aj dans
la population correspondant à l’échantillon k (avec j = 1, · · · , l et k = 1, · · · , c). Le test d’ho-
mogénéité des c échantillons indépendants suivant la variable catégorisée A s’écrit

H0 : homogénéité des c échantillons (∀ j = 1, · · · , l, φj1 = φj2 = · · · = φjc )
Pc
Soient N = k=1 nk l’effectif total des c échantillons, njk l’effectif de la modalité Aj dans
l’échantillon k (d’effectif nk ) et nj• l’effectif marginal de la modalité Aj (pour les c échantillons
réunis). On calcule les effectifs théoriques n∗jk (sous H0 ) de chacune des cases (j, k) de ce tableau
n n
d’homogénéité 27 comme n∗jk = j•N k (pour j = 1, · · · , l et k = 1, · · · , c). Si tous les effectifs
théoriques n∗jk sont ≥ 1 et pas plus de 20% de ces effectifs théoriques ne sont < 5, la statistique
de décision χ2 et sa loi approximative sous H0 sont
l X c
2
2
X njk − n∗jk
χ = ∗
≈ χ2(l−1)(c−1) , χ2 à (l − 1)(c − 1) d.d.l.
j=1 k=1
n jk
Si ce test conduit au rejet de H0 , on peut essayer de localiser les différences en comparant pour
chacune des modalités Aj , les fréquences de cette modalité au sein des différentes populations
(dont sont issus les échantillons), prises deux à deux (par exemple, pour un j fixé, H0 : φj1 =
φj3 ). Ces différentes comparaisons se ramènent à une inférence sur deux fréquences pour deux
échantillons indépendants (voir Section 3.5) 28 .
3.8.2 suivant une variable dichotomique (prenant 2 modalités)

Soient c échantillons indépendants d’effectifs n1 , n2 ,...,nc , classés suivant une variable dicho-
tomique A (prenant 2 modalités différentes A1 et A2 ). Soit φk la fréquence de la modalité A1
dans la population correspondant à l’échantillon k (avec k = 1, · · · , c). Le test d’homogénéité
des c échantillons indépendants suivant la variable dichotomique A s’écrit donc 29

H0 : homogénéité des c échantillons (φ1 = φ2 = · · · = φc )
H1 : négation de H0 (∃ k1 , k2 tels que φk1 6= φk2 )
Le traitement statistique s’effectue de la même manière que ci-dessus ; si les conditions d’ap-
plication sont vérifiées, la statistique suit donc approximativement sous H0 la loi χ2 à (c − 1)
degrés de liberté.
27. On remarquera que le calcul des effectifs théoriques d’un tableau d’homogénéité est identique à celui des
effectifs théoriques d’un tableau de contingence pour le test d’indépendance entre deux variables catégorisées
(voir Section 3.3). Toutefois, les principes sous-jacents sont très différents ; par exemple, ici nous avons c
échantillons d’effectifs connus dès le départ et non un seul échantillon.
28. Il est important de remarquer que la multiplication des tests augmente la probabilité globale de l’erreur
de type I, c’est-à-dire le seuil du test. Il sera donc beaucoup plus judicieux si l’analyse est motivée par une
question précise, de se restreindre à une seule comparaison répondant à cette question, plutôt que de procéder
à une analyse statistique aveugle englobant toutes les comparaisons possibles.
29. Notons que puisque la variable est dichotomique, il suffit de considérer la fréquence d’une seule des deux
modalités.
29
4 INFERENCE SUR LES VARIANCES
4.1 Inférence sur une variance

H0 : σ 2 = σ02
H1 : σ2 =6 σ02 (ou σ 2 < σ02 ou σ 2 > σ02 )
Si la population parente est normale (ou si l’effectif de l’échantillon est grand, n ≥ 60), la
statistique de décision 30 est
(n − 1)S 2 SCE
χ2 = 2
= = χ2n−1 ∼ χ2 à n − 1 degrés de liberté sous H0
σ0 σ02
et l’intervalle de confiance pour σ 2 au niveau de confiance 1 − α, IC1−α (σ 2 ), est donné par
! !
2 2
(n − 1)S (n − 1)S SCE SCE
IC1−α (σ 2 ) = , = ,
χ2n−1,1−α/2 χ2n−1,α/2 χ2n−1,1−α/2 χ2n−1,α/2
où S 2 est l’estimateur sans biais de la variance σ 2 et SCE la somme des carrés d’écarts à la
moyenne.
4.2 Inférence sur deux variances (échantillons indépendants)

Il s’agit du test d’homogénéité des variances de deux échantillons indépendants, encore
appelé test de l’homoscédasticité des deux échantillons,

H0 : σ12 = σ22
H1 : σ12 6= σ22 (ou σ12 < σ22 ou σ12 > σ22 ).
4.2.1 Test “classique” F

Si les populations parentes sont normales (ou si les effectifs des échantillons sont grands, n1
et n2 ≥ 60), la statistique 31 de décision “classique” F et sa loi sous H0 sont
S12
F = 2 = Fn1 −1,n2 −1 ∼ F de Fisher à (n1 − 1, n2 − 1) degrés de liberté 32
S2
où Sj2 est l’estimateur sans biais de la variance σj2 de l’échantillon de taille nj (j = 1, 2).
30. Sinon (population parente non normale et effectif n < 60) on utilisera une méthode statistique non
paramétrique de type “Jackknife” ou “Bootstrap” (voir Sprent pages 234-240). Cette remarque est valable pour
l’ensemble de ce chapitre relatif à l’inférence sur les variances. Il faut insister sur le fait que la condition de
normalité est relativement stricte pour les méthodes relatives à la dispersion, même dans le cas d’échantillons
d’effectifs assez importants, contrairement notamment à ce qui se passe pour l’étude des moyennes.
31. En raison de la grande variabilité des distributions d’échantillonnage des variances, ce test est très peu
puissant surtout pour des échantillons d’effectifs réduits. De plus, la distribution de cette statistique F est gra-
vement influencée par l’anormalité des données. Nous conseillerons donc l’utilisation de méthodes alternatives,
telles que le test de ou le test de O’Brien (exposés ci-dessous), tests plus robustes en pratique.
32. Remarquons que le quantile p de la loi F à (n1 − 1, n2 − 1) degrés de liberté est l’inverse du quantile
d’ordre 1 − p de la loi F à (n2 − 1, n1 − 1) degrés de liberté, c’est-à-dire
1
Fn1 −1,n2 −1,p =
Fn2 −1,n1 −1,1−p
30
4.2.2 Test de Levene
Le test de Levene 33 a pour principe de calculer, séparément pour les deux échantillons, les
écarts par rapport aux moyennes, et de soumettre les valeurs absolues de ces écarts, Dij =|
Xij −X j | (j = 1, 2, i = 1, · · · , nj ), à un test de comparaison de deux moyennes pour échantillons
indépendants. L’hypothèse H0 testée d’égalité des deux moyennes des valeurs absolues des écarts
est alors considérée comme équivalente à l’hypothèse d’égalité des deux variances.
Les hypothèses s’écrivent donc

H0 : µD1 = µD2
H1 : µD1 6= µD2
où les moyennes µDj sont définies par µDj = E[Dij ] pour j = 1, 2 et la statistique utilisée est
de loi tn1 +n2 −2 (voir Chapitre 5).
4.2.3 Test de O’Brien

Le test de O’Brien est une variante du test de Levene pour laquelle les écarts Dij sont
0
remplacés par une valeur transformée, que nous noterons Dij , définie par
2
0 (nj − 1.5)nj (Xij − X j ) − 0.5Sj2 (nj − 1)
Dij =
(nj − 1)(nj − 2)
0
puis à effectuer l’analyse comme pour le test de Levene avec µD0 = E[Dij ].
j
4.3 Test de Pitman-Morgan (échantillons appariés)

Le test de Pitman-Morgan 34 permet de comparer les variances de deux échantillons ap-
pariés, X1i et X2i , i = 1, · · · , n, (ou mesures répétées sur les mêmes individus) sous l’hypthèse
de normalité bivariée des couples de v.a. soit le modèle 2
σ1 σ12
Hm : (X1i , X2i ) i.i.d. ∼ N2 ((µ1 , µ2 ), Σ) avec la matrice de variance-covariance Σ =
σ12 σ22
où σ12 désigne la variance de X1 , σ22 la variance de X2 et σ12 la covariance entre X1 et X2 .
Les hypothèses s’écrivent donc

H0 : σ12 = σ22
H1 : σ12 6= σ22
33. Levene, H. (1960). In Contributions to Probability and Statistics : Essays in Honor of Harold Hotelling,
I. Olkin et al. eds., Stanford University Press, pp. 278-292. Une variante de ce test a été proposée par Brown et
Forsythe (Brown, M. B. and Forsythe, A. B. (1974), Journal of the American Statistical Association, 69, 364-
367) ; il s’agit de remplacer la moyenne X j de l’échantillon j, dans le calcul des écarts, par la médiane de cet
échantillon X̃j , donc Dij =| Xij − X̃j |. Ils ont montré que l’emploi de la médiane fournit un test plus puissant
pour des distributions asymétriques alors que l’emploi de la moyenne donne une meilleure puissance pour des
distributions symétriques et mésokurtiques (comme la loi normale, voir Annexe B). Même si le choix optimal
dépend de la forme des distributions, la définition basée sur la médiane semble le meilleur choix, c’est-à-dire le
choix le plus robuste pour beaucoup de distributions, tout en conservant une bonne puissance.
34. Morgan, W.A. (1939). A test for the significance of the difference between two variances in a sample
from a normal bivariate distribution. Biometrika, 31, 13-19. et Pitman, E.J.G. A note on normal correlation.
Biometrika, 31, 9-12. Ce test est peu robuste par rapport à l’hypothèse de binormalité.
31
S12
Soient F = le rapport entre les deux variances Sj2 (j = 1, 2 ou l’inverse) et R12 le coefficient
S22
de corrélation linéaire entre les v.a. X1 et X2 (voir Section 2.2). La statistique de décision T
est définie par √
(F − 1) n − 2
T = p
2
.
2 1 − R12
Sous H0 : T ∼ tn−2 , t de Student avec n − 2 d.d.l.
4.4 Inférence sur plusieurs variances (échantillons indépendants)

Il s’agit du test d’homogénéité des variances de plusieurs échantillons indépendants, appelé
test de l’homoscédasticité de plusieurs échantillons (K ≥ 2),

H0 : σ12 = σ22 = · · · = σK
2
H1 : négation de H0 .
4.4.1 Test de Bartlett

Si les K populations parentes sont normales, les effectifs nj (j = 1, 2, · · · , K) des K
échantillons sont ≥ 4 et le nombre de variances K n’est pas trop élevé par rapport aux ef-
fectifs nj , la statistique de décision de Bartlett
PK
B = (N − K) · ln(S ∗2 ) − j=1 (nj − 1) · ln(Sj2 ) ou
P
1 K 1 1
BC = B/C avec C =1 + 3(K−1) j=1 nj −1 − N −K
2 35
suit approximativementPK une loi2χ à K − 1 degrés de liberté où N est l’effectif 2
total des K
échantillons (N = j=1 nj ), Sj est l’estimateur sans biais de la variance σj de l’échantillon
d’effectif nj (j = 1, 2, · · · , K) et S ∗2 est l’estimateur sans biais de la variance commune σ12 =
2
σ22 = · · · = σK = σ 2 , c’est-à-dire
K
∗2 1 X
S = (nj − 1)Sj2
N − K j=1
4.4.2 Test de Hartley (ou Fmax )

Lorsque les K échantillons ont même effectif (n1 = · · · = nK = n ≥ 5) et les K populations
parentes sont normales, on peut utiliser la statistique Fmax de Hartley
maxj Sj2 (K)

Fmax = ∼ Fmax,ν de Hartley
minj Sj2
où maxj Sj2 et minj Sj2 sont respectivement la plus grande et la plus petite des K variances
calculées (S12 , ..., Sj2 , ..., SK
2
), ν = n − 1 est le nombre de degrés de liberté de chacune des K
2
variances Sj et K est le nombre de variances à comparer (voir Table Statistique 6).
35. Le dénominateur dans la formule corrigée BC étant toujours supérieur à 1, il ne doit être calculé que
lorsque la valeur de B est supérieure au quantile χ2K−1,1−α .
32
4.4.3 Test de Levene
Le test de Levene 36 a pour principe de calculer, séparément pour les différents échantillons,
les écarts par rapport aux moyennes, et de soumettre les valeurs absolues de ces écarts, Dij =|
Xij − X j | (j = 1, · · · , K, i = 1, · · · , nj ), à l’analyse de la variance à un facteur, plan S <
GK >. L’hypothèse H0 d’égalité des moyennes des valeurs absolues des écarts, µDj = E[Dij ]
(j = 1, · · · , K), hypothèse testée par l’analyse de la variance, est alors considérée comme
équivalente à l’hypothèse d’égalité des variances.
Cette méthode, qui est à différents égards approchée 37 , a l’avantage d’être en pratique plus
robuste que les tests de Bartlett et de Hartley.
4.5 Sphéricité d’une matrice de variance-covariance

Dans le cadre de l’analyse de variance en mesures répétées sur les mêmes sujets, plan Sn ∗ Tp
(échantillons appariés ou structure de croisement), les hypothèses nécessaires pour l’applica-
tion de la méthode statistique paramétrique basée sur des statistiques F de Fisher-Snédécor
(voir par exemple Sections 6.2, 6.4 et 6.5) portent, entre autres, sur la matrice de variance-
covariance des variables dépendantes. Nous allons préciser ces hypothèses et montrer comment
il est possible de les mettre à l’épreuve.
Soit Xij la v.a. correspondant à la donnée du ième sujet lors du jème traitement. Pour
chaque sujet i = 1, · · · , n, on considère le vecteur aléatoire (ve.a.) Xi des p variables aléatoires
correspondant aux différents traitements (j = 1, · · · , p), appelé vecteur-profil
 
Xi1
 Xi2 
 .. 
.
 
Xi = 
 
 Xij


 .
 ..


Xip
On suppose que les n ve.a. X1 , X2 , · · · , Xi , · · · , Xn , constituent un échantillon aléatoire
de vecteurs indépendants et identiquement distribués (i.i.d.) suivant la loi normale multivariée
de moyenne théorique (ou espérance mathématique) µ et de matrice de variance-covariance Σ,
c’est-à-dire Xi ∼ Np (µ, Σ), ∀ i = 1, · · · , n ; rappelons (voir Chapitre 2) que le vecteur moyen
 
µ1
 µ2 
 .. 
.
 
µ=
 
µj

 
 .. 
 . 
µp
avec µj = E(Xij ), l’espérance de la jème composante des n vecteurs-profils (i = 1, · · · , n et
j = 1, · · · , p) et la matrice de variance-covariance (symétrique)
36. Voir également Section 4.2.2.
37. Le caractère approché de la méthode provient du fait que, d’une part, les écarts par rapport aux moyennes
ne sont pas indépendants les uns des autres, en particulier dans le cas de très petits échantillons, et d’autre
part, les valeurs absolues des écarts ne possèdent pas elles-mêmes, des distributions normales, ce que suppose
cependant l’analyse de la variance.
33
σ12 σ12 · · · σ1j · · · σ1k
 
··· σ1p
 σ21 σ22 · · · σ2j · · · σ2k ··· σ2p 
.. ... .. ..
 
. . .
 
 
σj1 σj2 · · · σj2 · · · σjk ··· σjp
 
 
Σ= .. .. .. .. 

 . . . . 


 σk1 σk2 · · · σkj · · · σk2 · · · σkp 

 .. .. .. .. .. 
 . . . . . 
σp1 σp2 · · · σpj · · · σpk · · · σp2
avec σjk la covariance (théorique) entre les composantes j et k (Xij et Xik ) de chacun des n
vecteurs-profils (∀ i = 1, · · · , n), ∀ j 6= k, et σj2 la variance (théorique) de la jème composante
Xij de chacun de ces n vecteurs-profils (∀ i = 1, · · · , n). De plus, l’analyse de variance pourra
s’effectuer à l’aide de statistiques de décision F de Fisher-Snédécor si et seulement si la matrice
de variance-covariance du vecteur-profil Σ satisfait la condition de circularité ou sphéricité.
Cette condition est définie ci-dessous.
– La matrice de variance-covariance du vecteur-profil Σ est une matrice circulaire (encore
appelée matrice de type H) si et seulement si la variance de la différence Xij − Xik entre
deux composantes quelconques j et k des vecteurs-profils Xi est une constante, soit 2γ.
Il s’agit de la condition de sphéricité ou encore de circularité de la matrice de variance-
covariance du vecteur-profil Σ.
Cette condition s’écrit de manière plus explicite en introduisant la matrice C d’ordre p × (p − 1)
dont les p − 1 colonnes correspondent à p − 1 contrastes orthonormés, c’est-à-dire orthogonaux
et de norme 38 1
 
1/c1 1/c2 · · · 1/ci · · · 1/cp−1
 −1/c1 1/c2 · · · 1/ci · · · 1/cp−1 
 
 0
 −2/c2 · · · 1/ci · · · 1/cp−1 

 0 0 · · · 1/c i · · · 1/c p−1

. .
 
C=  .. .. −i/ci · · · 1/cp−1


 .
. .
.


 . . 0 1/c p−1


 .. .. .. .. 
 . . . . 
0 0 ··· 0 · · · −(p − 1)/cp−1
p
avec ci = i(i + 1), ∀ i = 1, · · · , p − 1. On vérifie en effet que la somme des produits des
coefficients de deux colonnes différentes quelconques de la matrice C est toujours égal à 0 et
que la somme des carrés des coefficients d’une même colonne quelconque est toujours égal à 1.
– La matrice de variance-covariance du vecteur-profil Σ est une matrice circulaire si et
0 0
seulement si la matrice de variance-covariance C · Σ · C du vecteur transformé Y = C · X
(de dimension p − 1) satisfait la relation
0
C · Σ · C = γ · Ip−1
où γ est la constante positive définie ci-dessus et Ip−1 est la matrice unité d’ordre p − 1.
Cette relation exprime que les composantes du vecteur aléatoire Y sont indépendantes et
de même variance γ.
38. Les contrastes orthogonaux sont définis au Chapitre 7 relatif à la méthode des contrastes ; un contraste
est de norme 1 si la somme des carrés de ses coefficients cj est égale à 1.
34
Le test préliminaire à la mise en oeuvre d’une analyse de variance en mesures répétées à
l’aide de statistiques de décision F de Fisher-Snédécor est donc le suivant

H0 : La matrice Σ est circulaire (ou de type H)
H1 : La matrice Σ n’est pas circulaire
ou encore 0
H0 : La matrice C · Σ · C = γ · Ip−1 avec γ > 0
H1 : Négation de H0 .
La statistique de décision M de Mauchly est définie par
( )( !)
2(p − 1)2 + p + 1 tr S̃
M = − (n − 1) − ln S̃ − (p − 1) ln

6(p − 1) p−1
où
0
– S̃ = C · S · C est la matrice carrée (et symétrique) d’ordre (p − 1) × (p − 1) calculée à
partir de S, l’estimateur sans biais de la matrice de variance-covariance théorique Σ (voir
Chapitre
2),
– S̃ est le déterminant de la matrice S̃ et

– tr S̃ est la trace de la matrice S̃ (voir annexe relative à l’algèbre linéaire).

Lorsque n est suffisamment grand, la statistique de Mauchly suit approximativement la loi
du χ2 avec (p − 2)(p + 1)/2 d.d.l. ; plus précisément, au seuil α, on rejette l’hypothèse H0 de
circularité de la matrice de variance-covariance Σ si la valeur observée de la statistique de
Mauchly, Mobs , appartient à la région critique R.C.α (M ) donnée par
R.C.α (M ) = m | m > χ2(p−2)(p+1)/2,1−α

où χ2(p−2)(p+1)/2,1−α est le quantile d’ordre 1 − α à gauche du χ2 avec un d.d.l. égal à (p − 2)(p +
1)/2. Dans le cas contraire, on ne rejette pas l’hypothèse de circularité et on peut donc mettre
en oeuvre une analyse de variance paramétrique basée sur des statistiques de décision F de
Fisher-Snédécor.
4.6 Homogénéité de plusieurs matrices de variance-covariance

Considérons le modèle de l’analyse de variance à deux facteurs, le facteur G définissant K
groupes indépendants de n sujets (structure d’emboı̂tement) et le facteur A correspondant aux
p modalités d’un traitement en mesures répétées (structure de croisement). Le plan complet
est donc équilibré et s’écrit Sn < GK > ∗Tp (voir Section 6.5). Les hypothèses nécessaires
pour l’application de la méthode paramétrique basée sur des statistiques F de Fisher-Snédécor
portent sur la normalité des échantillons, sur l’homogénéité des matrices de variance-covariance
des différents échantillons et sur la circularité de ces différentes matrices. Nous allons préciser
ces hypothèses et donner les statistiques de décision à utiliser pour les mettre à l’épreuve.
Soit Xijk la v.a. correspondant à la donnée du ième sujet (i = 1, · · · , n) lors du jème
traitement (j = 1, · · · , p) dans le groupe k (k = 1, · · · , K). Il est important de remarquer
que nous avons N = nK sujets différents répartis de manière égale entre les K groupes. Soit
k un groupe fixé parmi les K groupes (k = 1, · · · , K) ; on considère, pour chaque sujet i
(i = 1, · · · , n), le ve.a. des p variables correspondant aux différents traitements (j = 1, · · · , p),
appelé vecteur-profil de ce sujet i du groupe k,
35
 
Xi1k
 Xi2k 
 .. 
.
 
Xik = 
 
 Xijk


 .
 ..


Xipk
On suppose que, dans chaque groupe k = 1, · · · , K, les ve.a. X1k , · · · , Xik , · · · , Xnk , constituent
un échantillon aléatoire de vecteurs indépendants et identiquement distribués suivant la loi
normale de moyenne µk et de matrice de variance-covariance Σk , c’est-à-dire Xik ∼ Np (µk , Σk ),
∀ i = 1, · · · , n.
Le test préliminaire à la mise en oeuvre d’une analyse de variance en mesures répétées à
l’aide de statistiques de décision F de Fisher-Snédécor est donc le suivant

H0 : Les matrices Σk sont homogènes et circulaires
ou encore si on utilise la matrice C d’ordre p × (p − 1) des p − 1 contrastes orthonormés définie

dans la section précédente
0 0
H0 : Les matrices C · Σ1 · C = · · · = C · ΣK · C = γ · Ip−1 avec γ > 0
Ce test s’effectue en deux étapes, la première portant sur l’homogénéité des matrices de
variance-covariance des différents groupes et la seconde sur la circularité de ces matrices (sup-
posées homogènes).
1. Homogénéité des matrices Σk . L’hypothèse d’homogénéité des K matrices de variance-
covariance se traduit de la manière suivante
(
(1) 0 0 0
H0 : C · Σ1 · C = C · Σ2 · C = · · · = C · ΣK · C
(1) (1)
Pour construire la statistique de décision, on commence par estimer séparément chacune des
K matrices Σk par son estimateur sans biais Sk . On construit ensuite les matrices transformées,
0
d’ordre (p − 1) × (p − 1), S̃k = C · Sk · C et l’estimateur global (si les matrices sont homogènes)
est la matrice pondérée S̃ définie par
K
1 X
S̃ = S̃k
K k=1
La statistique de décision est H = (1 − C)K où K et C sont définis ci-dessous
K
X
K = (N − K) ln S̃ − (n − 1) ln S̃k

k=1
2

2p − p − 2 K 1
C = · −
6p(K − 1) n−1 N −K
36
(1)
Sous H0 , cette statistique suit approximativement la loi χ2 avec un d.d.l. égal à p(p − 1)(K −
1)/2. La région critique au seuil α s’écrit
R.C.α (H) = h | h > χ2p(p−1)(K−1)/2,1−α

(1)
Si on ne peut pas rejeter H0 , on peut ensuite mettre à l’épreuve l’hypothèse de circularité de
ces matrices supposées homogènes.
2. Circularité ou sphéricité des matrices Σk . Soit Σ la matrice de variance-
covariance commune aux K groupes (par la première étape du test). Nous devons à présent
(2)
vérifier que cette matrice est circulaire c’est-à-dire mettre à l’épreuve l’hypothèse H0 suivante
(
(2) 0
H0 : C · Σ · C = γ · Ip−1 avec γ > 0
(2) (2)
La statistique de décision est une adaptation de la statistique de Mauchly donnée dans la

section précédente
( )( !)
2(p − 1)2 + p + 1 tr S̃
M = − (N − K) − ln S̃ − (p − 1) ln

6(p − 1) p−1
suivant approximativement la loi du χ2 avec un d.d.l. égal à (p − 2)(p + 1)/2. La région critique
est identique à celle donnée pour un seul échantillon (voir Section 4.4). Si on ne peut pas
(2)
rejeter H0 , il est donc possible d’effectuer une analyse de variance paramétrique basée sur les
statistiques F de Fisher-Snédécor pour le plan Sn < GK > ∗Tp .
37
5 INFERENCE SUR LES MOYENNES
5.1 Inférence sur une moyenne µ
Soit un échantillon de v.a. i.i.d., Xi , i = 1, · · · , n, d’espérance µ = E(Xi ) et de variance
σ 2 = V ar(Xi ). On considère le test sur l’espérance µ

H0 : µ = µ0
H1 : µ 6= µ0 (ou µ < µ0 ou µ > µ0 )
5.1.1 Si la population parente est normale de variance σ 2 connue (cas théorique),

la statistique de décision est
X (n) − µ0
√ = Z ∼ N (0, 1) sous H0
σ/ n
et l’intervalle de confiance pour µ au niveau de confiance 1 − α, IC1−α (µ), est donné par

σ σ σ
IC1−α (µ) = X (n) − z1−α/2 · √ , X (n) + z1−α/2 · √ ou X (n) ± z1−α/2 · √
n n n
5.1.2 Si la variance σ 2 est inconnue et l’effectif de l’échantillon est petit (n < 60),
on suppose Hm : Xi i.i.d. ∼ N (µ, σ 2 ), i = 1, · · · , n.
La statistique de décision T et sa loi sous H0 sont
X (n) − µ0 X (n) − µ0
T = √ = ∼ tn−1 , t de Student à n − 1 degrés de liberté
S/ n SX (n)
1
Pn 2 SCE
où S 2 = n−1 2
i=1 (Xi − X (n) ) = n−1 est l’estimateur sans biais de la variance σ et SX (n)
désigne l’écart-type de la moyenne arithmétique X (n) , appelé erreur-type de la moyenne X (n) .
L’intervalle de confiance pour µ au niveau de confiance 1 − α, IC1−α (µ), est donné par

S S
IC1−α (µ) = X (n) − tn−1,1−α/2 · √ , X (n) + tn−1,1−α/2 · √ ou X (n) ± tn−1,1−α/2 · SX (n) .
n n
5.1.3 Si l’effectif de l’échantillon est grand (n ≥ 60),

quelle que soit la distribution de la population parente 39 , on peut utiliser la statistique de
décision de loi approximative 40 sous H0
39. Lorsque la population parente n’est pas normale, certaines conditions d’application doivent néanmoins
être remplies (existence des moments d’ordres 1 et 2) et il est important de s’interroger sur la signification réelle
de la comparaison de la moyenne à une norme. Par contre, lorsque la population parente est normale, ce test
est toujours applicable et la distribution exacte de la statistique de décision est un t de Student à n − 1 degrés
de liberté mais, comme la loi t de Student à n − 1 degrés de liberté tend vers la loi normale centrée réduite
N (0, 1) lorsque n tend vers +∞, on admet l’approximation normale du t de Student pour n ≥ 60.
40. Certains auteurs acceptent cette approximation normale pour des effectifs plus faibles, à partir de n ≥ 30.
38
X (n) − µ0 X (n) − µ0
√ = ≈ Z ∼ N (0, 1)
S/ n SX (n)
et l’intervalle de confiance pour µ au niveau de confiance 1 − α, IC1−α (µ),

S S
IC1−α (µ) = X (n) − z1−α/2 · √ , X (n) + z1−α/2 · √ ou X (n) ± z1−α/2 · SX (n) .
n n
1
Pn 2 SCE
où S 2 = n−1 2
i=1 (Xi − X (n) ) = n−1 est l’estimateur sans biais de la variance σ et SX (n)
désigne l’écart-type de la moyenne arithmétique X (n) , appelé erreur-type de la moyenne X (n) .
5.1.4 Si la population parente n’est pas normale et l’effectif n de l’échantillon est

petit (< 60),
on devra avoir recours à une méthode statistique non paramétrique.
5.2 Inférence sur deux moyennes µ1 et µ2 , échantillons indépendants

Soient deux échantillons indépendants de v.a. i.i.d., (Xi1 )i=1,··· ,n1 et (Xi2 )i=1,··· ,n2 , d’espérances
µ1 = E(Xi1 ) et µ2 = E(Xi2 ), et de variances σ12 = V ar(Xi1 ) et σ22 = V ar(Xi2 ). On considère le
test de comparaison des deux espérances µ1 et µ2

H0 : µ1 = µ2
H1 : µ1 6= µ2 (ou µ1 < µ2 ou µ1 > µ2 )
5.2.1 Si les populations parentes sont normales de variances σ12 et σ22 connues (cas
théorique),
la statistique de décision est

X (n1 ) − X (n2 )
Z= q 2 ∼ N (0, 1) sous H0
σ1 σ22
n1
+ n2
où X (nj ) est la moyenne arithmétique des données de l’échantillon de taille nj , d’espérance µj et
de variance σj2 (j = 1, 2) et l’intervalle de confiance pour µ1 −µ2 au niveau 1−α, IC1−α (µ1 −µ2 ),
est donné par s
σ12 σ22
IC1−α (µ1 − µ2 ) = X (n1 ) − X (n2 ) ± z1−α/2 · +
n1 n2
5.2.2 Si les deux populations sont normales de variances σ12 et σ22 inconnues mais
supposées homogènes (σ12 = σ22 ) c’est-à-dire
Hm : Xij i.i.d. ∼ N (µj , σ 2 ), pour j = 1, 2, i = 1, · · · , nj .
Soit Sj2 l’estimateur sans biais de la variance σj2 de l’échantillon de taille nj (j = 1, 2) et S ∗2 ,
l’estimateur sans biais de la variance commune σ12 = σ22 = σ 2 , défini par
(n1 − 1) S12 + (n2 − 1) S22 SCE1 + SCE2

S ∗2 = =
n1 + n2 − 2 n1 + n2 − 2
39
Pnj 2
avec SCEj = i=1 (Xij − X j ) la somme des carrés d’écarts de l’échantillon j (j = 1, 2).
La statistique de décision 41 T et sa loi sous H0 sont

X (n1 ) − X (n2 ) X (n1 ) − X (n2 )
T = q = ∼ tn1 +n2 −2 , t de Student à n1 + n2 − 2 d.d.l.
S∗ · 1
+ 1 S(X (n ) −X (n ) )
n1 n2 1 2
q
= S∗ · 1 1

où S(X (n −X (n2 ) ) n1
+ n2
désigne l’erreur-type de X (n1 ) − X (n2 ) .
1)
L’intervalle de confiance pour µ1 − µ2 au niveau de confiance 1 − α, IC1−α (µ1 − µ2 ), est

r
∗ 1 1
IC1−α (µ1 − µ2 ) = X (n1 ) − X (n2 ) ± tn1 +n2 −2,1−α/2 · S +
n1 n2

= X (n1 ) − X (n2 ) ± tn1 +n2 −2,1−α/2 · S(X (n ) −X (n ) )
1 2
On peut mesurer la taille de l’effet (effect size, en anglais) de la V.I. (le facteur “Groupes”
à deux modalités G2 ) sur la VD X, par l’effet standardisé (ES) δ défini par
µ1 − µ2
δ=
σ
dont l’estimateur 42 noté D (également appelé le d de Cohen) est défini par
X (n1 ) − X (n2 ) D−δ
D= ∗
de distribution donnée par q ∼ tn1 +n2 −2 .
S 1
+ 1 n1 n2
L’interprétation de la taille de l’effet estimée δb est la suivante 43

Taille de | δb |< 0.20 0.20 ≤| δb |< 0.50 0.50 ≤| δb |< 0.80 | δb |≥ 0.80
l’effet insignifiante faible moyenne importante
5.2.3 Si les effectifs des deux échantillons n1 et n2 sont grands (≥ 60),

la statistique de décision approximativement normale 44 sous H0 est

X (n1 ) − X (n2 )
q 2 ≈ Z ∼ N (0, 1)
S1 S22
n1
+ n2
et l’intervalle de confiance pour µ1 − µ2 au niveau de confiance 1 − α, IC1−α (µ1 − µ2 ), est donné

par s
S12 S22
IC1−α (µ1 − µ2 ) = X (n1 ) − X (n2 ) ± z1−α/2 · + .
n1 n2
41. Remarquons que même si la technique statistique est applicable quels que soient les effectifs des deux
échantillons, il est important de s’interroger sur le bien-fondé de la comparaison de deux moyennes calculées à
partir de deux échantillons d’effectifs très différents, l’un d’entre eux étant beaucoup plus petit que l’autre.
42. Cet estimateur, quoique légèrement biaisé, fournit une première estimation de la taille de l’effet ; la
définition de l’estimateur sans biais de δ sort du cadre de ce cours, voir ouvrages de méta-analyse, par exemple
Hunter, J.E. & Schmidt, F.L. (2004), Methods of meta-analysis : Correcting error and bias in research synthesis
(2nd ed.), Sage.
43. Cohen, J. (1992). A power primer. Psychological Bulletin, 112, 155-159.
44. Même si aucune hypothèse n’est préalable à l’utilisation de cette statistique pourvu que les effectifs des
deux échantillons soient grands, on peut toujours s’interroger sur la légitimité de comparer les moyennes de
deux distributions asymétriques ou ayant des formes différentes.
40
5.2.4 Si au moins un des effectifs n1 et n2 est faible (n1 ou n2 < 60) et si les
populations parentes ne sont pas normales ou si les populations parentes
sont normales mais les variances σ12 et σ22 inconnues sont différentes,
on devra avoir recours à une méthode statistique non paramétrique 45 .
0
5.3 Inférence sur deux moyennes µ et µ , mesures répétées
0
Soient Xi et Xi deux mesures répétées de la même variable quantitative sur les sujets i, i =
0 0
1, · · · , n (plan S ∗ T2 ). Considérons les moyennes µ = E[Xi ] et µ = E[Xi ]. Le test s’écrit
0
H0 : µ = µ
0 0 0
H1 : µ 6= µ (ou µ < µ ou µ > µ )
0
Considèrons les différences Di = Xi − Xi (pour i = 1, · · · , n). Ce test peut se traduire 46 en une
inférence sur la moyenne des différences µD en se basant sur la moyenne arithmétique D(n) et
2 2
la variance σD (ou son estimateur sans biais SD (n)
), c’est-à-dire

H0 : µD = 0
H1 : µD 6= 0 (ou µD < 0 ou µD > 0)
Pour la suite, vous procèderez comme en Section 5.1 en vous appuyant sur l’échantillon
a.i.i.d. Di , i = 1, · · · , n, avec la norme µD0 = 0 sous H0 . La taille de l’effet de la V.I. (le facteur
“Traitement” à deux modalités T2 ) sur la VD X est donnée par l’effet standardisé (ES) δ défini
par
µD
δ=
σD
dont l’estimateur (également appelé le d de Cohen) est défini par δb = D . SD
L’interprétation de la taille de l’effet estimée δb est identique à celle donnée en 5.2.2.
5.4 Inférence sur plusieurs moyennes

La comparaison de plusieurs moyennes (échantillons indépendants ou mesures répétées) est
classiquement appelée l’analyse de la variance (ou ANOVA) ; les procédures statistiques de
l’analyse de la variance sont présentées dans la section suivante. Il s’agit en fait d’analyser l’effet
d’une ou plusieurs variables catégorisées appelées facteurs (VI), sur une variable quantitative
(VD).
45. Si au moins un des effectifs n1 et n2 est faible (n1 ou n2 < 60) et les populations parentes sont normales
de variances inconnues différentes, on propose parfois la statistique de décision suivante

X (n1 ) − X (n2 )
T = q 2 ≈ tr , t de Student à r d.d.l.
S1 S22
n1 + n2
2
S12 S22

n1 + n2
où r est l’entier le plus proche du nombre 2 2 2
2 Il s’agit de la solution de Welch-Satterthwaite au
S1 S2
n1 n2
n1 −1 + n2 −1
problème de Behrens-Fisher. En pratique, on n’utilise cette formule que lorsque les effectifs n1 et n2 sont petits
et diffèrent sensiblement. Lorsque n1 = n2 , on peut utiliser la loi t de Student à n1 + n2 − 2 degrés de liberté
et lorsque n1 et n2 sont grands, on peut utiliser la loi N (0, 1). Remarquons néanmoins qu’il est important de
s’interroger sur le bien-fondé de la comparaison de deux moyennes lorsque les dispersions sont très différentes.
0 0
46. Par la linéarité de l’espérance mathématique, µD = E[Di ] = E[Xi ] − E[Xi ] = µ − µ .
41
6 ANALYSE DE VARIANCE (ANOVA)
6.1 Un facteur (G), K échantillons indépendants, plan S < GK >
(structure d’emboı̂tement)
On dira que les sujets sont emboı̂tés dans les K différentes modalités du facteur G. Soit K
échantillons indépendants, ∀ j = 1, · · · , K, (Xij )i=1,··· ,nj éch.a. i.i.d. ∼ N (µj , σ 2 ), on désigne
Xij : v.a. du sujet i dans le groupe j,
nj : effectif du groupe j,
Xj : moyenne du groupe j,
X : moyenne générale et
: effectif total des K groupes (N = K
P
N j=1 nj )
L’effet du facteur G est testé par

H0 : µ1 = µ2 = · · · = µK (absence d’effet du facteur)
H1 : négation de H0 (∃ j1 , j2 ∈ {1, · · · , K} tels que µj1 6= µj2 )
Une autre formulation de ce test s’obtient en décomposant l’espérance µj = E(Xij ), du

résultat Xij de chaque sujet i dans la condition j (i = 1, · · · , nj ), en l’espérance ou moyenne
générale µ et l’effet du facteur G, soit αj 47 :
µj = µ + αj avec
K
1 X
µ = · nj µj (la moyenne générale) et
N j=1
αj = µj − µ (l’effet de la modalité j du facteur G)
Sous cette nouvelle formulation, l’effet du facteur G est testé par

H0 : α1 = α2 = · · · = αK = 0 (absence d’effet du facteur)
H1 : négation de H0 (∃ j ∈ {1, · · · , K} tel que αj 6= 0)
L’analyse de variance à un facteur en groupes indépendants, s’effectue en décomposant la

somme des carrés des écarts à la moyenne générale, appelée Somme des Carrés des écarts Totaux
et notée SCT , en deux sommes de carrés, la Somme de Carrés d’écarts expliqués par le facteur
G, notée SCG , et la Somme de Carrés d’écarts non expliqués par ce facteur ou Résiduelle,
notée SCR . A chacune de ces sommes correspond un nombre de degrés de liberté noté d.d.l..
Cette décomposition, appelée équation fondamentale de l’analyse de variance à un facteur (G),
échantillons indépendants, est donnée ci-dessous.
47. Remarquons que suivant la définition de l’effet du facteur G, la moyenne pondérée des effets αj est toujours
nulle :
XK
nj αj = 0
j=1
puisque
K
X K
X K
X K
X
nj α j = nj (µj − µ) = nj µj − nj µ = N · µ − N · µ = 0
j=1 j=1 j=1 j=1
42
Equation fondamentale de l’analyse de variance :
PK Pnj 2 PK 2 PK Pnj 2
j=1 i=1 (Xij − X) = j=1 nj (X j − X) + j=1 i=1 (Xij − X j )
notées SCT = SCG + SCR
(d.d.l.) : (N − 1) = (K − 1) + (N − K)
On calcule ensuite les Carrés Moyens associés aux deux sommes de carrés expliqués et
non expliqués par le facteur, notés respectivement CMG et CMR . La statistique de décision
permettant de mettre à l’épreuve l’hypothèse d’absence d’effet du facteur est le quotient de
ces carrés moyens, dont la loi de probabilité, sous H0 et sous l’hypothèse de normalité et
d’homoscédasticité des populations, est un F de Fisher-Snédécor dont les degrés de libertés
correspondent à ceux de ces carrés moyens. Il est d’usage de présenter le calcul de la valeur
observée de cette statistique de décision dans un tableau, appelé tableau de l’analyse de variance,
de la forme suivante.
Tableau de l’analyse de variance :

| Source de | | Somme des Carrés | Carré Moyen | |
SC
| variation | d.d.l. | (SC) | (CM = d.d.l. ) | Rapport F |
| | | | | |
| | | | | |
PK 2 SCG
| inter | K −1 | j=1 nj (X j − X) | CMG = K−1 | |
| (facteur G) | | (= SCG ) | | F = CM
CMR
G
|
| | | | | ∼ FK−1,N −K |
PK Pnj 2 SCR
| intra | N −K | j=1 i=1 (Xij − X j ) | CMR = N −K | |
| (résidu) | | (= SCR ) | | |
| | | | | |
| | | | | |
PK Pnj 2
| Total | N −1 | j=1 i=1 (Xij − X) | | |
| | | (= SCT ) | | |
Si les K populations parentes sont normales de même variance (hypothèses de normalité et
d’homoscédasticité), la statistique de décision F et sa loi sous H0
CMG
F = ∼ FK−1,N −K , F de Fisher-Snédécor à (K − 1, N − K) d.d.l.
CMR
Pour le calcul des sommes de carrés (SC), on pourra utiliser les formules équivalentes
suivantes :
K X nj K X nj
X 2 X T2
SCT = (Xij − X) = Xij 2 −
j=1 i=1 j=1 i=1
N
K K
X 2 X Tj2 T2
SCG = nj (X j − X) = −
j=1 j=1
nj N
nj
K X K
X 2 X
SCR = (Xij − X j ) = (nj − 1)Sj2
j=1 i=1 j=1
K K X nj K
X X X Tj2
= SCEj = Xij 2 −
j=1 j=1 i=1 j=1
nj
43
où
Pnj
Tj désigne le total du groupe j, Tj = i=1 X ,
PKij
T le total général des observations, T = j=1 Tj ,
SCEj la somme des carrés d’écarts à la moyenne dans le groupe j,
Pnj 2
SCEj = i=1 Xij − X j , et
Sj2 l’estimateur sans biais de la variance du groupe
P j, Tj2
2

2 1
P nj
SCE j 1 nj 2
Sj = nj −1 i=1 Xij − X j = nj −1 = nj −1 i=1 Xij − nj .
Il est important de rappeler que les sommes de carrés et les degrés de liberté sont addi-
tifs. L’estimateur sans biais de la variance σ 2 dans les K populations (variance commune par
l’hypothèse d’homoscédasticité) est le carré moyen résiduel (ou intra) CMR . De plus, on peut
monter que si αj = µj − µ (pour tout j = 1, · · · , K)
2
P
2 j nj αj
E (CMG ) = σ +
K −1
On peut mesurer la taille de l’effet du facteur G sur la variable dépendante X par le carré
du rapport de corrélation ηX|G défini par
2 SCG
ηX|G =
SCT
donnant la proportion de la somme des carrés des écarts d’écarts de la VD (la variable X)
qui est expliquée par la VI (le facteur G). On peut généraliser cet indice pour des plans plus
complexes de l’analyse de la variance.
Lorsque n1 = n2 = · · · = nK = n = N/K (plan équilibré Sn < GK >),

le calcul des carrés moyens peut s’effectuer comme suit :
CMR est la moyenne des variances sans biais Sj2 , c’est-à-dire
CMR = K1 K 2
P
j=1 Sj et
CMG est la variance sans biais desPmoyennes multipliée par n, c’est-à-dire
K 2
n
PK 2 ( j=1 X j )
CMG = K−1 j=1 X j − K
.
Remarque. On distingue dans l’analyse de variance, les modèles fixe et aléatoire. Dans le
modèle fixe, les K modalités du facteur G sont fixées et la comparaison des moyennes ne porte
que sur ces K modalités. La technique développée ci-dessus n’est valable que si le modèle est fixe.
Le modèle aléatoire peut être considéré comme un modèle d’échantillonnage à deux niveaux : on
choisit d’abord au hasard les K populations à comparer puis dans chacune de celles-ci, on prélève
au hasard un échantillon d’effectif nj . Dans les modèles aléatoires, l’hypothèse de normalité des
observations est souvent cruciale et, bien que certains problèmes soient développés dans le cas
non équilibré, il est préférable de se limiter au cas équilibré. Les techniques adaptées pour la
comparaison des K moyennes dans le modèle aléatoire sont des techniques approximatives que
nous ne développerons pas ici (voir par exemple Abdi opcit.).
44
6.2 Un facteur (A), mesures répétées, plan Sn ∗ Tp (structure de croi-
sement)
On dira que les sujets sont croisés avec les p différentes modalités du facteur
A, parfoisappelé
traitement. Soit un échantillon de n vecteurs aléatoires i.i.d. de dimension p, (Xij )j=1,··· ,p ,
i=1,··· ,n
correspondant à p échantillons appariés (Xij )i=1,··· ,n pour j = 1, · · · , p, où
Xij : v.a. du sujet i lors de la jème répétition,
n : effectif de l’échantillon (nombre de sujets),
p : nombre de répétitions (ou de modalités du facteur A),
X •j : moyenne de la répétition j,
X i• : moyenne du sujet i,
X •• : moyenne générale (parfois notée X) et
N : nombre de données (N = np)
On considère le vecteur-profil des données d’un même sujet i lors des p répétitions,
 
Xi1
 Xi2 
 .. 
.
 
Xi = 
 
 Xij


 .
 ..


Xip
On suppose que ces vecteurs constituent un échantillon aléatoire i.i.d. suivant une loi normale
multivariée de dimension p, d’espérance µ et de matrice de variance-covariance Σ, c’est-à-dire
Xi ∼ Np (µ, Σ), ∀ i = 1, · · · , n.
Pour pouvoir écrire simplement le test portant sur l’effet du facteur “répétition” (A), on
décompose l’espérance µij = E(Xij ), du résultat Xij du sujet i dans la répétition (ou condition)
j, en l’espérance ou moyenne générale µ•• , l’effet du facteur “sujet” αi et l’effet du facteur
“répétition” βj :
µij = µ•• + αi + βj avec

n p
1 XX
µ•• = · µij
np i=1 j=1
p
1X
αi = µi• − µ•• où µi• = µij
p j=1
n
1X
βj = µ•j − µ•• où µ•j = µij
n i=1
Il est intéressant de noter que suivant la définition des effets du facteur “sujet” et du facteur
“répétition”, la somme de ces effets est toujours égale à 0
n p
X X
αi = βj = 0.
i=1 j=1
45
L’effet du facteur “répétition” (A) est testé par
(
(A)
H0 : µ•1 = µ•2 = · · · = µ•p (absence d’effet du facteur A)
(A) (A)
H1 : négation de H0 (∃ j1 , j2 ∈ {1, · · · , p} tels que µ•j1 6= µ•j2 )
Ce test peut donc également s’écrire comme suit

(
(A)
H0 : β1 = β2 = · · · = βp = 0
(A) (A)
H1 : négation de H0 (∃ j ∈ {1, · · · , p} tel que βj 6= 0)
Le facteur “sujet” S est un facteur aléatoire alors que, comme annoncé précédemment, le
facteur A est fixe. On parle dans ce cas d’un modèle mixte. Dans ce modèle, il n’est pas permis
de tester l’effet du facteur “sujet”. Par contre, lorsque le facteur A est aléatoire, ce test est
possible 48 .
L’analyse de variance à un facteur en groupes appariés, s’effectue en décomposant la somme
des carrés des écarts à la moyenne générale, appelée Somme des Carrés des écarts Totaux et
notée SCT , en trois sommes de carrés, la Somme de Carrés d’écarts expliqués par le facteur
“répétition” A (ou inter répétitions), notée SCA , la Somme de Carrés d’écarts expliqués par le
facteur “sujets” S (ou inter sujets), notée SCS et la Somme de Carrés d’écarts non expliqués par
ces deux facteurs, Résiduelle ou intra, notée SCR . Cette dernière somme de carrés correspond
également à l’interaction entre le facteur “sujet” et le facteur “répétition” ; dans ce modèle,
ces deux sommes de carrés sont confondues. A chacune de ces trois sommes correspond un
nombre de degrés de liberté noté d.d.l.. Cette décomposition, appelée équation fondamentale
de l’analyse de variance à un facteur (A), échantillons appariés, est donnée ci-dessous.

Pp Pn 2 2
= n pj=1 (X •j − X •• )
P
SCT = j=1 (Xij − X •• )
i=1
(d.d.l. : np − 1) notée SCA (d.d.l. : p − 1)
2
+ p ni=1 (X i• − X •• )
P
notée SCS (d.d.l. : n − 1)
Pp Pn 2
+ j=1 i=1 (Xij − X i• − X •j + X •• )
notée SCR (d.d.l. : (n − 1)(p − 1))
On calcule ensuite les Carrés Moyens associés à ces trois sommes de carrés, notés respec-
tivement CMA , CMS et CMR . La statistique de décision permettant de mettre à l’épreuve
l’hypothèse d’absence d’effet du facteur “répétition” A est le quotient du carré moyen expliqué
(A)
par ce facteur et du carré moyen résiduel (ou intra), dont la loi de probabilité, sous H0 et sous
les hypothèses de normalité multivariée et de circularité de la matrice de variance-covariance
précisées ci-dessous, est un F de Fisher-Snédécor de degrés de libertés correspondant à ceux
48. Lorsque le facteur A est aléatoire, l’effet du facteur “sujet” (S) est testé par
(
(S)
H0 : µ1• = µ2• = · · · = µn• (absence d’effet du facteur S)
(S) (S)
H1 : négation de H0 (∃ i1 , i2 ∈ {1, · · · , n} tels que µi1 • 6= µi2 • )
qui peut s’écrire de manière équivalente de la manière suivante
(
(S)
H0 : α1 = α2 = · · · = αn = 0
(S) (S)
H1 : négation de H0 (∃ i ∈ {1, · · · , n} tel que αi 6= 0)
46
de ces carrés moyens utilisés. Ces résultats sont habituellement présentés dans le tableau de
l’analyse de variance suivant
| Source de | d.d.l. | Somme des Carrés | Carré Moyen | Rapport F |

SC
| variation | | (SC) | (CM = d.d.l. ) | |
| | | | | |
| | | | | |
2
n pj=1 (X •j − X •• ) | CMA = SC CMA
| F (A) = CM
P
| inter répét. | p−1 | p−1
A
R
∼ |
| (facteur A) | | (= SCA ) | | Fp−1,(n−1)(p−1) |
| | | | | |
2
p ni=1 (X i• − X •• ) | CMS = SC
P
| inter sujets | n−1 | n−1
S
| |
| (facteur S) | | (= SCS ) | | |
| | | P P | | |
p n
| intra | (n − 1)× | j=1 i=1 (Xij − X i• | CMR = | |
2 SCR
| (résidu) | (p − 1) | −X •j + X •• ) | (n−1)(p−1)
| |
| | | (= SCR ) | | |
| | | | | |
Pp Pn 2
| Total | np − 1 | j=1 i=1 (Xij − X •• ) | | |
| | | (= SCT ) | | |
Si la population parente des vecteurs aléatoires Xi (i = 1, · · · , n) est normale multivariée

Np (µ, Σ) et si la matrice de variance-covariance Σ satisfait la condition de circularité ou
sphéricité (voir Chapitre 4), la statistique de décision F (A) permettant de tester l’effet du
(A)
facteur “répétition” (H0 ) est 49
CMA
F (A) = ∼ Fp−1,(n−1)(p−1) , F de Fisher-Snédécor à (p − 1, (n − 1)(p − 1)) d.d.l.
CMR
suivantes :
p n p n
X X 2 X X T2
SCT = (Xij − X •• ) = Xij 2 −
j=1 i=1 j=1 i=1
N
n n
X T2
X 2 i• T2
SCS = p (X i• − X •• ) = −
i=1 i=1
p N
p p2
X 2 X T•j T2
SCA = n (X •j − X •• ) = −
j=1 j=1
n N
49. Pour le test permettant de mettre à l’épreuve l’absence d’effet du facteur “sujet” lorsque le facteur A est
aléatoire (voir remarque précédente), la statistique de décision est
CMS (S)
F (S) = ∼ Fn−1,(n−1)(p−1) , F de Fisher-Snédécor à (n − 1, (n − 1)(p − 1)) d.d.l. sous H0 .
CMR
47
p n p n n p 2
X X 2 X X
2
X T2 i•
X T•j T2
SCR = (Xij − X i• − X •j + X •• ) = Xij − − +
j=1 i=1 j=1 i=1 i=1
p j=1
n N
où
désigne le total du sujet i, Ti• = pj=1 Xij ,
P
Ti•
Pn
T•j désigne le total de la répétition j, T•j =
P i=1 Xij ,P
et
T le total général des observations, T = ni=1 Ti• = pj=1 T•j .
Il est important de rappeler que les sommes de carrés et les degrés de liberté sont additifs.
On trouve dans la littérature différentes manières de mesurer la taille de l’effet du facteur
A sur la variable dépendante X. Citons d’abord le η 2 partiel, noté ηP2 et défini par
SCA SCA
ηP2 = =
SCT − SCS SCA + SCR
et ensuite le η 2 généralisé, noté ηG
2
et défini par
2 SCA
ηG =
SCA + SCS + SCAS
2
qui peut s’écrire simplement ηG = SCA
SCT
lorsque le plan ne comporte qu’un seul facteur.
Un cas particulier de matrice de variance-covariance Σ circulaire est la matrice
 
1 ρ ρ ··· ··· ρ
 ρ 1 ρ ··· ··· ρ 
 ..
 
. ρ 1 ρ · · · ρ

2
 
Σ = σ  .. .. . . . .. . . 
. . .. 
 . . . 
 . . .
 .. .. .. 1 ρ 

ρ ρ ··· ρ ρ 1
Autrement dit, si les p variables aléatoires correspondant aux différents traitements ont même
variance (σ 2 ) et les covariances entre ces variables prises deux par deux sont égales (ρσ 2 ), la
matrice Σ est circulaire (mais cette condition n’est pas nécessaire). Dans ce cas, l’estimateur
sans biais de la variance commune σ 2 dans chacune des np populations est le carré moyen
résiduel (ou intra) CMR .
En général, l’estimateur sans biais de la matrice Σ est la matrice des estimateurs sans biais
de chacune des variances et des covariances prises séparément ; cette matrice, notée S, est définie
au Chapitre 2 et reprise au Chapitre 4.
Remarque. Le calcul des carrés moyens peut également s’effectuer comme suit :
CMA est la variance
sans biais desPmoyennes par groupe multipliée par n, c’est-à-dire
p 2
n
Pp 2 ( j=1 X •j )
CMA = p−1 j=1 X •j − p
et
CMS est la variance
sans biais desPmoyennes par sujet multipliée par p, c’est-à-dire
n 2
p Pn 2 ( i=1 X i• )
CMS = n−1 i=1 X i• − n
.
Lorsque la matrice de variance-covariance Σ n’est pas circulaire, on peut utiliser une procédure
approchée, celle-ci est basée sur la quantité, notée ε, définie ci-dessous
0 2
tr C ΣC
ε=
0 2
(p − 1)tr [C ΣC]
48
où C est la matrice d’ordre p × (p − 1), dont les colonnes sont formées par p − 1 contrastes
orthonormés (voir Section 4.4).
On peut montrer que la relation suivante est toujours vérifiée
1
≤ε≤1
p−1
Lorsque la matrice de variance-covariance Σ est circulaire, ε = 1. De plus, on peut dire que
plus la valeur de ε s’éloigne de 1, moins la matrice Σ est circulaire.
En pratique, on estime ε en remplaçant la matrice Σ par son estimateur, la matrice S.
Différentes procédures approchées sont disponibles.
1. Le test ε-ajusté consiste à modifier les degrés de liberté du F (A) utilisé pour mettre à
(A) (A)
l’épreuve l’hypothèse H0 . Plus précisément, sous H0 , on a approximativement
CMA
F (A) = ∼ Fε(p−1),ε(n−1)(p−1)
CMR
Ce type de procédure revient à diminuer le nombre de degrés de liberté de la statistique
F et donc, pour un même seuil de signification α, à augmenter la valeur critique rendant
ainsi plus difficile le rejet de H0 .
1
2. Une autre procédure, la procédure conservatrice, consiste à prendre la valeur ε = p−1
c’est-à-dire à considérer que
CMA
F (A) = ∼ F1,(n−1)
CMR
utilisant ainsi la statistique pour laquelle le nombre de degrés de liberté est minimal. Bien
qu’elle présente l’avantage de ne pas nécessiter l’estimation de ε, cette procédure présente
l’inconvénient de réduire la puissance du test.
3. Une troisième procédure est parfois proposée, il s’agit d’une procédure à trois pas. On
commence par effectuer le test conventionnel comme si la matrice Σ était circulaire. Si
on ne rejette pas l’hypothèse H0 , on ne peut pas prouver l’existence d’un effet du facteur
“répétition” (A) et on peut arrêter le travail. Par contre, si on peut rejeter l’hypothèse
H0 , on passe à la procédure conservatrice. Si cette procédure confirme le rejet de H0 , on
peut conclure à l’effet du facteur “répétition” (A) au seuil α fixé ; la procédure est donc
terminée. Dans le cas contraire, on utilise le test ε-ajusté pour lever la contradiction entre
les deux premières procédures utilisées.
6.3 Deux facteurs (F et G), échantillons indépendants : plan

S < Fl × Gc >
6.3.1 Une seule donnée par case : Fl × Gc (modèle additif )
Lorsqu’un seul des deux facteurs est aléatoire (modèle mixte), le traitement statistique s’ef-
fectue de la même manière que pour une analyse de variance à un facteur fixe avec mesures
répétées sur les sujets (rappelons que le facteur “sujet” est toujours aléatoire). Lorsque les
deux facteurs sont aléatoires (modèle complètement aléatoire), le traitement statistique s’effec-
tue comme pour une analyse de variance à un facteur aléatoire avec mesures répétées sur les
sujets (voir section précédente 6.2). Le cas où les deux facteurs sont fixes, ne sera pas traité
dans ce texte (voir par exemple, Abdi opcit.).
49
6.3.2 Plusieurs données par case : S < Fl × Gc > (non-additif )
Nous nous limiterons au plan équilibré Sn < Fl × Gc >. De plus, nous supposerons que les
deux facteurs sont fixes ; les traitements statistiques correspondant au modèle aléatoire (deux
facteurs aléatoires) et au modèle mixte (un facteur fixe et un facteur aléatoire) sont plus com-
plexes (voir, par exemple, Abdi opcit).
Soient l × c échantillons indépendants tels que ∀ i = 1, · · · , l et ∀ j = 1, · · · , c,
(Xijk )k=1,··· ,n éch.a. i.i.d. ∼ N (µij , σ 2 ). On désigne
Xijk : v.a. du sujet k de la case de ligne i et de colonne j, case (i, j)

n : effectif de chaque case (i, j)
l : nombre de lignes (ou modalités du facteur F )
c : nombre de colonnes (ou modalités du facteur G)
X ij• : moyenne de la case (i, j)
X i•• : moyenne de la ligne i
X •j• : moyenne de la colonne j
X ••• : moyenne générale (parfois notée X)
Ni• : effectif total de la ligne i (Ni• = cn)
N•j : effectif total de la colonne j (N•j = ln)
N : effectif total (N = lcn)
On décompose l’espérance µij = E(Xijk ), de la donnée k de la ligne i et de la colonne j,

Xijk , en la moyenne générale µ, l’effet du facteur “ligne” αi , l’effet du facteur “colonne” βj et
l’effet de l’interaction entre ces deux facteurs (αβ)ij :
µij = µ + αi + βj + (αβ)ij avec

l X
c
1 X
µ = · µij
lc i=1 j=1
c
1X
αi = µi• − µ où µi• = µij
c j=1
l
1X
βj = µ•j − µ où µ•j = µij et
l i=1
(αβ)ij = µij − µi• − µ•j + µ = µij − αi − βj − µ
Le modèle peut donc également s’écrire
Xijk = µ + αi + βj + (αβ)ij + εijk avec les résidus i.i.d. εijk ∼ N (0, σ 2 )
L’effet principal du facteur “ligne” se traduit par les αi correspondant aux l modalités de ce
facteur (F ), l’effet principal du facteur “colonne” se traduit par les βj correspondant aux c
modalités de ce facteur (G) et l’effet d’interaction entre les facteurs “ligne” et “colonne” par
les (αβ)ij correspondant aux lc modalités du croisement de ces deux facteurs” 50 .
50. Il est intéressant de noter que, suivant la définition de ces effets, on a
l
X c
X l
X c
X
αi = 0, βj = 0 et (αβ)ij = (αβ)ij = 0
i=1 j=1 i=1 j=1
50
Les paramètres de ce modèle sont au nombre de lc + 1 que l’on peut énumérer comme suit :
la moyenne µ, les l − 1 effets principaux αi du facteur F , les c − 1 effets principaux βj du facteur
G, les (l − 1)(c − 1) effets d’interactions 51 et la variance résiduelle σ 2 .
1. L’effet principal du facteur “ligne” (facteur F ) est testé par
(
(F )
H0 : α1 = α2 = · · · = αl = 0
(F ) (F )
H1 : négation de H0 (∃ i tel que αi 6= 0)
2. l’effet principal du facteur “colonne” (facteur G) par
(
(G)
H0 : β1 = β2 = · · · = βc = 0
(G) (G)
H1 : négation de H0 (∃ j tel que βj 6= 0)
3. et l’effet d’interaction par
(
(F G)
H0 : (αβ)11 = (αβ)12 = · · · = (αβ)lc = 0
(F G) (F G)
H1 : négation de H0 (∃ i, j tel que (αβ)ij 6= 0)
D’autres hypothèses peuvent également être testées en combinant ces trois hypothèses prin-
cipales : l’effet du facteur “ligne” (en combinant les tests 1. et 3.), l’effet du facteur “colonne”
(en combinant les tests 2. et 3.) et l’effet conjoint des deux facteurs (en combinant les trois
tests).
L’analyse de variance à deux facteurs F et G, groupes indépendants, s’effectue en décompo-
sant la somme des carrés des écarts à la moyenne générale, appelée Somme des Carrés des écarts
Totaux et notée SCT , en quatre sommes de carrés, la Somme de Carrés d’écarts expliqués par le
facteur F (ou inter lignes), notée SCF , la Somme de Carrés d’écarts expliqués par le facteur G
(ou inter colonnes), notée SCG , la Somme des Carrés d’écarts expliqués par l’interaction entre
les deux facteurs F et G, notée SCF G et la Somme de Carrés d’écarts non expliqués par les
deux facteurs et par l’interaction, Résiduelle ou intra, notée SCR . A chacune de ces sommes
correspond un nombre de degrés de liberté noté d.d.l.. Cette décomposition, appelée équation
fondamentale de l’analyse de variance à deux facteurs (F et G), échantillons indépendants, est
donnée ci-dessous.
Pl Pc Pn 2 2
= cn li=1 (X i•• − X)
P
SCT = i=1 j=1 (Xijk − X)
k=1
(d.d.l. : N − 1) notée SCF (d.d.l. : l − 1)
2
+ ln cj=1 (X •j• − X)
P
notée SCG (d.d.l. : c − 1)

2
+ n li=1 cj=1 (X ij• − X i•• − X •j• + X)
P P
notée SCF G (d.d.l. : (l − 1)(c − 1))

Pl Pc Pn 2
+ i=1 j=1 k=1 (Xijk − X ij• )
notée SCR (d.d.l. : lc(n − 1))
et que l’effet d’interaction (ou de non-additivité des effets) peut également s’écrire
(αβ)ij = (µij − µ) − (µi• − µ) − (µ•j − µ) = (µij − µ) − αi − βj
Pl
51. Rappelons que les relations liant ces différents effets (par exemple, i=1 αi = 0) diminuent le nombre de
paramètres libres.
51
On calcule ensuite les Carrés Moyens associés à ces quatre sommes de carrés, notés res-
pectivement CMF , CMG , CMF G et CMR . Les statistiques de décision permettant de mettre à
l’épreuve les hypothèses d’absence d’effet du facteur F , d’absence d’effet du facteur G et d’ab-
sence d’interaction entre les deux facteurs sont les quotients des carrés moyens associés à ces
trois sources de variation et du carré moyen résiduel (ou intra), dont la loi de probabilité, sous
(F ) (G) (F G)
H0 , H0 et H0 respectivement et sous les hypothèses de normalité et d’homoscédasticité
des lc populations, est un F de Fisher-Snédécor de degrés de libertés correspondant à ceux
de ces carrés moyens utilisés. Ces résultats sont habituellement présentés dans le tableau de
l’analyse de variance donné ci-dessous.
Si les hypothèses de normalité et d’homoscédasticité des résidus sont vérifiées, modèle Hm :
εijk i.i.d. ∼ N (0, σ 2 ), ∀i, j, k, les statistiques de décision et leurs lois sont :
- pour le test (1) de l’effet principal du facteur F ,
CMF
F (F ) = ∼ Fl−1,lc(n−1) , F de Fisher à (l − 1, lc(n − 1)) d.d.l.,
CMR
- pour le test (2) de l’effet principal du facteur G,
CMG
F (G) = ∼ Fc−1,lc(n−1) , F de Fisher à (c − 1, lc(n − 1)) d.d.l. et
CMR
- pour le test (3) de l’effet d’interaction des facteurs F et G,
CMF G
F (F G) = ∼ F(l−1)(c−1),lc(n−1) , F de Fisher à ((l − 1)(c − 1), lc(n − 1)) d.d.l.
CMR
| Source de | d.d.l. | Somme des Carrés | Carré Moyen | Rapport F |

SC
| variation | | (SC) | (CM = d.d.l. ) | |
Pl 2
| inter | l−1 | cn i=1 (X i•• − X) | CMF | F (F ) = CM
CMR
F
∼ |
| lignes (F ) | | (= SCF ) | | Fl−1,lc(n−1) |
| | | | | |
2
ln cj=1 (X •j• − X) | F (G) = CM
P
| inter | c−1 | | CMG CMR
G
∼ |
| colonnes (G) | | (= SCG ) | | Fc−1,lc(n−1) |
| | | | | |
| n li=1 cj=1 (X ij• − X i•• | F (F G) = CM
P P
| interaction | (l − 1)× | CMF G CMR
FG
∼ |
2
|F ×G | (c − 1) | −X •j• + X) (= SCF G ) | | F(l−1)(c−1),lc(n−1) |
| | | | | |
Pl Pc Pn
| intra | lc(n − 1) | i=1 j=1 k=1 | CMR | |
2
| (résidu) | | (Xijk − X ij• ) (= SCR ) | | |
Pl Pc Pn
| Total | N −1 | i=1 j=1 k=1 | | |
2
| | | (Xijk − X) (= SCT ) | | |
Rappelons à nouveau que les sommes de carrés et les degrés de liberté sont additifs :
SCF +SCG +SCF G +SCR = SCT et (l−1)+(c−1)+(l−1)(c−1)+lc(n−1) = lcn−1 = N −1.
52
suivantes :
l X c X n l X c X n
X 2 X T2
SCT = (Xijk − X) = Xijk 2 −
i=1 j=1 k=1 i=1 j=1 k=1
N
l l
X 2 1 X 2 T2
SCF = cn (X i•• − X) = T −
i=1
cn i=1 i• N
c c
X 1 X 2
2 T2
SCG = ln (X •j• − X) = T −
j=1
ln j=1 •j N
l X
c X
n l X
c X
n l c
X 2 X
2 1 XX 2
SCR = (Xijk − X ij• ) = Xijk − T
i=1 j=1 k=1 i=1 j=1 k=1
n i=1 j=1 ij
l X
X c l X
X c
= (n − 1)Sij2 = SCEij
i=1 j=1 i=1 j=1
SCF G = SCT − (SCF + SCG + SCR )
l c l c
1 XX 2 1 X 2 1 X 2 T2
= Tij − Ti• − T•j +
n i=1 j=1 cn i=1 ln j=1 N
où
j), Tij = nk=1 Xijk ,
P
Tij désigne le total de la case (i,P
Ti• le total de la ligne i, Ti• = cj=1 Tij ,
le total de la colonne j, T•j = li=1 Tij
P
T•j
le total général des observations, T = li=1 Ti• = cj=1 T•j ,
P P
T
2
la somme des carrés d’écarts dans la case (i, j), SCEij = nk=1 (Xijk − X ij• )
P
SCEij
1
Pn 2
Sij2 la variance sans biais dans la case (i, j), Sij2 = n−1 k=1 (Xijk − X ij• ) .
L’estimateur sans biais de la variance résiduelle σ 2 dans les lc populations (variance com-
mune par l’hypothèse d’homoscédasticité) est le carré moyen résiduel (ou intra) CMR .
Remarquons que puisque le plan est équilibré (même effectif n dans chaque case du tableau
de données), le calcul des carrés moyens peut également s’effectuer comme suit :
CMR est la moyenne des variances sans biais Sij2 dans chacune des cases,
CMR = lc1 li=1 cj=1 Sij2 ,
P P
CMF est la variance sans biais desPmoyennes par ligne X i•• multipliée par cn,
l 2
cn
P l 2 ( i=1 i•• )
X
CMF = l−1 i=1 X i•• − l
et
CMG est la variance
sans biais des P
moyennes par colonne X •j• multipliée par ln,
c 2
ln
Pc 2 ( j=1 •j• )
X
CMG = c−1 j=1 X •j• − c
.
6.4 Deux facteurs (A et B), mesures complètement répétées : plan

Sn ∗ Tl ∗ T̃c
Nous nous limiterons au cas où les deux facteurs A et B sont fixes ; le traitement plus
complexe des cas où l’un des deux facteurs est aléatoire (appelé modèle mixte) et le cas où les
53
deux facteurs sont aléatoires (appelé modèle complètement aléatoire), ne sera pas traité dans ce
texte (voir par exemple Abdi opcit.). Les sujets sont donc croisés avec chacune des lc modalités
provenant du croisement des facteurs A et B, parfois appelés traitements.
Soit un échantillon de n vecteurs aléatoires de dimension l × c,
 
 
(Xijk ) 
 j = 1, · · · , l 
k = 1, · · · , c i=1,··· ,n
où
Xijk : la v.a. du sujet i lors de la combinaison de la jème modalité du facteur
A et de la kème modalité du facteur B
n : effectif de l’échantillon (nombre de sujets)
l : nombre de modalités du facteur A
c : nombre de modalités du facteur B
X i•• : moyenne du sujet i (lors des lc répétitions)
X •j• : moyenne de la jème modalité du facteur A (pour les différents sujets i lors
des c répétitions correspondant au facteur B)
X ••k : moyenne de la kème modalité du facteur B (pour les différents sujets i lors
des l répétitions correspondant au facteur A)
X •jk : moyenne correspondant à la combinaison de la jème modalité du facteur A
et de la kème modalité du facteur B (pour les différents sujets i)
X ij• : moyenne du sujet i lors de la jème modalité du facteur A
(pour les c modalités du facteur B)
X i•k : moyenne du sujet i lors de la kème modalité du facteur B
(pour les l modalités du facteur A)
N : nombre total de données (N = nlc)
On considère le vecteur-profil des données d’un même sujet i lors des lc différents traitements
provenant du croisement des l modalités du facteur A et des c modalités du facteur B,
0
Xi = Xi11 Xi12 · · · Xi1c Xi21 Xi22 · · · Xi2c · · · Xil1 · · · Xilc
On suppose que ces vecteurs constituent un échantillon aléatoire suivant la loi normale multi-
variée de dimension lc, d’espérance µi et de matrice de variance-covariance Σ, c’est-à-dire les
n vecteurs aléatoires, Xi , ∀ i = 1, · · · , n, sont indépendants et ∼ Nlc (µi , Σ) avec les vecteurs
µi , de dimension lc, des espérances µijk = E (Xijk ),
0
µi = µi11 µi12 · · · µi1c µi21 µi22 · · · µi2c · · · µil1 · · · µilc
2
et la matrice de variance-covariance (symétrique) Σ de dimension lc où σX ijk
est la variance
des données d’un même sujet i lors du croisement des modalités j du facteur A et k du facteur
B et σXijk Xij0 k0 est la covariance des données Xijk et Xij 0 k0 d’un même sujet i, ∀ i = 1, · · · , n,
 2

σX i11
σXi11 Xi12 ··· σXi11 Xilc
 σX X 2
i11 i12
σX i12
σXi12 Xilc 
Σ=
 
.. ... .. 
 . . 
2
σXi11 Xilc ··· σXil(c−1) Xilc σX ilc
54
Pour pouvoir écrire les différents tests relatifs à l’effet des facteurs et à leur interaction, on
décompose la donnée Xijk du sujet i lors de la combinaison de la jème modalité du facteur A
et de la kème modalité du facteur B de la manière suivante :
Xijk = µijk + εijk = µ + αj + βk + (αβ)jk + δi + (αδ)ij + (βδ)ik + (αβδ)ijk + εijk où
µ est la moyenne générale de toutes les données

αj est l’effet principal du facteur A
βk est l’effet principal du facteur B
(αβ)jk est l’interaction entre les facteurs A et B
δi est l’effet principal du facteur “sujet”
(αδ)ij est l’interaction entre le facteur A et le facteur “sujet”
(βδ)ik est l’interaction entre le facteur B et le facteur “sujet”
(αβδ)ijk est entre le facteur “sujet” et les deux facteurs A et B
εijk est le terme d’erreur (de distribution normale de moyenne 0)
Ces différents effets sont définis par les relations suivantes

µijk = µ + αj + βk + (αβ)jk + δi + (αδ)ij + (βδ)ik + (αβδ)ijk avec
n l c
1 XXX
µ = µijk où µijk = E (Xijk )
nlc i=1 j=1 k=1
n c
1 XX
αj = µ•j• − µ où µ•j• = µijk
nc i=1 k=1
n l
1 XX
βk = µ•.k − µ où µ•.k = µijk
nl i=1 j=1
n
1X
(αβ)jk = µ•jk − µ où µ•jk = µijk
n i=1
l c
1 XX
δi = µi•• − µ où µi•• = µijk
lc j=1 k=1
c
1X
(αδ)ij = µij• − µ où µij• = µijk
c k=1
l
1X
(βδ)ik = µi•k − µ où µi•k = µijk
l j=1

(αβδ)ijk = µijk − µ + αj + βk + (αβ)jk + δi + (αδ)ij + (βδ)ik
Le dernier terme (αβδ)ijk correspond à l’interaction entre le facteur “sujet” et les facteurs A
et B, cette interaction est appelée interaction d’ordre deux dans la mesure où elle fait intervenir
trois variables. Ce terme est confondu avec le terme d’erreur ou résiduel (comme dans le cas
des mesures répétées, plan Sn ∗ Tp ).
Il est intéressant de noter que par définition de ces effets, les relations suivantes sont vérifiées
l
X c
X l
X c
X
αj = 0, βk = 0, (αβ)jk = (αβ)jk = 0,
j=1 k=1 j=1 k=1
55
n
X n
X l
X n
X c
X
δi = 0, (αδ)ij = (αδ)ij = 0, (βδ)ik = (βδ)ik = 0
i=1 i=1 j=1 i=1 k=1
n
X l
X c
X
et (αβδ)ijk = (αβδ)ijk = (αβδ)ijk = 0
i=1 j=1 k=1
Ces relations permettent d’écrire simplement les tests relatifs aux différents effets des facteurs
fixes 52 .
1. L’effet principal du facteur A est testé par
(
(A)
H0 : α1 = α2 = · · · = αl = 0 (absence d’effet)
(A) (A)
H1 : négation de H0 (∃ j ∈ {1, · · · , l} tel que αj 6= 0)
2. L’effet principal du facteur B est testé par

(
(B)
H0 : β1 = β2 = · · · = βc = 0 (absence d’effet)
(B) (B)
H1 : négation de H0 (∃ k ∈ {1, · · · , c} tel que βk 6= 0)
3. L’effet d’interaction entre les facteurs A et B est testé par

(
(AB)
H0 : (αβ)11 = (αβ)12 = · · · = (αβ)jk = · · · = (αβ)lc = 0 (absence d’effet)
(AB) (AB)
H1 : négation de H0 (∃ j, k tel que (αβ)jk 6= 0)
cipales : l’effet du facteur A (en combinant les tests 1. et 3.), l’effet du facteur B (en combinant
les tests 2. et 3.) et l’effet conjoint des deux facteurs (en combinant les trois tests).
L’analyse de variance à deux facteurs A et B, mesures complètement répétées, s’effectue
en décomposant la somme des carrés des écarts à la moyenne générale, appelée Somme des
Carrés des écarts Totaux et notée SCT , en sept sommes de carrés, la Somme de Carrés d’écarts
expliqués par le facteur A (ou inter lignes), notée SCA , la Somme de Carrés d’écarts expliqués
par le facteur B (ou inter colonnes), notée SCB , la Somme des Carrés d’écarts expliqués par
l’interaction entre les deux facteurs A et B, notée SCAB , la Somme des Carrés des écarts
expliqués par le facteur “sujet” S (ou inter sujets), notée SCS , la Somme des Carrés d’écarts
expliqués par l’interaction entre le facteur A et le facteur “sujet” S, notée SCAS , la Somme
des Carrés d’écarts expliqués par l’interaction entre le facteur B et le facteur “sujet” S, notée
SCBS et la Somme de Carrés d’écarts Résiduelle ou intra, notée SCR (qui est confondue avec la
somme de carrés d’écarts expliqués par l’interaction entre le facteur “sujet” et les deux facteurs
A et B, parfois notée SCABS ). A chacune de ces sommes correspond un nombre de degrés de
liberté noté d.d.l.. Cette décomposition, appelée équation fondamentale de l’analyse de variance
à deux facteurs (A et B), mesures complètement répétées, est donnée ci-dessous.
52. On propose parfois des tests permettant de mettre à l’épreuve l’absence d’effet des facteurs A et B lorsqu’ils
sont aléatoires ; ces tests ne sont pas exacts mais approximatifs (voir par exemple, Abdi opcit).
56
2 2
SCT = ni=1 lj=1 ck=1 (Xijk − X) = cn lj=1 (X •j• − X)
P P P P
(d.d.l. : nlc − 1 = N − 1) notée SCA (d.d.l. : l − 1)

2
+ ln ck=1 (X ••k − X)
P
notée SCB (d.d.l. : c − 1)
2
+ n lj=1 ck=1 (X .jk − X •j• − X ••k + X)
P P
notée SCAB (d.d.l. : (l − 1)(c − 1))

2
+ lc ni=1 (X i•• − X)
P
notée SCS (d.d.l. : n − 1)
2
+ c ni=1 lj=1 (X ij• − X i•• − X •j• + X)
P P
notée SCAS (d.d.l. : (n − 1)(l − 1))

2
+ l ni=1 ck=1 (X i•k − X i•• − X ••k + X)
P P
notée SCBS (d.d.l. : (n − 1)(c − 1))
Pn Pl Pc
+ i=1 j=1 k=1 (Xijk + X i•• + X •j• + X ••k
2
−X ij• − X i•k − X •jk − X)
notée SCR (d.d.l. : (n − 1)(l − 1)(c − 1))
On calcule ensuite les Carrés Moyens associés à ces sept sommes de carrés, notés res-
pectivement CMA , CMB , CMAB , CMS , CMAS , CMBS et CMR . Les statistiques de décision
permettant de mettre à l’épreuve les hypothèses d’absence d’effet du facteur A, d’absence d’ef-
fet du facteur B et d’absence d’interaction entre les deux facteurs A et B sont les quotients
des carrés moyens associés à ces trois sources de variation et du carré moyen intra associé
(A) (B) (AB)
(CMAS , CMBS et CMR respectivement), dont la loi de probabilité, sous H0 , H0 et H0
respectivement et sous les hypothèses de normalité multivariée et de régularité de la matrice de
variance-covariance (voir ci-dessous), est un F de Fisher-Snédécor de degrés de libertés corres-
pondant à ceux de ces carrés moyens utilisés. Ces résultats sont habituellement présentés dans
le tableau de l’analyse de variance page suivante.
Si l’hypothèse de normalité multivariée des vecteurs-profil Xi est vérifiée et si la matrice de

2
variance-covariance Σ a la forme particulière induite par la propriété que les variances σX ijk
0
sont homogènes (soit σ 2 leur valeur commune), les corrélations entre deux modalités j et j du
facteur A sont homogènes (soit ρ2 leur valeur commune), les corrélations entre deux modalités
0
k et k du facteur B sont homogènes (soit ρ1 leur valeur commune) et les corrélations entre une
modalité j du facteur A et une modalité k du facteur B sont homogènes (soit ρ3 leur valeur
commune) 53 , les statistiques de décision sont :
53. Par exemple, si le facteur A possède l = 2 modalités et le facteur B c = 3 modalités, le vecteur Xi est
donné par
0
Xi = Xi11 Xi12 Xi13 Xi21 Xi22 Xi23
dont la matrice de variance-covariance (symétrique) doit donc avoir la forme suivante
 
1 ρ1 ρ1 ρ2 ρ3 ρ3
 ρ1 1 ρ1 ρ3 ρ2 ρ3 
 
 ρ1 ρ1 1 ρ3 ρ3 ρ2 
Σ = σ2 · 
 ρ2 ρ3 ρ3 1 ρ1
.
 ρ1 
 ρ3 ρ2 ρ3 ρ1 1 ρ1 
ρ3 ρ3 ρ2 ρ1 ρ1 1
57
- pour le test (1) de l’effet principal du facteur A,
CMA
F (A) = ∼ Fl−1,(l−1)(n−1) , F de Fisher à (l − 1, (l − 1)(n − 1))) d.d.l.,
CMAS
- pour le test (2) de l’effet principal du facteur B,
CMB
F (B) = ∼ Fc−1,(c−1)(n−1) , F de Fisher à (c − 1, (c − 1)(n − 1)) d.d.l. et
CMBS
- pour le test (3) de l’effet d’interaction entre les facteurs A et B,
CMAB
F (AB) = ∼ F(l−1)(c−1),(l−1)(c−1)(n−1) , à (l − 1)(c − 1), (l − 1)(c − 1)(n − 1) ddl
CMR
Source de d.d.l. Somme des Carré Moyen Rapports F

SC
variation Carrés(SC) (CM = d.d.l. )
CMA
inter l−1 SCA CMA F (A) = CM AS
∼
lignes (A) Fl−1,(l−1)(n−1)
CMB
inter c−1 SCB CMB F (B) = CM BS
∼
colonnes (B) Fc−1,(c−1)(n−1)
inter n−1 SCS CMS

sujets (S)
CMAB
interaction (l − 1)× SCAB CMAB F (AB) = CMR
∼
A×B (c − 1) F(l−1)(c−1),(l−1)(c−1)(n−1)
interaction (l − 1)× SCAS CMAS

A×S (n − 1)
interaction (c − 1)× SCBS CMBS

B×S (n − 1)
intra (l − 1)× SCR CMR

(résidu) (c − 1)×
(n − 1)
Total N −1 SCT
58
suivantes :
n X
l X
c n X
l X
c
X 2 X T2
i=1 j=1 k=1 i=1 j=1 k=1
N
l l 2
X 2 X T•j• T2
SCA = cn (X •j• − X) = −
j=1 j=1
cn N
c c 2
X 2 X T••k T2
SCB = ln (X ••k − X) = −
k=1 k=1
ln N
n n 2
X 2 X Ti•• T2
SCS = lc (X i•• − X) = −
i=1 i=1
lc N
l Xc
X 2
SCAB = n (X •jk − X •j• − X ••k + X)
j=1 k=1
l X
c 2 l 2 c 2
X T•jk X T•j• X T••k T2
= − − +
j=1 k=1
n j=1
cn k=1
ln N
n X
l
X 2
SCAS = c (X ij• − X i•• − X •j• + X)
i=1 j=1
n X
l 2 n l 2
X Tij• X T2 i••
X T•j• T2
= − − +
i=1 j=1
c i=1
lc j=1
cn N
n X c
X 2
SCBS = l (X i•k − X i•• − X ••k + X)
i=1 k=1
n X
c n c
X T2 i•k
X T2 i••
X T2 ••k T2
= − − +
i=1 k=1
l i=1
lc k=1
ln N
SCR = SCT − (SCA + SCB + SCAB + SCS + SCAS + SCBS )
n Xl Xc
X 2
= (Xijk + X i•• + X •j• + X ••k − X ij• − X i•k − X •jk − X)
i=1 j=1 k=1
n X
l X
c l 2 c n
X
2
X T•j• X T2 ••k
X T2 i••
= Xijk + + +
i=1 j=1 k=1 j=1
cn k=1
ln i=1
lc
n X
l 2 n X
c l X
c 2
X Tij• X T2 i•k
X T•jk T2
− − − −
i=1 j=1
c i=1 k=1
l j=1 k=1
n N
où
59
désigne le total du sujet i, Ti•• = lj=1 ck=1 Xijk ,
P P
Ti••
T•j• désignePle total de la ligne j (modalité j = 1, · · · , l du facteur A)
n Pc
T•j• = i=1 k=1 Xijk ,
T••k désigne le total de la colonne k (modalité k = 1, · · · , c du facteur B)
T••k = ni=1 lj=1 Xijk ,
P P
Tij• désignePle total des données du sujet i lors de la modalité j du facteur A

Tij• = ck=1 Xijk
Ti•k désigne le total des données du sujet i lors de la modalité k du facteur B
Ti•k = lj=1 Xijk
P
T•jk désigne le total des données lors du croisement

Pn de la modalité j du facteur A
et de la modalité k du facteur B, T•jk = i=1 Xijk , et
T le total général des observations,

T = ni=1 Ti•• = lj=1 T•j• = ck=1 T••k = ni=1 lj=1 ck=1 Xijk .
P P P P P P
Si la matrice de variance-covariance Σ a la forme donnée précédemment, l’estimateur sans

biais de la variance σ 2 est le carré moyen résiduel ou intra CMR . Aucun test simple ne permet
de mettre à l’épreuve l’hypothèse relative à la forme de cette matrice ; le choix de ce modèle
reposera donc sur la connaissance préalable du phénomène étudié.
Lorsque cette hypothèse d’homogénéité des variances et des corrélations entre les différen-
tes modalités des deux facteurs (voir ci-dessus) ne semble pas vérifiée, il est possible d’utili-
ser le modèle de l’analyse de variance multivariée (MANOVA) pour lequel aucune structure
particulière de la matrice de variance-covariance Σ n’est requise. Cependant, cette technique
nécessite l’estimation de tous les paramètres de cette matrice, soit lc(lc + 1)/2 paramètres. Elle
a donc l’inconvénient d’entraı̂ner une baisse considérable de la puissance du test et de n’être
applicable que lorsque le nombre de sujets est important ; plus précisément, il faut que n > lc.
Remarquons que l’analyse de variance multivariée (MANOVA) permet également de traiter du
plan Sn ∗ Tp (mesures répétées sur un seul facteur) lorsque la matrice de variance-covariance
ne satisfait pas l’hypothèse de circularité (voir Section 6.2). Mais à nouveau, cette méthode
entraı̂ne une perte de puissance et requiert un nombre important de sujets.
6.5 Deux facteurs, plan Sn < GK > ∗Tp
Nous nous limiterons donc au plan équilibré (n sujets dans chacun des K groupes). Les sujets
sont donc emboı̂tés dans K groupes indépendants et croisés avec les p modalités du facteur A
(souvent appelé “traitement”).
Soient K échantillonsindépendantsde n vecteurs aléatoires i.i.d. de dimension p, c’est-à-dire

∀ groupe i = 1, · · · , K, (Xijk )j=1,··· ,p , où
k=1,··· ,n
60
Xijk : v.a. du sujet k dans le groupe i lors de la jème répétition
n : effectif de chacun des K groupes
K : nombre de groupes indépendants (ou modalités du facteur G)
p : nombre de répétitions (ou modalités du facteur A)
X i•• : moyenne du groupe i (i = 1, · · · , K)
X •j• : moyenne de la répétition j (j = 1, · · · , p)
X ij• : moyenne du groupe i lors de la répétition j
X i•k : moyenne du kème sujet du groupe i (lors des différentes répétitions j)
N : nombre de sujets (N = nK)
On considère le vecteur-profil des données d’un même sujet k du groupe i lors des p
répétitions,  
Xi1k
 Xi2k 
 . 
 . 
 . 
Xik = 
 Xijk 

 . 
 .. 
Xipk
On suppose qu’au sein d’un même groupe i fixé (i = 1, · · · , K), ces vecteurs constituent un
échantillon aléatoire i.i.d. suivant une loi normale multivariée de dimension p, d’espérance µi et
de matrice de variance-covariance Σi , c’est-à-dire ∀i = 1, · · · , K, les n ve. a. Xik (k = 1, · · · , n),
sont i.i.d. ∼ Np (µi , Σi ) avec le vecteur µi des espérances µij , j = 1, · · · , p
 
µi1
 µi2 
 . 
 . 
 . 
µi = 
 µij 

 . 
 .. 
µip
2
et la matrice de variance-covariance (symétrique) Σi , où σX ij
est la variance de la donnée Xijk
de chaque sujet k du groupe i lors de la répétition j et σXij1 Xij2 est la covariance entre les
données Xij1 k et Xij2 k d’un même sujet k du groupe i lors des répétitions j1 et j2 ,
 
2
σX i1
σX i1 X i2
· · · σX i1 X ij
· · · σ Xi1 X ip
2
 σX X
 i1 i2
σX i2
σXi2 Xij · · · σXi2 Xip  
 .. . . .. 
 . . . 
Σi =   2

σX i1 X ij
σX ij
σ X ij Xip

.. ..
 
..
.
 
 . . 
2
σXi1 Xip ··· · · · σXij Xip σX ip
Il est souvent intéressant de tester l’effet du facteur “groupe” G, l’effet du facteur “répétition”
A et l’effet d’interaction entre ces deux facteurs. Pour pouvoir écrire ces différents tests, on
décompose l’espérance µij = E(Xijk ), de la donnée d’un sujet k dans le groupe i lors de
la répétition j, Xijk , en la moyenne générale µ, l’effet du facteur G, αi , l’effet du facteur
“répétition” A, βj , et l’effet de l’interaction entre ces deux facteurs, (αβ)ij ,
61
µij = µ + αi + βj + (αβ)ij avec
K p
1 XX
µ = · µij
Kp i=1 j=1
p
1X
αi = µi• − µ où µi• = µij
p j=1
K
1 X
βj = µ•j − µ où µ•j = µij et
K i=1
(αβ)ij = µij − µi• − µ•j + µ = µij − αi − βj − µ
Le modèle peut donc également s’écrire
Xijk = µ + αi + βj + (αβ)ij + εijk
où, pour chaque groupe i fixé (i = 1, · · · , K), les vecteurs aléatoires de résidus εik définis par
0
εik = (εi1k , εi2k , · · · , εijk , · · · εipk )
constituent un échantillon aléatoire i.i.d. suivant la loi normale multivariée de dimension p,

d’espérance nulle et de matrice de variance-covariance Σi introduite ci-dessus. Autrement dit,
∀ groupe i = 1, · · · , K, les n vecteurs aléatoires εik (k = 1, · · · , n) sont i.i.d. ∼ Np (0, Σi ) avec
0
0 = 0 ··· 0 ··· 0 .
L’effet principal du facteur “groupe” se traduit par les αi correspondant aux K modalités
de ce facteur (G), l’effet principal du facteur “répétition” se traduit par les βj correspondant
aux p modalités de ce facteur (A) et l’effet d’interaction entre les facteurs G et A par les (αβ)ij
correspondant aux pK modalités du croisement de ces deux facteurs 54 .
1. L’effet principal du facteur “groupe” (facteur G) est testé par
(
(G)
H0 : α1 = α2 = · · · = αK = 0
(G) (G)
H1 : négation de H0 (∃ i tel que αi 6= 0)
2. l’effet principal du facteur “répétition” (facteur A) par

(
(A)
H0 : β1 = β2 = · · · = βp = 0
(A) (A)
H1 : négation de H0 (∃ j tel que βj 6= 0)
54. Il est intéressant de noter que, suivant la définition de ces effets, on a

K
X p
X K
X p
X
αi = 0, βj = 0 et (αβ)ij = (αβ)ij = 0
i=1 j=1 i=1 j=1
et que l’effet d’interaction (ou de non-parallélisme des profils) peut également s’écrire
(αβ)ij = (µij − µ) − (µi• − µ) − (µ•j − µ) = (µij − µ) − αi − βj
62
3. et l’effet d’interaction entre les deux facteurs par
(
(GA)
H0 : (αβ)11 = (αβ)12 = · · · = (αβ)Kp = 0
(GA) (GA)
H1 : négation de H0 (∃ i, j tel que (αβ)ij 6= 0)
cipales : l’effet du facteur “groupe” (en combinant les tests 1. et 3.), l’effet du facteur “répétition”
(en combinant les tests 2. et 3.) et l’effet conjoint des deux facteurs (en combinant les trois
tests).
L’analyse de variance à deux facteurs, plan Sn < GK > ∗Tp , s’effectue en décomposant
la somme des carrés des écarts à la moyenne générale, appelée Somme des Carrés des écarts
Totaux et notée SCT , en cinq sommes de carrés, la Somme de Carrés d’écarts expliqués par
le facteur “groupe” G (ou inter groupes), notée SCG , la Somme de Carrés d’écarts expliqués
par le facteur “répétition” A (ou inter répétitions), notée SCA , la Somme des Carrés d’écarts
expliqués par l’interaction entre les deux facteurs G et A, notée SCGA et la Somme de Carrés
d’écarts non expliqués par les deux facteurs et par l’interaction, Résiduelle ou intra, est cette
fois décomposée en deux termes : la Somme de Carrés d’écarts expliqués par la variabilité entre
les sujets à l’intérieur de leur groupe, notée SCR1 , et la Somme de Carrés d’écarts expliqués par
l’interaction entre les sujets et le traitement à l’intérieur de leur groupe, notée SCR2 . A chacune
de ces sommes correspond un nombre de degrés de liberté noté d.d.l.. Cette décomposition,
appelée équation fondamentale de l’analyse de variance à deux facteurs (F et G), échantillons
indépendants, est donnée ci-dessous.

PK Pp Pn 2 PK Pp Pn 2
SCT = i=1 j=1 (Xijk − X)
k=1 = i=1 j=1 (X i•• − X)
k=1
(d.d.l. : N p − 1) notée SCG (d.d.l. : K − 1)
PK Pp Pn 2
+ i=1 j=1 k=1 (X •j• − X)
notée SCA (d.d.l. : p − 1)
PK Pp Pn 2
+ i=1 j=1 k=1 (X ij• − X i•• − X •j• + X)
notée SCGA (d.d.l. : (K − 1)(p − 1))
PK Pp Pn 2
+ i=1 j=1 k=1 (X i•k − X i•• )
notée SCR1 (d.d.l. : N − K))
PK Pp Pn 2
+ i=1 j=1 k=1 (Xijk − X ij• − X i•k + X i•• )
notée SCR2 (d.d.l. : (p − 1)(N − K))
On calcule ensuite les Carrés Moyens associés à ces cinq sommes de carrés, notés respective-
ment CMG , CMA , CMGA , CMR1 et CMR2 . Les statistiques de décision permettant de mettre
à l’épreuve les hypothèses d’absence d’effet du facteur G, d’absence d’effet du facteur A et
d’absence d’interaction entre les deux facteurs sont les quotients des carrés moyens associés
à ces trois sources de variation et d’un carré moyen résiduel (CMR1 ou CMR2 ), dont la loi
(G) (A) (GA)
de probabilité, sous H0 , H0 et H0 respectivement et sous les hypothèses de normalité
multivariée et de régularité de la matrice de variance-covariance (voir ci-dessous), est un F
de Fisher-Snédécor de degrés de libertés correspondant à ceux de ces carrés moyens utilisés.
Ces résultats sont habituellement présentés dans le tableau de l’analyse de variance donné page
suivante.
63
Si les hypothèses de normalité multivariée des résidus εik , et d’homogénéité et de circularité
des matrices de variance-covariance de ces résidus Σi sont vérifiées, c’est-à-dire εik ∼ N (0, Σi ),
∀i, k avec Σi homogènes et circulaires (voir Chapitre 4), les statistiques de décision sont :
- pour le test (1) de l’effet principal du facteur G,
CMG
F (G) = ∼ FK−1,N −K , F de Fisher à (K − 1, N − K)) d.d.l.,
CMR1
- pour le test (2) de l’effet principal du facteur A,
CMA
F (A) = ∼ Fp−1,(p−1)(N −K) , F de Fisher à (p − 1, (p − 1)(N − K)) d.d.l. et
CMR2
- pour le test (3) de l’effet d’interaction entre les facteurs G et A,
CMGA
F (GA) = ∼ F(K−1)(p−1),(p−1)(N −K) , à ((K − 1)(p − 1), (p − 1)(N − K)) ddl
CMR2
| Source de | d.d.l. | Somme des | Carré Moyen | Rapports F |

SC
| variation | | Carrés(SC) | (CM = d.d.l. ) | |
| | | | | |
| inter | K −1 | SCG | CMG | |
CMG
| groupes (G) | | | | F (G) = CM R1
∼ |
| | | | | FK−1,N −K |
| intra | N −K | SCR1 | CMR1 | |
| groupes | | | | |
| | | | | |
| | | | | |
CMA
| inter | p−1 | SCA | CMA | F (A) = CM R2
∼ |
| répét. (A) | | | | F(p−1),(p−1)(N −K) |
| | | | | |
| interaction | (p − 1)× | SCGA | CMGA | F (GA) = CM GA
CMR2
∼ |
|G×A | (K − 1) | | | F(p−1)(K−1),(p−1)(N −K) |
| | | | | |
| interaction | (p − 1)× | SCR2 | CMR2 | |
| sujet et | (N − K) | | | |
| répétition | | | | |
| | | | | |
| Total | Np − 1 | SCT | | |
| | | | | |
Rappelons que les sommes de carrés d’écarts et les degrés de liberté sont additifs. Pour le
64
calcul des sommes de carrés (SC), on pourra utiliser les formules équivalentes suivantes :
p
K X n p
K X n
X X 2 X X T2
i=1 j=1 k=1 i=1 j=1 k=1
Np
K K
X 2 X T2 i•• T2
SCG = np (X i•• − X) = −
i=1 i=1
np Np
p p2
X 2 X T•j• T2
SCA = nK (X •j• − X) = −
j=1 j=1
nK Np
K X
n K X
n K
X 2 X Ti•k 2 X T2 i••
SCR1 = p (X i•k − X i•• ) = −
i=1 k=1 i=1 k=1
p i=1
pn
K p
XX 2
SCGA = n (X ij• − X i•• − X •j• + X)
i=1 j=1
p
K X 2 K p 2
X Tij• X T2 i••
X T•j• T2
= − − +
i=1 j=1
n i=1
np j=1
nK Np
SCR2 = SCT − (SCG + SCA + SCGA + SCR1 )
K Xp n
X X 2
= (Xijk − X ij• − X i•k + X i•• )
i=1 j=1 k=1
p
K X n p
K X 2 K X
n K
X X X Tij• X T2 X T2 i••
= Xijk 2 − − i•k
+
i=1 j=1 k=1 i=1 j=1
n i=1 k=1
p i=1
np
où
Tij• désignePle total de la case (i, j), répétition j dans le groupe i
Tij• = nk=1 Xijk ,
Ti•• désignePle total
Pndu groupeP i,
Ti•• = j=1 k=1 Xijk = pj=1 Tij• ,
p
T•j• désigne le total de la répétition j,

T•j• = K
P Pn PK
i=1 k=1 X ijk = i=1 Tij• ,
Ti•k désignePle total du sujet i du groupe k (pour les différentes répétitions),
Ti•k = pj=1 Xijk et
T le total général des N p observations,
T = K
P Pp Pn PK Pp
i=1 j=1 k=1 Xijk = i=1 Ti•• = j=1 T•j• .
Supposons que les K matrices de variance-covariance Σi sont homogènes, c’est-à-dire Σi =

Σ, ∀ i = 1, · · · , K. Si les p variables aléatoires correspondant aux différents traitements ont
même variance (σ 2 ) et si les covariances entre ces variables prises deux par deux sont égales
(σ 2 ρ), la matrice Σ est circulaire (mais cette condition n’est pas nécessaire). Dans ce cas, cette
65
matrice a la forme particulière suivante
 
1 ρ ρ ··· ··· ρ
 ρ 1 ρ ··· ··· ρ 
..
 
.
ρ 1 ρ ··· ρ 
 

2
Σ=σ  ..
.. . . . . . . . . .. 
 .. . . 

 .... .. 
 . . . 1 ρ 
ρ ρ ··· ρ ρ 1
et l’estimateur sans biais de la variance commune σ 2 dans chacune des populations est le carré
moyen résiduel (ou intra) CMR2 .
En général, l’estimateur sans biais de la matrice de variance-covariance commune Σ est la
matrice pondérée des estimateurs sans biais de chacune des variances et des covariances prises
séparément pour chacun des K groupes ; cette matrice, notée S̃, est définie au Chapitre 4.
Lorsque l’hypothèse d’homogénéité des matrices de variance-covariance est vérifiée mais
que la matrice de variance-covariance commune Σ n’est pas circulaire, on peut utiliser une
procédure approchée basée sur la quantité ε définie ci-dessus (voir Section 6.2). Rappelons
que cette quantité est toujours comprise entre 1/(p − 1) et 1, que ε = 1 pour une matrice
circulaire et que plus la valeur de ε s’éloigne de 1, moins la matrice est circulaire.
En pratique, on estime ε en remplaçant la matrice Σ inconnue par son estimateur sans biais
S̃. Trois procédures approchées sont disponibles.
1. Le test ε-ajusté consiste à modifier les degrés de liberté du F utilisé pour mettre à l’épreuve
(G)
les hypothèses nulles. Plus précisément, si les matrices Σi sont homogènes, sous H0 , la
statistique F (G) n’est pas modifiée
CMG
F (G) = ∼ FK−1,N −K
CMR1
(A)
sous H0 , on a approximativement
CMA
F (A) = ∼ Fε(p−1),ε(N −K)(p−1)
CMR2
(GA)
et sous H0 , on a approximativement
CMGA
F (GA) = ∼ Fε(p−1)(K−1),ε(N −K)(p−1)
CMR2
Ce type de procédure revient à diminuer le nombre de degrés de libertés de la statistique
F et donc, pour un même seuil de signification α, à augmenter la valeur critique rendant
(A) (GA)
ainsi plus difficile le rejet de H0 et H0 .
2. Une autre procédure, la procédure conservatrice, consiste à prendre la valeur
1
ε=
p−1
(A)
c’est-à-dire à considérer que sous H0 , la statistique de décision
CMA
F (A) = ∼ F1,N −K
CMR2
66
(GA)
et sous H0 , la statistique de décision
CMGA
F (GA) = ∼ FK−1,N −K
CMR2
utilisant ainsi la statistique pour laquelle le nombre de degrés de liberté est minimal. Bien
qu’elle présente l’avantage de ne pas nécessiter l’estimation de ε, cette procédure présente
l’inconvénient de réduire la puissance du test.
3. Une troisième procédure est parfois proposée, il s’agit d’une procédure à trois pas. On
commence par effectuer le test conventionnel comme si la matrice Σ était circulaire. Si on
(A) (GA)
ne rejette pas une des deux hypothèses H0 ou H0 , on ne peut pas prouver l’existence
d’un effet (du facteur “répétition” ou d’interaction entre “groupe” et “répétition”) et on
peut arrêter le travail pour cette hypothèse. Par contre, si on peut rejeter une de ces deux
hypothèses nulles, on passe à la procédure conservatrice. Si cette procédure confirme le
rejet de l’hypothèse nulle, on peut conclure à l’existence d’un effet (du facteur “répétition”
ou d’interaction entre “groupe” et “répétition”) au seuil α fixé ; la procédure est donc
terminée. Dans le cas contraire, on utilise le test ε-ajusté pour lever la contradiction entre
les deux premières procédures utilisées.
Lorsque les hypothèses d’homogénéité et de circularité des matrices de variance-covariance
ne sont pas vérifiées, il est également possible d’utiliser la technique de l’analyse de variance
multivariée (MANOVA). Cette méthode a l’inconvénient d’être peu puissante et de nécessiter
des échantillons d’effectif très important.
67
7 LA METHODE DES CONTRASTES
Dans le modèle de l’analyse de variance, les contrastes permettent de comparer deux moyennes
ou plus généralement deux ensembles de moyennes (ou espérances).
La méthode des contrastes est applicable aux différents plans de l’analyse de la variance
étudiés au Chapitre 6 ; pour simplifier l’exposé, nous présentons d’abord ci-dessous le cas
particulier du plan S < GK >, un facteur G et K échantillons indépendants (6.1). A la fin de
ce chapitre, vous trouverez le principe permettant de traiter le cas général, en tenant compte
du terme d’erreur adéquat et de son degré de liberté (voir 7.5).
7.1 Les contrastes

7.1.1 Définition
Un contraste λ est une combinaison linéaire des moyennes µj dont la somme des coefficients
est égale à 0, c’est-à-dire
K
X XK
λ= cj µj avec cj = 0
j=1 j=1
où K est le nombre de degrés du facteur considéré. Par exemple, pour comparer les degrés 1 et
2 d’un facteur, on prendra le contraste λ = µ1 − µ2 , c’est-à-dire c1 = 1, c2 = −1 et les autres
coefficients nuls (cj = 0 pour j = 3, · · · , K) ; pour comparer le premier degré du facteur aux
deux suivants réunis (2 et 3), on choisira λ = 2µ1 − (µ2 + µ3 ), c’est-à-dire c1 = 2, c2 = c3 = −1
et les autres coefficients (éventuels) nuls.
On distingue les contrastes a priori (ou planifiés) et les contrastes a posteriori (ou post hoc).
Un contraste a priori permet à un expérimentateur de répondre à une question expérimentale
qu’il a posée dès le départ (lors de la conception du plan expérimental) ; par contre, un contraste
a posteriori est une comparaison effectuée au vu des résultats de l’expérience (c’est-à-dire une
fois l’expérience réalisée).
7.1.2 Inférence sur un contraste

Pratiquement, on effectuera un test d’hypothèses sur un contraste λ de la forme

H0 : λ=0
H1 6 0 (ou λ > 0 ou λ < 0)
: λ=
ou on tentera d’estimer ce contraste λ par intervalle de confiance au niveau 1−α, noté IC1−α (λ).
Un contraste λ = K
P PK
j=1 cj µj sera estimé par la statistique L = j=1 cj X j , la combinaison
linéaire appliquée aux moyennes observées. Cet estimateur est un estimateur sans biais du
contraste λ. De plus, si les hypothèses de normalité et d’homoscédasticité au sein des groupes
sont vérifiées,
PK on 2montre que l’estimateur suit une loi normale de moyenne µL = λ et de variance
2 2
σL = σ · j=1 cj /nj ,
K
2
X c2j
L ∼ N (λ, σ · )
j=1
n j
où σ 2 est la variance intra (ou variance de l’erreur).
68
La variance intra σ 2 étant inconnue, on l’estime par son estimateur sans biais, qui, pour le
plan S < GK >, est le carré moyen intra CMR dont le nombre de ddl est N − K (voir 6.1) 55 .
On obtient donc la statistique de décision T suivante (de loi sous H0 )
L L
T =r = ∼ tN −K , t de Student à N − K d.d.l.
c2j SL
CMR · K
P
j=1 nj
et l’intervalle de confiance pour λ au niveau de confiance 1 − α

v
K
c2j
u
u X
IC1−α (λ) = L ± tN −K,1−α/2 · tCMR · ou L ± tN −K,1−α/2 · SL
j=1
n j
où SL désigne l’erreur-type de l’estimateur L et CMR = K 2

P
j=1 (nj − 1)Sj /(N − K) (voir 6.1).
On peut également utiliser une statistique F de Fisher à (1, N − K) ddl. En effet, il est
possible de montrer que la somme des carrés des écarts provenant du contraste (c’est-à-dire de
l’opposition des deux groupes de moyennes), notée SCλ , est donnée par
L2
SCλ = P c2j
K
j=1 nj
et que cette somme de carrés d’écarts n’a qu’un seul degré de liberté ; donc le carré moyen
associé à un contraste est donné par CMλ = SCλ .
Il suffit donc de procéder comme dans le tableau de l’analyse de variance pour obtenir 56
CMλ
F = ∼ F1,N −K , F de Fisher-Snedecor à (1, N − K) ddl.
CMR
Notons que lorsque le plan est équilibré (nj = n constant ∀ j), la somme des carrés des
écarts provenant du contraste peut se calculer par
n · L2
SCλ = PK 2 .
j=1 cj
7.1.3 L’orthogonalité des contrastes

Pour le plan 57 équilibré Sn < GK >, deux contrastes λ1 = K
P PK
j=1 c1j µj et λ2 = j=1 c2j µj
sont orthogonaux si la somme des produits des coefficients est égale à 0, c’est-à-dire
K
X
c1j c2j = 0
j=1
55. Rappelons ici que dans le cas général, on prendra le carré moyen de l’erreur associé au facteur étudié avec
son degré de liberté (voir Chapitre 6, sections 6.1 à 6.5).
56. Notons néanmoins que cette statistique F ne permet pas de construire un intervalle de confiance sur la
2
valeur du contraste ni d’effectuer un test unilatéral. Il est également intéressant de noter que T 2 = SL2 = F .
PK c c L
57. Dans le cas général (plan non équilibré), la condition d’orthogonalité devient j=1 1jnj2j = 0 ; mais cette
condition est beaucoup moins fréquemment vérifiée car elle donne lieu à des coefficients difficile à justifier dans
la pratique.
69
Pour un facteur à K degrés, on peut trouver K − 1 contrastes orthogonaux deux à deux. Par
exemple, si K = 3, les deux contrastes λ1 = µ1 − µ3 et λ2 = µ1 − 2µ2 + µ3 sont orthogonaux et
il n’est pas possible de construire un 3ème contraste orthogonal à ces deux contrastes.
Lorsque le plan est équilibré, si λ1 , · · · , λi , · · · , λK−1 est une famille de K − 1 contrastes
orthogonaux, alors la somme des carrés des écarts expliqués par le facteur G, SCG , est la somme
des sommes des carrés des écarts provenant de ces K − 1 contrastes,
K−1
X
SCG = SCλi = SCλ1 + · · · + SCλi + · · · + SCλK−1
i=1
chacune de ces sommes de carrés d’écarts ayant un seul ddl (voir ci-dessus). De plus, les degrés
de liberté sont également additifs puisque le nombre de ddl de la somme des carrés des écarts
expliqués par le facteur (SCG ) est égal à K − 1. On peut donc construire le tableau suivant
| Source de | d.d.l. | Somme des | Carré Moyen | Rapport F |

SC
| variation | | Carrés (SC) | (CM = d.d.l. ) | |
| | | | | |
CMλ1
| contraste λ1 | 1 | SCλ1 | CMλ1 = SCλ1 | F (1) = CMR
|
.. .. .. ..
| . | . | . | . | |
(i) CMλi
| contraste λi | 1 | SCλi | CMλi = SCλi | F = CMR
|
.. .. .. ..
| . | . | . | . | |
CMλK−1
| contraste λK−1 | 1 | SCλK−1 | CMλK−1 = SCλK−1 | F (K−1) = CMR
|
| | | | | |
| intra | N −K | SCR | CMR = NSC R
−K
| |
| | | | | |
| Total | N −1 | SCT | | |
Sous les conditions d’application de l’analyse de la variance (normalité et homoscédasticité

pour le plan Sn < GK >), la statistique de décision F (i) pour un des contrastes λi est donc
CMλi
F (i) = ∼ F1,N −K , F de Fisher à (1, N − K) ddl
CMR
si on s’intéresse au test d’hypothèses

(
(i)
H0 : λi = 0
(i)
H1 6 0
: λi =
Notons que l’on ne parle de contrastes orthogonaux que dans le cas de comparaisons pla-
nifiées ou a priori (voir 7.2).
7.1.4 Inférence sur une famille de contrastes

Lorsqu’on effectue une inférence sur une famille de contrastes (prenons C contrastes, λ1 , · · · , λC ),
de la forme
H0 : λ1 = · · · = λi = · · · = λC = 0
H1 : négation de H0 (un des λi est 6= 0)
70
il est important de noter que si la probabilité d’erreur de type I utilisée pour l’inférence sur
chacun de ces contrastes est égale à α, la probabilité qu’il y ait une erreur parmi les C compa-
raisons effectuées n’est en général plus égale à α mais elle lui est de loin supérieure ; on parle de
l’erreur de type I par famille de contrastes par opposition avec l’erreur de type I par contraste. Il
faudra donc être vigilant lorsqu’on souhaite considérer plusieurs contrastes. On distinguera les
cas de contrastes a priori orthogonaux, de contrastes a priori non orthogonaux et de contrastes
a posteriori. Ces différents cas sont développés ci-dessous.
7.2 Comparaisons a priori orthogonales deux à deux

L’inférence à un seuil de signification α fixé, sur une famille de C contrastes orthogonaux
deux à deux planifiés (ou a priori) s’effectue comme C inférences parallèles à ce même seuil
α. On ne distingue donc pas, dans ce cas, la probabilité de l’erreur de type I par contraste
et la probabilité de l’erreur de type I par famille de contrastes. Pour chacun des C contrastes
considérés (λi , i = 1, · · · , C), on utilisera donc (voir Inférence sur un contraste, section 7.1.2)
– la statistique Tλi de loi tN −K de Student avec la région critique au seuil α fixé donnée par
R.C.α (Tλi ) = [−∞; −tN −K,1−α/2 ] ∪ [tN −K,1−α/2 ; +∞[ si test bilatéral ou
R.C.α (Tλi ) = [tN −K,1−α ; +∞[ si test unilatéral à droite

– ou pour un test bilatéral uniquement, la statistique de décision F (i) = CMλi /CMR de loi
F1,N −K de Fisher sous H0 avec la région critique au seuil α fixé pour F (i) donnée par
R.C.α (F (i) ) = {f | f > F1,N −K,1−α } = [F1,N −K,1−α ; +∞[.
7.3 Comparaisons a priori non orthogonales deux à deux

Dans le cas d’une famille de contrastes a priori non othogonaux deux à deux, on distinguera
l’erreur de type I par contraste et l’erreur de type I par famille de contrastes. Si on souhaite
effectuer une inférence sur C contrastes planifiés non orthogonaux, avec une probabilité d’erreur
de type I égale à α fixé pour l’ensemble des C contrastes considérés, il faut ajuster l’erreur de
type I de chacune des C comparaisons ; soit α(C), la probabilité de l’erreur de type I pour
chacun des C contrastes de la famille.
7.3.1 Les tests de Sidàk et de Boole-Bonferroni-Dunn

Il existe un lien entre les deux probabilités d’erreur de type I, α la probabilité pour la
famille de C contrastes et α(C) la probabilité pour chacun des contrastes. Deux inégalités sont
disponibles :
1. l’inégalité de Sidàk
α ≤ 1 − [1 − α(C)]C
2. l’inégalité de Boole-Bonferroni-Dunn
α < C · α(C)
Ces deux ingégalités permettent de choisir le seuil α(C) à utiliser pour chacune des C compa-
raisons de telle sorte que la probabilité de l’erreur de type I pour la famille de C contrastes
soit au maximum égale au seuil α fixé. On peut montrer que l’inégalité de Sidàk est meilleure
71
que celle de Boole-Bonferroni-Dunn (α ≤ 1 − [1 − α(C)]C < C · α(C)). Au lieu de calculer le
seuil α(C) à utiliser pour chacun des C contrastes 58 , dans le cas d’alternatives bilatérales, on
peut lire directement dans les tables les valeurs critiques pour les rapports F (i) = CMλi /CMR
(i = 1, · · · , C) en fonction du nombre C de comparaisons planifiées, du nombre de ddl du
dénominateur ν2 = N − K et du seuil α = 0.05 et α = 0.01 pour la famille de C contrastes, soit
FC,N −K,α (voir Tables statistiques 59 9 et 10). La région critique pour un seuil α fixé pour la
famille de C contrastes a priori non orthogonaux (avec des alternatives H1 bilatérales λi 6= 0),
sera donc pour chacun de ces C contrastes
R.C.α (F (i) ) = {f | f > FC,N −K,α } = [FC,N −K,α ; +∞[
où FC,N −K,α est lu soit dans la table de Sidàk, soit dans la table de Boole-Bonferroni-Dunn.
7.3.2 Le test de Dunnett

Le test de Dunnett s’applique dans le cas où le plan d’expérience comporte un groupe
contrôle et différents groupes expérimentaux et lorsque l’on est uniquement intéressé par les
comparaisons de chacun des groupes expérimentaux avec le groupe contrôle. L’inférence sur
cette famille de K − 1 contrastes a priori non orthogonaux deux à deux (où K est le nombre
CM
de groupes) s’effectue toujours en calculant les rapports F (i) = CMλRi , mais Dunnett a calculé
les valeurs critiques 60 correspondant à cette famille particulière de contrastes, en fonction du
nombre de groupes K, du nombre de ddl du dénominateur N − K et du seuil α fixé pour la
famille de contrastes (α = 0.05 et α = 0.01 pour des alternatives H1 bilatérales λi 6= 0). Ces
valeurs sont tabulées (voir Table statistique 8). Notons que dans ce cas (comparaison de tous
les groupes à un groupe contrôle), il est toujours préférable d’utiliser les valeurs critiques de
Dunnett que celles de Sidàk.
7.4 Comparaisons a posteriori

Lorsqu’un chercheur décide au vu de ses résultats expérimentaux d’effectuer des compa-
raisons (comparaisons dites a posteriori), il ne choisit que les comparaisons qui (au vu des
résultats) ont une chance de donner un résultat significatif. On peut donc dire que ce chercheur
considère toujours toutes les comparaisons possibles même s’il n’en retient que quelques-unes.
Le nombre de comparaisons possibles (non orthogonales deux à deux) augmente très rapide-
ment avec le nombre de groupes (pour K = 4 groupes, il existe déjà 25 contrastes possibles et
pour K = 5 groupes, 90 contrastes). Si on adaptait le seuil α(C) en fonction de ce nombre C
de contrastes possibles pour atteindre une probabilité d’erreur de type I α pour la famille de
tous ces contrastes possibles, on serait très vite amené à prendre α(C) ≈ 0, et aucun de ces
contrastes ne serait significatif.
1/C
58. Si on utilise l’inégalité de Sidàk, on devrait prendre α(C) = 1 − [1 − α] et si on utilise l’inégalité de
Boole-Bonferroni-Dunn, il faudrait α(C) = α/C. Par exemple, pour une probabilité d’erreur de type I égale à
α = 0.05 pour une famille de C = 4 contrastes a priori non orthogonaux, on prendrait respectivement, suivant
l’inégalité de Sidàk, α(C) ≈ 0.01274 et suivant l’inégalité de Boole-Bonferroni-Dunn, α(C) = 0.0125. Notons
que les valeurs critiques des lois tN −K de Student et F1,N −K de Fisher correspondant à ces seuils ne sont
généralesment pas tabulées.
59. Notons qu’il est toujours préférable de choisir la valeur critique donnée par Sidàk que par Boole-Bonferroni-
Dunn, puisque l’inégalité de Sidàk est meilleure que celle de Boole-Bonferroni-Dunn.
60. Ce test de Dunnett est parfois présenté sous une autre forme basée sur la statistique T(λi ) de loi t de
Student avec la table des quantiles correspondants, voir par exemple Howell.
72
7.4.1 La méthode de Scheffé : tous les contrastes
Scheffé a établi que pour un facteur à K degrés (c’est-à-dire K groupes), on peut utiliser
la valeur critique (K − 1) · FK−1,N −K,1−α (où FK−1,N −K,1−α est la quantile d’ordre 1 − α de
CM
la loi F de Fisher aavec (K − 1, N − K) ddl) pour le rapport F (i) = CMλRi de chacun des
contrastes possibles λi , la probabilité qu’il y ait une erreur de type I parmi tous ces contrastes
possibles étant donnée par α. Ce test est conservateur (ou peu puissant) dans la mesure où il
est relativement rare que l’on considère tous les contrastes possibles.
Il est fréquent que l’on présente la méthode de Scheffé sous la forme d’intervalles de confiance
simultanés pour tous les contrastes possibles, IC(λi ), tels que la probabilité qu’un seul de ces
contrastes λ ne soit pas dans son intervalle de confiance IC(λ), est égale à α. Ces intervalles
de confiance, pour un niveau de confiance “global” 1 − α fixé, sont donnés par
v
K
c2j
u
u X
IC1−α (λ) = L ± t(K − 1)FK−1,N −K,1−α · CMR
n
j=1 j
PK PK
pour un contraste λ = j=1 cj µj estimé par L = j=1 cj Xj .
7.4.2 Comparaisons par paires

D’autres méthodes sont disponibles lorsque l’on se restreint à la comparaison (a posteriori)
par paires de tous les groupes.
1. La méthode de Tukey. (Honestly Significant Difference, HSD, 1953)
Pour comparer tous les groupes deux à deux (ou par paires), on range toutes les moyennes
observées, soient X(1) ≤ X (2) ≤ · · · ≤ X (K) ces moyennes rangées en ordre croissant.
Ensuite, on calcule toutes les différences observées L(i,j) = X (j) − X (i) pour i < j (esti-
mation du contraste λ(i,j) = µ(j) − µ(i) ), et les sommes de carrés des écarts 61 provenant
de la comparaison entre ces deux groupes, SCλ(i,j) (∀ i < j). Pour chacun des couples
CMλ
(i, j), on calcule le rapport F(ij) = CM(i,j)
R
que l’on compare à la valeur critique de Tukey
T ukey
Fr=K,ν2 =N −K,α où r = K est le nombre de groupes, ν2 = N − K le nombre de ddl du
dénominateur et α le seuil fixé pour la famille de comparaisons par paires (voir Table
statistique 12). Chacune des paires (i, j) telle que le rapport F(ij) est > à cette valeur
critique, donnera une différence de moyennes significative (µi 6= µj ), la probabilité qu’il
y ait une erreur de type I parmi toutes les comparaisons par paires étant égale à α.
Une autre présentation (plus classique, “Studentized range” ou “q de Student”) du test
de Tukey repose sur des intervalles de confiance simultanés IC1−α (i, j) définis 62 par
X (j) − X (i)
IC1−α (i, j) = q(ij) ± qα (K, N − K) où q(ij) = r ,
CMR · 12 · n1i + 1
nj
d’où l’on déduit des intervalles de confiance sur λ(i,j) définis par
s
1 1 1
IC1−α (λ(i,j) ) = X (j) − X (i) ± qα (K, N − K) · CMR · · + ,
2 ni nj
61. Notons que plus i est loin de j, plus la somme des carrés des écarts provenant du contraste sera élevée.
62. Ces IC conviennent que√les paires de moyennes soient ordonnées ou non ; remarquons le lien entre le q et
le t de Student, q(ij) = t(ij) · 2.
73
où ni et nj sont les effectifs des groupes i et j respectivement et qα (K, N − K) est la
valeur critique pour K groupes, le seuil α et N − K, le nombre de ddl du CMR ; les
valeurs critiques qα (K, N − K) sont tabulées (voir Table statistique 11). Tout couple
(i, j) tel que la valeur 0 6∈ IC1−α (i, j) correspondra à une différence significative.
Notons que lorsque le plan est équilibré,
q les IC1−α (λ(i,j) ) possèdent tous la même demi-
longueur, égale à qα (K, N − K) · CM n
R
.
Le lien entre les deux tables pour le test de Tukey (q et F ) est donné par
T ukey qα2 (K, N − K)

FK,N −K,α =
2
2. Le test de Newman-Keuls. Le test de Newman-Keuls est une variante (de type séquentiel)
du test de Tukey pour la famille de comparaisons par paires. On range les moyennes ob-
servées en ordre croissant, soient X (1) ≤ X (2) ≤ · · · ≤ X (K) ces moyennes rangées. Puis
on compare les groupes extrêmes (correspondant à la moyenne la plus petite X (1) et à
la moyenne la plus élevée X (K) ) ; on considère donc le contraste λ(1,K) = µ(K) − µ(1) ,
d’étendue r = K, l’étendue étant définie comme le nombre de moyennes impliquées dans
la comparaison (y compris les extrêmes). Cette comparaison s’effectue par le test de Tu-
key. Si la différence n’est pas significative, on arrête ; sinon, on considère les comparaisons
d’étendue r = K−1, λ(1,K−1) = µ(K−1) −µ(1) et λ(2,K) = µ(K) −µ(2) . Ces deux comparaisons
s’effectuent par la méthode de Tukey en tenant compte que l’étendue r est maintenant
T ukey
égale à K − 1 (on utilise la valeur critique de Tukey FK−1,N −K,α ou qα (K − 1, N − K)).
Tant qu’on obtient une différence significative, on continue en considérant des contrastes
d’étendue diminuée d’une unité (r = K −2, puis r = K −3, . . .) 63 et ce jusqu’à épuisement
de l’ensemble des paires. Il s’agit donc bien d’une procédure séquentielle. Mais cette
procédure de Newman-Keuls, plus puissante que celle de Tukey, a l’inconvénient de ne
pas respecter la condition d’un seuil α fixé pour l’erreur de type I globale.
3. La méthode de Duncan. La méthode de Duncan pour la famille de toutes les compa-
raisons par paires est une procédure séquentielle semblable à celle de Newman-Keuls. La
différence réside dans l’utilisation de tables statistiques différentes : au lieu de la table de
Tukey, on utilise cette fois la table de Duncan (voir Table statistique 13). Notons que
cette méthode est plus pluissante que celle de Newman-Keuls.
7.5 Les autres plans de l’analyse de la variance

La méthode des contrastes s’applique à tous les plans de l’analyse de la variance (et non pas
seulement au cas S < GK > considéré ci-dessus). Dans le cas général, il faut identifier le terme
d’erreur associé au facteur (ou à l’interaction entre les facteurs) dont on veut analyser l’effet. La
variance de l’erreur σ 2 doit toujours être estimée par son estimateur sans biais, le carré moyen
de l’erreur adapté au plan (CMR , CMR1 ou CMR2 ...) dont le nombre de ddl varie d’un plan à
l’autre (voir Chapitre 6) ; par exemple, au lieu d’un ddl égal à N − K, nous pourrons avoir
(n − 1)(p − 1), lc(n − 1), ou encore (p − 1)(N − K) suivant le plan considéré. De plus, le nombre
de contrastes orthogonaux doit être adapté en conséquence : il pourra s’agir de p − 1, de l − 1
ou c − 1, ou encore de (p − 1)(K − 1) suivant le plan de l’analyse de variance.
63. Par exemple si la différence λ(1,K−1) est significative, on considèrera les deux comparaisons λ(1,K−2)
et λ(2,K−1) d’étendue r = K − 2. Ensuite, si la différence λ(2,K−1) est significative, on considèrera les deux
comparaisons λ(2,K−2) et λ(3,K−1) d’étendue r = K − 3 . . .
74
8 METHODES NON PARAMETRIQUES
Dans l’introduction, nous avons défini un test non paramétrique comme étant un test dont
les hypothèses statistiques ne portent pas sur la valeur d’un ou plusieurs paramètres d’une
variable aléatoire. Parfois, le qualificatif non paramétrique est également utilisé pour désigner
les tests libres, c’est-à-dire les tests valables quelle que soit la loi de probabilité de la variable
aléatoire considérée. Cet emploi abusif du qualificatif non paramétrique provient du fait que
la plupart des tests non paramétriques sont libres, ou en tout cas, ne reposent pas sur des
hypothèses de normalité de la (ou des) population(s) parente(s).
Nous avons déjà présenté quelques tests non paramétriques dans ce cours, citons par exemple
les tests d’ajustement χ2 , de Kolmogorov et de Lilliefors et le test de Kolmogorov-Smirnov (voir
Chapitre 3).
Les méthodes non paramétriques présentées ci-dessous s’appliqueront à des données quan-
titatives (sur une échelle numérique) dont la loi de probabilité dans la population parente est
continue. Il existe des méthodes non paramétriques adaptées à l’analyse statistique de données
sur une échelle nominale ou ordinale ; ces méthodes ne seront pas présentées dans ce cours.
L’étudiant intéressé par ces méthodes est renvoyé à l’ouvrage de Peter Sprent (opcit.). Notons
pour terminer que l’emploi des méthodes statistiques non paramétriques tend à se généraliser
de plus en plus. En effet, ces méthodes sont souvent d’une mise en oeuvre plus fastidieuse
que les méthodes paramétriques classiques mais cet inconvénient tend à disparaı̂tre avec le
développement de logiciels statistiques appropriés.
8.1 Tests relatifs à p = 2 échantillons appariés

0
Soit X, X un couple de variables aléatoires quantitatives (VD d’un plan Sn ∗ T2 ) dont
0
on prend un échantillon aléatoire i.i.d. d’effectif n, Xi , Xi i=1,..,n . Notons F la fonction de
0 0
répartition de la loi de X et F la fonction de répartition de la loi de X . On désire comparer
0
les distributions de X et de X .
Les hypothèses statistiques sont :

 0
 H0 : absence de différence de position entre les distributions F et F ,

(la différence observée est due aux fluctuations d’échantillonnage)



H1 : la distribution F est différente de (resp. plus à droite ou plus à gauche que)
0
la distribution F ,




(la différence observée n’est pas due aux fluctuations d’échantillonnage)

Comme dans le cas paramétrique (cfr. Section 5.3), on définit la différence aléatoire D =
0 0
X − X dont Di = Xi − Xi , ∀ i = 1, · · · , n, est un échantillon aléatoire i.i.d.
Soit µδD la médiane 64 de cette variable aléatoire, définie par : P (D ≤ µδD ) = 1/2.
Une traduction des hypothèses serait alors :

H0 : µδD = 0
H1 : µδD 6= 0 (resp. µδD > 0 ou µδD < 0)
0 0
c’est-à-dire que l’on veut tester si la probabilité P (X > X ) est égale à la probabilité P (X < X )
(et valent donc toutes deux 1/2), ou au contraire, si la première est différente de (respectivement
plus petite ou plus grande que) la seconde.
64. Remarque : si la distribution de D est symétrique (ce qui doit être le cas pour le test de Wilcoxon et le
test de Fisher), alors µδD = µD = E(D), l’espérance de D.
75
Une autre traduction des hypothèses, en posant
0
φ+ = P (D > 0) = P (X > X ) et
0
φ− = P (D < 0) = P (X < X )
serait encore (de manière équivalente) :

H0 : φ+ = 1/2
H1 : φ+ 6= 1/2 (resp. φ+ > 1/2 ou φ+ < 1/2)
ou encore
H0 : φ− = 1/2
H1 : φ− 6= 1/2 (resp. φ− < 1/2 ou φ− > 1/2)
Sous cette forme, le test se ramène donc à la comparaison d’une fréquence à la norme 1/2.
Le modèle sur lequel se fondent les tests présentés ci-dessous est
Hm : la distribution de la population de la différence D est continue.
Cette hypothèse de continuité est purement technique : elle permet d’éviter les différences
nulles ; mais en cas de différences égales à 0, il est possible de ne pas les exclure en les compta-
bilisant du côté de l’hypothèse nulle H0 .
8.1.1 Le test du signe

Pour le test du signe, on ne considère que le signe des différences Di (i = 1, · · · , n) et on
teste si les fréquences des signes + et des signes − dans la population des différences sont égales,
φ+ = φ− = 1/2 ; autrement dit, on met à l’épreuve l’hypothèse selon laquelle la médiane dans
la population des différences Di est nulle (voir hypothèses statistiques ci-dessus). Il s’agit donc
simplement d’une inférence sur une fréquence (voir Section 3.1).
Soit X+ la variable aléatoire qui comptabilise le nombre de différences strictement positives
parmi les n différences observées. Elle est modélisée par X+ ∼ Bi(n, φ+ ).
La statistique 65 de décision est :
X+
X+ ou f+ =
n
Loi sous H0 :
1
X+ = nf+ ∼ Bi(n, )
2
65. Si n > 10 (ce qui implique ici que nφ0 > 5 et n(1 − φ0 ) > 5), on peut aussi utiliser l’approximation donnée
par le Théorème Central-Limite (voir Section 2.3.3) :
1
f+ − 2 X+ − n2
Z = q1 = √ ∼ N (0, 1) sous H0
1
2 (1− 2 )
n/2
n
ou mieux, en introduisant la correction de continuité (vu que X+ est discrète et Z continue, voir Section 2.3.1)
et en tenant compte du sens de l’alternative et de la valeur observée de X+ (pour le choix du signe de ±0.5),
la formule corrigée suivante
X+ ±0.5 1 n
− (X+ ± 0.5) −
Zcorr = qn1 2
= √ 2
∼ N (0, 1) sous H0 .
1
2 (1− 2 )
n/2
n
Notons toutefois que cette formule n’est qu’approximative et que cette approximation n’est absolument pas
nécessaire vu que nous disposons de tables pour la loi binomiale Bi(n, 12 ) avex n ≤ 50.
76
Lorsqu’il y a des différences observées di nulles, on conseille souvent dans la littérature
de les éliminer de l’échantillon. Néanmoins, ces différences nulles contiennent une information
importante vu qu’elles vont tout à fait dans le sens de l’hypothèse nulle H0 : pas de différence ;
nous conseillerons donc de les comptabiliser du côté où le rejet de l’hypothèse H0 devient plus
difficile, ce qui rend le test plus conservateur (diminue la probabilité de rejeter H0 ). Certains
auteurs suggèrent d’assigner au hasard un signe à ces valeurs nulles ; nous ne conseillerons pas
cette procédure car à partir d’un même échantillon de données, deux expérimentateurs peuvent
conclure de manière opposée.
L’avantage du test du signe est sa simplicité de mise en oeuvre mais son inconvénient
principal est sa faible puissance par rapport aux tests classiques (le t de Student ou le test
exact de Fisher). Cette faible puissance s’explique par la perte d’information engendrée en ne
considérant que le signe des différences observées et non leur amplitude. Pour fixer les idées, le
test du signe appliqué à deux échantillons appariés d’effectif n = 100 (extraits de populations
normales) a la même puissance qu’un test basé sur la loi tn−1 de Student (ou un test de Fisher)
appliqué à deux échantillons d’effectif n = 64.
8.1.2 Le test exact de Fisher

Ce test est conditionnel aux données, il n’existe donc pas de tables permettant de déterminer
la région critique une fois pour toutes (en fonction du seuil de confiance α fixé) ; cette région
critique doit donc être construite pour chaque échantillon de différences observées di (i =
1, · · · , n).
Ce test conditionnel aux données repose sur le modèle suivant,
Hm : la distribution de la population des différences D est continue et symétrique.
Les hypothèses statistiques testées peuvent s’écrire :

(
H0 : µD = 0
H1 : µD 6= 0 (resp. µD > 0 ou µD < 0)
La statistique de décision est

n
X
T(n) = Di
i=1
mais la loi sous H0 de cette statistique se construit conditionnellement aux données observées.
On calcule d’abord la somme des différences observées T(n) obs . Ensuite, on classe par ordre
croissant les différences Di en ne considérant que leur valeur absolue |Di | (i = 1, · · · , n).
Si l’hypothèse H0 est vraie, chacune de ces valeurs absolues |Di | devait correspondre à une
différence Di , soit > 0, soit < 0 avec probabilité 1/2, dans l’échantillon de départ. Il existe 2n
manières d’assigner des signes (+ ou −) aux n valeurs |Di |, chacune de ces assignations ayant
même probabilité 1/2n et donnant une certaine valeur t de la somme des différences.
On calcule les sommes t “extrêmes” correspondant à de telles assignations de signes (+ ou
−) à chacune des n différences en valeur absolue |Di |. Par “extrêmes”, on désigne les sommes
de différences les plus petites (la plus petite correspondant à n signes −) ou les plus grandes
(la plus grande correspondant à n signes +).
La région critique est constituée des K assignations extrêmes où K est le plus grand nombre
entier tel que K/2n ≤ α (α est le seuil de signification fixé), c’est-à-dire K ≤ 2n · α. Lorsque
le test est bilatéral, on sépare la région critique en deux parties de K/2 sommes extrêmes (les
77
plus petites et les plus grandes). Lorsque le test est unilatéral, on prend les K sommes les plus
petites ou les plus grandes suivant le sens de l’alternative.
Donc, si la somme observée T(n) obs appartient à la région critique 66 , on rejette H0 ; dans le
cas contraire, on ne peut pas rejeter H0 .
Remarquons que la mise en oeuvre de ce test devient rapidement difficile lorsque l’effectif
n devient grand ; pour un effectif n = 10 et un seuil α = 0.05, la région critique contient déjà
K = 51 valeurs et la détermination de ces 51 valeurs extrêmes (conditionnelles aux différences
observées) doit être recommencée pour chaque nouveau problème. Pour n grand (≥ 25), l’ap-
proximation du test exact de Fisher est le test paramétrique sur la moyenne théorique des
différences (H0 : µD = 0) par la statistique de loi tn−1 de Student (à n − 1 ddl) ou de loi
approximativement N (0, 1) si n ≥ 60 (cfr. Section 5.3). Notons que le test exact de Fisher est
aussi puissant que le test basé sur le tn−1 de Student même lorsque les conditions d’application
du tn−1 sont vérifiées (normalité de la population des différences).
8.1.3 Le test de Wilcoxon

Le test de Wilcoxon est un compromis entre le test exact de Fisher (difficile à mettre
en oeuvre car test conditionnel aux données) et le test du signe (peu puissant vu la perte
d’information en ne considérant que les signes des différences observées).
Le test de Wilcoxon (également appelé test des “signes et rangs”) réduit la perte d’informa-
tion en ne se limitant pas aux signes des différences mais en prenant en compte le rang de leur
amplitude. Ce test est donc plus puissant que le test du signe mais ses conditions d’application
sont plus restrictives ; le modèle traduisant ces conditions est le suivant :
Hm : la distribution de la population des différences D est continue et symétrique.
Les hypothèses statistiques testées peuvent s’écrire :

H0 : µδD = 0
H1 : µδD 6= 0 (resp. µδD > 0 ou µδD < 0)
• L’hypothèse de continuité est essentiellement technique : elle permet d’éviter les différences
nulles et les différences “égales” (“tied values” en anglais).
• L’hypothèse de symétrie est plus fondamentale : si la distribution des différences est symétrique,
les différences (en valeur absolue) ont autant de chance d’être positives que négatives, ce qui
n’est pas le cas si elle n’est pas symétrique. C’est le principe même de la construction de la loi
de la statistique de Wilcoxon (et donc des tables). Donc, si la distribution n’est pas symétrique,
le test n’est pas applicable. Il est possible de mettre à l’épreuve la symétrie d’une distribution
mais il s’agit en fait d’un test de normalité (accompagné du test de l’aplatissement) ; nous nous
limiterons ici à l’examen à vue des données sur un axe orienté et gradué puis à l’interprétation
(purement descriptive) des indices d’asymétrie et d’aplatissement définis dans l’Annexe B du
poly d’Inférence statistique.
Pour le test de Wilcoxon, on remplace les valeurs absolues des différences |Di | par leur rang
Ri (i = 1, · · · , n) de 1 à n puis on procède comme pour le test exact de Fisher à partir de ces
66. Remarquons qu’il est parfois plus simple de calculer directement la probabilité critique (p.c.) que de
construire entièrement la région critique. Ce calcul s’effectue en comptabilisant le nombre de valeurs t de la
somme aussi extrêmes que la valeur T(n) obs du côté de l’alternative, soit k ce nombre ; on obtient simplement
p.c. = k/2n .
78
rangs. Cette procédure permet de tenir compte de l’amplitude des différences tout en allégeant
de manière considérable le traitement par rapport au test exact de Fisher. En effet cette fois, la
région critique peut être déterminée une fois pour toutes, indépendamment des valeurs observées
dans l’échantillon ; il existe donc des tables statistiques pour le test de Wilcoxon, en fonction
de l’effectif n des deux échantillons appariés (voir Table statistique 18). Notons que la perte
d’information due au remplacement des différences observées par des rangs, n’engendre qu’une
faible perte de puissance par rapport au test exact de Fisher (plus précisément, le test de
Wilcoxon appliqué à deux échantillons d’effectif n = 100 a la même puissance que le test exact
de Fisher appliqué à deux échantillons d’effectif n = 95).
Pratiquement, on additionne les rangs correspondant à des différences de signe +, soit T+
cette somme, et les rangs correspondant à des différences de signe −, soit T− cette somme.
Donc 67 ,
Xn Xn
T+ = Ri · I{Di >0} et T− = Ri · I{Di <0} .
i=1 i=1
68
Ces deux sommes vérifient toujours la relation
n(n + 1)
T+ + T− =
2
On a le choix pour la statistique de décision entre les statistiques T+ et T− , qui toutes deux
suivent sous H0 , une loi de Wilxoxon,
T+ ( et T− ) ∼ W(n) de Wilcoxon pour effectif n sous H0 .
La distribution de Wilcoxon est de forme unimodale et symétrique, prenant ses valeurs dans
{0, 1, 2, · · · , n(n + 1)/2}. Désignons par W , la statistique T+ ou T− (au choix). La table de
Wilcoxon donne (en fonction de l’effectif n des échantillons) la probabilité 69 pour la statistique
W de loi ∼ W(n) , P [ W ≤ w | H0 est vraie ] pour des valeurs w entières faibles (inférieures à
n(n + 1)/4) ; cette table est donc unilatérale 70 .
Lorsque certaines différences observées sont égales en valeur absolue, on assigne à ces valeurs
égales le rang moyen qu’on aurait dû leur assigner si elles avaient été différentes (par exemple,
si trois valeurs sont égales au niveau des rangs 3, 4 et 5, on leur attribuera le rang 4 à toutes les
trois ; si on a deux valeurs égales au niveau des rangs 6 et 7, on leur attribuera le même rang
6.5). Dans le cas d’un trop grand nombre de valeurs égales, les tables de Wilcoxon ne seront
plus applicables puisqu’elles sont construites pour n rangs différents (hypothèse de continuité
des distributions). Lorsque certaines différences sont nulles, on procèdera comme pour le test
du signe (voir ci-dessus).
Lorsque l’effectif n est > 20, on peut utiliser la forme approximative suivante du test de
Wilcoxon (approximation normale par le Théorème Central-Limite) 71
T+ − µT+
≈ Z ∼ N (0, 1)
σT+
67. La fonction I{Di >0 } est la fonction indicatrice de l’événement aléatoire {Di > 0}, prenant la valeur 1 si
Di > 0 est réalisé et 0 sinon. Pn
68. car la somme des entiers de 1 à n, i=1 i = 1 + 2 + · · · + n = n(n + 1)/2.
69. La symétrie autour de l’espérance n(n + 1)/4, se traduit par le fait que
P [ W ≤ w | H0 est vraie ] = P [ W ≥ n(n + 1)/2 − w | H0 est vraie ].
70. Si l’alternative H1 est unilatérale, on peut donc lire directement la valeur de la probabilité critique. Par
contre si l’alternative H1 est bilatérale, il sera nécessaire de multiplier la probabilité lue par un facteur 2.
71. Le même résultat s’applique bien entendu à la statistique T− .
79
où, sous H0 , l’espérance et la variance de T+ sont
n(n + 1) n(n + 1)(2n + 1)
µT+ = et σT2+ = .
4 24
Dans le cas de valeurs égales au même niveau, on peut corriger la variance de T+ en la multipliant
par une constante C donnée par
S
1 X
C =1− ts (t2s − 1)
2n(n + 1)(2n + 1) s=1
où ts désigne le nombre de valeurs égales au même niveau s et S le nombre de niveaux à valeurs
égales. La statistique approximative corrigée s’obtient donc par
T+ − µT+ Z
Zcorr = q =√ .
C · σ2 C
T+
Notons que cette correction ne devient significative que lorsque le nombre de valeurs égales est
très important. Cette correction a pour effet d’augmenter la valeur de la statistique de décision ;
elle ne doit donc pas être calculée lorsque, sans la correction, le résultat est déjà significatif.
8.2 Tests relatifs à K = 2 échantillons indépendants

Soient X1i (i = 1, · · · , n1 ) et X2j (j = 1, · · · , n2 ) deux échantillons (aléatoires i.i.d.)
indépendants d’effectif n1 et n2 respectivement, pour une VD quantitative (plan S < G2 >).
On désire comparer les populations dont sont extraits ces échantillons.
Soit X1 la variable aléatoire dont on observe n1 réalisations, réalisations de l’échantillon aléatoire
i.i.d. X1i , i = 1, .., n1 (on choisit, par convention et pour faciliter le travail ultérieur, l’indice 1
pour l’échantillon d’effectif le plus faible, donc n1 ≤ n2 ). Notons F1 la fonction de répartition
de sa loi.
Soit X2 la variable aléatoire dont on observe n2 réalisations (réalisations de l’échantillon aléatoire
i.i.d. X2i , i = 1, .., n2 ). Notons F2 la fonction de répartition de sa loi.
Le modèle général sur lequel reposent tous les tests présentés est
Hm : les deux distributions F1 et F2 sont continues.
Les hypothèses statistiques sont les suivantes :


 H0 : les deux échantillons proviennent d’une même population,
les deux populations ont la même distribution, F1 = F2 ,




(la différence observée est due aux fluctuations d’échantillonnage) ;


 H1 : les deux échantillons ne proviennent pas d’une même population,
F1 est différente de F2 [ou F1 est plus à droite (ou à gauche) que F2 ]




(la différence observée n’est pas due aux fluctuations d’échantillonnage)

Plus précisément, les hypothèses à tester sont :



 H0 : La distribution de X1 est identique à celle de X2 ,
∀ u ∈ R F1 (u) = F2 (u)




H : La distribution de X1 est différente de celle de X2 ,

1



∃ u ∈ R, F1 (u) 6= F2 (u),


 [resp. la distribution de X1 est plus à gauche que celle de X2 ,
∀ u ∈ R, F1 (u) > F2 (u);




ou la distribution de X1 est plus à droite que celle de X2 ,




∀ u ∈ R, F1 (u) < F2 (u).].

80
8.2.1 Le test de la médiane
Pour comparer F1 et F2 , nous comparons les médianes associées à ces deux distributions,
soient µδ1 et µδ2 . Sous l’hypothèse nulle, les n1 + n2 observations sont issues d’une même
distribution de médiane µδ . La probabilité φ1 que les observations issues du groupe 1 soient
inférieures à cette médiane, φ1 = P (X1 ≤ µδ ) = F1 (µδ ), est alors égale à la probabilité φ2 pour
une observation du groupe 2 d’être inférieure à µδ , φ2 = P (X2 ≤ µδ ) = F2 (µδ ).
Nous ne connaissons pas la distribution de ces variables. Nous commençons par estimer la
médiane µδ à partir de l’échantillon des n1 + n2 observations de sorte à construire la dichotomie
la plus équilbrée sur l’ensemble des deux échantillons, soit X̃ cet estimateur.
Les hypothèses statistiques s’écrivent :

 H0 : les deux distributions ont même médiane (µδ1 = µδ2 )
H1 : les deux distributions ont des médianes différentes (µδ1 6= µδ2 )
(resp. µδ1 > µδ2 ou µδ1 < µδ2 )

Ce qui se traduit en :
(
H0 : φ1 = φ2
H1 : φ1 6= φ2 (resp. φ1 > φ2 ou φ1 < φ2 )
Il s’agit donc simplement d’une comparaison de deux fréquences sur échantillons indépendants 72
(voir Section 3.5).
L’avantage du test de la médiane est la simplicité de sa mise en oeuvre, son inconvénient
est sa faible puissance due à la perte d’information en regroupant les données en deux classes.
Pour fixer les idées, le test de la médiane appliqué à deux échantillons indépendants d’effectifs
n1 = n2 = 100 (extraits de populations normales de même variance) a la même puissance qu’un
test de comparaison de moyennes par la statistique de loi tn1 +n2 −2 de Student (ou par un test
exact de Fisher) appliqué à deux échantillons d’effectifs n1 = n2 = 64.
8.2.2 Le test exact de Fisher

Ce test est conditionnel aux données, il n’existe donc pas de tables permettant de déterminer
la région critique une fois pour toutes (en fonction du seuil de confiance α fixé) ; cette région
critique doit donc être construite en fonction des valeurs observées dans les deux échantillons
x1i (i = 1, · · · , n1 ) et x2i (i = 1, · · · , n2 ).
Ce test conditionnel aux données repose sur le modèle suivant,
Hm : les deux distributions F1 et F2 sont continues et symétriques.
Les hypothèses testées s’écrivent :

H0 : µ1 = µ2
H1 : µ1 =6 µ2 (resp. µ1 > µ2 ou µ1 < µ2 )
La statistique de décision est la somme dans l’échantillon d’effectif n1
n1
X
Tn1 = X1i
i=1
72. Rappelons rapidement l’importance des conditions d’application des tests proposés, n1 + n2 ≥ 20 et au
maximum l’un des effectifs théoriques strictement inférieur à 5, ce qui peut se traduire approximativement ici
par n1 et n2 ≥ 10 vu la norme φ1 = φ2 = 1/2 sous H0 .
81
mais la loi sous H0 de cette statistique se construit conditionnellement aux données observées.
On calcule d’abord la somme Tn1 obs des observations dans l’échantillon d’effectif le plus petit,
n1 (rappelons que par convention, n1 ≤ n2 ).
Si l’hypothèse H0 est vraie, chacune des n1 +n2 observations a autant de chances de provenir
de chacun des deux échantillons (l’échantillon d’effectif n1 et l’échantillon d’effectif n2 ). Il y a
Cnn11+n2 possibilités 73 de répartir les n1 + n2 valeurs observées en deux échantillons d’effectifs
n1 et n2 ; si l’hypothèse H0 est vraie, chacune de ces répartitions a même probabilité égale à
1/Cnn11+n2 .
On range globalement les n1 +n2 valeurs observées dans les deux échantillons, puis on calcule
les sommes de n1 valeurs observées, t1 , “extrêmes” correspondant à de telles répartitions des
n1 + n2 valeurs observées. Par “extrêmes”, on désigne les sommes les plus petites (la plus petite
correspondant à la somme des n1 plus petites valeurs des n1 + n2 valeurs observées) ou les
plus grandes (la plus grande correspondant à la somme des n1 plus grandes valeurs des n1 + n2
valeurs observées).
La région critique est constituée des K répartitions extrêmes où K est le plus grand nombre
entier tel que K/Cnn11+n2 ≤ α (α est le seuil de signification fixé), c’est-à-dire K ≤ Cnn11+n2 α.
Lorsque le test est bilatéral, on sépare la région critique en deux parties de K/2 valeurs extrêmes
(les plus petites et les plus grandes sommes t1 ). Lorsque le test est unilatéral, on prend les K
valeurs extrêmes les plus petites ou les plus grandes suivant le sens de l’alternative.
Si la somme observée Tn1 obs des observations dans l’échantillon d’effectif n1 appartient à
la région critique 74 , on rejette l’hypothèse H0 avec une probabilité d’erreur ≤ α ; sinon, on ne
peut pas rejeter H0 .
Il est important de noter que la mise en oeuvre de ce test devient rapidement fastidieuse
lorsque les effectifs n1 et n2 deviennent grands ; pour deux échantillons d’effectifs 10 et un seuil
de signification α = 0.05, la région critique contient déjà K = 9237 valeurs extrêmes (car
K ≤ 184756 × 0.05 = 9237.8) et la détermination de ces 9237 valeurs extrêmes (conditionnelles
aux observations) doit être recommencée pour chaque nouveau problème. Pour n1 et n2 grands
(≥ 25), l’approximation du test exact de Fisher est le test paramétrique de comparaison de
deux moyennes pour échantillons indépendants (H0 : µ1 = µ2 ) par la statistique de loi tn1 +n2 −2
de Student (à n1 + n2 − 2 ddl) ou si n1 et n2 ≥ 60, par la statistique de loi approximativement
N (0, 1) lorsque n1 ≥ 60 et n2 ≥ 60 (cfr. Section 5.2.3). Le test exact de Fisher a la même
puissance que le test basé sur la statistique de loi tn1 +n2 −2 de Student même lorsque celui-ci est
applicable (populations normales de même variance).
8.2.3 Le test de Wilcoxon - Mann-Whitney
Le test de Wilcoxon - Mann-Whitney est un compromis entre le test exact de Fisher (difficile
à mettre en oeuvre car test conditionnel aux données) et le test de la médiane (simple mais
peu puissant). Ce test qui réduit la perte d’information du test de la médiane en tenant compte
du rang des données des deux échantillons, est plus puissant que le test de la médiane mais
ses conditions d’application sont plus restrictives ; le modèle traduisant ces conditions est le
73. Rappelons que Cnk désigne le nombre de combinaisons de k éléments parmi n et se calcule par la formule
n!
Cnk = k!(n−k)! .
74. Remarquons qu’il est parfois plus simple de calculer directement la probabilité critique (p.c.) que de
construire entièrement la région critique. Ce calcul s’effectue en comptabilisant le nombre de valeurs t1 de la
somme aussi extrêmes que la valeur Tn1 obs du côté de l’alternative, soit k ce nombre ; on obtient simplement
p.c. = k/Cnn11+n2 .
82
suivant :
Hm : les deux distributions F1 et F2 sont continues et de même forme.
Il faudra donc veiller à examiner à vue les deux échantillons pour se rendre compte si cette
hypothèse peut être maintenue. Nous nous limiterons ici à un examen à vue et à l’interprétation
(purement descriptive) des indices de symétrie et d’aplatissement (voir Annexe B du poly
d’Inférence statistique). Les hypothèses statistiques s’écrivent :

 H0 : les deux distributions sont identiques (F1 = F2 )
H1 : il existe un décalage de position entre les deux distributions
( bilatéral ou unilatéral, à gauche ou à droite)

Pour le test de Wilcoxon - Mann-Whitney, on remplace les observations par leur rang de 1
à n1 + n2 , en regroupant les deux échantillons. Ensuite, on procède de la même manière que
pour le test exact de Fisher mais à partir des rangs attribués. Cette procédure permet de tenir
compte de la position relative des valeurs observées dans les deux échantillons tout en allégeant
considérablement le traitement par rapport au test de Fisher. En effet, la région critique peut
être déterminée une fois pour toutes, en fonction de la taille respective des deux échantillons et
du seuil de signification α fixé ; il existe donc des tables statistiques pour le test de Wilcoxon -
Mann-Whitney (voir Table statistique 19).
En pratique, soit R1i , le rang attribué à la v.a. X1i de l’échantillon 1 (i = 1, · · · , n1 ) et R2i ,
le rang attribué à la v.a. X2i de l’échantillon 2 (i = 1 · · · , n2 ). On additionne les rangs attribués
aux données de chacun des deux échantillons, soient T1 , la somme des rangs dans l’échantillon
d’effectif le plus faible n1 , et T2 , la somme des rangs dans l’échantillon d’effectif le plus élevé
n2 (rappelons que n1 ≤ n2 par convention). Donc,
n1
X n2
X
T1 = R1i et T2 = R2i .
i=1 i=1
Ces deux sommes vérifient toujours la relation 75

(n1 + n2 )(n1 + n2 + 1)
T1 + T2 = .
2
La statistique T de Wilcoxon - Mann-Whitney (W-MW) est définie comme la somme des rangs
dans l’échantillon d’effectif le plus faible n1 ,
T = T1 ∼ W M W(n1 ,n2 ) de loi Wilcoxon - Mann-Whitney pour effectifs (n1 , n2 ) sous H0 .
La distribution de W M W(n1 ,n2 ) est de forme symétrique et unimodale prenant ses valeurs
sur {n1 (n1 + 1)/2, · · · , n1 (n1 + 2n2 + 1)/2} d’espérance n1 (n1 + n2 + 1)/2. Par symétrie, la
table de Wilcoxon - Mann-Whitney donne la probabilité, pour les effectifs n1 ≤ n2 fixés,
P [T ≤ tg | H0 est vraie] = P [T ≥ td | H0 est vraie] pour des couples de nombres entiers
(tg , td ) tels que tg +td = n1 (n1 +n2 +1) (avec l’indice g pour gauche et l’indice d pour droite). On
consulte donc les tables pour trouver la probabilité que la statistique soit au moins aussi extrême
que la valeur observée ; on peut lire P [T ≤ T1;obs | H0 est vraie] ou P [T ≥ T1;obs | H0 est vraie]
suivant que Tobs est ≤ ou ≥ à n1 (n1 + n2 + 1)/2 et on en déduit la probabilité critique (p.c.).
Cette table est donc unilatérale 76 .
75. La somme de tous les rangs est forcément égale à la somme des entiers de 1 à n1 + n2 .
76. Si l’alternative est unilatérale, on peut donc lire directement la valeur de la probabilité critique. Si l’al-
ternative est bilatérale, il est nécessaire de multiplier la probabilité lue par un facteur 2.
83
Lorsque certaines valeurs observées sont égales, on attribue à ces valeurs égales le rang
moyen qu’on aurait dû leur attribuer si elles avaient été différentes, de manière à conserver la
même somme de rangs sans privilégier aucune de ces valeurs (voir test de Wilcoxon, Section
8.1.3 ci-dessus). Dans le cas d’un trop grand nombre de valeurs égales, les probabilités lues
dans la table de Wilcoxon - Mann-Whitney ne seront que très approximatives puisque la table
est construite pour n1 +n2 rangs différents (suivant l’hypothèse de continuité des distributions).
Lorsque les effectifs n1 et n2 sont > 10, on peut utiliser la forme approximative suivante du
test de Wilcoxon - Mann-Whitney (approximation normale par le Théorème Central-Limite)
T1 − µT1
≈ Z ∼ N (0, 1)
σT1
où, sous H0 , l’espérance et la variance de T1 sont
n1 (n1 + n2 + 1) n1 n2 (n1 + n2 + 1)
µT1 = et σT21 = .
2 12
Dans le cas de valeurs égales (et donc de rangs moyens), on peut corriger la variance de T1 en
la multipliant par la constante C suivante :
S
1 X
C =1− ts (ts 2 − 1)
(n1 + n2 ) (n1 + n2 )2 − 1 s=1

où ts désigne le nombre de valeurs égales au même niveau s et S le nombre de niveaux à valeurs
égales. La statistique approximative corrigée s’obtient donc par
T1 − µT1 Z
Zcorr = q =√ .
C · σ2 C
T1
Notons que cette correction ne devient significative que lorsque le nombre de valeurs égales est
très important. Cette correction a pour effet d’augmenter la valeur de la statistique de décision ;
elle ne doit donc pas être calculée lorsque, sans la correction, le résultat est déjà significatif.
Il existe une autre version (tout à fait équivalente à la précédente) de ce test. Il s’agit de la
version de Mann-Whitney pour laquelle la statistique de décision, notée U , est définie par
n1 (n1 + 1)
U = n1 n2 + − T1 ∼ U(n1 ,n2 ) de Mann-Whitney pour effectifs (n1 , n2 ) sous H0 .
2
La version précédente, pour laquelle la statistique est simplement T = T1 , est due à Wilcoxon.
Il existe des tables donnant les probabilités associées à la statistique U en fonction des effectifs
n1 et n2 des deux échantillons ; cette table, équivalente à celle pour la statistique T1 , n’a pas
été introduite dans le polycopié de tables.
La forme approximative de la statistique U pour des effectifs n1 et n2 > 10, est donnée par
U − µU
≈ Z ∼ N (0, 1)
σU
où, sous H0 , l’espérance et la variance de la statistique U sont
n1 n2 n1 n2 (n1 + n2 + 1)
µU = et σU2 =
2 12
avec la même correction de continuité pour valeurs égales que celle donnée ci-dessus.
La perte de puissance due au remplacement des valeurs observées par des rangs n’est pas très
importante. Par exemple, un test de Wilcoxon - Mann-Whitney appliqué à deux échantillons
de même effectif n = 100 a la même puissance qu’un test paramétrique basé sur une statistique
de loi t de Student appliquée à deux échantillons d’effectifs n1 = n2 = 95 (dans les conditions
d’application du t de Student, normalité et homogénéité des variances).
84
8.2.4 Le test de Kolmogorov-Smirnov
Voir Section 3.7, inférence sur les fréquences.
8.3 Tests relatifs à plus de 2 échantillons

8.3.1 p > 2 échantillons appariés : l’analyse de variance de Friedman
Soit (X1 , X2 , · · · , Xp ) un vecteur de p variables aléatoires quantitatives (VD d’un plan
Sn ∗ Tp ) dont on prend un échantillon aléatoire i.i.d. d’effectif n, (X1i , X2i , · · · , Xpi )i=1,..,n . No-
tons Fj la fonction de répartition de la loi de Xj (∀ j = 1, · · · , p). On désire comparer les
distributions de X1 , X2 , ... et Xp .
Les hypothèses statistiques à tester sont les suivantes :



 H0 : il n’y a pas de différence entre les p distributions des populations dont sont
extraits les p échantillons appariés (F1 = · · · = Fj = · · · = Fp )


 H 1 : il y a une différence de position dans (au moins) une des p distributions des
populations dont sont extraits les p échantillons appariés.

L’analyse de variance de Friedman est la généralisation du test du signe pour plus de deux
mesures répétées (p > 2). Le modèle sur lequel se fonde l’analyse statistique est le suivant,
Hm : les p distributions Fj (j = 1, · · · , p) sont continues.
Souvent, les p mesures répétées correspondent à p traitements pour chacun des n sujets. Pour
chaque sujet (i = 1, · · · , n), on range les p données observées pour chacun des traitements, puis
on leur attribue un rang de 1 à p. Ensuite, on calcule la somme Rj des n rangs correspondant à
chacun des traitements j = 1, · · · , p. Les hypothèses statistiques peuvent s’écrire sous la forme

H0 : E(R1 ) = E(R2 ) = · · · = E(Rp )
H1 : ∃ j1 , j2 ∈ {1, · · · , p}, E(Rj1 ) 6= E(Rj2 )
La statistique de décision F ried est définie par :
p
12 X
F ried = R2 − 3n(p + 1) ∼ F riedp,n
np(p + 1) j=1 j
de loi sous H0 , F riedp,n de Friedman pour p échantillons appariés d’effectifs n.

Les quantiles 77 de cette statistique de décision sont tabulés (voir Table statistique 21)
pour p ≤ 6 et n ≤ 25. Lorsque p > 6 ou n > 25, on pourra utiliser l’approximation suivante
F ried ∼ χ2p−1 , de loi approximativement χ2 à p − 1 ddl sous H0 .
Lorsque certaines valeurs observées pour un même sujet au cours de différents traitements
sont égales, on attribue à ces valeurs égales le rang moyen qu’on aurait dû leur attribuer si elles
avaient été différentes (voir test de Wilcoxon, Section 8.1.3 ci-dessus). Dans le cas où on a
G groupes de valeurs égales au même niveau t1 , t2 , · · · , tg , · · · , tG , on divise la statistique de
décision par le facteur correcteur C suivant :
G
1 X
2

C =1− t g t g − 1
np (p2 − 1) g=1
77. Une valeur observée trop élevée (supérieure à la valeur critique) conduit au rejet de l’hypothèse H0 .
85
Cette correction a pour effet d’augmenter la valeur observée de la statistique de décision ; elle
ne doit donc pas être appliquée lorsque sans correction, le résultat est déjà significatif.
Des comparaisons multiples (à l’aide de contrastes) peuvent être effectuées comme dans
l’analyse de variance paramétrique (voir Sprent).
La perte d’information due à la substitution de rangs de 1 à p aux valeurs observées engendre
une perte de puissance. Cette perte de puissance diminue lorsque le nombre p de traitements
augmente. Ainsi, une analyse de variance de Friedman appliquée à p échantillons appariés
d’effectif n = 100 a la même puissance qu’une analyse de variance classique pour p échantillons
appariés d’effectif n = 64 lorsque p = 3 et d’effectif n = 91 lorsque p devient très grand, lorsque
les conditions d’une analyse de variance classique sont vérifiées (normalité et sphéricité de la
matrice de variance-covariance).
Lorsque l’hypothèse alternative est orientée, une version plus puissante est le test de Page.
Les hypothèses statistiques s’écrivent

H0 : E(R1 ) = E(R2 ) = · · · = E(Rp )
H1 : E(R1 ) < E(R2 ) < · · · < E(Rp )
La statistique de décision L de Page s’écrit
p
X
L= j · Rj ∼ Ln,p de Page pour p échantillons d’effectifs n sous H0
j=1
dont les quantiles sont tabulés (voir Table statistique 22).
8.3.2 K > 2 échantillons indépendants : l’analyse de variance de Kruskal-

Wallis
L’analyse de variance de Kruskal-Wallis est la généralisation pour plus de deux échantillons
du test de Wilcoxon - Mann-Whitney, dans la formulation de Wilcoxon.
Soient K échantillons (aléatoires i.i.d.) indépendants pour une VD quantitative, (Xij )i=1,··· ,nj ,
∀ j = 1, · · · , K (plan S < GK >, K échantillons d’effectifs n1 , n2 , · · · , nj , · · · , nK respective-
ment). On cherche à comparer les K populations dont sont extraits ces K échantillons.
Soit Xj (j = 1, · · · , K) la variable aléatoire dont on observe nj réalisations, Xij , i = 1, · · · , nj .
Notons Fj la fonction de répartition de la loi de Xj . Les hypothèses statistiques testées peuvent
s’écrire :

H0 : les K distributions Fj (j = 1, · · · , K) sont identiques ;
H1 : il existe un décalage de position dans (au moins) une des K distributions
Le modèle sur lequel se fonde l’analyse statistique est le suivant,
Hm : les K distributions Fj (j = 1, · · · , K) sont continues et de même forme.
Soit N = K
P
j=1 nj l’effectif total des K échantillons réunis. On attribue un rang, globalement
de 1 à N , à chacune des N observations (en regroupant les K échantillons), soit Rij le rang
attribué à l’observation Xij (j = 1, · · · , K et i = 1, · · · , nj ). Dans le cas de valeurs égales au
même niveau, on attribue à ces valeurs égales le rang moyen qu’on aurait dû leur attribuer
si elles avaient été différentes (voir test de Wilcoxon, Section 8.1.3). Ensuite, on additionne
pour chaque échantillon j (de 1 à K) les rangs attribués aux nj valeurs, soient Tj ces sommes
86
observées (analogue des sommes T1 et T2 pour le test de Wilcoxon - Mann-Whitney) ; donc,
∀ j = 1, · · · , K, on pose
nj
X
Tj = Rij .
i=1
La statistique H de Kruskal-Wallis est définie par
X Tj2 K
12 (K)
H= − 3(N + 1) ∼ H(nj ) sous H0
N (N + 1) j=1 nj j=1,··· ,K
loi de Kruskal-Wallis pour K échantillons d’effectifs n1 , · · · , nj , · · · , nK .

Il existe des tables statistiques donnant les quantiles de la statistique de Kruskal-Wallis pour
K = 3 et nj ≤ 5, et pour K ≤ 6 échantillons de même taille n ≤ 25 (Table statistique 20).
Pour plus de 6 échantillons (K > 6) ou des échantillons de plus de 25 observations, on pourra
utiliser l’approximation suivante
H ∼ χ2K−1 , de loi approximativement χ2 à K − 1 ddl sous H0 .
Dans le cas de valeurs égales, on peut corriger la valeur de la statistique de décision H

comme suit :
S
H 1 X
ts t2s − 1

Hcorr = où C = 1 − 2
C N (N − 1) s=1
où ts désigne le nombre de valeurs égales au niveau s et S le nombre de niveaux à valeurs égales.
Cette correction a pour effet d’augmenter la valeur observée de la statistique de décision ; on
ne doit donc pas l’appliquer lorsque le résultat est déjà significatif sans la correction.
S’il y a peu de valeurs égales, cette correction de continuité (pour rangs égaux) ne modifie
que très peu la valeur de la statistique de décision H ; on pourra donc la négliger la plupart du
temps.
Des comparaisons multiples (à l’aide de contrastes) peuvent être effectuées comme dans
l’analyse de variance paramétrique (voir Sprent).
La perte de puissance due au remplacement des valeurs observées par des rangs n’est pas très
importante. Par exemple, une analyse de variance de Kruskal-Wallis appliquée à K échantillons
de même effectif n = 100 a la même puissance qu’une analyse de variance classique appliquée
à K échantillons d’effectif n = 95 (dans les conditions d’application de l’analyse de variance
classique, normalité et homogénéité des variances des K populations).
87
A ELEMENTS D’ ALGEBRE LINEAIRE
A.1 Définitions
– Une matrice est un tableau rectangulaire de nombres, paramètres ou variables dont chacun
a été disposé à une place précise. On spécifiera souvent le nombre de lignes et le nombre
de colonnes de ce tableau, on dira d’une matrice comportant m lignes et n colonnes qu’elle
est d’ordre m × n ; soit A une matrice 78 d’ordre m × n d’éléments aij pour i = 1, · · · , m
et j = 1, · · · , n, on écrira A ou Am×n = (aij ) pour
a11 a12 · · · a1j · · · a1n

 
 a21 a22 · · · a2j · · · a2n 
 . .. .. .. 
 .
 . . . . 

A=
 ai1 ai2 · · · aij · · · ain 

 . .. .. .. 
 .. . . . 
am1 am2 · · · amj · · · amn
– Un vecteur-colonne est une matrice constituée d’une seule colonne, c’est-à-dire une matrice
d’ordre m × 1 ; on dira qu’un tel vecteur est de dimension m. Soit x un vecteur-colonne
de dimension m,  
x1
 x2 
 . 
 . 
 . 
x=
 xi 

 . 
 .. 
xm
– Un vecteur-ligne est une matrice constituée d’une seule ligne, c’est-à-dire une matrice
d’ordre 1 × n ; on dira qu’un tel vecteur est de dimension n. Soit x un vecteur-ligne de
dimension n,
x = x1 x2 · · · xj · · · xn
– Le terme vecteur de dimension m désigne un vecteur-colonne, en négligeant de spécifier
qu’il s’agit d’une colonne lorsqu’il n’y a pas d’ambiguı̈té.
– La transposée A0 d’une matrice A d’ordre m × n est la matrice d’ordre n × m où on a
interverti les lignes et les colonnes de la matrice A
0
··· ··· a11 a21 · · · ai1 · · ·
  
a11 a12 a1j a1n am1
 a21 a22 ··· a2j ··· a2n   a12 a22 · · · ai2 · · · am2 
 .. .. .. ..   .. .. .. .. 
. . . . . . . .
   
A0 =   =
   
 ai1 ai2 · · · aij ··· ain a1j a2j · · · aij · · · amj

  
 . .. .. .. .. .. .. ..
 ..
  
. . .   . . . . 
am1 am2 · · · amj · · · amn a1n a2n · · · ain · · · amn
0
Autrement dit, l’élément aij de la ième ligne (i = 1, · · · n) et de la jème colonne (j =
1, · · · , m) de la matrice A0 est l’élément aji de la jème ligne (j = 1, · · · m) et de la ième
colonne (i = 1, · · · , n) de la matrice A.
78. Nous désignerons les matrices par des notations en caractères gras.
88
Par exemple, la transposée d’un vecteur-ligne est un vecteur colonne et vice-versa. On
écrira parfois un vecteur-colonne de dimension m explicitement de cette manière x =
0
x1 x2 · · · xi · · · xm pour alléger le texte.
– Une matrice carrée d’ordre n est une matrice d’ordre n × n, c’est-à-dire une matrice dont
le nombre de lignes et le nombre de colonnes sont égaux. On écrira parfois An .
– La trace, trA, d’une matrice carrée d’ordre n × n, A = (aij ), est un Pnnombre, égal à la
somme des éléments diagonaux de cette matrice
 c’est-à-dire trA = i=1 aii .
7 3 −4
La trace de la matrice A =  2 1 −1  est donc trA = 7 + 1 + 0 = 8.
0 3 0
– Une matrice symétrique A est une matrice carrée égale à sa transposée ; autrement dit, une
matrice A d’ordre n est symétrique si et seulement si A0 = A, c’est-à-dire ∀i, j = 1, · · · , n,
aij = aji .
– Une matrice diagonale d’ordre n est une matrice carrée dont tous les éléments sont nuls
à l’exception de ceux de la diagonale, soit D = (dii ), une matrice diagonale,
d11 0 · · · 0 · · · 0
 
 0 d22 · · · 0 · · · 0 
 .. .. .. 

. . .

D=
 
0 0 · · · dii · · · 0

 
 .. .. .. .. 
 . . . . 
0 0 · · · 0 · · · dnn
Une matrice diagonale est donc symétrique.
A.2 Opérations sur les matrices

Les principales opérations sur les matrices sont l’addition et la soustraction, la multiplication
par un nombre et la multiplication de matrices.
A.2.1 Addition et soustraction

L’addition de deux matrices de même ordre m × n donne une matrice du même ordre et
s’effectue terme à terme, l’élément de la ième ligne et de la jème colonne étant la somme
des éléments correspondant des deux matrices additionnées. Soient A = (aij ) et B = (bij ), la
matrice C = A + B = (cij ) est définie par les relations cij = aij + bij pour tout i = 1, · · · , m et
j = 1, · · · , n.
La soustraction se définit de la même manière entre matrices du même ordre m × n, C =
A − B = (cij ) avec cij = aij − bij pour tout i = 1, · · · , m et j = 1, · · · , n.
La matrice d’ordre m × n entièrement composée de zéros, notée O ou Om×n , est l’élément
neutre de l’addition ; autrement dit, A + O = O + A = A pour toute matrice A d’ordre m × n.
Notons que l’addition et la soustraction de deux vecteurs de même dimension se définit de
la même manière que l’addition et la soustraction de deux matrices du même ordre.
A.2.2 Multiplication d’une matrice par un nombre

La multiplication d’une matrice d’ordre m × n par un nombre k, donne une matrice dont
chacun des éléments a été multiplié par ce nombre, k · A = (kaij ).
89
A.2.3 Multiplication d’un vecteur-ligne par un vecteur-colonne

La multiplication d’un vecteur-ligne de dimension n, a = a1 a2 · · · ai · · · an , par
0
un vecteur-colonne de dimension n, b = b1 b2 · · · bi · · · bn , donne un nombre égal à
la somme des produits des éléments correspondant
 
b1
 b2 
 . 
n
 .. 
 X
a · b = a1 a2 · · · ai · · · an ·   = a1 b 1 + a2 b 2 + · · · + an b n = ai b i
 bi 
 .  i=1
 .. 
bn
Soulignons qu’il n’est possible d’effectuer le produit d’un vecteur-ligne et d’un vecteur-
colonne que si ces deux vecteurs ont même dimension. Autrement dit, on effectue le produit
d’un tableau d’ordre 1 × n par un tableau d’ordre n × 1, le nombre de colonnes du premier
tableau étant égal au nombre de lignes du second tableau. Ce point sera important pour définir
le produit de matrices ci-dessous.
A.2.4 Multiplication de matrices

Le produit d’une matrice Am×p d’ordre m × p et d’une matrice Bp×n d’ordre p × n est la
matrice Cm×n d’ordre m × n dont l’élément cij est le produit de la ième ligne de la matrice
A par la jème colonne de la matrice B (i = 1, · · · , m et j = 1, · · · , n). Plus précisément, si
A = (aik ) et B = (bkj ) , la matrice
i = 1, · · · , m k = 1, · · · , p
k = 1, · · · , p j = 1, · · · , n
C=A·B
est la matrice (cij ) dont les éléments sont définis par
p
X
cij = ai1 b1j + ai2 b2j + · · · + aip bpj = aik bkj
k=1
Remarquons que le nombre de colonnes de la première matrice doit absolument correspondre

au nombre de lignes de la seconde matrice (p dans notre exemple),
Am×p · Bp×n = Cm×n
ce nombre “disparaissant” lors de la multiplication. En effet, l’expression ci-dessous devrait
permettre de mieux visualiser le produit de deux matrices ; l’élément cij de ce produit est le
résultat du produit de la iéme ligne de la première matrice par la jème colonne de la seconde,
tous ces éléments étant notés en caractères gras
··· ··· b11 b12 · · · b1j · · ·

   
a11 a12 a1k a1p b1n
 a21 a22 ··· a2k ··· a2p   b21 b22 · · · b2j · · · b2n 
 .. .. .. ..   .. .. .. .. 
. . . . . . . .
   
A·B =  ·
   
 ai1 ai2 · · · aik ··· aip bk1 bk2 · · · bkj · · · bkn 

 
 . .. .. .. .. .. .. .. 
 ..
 
. . .   . . . . 
am1 am2 · · · amk · · · amp bp1 bp2 · · · bpj · · · bpn
90
··· ···
 
c11 c12 c1j c1n
 c21 c22 ··· c2j ··· c2n 
 .. .. .. .. 
. . . .
 
= 
 
 ci1 ci2 · · · cij ··· cin


 . .. .. ..
 ..

. . . 
cm1 cm2 · · · cmj · · · cmn
Par définition, la multiplication de deux matrices ne peut donc pas être commutative ; en
général
A · B 6= B · A
Un cas particulier très important est le cas du produit de matrices carrées de même ordre
n. Cette opération est interne, ce qui signifie que le produit de deux matrices carrées d’ordre n
fournit une matrice carrée d’ordre n. Le neutre de cette opération est la matrice unité d’ordre
n, notée In ,
1 0 0 ··· ··· 0 ··· 0
 
 0 1 0 ··· ··· 0 ··· 0 
 
 0 0 1
 . . 0 · · · 0 · · · 0 
 . . .. . . .. . .
. . .. . 
.. 
 . .
In = 

 0 0 ··· 0 1 0 ··· 0 

 . . . . . . . . .. 
 .. .. . . . . 
 
 0 0 ··· ··· 0 1 0 
0 0 ··· ··· 0 0 1
vérifiant pour toute matrice A carrée d’ordre n,
A · In = In · A = A
Autrement dit, multiplier une matrice à gauche ou à droite par la matrice identité In laisse la
matrice inchangée (comme multiplier un nombre par le nombre 1 n’a aucun effet).
A.3 Expression matricielle d’un système d’équations linéaires

Soit un système de m équations linéaires à n inconnues, x1 , x2 , · · · , xn , de coefficients aij
(i = 1, · · · , m et j = 1, · · · , n) où aij est le coefficient de la variable xj (j = 1, · · · , n) dans
la ième équation, et de termes indépendants bi (i = 1, · · · , m). Explicitement, ce système a la
forme suivante
a11 x1 + a12 x2 + · · · + a1j xj + · · · a1n xn = b1






 a21 x2 + a22 x2 + · · · + a2j xj + · · · a2n xn = b2

 ..
.

 ai1 x2 + ai2 x2 + · · · + aij xj + · · · ain xn = bi
..





 .
am1 x2 + am2 x2 + · · · + amj xj + · · · amn xn = bm

Si on définit la matrice d’ordre m×n, A = (aij ), le vecteur de dimension n, x = x1 x2 · · · xj · ·

0
et le vecteur de dimension m, b = b1 b2 · · · bi · · · bn , le système d’équations linéaires
s’écrit simplement
A·x=b
91
c’est-à-dire
··· ···
     
a11 a12 a1j a1n x1 b1
 a21 a22 ··· a2j ··· a2n   x2   b2 
 .. .. .. ..   ..   .. 
. . . . . .
     
· =
     
 ai1 ai2 · · · aij ··· ain xj bi
 
    
 . .. .. .. .. ..
 ..
    
. . .   .   . 
am1 am2 · · · amj · · · amn xn bm
Cette écriture nous suggère que s’il était possible d’inverser la matrice A, la solution de ce
système d’équations linéaires s’écrirait simplement
x = A−1 · b
où A−1 serait la matrice inverse de A, vérifiant la relation A−1 ·A = In . En effet, en multipliant
les deux membres de l’équation matricielle par la matrice A−1 à gauche, on obtiendrait
A−1 · A · x = In · x = x = A−1 · b
puisque In · x = x par définition de la matrice unité.

Cette procédure n’est possible que si la matrice A est une matrice carrée, c’est-à-dire si le
nombre d’équations est égal au nombre d’inconnues dans le système. De plus, toute matrice
carrée n’est pas inversible. Nous allons étudier le caractère inversible ou non inversible des
matrices carrées ainsi que la méthode de calcul de cet inverse dans le paragraphe suivant.
A.4 Inverse et déterminant d’une matrice carrée

– L’inverse d’une matrice A carrée d’ordre n × n est la matrice (unique) carrée d’ordre
n × n, notée A−1 , vérifiant
A−1 · A = A · A−1 = In
où In est la matrice unité d’ordre n.
– Une matrice carrée d’ordre n × n possédant une matrice inverse est appelée matrice
régulière ou inversible.
– Une matrice carrée d’ordre n × n ne possédant pas de matrice inverse est appelée matrice
singulière ou non inversible.
La signification de la singularité d’une matrice est donnée par la propriété suivante.
Propriété. Une matrice carrée est singulière si et seulement si une ligne (ou une colonne)
est combinaison linéaire des autres lignes (ou colonnes).
La singularité d’une matrice carrée traduit donc une redondance au niveau des lignes ou
des colonnes. Par exemple, considérons la matrice carrée d’ordre 3 × 3,
 
1 2 3
A= 2 0 4 
0 −4 −2

La 3ème ligne de cette matrice, l3 = 0 −4 −2 est égale à la 2ème ligne, l2 = 2 0 4
moins deux fois la première ligne, l1 = 1 2 3 ; en effet,
l3 = l2 − 2 · l1
92
cette relation devant être vérifiée élément par élément, 0 = 2−2·1, −4 = 0−2·2 et −2 = 4−2·3.
Cette matrice est donc singulière (ou non inversible).
Un critère simple et automatique pour déterminer si une matrice carrée d’ordre n est
régulière ou singulière est de calculer son déterminant. La méthode de calcul du déterminant
d’une matrice carrée est donnée par récurrence sur n le nombre de lignes et de colonnes de la
matrice.
– Le déterminant d’une matrice carrée A, noté |A|, est un nombre ; ce nombre est égal à 0
si et seulement si la matrice A est singulière.
– Le déterminant d’une matrice carrée d’ordre 2× 2 se calcule de la manière suivante : le
a11 a12
déterminant de la matrice A2×2 = , est
a21 a22

a11 a12
|A| = = a11 a22 − a21 a12
a21 a22
On vérifie aisément que si les deux lignes (ou les deux colonnes) de la matrice sont propor-
tionnelles, son déterminant sera nul. En effet, supposons par exemple que la deuxième ligne
a11 a12
soit égale à 3 fois la première, c’est-à-dire A2×2 = , donc le déterminant
3a11 3a12
sera

a11 a12
|A| = = a11 · (3a12 ) − (3a11 ) · a12 = 3a11 a12 − 3a11 a12 = 0
3a11 3a12
– Le déterminant d’une matrice carrée d’ordre 3 × 3 s’exprime en fonction de celui de trois
matrices d’ordre 2 × 2. On choisit arbitrairement une ligne (ou une colonne) de la matrice
et on parcourt cette ligne (ou cette colonne) en considérant chacun deses élements. Pour 
a11 a12 a13
fixer les idées, considérons la deuxième ligne de la matrice A3×3 =  a21 a22 a23 ,
a31 a32 a33
c’est-à-dire la ligne l2 = a21 a22 a23 ; à chacun de ces trois élements, on associe le
déterminant de la matrice 2 × 2 obtenue si on supprime la ligne et la colonne de l’élément
considéré dans la matrice de départ.
Par exemple,
au premier élément de la deuxième ligne
a12 a13
a21 , on associe le déterminant ; ce déterminant est appelé le mineur associé
a32 a33
à l’élément a21 et noté M21 . En général, on parlera du mineur Mij associé à l’élément aij .
Ensuite, on multiplie ce mineur par ±1 suivant la position de l’élément considéré dans la
matrice de départ ; plus précisément, on définit le cofacteur associé à l’élément aij de la
matrice A comme étant le mineur de cet élément multiplié par (−1)(i+j) (c’est-à-dire par
+1 si i + j est pair et par −1 si i + j est impair) ; le cofacteur de l’élément aij , noté Cij ,
est donc défini par
Cij = (−1)(i+j) · Mij
Enfin, le déterminant de la matrice carrée d’ordre 3×3 est donné par la formule suivante :
soit i une ligne fixée de la matrice A (i = 1, 2, 3),
3
X 3
X
|A| = ai1 Ci1 + ai2 Ci2 + ai3 Ci3 = aij Cij = aij (−1)(i+j) · Mij
j=1 j=1
ou encore si j est une colonne fixée de la matrice A (j = 1, 2, 3),

3
X 3
X
|A| = a1j C1j + a2j C2j + a3j C3j = aij Cij = aij (−1)(i+j) · Mij
i=1 i=1
93
Cette formule de calcul s’appelle l’expansion de Laplace.
– De la même manière, le déterminant d’une matrice carrée d’ordre n × n (pour n ≥ 3)
s’exprime en fonction de celui de n matrices d’ordre (n − 1) × (n − 1), par l’expansion de
Laplace. La formule de calcul est simplement, quelle que soit la ligne i fixée (i = 1, · · · , n)
ou la colonne j fixée (j = 1, · · · , n)
n
X
|A| = ai1 Ci1 + ai2 Ci2 + · · · + ain Cin = aij Cij
j=1
Xn
= a1j C1j + a2j C2j + · · · + anj Cnj = aij Cij
i=1
où Cij est le cofacteur associé à l’élément aij
Cij = (−1)(i+j) · Mij
et Mij est le mineur associé à cet élément aij , c’est-à-dire le déterminant de la matrice
carrée d’ordre (n − 1) × (n − 1) obtenue à partir de la matrice carrée A d’ordre n × n
après avoir supprimé la ligne i et la colonne j.
Par l’expansion de Laplace, il est toujours avantageux de choisir pour le calcul du déterminant,
une ligne ou une colonne de la matrice  comportantun ou plusieurs zéros ; calculons, par exemple,
7 3 −4
le déterminant de la matrice A =  2 1 −1  ; si on utilise la première ligne pour mettre
0 3 0
en oeuvre l’expansion de Laplace, on calcule

1 −1
(1+1) (1+2)
2 −1 (1+3)
2 1
|A| = 7 × (−1) 3 0
+ 3 × (−1)

0 0
+ (−4) × (−1)

0 3

= 7 × (−1)2 ((1 · 0) − (−1 · 3)) + 3 × (−1)3 ((2 · 0) − (−1 · 0))

+(−4) × (−1)4 ((2 · 3) − (0 · 1))
= 7 × 3 − 3 × 0 − 4 × 6 = 21 − 24 = −3
d’autre part, si on utilise la 3ème ligne,

7 −4
(3+2)
|A| = 0 × C31 + 3 × (−1) 2 −1 + 0 × C33

= 0 + 3 × (−1)5 ((7 · −1) − (2 · −4)) + 0 = 3 × (−1) · (−7 + 8) = 3 × (−1) = −3
Passons à présent au calcul de l’inverse d’une matrice carrée régulière. Soit A une matrice
carrée d’ordre n × n dont le déterminant |A| est différent de 0.
– On appelle matrice adjointe de la matrice A, notée AdjA, la matrice carrée d’ordre n × n
transposée de la matrice formée des cofacteurs Cij des éléments de la matrice A, c’est-à-
dire 0
AdjA = (Cij ) = (Cji )
– L’inverse de la matrice régulière A, notée A−1 , est égale à la matrice adjointe de A divisée
par le déterminant de cette matrice,
1
A−1 = · AdjA
|A|
94
 
7 3 −4
Reprenons l’exemple de la matrice A =  2 1 −1  ; cette matrice est régulière puisque
0 3 0
son déterminant, |A |est
= −3 (voir
ci-dessus). Calculons les cofacteurs Cij :
1 −1
– C11 = (−1)1+1 · = (−1)2 · (1 · 0 − (−1 · 3)) = 1 · (0 + 3) = 3,

3 0

2 −1
– C12 = (−1)1+2 · = (−1)3 · (2 · 0 − (−1 · 0)) = −1 · (0 + 0) = 0,
0 0

2 1
– C13 = (−1)1+3 · = (−1)4 · (2 · 3 − (1 · 0)) = 1 · (6 + 0) = 6,
0 3

2+1
3 −4
– C21 = (−1) · = (−1)3 · (3 · 0 − (−4 · 3)) = −1 · (0 + 12) = −12,
3 0

7 −4
– C22 = (−1)2+2 · = (−1)4 · (7 · 0 − (−4 · 0)) = 1 · (0 + 0) = 0,
0 0

7 3
– C23 = (−1)2+3 · = (−1)5 · (7 · 3 − (0 · 3)) = −1 · (21 + 0) = −21,
0 3

3+1
3 −4
– C31 = (−1) · = (−1)4 · (3 · −1 − (−4 · 1)) = 1 · (−3 + 4) = 1,
1 −1

7 −4
– C32 = (−1)3+2 · = (−1)5 · (7 · −1 − (−4 · 2)) = −1 · (−7 + 8) = −1 et
2 −1

7 3
– C33 = (−1)3+3 · = (−1)6 · (7 · 1 − (2 · 3)) = 1 · (7 − 6) = 1
2 1
Donc la matrice des cofacteurs (Cij ) est
 
3 0 6
(Cij ) =  −12 0 −21 
1 −1 1
et la transposée de cette matrice, la matrice AdjA

 0  
0
3 0 6 3 −12 1
AdjA = (Cij ) =  −12 0 −21  =  0 0 −1 
1 −1 1 6 −21 1
L’inverse de la matrice A est donc

   
3 −12 1 −1 4 −1/3
1 
A−1 = · 0 0 −1  =  0 0 1/3 
−3
6 −21 1 −2 7 −1/3
Nous pouvons vérifier notre calcul par les relations

         
−1 4 −1/3 7 3 −4 7 3 −4 −1 4 −1/3 1 0 0
 0 0 1/3  ·  2 1 −1  =  2 1 −1  ·  0 0 1/3  =  0 1 0 
−2 7 −1/3 0 3 0 0 3 0 −2 7 −1/3 0 0 1
95
B ASYMETRIE ET APLATISSEMENT
Dans certaines applications, il est important de s’intéresser à la forme de la distribution
dont est issu l’échantillon, plus particulièrement l’asymétrie et l’aplatissement de la densité de
probabilité. Nous allons définir les paramètres d’asymétrie et d’aplatissement de Pearson et
de Fisher de la loi d’une variable aléatoire X et leurs estimateurs à partir d’un échantillon
aléatoire.
B.1 Définitions
Soit X une variable aléatoire, on définit les moments centrés d’ordre k ≥ 1 par
µk = E[(X − EX)k ].
2
On a évidemment toujours µ1 = 0 et µ2 = σX . De plus, si la distribution de la variable aléatoire
X est symétrique, on a toujours des moments centrés d’ordre impair µ2k+1 = 0.
Les moments centrés µ3 et µ4 sont utilisés pour caractériser la forme de la distribution. Pour
obtenir des quantités sans dimension, on divise par l’écart-type à la puissance correspondante,
ce qui donne le paramètre d’asymétrie γ1 défini par
µ3
γ1 = 3
σ
et le paramètre d’aplatissement (ou voussure) γ2 défini par
µ4
γ2 = 4
σ
On montre que la relation suivante est toujours vérifiée
γ2 ≥ 1 + (γ1 )2 donc γ2 ≥ 1
Pour une loi normale, X ∼ N (µ, σ 2 ), on obtient
γ1 = 0 et γ2 = 3.
B.2 Interprétation de ces “paramètres”

L’interprétation de ces paramètres se fait de la manière suivante :
– γ1 = 0 signifie “ distribution symétrique”,

– γ1 > 0 “asymétrie positive”, distribution concentrée à gauche et étalée vers la droite et
– γ1 < 0 “asymétrie négative”, distribution concentrée à droite et étalée vers la gauche.
Si la distribution n’est pas trop asymétrique (γ1 “proche” de 0), on peut s’intéresser à l’apla-
tissement (kurtosis ou voussure) c’est-à-dire à la concentration au centre, dans les extrémités
inférieure et supérieure (les “queues”) et au niveau des “épaules” (entre les extrémités et le
centre) en comparaison avec une loi normale,
– γ2 “proche” de 3, la distribution est mésokurtique (comme la loi normale),

– γ2 > 3, la distribution est leptokurtique (ou pointue, c’est-à-dire plus de densité au centre
et dans les queues mais moins sur les épaules),
– γ2 < 3, la distribution est platykurtique (ou plate c’est-à-dire plus de densité sur les
épaules, moins au centre et dans les queues) ; par exemple, la distribution uniforme donne
γ2 = 1.8 et une courbe en U donnera γ2 < 1.8.
96
B.3 Les estimateurs
Soit (Xi )i=1,··· ,n un échantillon aléatoire i.i.d., n réalisations indépendantes de la v.a. X.
Les estimateurs (sans biais) des paramètres γ1 et γ2 sont donnés par les statistiques G1 et G2
suivantes :
Coefficient d’asymétrie :
n 3
n X Xi − X
G1 =
(n − 1)(n − 2) i=1 S
Coefficient d’aplatissement 79 :
n 4
3(n − 1)2

n(n + 1) X Xi − X
G2 = − +3
(n − 1)(n − 2)(n − 3) i=1 S (n − 2)(n − 3)
B.4 En pratique...
Le calcul des estimations g1 et g2 des paramètres γ1 et γ2 nous fournit donc une indication
sur la forme de la distribution dont est issu un échantillon de données (xi )i=1,··· ,n . Ce calcul
devra dans tous les cas, être accompagné d’un examen à vue des données, par une représentation
graphique telle qu’un diagramme en bâtonnets, un histogramme ou encore un Boxplot ou un
Q-Q plot.
Dans certaines applications, les critères indicatifs suivants pourront être utilisés (descriptifs) :
– Une distribution peut être considérée comme symétrique si l’indice d’asymétrie ne s’éloigne
pas de la norme “0” de plus de 1. Si de plus, son indice d’aplatissement ne s’éloigne
pas de la norme “3” de plus de 1/2, elle pourra être considérée comme symétrique et
mésokurtique.
– Deux distributions peuvent être considérées comme étant de ”même forme” si les deux
indices d’asymétrie ne s’éloignent pas de plus de 1/2 et les deux indices d’aplatissement
ne s’éloignent pas de plus de 1.
Plusieurs tests de normalité basés sur les paramètres γ1 et γ2 existent dans la littérature ;
les hypothèses testées s’écrivent

H0 : γ1 = 0 et γ2 = 3 (normalité de la loi de X) ;
Citons ici la statistique de Jarque-Bera (et sa loi sous H0 )

2
G1 (G2 − 3)2

JB = n · + ∼ χ2(2) , loi χ2 à ν = 2 d.d.l. sous H0
6 24
Une autre statistique de décision est simplement le couple (G1 , G2 ) dont il s’agit de calculer
l’estimation (g1 , g2 ) puis de la situer dans une table en forme d’abaque (Table statistique 25,
voir Dagnelie Tome 2).
0
79. Attention, la plupart des logiciels (Excel, Statistica etc.) donnent la valeur (notée ici G2 ) de G2 diminuée
0
de 3 de manière à ce que la norme pour une loi normale soit égale à 0 ; donc G2 = G2 − 3.
97
Table des matières
1 INTRODUCTION 2
1.1 Statistique descriptive, probabilité et inférence statistique . . . . . . . . 2
1.2 L’estimation ponctuelle et par intervalle de confiance . . . . . . . . . . . 3
1.3 La décision statistique, les tests d’hypothèses . . . . . . . . . . . . . . . . 3
1.4 Objectif du cours . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.5 Références . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2 CADRE ET NOTATIONS GENERALES 10

2.1 Les paramètres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2 Les statistiques ou estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.3 Les lois de probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.3.1 La loi binomiale X ∼ Bi(n, φ) . . . . . . . . . . . . . . . . . . . . . . 13
2.3.2 La loi multinomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.3.3 La loi normale de moyenne µ et de variance σ 2 , X ∼ N (µ, σ 2 ) . 15
2.3.4 La loi χ2ν à ν degrés de liberté . . . . . . . . . . . . . . . . . . . . 16
2.3.5 La loi tν de Student à ν degrés de liberté . . . . . . . . . . . . 16
2.3.6 La loi Fν1 ,ν2 de Fisher-Snédécor (ou de Fisher) à (ν1 , ν2 ) degrés
de liberté . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.3.7 La loi normale multivariée Np (µ, Σ) . . . . . . . . . . . . . . . . . 17
3 INFERENCE SUR LES FREQUENCES 18

3.1 Inférence sur une fréquence φ . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.2 Tests d’ajustement à un modèle théorique . . . . . . . . . . . P . . . . . . . 19
3.2.1 Inférence sur plusieurs fréquences φ1 , φ2 , · · · et φk (avec kj=1 φj =
1) : le test χ2 pour une variable catégorisée. . . . . . . . . . . . . . 19
3.2.2 Le test χ2 pour une variable numérique discrète . . . . . . . . . . 20
3.2.3 Le test de Kolmogorov (variable numérique continue) . . . . . . 20
3.2.4 Le test de Lilliefors (ajustement à une loi normale) . . . . . . . . 21
3.2.5 Le test de Shapiro-Wilk (ajustement à une loi normale) . . . . . 22
3.3 Test d’indépendance entre 2 variables catégorisées . . . . . . . . . . . . . 24
3.3.1 Lorsque l > 2 ou c > 2, . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.3.2 Lorsque l = 2 et c = 2 (tableau 2 × 2), . . . . . . . . . . . . . . . . . 24
0
3.4 Inférence sur deux fréquences φ et φ pour deux échantillons en me-
sures répétées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.5 Inférence sur deux fréquences φ1 et φ2 pour 2 échantillons indépen-
dants d’effectifs n1 et n2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.6 Test d’homogénéité de 2 échantillons indépendants suivant une va-
riable catégorisée à plus de deux modalités . . . . . . . . . . . . . . . . . 27
3.7 Test de Kolmogorov-Smirnov pour l’identité de deux distributions . . 28
3.8 Homogénéité de c > 2 échantillons indépendants . . . . . . . . . . . . . . 29
3.8.1 suivant une variable catégorisée à plus de deux modalités . . . . 29
3.8.2 suivant une variable dichotomique (prenant 2 modalités) . . . . . 29
4 INFERENCE SUR LES VARIANCES 30

4.1 Inférence sur une variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.2 Inférence sur deux variances (échantillons indépendants) . . . . . . . . . . . 30
98
4.2.1 Test “classique” F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.2.2 Test de Levene . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.2.3 Test de O’Brien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.3 Test de Pitman-Morgan (échantillons appariés) . . . . . . . . . . . . . . . 31
4.4 Inférence sur plusieurs variances (échantillons indépendants) . . . . . . . . 32
4.4.1 Test de Bartlett . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.4.2 Test de Hartley (ou Fmax ) . . . . . . . . . . . . . . . . . . . . . . . . 32
4.4.3 Test de Levene . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.5 Sphéricité d’une matrice de variance-covariance . . . . . . . . . . . . . . 33
4.6 Homogénéité de plusieurs matrices de variance-covariance . . . . . . . . 35
5 INFERENCE SUR LES MOYENNES 38

5.1 Inférence sur une moyenne µ . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.1.1 Si la population parente est normale de variance σ 2 connue (cas théorique), 38
5.1.2 Si la variance σ 2 est inconnue et l’effectif de l’échantillon est petit (n <
60), on suppose Hm : Xi i.i.d. ∼ N (µ, σ 2 ), i = 1, · · · , n. . . . . . . . . . 38
5.1.3 Si l’effectif de l’échantillon est grand (n ≥ 60), . . . . . . . . . . . . . . . 38
5.1.4 Si la population parente n’est pas normale et l’effectif n de l’échantillon
est petit (< 60), . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
5.2 Inférence sur deux moyennes µ1 et µ2 , échantillons indépendants . . . . 39
5.2.1 Si les populations parentes sont normales de variances σ12 et σ22
connues (cas théorique), . . . . . . . . . . . . . . . . . . . . . . . . . 39
5.2.2 Si les deux populations sont normales de variances σ12 et σ22 in-
connues mais supposées homogènes (σ12 = σ22 ) c’est-à-dire
Hm : Xij i.i.d. ∼ N (µj , σ 2 ), pour j = 1, 2, i = 1, · · · , nj . . . . . . . . 39
5.2.3 Si les effectifs des deux échantillons n1 et n2 sont grands (≥ 60), 40
5.2.4 Si au moins un des effectifs n1 et n2 est faible (n1 ou n2 < 60)
et si les populations parentes ne sont pas normales ousi les po-
pulations parentes sont normales mais les variances σ12 et σ22
inconnues sont différentes, . . . . . . . . . . . . . . . . . . . . . . . . 41
0
5.3 Inférence sur deux moyennes µ et µ , mesures répétées . . . . . . . . . . 41
5.4 Inférence sur plusieurs moyennes . . . . . . . . . . . . . . . . . . . . . . . 41
6 ANALYSE DE VARIANCE (ANOVA) 42

6.1 Un facteur (G), K échantillons indépendants, plan S < GK > (structure
d’emboı̂tement) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
6.2 Un facteur (A), mesures répétées, plan Sn ∗ Tp (structure de croisement) 45
6.3 Deux facteurs (F et G), échantillons indépendants : plan
S < Fl × Gc > . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
6.3.1 Une seule donnée par case : Fl × Gc (modèle additif ) . . . . . . . 49
6.3.2 Plusieurs données par case : S < Fl × Gc > (non-additif ) . . . . . 50
6.4 Deux facteurs (A et B), mesures complètement répétées : plan Sn ∗ Tl ∗ T̃c 53
6.5 Deux facteurs, plan Sn < GK > ∗Tp . . . . . . . . . . . . . . . . . . . . . . . 60
7 LA METHODE DES CONTRASTES 68

7.1 Les contrastes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
7.1.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
7.1.2 Inférence sur un contraste . . . . . . . . . . . . . . . . . . . . . . 68
99
7.1.3 L’orthogonalité des contrastes . . . . . . . . . . . . . . . . . . . 69
7.1.4 Inférence sur une famille de contrastes . . . . . . . . . . . . . 70
7.2 Comparaisons a priori orthogonales deux à deux . . . . . . . . . . . . . . 71
7.3 Comparaisons a priori non orthogonales deux à deux . . . . . . . . . . . 71
7.3.1 Les tests de Sidàk et de Boole-Bonferroni-Dunn . . . . . . . . 71
7.3.2 Le test de Dunnett . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
7.4 Comparaisons a posteriori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
7.4.1 La méthode de Scheffé : tous les contrastes . . . . . . . . . . 73
7.4.2 Comparaisons par paires . . . . . . . . . . . . . . . . . . . . . . . . . 73
7.5 Les autres plans de l’analyse de la variance . . . . . . . . . . . . . . . . . 74
8 METHODES NON PARAMETRIQUES 75

8.1 Tests relatifs à p = 2 échantillons appariés . . . . . . . . . . . . . . . . . . 75
8.1.1 Le test du signe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
8.1.2 Le test exact de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . 77
8.1.3 Le test de Wilcoxon . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
8.2 Tests relatifs à K = 2 échantillons indépendants . . . . . . . . . . . . . . 80
8.2.1 Le test de la médiane . . . . . . . . . . . . . . . . . . . . . . . . . . 81
8.2.2 Le test exact de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . 81
8.2.3 Le test de Wilcoxon - Mann-Whitney . . . . . . . . . . . . . . . 82
8.2.4 Le test de Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . 85
8.3 Tests relatifs à plus de 2 échantillons . . . . . . . . . . . . . . . . . . . . . 85
8.3.1 p > 2 échantillons appariés : l’analyse de variance de Friedman 85
8.3.2 K > 2 échantillons indépendants : l’analyse de variance de
Kruskal-Wallis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
A ELEMENTS D’ ALGEBRE LINEAIRE 88

A.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
A.2 Opérations sur les matrices . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
A.2.1 Addition et soustraction . . . . . . . . . . . . . . . . . . . . . . . . 89
A.2.2 Multiplication d’une matrice par un nombre . . . . . . . . . . . 89
A.2.3 Multiplication d’un vecteur-ligne par un vecteur-colonne . 90
A.2.4 Multiplication de matrices . . . . . . . . . . . . . . . . . . . . . . . 90
A.3 Expression matricielle d’un système d’équations linéaires . . . . . . . . 91
A.4 Inverse et déterminant d’une matrice carrée . . . . . . . . . . . . . . . . . 92
B ASYMETRIE ET APLATISSEMENT 96
B.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
B.2 Interprétation de ces “paramètres” . . . . . . . . . . . . . . . . . . . . . . 96
B.3 Les estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
B.4 En pratique... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
100

InfStat L2 L3 M1.15 16 PDF

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

InfStat L2 L3 M1.15 16 PDF

Transféré par

Droits d'auteur :

Formats disponibles

Inférence statistique

2ème et 3ème années de Licence

Ce recueil, autorisé à l’examen, ne peut, en aucun cas, être annoté.

1.1 Statistique descriptive, probabilité et inférence statistique

1.3 La décision statistique, les tests d’hypothèses

α = P (rejeter H0 alors que H0 est vraie) = P (rejeter H0 | H0 est vraie) = P (RH0 | H0 )

β = P (ne pas rejeter H0 alors que H0 est fausse) = P (N RH0 | H1 )

Nous pouvons résumer la situation par le tableau suivant

De façon générale, on voudrait utiliser un test qui minimise à la fois α et β. Malheureuse-

R.C.α=0.05 (Z) = {z | z > 1.645} =]1.645 ; +∞[.

π(α, µ) = P (Z ∈ R.C.α (Z) | µ est la vraie moyenne).

1.4 Objectif du cours

µ ou µX : espérance mathématique ou moyenne théorique de la v.a. X,

2.2 Les statistiques ou estimateurs

f : la fréquence de l’événement aléatoire A, est le nombre d’occurences de

X ou X (n) : moyenne arithmétique des n v.a. X1 , X2 , ..., Xn , estimateur sans biais

SC ou SCX : la Somme des Carrés des n v.a. Xi , i = 1, · · · , n,

SCE ou SCEX : la Somme des Carrés d’Ecarts à la moyenne des n v.a. Xi , i = 1, · · · , n,

Soit un second échantillon aléatoire i. i. d. d’effectif n, Y1 , Y2 , ..., Yn , on définit comme

SP EXY : la Somme des Produits d’Ecarts aux moyennes des n v.a. Xi et Yi , i = 1, · · · , n,

SXY : covariance entre les v. a. X et Y , estimateur sans biais de leur covariance

R ou RXY : coefficient de corrélation linéaire entre les v.a. X et Y ,

Soit un échantillon de n vecteurs aléatoires de dimension p extrait d’une population, X1 ,

S : la matrice de variance-covariance empirique des vecteurs aléatoires Xi ,

S12 S12 · · · S1j · · · S1k

2.3 Les lois de probabilité

pour x = 0, 1, · · · , n (voir Tables statistiques 1.1 à 1.5).

2.3.2 La loi multinomiale

La variable aléatoire χ2ν

P (U ≤ χ2ν,q ) = q, ∀q ∈ (0, 1),

sont tabulés pour ν ≤ 100 (voir Table statistique 4).

2.3.5 La loi tν de Student à ν degrés de liberté

P (T ≤ tν,q ) = q, ∀q ∈ (0, 1),

3.1 Inférence sur une fréquence φ

Si nf > 20 et n(1 − f ) > 20, l’intervalle de confiance pour φ au niveau de confiance 1 − α,

Pour le calcul, on pourra utiliser la formule équivalente suivante :

Sous H0 , la loi de cette statistique est également approximativement χ2k−1 ,

Nombre de Nombre maximal d’effectifs

Ce test d’ajustement s’effectue en constituant un certain nombre k de classes de valeurs

3.2.3 Le test de Kolmogorov (variable numérique continue)

K = maxx∈IR | F̂ (x) − F0 (x) | ∼ Kn de Kolmogorov pour un échantillon d’effectif n.

En pratique, la valeur observée de cette statistique de décision s’obtient comme suit : on

kobs = maxi=1,··· ,n {| F̂ (xi ) − F0 (xi ) |, | F̂ (xi−1 ) − F0 (xi ) |}.

3.2.4 Le test de Lilliefors (ajustement à une loi normale)

L = maxz∈ IR | F̂ (z) − Φ(z) | ∼ Ln de Lilliefors pour un échantillon d’effectif n.

En pratique, la valeur observée de cette statistique de décision s’obtient comme suit : on

lobs = maxi=1,··· ,n {| F̂ (zi ) − Φ(zi ) |, | F̂ (zi−1 ) − Φ(zi ) |}.

3.2.5 Le test de Shapiro-Wilk (ajustement à une loi normale)

a Considérons deux variables aléatoires, Z ∼ N (0, 1), normale centrée réduite, et X ∼

{(xp , zp ) | 0 < p < 1}

b Considérons un échantillon aléatoire i.i.d. Xi , i = 1, · · · , n, ∼ N (µ, σ 2 ). Si nous rangeons

3.2.5.2 Procédure statistique.

Loi sous H0 : W ∼ Wn de Shapiro-Wilk pour un échantillon d’effectif n.

RCα (Wn ) = {w | w ≤ wn;α }

3.3 Test d’indépendance entre 2 variables catégorisées

3.3.1 Lorsque l > 2 ou c > 2,

3.3.2 Lorsque l = 2 et c = 2 (tableau 2 × 2),

3.5 Inférence sur deux fréquences φ1 et φ2 pour 2 échantillons indé-

La statistique de décision 22 pour le test est

équivalente au résultat donné par l’IC1−α (φ1 − φ2 ) et

qui intègre la correction de continuité de Yates.

3.6 Test d’homogénéité de 2 échantillons indépendants suivant une

Soient N = n1 + n2 l’effectif total des 2 échantillons, njk l’effectif de la modalité Aj dans