Académique Documents
Professionnel Documents
Culture Documents
Françoise Lefèvre
U.F.R de Psychologie
1
1 INTRODUCTION
L’étudiant en psychologie que vous êtes, s’intéresse aux comportements des êtres vivants
et plus particulièrement de l’être humain. De nos jours, la recherche en psychologie repose la
plupart du temps sur l’expérimentation, c’est-à-dire le recueil suivant une méthodologie précise,
de données expérimentales. L’analyse statistique de ces données empiriques est donc cruciale
dans l’élaboration des théories psychologiques modernes.
Ce cours sera l’occasion pour vous de prendre contact avec la démarche d’une inférence sta-
tistique, par l’étude des principales méthodes statistiques classiques. Il devrait vous apprendre
à manipuler les quelques clés élémentaires vous donnant accès, le cas échéant, à l’apprentissage
et à l’utilisation de méthodes statistiques plus sophistiquées (le plus souvent avec l’aide d’un
logiciel statistique)... Il est temps à présent de définir de manière plus précise l’objectif et la
démarche d’une inférence statistique.
2
1.2 L’estimation ponctuelle et par intervalle de confiance
Supposons par exemple que l’on s’intéresse au score moyen à une épreuve d’aptitude des
élèves de Terminale. On procède au tirage d’un échantillon aléatoire simple de n élèves de
Terminale auxquels on applique cette épreuve d’aptitude, soient x1 , x2 , ..., xn les scores réalisés
par ces n élèves. On peut admettre que ces valeurs constituent des observations ou réalisations
indépendantes d’une variable aléatoire X d’espérance mathématique (ou moyenne théorique) µ ;
par exemple, on supposera que X est une variable aléatoire normale d’espérance µ et de variance
σ 2 , X ∼ N (µ, σ 2 ). On peut également considérer qu’à chaque élève i (i = 1, · · · , n) correspond
une variable aléatoire Xi dont on observe une seule réalisation xi (le score à l’épreuve d’aptitude
de l’élève i) ; on désignera donc un échantillon aléatoire simple par X1 , X2 , ..., Xn , n variables
aléatoires indépendantes et identiquement distribuées (ou v.a.i.i.d.). La loi des grands nombres
montre que la moyenne X (n) = X1 +X2n+···+Xn converge vers l’espérance mathématique µ lorsque
n → +∞. La moyenne observée dans l’échantillon x(n) sera donc une estimation (ponctuelle)
de la moyenne théorique (ou espérance) µ et la variable aléatoire X (n) un estimateur de µ.
Une fonction f (X1 , X2 , · · · , Xn ) des n variables aléatoires d’un échantillon d’effectif n, telle
que X (n) , est appelée une statistique.
Un bon estimateur pour un paramètre d’une loi de probabilité est un estimateur dont
l’espérance mathématique est égale à ce paramètre ; on dit alors que l’estimateur est sans biais.
La moyenne arithmétique X (n) est un estimateur sans biais de l’espérance mathématique µ car
E(X (n) ) = µ.
Lorsque l’effectif n de l’échantillon est assez grand, la théorie des probabilités 1 fournit de
2
manière relativement précise la loi de probabilité de l’estimateur X (n) de µ, X (n) ≈ N (µ, σn ),
et on pourrait en déduire, si µ était connu, un intervalle de la forme (µ − ∆µ, µ + ∆µ) ayant une
probabilité fixée, disons 95%, de contenir X (n) . Connaissant une observation x(n) , on inverse
alors la problématique et on peut en déduire un intervalle de confiance pour la vraie valeur du
paramètre inconnu µ. Plus précisément, on sait par les tables de la variable normale centrée
réduite Z ∼ N (0, 1), que celle-ci est comprise entre −1.96 et 1.96 avec probabilité 0.95 (par
symétrie de la loi normale et puisque le quantile d’ordre 0.975, z0.975 = 1.96). En réarrangeant,
on obtient l’intervalle de confiance au niveau de confiance 1 − α = 0.05 pour µ, noté IC1−α (µ),
tel que la probabilité que µ appartienne à cet intervalle soit égale à 1 − α = 0.95
σ σ
IC1−α (µ) = (X (n) − 1.96 √ , X (n) + 1.96 √ ).
n n
X (n) − µ
√ → Z ∼ N (0, 1).
σ/ n
3
..., X50 , les 50 variables aléatoires indépendantes et identiquement distribuées constituant cet
échantillon et x1 , x2 , ..., x50 les observations (ou réalisations) de ces 50 variables aléatoires.
Ce psychologue estime qu’il peut supposer que les scores (X1 , X2 , ..., X50 ) des élèves de
Terminale suivent une loi de probabilité normale d’écart-type σ = 15 mais d’espérance µ incon-
nue. Il a donc choisi un modèle (ou une hypothèse maintenue), noté Hm , pour son échantillon
aléatoire simple ; ce modèle est le suivant
Hm : X1 , X2 , ..., X50 sont n = 50 variables aléatoires indépendantes
et identiquement distribuées suivant la loi N (µ, 152 ), ou
X1 , X2 , ..., X50 v.a.i.i.d. ∼ N (µ, 152 )
La question qu’il se pose peut donc se traduire de la manière suivante : l’espérance du score
à cette épreuve d’aptitude des élèves de Terminale est-elle supérieure à 100 (l’espérance du
score des élèves de Troisième) ? En effet, les deux lois de probabilité ayant la même forme (deux
lois normales) et la même dispersion (même écart-type), la seule différence possible devrait se
situer au niveau des moyennes. Il doit donc comparer une moyenne (ou espérance) µ à une
valeur fixée ou norme µ0 = 100.
Le psychologue calculera donc la moyenne x(50) observée des réalisations des 50 variables
aléatoires dont il dispose. Supposons qu’il observe x(50) = 103 ; peut-il, sur base de cette valeur
observée, affirmer que le score moyen des élèves de Terminale est meilleur que celui des élèves
de Troisième ?
La valeur x(50) = 103 n’est qu’une des réalisations possibles de la variable aléatoire 2 X (n) :
s’il avait tiré un autre échantillon aléatoire, la valeur observée de X (n) aurait sans doute été
différente et presque toujours différente de 100. Pour répondre à sa question, le psychologue doit
donc choisir entre deux hypothèses, que l’on notera H0 (l’hypothèse nulle) et H1 (l’alternative)
H0 : il n’y a pas d’amélioration, µ = µ0 (avec µ0 = 100),
la différence observée est due aux fluctuations d’échantillonnage
H1 : il y a amélioration, µ > µ0 (avec µ0 = 100),
la différence observée n’est pas due aux fluctuations
d’échantillonnage, elle est significative
Nous venons de poser deux hypothèses statistiques. Une hypothèse statistique est une affirmation
relative aux caractéristiques (valeurs des paramètres ou forme de la loi de probabilité) de une
ou plusieurs variables dans une ou plusieurs populations. Dans l’hypothèse nulle, notée H0 , on
fixe a priori la valeur d’un paramètre ou la forme de la population considérée. Toute autre
hypothèse qui diffère de l’hypothèse nulle s’appelle alternative et est notée H1 . En général,
l’hypothèse nulle H0 est une hypothèse simple (posant une égalité, par exemple µ = 100) tandis
que l’alternative H1 est une hypothèse composée (non égalité, par exemple µ > 100, µ < 100
ou µ 6= 100). En d’autres termes, il n’existe qu’une situation (µ = 100) vérifiant H0 mais il en
existe une infinité vérifiant H1 (pour H1 : µ > 100, on peut avoir µ = 101, µ = 120, µ = 200,
µ = 102.3, · · · ). On distingue des alternatives bilatérale, de la forme H1 : µ 6= µ0 , unilatérale
à droite, de la forme H1 : µ > µ0 , et unilatérale à gauche, de la forme H1 : µ < µ0 .
Comment fixer H0 et H1 ? En règle générale, l’hypothèse nulle H0 est celle du statu quo,
tandis que l’alternative H1 est celle que le chercheur désire confirmer ou affirmer avec une
probabilité fixée a priori de se tromper (dans notre exemple, qu’il y a amélioration du score à
l’épreuve d’aptitude entre la Troisième et la Terminale).
2
2. Lorsque les n√ v.a. X1 , X2 , ..., Xn sont ∼ N (µ, σ ), la variable aléatoire X (n) est normale d’espérance µ
et d’écart-type σ/ n.
4
Pour être capable de choisir entre H0 et H1 , on construit un test d’hypothèses, c’est-à-dire
une démarche statistique qui a pour but de fournir une règle de décision permettant de faire
un choix entre deux hypothèses statistiques et ce sur base d’observations sur un ou plusieurs
échantillons. Un test d’hypothèses peut se ramener à un problème de décision (statistique)
concernant les deux états de l’hypothèse H0 , soit H0 est vraie, soit H0 est fausse, et les deux
décisions possibles, soit Ne pas rejeter H0 (N RH0 ), soit Rejeter H0 (RH0 ).
Si on voulait déterminer sans aucun risque d’erreur l’état de H0 , un contrôle exhaustif
sur toute la population concernée serait nécessaire. Comme ce contrôle est fastidieux voire
impossible dans la majorité des cas, la prise de décision est toujours basée sur une information
partielle (données recueillies sur l’échantillon) et, de ce fait, on ne prendra pas toujours la bonne
décision. Ce sera le cas
– si on rejette H0 alors qu’elle est vraie, ou
– si on ne rejette pas H0 alors qu’elle est fausse.
Par ailleurs, on prendra la bonne décision
– si on rejette H0 alors qu’elle est fausse, ou
– si on ne rejette pas H0 alors qu’elle est vraie.
On souhaite prendre le plus rarement possible chacune des deux mauvaises décisions et plus
particulièrement connaı̂tre les risques ou probabilités de se tromper. On appelle erreur de type
I (ou de première espèce) celle qui consiste à rejeter l’hypothèse nulle H0 alors qu’elle est vraie.
La probabilité de commettre cette erreur est notée α et appelée le seuil de signification du test.
Ce risque est consenti à l’avance ; il s’écrit
L’erreur consistant à ne pas rejeter H0 alors qu’elle est fausse, s’appelle l’erreur de type II (ou
de seconde espèce). La probabilité de commettre cette erreur est notée β et correspond à
Décision
RH0 N RH0
H0 vraie Erreur de type I (avec proba α) Décision correcte
H1 vraie Décision correcte Erreur de type II (avec proba β)
5
Pour ce faire, on choisit une statistique de décision T dont on connaı̂t de manière précise la
loi de probabilité si le modèle Hm est valide et si H0 est vraie. Pour le test sur une moyenne µ
d’une loi normale de variance σ 2 connue, on connaı̂t la loi de la variable aléatoire X (n) centrée
réduite T c’est-à-dire
X (n) − µ
T = √ ∼ N (0, 1) sous Hm
σ/ n
Pour prendre notre décision, on considère alors la statistique Z
X (n) − µ0
Z= √ ∼ N (0, 1) sous Hm et H0 .
σ/ n
Ensuite, on calcule la valeur observée dans l’échantillon de cette statistique de décision, soit
zobs . Dans notre exemple, on calcule
103 − 100
zobs = √ = 1.414
15/ 50
On vérifie à présent si cette valeur zobs = 1.414 est suffisamment grande pour pouvoir dire
qu’il est peu probable que l’hypothèse H0 soit vraissemblable et donc rejeter cette hypothèse
H0 (pas d’amélioration des scores). Plus précisément, si la probabilité (que nous appellerons la
probabilité critique, notée p.c.) d’observer pour une variable Z ∼ N (0, 1) une valeur au moins
aussi élevée que 1.414 est inférieure au seuil de signification α, soit α = 0.05, on dira que le
test est significatif puisqu’il y a peu de chances d’observer une telle valeur si H0 est vraie et on
concluera, par conséquent, que l’hypothèse H0 n’est pas acceptable.
Par contre, si la probabilité (p.c.) d’observer pour une variable Z ∼ N (0, 1) une valeur aussi
élevée que 1.414 est supérieure au seuil de signification α = 0.05, on concluera que H0 ne peut
pas être rejetée. Cela ne signifie pas pour autant qu’elle soit vraie mais seulement que l’écart
observé entre la statistique X (n) et la valeur du paramètre spécifiée dans H0 (µ0 ) semble plutôt
dû aux fluctuations d’échantillonnage. Les informations dont on dispose ne permettent donc
pas de rejeter H0 .
La règle de décision s’énonce habituellement comme suit :
– Rejeter H0 (avec une probabilité d’erreur ≤ au seuil α fixé) si la valeur observée tobs de
la statistique de décision 3 appartient à un ensemble de valeurs appelé la région critique
et noté R.C.α (T ) et
– Ne pas rejeter H0 dans le cas contraire.
La région critique R.C.α (T ) est définie comme l’ensemble de toutes les valeurs de la statis-
tique de décision qui vont dans le sens de l’alternative H1 et dont la probabilité, sous H0 , est
au maximum égale au seuil de signification α, c’est-à-dire, si la statistique de décision est notée
T,
P (T ∈ R.C.α (T ) | H0 est vraie) ≤ α.
Dans notre exemple, l’alternative est unilatérale à droite, les valeurs critiques de la sta-
tistique Z ∼ N (0, 1) seront donc des valeurs élevées de cette statistique (puisque si µ > µ0 ,
la valeur zobs devrait être trop élevée). On recherche donc un ensemble R.C.α (Z) de valeurs
extrêmes à droite et de probabilité α = 0.05, c’est-à-dire R.C.α (Z) = {z | z > z1−α } où
z1−α = z0.95 est le quantile d’ordre 1 − α = 0.95 (à gauche) de la loi normale centrée réduite.
3. Dans notre exemple d’inférence sur une moyenne, la statistique de décision est T = Z donc la valeur
observée est zobs et la région critique est R.C.α (Z).
6
Les tables de la loi N (0, 1) nous donnent la valeur z0.95 = 1.645, la région critique pour ce test
au seuil de signification α = 0.05 est donc
La valeur observée dans l’échantillon zobs = 1.414 n’appartient pas à cette région critique
R.C.α=0.05 (Z) (car 1.414 6> 1.645), on ne peut donc pas rejeter l’hypothèse H0 avec une pro-
babilité de se tromper ≤ à α = 0.05. La moyenne observée x(n) = 103 pour ces 50 élèves de
Terminale n’est donc pas suffisamment élevée pour pouvoir en conclure qu’il y a amélioration
du score des élèves à l’épreuve d’aptitude entre la Troisième et la Terminale 4 . L’écart entre
x(n) = 103 et µ0 = 100 peut être simplement dû aux fluctuations d’échantillonnage.
Nous pouvons résumer la démarche d’un test d’hypothèses de la manière suivante :
1. Déterminer le type de problème (permettant de répondre à la question posée) et le modèle
Hm (les hypothèses relatives à la loi de probabilité des v.a. de l’échantillon). Fixer le seuil
de signification α.
2. Enoncer l’hypothèse nulle H0 et l’alternative H1 (dans les termes d’un ou plusieurs pa-
ramètres des lois de probabilité des v.a. de l’échantillon ou de la forme de ces lois de
probabilité).
3. Choisir la statistique de décision T et spécifier sa loi de probabilité si le modèle Hm est
vérifié et l’hypothèse H0 est vraie.
4. Calculer la valeur observée de cette statistique de décision, soit tobs , sur base des données
recueillies et en supposant que l’hypothèse H0 est vraie.
5. Déterminer, en fonction de la forme de l’alternative H1 (bilatérale, unilatérale à gauche
ou unilatérale à droite) et du seuil de signification α fixé, la région critique R.C.α (T ),
telle que
P (T ∈ R.C.α (T ) | H0 est vraie ) ≤ α
en se basant sur les tables de la loi de probabilité de la statistique de décision T si le
modèle Hm est valide et l’hypothèse H0 est vraie 5 .
6. Décision statistique :
- si tobs ∈ R.C.α (T ), RH0 au seuil α : on rejette H0 (et on peut affirmer H1 ) avec proba-
bilité de se tromper ≤ au seuil α fixé (on dira que le test est significatif au seuil α) ;
- si tobs 6∈ R.C.α (T ), N RH0 au seuil α : on ne peut pas rejeter H0 (ni affirmer H1 ) avec
probabilité d’erreur ≤ α (on dira que le test n’est pas significatif au seuil α).
7. Conclusion du test :
- si RH0 pour α, on peut affirmer H1 avec une probabilité d’erreur inférieure à α ;
4. Exercice : Quelle serait votre conclusion si la même moyenne x(n) = 103 avait été observée dans un
échantillon d’effectif n = 100 ?
5. Lorsque les tables le permettent, les étapes (5.) et (6.) pourront être remplacées par
5’. Calculer la probabilité critique, p.c., définie comme la probabilité que la statistique de décision prenne
une valeur au moins aussi extrême que la valeur observée dans le sens de l’alternative H1 (bilatérale,
unilatérale à gauche ou unilatérale à droite).
6’. Décision statistique :
- si p.c. ≤ α, RH0 au seuil α ;
- si p.c. > α, N RH0 au seuil α.
Cette démarche sera systématiquement suivie lorsque l’analyse sera faite par un logiciel statistique, le logiciel
fournissant toujours la valeur de p.c., appelée “niveau de probabilité p”.
7
- si N RH0 , on ne peut pas affirmer 6 H1 avec une probabilité d’erreur inférieure à α.
Revenons à présent à la notion de puissance π d’un test. Par définition, la puissance est
la probabilité de ne pas commettre l’erreur de type II ; en d’autres termes, la puissance est la
probabilité de rejeter l’hypothèse H0 alors que cette hypothèse est fausse ou l’alternative H1
est vraie,
π = P (T ∈ R.C.α (T ) | H1 est vraie ).
Notons dès à présent que la puissance dépend donc du seuil de signification α fixé (puisque la
région critique dépend de α). Par ailleurs, nous avons remarqué précédemment que l’alternative
est une hypothèse composée, il existe donc une infinité de situations la vérifiant. Le calcul de
la puissance π devra donc se faire pour chacune de ces différentes situations. Reprenons notre
exemple où l’alternative est H1 : µ > 100. La statistique de décision Z n’est parfaitement
définie que lorsqu’on a fixé la valeur de l’espérance µ ; si on suppose que H0 est vraie, on sait
que µ = 100, tandis que si on suppose que H1 est vraie, la valeur de µ reste inconnue, on sait
seulement qu’elle est > 100. Il faudra donc calculer la puissance pour chacune de ces valeurs
µ > 100. Dans ce cas, pour α fixé, on calculera donc ∀ µ > 100
Le calcul de la puissance d’un test d’hypothèses sort du cadre de ce cours. Notons seulement
que lorsque l’effectif de l’échantillon augmente, la puissance augmente également. Il est donc
toujours plus facile de prouver une hypothèse H1 en se basant sur un échantillon aléatoire
d’effectif relativement grand.
Terminons cette partie introductive par la définition des grandes catégories de tests. Un
test est dit paramétrique si les hypothèses H0 et H1 portent sur la valeur d’un ou de plusieurs
paramètres d’une variable aléatoire (de loi spécifiée ou non) : l’exemple que nous avons traité
est un test paramétrique. Dans la plupart des cas, ces tests sont basés sur une hypothèse de
normalité des populations (modèle Hm ). La question se pose alors de savoir si les résultats
restent encore valables lorsque la population n’est pas normale : si les résultats sont valables,
on dit que le test est robuste. La robustesse d’un test par rapport à un certain modèle Hm
est donc la qualité de rester relativement insensible à certaines modifications du modèle : par
exemple, les tests sur une moyenne sont robustes.
Une catégorie particulièrement intéressante de tests robustes est la classe des tests libres
(en anglais distribution free) : il s’agit de tests valables quelle que soit la loi de probabilité de
la variable aléatoire étudiée, donc valables lorsqu’on ignore tout de cette loi. Ces tests sont
très souvent des tests non paramétriques, tests dont les hypothèses ne portent pas sur la valeur
d’un ou plusieurs paramètres d’une variable aléatoire, mais ce n’est pas forcément le cas (voir
Chapitre 8).
8
– choisir une ou plusieurs méthodes statistiques inférentielles permettant de répondre à ces
questions initiales (en tenant compte de la structure des données),
– mettre en oeuvre ces méthodes statistiques inférentielles et
– interpréter les résultats de l’analyse effectuée, c’est-à-dire tirer de manière précise la
conclusion de l’analyse et répondre aux questions initiales posées.
1.5 Références
– MEOT Alain, “Introduction aux statistiques inférentielles, de la logique à la pratique”,
Bruxelles, Paris, De Boeck Université (Méthodes en Sciences Humaines), 2003.
– MARTIN Louise et Gérald BAILLARGEON, “Statistique Appliquée à la Psychologie”,
Editions SMG, Trois-Rivières, Québec, 1989.
– FERGUSON A. George, “Statistical Analysis in Psychology and Education”, McGraw-Hill
Inc., New York, 1981.
– HOWELL David C., “Méthodes Statistiques en Sciences Humaines”, Bruxelles, Paris, De
Boeck Université, 1998 (traduction française de “Statistical Methods for Psychology”, 4th
edition, Duxbury Press, 1997).
– ROUANET Henry, Jean-Marc BERNARD et Brigitte LE ROUX, “Statistique en Sciences
Humaines : Analyse Inductive des Données”, Dunod, Bordas, Paris, 1990.
– TOOTHAKER Larry E., “Multiple Comparisons for Researchers”, Sage Publications,
Inc., Newbury Park, California, 1991.
– ABDI Hervé, “Introduction au Traitement Statistique des Données Expérimentales”, Presses
Universitaires de Grenoble, Grenoble, 1987.
– LINDMAN Harold, “Analysis of Variance in Complex Experimental Designs”, W. H.
Freeman and Company, San Francisco, California, U.S.A., 1974.
– SPRENT Peter, ”Pratique des Statistiques Nonparamétriques”, INRA Editions, Paris,
1992.
– DAGNELIE Pierre, “Statistique Théorique et Appliquée”, Tomes 1 et 2, Bruxelles, Paris,
De Boeck Université, 1998.
– CONOVER W.J. “Practical Nonparametric Statistics”, John Wiley and Sons, 2d ed, 1980.
– SHAPIRO S.S. et WILK M.B., “An Analysis of Variance Test of Normality (complete
samples)”, in Biometrika, 52, 591-611.
– MARASCUILO L. et M. McSWEENEY, “Nonparametric and Distribution-Free Methods
for the Social Sciences”, Brooks/ Cole Publishing Company, Monterey, California, U.S.A.,
1977.
– SIEGEL S. et CASTELLAN N. J., Jr, “Nonparametric Statistics for the Behavioral
Sciences” Second edition, McGraw-Hill International editions, New York, 1988.
9
2 CADRE ET NOTATIONS GENERALES
2.1 Les paramètres
Tous les paramètres des lois de probabilité seront représentés par des lettres grecques, par
exemple,
φ : fréquence ou probabilité de l’occurence d’un événement aléatoire
(voir variable aléatoire binomiale ci-dessous, section 2.3.1)
Soient X et Y deux variables aléatoires 7 quantitatives, les principaux paramètres théoriques
sont
2
σ ou σX : écart-type théorique de la v.a. X, σX = σX
σXY : covariance théorique entre les v.a. X et Y
σXY = E[(X − E(X))(Y − E(Y ))] = E(XY ) − E(X)E(Y )
ρ ou ρXY : coefficient de corrélation linéaire théorique entre les v.a. X et Y
ρXY = σXY /(σX · σY )
Soient X1 , X2 , · · · , Xj , · · · , Xp , p variables aléatoires quantitatives, on considère le vecteur
aléatoire (ou ve. a.), noté X (en caractères gras) 8 , constitué des p composantes correspondant
aux p v. a. Xj , j = 1, · · · , p. On écrira
X1
X2
.
.
.
X=
Xj
.
..
Xp
On dira que le vecteur aléatoire X est de dimension p.
Le vecteur moyen ou vecteur des espérances mathématiques des p variables aléatoires, µj =
E(Xj ) (j = 1, · · · , p), noté µ, est défini par
µ1
µ2
.
.
.
µ=
µj
.
..
µp
et la matrice de variance-covariance, notée Σ, est la matrice composée des variances de chacune
des p variables aléatoires, σj2 , variance de Xj (j = 1, · · · , p), et des covariances entre chacune
7. On écrira souvent v.a. pour variable aléatoire. On négligera l’indice faisant référence à la v.a. considérée
lorsque cela n’engendre aucune ambiguı̈té.
8. Il est d’usage de différentier les vecteurs et matrices des nombres en les notant en caractères gras ; dans
la suite de l’exposé, nous suivrons cette convention.
10
de ces variables aléatoires prises deux par deux, σjk , covariance entre les v. a. Xj et Xk (j et
k = 1, · · · , p) ; plus précisément
2
σ1 σ12 · · · σ1j ··· σ1k · · · σ1p
σ21 σ22 · · · σ2j ··· σ2k · · · σ2p
.. .. .. ..
. . . .
σj1 σj2 · · · σj2 · · · σjk · · · σjp
Σ= ... .. .. ..
. . .
k1 k2 · · · σkj
σ σ · · · σk2 · · · σkp
. .. .. ... ..
..
. . .
σp1 σp2 · · · σpj · · · σpk · · · σp2
Il est important de noter que cette matrice est symétrique puisque σjk = σkj pour tout j
et k = 1, · · · , p. De plus, rappelons que la variance d’une variable n’est rien d’autre que la
covariance de cette variable avec elle-même, σj2 = σjj .
11
S 2 ou SX
2
: variance des n v.a. X1 , X2 , ..., Xn , estimateur sans biais de leur variance
théorique σ 2 ou σX
2
,
n
2 1 X 2 SCEX
SX = (Xi − X) =
n − 1 i=1 n−1
p
S ou SX : écart-type 9 des n v.a. X1 , X2 , ..., Xn , SX = 2
SX .
n
X
SPXY = X i · Yi
i=1
n
X TX · TY
SP EXY = Xi − X (n) · Yi − Y (n) = SPXY −
i=1
n
n
1 X SP EXY
SXY = (Xi − X)(Yi − Y ) =
n − 1 i=1 n−1
SXY SP EXY
RXY = =√
SX SY SCEX · SCEY
9. Notons que cet écart-type, défini comme la racine carrée de la variance sans biais, est biaisé, la racine
carrée n’étant pas une fonction linéaire.
12
X : le vecteur des moyennes arithmétiques des p composantes des vecteurs aléatoires Xi ,
estimateur sans biais du vecteur moyen µ
X1
X2
..
.
X=
Xj
..
.
Xp
où X j = ni=1 Xij est la moyenne arithmétique des n variables de l’échantillon aléatoire cor-
P
respondant à la jème composante des n vecteurs aléatoires et
où Sj2 est l’estimateur sans biais de la variance σj2 et Sjk est l’estimateur sans biais de la
covariance σjk (voir ci-dessus).
Soit une expérience aléatoire donnant lieu à deux événements possibles appelés “Succès” et
“Echec”. Soit φ la probabilité du Succès et donc 1 − φ la probabilité de l’Echec. On répète n
fois de manière indépendante cette expérience aléatoire. La variable aléatoire X définie par le
nombre de Succès observés lors de ces n expériences 10 , est appelée variable aléatoire binomiale
d’effectif n et de paramètre φ et notée X ∼ Bi(n, φ).
La loi de probabilité de la variable aléatoire binomiale est donnée par
n!
P (X = k) = Cnk φk (1 − φ)n−k avec Cnk =
k!(n − k)!
10. On peut voir également la variable binomiale X ∼ Bi(n, φ) comme la somme de n variables aléatoires
indépendantes et identiquement distribuées, U1 , U2 , ..., Un , appelées indicatrices où Ui est égal à 1 si le résultat
du ième essai de l’espérience aléatoire est le Succès et 0 si ce résultat est l’Echec (∀ i = 1, · · · , n). Dans ce sens,
la fréquence du Succès f = X/n est la moyenne des n v.a.i.i.d. que sont ces indicatrices.
13
pour toute valeur possible k = 0, 1, · · · , n. Il s’agit donc d’une variable discrète. Cette loi de
probabilité est également définie par sa fonction de répartition 11
x
X
FX (x) = P (X ≤ x) = P (X = k)
k=1
Pour affiner l’approximation de la loi binomiale (loi discrète) par la loi normale (loi continue),
on utilisera parfois une correction de continuité ; cette correction qui est basée sur l’identité
P [X = x] = P [x − 0.5 ≤ X ≤ x + 0.5], consiste à “agrandir” le domaine de variation de la
variable comme suit
!
x + 0.5 − nφ
P [X ≤ x] = P [X ≤ x + 0.5] ≈ Φ p
nφ(1 − φ)
et !
x − 0.5 − nφ
P [X ≥ x] = 1 − P [X ≤ x − 1] = 1 − P [X ≤ x − 0.5] ≈ 1 − Φ p
nφ(1 − φ)
où Φ(z) désigne la fonction de répartition de la loi normale centrée réduite (voir ci-dessous).
n!
P (N1 = n1 ; N2 = n2 ; · · · ; Nk = nk ) = φ1 n1 φ2 n2 · · · φk nk
n1 !n2 ! · · · nk !
pour les valeurs possibles (n1 , n2 , · · · , nk ) telles que kj=1 nj = n et nj est un entier positif
P
∀j = 1, 2, · · · , k. Il s’agit d’un vecteur aléatoire discret.
11. On peut déduire la probabilité P (X = k) de cette fonction de répartition par la relation suivante P (X =
k) = P (X ≤ k) − P (X ≤ k − 1) pour tout k = 0, 1, · · · , n.
14
2.3.3 La loi normale de moyenne µ et de variance σ 2 , X ∼ N (µ, σ 2 )
La loi normale est la loi de probabilité continue la plus fréquemment utilisée en statistique.
C’est, en effet, la loi qui s’applique à une variable qui est la résultante d’un grand nombre de
causes indépendantes, dont les effets s’additionnent et dont aucune n’est prépondérante (par le
Théorème Central-Limite) 12 . En particulier, la loi normale apparaı̂t comme une approximation
de la loi de la moyenne de v.a.i.i.d. et de la loi binomiale lorsque l’effectif de l’échantillon est
grand.
La loi normale centrée réduite (de moyenne µ = 0 et d’écart-type σ = 1) est celle d’une
variable aléatoire Z ∼ N (0, 1), définie par sa fonction de répartition notée Φ(z),
Φ(z) = FZ (z) = P (Z ≤ z), ∀ z ∈ IR
qui est une fonction positive strictement croissante telle que
lim Φ(z) = 0 et lim Φ(z) = 1
z→−∞ z→+∞
Cette fonction réelle Φ(z) est tabulée (voir Table statistique 2.1) et correspond à la surface
sous le graphe de la densité de probabilité fZ (z) (ou fonction de fréquence 13 ) pour toutes les
valeurs ≤ z ∈ IR .
La densité de probabilité fZ (z) est symétrique par rapport à la valeur 0 ( fZ (−z) =
fZ (z), ∀ z) et la surface totale sous la courbe est égale à 1 (puisque limz→+∞ Φ(z) = 1) 14 .
On l’appelle souvent courbe de Gauss ou encore gaussienne.
Le quantile zq d’ordre q de la loi normale centrée réduite est défini par
Φ(zq ) = P (Z ≤ zq ) = q, ∀q ∈ (0, 1).
La loi normale de moyenne µ et de variance σ 2 , N (µ, σ 2 ), s’obtient par transformation
linéaire de la loi normale centrée réduite, en multipliant par l’écart-type et en ajoutant la
moyenne ; plus précisément, si X ∼ N (µ, σ 2 ), alors X = µ + σZ avec Z ∼ N (0, 1). Donc, la loi
de probabilité de toute variable aléatoire normale X ∼ N (µ, σ 2 ) s’obtient à partir de la loi de
probabilité de la variable aléatoire Z ∼ N (0, 1) par la transformation
X −µ
= Z ∼ N (0, 1)
σ
et la densité de probabilité de X, fX (x), est symétrique par rapport à la moyenne µ.
12. Enoncé du Théorème Central-Limite : Soient X1 , X2 , · · · , Xi , · · · , Xn , n v.a.i.i.d. telles que E (Xi ) = µ
et V ar (Xi ) = σ 2 , lorsque l’effectif n est suffisamment grand, la v.a. somme Sn = X1 + X2 + · · · + Xn est
2
approximativement de loi N (nµ, nσ 2 ) et la v.a. X (n) est approximativement de loi N (µ, σn ), donc
X (n) − µ
√ ≈ Z ∼ N (0, 1)
σ/ n
13. La densité de probabilité de la loi normale centrée réduite est donnée par
1 −z 2
fZ (z) = √ exp( )
2π 2
et est reliée à la fonction de répartition par la relation suivante
Z z
Φ(z) = FZ (z) = fZ (u) du
−∞
14. Cette dernière propriété n’est pas une propriété spécifique à la loi normale centrée réduite mais est vérifiée
pour n’importe quelle loi de probabilité continue.
15
2.3.4 La loi χ2ν à ν degrés de liberté
La loi de probabilité χ21 (χ2 à 1 degré de liberté) est définie comme étant celle d’une variable
aléatoire normale centrée réduite élevée au carré
Z 2 ∼ χ21
Comme son nom et sa définition l’indiquent, il s’agit d’une variable aléatoire continue prenant
uniquement des valeurs positives.
La loi de probabilité χ2ν (χ2 à ν degrés de liberté) est définie comme étant celle de la somme
de ν variables aléatoires indépendantes χ21 , ou la somme des carrés de ν v.a. normales centrées
réduites Z1 , Z2 , ..., Zν ,
X ν
Z12 + Z22 + · · · + Zν2 = Zi2 ∼ χ2ν
i=1
Cette loi est symétrique par rapport à la valeur 0, comme la loi normale centrée réduite vers
laquelle elle tend lorsque le nombre de degrés de liberté tend vers +∞.
Les quantiles tν,q d’ordre q d’une v.a. T ∼ tν , définis par
sont tabulés pour ν ≤ 100 (voir Table statistique 3) ; pour ν > 100, on utilise les tables de
la loi normale centrée réduite.
2.3.6 La loi Fν1 ,ν2 de Fisher-Snédécor (ou de Fisher) à (ν1 , ν2 ) degrés de liberté
Soient deux variables aléatoires indépendantes, U1 ∼ χ2ν1 et U2 ∼ χ2ν2 , on définit la variable
aléatoire F de Fisher-Snédécor (ou simplement de Fisher) à (ν1 , ν2 ) degrés de liberté comme
étant
U1 /ν1
F = ∼ Fν1 ,ν2
U2 /ν2
Par définition, cette variable aléatoire prend toujours des valeurs positives. Ses quantiles Fν1 ,ν2 ,q
d’ordre q définis par
P (F ≤ Fν1 ,ν2 ,q ) = q, ∀q ∈ (0, 1)
sont tabulés (voir Table statistique 5).
16
2.3.7 La loi normale multivariée Np (µ, Σ)
0
On dit que le vecteur aléatoire X = X1 X2 · · · Xj · · · Xp (de dimension p) suit
une loi normale multivariée si toute combinaison linéaire de ses composantes suit une loi normale
univariée, c’est-à-dire toute variable aléatoire T définie par
p
X
T = aj X j
j=1
pour des constantes aj arbitraires pour j = 1, · · · , p. On dira alors que le vecteur X est un
vecteur gaussien. Un vecteur aléatoire gaussien est défini par son espérance µ et sa matrice de
variance-covariance Σ (voir Section 2.1). On écrira X ∼ Np (µ, Σ). Il n’est pas possible de
construire des tables donnant les probabilités correspondant à une loi multivariée.
17
3 INFERENCE SUR LES FREQUENCES
A. Un échantillon
X
où f est la fréquence de “Succès” dans l’échantillon d’effectif n, donc f =.
n
Parfois, on pourra appliquer la correction de continuité suivante (voir Section 2.3.1)
X ± 21 − n · φ0 1
f ± 2n − φ0
Z=p = q ∼ N (0, 1).
n · φ0 · (1 − φ0 ) φ0 ·(1−φ0 )
n
18
3.2 Tests d’ajustement à un modèle théorique
Pk
3.2.1 Inférence sur plusieurs fréquences φ1 , φ2 , · · · et φk (avec j=1 φj = 1) : le test
χ2 pour une variable catégorisée.
Soit un échantillon aléatoire i.i.d. d’effectif n classé suivant une variable catégorisée A pre-
nant k modalités incompatibles et exhaustives (s’excluant mutuellement) A1 , A2 , · · · et Ak .
Soit φj la fréquence de la modalité Aj dans la population dont on a extrait cet échantillon
(∀ j = 1, 2, · · · , k). Le test d’ajustement de la distribution de fréquence φ1 , φ2 , · · · et φk au
modèle théorique φ01 , φ02 , · · · et φ0k s’écrit
H0 : φ1 = φ01 , φ2 = φ02 , · · · , φk = φ0k
H1 : ∃ j ∈ {1, · · · , k} tel que φj 6= φ0j
Soit n∗j = nφ0j l’effectif théorique de la modalité Aj (∀ j = 1, · · · , k) si H0 est vraie ; si tous
ces effectifs théoriques sont ≥ 1 et pas plus de 20% de ces effectifs théoriques ne sont < 5, on
utilise la statistique 15 de décision χ2 de Pearson, de loi approximativement χ2k−1 sous H0 ,
k 2
2
X nj − n∗j
χ = ≈ χ2k−1 , χ2 à k − 1 d.d.l.
j=1
n∗j
Une autre statistique de test, appelé test du rapport de vraisemblance, permet de mettre à
l’épreuve l’hypothèse d’adéquation au modèle théorique ; elle est donnée par
k
2
X nj
G =2 nj ln .
j=1
n∗j
G2 ≈ χ2k−1 , χ2 à k − 1 d.d.l.
Cette statistique est principalement utilisée dans l’analyse des modèles log-linéaires.
15. Ces conditions d’application ont été proposées par Cochran (“The χ2 Test of Goodness of Fit”, Annals
of Mathematical Statistics, 1952, vol. 23, 315-345) ; plus précisément, il a établi le nombre maximal d’effectifs
théoriques < 5 en fonction du nombre k de fréquences (ou de classes)
19
3.2.2 Le test χ2 pour une variable numérique discrète
Soit X1 , X2 , ..., Xn un échantillon de n variables aléatoires i.i.d. suivant une loi de probabilité
discrète inconnue 16 . On désire tester si cet échantillon peut être considéré comme un échantillon
aléatoire i.i.d. suivant une loi de probabilité (discrète) connue F0 . Ce test peut s’énoncer de
deux manières différentes, soit en spécifiant totalement cette loi de probabilité (par exemple,
une loi binomiale d’effectif m et de fréquence φ connus), soit en spécifiant seulement la forme
de cette loi de probabilité mais pas la valeur de tous les paramètres (par exemple, loi binomiale
d’effectif m connu mais de fréquence φ inconnue) :
H0 : échantillon i.i.d. suivant loi F0 (de paramètres connus ou inconnus)
H1 : négation de H0
avec n∗j = nφ0j pour j = 1, · · · , k. Pour le calcul, on pourra à nouveau utiliser la formule
équivalente suivante :
k
2
X n2j
χ = − n.
n∗
j=1 j
20
La statistique de décision K de Kolmogorov est la distance maximale (ou encore l’écart absolu
maximal) entre la fonction de répartition théorique sous H0 , F0 , et la fonction de répartition
empirique (basée sur les observations), F̂ (x), qui se calcule comme suit 17
nombre de valeurs ≤ x dans l’échantillon
F̂ (x) = .
n
La statistique K et sa loi sous H0 sont données par
Les quantiles de la statistique de Kolmogorov sont tabulés pour n ≤ 40 (voir Table sta-
tistique 15) ; lorsque n > 40, on utilisera des valeurs approchées, par exemple 1.36 √ et 1.63
n
√ pour
n
α = 0.05 et α = 0.01 respectivement.
Il est également possible d’utiliser le test de Kolmogorov pour une alternative unilatérale,
H1 : ∃x ∈ IR , F (x) > F0 (x) (c’est-à-dire la distribution F se situe plus à gauche, vers les valeurs
plus faibles, que la distribution F0 en au moins un point x) ou H1 : ∃x ∈ IR , F (x) < F0 (x) (c’est-
à-dire la distribution F se situe plus à droite, vers les valeurs plus élevées, que la distribution F0
en au moins un point x). Dans ce cas, on utilise les tables unilatérales (voir Table statistique
15) et on n’oublie pas de vérifier que le sens de la différence correspond bien à l’alternative
considérée.
où F (x) est la fonction de répartition dans la population dont on a extrait un échantillon
aléatoire i.i.d. X1 , X2 , ..., Xn d’effectif n.
La statistique L de Lilliefors est une distance entre la fonction de répartition empirique
calculée à partir des données centrées réduites et la fonction de répartition normale centrée
réduite N (0, 1). Plus précisément, on calcule la moyenne arithmétique des observations (la
17. La fonction de répartition empirique F̂ (x), parfois appelée fonction cumulée à gauche de l’échantillon,
est l’estimation, à partir de l’échantillon, de la fonction de répartition F (x) de la population. Il s’agit d’une
fonction en escaliers, constante entre deux valeurs observées et augmentant d’une hauteur égale à 1/n au niveau
de chacune des valeurs observées ; lorsque plusieurs valeurs observées sont égales, l’augmentation est égale au
nombre de valeurs égales /n. La fonction F̂ (x) est donc une fonction croissante sur IR partant de la valeur 0 et
atteignant la valeur 1.
18. Puisque la fonction de répartition empirique est une fonction croissante partant de la valeur 0 pour arriver
à la valeur 1 par sauts de hauteur 1/n, cette fonction prend donc n + 1 valeurs différentes (sauf lorsque plusieurs
valeurs observées sont égales, auquel cas certaines des valeurs de F̂ (xi ) coı̈ncident, ce qui ne modifie en rien la
formule). Par convention, on notera donc F̂ (x0 ) = 0, F̂ (x1 ) = 1/n, F̂ (x2 ) = 2/n, · · · , F̂ (xn ) = n/n = 1.
21
2
valeur observée de X (n) , l’estimateur sans biais de la moyenne µ) et la valeur observée de S(n)
(l’estimateur sans biais de la variance σ 2 ) et on utilise ces valeurs pour centrer et réduire les
données ; soient
xi − x(n)
z(i) = , i = 1, · · · , n
s(n)
ces données centrées réduites rangées en ordre croissant.
Ensuite, on construit la fonction de répartition empirique associée à ces données centrées
réduites, soit F̂ (z) cette fonction (voir ci-dessus pour la définition de cette fonction empirique),
et on calcule les valeurs Φ(z(i) ) de la fonction de répartition de la loi normale N (0, 1) aux
données centrées réduites z(i) (i = 1, · · · , n) en utilisant les tables de la loi normale N (0, 1)
(voir Table statistique 2.1).
La statistique de décision L de Lilliefors et sa loi sous H0 sont données par
Les quantiles de la statistique de Lilliefors sont tabulés pour n ≤ 30 (voir Table statistique
16) ; lorsque n > 30, on utilisera des valeurs approchées, par exemple 0.886
√
n
et 1.031
√
n
pour α = 0.05
et α = 0.01 respectivement.
nous obtenons une droite, appelée droite de Henry, dont l’équation est la suivante
1 µ
zp = · xp −
σ σ
Cette droite contient toujours le point (µ, 0) et a une pente égale à 1/σ.
22
les valeurs de cet échantillon, nous obtenons les statistiques d’ordre, X(i) , i = 1, · · · , n, telles
que
X(1) ≤ X(2) ≤ · · · ≤ X(i) ≤ · · · ≤ X(n−1) ≤ X(n)
Ces valeurs doivent être proches (aux erreurs d’échantillonnage près) des quantiles de la loi des
Xi , càd ici de la loi N (µ, σ 2 ). Plus précisément, posons
i − 1/2
p(i) = , ∀ i = 1, · · · , n
n
et considérons les quantiles normaux zp(i) , appelés scores normaux (ou “normal scores”).
Si l’échantillon Xi provient bien d’une population normale, le graphe des points X(i) , zp(i) pour
i = 1, · · · , n, est proche d’une droite. Ce graphique est appelé diagramme Quantile-Quantile
(ou “Q-Q plot”).
La région critique pour un seuil α est constituée des valeurs de la statistique W inférieures à
la valeur critique wn;α lue dans la Table statistique 23.2, c’est-à-dire
Terminons par l’interprétation du diagramme Q-Q : si ce graphique présente une concavité vers
le haut (fonction convexe), la distribution est étalée vers la gauche, si par contre, le graphique
23
est concave, la distribution est étalée vers la droite. Il est également possible de détecter une
forme platykurtique ou leptokurtique (voir Annexe B).
Ce test est très puissant pour détecter des valeurs extrêmes et une dissymétrie de la loi.
Remarquons qu’il existe d’autres tests d’ajustement à une loi normale ; citons par exemple le
test de D’Agostino.
Le calcul de cette statistique peut être effectué par la formule équivalente suivante
l X
c
2
X n2jk
χ = − n.
j=1 k=1
n∗jk
Si le résultat est significatif, on pourra préciser le sens et la force de la liaison par le calcul et
l’interprétation des taux de liaison, tjk (∀ j = 1, · · · , l et ∀ k = 1, · · · , c), définis par
njk − n∗jk
tjk = .
n∗jk
24
B. Deux échantillons en mesures répétées
0
3.4 Inférence sur deux fréquences φ et φ pour deux échantillons en
mesures répétées
Soient deux échantillons aléatoires i.i.d. appareillés d’effectif total n, classés suivant une
variable dichotomique (prenant deux modalités “Succès” et “Echec”). On dispose donc d’un
tableau 2 × 2 souvent présenté de la manière suivante
P
Ech. 1 \\ Ech. 2 : Echec | Succès ||
Succès || nSE | nSS || nS•
Echec || nEE | nES || nE•
P
|| n•E | n•S || n
0
Soient φ et φ les fréquences du “Succès” dans chacune des deux populations dont on a
extrait ces deux échantillons en mesures répétées. Le test de comparaison des fréquences du
“Succès” s’écrit 0
H0 : φ = φ
0
H1 : φ 6= φ
Si nSE + nES ≥ 10, la statistique de décision χ2 de Mc Nemar est
2 (nSE − nES )2
χ = ' χ21 , χ2 à 1 d.d.l.
nSE + nES
où nSE et nES sont les cases de désaccord (ou de discordance).
Ce test est une adaptation du test de comparaison d’une fréquence, la fréquence d’un des
deux désaccords (par exemple, SE) conditionnellement au désaccord (SE ou ES), à la norme
1/2. Ceci permet de définir une autre statistique de décision, équivalente au χ2 de Mc Nemar.
Cette statistique Z, de loi approximativement normale centrée réduite sous H0 si nSE + nES ≥
10, est donnée 21 par
nSE − nES
Z=√ ≈ N (0, 1)
nSE + nES
Cette autre version de ce test permet plus facilement de considérer une hypothèse alternative
0 0
orientée, de la forme H1 : φ < φ ou H1 : φ > φ ou encore d’effectuer le test avec peu de
données (nSE + nES < 10) à l’aide d’une statistique X ∼ Bi(nSE + nES , 1/2) (voir Section
3.1 Inférence sur une fréquence).
L’effet de cette correction de continuité est de réduire la valeur observée de la statistique χ2 . L’utilité de cette
correction fait l’objet de discussions multiples au sein de la communauté des statisticiens. Par exemple, Plackett
(The Continuity Correction in 2 × 2 Tables, Biometrika, 1964, vol. 51, p.327-337) a montré que cette correction
améliore l’approximation si les fréquences marginales nj. et n.k sont fixées et connues avant même le prélèvement
de l’échantillon, ce qui n’arrive jamais dans les applications. Camilli et Hopkins (Applicability of chi-square to
2 × 2 contingency tables with small expected frequencies, Psychological Bulletin, 1978, vol. 85, p. 163-167)
précisent même que la correction de continuité de Yates diminue la précision des énoncés probabilistiques et
conduit à une perte de puissance du test. C’est la raison pour laquelle nous préférons ne pas l’utiliser.
21. Notons que Z 2 ≡ χ2 .
25
C. Deux échantillons indépendants
Si le nombre de succès (Xj ) et le nombre d’échecs (nj −Xj ) dans les deux échantillons (j = 1, 2)
sont ≥ 10, l’intervalle de confiance pour la différence des fréquences φ1 − φ2 au niveau 1 − α,
IC1−α (φ1 − φ2 ), est donné par
s
f1 (1 − f1 ) f2 (1 − f2 )
IC1−α (φ1 − φ2 ) = (f1 − f2 ) ± z1−α/2 + ou (f1 − f2 ) ± z1−α/2 · S(f1 −f2 )
n1 n2
22. Puisque sous H0 , φ1 = φ2 , on a remplacé la différence φ1 − φ2 par la valeur 0 dans la formule de cette
statistique de décision ; de plus, sous H0 , on peut estimer φ1 = φ2 par l’estimateur marginal f . D’autres
statistiques sont parfois utilisées, citons
0 (f1 − f2 )
Z =q ≈ N (0, 1) sous H0
f1 (1−f1 ) f2 (1−f2 )
n1 + n2
26
q
où S(f1 −f2 ) désigne l’erreur-type de la différence de fréquences, S(f1 −f2 ) = f1 (1−f
n1
1)
+ f2 (1−f
n2
2)
.
Pour l’alternative bilatérale H1 : φ1 6= φ2 , on peut également utiliser (sous les mêmes
conditions que ci-dessus) la statistique de décision 23 de loi approximativement χ21 sous H0 ,
N (X1 n2 − X2 n1 )2
χ2 = ≈ χ21 , χ2 à 1 d.d.l.
n1 n2 (X1 + X2 ) (n1 + n2 − (X1 + X2 ))
Rhoades et Overall (1982) 24 ont proposé une formule corrigée pour le calcul de cette statis-
tique de décision
2 (N − 1)(X1 n2 − X2 n1 )2
χ = ≈ χ21 , χ2 à 1 d.d.l.
n1 n2 (X1 + X2 ) (n1 + n2 − (X1 + X2 ))
23. Cette statistique est équivalente à celle du Z ∼ N (0, 1) donnée précédemment mais elle ne permet pas de
considérer une alternative unilatérale, ni de construire un intervalle de confiance pour la différence des fréquences
φ1 −φ2 . Pour le calcul de la valeur observée de cette statistique de décision, on peut également utiliser la formule
(équivalente mais plus classique) donnée ci-dessous pour le test d’homogénéité de 2 échantillons indépendants
suivant une variable catégorisée à plus de deux modalités (voir Section 3.6).
24. Rhoades, H.M., Overall, J.E., A Sample Size Correction for Pearson chi-square in 2 × 2 Contingency
Tables, Psychological Bulletin, vol. 91, 1982, p. 418-423.
25. On remarquera que le calcul des effectifs théoriques d’un tableau d’homogénéité est identique à celui des
effectifs théoriques d’un tableau de contingence pour le test d’indépendance entre deux variables catégorisées
(voir Section 3.3). Toutefois, les principes sous-jacents sont très différents ; par exemple, ici nous avons 2
échantillons d’effectifs connus dès le départ et non un seul échantillon.
27
Si ce test conduit au rejet de H0 , on peut essayer de localiser les différences en comparant
pour chacune des modalités Aj , les fréquences de cette modalité au sein des deux populations
dont sont issus les échantillons (pour un j fixé, H0 : φj1 = φj2 ). Ces différentes comparaisons
se ramènent à une inférence sur deux fréquences pour deux échantillons indépendants (voir
Section 3.5) 26 .
26. Il est important de remarquer que la multiplication des tests augmente la probabilité globale de l’erreur
de type I, c’est-à-dire le seuil du test. Il sera donc beaucoup plus judicieux si l’analyse est motivée par une
question précise, de se restreindre à une seule comparaison répondant à cette question, plutôt que de procéder
à une analyse statistique aveugle englobant toutes les comparaisons possibles.
28
D. Plus de deux échantillons indépendants
Si ce test conduit au rejet de H0 , on peut essayer de localiser les différences en comparant pour
chacune des modalités Aj , les fréquences de cette modalité au sein des différentes populations
(dont sont issus les échantillons), prises deux à deux (par exemple, pour un j fixé, H0 : φj1 =
φj3 ). Ces différentes comparaisons se ramènent à une inférence sur deux fréquences pour deux
échantillons indépendants (voir Section 3.5) 28 .
29
4 INFERENCE SUR LES VARIANCES
4.1 Inférence sur une variance
H0 : σ 2 = σ02
H1 : σ2 =6 σ02 (ou σ 2 < σ02 ou σ 2 > σ02 )
Si la population parente est normale (ou si l’effectif de l’échantillon est grand, n ≥ 60), la
statistique de décision 30 est
(n − 1)S 2 SCE
χ2 = 2
= = χ2n−1 ∼ χ2 à n − 1 degrés de liberté sous H0
σ0 σ02
et l’intervalle de confiance pour σ 2 au niveau de confiance 1 − α, IC1−α (σ 2 ), est donné par
! !
2 2
(n − 1)S (n − 1)S SCE SCE
IC1−α (σ 2 ) = , = ,
χ2n−1,1−α/2 χ2n−1,α/2 χ2n−1,1−α/2 χ2n−1,α/2
où S 2 est l’estimateur sans biais de la variance σ 2 et SCE la somme des carrés d’écarts à la
moyenne.
S12
F = 2 = Fn1 −1,n2 −1 ∼ F de Fisher à (n1 − 1, n2 − 1) degrés de liberté 32
S2
où Sj2 est l’estimateur sans biais de la variance σj2 de l’échantillon de taille nj (j = 1, 2).
30. Sinon (population parente non normale et effectif n < 60) on utilisera une méthode statistique non
paramétrique de type “Jackknife” ou “Bootstrap” (voir Sprent pages 234-240). Cette remarque est valable pour
l’ensemble de ce chapitre relatif à l’inférence sur les variances. Il faut insister sur le fait que la condition de
normalité est relativement stricte pour les méthodes relatives à la dispersion, même dans le cas d’échantillons
d’effectifs assez importants, contrairement notamment à ce qui se passe pour l’étude des moyennes.
31. En raison de la grande variabilité des distributions d’échantillonnage des variances, ce test est très peu
puissant surtout pour des échantillons d’effectifs réduits. De plus, la distribution de cette statistique F est gra-
vement influencée par l’anormalité des données. Nous conseillerons donc l’utilisation de méthodes alternatives,
telles que le test de ou le test de O’Brien (exposés ci-dessous), tests plus robustes en pratique.
32. Remarquons que le quantile p de la loi F à (n1 − 1, n2 − 1) degrés de liberté est l’inverse du quantile
d’ordre 1 − p de la loi F à (n2 − 1, n1 − 1) degrés de liberté, c’est-à-dire
1
Fn1 −1,n2 −1,p =
Fn2 −1,n1 −1,1−p
30
4.2.2 Test de Levene
Le test de Levene 33 a pour principe de calculer, séparément pour les deux échantillons, les
écarts par rapport aux moyennes, et de soumettre les valeurs absolues de ces écarts, Dij =|
Xij −X j | (j = 1, 2, i = 1, · · · , nj ), à un test de comparaison de deux moyennes pour échantillons
indépendants. L’hypothèse H0 testée d’égalité des deux moyennes des valeurs absolues des écarts
est alors considérée comme équivalente à l’hypothèse d’égalité des deux variances.
Les hypothèses s’écrivent donc
H0 : µD1 = µD2
H1 : µD1 6= µD2
où les moyennes µDj sont définies par µDj = E[Dij ] pour j = 1, 2 et la statistique utilisée est
de loi tn1 +n2 −2 (voir Chapitre 5).
2
0 (nj − 1.5)nj (Xij − X j ) − 0.5Sj2 (nj − 1)
Dij =
(nj − 1)(nj − 2)
0
puis à effectuer l’analyse comme pour le test de Levene avec µD0 = E[Dij ].
j
33. Levene, H. (1960). In Contributions to Probability and Statistics : Essays in Honor of Harold Hotelling,
I. Olkin et al. eds., Stanford University Press, pp. 278-292. Une variante de ce test a été proposée par Brown et
Forsythe (Brown, M. B. and Forsythe, A. B. (1974), Journal of the American Statistical Association, 69, 364-
367) ; il s’agit de remplacer la moyenne X j de l’échantillon j, dans le calcul des écarts, par la médiane de cet
échantillon X̃j , donc Dij =| Xij − X̃j |. Ils ont montré que l’emploi de la médiane fournit un test plus puissant
pour des distributions asymétriques alors que l’emploi de la moyenne donne une meilleure puissance pour des
distributions symétriques et mésokurtiques (comme la loi normale, voir Annexe B). Même si le choix optimal
dépend de la forme des distributions, la définition basée sur la médiane semble le meilleur choix, c’est-à-dire le
choix le plus robuste pour beaucoup de distributions, tout en conservant une bonne puissance.
34. Morgan, W.A. (1939). A test for the significance of the difference between two variances in a sample
from a normal bivariate distribution. Biometrika, 31, 13-19. et Pitman, E.J.G. A note on normal correlation.
Biometrika, 31, 9-12. Ce test est peu robuste par rapport à l’hypothèse de binormalité.
31
S12
Soient F = le rapport entre les deux variances Sj2 (j = 1, 2 ou l’inverse) et R12 le coefficient
S22
de corrélation linéaire entre les v.a. X1 et X2 (voir Section 2.2). La statistique de décision T
est définie par √
(F − 1) n − 2
T = p
2
.
2 1 − R12
Sous H0 : T ∼ tn−2 , t de Student avec n − 2 d.d.l.
H1 : négation de H0 .
2 35
suit approximativementPK une loi2χ à K − 1 degrés de liberté où N est l’effectif 2
total des K
échantillons (N = j=1 nj ), Sj est l’estimateur sans biais de la variance σj de l’échantillon
d’effectif nj (j = 1, 2, · · · , K) et S ∗2 est l’estimateur sans biais de la variance commune σ12 =
2
σ22 = · · · = σK = σ 2 , c’est-à-dire
K
∗2 1 X
S = (nj − 1)Sj2
N − K j=1
où maxj Sj2 et minj Sj2 sont respectivement la plus grande et la plus petite des K variances
calculées (S12 , ..., Sj2 , ..., SK
2
), ν = n − 1 est le nombre de degrés de liberté de chacune des K
2
variances Sj et K est le nombre de variances à comparer (voir Table Statistique 6).
35. Le dénominateur dans la formule corrigée BC étant toujours supérieur à 1, il ne doit être calculé que
lorsque la valeur de B est supérieure au quantile χ2K−1,1−α .
32
4.4.3 Test de Levene
Le test de Levene 36 a pour principe de calculer, séparément pour les différents échantillons,
les écarts par rapport aux moyennes, et de soumettre les valeurs absolues de ces écarts, Dij =|
Xij − X j | (j = 1, · · · , K, i = 1, · · · , nj ), à l’analyse de la variance à un facteur, plan S <
GK >. L’hypothèse H0 d’égalité des moyennes des valeurs absolues des écarts, µDj = E[Dij ]
(j = 1, · · · , K), hypothèse testée par l’analyse de la variance, est alors considérée comme
équivalente à l’hypothèse d’égalité des variances.
Cette méthode, qui est à différents égards approchée 37 , a l’avantage d’être en pratique plus
robuste que les tests de Bartlett et de Hartley.
33
σ12 σ12 · · · σ1j · · · σ1k
··· σ1p
σ21 σ22 · · · σ2j · · · σ2k ··· σ2p
.. ... .. ..
. . .
σj1 σj2 · · · σj2 · · · σjk ··· σjp
Σ= .. .. .. ..
. . . .
σk1 σk2 · · · σkj · · · σk2 · · · σkp
.. .. .. .. ..
. . . . .
σp1 σp2 · · · σpj · · · σpk · · · σp2
avec σjk la covariance (théorique) entre les composantes j et k (Xij et Xik ) de chacun des n
vecteurs-profils (∀ i = 1, · · · , n), ∀ j 6= k, et σj2 la variance (théorique) de la jème composante
Xij de chacun de ces n vecteurs-profils (∀ i = 1, · · · , n). De plus, l’analyse de variance pourra
s’effectuer à l’aide de statistiques de décision F de Fisher-Snédécor si et seulement si la matrice
de variance-covariance du vecteur-profil Σ satisfait la condition de circularité ou sphéricité.
Cette condition est définie ci-dessous.
– La matrice de variance-covariance du vecteur-profil Σ est une matrice circulaire (encore
appelée matrice de type H) si et seulement si la variance de la différence Xij − Xik entre
deux composantes quelconques j et k des vecteurs-profils Xi est une constante, soit 2γ.
Il s’agit de la condition de sphéricité ou encore de circularité de la matrice de variance-
covariance du vecteur-profil Σ.
Cette condition s’écrit de manière plus explicite en introduisant la matrice C d’ordre p × (p − 1)
dont les p − 1 colonnes correspondent à p − 1 contrastes orthonormés, c’est-à-dire orthogonaux
et de norme 38 1
1/c1 1/c2 · · · 1/ci · · · 1/cp−1
−1/c1 1/c2 · · · 1/ci · · · 1/cp−1
0
−2/c2 · · · 1/ci · · · 1/cp−1
0 0 · · · 1/c i · · · 1/c p−1
. .
C= .. .. −i/ci · · · 1/cp−1
.
. .
.
. . 0 1/c p−1
.. .. .. ..
. . . .
0 0 ··· 0 · · · −(p − 1)/cp−1
p
avec ci = i(i + 1), ∀ i = 1, · · · , p − 1. On vérifie en effet que la somme des produits des
coefficients de deux colonnes différentes quelconques de la matrice C est toujours égal à 0 et
que la somme des carrés des coefficients d’une même colonne quelconque est toujours égal à 1.
– La matrice de variance-covariance du vecteur-profil Σ est une matrice circulaire si et
0 0
seulement si la matrice de variance-covariance C · Σ · C du vecteur transformé Y = C · X
(de dimension p − 1) satisfait la relation
0
C · Σ · C = γ · Ip−1
où γ est la constante positive définie ci-dessus et Ip−1 est la matrice unité d’ordre p − 1.
Cette relation exprime que les composantes du vecteur aléatoire Y sont indépendantes et
de même variance γ.
38. Les contrastes orthogonaux sont définis au Chapitre 7 relatif à la méthode des contrastes ; un contraste
est de norme 1 si la somme des carrés de ses coefficients cj est égale à 1.
34
Le test préliminaire à la mise en oeuvre d’une analyse de variance en mesures répétées à
l’aide de statistiques de décision F de Fisher-Snédécor est donc le suivant
H0 : La matrice Σ est circulaire (ou de type H)
H1 : La matrice Σ n’est pas circulaire
ou encore 0
H0 : La matrice C · Σ · C = γ · Ip−1 avec γ > 0
H1 : Négation de H0 .
La statistique de décision M de Mauchly est définie par
( )( !)
2(p − 1)2 + p + 1 tr S̃
M = − (n − 1) − ln S̃ − (p − 1) ln
6(p − 1) p−1
où
0
– S̃ = C · S · C est la matrice carrée (et symétrique) d’ordre (p − 1) × (p − 1) calculée à
partir de S, l’estimateur sans biais de la matrice de variance-covariance théorique Σ (voir
Chapitre
2),
– S̃ est le déterminant de la matrice S̃ et
où χ2(p−2)(p+1)/2,1−α est le quantile d’ordre 1 − α à gauche du χ2 avec un d.d.l. égal à (p − 2)(p +
1)/2. Dans le cas contraire, on ne rejette pas l’hypothèse de circularité et on peut donc mettre
en oeuvre une analyse de variance paramétrique basée sur des statistiques de décision F de
Fisher-Snédécor.
35
Xi1k
Xi2k
..
.
Xik =
Xijk
.
..
Xipk
On suppose que, dans chaque groupe k = 1, · · · , K, les ve.a. X1k , · · · , Xik , · · · , Xnk , constituent
un échantillon aléatoire de vecteurs indépendants et identiquement distribués suivant la loi
normale de moyenne µk et de matrice de variance-covariance Σk , c’est-à-dire Xik ∼ Np (µk , Σk ),
∀ i = 1, · · · , n.
Le test préliminaire à la mise en oeuvre d’une analyse de variance en mesures répétées à
l’aide de statistiques de décision F de Fisher-Snédécor est donc le suivant
H0 : Les matrices Σk sont homogènes et circulaires
H1 : Négation de H0 .
Ce test s’effectue en deux étapes, la première portant sur l’homogénéité des matrices de
variance-covariance des différents groupes et la seconde sur la circularité de ces matrices (sup-
posées homogènes).
1. Homogénéité des matrices Σk . L’hypothèse d’homogénéité des K matrices de variance-
covariance se traduit de la manière suivante
(
(1) 0 0 0
H0 : C · Σ1 · C = C · Σ2 · C = · · · = C · ΣK · C
(1) (1)
H1 : Négation de H0 .
Pour construire la statistique de décision, on commence par estimer séparément chacune des
K matrices Σk par son estimateur sans biais Sk . On construit ensuite les matrices transformées,
0
d’ordre (p − 1) × (p − 1), S̃k = C · Sk · C et l’estimateur global (si les matrices sont homogènes)
est la matrice pondérée S̃ définie par
K
1 X
S̃ = S̃k
K k=1
K
X
K = (N − K) ln S̃ − (n − 1) ln S̃k
k=1
2
2p − p − 2 K 1
C = · −
6p(K − 1) n−1 N −K
36
(1)
Sous H0 , cette statistique suit approximativement la loi χ2 avec un d.d.l. égal à p(p − 1)(K −
1)/2. La région critique au seuil α s’écrit
(1)
Si on ne peut pas rejeter H0 , on peut ensuite mettre à l’épreuve l’hypothèse de circularité de
ces matrices supposées homogènes.
2. Circularité ou sphéricité des matrices Σk . Soit Σ la matrice de variance-
covariance commune aux K groupes (par la première étape du test). Nous devons à présent
(2)
vérifier que cette matrice est circulaire c’est-à-dire mettre à l’épreuve l’hypothèse H0 suivante
(
(2) 0
H0 : C · Σ · C = γ · Ip−1 avec γ > 0
(2) (2)
H1 : Négation de H0 .
suivant approximativement la loi du χ2 avec un d.d.l. égal à (p − 2)(p + 1)/2. La région critique
est identique à celle donnée pour un seul échantillon (voir Section 4.4). Si on ne peut pas
(2)
rejeter H0 , il est donc possible d’effectuer une analyse de variance paramétrique basée sur les
statistiques F de Fisher-Snédécor pour le plan Sn < GK > ∗Tp .
37
5 INFERENCE SUR LES MOYENNES
5.1 Inférence sur une moyenne µ
Soit un échantillon de v.a. i.i.d., Xi , i = 1, · · · , n, d’espérance µ = E(Xi ) et de variance
σ 2 = V ar(Xi ). On considère le test sur l’espérance µ
H0 : µ = µ0
H1 : µ 6= µ0 (ou µ < µ0 ou µ > µ0 )
X (n) − µ0
√ = Z ∼ N (0, 1) sous H0
σ/ n
et l’intervalle de confiance pour µ au niveau de confiance 1 − α, IC1−α (µ), est donné par
σ σ σ
IC1−α (µ) = X (n) − z1−α/2 · √ , X (n) + z1−α/2 · √ ou X (n) ± z1−α/2 · √
n n n
5.1.2 Si la variance σ 2 est inconnue et l’effectif de l’échantillon est petit (n < 60),
on suppose Hm : Xi i.i.d. ∼ N (µ, σ 2 ), i = 1, · · · , n.
La statistique de décision T et sa loi sous H0 sont
X (n) − µ0 X (n) − µ0
T = √ = ∼ tn−1 , t de Student à n − 1 degrés de liberté
S/ n SX (n)
1
Pn 2 SCE
où S 2 = n−1 2
i=1 (Xi − X (n) ) = n−1 est l’estimateur sans biais de la variance σ et SX (n)
désigne l’écart-type de la moyenne arithmétique X (n) , appelé erreur-type de la moyenne X (n) .
L’intervalle de confiance pour µ au niveau de confiance 1 − α, IC1−α (µ), est donné par
S S
IC1−α (µ) = X (n) − tn−1,1−α/2 · √ , X (n) + tn−1,1−α/2 · √ ou X (n) ± tn−1,1−α/2 · SX (n) .
n n
38
X (n) − µ0 X (n) − µ0
√ = ≈ Z ∼ N (0, 1)
S/ n SX (n)
et l’intervalle de confiance pour µ au niveau de confiance 1 − α, IC1−α (µ),
S S
IC1−α (µ) = X (n) − z1−α/2 · √ , X (n) + z1−α/2 · √ ou X (n) ± z1−α/2 · SX (n) .
n n
1
Pn 2 SCE
où S 2 = n−1 2
i=1 (Xi − X (n) ) = n−1 est l’estimateur sans biais de la variance σ et SX (n)
désigne l’écart-type de la moyenne arithmétique X (n) , appelé erreur-type de la moyenne X (n) .
5.2.1 Si les populations parentes sont normales de variances σ12 et σ22 connues (cas
théorique),
la statistique de décision est
X (n1 ) − X (n2 )
Z= q 2 ∼ N (0, 1) sous H0
σ1 σ22
n1
+ n2
où X (nj ) est la moyenne arithmétique des données de l’échantillon de taille nj , d’espérance µj et
de variance σj2 (j = 1, 2) et l’intervalle de confiance pour µ1 −µ2 au niveau 1−α, IC1−α (µ1 −µ2 ),
est donné par s
σ12 σ22
IC1−α (µ1 − µ2 ) = X (n1 ) − X (n2 ) ± z1−α/2 · +
n1 n2
5.2.2 Si les deux populations sont normales de variances σ12 et σ22 inconnues mais
supposées homogènes (σ12 = σ22 ) c’est-à-dire
Hm : Xij i.i.d. ∼ N (µj , σ 2 ), pour j = 1, 2, i = 1, · · · , nj .
Soit Sj2 l’estimateur sans biais de la variance σj2 de l’échantillon de taille nj (j = 1, 2) et S ∗2 ,
l’estimateur sans biais de la variance commune σ12 = σ22 = σ 2 , défini par
39
Pnj 2
avec SCEj = i=1 (Xij − X j ) la somme des carrés d’écarts de l’échantillon j (j = 1, 2).
La statistique de décision 41 T et sa loi sous H0 sont
X (n1 ) − X (n2 ) X (n1 ) − X (n2 )
T = q = ∼ tn1 +n2 −2 , t de Student à n1 + n2 − 2 d.d.l.
S∗ · 1
+ 1 S(X (n ) −X (n ) )
n1 n2 1 2
q
= S∗ · 1 1
où S(X (n −X (n2 ) ) n1
+ n2
désigne l’erreur-type de X (n1 ) − X (n2 ) .
1)
On peut mesurer la taille de l’effet (effect size, en anglais) de la V.I. (le facteur “Groupes”
à deux modalités G2 ) sur la VD X, par l’effet standardisé (ES) δ défini par
µ1 − µ2
δ=
σ
dont l’estimateur 42 noté D (également appelé le d de Cohen) est défini par
X (n1 ) − X (n2 ) D−δ
D= ∗
de distribution donnée par q ∼ tn1 +n2 −2 .
S 1
+ 1 n1 n2
40
5.2.4 Si au moins un des effectifs n1 et n2 est faible (n1 ou n2 < 60) et si les
populations parentes ne sont pas normales ou si les populations parentes
sont normales mais les variances σ12 et σ22 inconnues sont différentes,
on devra avoir recours à une méthode statistique non paramétrique 45 .
0
5.3 Inférence sur deux moyennes µ et µ , mesures répétées
0
Soient Xi et Xi deux mesures répétées de la même variable quantitative sur les sujets i, i =
0 0
1, · · · , n (plan S ∗ T2 ). Considérons les moyennes µ = E[Xi ] et µ = E[Xi ]. Le test s’écrit
0
H0 : µ = µ
0 0 0
H1 : µ 6= µ (ou µ < µ ou µ > µ )
0
Considèrons les différences Di = Xi − Xi (pour i = 1, · · · , n). Ce test peut se traduire 46 en une
inférence sur la moyenne des différences µD en se basant sur la moyenne arithmétique D(n) et
2 2
la variance σD (ou son estimateur sans biais SD (n)
), c’est-à-dire
H0 : µD = 0
H1 : µD 6= 0 (ou µD < 0 ou µD > 0)
Pour la suite, vous procèderez comme en Section 5.1 en vous appuyant sur l’échantillon
a.i.i.d. Di , i = 1, · · · , n, avec la norme µD0 = 0 sous H0 . La taille de l’effet de la V.I. (le facteur
“Traitement” à deux modalités T2 ) sur la VD X est donnée par l’effet standardisé (ES) δ défini
par
µD
δ=
σD
dont l’estimateur (également appelé le d de Cohen) est défini par δb = D . SD
L’interprétation de la taille de l’effet estimée δb est identique à celle donnée en 5.2.2.
n1 −1 + n2 −1
problème de Behrens-Fisher. En pratique, on n’utilise cette formule que lorsque les effectifs n1 et n2 sont petits
et diffèrent sensiblement. Lorsque n1 = n2 , on peut utiliser la loi t de Student à n1 + n2 − 2 degrés de liberté
et lorsque n1 et n2 sont grands, on peut utiliser la loi N (0, 1). Remarquons néanmoins qu’il est important de
s’interroger sur le bien-fondé de la comparaison de deux moyennes lorsque les dispersions sont très différentes.
0 0
46. Par la linéarité de l’espérance mathématique, µD = E[Di ] = E[Xi ] − E[Xi ] = µ − µ .
41
6 ANALYSE DE VARIANCE (ANOVA)
6.1 Un facteur (G), K échantillons indépendants, plan S < GK >
(structure d’emboı̂tement)
On dira que les sujets sont emboı̂tés dans les K différentes modalités du facteur G. Soit K
échantillons indépendants, ∀ j = 1, · · · , K, (Xij )i=1,··· ,nj éch.a. i.i.d. ∼ N (µj , σ 2 ), on désigne
Xij : v.a. du sujet i dans le groupe j,
nj : effectif du groupe j,
Xj : moyenne du groupe j,
X : moyenne générale et
: effectif total des K groupes (N = K
P
N j=1 nj )
µj = µ + αj avec
K
1 X
µ = · nj µj (la moyenne générale) et
N j=1
αj = µj − µ (l’effet de la modalité j du facteur G)
puisque
K
X K
X K
X K
X
nj α j = nj (µj − µ) = nj µj − nj µ = N · µ − N · µ = 0
j=1 j=1 j=1 j=1
42
Equation fondamentale de l’analyse de variance :
PK Pnj 2 PK 2 PK Pnj 2
j=1 i=1 (Xij − X) = j=1 nj (X j − X) + j=1 i=1 (Xij − X j )
notées SCT = SCG + SCR
(d.d.l.) : (N − 1) = (K − 1) + (N − K)
On calcule ensuite les Carrés Moyens associés aux deux sommes de carrés expliqués et
non expliqués par le facteur, notés respectivement CMG et CMR . La statistique de décision
permettant de mettre à l’épreuve l’hypothèse d’absence d’effet du facteur est le quotient de
ces carrés moyens, dont la loi de probabilité, sous H0 et sous l’hypothèse de normalité et
d’homoscédasticité des populations, est un F de Fisher-Snédécor dont les degrés de libertés
correspondent à ceux de ces carrés moyens. Il est d’usage de présenter le calcul de la valeur
observée de cette statistique de décision dans un tableau, appelé tableau de l’analyse de variance,
de la forme suivante.
43
où
Pnj
Tj désigne le total du groupe j, Tj = i=1 X ,
PKij
T le total général des observations, T = j=1 Tj ,
SCEj la somme des carrés d’écarts à la moyenne dans le groupe j,
Pnj 2
SCEj = i=1 Xij − X j , et
Sj2 l’estimateur sans biais de la variance du groupe
P j, Tj2
2
2 1
P nj
SCE j 1 nj 2
Sj = nj −1 i=1 Xij − X j = nj −1 = nj −1 i=1 Xij − nj .
Il est important de rappeler que les sommes de carrés et les degrés de liberté sont addi-
tifs. L’estimateur sans biais de la variance σ 2 dans les K populations (variance commune par
l’hypothèse d’homoscédasticité) est le carré moyen résiduel (ou intra) CMR . De plus, on peut
monter que si αj = µj − µ (pour tout j = 1, · · · , K)
2
P
2 j nj αj
E (CMG ) = σ +
K −1
On peut mesurer la taille de l’effet du facteur G sur la variable dépendante X par le carré
du rapport de corrélation ηX|G défini par
2 SCG
ηX|G =
SCT
donnant la proportion de la somme des carrés des écarts d’écarts de la VD (la variable X)
qui est expliquée par la VI (le facteur G). On peut généraliser cet indice pour des plans plus
complexes de l’analyse de la variance.
Remarque. On distingue dans l’analyse de variance, les modèles fixe et aléatoire. Dans le
modèle fixe, les K modalités du facteur G sont fixées et la comparaison des moyennes ne porte
que sur ces K modalités. La technique développée ci-dessus n’est valable que si le modèle est fixe.
Le modèle aléatoire peut être considéré comme un modèle d’échantillonnage à deux niveaux : on
choisit d’abord au hasard les K populations à comparer puis dans chacune de celles-ci, on prélève
au hasard un échantillon d’effectif nj . Dans les modèles aléatoires, l’hypothèse de normalité des
observations est souvent cruciale et, bien que certains problèmes soient développés dans le cas
non équilibré, il est préférable de se limiter au cas équilibré. Les techniques adaptées pour la
comparaison des K moyennes dans le modèle aléatoire sont des techniques approximatives que
nous ne développerons pas ici (voir par exemple Abdi opcit.).
44
6.2 Un facteur (A), mesures répétées, plan Sn ∗ Tp (structure de croi-
sement)
On dira que les sujets sont croisés avec les p différentes modalités du facteur
A, parfoisappelé
traitement. Soit un échantillon de n vecteurs aléatoires i.i.d. de dimension p, (Xij )j=1,··· ,p ,
i=1,··· ,n
correspondant à p échantillons appariés (Xij )i=1,··· ,n pour j = 1, · · · , p, où
Xij : v.a. du sujet i lors de la jème répétition,
n : effectif de l’échantillon (nombre de sujets),
p : nombre de répétitions (ou de modalités du facteur A),
X •j : moyenne de la répétition j,
X i• : moyenne du sujet i,
X •• : moyenne générale (parfois notée X) et
N : nombre de données (N = np)
On considère le vecteur-profil des données d’un même sujet i lors des p répétitions,
Xi1
Xi2
..
.
Xi =
Xij
.
..
Xip
On suppose que ces vecteurs constituent un échantillon aléatoire i.i.d. suivant une loi normale
multivariée de dimension p, d’espérance µ et de matrice de variance-covariance Σ, c’est-à-dire
Xi ∼ Np (µ, Σ), ∀ i = 1, · · · , n.
Pour pouvoir écrire simplement le test portant sur l’effet du facteur “répétition” (A), on
décompose l’espérance µij = E(Xij ), du résultat Xij du sujet i dans la répétition (ou condition)
j, en l’espérance ou moyenne générale µ•• , l’effet du facteur “sujet” αi et l’effet du facteur
“répétition” βj :
Il est intéressant de noter que suivant la définition des effets du facteur “sujet” et du facteur
“répétition”, la somme de ces effets est toujours égale à 0
n p
X X
αi = βj = 0.
i=1 j=1
45
L’effet du facteur “répétition” (A) est testé par
(
(A)
H0 : µ•1 = µ•2 = · · · = µ•p (absence d’effet du facteur A)
(A) (A)
H1 : négation de H0 (∃ j1 , j2 ∈ {1, · · · , p} tels que µ•j1 6= µ•j2 )
Le facteur “sujet” S est un facteur aléatoire alors que, comme annoncé précédemment, le
facteur A est fixe. On parle dans ce cas d’un modèle mixte. Dans ce modèle, il n’est pas permis
de tester l’effet du facteur “sujet”. Par contre, lorsque le facteur A est aléatoire, ce test est
possible 48 .
L’analyse de variance à un facteur en groupes appariés, s’effectue en décomposant la somme
des carrés des écarts à la moyenne générale, appelée Somme des Carrés des écarts Totaux et
notée SCT , en trois sommes de carrés, la Somme de Carrés d’écarts expliqués par le facteur
“répétition” A (ou inter répétitions), notée SCA , la Somme de Carrés d’écarts expliqués par le
facteur “sujets” S (ou inter sujets), notée SCS et la Somme de Carrés d’écarts non expliqués par
ces deux facteurs, Résiduelle ou intra, notée SCR . Cette dernière somme de carrés correspond
également à l’interaction entre le facteur “sujet” et le facteur “répétition” ; dans ce modèle,
ces deux sommes de carrés sont confondues. A chacune de ces trois sommes correspond un
nombre de degrés de liberté noté d.d.l.. Cette décomposition, appelée équation fondamentale
de l’analyse de variance à un facteur (A), échantillons appariés, est donnée ci-dessous.
46
de ces carrés moyens utilisés. Ces résultats sont habituellement présentés dans le tableau de
l’analyse de variance suivant
CMA
F (A) = ∼ Fp−1,(n−1)(p−1) , F de Fisher-Snédécor à (p − 1, (n − 1)(p − 1)) d.d.l.
CMR
Pour le calcul des sommes de carrés (SC), on pourra utiliser les formules équivalentes
suivantes :
p n p n
X X 2 X X T2
SCT = (Xij − X •• ) = Xij 2 −
j=1 i=1 j=1 i=1
N
n n
X T2
X 2 i• T2
SCS = p (X i• − X •• ) = −
i=1 i=1
p N
p p2
X 2 X T•j T2
SCA = n (X •j − X •• ) = −
j=1 j=1
n N
49. Pour le test permettant de mettre à l’épreuve l’absence d’effet du facteur “sujet” lorsque le facteur A est
aléatoire (voir remarque précédente), la statistique de décision est
CMS (S)
F (S) = ∼ Fn−1,(n−1)(p−1) , F de Fisher-Snédécor à (n − 1, (n − 1)(p − 1)) d.d.l. sous H0 .
CMR
47
p n p n n p 2
X X 2 X X
2
X T2 i•
X T•j T2
SCR = (Xij − X i• − X •j + X •• ) = Xij − − +
j=1 i=1 j=1 i=1 i=1
p j=1
n N
où
désigne le total du sujet i, Ti• = pj=1 Xij ,
P
Ti•
Pn
T•j désigne le total de la répétition j, T•j =
P i=1 Xij ,P
et
T le total général des observations, T = ni=1 Ti• = pj=1 T•j .
Il est important de rappeler que les sommes de carrés et les degrés de liberté sont additifs.
On trouve dans la littérature différentes manières de mesurer la taille de l’effet du facteur
A sur la variable dépendante X. Citons d’abord le η 2 partiel, noté ηP2 et défini par
SCA SCA
ηP2 = =
SCT − SCS SCA + SCR
et ensuite le η 2 généralisé, noté ηG
2
et défini par
2 SCA
ηG =
SCA + SCS + SCAS
2
qui peut s’écrire simplement ηG = SCA
SCT
lorsque le plan ne comporte qu’un seul facteur.
Un cas particulier de matrice de variance-covariance Σ circulaire est la matrice
1 ρ ρ ··· ··· ρ
ρ 1 ρ ··· ··· ρ
..
. ρ 1 ρ · · · ρ
2
Σ = σ .. .. . . . .. . .
. . ..
. . .
. . .
.. .. .. 1 ρ
ρ ρ ··· ρ ρ 1
Autrement dit, si les p variables aléatoires correspondant aux différents traitements ont même
variance (σ 2 ) et les covariances entre ces variables prises deux par deux sont égales (ρσ 2 ), la
matrice Σ est circulaire (mais cette condition n’est pas nécessaire). Dans ce cas, l’estimateur
sans biais de la variance commune σ 2 dans chacune des np populations est le carré moyen
résiduel (ou intra) CMR .
En général, l’estimateur sans biais de la matrice Σ est la matrice des estimateurs sans biais
de chacune des variances et des covariances prises séparément ; cette matrice, notée S, est définie
au Chapitre 2 et reprise au Chapitre 4.
Remarque. Le calcul des carrés moyens peut également s’effectuer comme suit :
CMA est la variance
sans biais desPmoyennes par groupe multipliée par n, c’est-à-dire
p 2
n
Pp 2 ( j=1 X •j )
CMA = p−1 j=1 X •j − p
et
CMS est la variance
sans biais desPmoyennes par sujet multipliée par p, c’est-à-dire
n 2
p Pn 2 ( i=1 X i• )
CMS = n−1 i=1 X i• − n
.
Lorsque la matrice de variance-covariance Σ n’est pas circulaire, on peut utiliser une procédure
approchée, celle-ci est basée sur la quantité, notée ε, définie ci-dessous
0 2
tr C ΣC
ε=
0 2
(p − 1)tr [C ΣC]
48
où C est la matrice d’ordre p × (p − 1), dont les colonnes sont formées par p − 1 contrastes
orthonormés (voir Section 4.4).
On peut montrer que la relation suivante est toujours vérifiée
1
≤ε≤1
p−1
Lorsque la matrice de variance-covariance Σ est circulaire, ε = 1. De plus, on peut dire que
plus la valeur de ε s’éloigne de 1, moins la matrice Σ est circulaire.
En pratique, on estime ε en remplaçant la matrice Σ par son estimateur, la matrice S.
Différentes procédures approchées sont disponibles.
1. Le test ε-ajusté consiste à modifier les degrés de liberté du F (A) utilisé pour mettre à
(A) (A)
l’épreuve l’hypothèse H0 . Plus précisément, sous H0 , on a approximativement
CMA
F (A) = ∼ Fε(p−1),ε(n−1)(p−1)
CMR
Ce type de procédure revient à diminuer le nombre de degrés de liberté de la statistique
F et donc, pour un même seuil de signification α, à augmenter la valeur critique rendant
ainsi plus difficile le rejet de H0 .
1
2. Une autre procédure, la procédure conservatrice, consiste à prendre la valeur ε = p−1
c’est-à-dire à considérer que
CMA
F (A) = ∼ F1,(n−1)
CMR
utilisant ainsi la statistique pour laquelle le nombre de degrés de liberté est minimal. Bien
qu’elle présente l’avantage de ne pas nécessiter l’estimation de ε, cette procédure présente
l’inconvénient de réduire la puissance du test.
3. Une troisième procédure est parfois proposée, il s’agit d’une procédure à trois pas. On
commence par effectuer le test conventionnel comme si la matrice Σ était circulaire. Si
on ne rejette pas l’hypothèse H0 , on ne peut pas prouver l’existence d’un effet du facteur
“répétition” (A) et on peut arrêter le travail. Par contre, si on peut rejeter l’hypothèse
H0 , on passe à la procédure conservatrice. Si cette procédure confirme le rejet de H0 , on
peut conclure à l’effet du facteur “répétition” (A) au seuil α fixé ; la procédure est donc
terminée. Dans le cas contraire, on utilise le test ε-ajusté pour lever la contradiction entre
les deux premières procédures utilisées.
49
6.3.2 Plusieurs données par case : S < Fl × Gc > (non-additif )
Nous nous limiterons au plan équilibré Sn < Fl × Gc >. De plus, nous supposerons que les
deux facteurs sont fixes ; les traitements statistiques correspondant au modèle aléatoire (deux
facteurs aléatoires) et au modèle mixte (un facteur fixe et un facteur aléatoire) sont plus com-
plexes (voir, par exemple, Abdi opcit).
Soient l × c échantillons indépendants tels que ∀ i = 1, · · · , l et ∀ j = 1, · · · , c,
(Xijk )k=1,··· ,n éch.a. i.i.d. ∼ N (µij , σ 2 ). On désigne
L’effet principal du facteur “ligne” se traduit par les αi correspondant aux l modalités de ce
facteur (F ), l’effet principal du facteur “colonne” se traduit par les βj correspondant aux c
modalités de ce facteur (G) et l’effet d’interaction entre les facteurs “ligne” et “colonne” par
les (αβ)ij correspondant aux lc modalités du croisement de ces deux facteurs” 50 .
50. Il est intéressant de noter que, suivant la définition de ces effets, on a
l
X c
X l
X c
X
αi = 0, βj = 0 et (αβ)ij = (αβ)ij = 0
i=1 j=1 i=1 j=1
50
Les paramètres de ce modèle sont au nombre de lc + 1 que l’on peut énumérer comme suit :
la moyenne µ, les l − 1 effets principaux αi du facteur F , les c − 1 effets principaux βj du facteur
G, les (l − 1)(c − 1) effets d’interactions 51 et la variance résiduelle σ 2 .
1. L’effet principal du facteur “ligne” (facteur F ) est testé par
(
(F )
H0 : α1 = α2 = · · · = αl = 0
(F ) (F )
H1 : négation de H0 (∃ i tel que αi 6= 0)
2. l’effet principal du facteur “colonne” (facteur G) par
(
(G)
H0 : β1 = β2 = · · · = βc = 0
(G) (G)
H1 : négation de H0 (∃ j tel que βj 6= 0)
3. et l’effet d’interaction par
(
(F G)
H0 : (αβ)11 = (αβ)12 = · · · = (αβ)lc = 0
(F G) (F G)
H1 : négation de H0 (∃ i, j tel que (αβ)ij 6= 0)
D’autres hypothèses peuvent également être testées en combinant ces trois hypothèses prin-
cipales : l’effet du facteur “ligne” (en combinant les tests 1. et 3.), l’effet du facteur “colonne”
(en combinant les tests 2. et 3.) et l’effet conjoint des deux facteurs (en combinant les trois
tests).
L’analyse de variance à deux facteurs F et G, groupes indépendants, s’effectue en décompo-
sant la somme des carrés des écarts à la moyenne générale, appelée Somme des Carrés des écarts
Totaux et notée SCT , en quatre sommes de carrés, la Somme de Carrés d’écarts expliqués par le
facteur F (ou inter lignes), notée SCF , la Somme de Carrés d’écarts expliqués par le facteur G
(ou inter colonnes), notée SCG , la Somme des Carrés d’écarts expliqués par l’interaction entre
les deux facteurs F et G, notée SCF G et la Somme de Carrés d’écarts non expliqués par les
deux facteurs et par l’interaction, Résiduelle ou intra, notée SCR . A chacune de ces sommes
correspond un nombre de degrés de liberté noté d.d.l.. Cette décomposition, appelée équation
fondamentale de l’analyse de variance à deux facteurs (F et G), échantillons indépendants, est
donnée ci-dessous.
Pl Pc Pn 2 2
= cn li=1 (X i•• − X)
P
SCT = i=1 j=1 (Xijk − X)
k=1
(d.d.l. : N − 1) notée SCF (d.d.l. : l − 1)
2
+ ln cj=1 (X •j• − X)
P
Pl
51. Rappelons que les relations liant ces différents effets (par exemple, i=1 αi = 0) diminuent le nombre de
paramètres libres.
51
On calcule ensuite les Carrés Moyens associés à ces quatre sommes de carrés, notés res-
pectivement CMF , CMG , CMF G et CMR . Les statistiques de décision permettant de mettre à
l’épreuve les hypothèses d’absence d’effet du facteur F , d’absence d’effet du facteur G et d’ab-
sence d’interaction entre les deux facteurs sont les quotients des carrés moyens associés à ces
trois sources de variation et du carré moyen résiduel (ou intra), dont la loi de probabilité, sous
(F ) (G) (F G)
H0 , H0 et H0 respectivement et sous les hypothèses de normalité et d’homoscédasticité
des lc populations, est un F de Fisher-Snédécor de degrés de libertés correspondant à ceux
de ces carrés moyens utilisés. Ces résultats sont habituellement présentés dans le tableau de
l’analyse de variance donné ci-dessous.
Si les hypothèses de normalité et d’homoscédasticité des résidus sont vérifiées, modèle Hm :
εijk i.i.d. ∼ N (0, σ 2 ), ∀i, j, k, les statistiques de décision et leurs lois sont :
- pour le test (1) de l’effet principal du facteur F ,
CMF
F (F ) = ∼ Fl−1,lc(n−1) , F de Fisher à (l − 1, lc(n − 1)) d.d.l.,
CMR
CMG
F (G) = ∼ Fc−1,lc(n−1) , F de Fisher à (c − 1, lc(n − 1)) d.d.l. et
CMR
CMF G
F (F G) = ∼ F(l−1)(c−1),lc(n−1) , F de Fisher à ((l − 1)(c − 1), lc(n − 1)) d.d.l.
CMR
Rappelons à nouveau que les sommes de carrés et les degrés de liberté sont additifs :
52
Pour le calcul des sommes de carrés (SC), on pourra utiliser les formules équivalentes
suivantes :
l X c X n l X c X n
X 2 X T2
SCT = (Xijk − X) = Xijk 2 −
i=1 j=1 k=1 i=1 j=1 k=1
N
l l
X 2 1 X 2 T2
SCF = cn (X i•• − X) = T −
i=1
cn i=1 i• N
c c
X 1 X 2
2 T2
SCG = ln (X •j• − X) = T −
j=1
ln j=1 •j N
l X
c X
n l X
c X
n l c
X 2 X
2 1 XX 2
SCR = (Xijk − X ij• ) = Xijk − T
i=1 j=1 k=1 i=1 j=1 k=1
n i=1 j=1 ij
l X
X c l X
X c
= (n − 1)Sij2 = SCEij
i=1 j=1 i=1 j=1
SCF G = SCT − (SCF + SCG + SCR )
l c l c
1 XX 2 1 X 2 1 X 2 T2
= Tij − Ti• − T•j +
n i=1 j=1 cn i=1 ln j=1 N
où
j), Tij = nk=1 Xijk ,
P
Tij désigne le total de la case (i,P
Ti• le total de la ligne i, Ti• = cj=1 Tij ,
le total de la colonne j, T•j = li=1 Tij
P
T•j
le total général des observations, T = li=1 Ti• = cj=1 T•j ,
P P
T
2
la somme des carrés d’écarts dans la case (i, j), SCEij = nk=1 (Xijk − X ij• )
P
SCEij
1
Pn 2
Sij2 la variance sans biais dans la case (i, j), Sij2 = n−1 k=1 (Xijk − X ij• ) .
L’estimateur sans biais de la variance résiduelle σ 2 dans les lc populations (variance com-
mune par l’hypothèse d’homoscédasticité) est le carré moyen résiduel (ou intra) CMR .
Remarquons que puisque le plan est équilibré (même effectif n dans chaque case du tableau
de données), le calcul des carrés moyens peut également s’effectuer comme suit :
CMR est la moyenne des variances sans biais Sij2 dans chacune des cases,
CMR = lc1 li=1 cj=1 Sij2 ,
P P
CMF est la variance sans biais desPmoyennes par ligne X i•• multipliée par cn,
l 2
cn
P l 2 ( i=1 i•• )
X
CMF = l−1 i=1 X i•• − l
et
CMG est la variance
sans biais des P
moyennes par colonne X •j• multipliée par ln,
c 2
ln
Pc 2 ( j=1 •j• )
X
CMG = c−1 j=1 X •j• − c
.
53
deux facteurs sont aléatoires (appelé modèle complètement aléatoire), ne sera pas traité dans ce
texte (voir par exemple Abdi opcit.). Les sujets sont donc croisés avec chacune des lc modalités
provenant du croisement des facteurs A et B, parfois appelés traitements.
Soit un échantillon de n vecteurs aléatoires de dimension l × c,
(Xijk )
j = 1, · · · , l
k = 1, · · · , c i=1,··· ,n
où
Xijk : la v.a. du sujet i lors de la combinaison de la jème modalité du facteur
A et de la kème modalité du facteur B
n : effectif de l’échantillon (nombre de sujets)
l : nombre de modalités du facteur A
c : nombre de modalités du facteur B
X i•• : moyenne du sujet i (lors des lc répétitions)
X •j• : moyenne de la jème modalité du facteur A (pour les différents sujets i lors
des c répétitions correspondant au facteur B)
X ••k : moyenne de la kème modalité du facteur B (pour les différents sujets i lors
des l répétitions correspondant au facteur A)
X •jk : moyenne correspondant à la combinaison de la jème modalité du facteur A
et de la kème modalité du facteur B (pour les différents sujets i)
X ij• : moyenne du sujet i lors de la jème modalité du facteur A
(pour les c modalités du facteur B)
X i•k : moyenne du sujet i lors de la kème modalité du facteur B
(pour les l modalités du facteur A)
X ••• : moyenne générale (parfois notée X)
N : nombre total de données (N = nlc)
On considère le vecteur-profil des données d’un même sujet i lors des lc différents traitements
provenant du croisement des l modalités du facteur A et des c modalités du facteur B,
0
Xi = Xi11 Xi12 · · · Xi1c Xi21 Xi22 · · · Xi2c · · · Xil1 · · · Xilc
On suppose que ces vecteurs constituent un échantillon aléatoire suivant la loi normale multi-
variée de dimension lc, d’espérance µi et de matrice de variance-covariance Σ, c’est-à-dire les
n vecteurs aléatoires, Xi , ∀ i = 1, · · · , n, sont indépendants et ∼ Nlc (µi , Σ) avec les vecteurs
µi , de dimension lc, des espérances µijk = E (Xijk ),
0
µi = µi11 µi12 · · · µi1c µi21 µi22 · · · µi2c · · · µil1 · · · µilc
2
et la matrice de variance-covariance (symétrique) Σ de dimension lc où σX ijk
est la variance
des données d’un même sujet i lors du croisement des modalités j du facteur A et k du facteur
B et σXijk Xij0 k0 est la covariance des données Xijk et Xij 0 k0 d’un même sujet i, ∀ i = 1, · · · , n,
2
σX i11
σXi11 Xi12 ··· σXi11 Xilc
σX X 2
i11 i12
σX i12
σXi12 Xilc
Σ=
.. ... ..
. .
2
σXi11 Xilc ··· σXil(c−1) Xilc σX ilc
54
Pour pouvoir écrire les différents tests relatifs à l’effet des facteurs et à leur interaction, on
décompose la donnée Xijk du sujet i lors de la combinaison de la jème modalité du facteur A
et de la kème modalité du facteur B de la manière suivante :
Xijk = µijk + εijk = µ + αj + βk + (αβ)jk + δi + (αδ)ij + (βδ)ik + (αβδ)ijk + εijk où
Le dernier terme (αβδ)ijk correspond à l’interaction entre le facteur “sujet” et les facteurs A
et B, cette interaction est appelée interaction d’ordre deux dans la mesure où elle fait intervenir
trois variables. Ce terme est confondu avec le terme d’erreur ou résiduel (comme dans le cas
des mesures répétées, plan Sn ∗ Tp ).
Il est intéressant de noter que par définition de ces effets, les relations suivantes sont vérifiées
l
X c
X l
X c
X
αj = 0, βk = 0, (αβ)jk = (αβ)jk = 0,
j=1 k=1 j=1 k=1
55
n
X n
X l
X n
X c
X
δi = 0, (αδ)ij = (αδ)ij = 0, (βδ)ik = (βδ)ik = 0
i=1 i=1 j=1 i=1 k=1
n
X l
X c
X
et (αβδ)ijk = (αβδ)ijk = (αβδ)ijk = 0
i=1 j=1 k=1
Ces relations permettent d’écrire simplement les tests relatifs aux différents effets des facteurs
fixes 52 .
1. L’effet principal du facteur A est testé par
(
(A)
H0 : α1 = α2 = · · · = αl = 0 (absence d’effet)
(A) (A)
H1 : négation de H0 (∃ j ∈ {1, · · · , l} tel que αj 6= 0)
D’autres hypothèses peuvent également être testées en combinant ces trois hypothèses prin-
cipales : l’effet du facteur A (en combinant les tests 1. et 3.), l’effet du facteur B (en combinant
les tests 2. et 3.) et l’effet conjoint des deux facteurs (en combinant les trois tests).
L’analyse de variance à deux facteurs A et B, mesures complètement répétées, s’effectue
en décomposant la somme des carrés des écarts à la moyenne générale, appelée Somme des
Carrés des écarts Totaux et notée SCT , en sept sommes de carrés, la Somme de Carrés d’écarts
expliqués par le facteur A (ou inter lignes), notée SCA , la Somme de Carrés d’écarts expliqués
par le facteur B (ou inter colonnes), notée SCB , la Somme des Carrés d’écarts expliqués par
l’interaction entre les deux facteurs A et B, notée SCAB , la Somme des Carrés des écarts
expliqués par le facteur “sujet” S (ou inter sujets), notée SCS , la Somme des Carrés d’écarts
expliqués par l’interaction entre le facteur A et le facteur “sujet” S, notée SCAS , la Somme
des Carrés d’écarts expliqués par l’interaction entre le facteur B et le facteur “sujet” S, notée
SCBS et la Somme de Carrés d’écarts Résiduelle ou intra, notée SCR (qui est confondue avec la
somme de carrés d’écarts expliqués par l’interaction entre le facteur “sujet” et les deux facteurs
A et B, parfois notée SCABS ). A chacune de ces sommes correspond un nombre de degrés de
liberté noté d.d.l.. Cette décomposition, appelée équation fondamentale de l’analyse de variance
à deux facteurs (A et B), mesures complètement répétées, est donnée ci-dessous.
52. On propose parfois des tests permettant de mettre à l’épreuve l’absence d’effet des facteurs A et B lorsqu’ils
sont aléatoires ; ces tests ne sont pas exacts mais approximatifs (voir par exemple, Abdi opcit).
56
Equation fondamentale de l’analyse de variance :
2 2
SCT = ni=1 lj=1 ck=1 (Xijk − X) = cn lj=1 (X •j• − X)
P P P P
On calcule ensuite les Carrés Moyens associés à ces sept sommes de carrés, notés res-
pectivement CMA , CMB , CMAB , CMS , CMAS , CMBS et CMR . Les statistiques de décision
permettant de mettre à l’épreuve les hypothèses d’absence d’effet du facteur A, d’absence d’ef-
fet du facteur B et d’absence d’interaction entre les deux facteurs A et B sont les quotients
des carrés moyens associés à ces trois sources de variation et du carré moyen intra associé
(A) (B) (AB)
(CMAS , CMBS et CMR respectivement), dont la loi de probabilité, sous H0 , H0 et H0
respectivement et sous les hypothèses de normalité multivariée et de régularité de la matrice de
variance-covariance (voir ci-dessous), est un F de Fisher-Snédécor de degrés de libertés corres-
pondant à ceux de ces carrés moyens utilisés. Ces résultats sont habituellement présentés dans
le tableau de l’analyse de variance page suivante.
57
- pour le test (1) de l’effet principal du facteur A,
CMA
F (A) = ∼ Fl−1,(l−1)(n−1) , F de Fisher à (l − 1, (l − 1)(n − 1))) d.d.l.,
CMAS
CMB
F (B) = ∼ Fc−1,(c−1)(n−1) , F de Fisher à (c − 1, (c − 1)(n − 1)) d.d.l. et
CMBS
CMAB
F (AB) = ∼ F(l−1)(c−1),(l−1)(c−1)(n−1) , à (l − 1)(c − 1), (l − 1)(c − 1)(n − 1) ddl
CMR
CMA
inter l−1 SCA CMA F (A) = CM AS
∼
lignes (A) Fl−1,(l−1)(n−1)
CMB
inter c−1 SCB CMB F (B) = CM BS
∼
colonnes (B) Fc−1,(c−1)(n−1)
CMAB
interaction (l − 1)× SCAB CMAB F (AB) = CMR
∼
A×B (c − 1) F(l−1)(c−1),(l−1)(c−1)(n−1)
Pour le calcul des sommes de carrés (SC), on pourra utiliser les formules équivalentes
58
suivantes :
n X
l X
c n X
l X
c
X 2 X T2
SCT = (Xijk − X) = Xijk 2 −
i=1 j=1 k=1 i=1 j=1 k=1
N
l l 2
X 2 X T•j• T2
SCA = cn (X •j• − X) = −
j=1 j=1
cn N
c c 2
X 2 X T••k T2
SCB = ln (X ••k − X) = −
k=1 k=1
ln N
n n 2
X 2 X Ti•• T2
SCS = lc (X i•• − X) = −
i=1 i=1
lc N
l Xc
X 2
SCAB = n (X •jk − X •j• − X ••k + X)
j=1 k=1
l X
c 2 l 2 c 2
X T•jk X T•j• X T••k T2
= − − +
j=1 k=1
n j=1
cn k=1
ln N
n X
l
X 2
SCAS = c (X ij• − X i•• − X •j• + X)
i=1 j=1
n X
l 2 n l 2
X Tij• X T2 i••
X T•j• T2
= − − +
i=1 j=1
c i=1
lc j=1
cn N
n X c
X 2
SCBS = l (X i•k − X i•• − X ••k + X)
i=1 k=1
n X
c n c
X T2 i•k
X T2 i••
X T2 ••k T2
= − − +
i=1 k=1
l i=1
lc k=1
ln N
SCR = SCT − (SCA + SCB + SCAB + SCS + SCAS + SCBS )
n Xl Xc
X 2
= (Xijk + X i•• + X •j• + X ••k − X ij• − X i•k − X •jk − X)
i=1 j=1 k=1
n X
l X
c l 2 c n
X
2
X T•j• X T2 ••k
X T2 i••
= Xijk + + +
i=1 j=1 k=1 j=1
cn k=1
ln i=1
lc
n X
l 2 n X
c l X
c 2
X Tij• X T2 i•k
X T•jk T2
− − − −
i=1 j=1
c i=1 k=1
l j=1 k=1
n N
où
59
désigne le total du sujet i, Ti•• = lj=1 ck=1 Xijk ,
P P
Ti••
T•j• désignePle total de la ligne j (modalité j = 1, · · · , l du facteur A)
n Pc
T•j• = i=1 k=1 Xijk ,
T••k désigne le total de la colonne k (modalité k = 1, · · · , c du facteur B)
T••k = ni=1 lj=1 Xijk ,
P P
Lorsque cette hypothèse d’homogénéité des variances et des corrélations entre les différen-
tes modalités des deux facteurs (voir ci-dessus) ne semble pas vérifiée, il est possible d’utili-
ser le modèle de l’analyse de variance multivariée (MANOVA) pour lequel aucune structure
particulière de la matrice de variance-covariance Σ n’est requise. Cependant, cette technique
nécessite l’estimation de tous les paramètres de cette matrice, soit lc(lc + 1)/2 paramètres. Elle
a donc l’inconvénient d’entraı̂ner une baisse considérable de la puissance du test et de n’être
applicable que lorsque le nombre de sujets est important ; plus précisément, il faut que n > lc.
Remarquons que l’analyse de variance multivariée (MANOVA) permet également de traiter du
plan Sn ∗ Tp (mesures répétées sur un seul facteur) lorsque la matrice de variance-covariance
ne satisfait pas l’hypothèse de circularité (voir Section 6.2). Mais à nouveau, cette méthode
entraı̂ne une perte de puissance et requiert un nombre important de sujets.
Nous nous limiterons donc au plan équilibré (n sujets dans chacun des K groupes). Les sujets
sont donc emboı̂tés dans K groupes indépendants et croisés avec les p modalités du facteur A
(souvent appelé “traitement”).
60
Xijk : v.a. du sujet k dans le groupe i lors de la jème répétition
n : effectif de chacun des K groupes
K : nombre de groupes indépendants (ou modalités du facteur G)
p : nombre de répétitions (ou modalités du facteur A)
X i•• : moyenne du groupe i (i = 1, · · · , K)
X •j• : moyenne de la répétition j (j = 1, · · · , p)
X ij• : moyenne du groupe i lors de la répétition j
X i•k : moyenne du kème sujet du groupe i (lors des différentes répétitions j)
X ••• : moyenne générale (parfois notée X)
N : nombre de sujets (N = nK)
On considère le vecteur-profil des données d’un même sujet k du groupe i lors des p
répétitions,
Xi1k
Xi2k
.
.
.
Xik =
Xijk
.
..
Xipk
On suppose qu’au sein d’un même groupe i fixé (i = 1, · · · , K), ces vecteurs constituent un
échantillon aléatoire i.i.d. suivant une loi normale multivariée de dimension p, d’espérance µi et
de matrice de variance-covariance Σi , c’est-à-dire ∀i = 1, · · · , K, les n ve. a. Xik (k = 1, · · · , n),
sont i.i.d. ∼ Np (µi , Σi ) avec le vecteur µi des espérances µij , j = 1, · · · , p
µi1
µi2
.
.
.
µi =
µij
.
..
µip
2
et la matrice de variance-covariance (symétrique) Σi , où σX ij
est la variance de la donnée Xijk
de chaque sujet k du groupe i lors de la répétition j et σXij1 Xij2 est la covariance entre les
données Xij1 k et Xij2 k d’un même sujet k du groupe i lors des répétitions j1 et j2 ,
2
σX i1
σX i1 X i2
· · · σX i1 X ij
· · · σ Xi1 X ip
2
σX X
i1 i2
σX i2
σXi2 Xij · · · σXi2 Xip
.. . . ..
. . .
Σi = 2
σX i1 X ij
σX ij
σ X ij Xip
.. ..
..
.
. .
2
σXi1 Xip ··· · · · σXij Xip σX ip
Il est souvent intéressant de tester l’effet du facteur “groupe” G, l’effet du facteur “répétition”
A et l’effet d’interaction entre ces deux facteurs. Pour pouvoir écrire ces différents tests, on
décompose l’espérance µij = E(Xijk ), de la donnée d’un sujet k dans le groupe i lors de
la répétition j, Xijk , en la moyenne générale µ, l’effet du facteur G, αi , l’effet du facteur
“répétition” A, βj , et l’effet de l’interaction entre ces deux facteurs, (αβ)ij ,
61
µij = µ + αi + βj + (αβ)ij avec
K p
1 XX
µ = · µij
Kp i=1 j=1
p
1X
αi = µi• − µ où µi• = µij
p j=1
K
1 X
βj = µ•j − µ où µ•j = µij et
K i=1
(αβ)ij = µij − µi• − µ•j + µ = µij − αi − βj − µ
où, pour chaque groupe i fixé (i = 1, · · · , K), les vecteurs aléatoires de résidus εik définis par
0
εik = (εi1k , εi2k , · · · , εijk , · · · εipk )
et que l’effet d’interaction (ou de non-parallélisme des profils) peut également s’écrire
62
3. et l’effet d’interaction entre les deux facteurs par
(
(GA)
H0 : (αβ)11 = (αβ)12 = · · · = (αβ)Kp = 0
(GA) (GA)
H1 : négation de H0 (∃ i, j tel que (αβ)ij 6= 0)
D’autres hypothèses peuvent également être testées en combinant ces trois hypothèses prin-
cipales : l’effet du facteur “groupe” (en combinant les tests 1. et 3.), l’effet du facteur “répétition”
(en combinant les tests 2. et 3.) et l’effet conjoint des deux facteurs (en combinant les trois
tests).
L’analyse de variance à deux facteurs, plan Sn < GK > ∗Tp , s’effectue en décomposant
la somme des carrés des écarts à la moyenne générale, appelée Somme des Carrés des écarts
Totaux et notée SCT , en cinq sommes de carrés, la Somme de Carrés d’écarts expliqués par
le facteur “groupe” G (ou inter groupes), notée SCG , la Somme de Carrés d’écarts expliqués
par le facteur “répétition” A (ou inter répétitions), notée SCA , la Somme des Carrés d’écarts
expliqués par l’interaction entre les deux facteurs G et A, notée SCGA et la Somme de Carrés
d’écarts non expliqués par les deux facteurs et par l’interaction, Résiduelle ou intra, est cette
fois décomposée en deux termes : la Somme de Carrés d’écarts expliqués par la variabilité entre
les sujets à l’intérieur de leur groupe, notée SCR1 , et la Somme de Carrés d’écarts expliqués par
l’interaction entre les sujets et le traitement à l’intérieur de leur groupe, notée SCR2 . A chacune
de ces sommes correspond un nombre de degrés de liberté noté d.d.l.. Cette décomposition,
appelée équation fondamentale de l’analyse de variance à deux facteurs (F et G), échantillons
indépendants, est donnée ci-dessous.
On calcule ensuite les Carrés Moyens associés à ces cinq sommes de carrés, notés respective-
ment CMG , CMA , CMGA , CMR1 et CMR2 . Les statistiques de décision permettant de mettre
à l’épreuve les hypothèses d’absence d’effet du facteur G, d’absence d’effet du facteur A et
d’absence d’interaction entre les deux facteurs sont les quotients des carrés moyens associés
à ces trois sources de variation et d’un carré moyen résiduel (CMR1 ou CMR2 ), dont la loi
(G) (A) (GA)
de probabilité, sous H0 , H0 et H0 respectivement et sous les hypothèses de normalité
multivariée et de régularité de la matrice de variance-covariance (voir ci-dessous), est un F
de Fisher-Snédécor de degrés de libertés correspondant à ceux de ces carrés moyens utilisés.
Ces résultats sont habituellement présentés dans le tableau de l’analyse de variance donné page
suivante.
63
Si les hypothèses de normalité multivariée des résidus εik , et d’homogénéité et de circularité
des matrices de variance-covariance de ces résidus Σi sont vérifiées, c’est-à-dire εik ∼ N (0, Σi ),
∀i, k avec Σi homogènes et circulaires (voir Chapitre 4), les statistiques de décision sont :
- pour le test (1) de l’effet principal du facteur G,
CMG
F (G) = ∼ FK−1,N −K , F de Fisher à (K − 1, N − K)) d.d.l.,
CMR1
CMA
F (A) = ∼ Fp−1,(p−1)(N −K) , F de Fisher à (p − 1, (p − 1)(N − K)) d.d.l. et
CMR2
CMGA
F (GA) = ∼ F(K−1)(p−1),(p−1)(N −K) , à ((K − 1)(p − 1), (p − 1)(N − K)) ddl
CMR2
Rappelons que les sommes de carrés d’écarts et les degrés de liberté sont additifs. Pour le
64
calcul des sommes de carrés (SC), on pourra utiliser les formules équivalentes suivantes :
p
K X n p
K X n
X X 2 X X T2
SCT = (Xijk − X) = Xijk 2 −
i=1 j=1 k=1 i=1 j=1 k=1
Np
K K
X 2 X T2 i•• T2
SCG = np (X i•• − X) = −
i=1 i=1
np Np
p p2
X 2 X T•j• T2
SCA = nK (X •j• − X) = −
j=1 j=1
nK Np
K X
n K X
n K
X 2 X Ti•k 2 X T2 i••
SCR1 = p (X i•k − X i•• ) = −
i=1 k=1 i=1 k=1
p i=1
pn
K p
XX 2
SCGA = n (X ij• − X i•• − X •j• + X)
i=1 j=1
p
K X 2 K p 2
X Tij• X T2 i••
X T•j• T2
= − − +
i=1 j=1
n i=1
np j=1
nK Np
SCR2 = SCT − (SCG + SCA + SCGA + SCR1 )
K Xp n
X X 2
= (Xijk − X ij• − X i•k + X i•• )
i=1 j=1 k=1
p
K X n p
K X 2 K X
n K
X X X Tij• X T2 X T2 i••
= Xijk 2 − − i•k
+
i=1 j=1 k=1 i=1 j=1
n i=1 k=1
p i=1
np
où
Tij• désignePle total de la case (i, j), répétition j dans le groupe i
Tij• = nk=1 Xijk ,
Ti•• désignePle total
Pndu groupeP i,
Ti•• = j=1 k=1 Xijk = pj=1 Tij• ,
p
65
matrice a la forme particulière suivante
1 ρ ρ ··· ··· ρ
ρ 1 ρ ··· ··· ρ
..
.
ρ 1 ρ ··· ρ
2
Σ=σ ..
.. . . . . . . . . ..
.. . .
.... ..
. . . 1 ρ
ρ ρ ··· ρ ρ 1
et l’estimateur sans biais de la variance commune σ 2 dans chacune des populations est le carré
moyen résiduel (ou intra) CMR2 .
En général, l’estimateur sans biais de la matrice de variance-covariance commune Σ est la
matrice pondérée des estimateurs sans biais de chacune des variances et des covariances prises
séparément pour chacun des K groupes ; cette matrice, notée S̃, est définie au Chapitre 4.
Lorsque l’hypothèse d’homogénéité des matrices de variance-covariance est vérifiée mais
que la matrice de variance-covariance commune Σ n’est pas circulaire, on peut utiliser une
procédure approchée basée sur la quantité ε définie ci-dessus (voir Section 6.2). Rappelons
que cette quantité est toujours comprise entre 1/(p − 1) et 1, que ε = 1 pour une matrice
circulaire et que plus la valeur de ε s’éloigne de 1, moins la matrice est circulaire.
En pratique, on estime ε en remplaçant la matrice Σ inconnue par son estimateur sans biais
S̃. Trois procédures approchées sont disponibles.
1. Le test ε-ajusté consiste à modifier les degrés de liberté du F utilisé pour mettre à l’épreuve
(G)
les hypothèses nulles. Plus précisément, si les matrices Σi sont homogènes, sous H0 , la
statistique F (G) n’est pas modifiée
CMG
F (G) = ∼ FK−1,N −K
CMR1
(A)
sous H0 , on a approximativement
CMA
F (A) = ∼ Fε(p−1),ε(N −K)(p−1)
CMR2
(GA)
et sous H0 , on a approximativement
CMGA
F (GA) = ∼ Fε(p−1)(K−1),ε(N −K)(p−1)
CMR2
Ce type de procédure revient à diminuer le nombre de degrés de libertés de la statistique
F et donc, pour un même seuil de signification α, à augmenter la valeur critique rendant
(A) (GA)
ainsi plus difficile le rejet de H0 et H0 .
2. Une autre procédure, la procédure conservatrice, consiste à prendre la valeur
1
ε=
p−1
(A)
c’est-à-dire à considérer que sous H0 , la statistique de décision
CMA
F (A) = ∼ F1,N −K
CMR2
66
(GA)
et sous H0 , la statistique de décision
CMGA
F (GA) = ∼ FK−1,N −K
CMR2
utilisant ainsi la statistique pour laquelle le nombre de degrés de liberté est minimal. Bien
qu’elle présente l’avantage de ne pas nécessiter l’estimation de ε, cette procédure présente
l’inconvénient de réduire la puissance du test.
3. Une troisième procédure est parfois proposée, il s’agit d’une procédure à trois pas. On
commence par effectuer le test conventionnel comme si la matrice Σ était circulaire. Si on
(A) (GA)
ne rejette pas une des deux hypothèses H0 ou H0 , on ne peut pas prouver l’existence
d’un effet (du facteur “répétition” ou d’interaction entre “groupe” et “répétition”) et on
peut arrêter le travail pour cette hypothèse. Par contre, si on peut rejeter une de ces deux
hypothèses nulles, on passe à la procédure conservatrice. Si cette procédure confirme le
rejet de l’hypothèse nulle, on peut conclure à l’existence d’un effet (du facteur “répétition”
ou d’interaction entre “groupe” et “répétition”) au seuil α fixé ; la procédure est donc
terminée. Dans le cas contraire, on utilise le test ε-ajusté pour lever la contradiction entre
les deux premières procédures utilisées.
Lorsque les hypothèses d’homogénéité et de circularité des matrices de variance-covariance
ne sont pas vérifiées, il est également possible d’utiliser la technique de l’analyse de variance
multivariée (MANOVA). Cette méthode a l’inconvénient d’être peu puissante et de nécessiter
des échantillons d’effectif très important.
67
7 LA METHODE DES CONTRASTES
Dans le modèle de l’analyse de variance, les contrastes permettent de comparer deux moyennes
ou plus généralement deux ensembles de moyennes (ou espérances).
La méthode des contrastes est applicable aux différents plans de l’analyse de la variance
étudiés au Chapitre 6 ; pour simplifier l’exposé, nous présentons d’abord ci-dessous le cas
particulier du plan S < GK >, un facteur G et K échantillons indépendants (6.1). A la fin de
ce chapitre, vous trouverez le principe permettant de traiter le cas général, en tenant compte
du terme d’erreur adéquat et de son degré de liberté (voir 7.5).
où K est le nombre de degrés du facteur considéré. Par exemple, pour comparer les degrés 1 et
2 d’un facteur, on prendra le contraste λ = µ1 − µ2 , c’est-à-dire c1 = 1, c2 = −1 et les autres
coefficients nuls (cj = 0 pour j = 3, · · · , K) ; pour comparer le premier degré du facteur aux
deux suivants réunis (2 et 3), on choisira λ = 2µ1 − (µ2 + µ3 ), c’est-à-dire c1 = 2, c2 = c3 = −1
et les autres coefficients (éventuels) nuls.
On distingue les contrastes a priori (ou planifiés) et les contrastes a posteriori (ou post hoc).
Un contraste a priori permet à un expérimentateur de répondre à une question expérimentale
qu’il a posée dès le départ (lors de la conception du plan expérimental) ; par contre, un contraste
a posteriori est une comparaison effectuée au vu des résultats de l’expérience (c’est-à-dire une
fois l’expérience réalisée).
ou on tentera d’estimer ce contraste λ par intervalle de confiance au niveau 1−α, noté IC1−α (λ).
Un contraste λ = K
P PK
j=1 cj µj sera estimé par la statistique L = j=1 cj X j , la combinaison
linéaire appliquée aux moyennes observées. Cet estimateur est un estimateur sans biais du
contraste λ. De plus, si les hypothèses de normalité et d’homoscédasticité au sein des groupes
sont vérifiées,
PK on 2montre que l’estimateur suit une loi normale de moyenne µL = λ et de variance
2 2
σL = σ · j=1 cj /nj ,
K
2
X c2j
L ∼ N (λ, σ · )
j=1
n j
68
La variance intra σ 2 étant inconnue, on l’estime par son estimateur sans biais, qui, pour le
plan S < GK >, est le carré moyen intra CMR dont le nombre de ddl est N − K (voir 6.1) 55 .
On obtient donc la statistique de décision T suivante (de loi sous H0 )
L L
T =r = ∼ tN −K , t de Student à N − K d.d.l.
c2j SL
CMR · K
P
j=1 nj
L2
SCλ = P c2j
K
j=1 nj
et que cette somme de carrés d’écarts n’a qu’un seul degré de liberté ; donc le carré moyen
associé à un contraste est donné par CMλ = SCλ .
Il suffit donc de procéder comme dans le tableau de l’analyse de variance pour obtenir 56
CMλ
F = ∼ F1,N −K , F de Fisher-Snedecor à (1, N − K) ddl.
CMR
Notons que lorsque le plan est équilibré (nj = n constant ∀ j), la somme des carrés des
écarts provenant du contraste peut se calculer par
n · L2
SCλ = PK 2 .
j=1 cj
55. Rappelons ici que dans le cas général, on prendra le carré moyen de l’erreur associé au facteur étudié avec
son degré de liberté (voir Chapitre 6, sections 6.1 à 6.5).
56. Notons néanmoins que cette statistique F ne permet pas de construire un intervalle de confiance sur la
2
valeur du contraste ni d’effectuer un test unilatéral. Il est également intéressant de noter que T 2 = SL2 = F .
PK c c L
57. Dans le cas général (plan non équilibré), la condition d’orthogonalité devient j=1 1jnj2j = 0 ; mais cette
condition est beaucoup moins fréquemment vérifiée car elle donne lieu à des coefficients difficile à justifier dans
la pratique.
69
Pour un facteur à K degrés, on peut trouver K − 1 contrastes orthogonaux deux à deux. Par
exemple, si K = 3, les deux contrastes λ1 = µ1 − µ3 et λ2 = µ1 − 2µ2 + µ3 sont orthogonaux et
il n’est pas possible de construire un 3ème contraste orthogonal à ces deux contrastes.
Lorsque le plan est équilibré, si λ1 , · · · , λi , · · · , λK−1 est une famille de K − 1 contrastes
orthogonaux, alors la somme des carrés des écarts expliqués par le facteur G, SCG , est la somme
des sommes des carrés des écarts provenant de ces K − 1 contrastes,
K−1
X
SCG = SCλi = SCλ1 + · · · + SCλi + · · · + SCλK−1
i=1
chacune de ces sommes de carrés d’écarts ayant un seul ddl (voir ci-dessus). De plus, les degrés
de liberté sont également additifs puisque le nombre de ddl de la somme des carrés des écarts
expliqués par le facteur (SCG ) est égal à K − 1. On peut donc construire le tableau suivant
CMλi
F (i) = ∼ F1,N −K , F de Fisher à (1, N − K) ddl
CMR
Notons que l’on ne parle de contrastes orthogonaux que dans le cas de comparaisons pla-
nifiées ou a priori (voir 7.2).
70
il est important de noter que si la probabilité d’erreur de type I utilisée pour l’inférence sur
chacun de ces contrastes est égale à α, la probabilité qu’il y ait une erreur parmi les C compa-
raisons effectuées n’est en général plus égale à α mais elle lui est de loin supérieure ; on parle de
l’erreur de type I par famille de contrastes par opposition avec l’erreur de type I par contraste. Il
faudra donc être vigilant lorsqu’on souhaite considérer plusieurs contrastes. On distinguera les
cas de contrastes a priori orthogonaux, de contrastes a priori non orthogonaux et de contrastes
a posteriori. Ces différents cas sont développés ci-dessous.
R.C.α (Tλi ) = [−∞; −tN −K,1−α/2 ] ∪ [tN −K,1−α/2 ; +∞[ si test bilatéral ou
α < C · α(C)
Ces deux ingégalités permettent de choisir le seuil α(C) à utiliser pour chacune des C compa-
raisons de telle sorte que la probabilité de l’erreur de type I pour la famille de C contrastes
soit au maximum égale au seuil α fixé. On peut montrer que l’inégalité de Sidàk est meilleure
71
que celle de Boole-Bonferroni-Dunn (α ≤ 1 − [1 − α(C)]C < C · α(C)). Au lieu de calculer le
seuil α(C) à utiliser pour chacun des C contrastes 58 , dans le cas d’alternatives bilatérales, on
peut lire directement dans les tables les valeurs critiques pour les rapports F (i) = CMλi /CMR
(i = 1, · · · , C) en fonction du nombre C de comparaisons planifiées, du nombre de ddl du
dénominateur ν2 = N − K et du seuil α = 0.05 et α = 0.01 pour la famille de C contrastes, soit
FC,N −K,α (voir Tables statistiques 59 9 et 10). La région critique pour un seuil α fixé pour la
famille de C contrastes a priori non orthogonaux (avec des alternatives H1 bilatérales λi 6= 0),
sera donc pour chacun de ces C contrastes
où FC,N −K,α est lu soit dans la table de Sidàk, soit dans la table de Boole-Bonferroni-Dunn.
72
7.4.1 La méthode de Scheffé : tous les contrastes
Scheffé a établi que pour un facteur à K degrés (c’est-à-dire K groupes), on peut utiliser
la valeur critique (K − 1) · FK−1,N −K,1−α (où FK−1,N −K,1−α est la quantile d’ordre 1 − α de
CM
la loi F de Fisher aavec (K − 1, N − K) ddl) pour le rapport F (i) = CMλRi de chacun des
contrastes possibles λi , la probabilité qu’il y ait une erreur de type I parmi tous ces contrastes
possibles étant donnée par α. Ce test est conservateur (ou peu puissant) dans la mesure où il
est relativement rare que l’on considère tous les contrastes possibles.
Il est fréquent que l’on présente la méthode de Scheffé sous la forme d’intervalles de confiance
simultanés pour tous les contrastes possibles, IC(λi ), tels que la probabilité qu’un seul de ces
contrastes λ ne soit pas dans son intervalle de confiance IC(λ), est égale à α. Ces intervalles
de confiance, pour un niveau de confiance “global” 1 − α fixé, sont donnés par
v
K
c2j
u
u X
IC1−α (λ) = L ± t(K − 1)FK−1,N −K,1−α · CMR
n
j=1 j
PK PK
pour un contraste λ = j=1 cj µj estimé par L = j=1 cj Xj .
d’où l’on déduit des intervalles de confiance sur λ(i,j) définis par
s
1 1 1
IC1−α (λ(i,j) ) = X (j) − X (i) ± qα (K, N − K) · CMR · · + ,
2 ni nj
61. Notons que plus i est loin de j, plus la somme des carrés des écarts provenant du contraste sera élevée.
62. Ces IC conviennent que√les paires de moyennes soient ordonnées ou non ; remarquons le lien entre le q et
le t de Student, q(ij) = t(ij) · 2.
73
où ni et nj sont les effectifs des groupes i et j respectivement et qα (K, N − K) est la
valeur critique pour K groupes, le seuil α et N − K, le nombre de ddl du CMR ; les
valeurs critiques qα (K, N − K) sont tabulées (voir Table statistique 11). Tout couple
(i, j) tel que la valeur 0 6∈ IC1−α (i, j) correspondra à une différence significative.
Notons que lorsque le plan est équilibré,
q les IC1−α (λ(i,j) ) possèdent tous la même demi-
longueur, égale à qα (K, N − K) · CM n
R
.
Le lien entre les deux tables pour le test de Tukey (q et F ) est donné par
2. Le test de Newman-Keuls. Le test de Newman-Keuls est une variante (de type séquentiel)
du test de Tukey pour la famille de comparaisons par paires. On range les moyennes ob-
servées en ordre croissant, soient X (1) ≤ X (2) ≤ · · · ≤ X (K) ces moyennes rangées. Puis
on compare les groupes extrêmes (correspondant à la moyenne la plus petite X (1) et à
la moyenne la plus élevée X (K) ) ; on considère donc le contraste λ(1,K) = µ(K) − µ(1) ,
d’étendue r = K, l’étendue étant définie comme le nombre de moyennes impliquées dans
la comparaison (y compris les extrêmes). Cette comparaison s’effectue par le test de Tu-
key. Si la différence n’est pas significative, on arrête ; sinon, on considère les comparaisons
d’étendue r = K−1, λ(1,K−1) = µ(K−1) −µ(1) et λ(2,K) = µ(K) −µ(2) . Ces deux comparaisons
s’effectuent par la méthode de Tukey en tenant compte que l’étendue r est maintenant
T ukey
égale à K − 1 (on utilise la valeur critique de Tukey FK−1,N −K,α ou qα (K − 1, N − K)).
Tant qu’on obtient une différence significative, on continue en considérant des contrastes
d’étendue diminuée d’une unité (r = K −2, puis r = K −3, . . .) 63 et ce jusqu’à épuisement
de l’ensemble des paires. Il s’agit donc bien d’une procédure séquentielle. Mais cette
procédure de Newman-Keuls, plus puissante que celle de Tukey, a l’inconvénient de ne
pas respecter la condition d’un seuil α fixé pour l’erreur de type I globale.
3. La méthode de Duncan. La méthode de Duncan pour la famille de toutes les compa-
raisons par paires est une procédure séquentielle semblable à celle de Newman-Keuls. La
différence réside dans l’utilisation de tables statistiques différentes : au lieu de la table de
Tukey, on utilise cette fois la table de Duncan (voir Table statistique 13). Notons que
cette méthode est plus pluissante que celle de Newman-Keuls.
63. Par exemple si la différence λ(1,K−1) est significative, on considèrera les deux comparaisons λ(1,K−2)
et λ(2,K−1) d’étendue r = K − 2. Ensuite, si la différence λ(2,K−1) est significative, on considèrera les deux
comparaisons λ(2,K−2) et λ(3,K−1) d’étendue r = K − 3 . . .
74
8 METHODES NON PARAMETRIQUES
Dans l’introduction, nous avons défini un test non paramétrique comme étant un test dont
les hypothèses statistiques ne portent pas sur la valeur d’un ou plusieurs paramètres d’une
variable aléatoire. Parfois, le qualificatif non paramétrique est également utilisé pour désigner
les tests libres, c’est-à-dire les tests valables quelle que soit la loi de probabilité de la variable
aléatoire considérée. Cet emploi abusif du qualificatif non paramétrique provient du fait que
la plupart des tests non paramétriques sont libres, ou en tout cas, ne reposent pas sur des
hypothèses de normalité de la (ou des) population(s) parente(s).
Nous avons déjà présenté quelques tests non paramétriques dans ce cours, citons par exemple
les tests d’ajustement χ2 , de Kolmogorov et de Lilliefors et le test de Kolmogorov-Smirnov (voir
Chapitre 3).
Les méthodes non paramétriques présentées ci-dessous s’appliqueront à des données quan-
titatives (sur une échelle numérique) dont la loi de probabilité dans la population parente est
continue. Il existe des méthodes non paramétriques adaptées à l’analyse statistique de données
sur une échelle nominale ou ordinale ; ces méthodes ne seront pas présentées dans ce cours.
L’étudiant intéressé par ces méthodes est renvoyé à l’ouvrage de Peter Sprent (opcit.). Notons
pour terminer que l’emploi des méthodes statistiques non paramétriques tend à se généraliser
de plus en plus. En effet, ces méthodes sont souvent d’une mise en oeuvre plus fastidieuse
que les méthodes paramétriques classiques mais cet inconvénient tend à disparaı̂tre avec le
développement de logiciels statistiques appropriés.
Comme dans le cas paramétrique (cfr. Section 5.3), on définit la différence aléatoire D =
0 0
X − X dont Di = Xi − Xi , ∀ i = 1, · · · , n, est un échantillon aléatoire i.i.d.
Soit µδD la médiane 64 de cette variable aléatoire, définie par : P (D ≤ µδD ) = 1/2.
Une traduction des hypothèses serait alors :
H0 : µδD = 0
H1 : µδD 6= 0 (resp. µδD > 0 ou µδD < 0)
0 0
c’est-à-dire que l’on veut tester si la probabilité P (X > X ) est égale à la probabilité P (X < X )
(et valent donc toutes deux 1/2), ou au contraire, si la première est différente de (respectivement
plus petite ou plus grande que) la seconde.
64. Remarque : si la distribution de D est symétrique (ce qui doit être le cas pour le test de Wilcoxon et le
test de Fisher), alors µδD = µD = E(D), l’espérance de D.
75
Une autre traduction des hypothèses, en posant
0
φ+ = P (D > 0) = P (X > X ) et
0
φ− = P (D < 0) = P (X < X )
Cette hypothèse de continuité est purement technique : elle permet d’éviter les différences
nulles ; mais en cas de différences égales à 0, il est possible de ne pas les exclure en les compta-
bilisant du côté de l’hypothèse nulle H0 .
ou mieux, en introduisant la correction de continuité (vu que X+ est discrète et Z continue, voir Section 2.3.1)
et en tenant compte du sens de l’alternative et de la valeur observée de X+ (pour le choix du signe de ±0.5),
la formule corrigée suivante
X+ ±0.5 1 n
− (X+ ± 0.5) −
Zcorr = qn1 2
= √ 2
∼ N (0, 1) sous H0 .
1
2 (1− 2 )
n/2
n
Notons toutefois que cette formule n’est qu’approximative et que cette approximation n’est absolument pas
nécessaire vu que nous disposons de tables pour la loi binomiale Bi(n, 12 ) avex n ≤ 50.
76
Lorsqu’il y a des différences observées di nulles, on conseille souvent dans la littérature
de les éliminer de l’échantillon. Néanmoins, ces différences nulles contiennent une information
importante vu qu’elles vont tout à fait dans le sens de l’hypothèse nulle H0 : pas de différence ;
nous conseillerons donc de les comptabiliser du côté où le rejet de l’hypothèse H0 devient plus
difficile, ce qui rend le test plus conservateur (diminue la probabilité de rejeter H0 ). Certains
auteurs suggèrent d’assigner au hasard un signe à ces valeurs nulles ; nous ne conseillerons pas
cette procédure car à partir d’un même échantillon de données, deux expérimentateurs peuvent
conclure de manière opposée.
L’avantage du test du signe est sa simplicité de mise en oeuvre mais son inconvénient
principal est sa faible puissance par rapport aux tests classiques (le t de Student ou le test
exact de Fisher). Cette faible puissance s’explique par la perte d’information engendrée en ne
considérant que le signe des différences observées et non leur amplitude. Pour fixer les idées, le
test du signe appliqué à deux échantillons appariés d’effectif n = 100 (extraits de populations
normales) a la même puissance qu’un test basé sur la loi tn−1 de Student (ou un test de Fisher)
appliqué à deux échantillons d’effectif n = 64.
mais la loi sous H0 de cette statistique se construit conditionnellement aux données observées.
On calcule d’abord la somme des différences observées T(n) obs . Ensuite, on classe par ordre
croissant les différences Di en ne considérant que leur valeur absolue |Di | (i = 1, · · · , n).
Si l’hypothèse H0 est vraie, chacune de ces valeurs absolues |Di | devait correspondre à une
différence Di , soit > 0, soit < 0 avec probabilité 1/2, dans l’échantillon de départ. Il existe 2n
manières d’assigner des signes (+ ou −) aux n valeurs |Di |, chacune de ces assignations ayant
même probabilité 1/2n et donnant une certaine valeur t de la somme des différences.
On calcule les sommes t “extrêmes” correspondant à de telles assignations de signes (+ ou
−) à chacune des n différences en valeur absolue |Di |. Par “extrêmes”, on désigne les sommes
de différences les plus petites (la plus petite correspondant à n signes −) ou les plus grandes
(la plus grande correspondant à n signes +).
La région critique est constituée des K assignations extrêmes où K est le plus grand nombre
entier tel que K/2n ≤ α (α est le seuil de signification fixé), c’est-à-dire K ≤ 2n · α. Lorsque
le test est bilatéral, on sépare la région critique en deux parties de K/2 sommes extrêmes (les
77
plus petites et les plus grandes). Lorsque le test est unilatéral, on prend les K sommes les plus
petites ou les plus grandes suivant le sens de l’alternative.
Donc, si la somme observée T(n) obs appartient à la région critique 66 , on rejette H0 ; dans le
cas contraire, on ne peut pas rejeter H0 .
Remarquons que la mise en oeuvre de ce test devient rapidement difficile lorsque l’effectif
n devient grand ; pour un effectif n = 10 et un seuil α = 0.05, la région critique contient déjà
K = 51 valeurs et la détermination de ces 51 valeurs extrêmes (conditionnelles aux différences
observées) doit être recommencée pour chaque nouveau problème. Pour n grand (≥ 25), l’ap-
proximation du test exact de Fisher est le test paramétrique sur la moyenne théorique des
différences (H0 : µD = 0) par la statistique de loi tn−1 de Student (à n − 1 ddl) ou de loi
approximativement N (0, 1) si n ≥ 60 (cfr. Section 5.3). Notons que le test exact de Fisher est
aussi puissant que le test basé sur le tn−1 de Student même lorsque les conditions d’application
du tn−1 sont vérifiées (normalité de la population des différences).
• L’hypothèse de continuité est essentiellement technique : elle permet d’éviter les différences
nulles et les différences “égales” (“tied values” en anglais).
• L’hypothèse de symétrie est plus fondamentale : si la distribution des différences est symétrique,
les différences (en valeur absolue) ont autant de chance d’être positives que négatives, ce qui
n’est pas le cas si elle n’est pas symétrique. C’est le principe même de la construction de la loi
de la statistique de Wilcoxon (et donc des tables). Donc, si la distribution n’est pas symétrique,
le test n’est pas applicable. Il est possible de mettre à l’épreuve la symétrie d’une distribution
mais il s’agit en fait d’un test de normalité (accompagné du test de l’aplatissement) ; nous nous
limiterons ici à l’examen à vue des données sur un axe orienté et gradué puis à l’interprétation
(purement descriptive) des indices d’asymétrie et d’aplatissement définis dans l’Annexe B du
poly d’Inférence statistique.
Pour le test de Wilcoxon, on remplace les valeurs absolues des différences |Di | par leur rang
Ri (i = 1, · · · , n) de 1 à n puis on procède comme pour le test exact de Fisher à partir de ces
66. Remarquons qu’il est parfois plus simple de calculer directement la probabilité critique (p.c.) que de
construire entièrement la région critique. Ce calcul s’effectue en comptabilisant le nombre de valeurs t de la
somme aussi extrêmes que la valeur T(n) obs du côté de l’alternative, soit k ce nombre ; on obtient simplement
p.c. = k/2n .
78
rangs. Cette procédure permet de tenir compte de l’amplitude des différences tout en allégeant
de manière considérable le traitement par rapport au test exact de Fisher. En effet cette fois, la
région critique peut être déterminée une fois pour toutes, indépendamment des valeurs observées
dans l’échantillon ; il existe donc des tables statistiques pour le test de Wilcoxon, en fonction
de l’effectif n des deux échantillons appariés (voir Table statistique 18). Notons que la perte
d’information due au remplacement des différences observées par des rangs, n’engendre qu’une
faible perte de puissance par rapport au test exact de Fisher (plus précisément, le test de
Wilcoxon appliqué à deux échantillons d’effectif n = 100 a la même puissance que le test exact
de Fisher appliqué à deux échantillons d’effectif n = 95).
Pratiquement, on additionne les rangs correspondant à des différences de signe +, soit T+
cette somme, et les rangs correspondant à des différences de signe −, soit T− cette somme.
Donc 67 ,
Xn Xn
T+ = Ri · I{Di >0} et T− = Ri · I{Di <0} .
i=1 i=1
68
Ces deux sommes vérifient toujours la relation
n(n + 1)
T+ + T− =
2
On a le choix pour la statistique de décision entre les statistiques T+ et T− , qui toutes deux
suivent sous H0 , une loi de Wilxoxon,
T+ ( et T− ) ∼ W(n) de Wilcoxon pour effectif n sous H0 .
La distribution de Wilcoxon est de forme unimodale et symétrique, prenant ses valeurs dans
{0, 1, 2, · · · , n(n + 1)/2}. Désignons par W , la statistique T+ ou T− (au choix). La table de
Wilcoxon donne (en fonction de l’effectif n des échantillons) la probabilité 69 pour la statistique
W de loi ∼ W(n) , P [ W ≤ w | H0 est vraie ] pour des valeurs w entières faibles (inférieures à
n(n + 1)/4) ; cette table est donc unilatérale 70 .
Lorsque certaines différences observées sont égales en valeur absolue, on assigne à ces valeurs
égales le rang moyen qu’on aurait dû leur assigner si elles avaient été différentes (par exemple,
si trois valeurs sont égales au niveau des rangs 3, 4 et 5, on leur attribuera le rang 4 à toutes les
trois ; si on a deux valeurs égales au niveau des rangs 6 et 7, on leur attribuera le même rang
6.5). Dans le cas d’un trop grand nombre de valeurs égales, les tables de Wilcoxon ne seront
plus applicables puisqu’elles sont construites pour n rangs différents (hypothèse de continuité
des distributions). Lorsque certaines différences sont nulles, on procèdera comme pour le test
du signe (voir ci-dessus).
Lorsque l’effectif n est > 20, on peut utiliser la forme approximative suivante du test de
Wilcoxon (approximation normale par le Théorème Central-Limite) 71
T+ − µT+
≈ Z ∼ N (0, 1)
σT+
67. La fonction I{Di >0 } est la fonction indicatrice de l’événement aléatoire {Di > 0}, prenant la valeur 1 si
Di > 0 est réalisé et 0 sinon. Pn
68. car la somme des entiers de 1 à n, i=1 i = 1 + 2 + · · · + n = n(n + 1)/2.
69. La symétrie autour de l’espérance n(n + 1)/4, se traduit par le fait que
P [ W ≤ w | H0 est vraie ] = P [ W ≥ n(n + 1)/2 − w | H0 est vraie ].
70. Si l’alternative H1 est unilatérale, on peut donc lire directement la valeur de la probabilité critique. Par
contre si l’alternative H1 est bilatérale, il sera nécessaire de multiplier la probabilité lue par un facteur 2.
71. Le même résultat s’applique bien entendu à la statistique T− .
79
où, sous H0 , l’espérance et la variance de T+ sont
n(n + 1) n(n + 1)(2n + 1)
µT+ = et σT2+ = .
4 24
Dans le cas de valeurs égales au même niveau, on peut corriger la variance de T+ en la multipliant
par une constante C donnée par
S
1 X
C =1− ts (t2s − 1)
2n(n + 1)(2n + 1) s=1
où ts désigne le nombre de valeurs égales au même niveau s et S le nombre de niveaux à valeurs
égales. La statistique approximative corrigée s’obtient donc par
T+ − µT+ Z
Zcorr = q =√ .
C · σ2 C
T+
Notons que cette correction ne devient significative que lorsque le nombre de valeurs égales est
très important. Cette correction a pour effet d’augmenter la valeur de la statistique de décision ;
elle ne doit donc pas être calculée lorsque, sans la correction, le résultat est déjà significatif.
80
8.2.1 Le test de la médiane
Pour comparer F1 et F2 , nous comparons les médianes associées à ces deux distributions,
soient µδ1 et µδ2 . Sous l’hypothèse nulle, les n1 + n2 observations sont issues d’une même
distribution de médiane µδ . La probabilité φ1 que les observations issues du groupe 1 soient
inférieures à cette médiane, φ1 = P (X1 ≤ µδ ) = F1 (µδ ), est alors égale à la probabilité φ2 pour
une observation du groupe 2 d’être inférieure à µδ , φ2 = P (X2 ≤ µδ ) = F2 (µδ ).
Nous ne connaissons pas la distribution de ces variables. Nous commençons par estimer la
médiane µδ à partir de l’échantillon des n1 + n2 observations de sorte à construire la dichotomie
la plus équilbrée sur l’ensemble des deux échantillons, soit X̃ cet estimateur.
Les hypothèses statistiques s’écrivent :
H0 : les deux distributions ont même médiane (µδ1 = µδ2 )
H1 : les deux distributions ont des médianes différentes (µδ1 6= µδ2 )
(resp. µδ1 > µδ2 ou µδ1 < µδ2 )
Ce qui se traduit en :
(
H0 : φ1 = φ2
H1 : φ1 6= φ2 (resp. φ1 > φ2 ou φ1 < φ2 )
Il s’agit donc simplement d’une comparaison de deux fréquences sur échantillons indépendants 72
(voir Section 3.5).
L’avantage du test de la médiane est la simplicité de sa mise en oeuvre, son inconvénient
est sa faible puissance due à la perte d’information en regroupant les données en deux classes.
Pour fixer les idées, le test de la médiane appliqué à deux échantillons indépendants d’effectifs
n1 = n2 = 100 (extraits de populations normales de même variance) a la même puissance qu’un
test de comparaison de moyennes par la statistique de loi tn1 +n2 −2 de Student (ou par un test
exact de Fisher) appliqué à deux échantillons d’effectifs n1 = n2 = 64.
72. Rappelons rapidement l’importance des conditions d’application des tests proposés, n1 + n2 ≥ 20 et au
maximum l’un des effectifs théoriques strictement inférieur à 5, ce qui peut se traduire approximativement ici
par n1 et n2 ≥ 10 vu la norme φ1 = φ2 = 1/2 sous H0 .
81
mais la loi sous H0 de cette statistique se construit conditionnellement aux données observées.
On calcule d’abord la somme Tn1 obs des observations dans l’échantillon d’effectif le plus petit,
n1 (rappelons que par convention, n1 ≤ n2 ).
Si l’hypothèse H0 est vraie, chacune des n1 +n2 observations a autant de chances de provenir
de chacun des deux échantillons (l’échantillon d’effectif n1 et l’échantillon d’effectif n2 ). Il y a
Cnn11+n2 possibilités 73 de répartir les n1 + n2 valeurs observées en deux échantillons d’effectifs
n1 et n2 ; si l’hypothèse H0 est vraie, chacune de ces répartitions a même probabilité égale à
1/Cnn11+n2 .
On range globalement les n1 +n2 valeurs observées dans les deux échantillons, puis on calcule
les sommes de n1 valeurs observées, t1 , “extrêmes” correspondant à de telles répartitions des
n1 + n2 valeurs observées. Par “extrêmes”, on désigne les sommes les plus petites (la plus petite
correspondant à la somme des n1 plus petites valeurs des n1 + n2 valeurs observées) ou les
plus grandes (la plus grande correspondant à la somme des n1 plus grandes valeurs des n1 + n2
valeurs observées).
La région critique est constituée des K répartitions extrêmes où K est le plus grand nombre
entier tel que K/Cnn11+n2 ≤ α (α est le seuil de signification fixé), c’est-à-dire K ≤ Cnn11+n2 α.
Lorsque le test est bilatéral, on sépare la région critique en deux parties de K/2 valeurs extrêmes
(les plus petites et les plus grandes sommes t1 ). Lorsque le test est unilatéral, on prend les K
valeurs extrêmes les plus petites ou les plus grandes suivant le sens de l’alternative.
Si la somme observée Tn1 obs des observations dans l’échantillon d’effectif n1 appartient à
la région critique 74 , on rejette l’hypothèse H0 avec une probabilité d’erreur ≤ α ; sinon, on ne
peut pas rejeter H0 .
Il est important de noter que la mise en oeuvre de ce test devient rapidement fastidieuse
lorsque les effectifs n1 et n2 deviennent grands ; pour deux échantillons d’effectifs 10 et un seuil
de signification α = 0.05, la région critique contient déjà K = 9237 valeurs extrêmes (car
K ≤ 184756 × 0.05 = 9237.8) et la détermination de ces 9237 valeurs extrêmes (conditionnelles
aux observations) doit être recommencée pour chaque nouveau problème. Pour n1 et n2 grands
(≥ 25), l’approximation du test exact de Fisher est le test paramétrique de comparaison de
deux moyennes pour échantillons indépendants (H0 : µ1 = µ2 ) par la statistique de loi tn1 +n2 −2
de Student (à n1 + n2 − 2 ddl) ou si n1 et n2 ≥ 60, par la statistique de loi approximativement
N (0, 1) lorsque n1 ≥ 60 et n2 ≥ 60 (cfr. Section 5.2.3). Le test exact de Fisher a la même
puissance que le test basé sur la statistique de loi tn1 +n2 −2 de Student même lorsque celui-ci est
applicable (populations normales de même variance).
Le test de Wilcoxon - Mann-Whitney est un compromis entre le test exact de Fisher (difficile
à mettre en oeuvre car test conditionnel aux données) et le test de la médiane (simple mais
peu puissant). Ce test qui réduit la perte d’information du test de la médiane en tenant compte
du rang des données des deux échantillons, est plus puissant que le test de la médiane mais
ses conditions d’application sont plus restrictives ; le modèle traduisant ces conditions est le
73. Rappelons que Cnk désigne le nombre de combinaisons de k éléments parmi n et se calcule par la formule
n!
Cnk = k!(n−k)! .
74. Remarquons qu’il est parfois plus simple de calculer directement la probabilité critique (p.c.) que de
construire entièrement la région critique. Ce calcul s’effectue en comptabilisant le nombre de valeurs t1 de la
somme aussi extrêmes que la valeur Tn1 obs du côté de l’alternative, soit k ce nombre ; on obtient simplement
p.c. = k/Cnn11+n2 .
82
suivant :
Hm : les deux distributions F1 et F2 sont continues et de même forme.
Il faudra donc veiller à examiner à vue les deux échantillons pour se rendre compte si cette
hypothèse peut être maintenue. Nous nous limiterons ici à un examen à vue et à l’interprétation
(purement descriptive) des indices de symétrie et d’aplatissement (voir Annexe B du poly
d’Inférence statistique). Les hypothèses statistiques s’écrivent :
H0 : les deux distributions sont identiques (F1 = F2 )
H1 : il existe un décalage de position entre les deux distributions
( bilatéral ou unilatéral, à gauche ou à droite)
Pour le test de Wilcoxon - Mann-Whitney, on remplace les observations par leur rang de 1
à n1 + n2 , en regroupant les deux échantillons. Ensuite, on procède de la même manière que
pour le test exact de Fisher mais à partir des rangs attribués. Cette procédure permet de tenir
compte de la position relative des valeurs observées dans les deux échantillons tout en allégeant
considérablement le traitement par rapport au test de Fisher. En effet, la région critique peut
être déterminée une fois pour toutes, en fonction de la taille respective des deux échantillons et
du seuil de signification α fixé ; il existe donc des tables statistiques pour le test de Wilcoxon -
Mann-Whitney (voir Table statistique 19).
En pratique, soit R1i , le rang attribué à la v.a. X1i de l’échantillon 1 (i = 1, · · · , n1 ) et R2i ,
le rang attribué à la v.a. X2i de l’échantillon 2 (i = 1 · · · , n2 ). On additionne les rangs attribués
aux données de chacun des deux échantillons, soient T1 , la somme des rangs dans l’échantillon
d’effectif le plus faible n1 , et T2 , la somme des rangs dans l’échantillon d’effectif le plus élevé
n2 (rappelons que n1 ≤ n2 par convention). Donc,
n1
X n2
X
T1 = R1i et T2 = R2i .
i=1 i=1
83
Lorsque certaines valeurs observées sont égales, on attribue à ces valeurs égales le rang
moyen qu’on aurait dû leur attribuer si elles avaient été différentes, de manière à conserver la
même somme de rangs sans privilégier aucune de ces valeurs (voir test de Wilcoxon, Section
8.1.3 ci-dessus). Dans le cas d’un trop grand nombre de valeurs égales, les probabilités lues
dans la table de Wilcoxon - Mann-Whitney ne seront que très approximatives puisque la table
est construite pour n1 +n2 rangs différents (suivant l’hypothèse de continuité des distributions).
Lorsque les effectifs n1 et n2 sont > 10, on peut utiliser la forme approximative suivante du
test de Wilcoxon - Mann-Whitney (approximation normale par le Théorème Central-Limite)
T1 − µT1
≈ Z ∼ N (0, 1)
σT1
où, sous H0 , l’espérance et la variance de T1 sont
n1 (n1 + n2 + 1) n1 n2 (n1 + n2 + 1)
µT1 = et σT21 = .
2 12
Dans le cas de valeurs égales (et donc de rangs moyens), on peut corriger la variance de T1 en
la multipliant par la constante C suivante :
S
1 X
C =1− ts (ts 2 − 1)
(n1 + n2 ) (n1 + n2 )2 − 1 s=1
où ts désigne le nombre de valeurs égales au même niveau s et S le nombre de niveaux à valeurs
égales. La statistique approximative corrigée s’obtient donc par
T1 − µT1 Z
Zcorr = q =√ .
C · σ2 C
T1
Notons que cette correction ne devient significative que lorsque le nombre de valeurs égales est
très important. Cette correction a pour effet d’augmenter la valeur de la statistique de décision ;
elle ne doit donc pas être calculée lorsque, sans la correction, le résultat est déjà significatif.
Il existe une autre version (tout à fait équivalente à la précédente) de ce test. Il s’agit de la
version de Mann-Whitney pour laquelle la statistique de décision, notée U , est définie par
n1 (n1 + 1)
U = n1 n2 + − T1 ∼ U(n1 ,n2 ) de Mann-Whitney pour effectifs (n1 , n2 ) sous H0 .
2
La version précédente, pour laquelle la statistique est simplement T = T1 , est due à Wilcoxon.
Il existe des tables donnant les probabilités associées à la statistique U en fonction des effectifs
n1 et n2 des deux échantillons ; cette table, équivalente à celle pour la statistique T1 , n’a pas
été introduite dans le polycopié de tables.
La forme approximative de la statistique U pour des effectifs n1 et n2 > 10, est donnée par
U − µU
≈ Z ∼ N (0, 1)
σU
où, sous H0 , l’espérance et la variance de la statistique U sont
n1 n2 n1 n2 (n1 + n2 + 1)
µU = et σU2 =
2 12
avec la même correction de continuité pour valeurs égales que celle donnée ci-dessus.
La perte de puissance due au remplacement des valeurs observées par des rangs n’est pas très
importante. Par exemple, un test de Wilcoxon - Mann-Whitney appliqué à deux échantillons
de même effectif n = 100 a la même puissance qu’un test paramétrique basé sur une statistique
de loi t de Student appliquée à deux échantillons d’effectifs n1 = n2 = 95 (dans les conditions
d’application du t de Student, normalité et homogénéité des variances).
84
8.2.4 Le test de Kolmogorov-Smirnov
Voir Section 3.7, inférence sur les fréquences.
L’analyse de variance de Friedman est la généralisation du test du signe pour plus de deux
mesures répétées (p > 2). Le modèle sur lequel se fonde l’analyse statistique est le suivant,
Hm : les p distributions Fj (j = 1, · · · , p) sont continues.
Souvent, les p mesures répétées correspondent à p traitements pour chacun des n sujets. Pour
chaque sujet (i = 1, · · · , n), on range les p données observées pour chacun des traitements, puis
on leur attribue un rang de 1 à p. Ensuite, on calcule la somme Rj des n rangs correspondant à
chacun des traitements j = 1, · · · , p. Les hypothèses statistiques peuvent s’écrire sous la forme
H0 : E(R1 ) = E(R2 ) = · · · = E(Rp )
H1 : ∃ j1 , j2 ∈ {1, · · · , p}, E(Rj1 ) 6= E(Rj2 )
La statistique de décision F ried est définie par :
p
12 X
F ried = R2 − 3n(p + 1) ∼ F riedp,n
np(p + 1) j=1 j
77. Une valeur observée trop élevée (supérieure à la valeur critique) conduit au rejet de l’hypothèse H0 .
85
Cette correction a pour effet d’augmenter la valeur observée de la statistique de décision ; elle
ne doit donc pas être appliquée lorsque sans correction, le résultat est déjà significatif.
Des comparaisons multiples (à l’aide de contrastes) peuvent être effectuées comme dans
l’analyse de variance paramétrique (voir Sprent).
La perte d’information due à la substitution de rangs de 1 à p aux valeurs observées engendre
une perte de puissance. Cette perte de puissance diminue lorsque le nombre p de traitements
augmente. Ainsi, une analyse de variance de Friedman appliquée à p échantillons appariés
d’effectif n = 100 a la même puissance qu’une analyse de variance classique pour p échantillons
appariés d’effectif n = 64 lorsque p = 3 et d’effectif n = 91 lorsque p devient très grand, lorsque
les conditions d’une analyse de variance classique sont vérifiées (normalité et sphéricité de la
matrice de variance-covariance).
Lorsque l’hypothèse alternative est orientée, une version plus puissante est le test de Page.
Les hypothèses statistiques s’écrivent
H0 : E(R1 ) = E(R2 ) = · · · = E(Rp )
H1 : E(R1 ) < E(R2 ) < · · · < E(Rp )
La statistique de décision L de Page s’écrit
p
X
L= j · Rj ∼ Ln,p de Page pour p échantillons d’effectifs n sous H0
j=1
Soit N = K
P
j=1 nj l’effectif total des K échantillons réunis. On attribue un rang, globalement
de 1 à N , à chacune des N observations (en regroupant les K échantillons), soit Rij le rang
attribué à l’observation Xij (j = 1, · · · , K et i = 1, · · · , nj ). Dans le cas de valeurs égales au
même niveau, on attribue à ces valeurs égales le rang moyen qu’on aurait dû leur attribuer
si elles avaient été différentes (voir test de Wilcoxon, Section 8.1.3). Ensuite, on additionne
pour chaque échantillon j (de 1 à K) les rangs attribués aux nj valeurs, soient Tj ces sommes
86
observées (analogue des sommes T1 et T2 pour le test de Wilcoxon - Mann-Whitney) ; donc,
∀ j = 1, · · · , K, on pose
nj
X
Tj = Rij .
i=1
X Tj2 K
12 (K)
H= − 3(N + 1) ∼ H(nj ) sous H0
N (N + 1) j=1 nj j=1,··· ,K
87
A ELEMENTS D’ ALGEBRE LINEAIRE
A.1 Définitions
– Une matrice est un tableau rectangulaire de nombres, paramètres ou variables dont chacun
a été disposé à une place précise. On spécifiera souvent le nombre de lignes et le nombre
de colonnes de ce tableau, on dira d’une matrice comportant m lignes et n colonnes qu’elle
est d’ordre m × n ; soit A une matrice 78 d’ordre m × n d’éléments aij pour i = 1, · · · , m
et j = 1, · · · , n, on écrira A ou Am×n = (aij ) pour
88
Par exemple, la transposée d’un vecteur-ligne est un vecteur colonne et vice-versa. On
écrira parfois un vecteur-colonne de dimension m explicitement de cette manière x =
0
x1 x2 · · · xi · · · xm pour alléger le texte.
– Une matrice carrée d’ordre n est une matrice d’ordre n × n, c’est-à-dire une matrice dont
le nombre de lignes et le nombre de colonnes sont égaux. On écrira parfois An .
– La trace, trA, d’une matrice carrée d’ordre n × n, A = (aij ), est un Pnnombre, égal à la
somme des éléments diagonaux de cette matrice
c’est-à-dire trA = i=1 aii .
7 3 −4
La trace de la matrice A = 2 1 −1 est donc trA = 7 + 1 + 0 = 8.
0 3 0
– Une matrice symétrique A est une matrice carrée égale à sa transposée ; autrement dit, une
matrice A d’ordre n est symétrique si et seulement si A0 = A, c’est-à-dire ∀i, j = 1, · · · , n,
aij = aji .
– Une matrice diagonale d’ordre n est une matrice carrée dont tous les éléments sont nuls
à l’exception de ceux de la diagonale, soit D = (dii ), une matrice diagonale,
d11 0 · · · 0 · · · 0
0 d22 · · · 0 · · · 0
.. .. ..
. . .
D=
0 0 · · · dii · · · 0
.. .. .. ..
. . . .
0 0 · · · 0 · · · dnn
89
A.2.3 Multiplication d’un vecteur-ligne par un vecteur-colonne
La multiplication d’un vecteur-ligne de dimension n, a = a1 a2 · · · ai · · · an , par
0
un vecteur-colonne de dimension n, b = b1 b2 · · · bi · · · bn , donne un nombre égal à
la somme des produits des éléments correspondant
b1
b2
.
n
..
X
a · b = a1 a2 · · · ai · · · an · = a1 b 1 + a2 b 2 + · · · + an b n = ai b i
bi
. i=1
..
bn
Soulignons qu’il n’est possible d’effectuer le produit d’un vecteur-ligne et d’un vecteur-
colonne que si ces deux vecteurs ont même dimension. Autrement dit, on effectue le produit
d’un tableau d’ordre 1 × n par un tableau d’ordre n × 1, le nombre de colonnes du premier
tableau étant égal au nombre de lignes du second tableau. Ce point sera important pour définir
le produit de matrices ci-dessous.
90
··· ···
c11 c12 c1j c1n
c21 c22 ··· c2j ··· c2n
.. .. .. ..
. . . .
=
ci1 ci2 · · · cij ··· cin
. .. .. ..
..
. . .
cm1 cm2 · · · cmj · · · cmn
Par définition, la multiplication de deux matrices ne peut donc pas être commutative ; en
général
A · B 6= B · A
Un cas particulier très important est le cas du produit de matrices carrées de même ordre
n. Cette opération est interne, ce qui signifie que le produit de deux matrices carrées d’ordre n
fournit une matrice carrée d’ordre n. Le neutre de cette opération est la matrice unité d’ordre
n, notée In ,
1 0 0 ··· ··· 0 ··· 0
0 1 0 ··· ··· 0 ··· 0
0 0 1
. . 0 · · · 0 · · · 0
. . .. . . .. . .
. . .. .
..
. .
In =
0 0 ··· 0 1 0 ··· 0
. . . . . . . . ..
.. .. . . . .
0 0 ··· ··· 0 1 0
0 0 ··· ··· 0 0 1
vérifiant pour toute matrice A carrée d’ordre n,
A · In = In · A = A
Autrement dit, multiplier une matrice à gauche ou à droite par la matrice identité In laisse la
matrice inchangée (comme multiplier un nombre par le nombre 1 n’a aucun effet).
91
c’est-à-dire
··· ···
a11 a12 a1j a1n x1 b1
a21 a22 ··· a2j ··· a2n x2 b2
.. .. .. .. .. ..
. . . . . .
· =
ai1 ai2 · · · aij ··· ain xj bi
. .. .. .. .. ..
..
. . . . .
am1 am2 · · · amj · · · amn xn bm
Cette écriture nous suggère que s’il était possible d’inverser la matrice A, la solution de ce
système d’équations linéaires s’écrirait simplement
x = A−1 · b
où A−1 serait la matrice inverse de A, vérifiant la relation A−1 ·A = In . En effet, en multipliant
les deux membres de l’équation matricielle par la matrice A−1 à gauche, on obtiendrait
A−1 · A · x = In · x = x = A−1 · b
Propriété. Une matrice carrée est singulière si et seulement si une ligne (ou une colonne)
est combinaison linéaire des autres lignes (ou colonnes).
La singularité d’une matrice carrée traduit donc une redondance au niveau des lignes ou
des colonnes. Par exemple, considérons la matrice carrée d’ordre 3 × 3,
1 2 3
A= 2 0 4
0 −4 −2
La 3ème ligne de cette matrice, l3 = 0 −4 −2 est égale à la 2ème ligne, l2 = 2 0 4
moins deux fois la première ligne, l1 = 1 2 3 ; en effet,
l3 = l2 − 2 · l1
92
cette relation devant être vérifiée élément par élément, 0 = 2−2·1, −4 = 0−2·2 et −2 = 4−2·3.
Cette matrice est donc singulière (ou non inversible).
Un critère simple et automatique pour déterminer si une matrice carrée d’ordre n est
régulière ou singulière est de calculer son déterminant. La méthode de calcul du déterminant
d’une matrice carrée est donnée par récurrence sur n le nombre de lignes et de colonnes de la
matrice.
– Le déterminant d’une matrice carrée A, noté |A|, est un nombre ; ce nombre est égal à 0
si et seulement si la matrice A est singulière.
– Le déterminant d’une matrice carrée d’ordre 2× 2 se calcule de la manière suivante : le
a11 a12
déterminant de la matrice A2×2 = , est
a21 a22
a11 a12
|A| = = a11 a22 − a21 a12
a21 a22
On vérifie aisément que si les deux lignes (ou les deux colonnes) de la matrice sont propor-
tionnelles, son déterminant sera nul. En effet, supposons par exemple que la deuxième ligne
a11 a12
soit égale à 3 fois la première, c’est-à-dire A2×2 = , donc le déterminant
3a11 3a12
sera
a11 a12
|A| = = a11 · (3a12 ) − (3a11 ) · a12 = 3a11 a12 − 3a11 a12 = 0
3a11 3a12
– Le déterminant d’une matrice carrée d’ordre 3 × 3 s’exprime en fonction de celui de trois
matrices d’ordre 2 × 2. On choisit arbitrairement une ligne (ou une colonne) de la matrice
et on parcourt cette ligne (ou cette colonne) en considérant chacun deses élements. Pour
a11 a12 a13
fixer les idées, considérons la deuxième ligne de la matrice A3×3 = a21 a22 a23 ,
a31 a32 a33
c’est-à-dire la ligne l2 = a21 a22 a23 ; à chacun de ces trois élements, on associe le
déterminant de la matrice 2 × 2 obtenue si on supprime la ligne et la colonne de l’élément
considéré dans la matrice de départ.
Par exemple,
au premier élément de la deuxième ligne
a12 a13
a21 , on associe le déterminant ; ce déterminant est appelé le mineur associé
a32 a33
à l’élément a21 et noté M21 . En général, on parlera du mineur Mij associé à l’élément aij .
Ensuite, on multiplie ce mineur par ±1 suivant la position de l’élément considéré dans la
matrice de départ ; plus précisément, on définit le cofacteur associé à l’élément aij de la
matrice A comme étant le mineur de cet élément multiplié par (−1)(i+j) (c’est-à-dire par
+1 si i + j est pair et par −1 si i + j est impair) ; le cofacteur de l’élément aij , noté Cij ,
est donc défini par
Cij = (−1)(i+j) · Mij
Enfin, le déterminant de la matrice carrée d’ordre 3×3 est donné par la formule suivante :
soit i une ligne fixée de la matrice A (i = 1, 2, 3),
3
X 3
X
|A| = ai1 Ci1 + ai2 Ci2 + ai3 Ci3 = aij Cij = aij (−1)(i+j) · Mij
j=1 j=1
93
Cette formule de calcul s’appelle l’expansion de Laplace.
– De la même manière, le déterminant d’une matrice carrée d’ordre n × n (pour n ≥ 3)
s’exprime en fonction de celui de n matrices d’ordre (n − 1) × (n − 1), par l’expansion de
Laplace. La formule de calcul est simplement, quelle que soit la ligne i fixée (i = 1, · · · , n)
ou la colonne j fixée (j = 1, · · · , n)
n
X
|A| = ai1 Ci1 + ai2 Ci2 + · · · + ain Cin = aij Cij
j=1
Xn
= a1j C1j + a2j C2j + · · · + anj Cnj = aij Cij
i=1
et Mij est le mineur associé à cet élément aij , c’est-à-dire le déterminant de la matrice
carrée d’ordre (n − 1) × (n − 1) obtenue à partir de la matrice carrée A d’ordre n × n
après avoir supprimé la ligne i et la colonne j.
Par l’expansion de Laplace, il est toujours avantageux de choisir pour le calcul du déterminant,
une ligne ou une colonne de la matrice comportantun ou plusieurs zéros ; calculons, par exemple,
7 3 −4
le déterminant de la matrice A = 2 1 −1 ; si on utilise la première ligne pour mettre
0 3 0
en oeuvre l’expansion de Laplace, on calcule
1 −1
(1+1) (1+2)
2 −1 (1+3)
2 1
|A| = 7 × (−1) 3 0
+ 3 × (−1)
0 0
+ (−4) × (−1)
0 3
Passons à présent au calcul de l’inverse d’une matrice carrée régulière. Soit A une matrice
carrée d’ordre n × n dont le déterminant |A| est différent de 0.
– On appelle matrice adjointe de la matrice A, notée AdjA, la matrice carrée d’ordre n × n
transposée de la matrice formée des cofacteurs Cij des éléments de la matrice A, c’est-à-
dire 0
AdjA = (Cij ) = (Cji )
– L’inverse de la matrice régulière A, notée A−1 , est égale à la matrice adjointe de A divisée
par le déterminant de cette matrice,
1
A−1 = · AdjA
|A|
94
7 3 −4
Reprenons l’exemple de la matrice A = 2 1 −1 ; cette matrice est régulière puisque
0 3 0
son déterminant, |A |est
= −3 (voir
ci-dessus). Calculons les cofacteurs Cij :
1 −1
– C11 = (−1)1+1 · = (−1)2 · (1 · 0 − (−1 · 3)) = 1 · (0 + 3) = 3,
3 0
2 −1
– C12 = (−1)1+2 · = (−1)3 · (2 · 0 − (−1 · 0)) = −1 · (0 + 0) = 0,
0 0
2 1
– C13 = (−1)1+3 · = (−1)4 · (2 · 3 − (1 · 0)) = 1 · (6 + 0) = 6,
0 3
2+1
3 −4
– C21 = (−1) · = (−1)3 · (3 · 0 − (−4 · 3)) = −1 · (0 + 12) = −12,
3 0
7 −4
– C22 = (−1)2+2 · = (−1)4 · (7 · 0 − (−4 · 0)) = 1 · (0 + 0) = 0,
0 0
7 3
– C23 = (−1)2+3 · = (−1)5 · (7 · 3 − (0 · 3)) = −1 · (21 + 0) = −21,
0 3
3+1
3 −4
– C31 = (−1) · = (−1)4 · (3 · −1 − (−4 · 1)) = 1 · (−3 + 4) = 1,
1 −1
7 −4
– C32 = (−1)3+2 · = (−1)5 · (7 · −1 − (−4 · 2)) = −1 · (−7 + 8) = −1 et
2 −1
7 3
– C33 = (−1)3+3 · = (−1)6 · (7 · 1 − (2 · 3)) = 1 · (7 − 6) = 1
2 1
Donc la matrice des cofacteurs (Cij ) est
3 0 6
(Cij ) = −12 0 −21
1 −1 1
95
B ASYMETRIE ET APLATISSEMENT
Dans certaines applications, il est important de s’intéresser à la forme de la distribution
dont est issu l’échantillon, plus particulièrement l’asymétrie et l’aplatissement de la densité de
probabilité. Nous allons définir les paramètres d’asymétrie et d’aplatissement de Pearson et
de Fisher de la loi d’une variable aléatoire X et leurs estimateurs à partir d’un échantillon
aléatoire.
B.1 Définitions
Soit X une variable aléatoire, on définit les moments centrés d’ordre k ≥ 1 par
µk = E[(X − EX)k ].
2
On a évidemment toujours µ1 = 0 et µ2 = σX . De plus, si la distribution de la variable aléatoire
X est symétrique, on a toujours des moments centrés d’ordre impair µ2k+1 = 0.
Les moments centrés µ3 et µ4 sont utilisés pour caractériser la forme de la distribution. Pour
obtenir des quantités sans dimension, on divise par l’écart-type à la puissance correspondante,
ce qui donne le paramètre d’asymétrie γ1 défini par
µ3
γ1 = 3
σ
et le paramètre d’aplatissement (ou voussure) γ2 défini par
µ4
γ2 = 4
σ
On montre que la relation suivante est toujours vérifiée
γ2 ≥ 1 + (γ1 )2 donc γ2 ≥ 1
Pour une loi normale, X ∼ N (µ, σ 2 ), on obtient
γ1 = 0 et γ2 = 3.
Si la distribution n’est pas trop asymétrique (γ1 “proche” de 0), on peut s’intéresser à l’apla-
tissement (kurtosis ou voussure) c’est-à-dire à la concentration au centre, dans les extrémités
inférieure et supérieure (les “queues”) et au niveau des “épaules” (entre les extrémités et le
centre) en comparaison avec une loi normale,
96
B.3 Les estimateurs
Soit (Xi )i=1,··· ,n un échantillon aléatoire i.i.d., n réalisations indépendantes de la v.a. X.
Les estimateurs (sans biais) des paramètres γ1 et γ2 sont donnés par les statistiques G1 et G2
suivantes :
Coefficient d’asymétrie :
n 3
n X Xi − X
G1 =
(n − 1)(n − 2) i=1 S
Coefficient d’aplatissement 79 :
n 4
3(n − 1)2
n(n + 1) X Xi − X
G2 = − +3
(n − 1)(n − 2)(n − 3) i=1 S (n − 2)(n − 3)
B.4 En pratique...
Le calcul des estimations g1 et g2 des paramètres γ1 et γ2 nous fournit donc une indication
sur la forme de la distribution dont est issu un échantillon de données (xi )i=1,··· ,n . Ce calcul
devra dans tous les cas, être accompagné d’un examen à vue des données, par une représentation
graphique telle qu’un diagramme en bâtonnets, un histogramme ou encore un Boxplot ou un
Q-Q plot.
Dans certaines applications, les critères indicatifs suivants pourront être utilisés (descriptifs) :
– Une distribution peut être considérée comme symétrique si l’indice d’asymétrie ne s’éloigne
pas de la norme “0” de plus de 1. Si de plus, son indice d’aplatissement ne s’éloigne
pas de la norme “3” de plus de 1/2, elle pourra être considérée comme symétrique et
mésokurtique.
– Deux distributions peuvent être considérées comme étant de ”même forme” si les deux
indices d’asymétrie ne s’éloignent pas de plus de 1/2 et les deux indices d’aplatissement
ne s’éloignent pas de plus de 1.
Plusieurs tests de normalité basés sur les paramètres γ1 et γ2 existent dans la littérature ;
les hypothèses testées s’écrivent
H0 : γ1 = 0 et γ2 = 3 (normalité de la loi de X) ;
H1 : négation de H0
Une autre statistique de décision est simplement le couple (G1 , G2 ) dont il s’agit de calculer
l’estimation (g1 , g2 ) puis de la situer dans une table en forme d’abaque (Table statistique 25,
voir Dagnelie Tome 2).
0
79. Attention, la plupart des logiciels (Excel, Statistica etc.) donnent la valeur (notée ici G2 ) de G2 diminuée
0
de 3 de manière à ce que la norme pour une loi normale soit égale à 0 ; donc G2 = G2 − 3.
97
Table des matières
1 INTRODUCTION 2
1.1 Statistique descriptive, probabilité et inférence statistique . . . . . . . . 2
1.2 L’estimation ponctuelle et par intervalle de confiance . . . . . . . . . . . 3
1.3 La décision statistique, les tests d’hypothèses . . . . . . . . . . . . . . . . 3
1.4 Objectif du cours . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.5 Références . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
98
4.2.1 Test “classique” F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.2.2 Test de Levene . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.2.3 Test de O’Brien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.3 Test de Pitman-Morgan (échantillons appariés) . . . . . . . . . . . . . . . 31
4.4 Inférence sur plusieurs variances (échantillons indépendants) . . . . . . . . 32
4.4.1 Test de Bartlett . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.4.2 Test de Hartley (ou Fmax ) . . . . . . . . . . . . . . . . . . . . . . . . 32
4.4.3 Test de Levene . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.5 Sphéricité d’une matrice de variance-covariance . . . . . . . . . . . . . . 33
4.6 Homogénéité de plusieurs matrices de variance-covariance . . . . . . . . 35
99
7.1.3 L’orthogonalité des contrastes . . . . . . . . . . . . . . . . . . . 69
7.1.4 Inférence sur une famille de contrastes . . . . . . . . . . . . . 70
7.2 Comparaisons a priori orthogonales deux à deux . . . . . . . . . . . . . . 71
7.3 Comparaisons a priori non orthogonales deux à deux . . . . . . . . . . . 71
7.3.1 Les tests de Sidàk et de Boole-Bonferroni-Dunn . . . . . . . . 71
7.3.2 Le test de Dunnett . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
7.4 Comparaisons a posteriori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
7.4.1 La méthode de Scheffé : tous les contrastes . . . . . . . . . . 73
7.4.2 Comparaisons par paires . . . . . . . . . . . . . . . . . . . . . . . . . 73
7.5 Les autres plans de l’analyse de la variance . . . . . . . . . . . . . . . . . 74
B ASYMETRIE ET APLATISSEMENT 96
B.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
B.2 Interprétation de ces “paramètres” . . . . . . . . . . . . . . . . . . . . . . 96
B.3 Les estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
B.4 En pratique... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
100