Statistique Non Parametrique - Partie 1

1
STATISTIQUE NON PARAMETRIQUE ELEMENTAIRE

Cours de M2 ESA UNIVERSITE DORLEANS

Gilbert COLLETAZ

Notes de cours octobre 2004 version trs provisoire
2

INTRODUCTION
Ce cours a pour objectif la prsentation des principaux tests non paramtriques. Ceux-ci sont
particulirement utiles lorsquon ne veut pas spcifier de distribution a priori. Vous
connaissez par exemple dj de nombreux tests dhypothses dvelopps dans un cadre
gaussien ou suppos tel, souvent asymptotiquement. Les principaux avantages des statistiques
non paramtriques sont les suivants :
Ils sont appropris lorsque des hypothses non contraignantes veulent tre faites sur la
distribution des observations tudies,
Ils gardent souvent leurs propres distributions indpendamment de celles des
observations dont on les extrait,
Ils peuvent tre employs avec des donnes pour lesquelles il nexiste pas dchelle de
mesure dintervalle ou dont seul le rang est connu.

Pour autant certaines hypothses restent ncessaires comme par exemple celle dchantillons
alatoires indpendants. Ces hypothses sont toutefois moins fortes que celles supposes dans
le cadre paramtrique. En consquence, les statistiques non paramtriques sont, si les
hypothses de distribution sont valides, moins puissantes que leurs homologues
paramtriques; mais en revanche elles sont plus robustes

Un inconvnient est quil nexiste pas de thorie unificatrice des tests non paramtriques. De
ce fait leur prsentation est une suite dexposs relatifs chacun deux. Au moins peut-on
redonner une cohrence de lecture en identifiant les configurations o telle ou telle statistique
est approprie. On distingue ainsi traditionnellement les tests permettant la vue dun
chantillon de valider une hypothse distributionnelle des tests rpondant des questions
portant sur deux chantillons (ont-ils mme caractristiques, mme distribution,). Ces
dernires questions pouvant tre gnralises un systme de n-chantillons.
Avant daborder ces aspects, nous allons rappeler un certain nombre de statistiques utilises
couramment pour apprcier une distribution empirique.

3
RAPPELS DE STATISTIQUE DESCRIPTIVE
Les principaux indicateurs permettant dapprcier les caractristiques dun chantillon donn
visent apprcier le centre , la dispersion , l asymtrie ou l aplatissement de la
distribution. Il peut sagir de simples mesures descriptives visant synthtiser linformation
contenue dans les donnes, o de statistiques pouvant donner lieu un test dhypothse. Il
peut aussi tre utile de rappeler quelques divers types dobservations. Naturellement tous ces
rappels seront particulirement brefs.

La nature des observations

On distingue traditionnellement deux types de variables : celles de nature qualitative, sur les
valeurs desquelles les oprations arithmtiques nont pas de sens, et celles de nature
quantitative. Ces dernires pouvant tre discrtes, ralisations dans un espace de cardinal
gnralement faible et dont les modalits dfinissent une partition de la population, ou
continues.
Habituellement on retient quatre chelles de mesure : nominale, ordinale, dintervalle, et de
rapport.
- chelle nominale : deux individus auxquels on attribue la mme valeur sont
suppos gaux pour un caractre tudi donn. Exemple une variable indicatrice
du sexe a deux modalits valant 0 (ou H ou ) pour les hommes et 1 (ou F ou
) pour les femmes. Il sagit souvent didentifier des catgories mutuellement
exclusives.
- chelle ordinale : les modalits prises par la variable permettent dordonner les
individus en dfinissant une relation dordre (rflexivit, transitivit, antisymtrie)
total sur la population considre. Rappelez-vous un cours de premire anne de
microconomie et la dfinition de lutilit ordinale. On ne peut pas en particulier
interprter en termes dintensit les carts de valeur entre deux variables
ordinales : un classement ne renseigne en rien sur la distance sparant les individus
classs.
- chelle dintervalle : En plus de la relation dordre prcdente on a dispose dune
mesure relative lcart sparant deux individus. Ainsi si lcart entre A et B est
de 4 et celui de B C est de 2 alors on peut conclure que A est deux fois plus
4
loign de B que C. Lorigine de ces mesures, le zro, est arbitrairement fix
contrairement aux chelles de rapport (pensez aux mesures de temprature, celles
du QI ( ?),).
- chelle de rapport : Cest une chelle dintervalle caractrise par lexistence dune
origine (vrai zro). De ce fait le rapport de deux variables dfinit une intensit
mesurable (on peut par exemple affirmer que si A et B peroivent respectivement
2000 et 2500 euros par mois alors B reoit 1.25 fois le salaire de A).

Le centre dune distribution

Attention lemploi du frquence, il sagit le plus souvent (et cest ce qui est fait ici) dun
rapport du type effectif dune modalit sur effectif total mais quelquefois il est utilis la
place du terme effectif lui-mme. On peut pour tre non ambigu parler de frquence relative
et de frquence absolue.

3 indicateurs : mode, mdiane, moyenne.
- mode : valeur pour laquelle la frquence est la plus leve. Une distribution peut tre
unimodale, bimodale,
- mdiane : valeur qui spare la distribution en deux classes de frquence gale. Il est
videmment ncessaire que la variable soit ordinale pour que son interprtation ait un sens.
Vous savez que cet indicateur est prfr la moyenne en prsence de valeurs aberrantes
(outliers) qui sont des valeurs dobservations si extrmes quelles paraissent raisonnablement
ne pas appartenir la population dont lchantillon est tir.
- moyenne : cest le rapport de la somme des observations leur nombre. La variable
est au moins mesure sur une chelle dintervalle. Pour une srie groupe deffectif
i
n dans la
i
me
modalit on a
1
i i i i
i i
x n n x f x
= =

. Pour des sries ergodiques stationnaires on a
[ ] lim
n
p x E x
= .

Pour une distribution unimodale symtrique ces trois indicateurs sont gaux

5
Lorsque des donnes aberrantes sont prsentes dans les observations des estimateurs robustes
du centre de la distribution autres que la mdiane ont t proposs :
La moyenne winsorise (winsorized mean) : les k observations les plus petites sont
remplaces par la k+1
ime
plus petite observation et les k observations les plus grandes
sont remplaces par la k+1
ime
plus grande observation, soit (les rangs des observations
sont mis entre parenthses pour signifier que les donnes ont t tries par ordre
croissant) :
( ) ( )
1
( 1) ( ) ( )
1
1
1 1
n k
wk k i n k
i k
x k x x k x
n

+
= +
| |
= + + + +
|
\

Par exemple avec les 10 observations suivantes : 0, 1, 7, 8, 9, 10, 11, 12, 13, 14 on a :
( ) 0 1 7 8 9 10 11 12 13 14 /10 85/10 8.5 x = + + + + + + + + + = = , et
( )
2
7 7 7 8 9 10 11 12 12 12 /10 95/10 9.5
w
x = + + + + + + + + + = =
Pour une distribution symtrique
wk
x est un estimateur sans biais de lesprance mais
sa distribution est non normale, et ceci mme si les
i
x sont gaussiens. Sa variance est
donn par :
( )( ) ( ) ( )( )
1
2 2 2
2
( 1) ( ) ( )
2
1 1
n k
wk k wk i wk n k wk
i k
s k x x x x k x x

+
= +
= + + + +

La moyenne tronque (trimmed mean) : les k observations les plus petites et les k
observations les plus grandes sont simplement omises dans les calculs. Ainsi :
( )
1
1
2
n k
tk i
i k
x x
n k
= +
=

Son cart-type est donn par :

( ) ( )
2
2
2 2 1
wk
tk
s
s
n k n k
=

La dispersion dune distribution

Les mesures les plus usites sont naturellement la variance et/ou lcart-type. Sur un plan
purement descriptif on peut employer ltendue qui est simplement la diffrence entre la plus
grande et la plus petite valeur dune variable ayant au moins une chelle dintervalle. Lcart
interquartile, gal la diffrence entre les valeurs correspondant aux premier et troisime
6
quartiles, est aussi utilis notamment lorsque lon souponne lexistence doutliers aux
extrmits de la distribution empirique. Par dfinition Q3-Q1 contient 50% des observations.
Pour une distribution normale on peut obtenir un estimateur de lcart-type en divisant lcart
interquartile par 1.34898.
Une mesure de dispersion parfois utile est le coefficient de variation, rapport de lcart-type
la moyenne empiriques. Cette mesure facilite les comparaisons de dispersion entre
chantillons pour lesquels la taille des observations est trop diffrente. En effet, lemploi des
carts-types ou des variances nest pas recommandable, leurs valeurs tant dpendantes de la
taille des observations alors que le coefficient de variation est un nombre pur. Par exemple
avec 2 chantillons
1
{1.0,1.5, 2.0,1.8,1.4, 2.1, 0.8,1.2} E = et
2
{10,15, 20,18,14, 21, 8,12} E = ,
on a
1
1.475
E
x = ,
2
14.75
E
x = ,
1,
0.468
MCO
s = ,
1,
4.683
MCO
s = ( MCO signifie que lon a
recouru une pondration par le nombre de degrs de libert) mais ( )
1
0.468 1.475
E
cv =
( )
2
4.683 14.75 .3175
E
cv = = = : avec cette mesure la variabilit dans
2
E est identique celle
affrente
1
E et non pas 10 fois plus grande comme le ferait conclure lexamen des cart-
types (imaginez que les valeurs soient des prix exprims dans une certaine monnaie dans
1
E
et dans une autre monnaie pour
2
E avec un taux de conversion de 1 contre 10 et rflchissez
la mesure de variabilit la mieux adapte). Notez que dans les sorties SAS ce coefficient de
variation est multipli par 100.

SAS, dans la procdure UNIVARIATE, propose dautres estimateurs robustes de la
dispersion (la diffrence moyenne de Gini, la mesure MAD de Hampel, et les statistiques
n
Q
et
n
S de Rousseeuw et Croux. Voir la documentation pour plus de dtails sur ces quantits
relativement peu usites).

Skewness et Kurtosis

Tendance centrale et dispersion ne sont pas les seules caractristiques intressantes dune
distribution. Au-del des moments dordre 1 et 2 on peut tre amen sinterroger sur les
proprits des moments dordre suprieurs, notamment 3 et 4 qui vont nous renseigner sur sa
symtrie et sa courbure. Ces quantits sont intressantes lorsque lon veut discuter de
lhypothse de normalit laquelle on se rfre souvent pour mener des tests paramtriques.
7

La skewness

Il sagit donc de prciser la symtrie ou la dissymtrie de la distribution. Le coefficient de
skewness est dfini comme le rapport du moment dordre 3 la puissance troisime de son
cart-type :

3
3
m
sk
=
et il est gnralement estim par (cest la formule par dfaut de SAS, elle correspond
loption VARDEF=DF dans les procdures qui lautorisent):

( ) ( )
2
3
3
1 2
m n
sk
n n s
=

avec ( )
3
1
3
1
n
i
m n x x

Si on prcise VARDEF=N alors il ny a pas de correction sur les pondrations et la skewness
et estime simplement par :

3
1
1
n
i
x x
sk n
s
| |
=
|
\

Lorsque la distribution est symtrique autour de lesprance sk vaut zro. Il est positif pour
une distribution prsentant une asymtrie droite et ngatif pour une asymtrie gauche. On
utilise parfois galement le coefficient de skewness de Pearson dfini par :

( ) 3
sk
x M
P
s
= o M est la mdiane de lchantillon

Ce coefficient varie entre -3 et 3 et vaut galement zro pour une distribution symtrique. Il
fait bien apparatre une valeur ngative (resp. positive) lorsque x M < (resp. x M > ) et donc
que lon a une asymtrie gauche (resp. droite).

Par exemple le graphique suivante reprsente la densit dune log-normale de paramtres
(1,1). Son esprance est 4.48169 alors que sa mdiane vaut 2.71828. Clairement elle possde
une asymtrie positive (dailleurs une log-normale est ncessairement dissymtrique compte-
tenu de son espace de dfinition).

8
2 4 6 8
0.05
0.1
0.15
0.2

Un test de nullit de sk , et donc de symtrie de la distribution, passe par la cration dune
gaussienne centre-rduite sous H0 :

( ) ( ) 1 2
6
n n
z sk
n

=
Ce test nest pas implment dans SAS.

La kurtosis

Lobjectif est de caractriser la courbure de la fonction de densit, ou de la fonction de
rpartition, de la distribution. Le plus souvent il sagit de la comparer celle dune
gaussienne. Selon le cas, on dira quune distribution est mesokurtique si son aplatissement est
modr , la reprsentante type tant la distribution normale. Elle est dite leptokurtique
lorsque les queues de la distribution sont trop paisses et que lon a donc plus de valeurs
extrmes quen cas de tirage gaussien. Elle est dite platokurtique lorsque les queues de la
distribution sont plus fines que celle dune gaussienne et que donc il y une concentration plus
marque des ralisations autour de la tendance centrale.
La kurtosis sobtient partir du moment dordre 4 et on obtient un nombre pur en le normant
par le carr de la variance, soit (cest la formule par dfaut de SAS, elle correspond loption
VARDEF=DF dans les procdures qui lautorisent) :

( )( )( )
( ) ( )
2
2
4 2
4
1 3 1
1 2 3
n m n m n
Ku
n n n s
+
=

, avec ( )
1
1
n
j
j i
i
m n x x
=
=
, 2, 4 j =

Si on prcise VARDEF=N alors il ny a pas de correction sur les pondrations et la skewness
et estime simplement par :
9

4
1
1
3
n
i
x x
Ku n
s
| |
=
|
\

Pour une gaussienne 0 Ku = .
Notez quon trouve galement dans la littrature une autre mesure :

( )( )
( ) ( )
( ) 2 3 3 1
'
1 1 1
n n Ku n
Ku
n n n

= +
+ +

Pour une gaussienne ' 3 Ku = .

Le graphique ci-aprs reprsentent les densits dune gaussienne centre rduite et dune
student 5 degrs de libert pour laquelle ' 9 Ku = et qui est donc leptokurtique (on a
volontairement omis la lgende : trouvez la courbe qui lui correspond ! au passage, trouver
aussi la valeur de la skewness pour cette student).

-4 -2 2 4
0.1
0.2
0.3
0.4

Un test de nullit de Ku peut passer par la cration dune gausienne centre-rduite sous H0 :

( )( )( )
( )
1 2 3
24 1
n n n
z Ku
n n

=

Ce test nest pas implment sous SAS.

Jarque et Bera proposent de combiner skewness et kurtosis pour dvelopper un test
dhypothse nulle correspondant une distribution symtrique et msokurtique :
10

2 2
24 6
Ku sk
jb n
| |
= +
|
\

Sous H0, jb possde une distribution de chi-2 deux degrs de libert. Ce test nest pas
implment sous SAS sauf dans la proc AUTOREG o il est prsent comme un test de
normalit des rsidus (on ne teste en fait que laspect symtrique et msokurtique de la
distribution).

TESTS DHYPOTHESE SUR LA DISTRIBUTION

Pralablement la conduite des tests dhypothses sur les paramtres dun modle il est
souvent utile de connatre la distribution des observations. Par exemple lhypothse de
normalit est souvent un pralable la suite des oprations et cest donc cette hypothse de
distribution gaussienne qui nous intressera ici au premier chef, sachant que dautres
distributions continues peuvent tre galement spcifies (lognormale, exponentielle, gamma,
beta et weibull).
Proc UNIVARIATE notamment propose plusieurs tests permettant de savoir si on peut
raisonnablement accepter (cad que lon ne rejette pas au seuil de risque choisi) que les
observations sont tires dans une distribution spcifie a priori. Trois test fonds sur la
fonction de rpartition empirique (EDF tests) sont proposs : Kolmogorov-Smirnov,
Anderson-Darling et Cramer-von Mises. Par ailleurs lorsque le nombre dobservations est
infrieur 2000 et que la distribution spcifie a priori est la gaussienne, la procdure value
aussi la statistique de Shapiro-Wilk. Un certain nombre de graphiques sont galement
accessibles via loption PLOT et les commandes HISTOGRAM, PROBPLOT, QQPLOT.
Enfin un test dadquation dune distribution spcifie continue ou discrte un ensemble de
donnes observes souvent employ est le test du Chi2.

Le test de Shapiro-Wilk

Cest un test ddi lhypothse de normalit. Etant donn un ensemble dobservations
(1)
x ,,
( ) n
x tri par ordre croissant, la statistique est obtenue comme :
11

( )
2
( )
1
2
1
n
i i
i
n
i
i
a x
W
x x
=
=
| |
|
\
=
,
o les coefficients de pondrations
i
a prennent des valeurs qui ne dpendent que de la taille
de lchantillon n . Cette statistique est comprise entre 0 et 1. Des petites valeurs de W
conduisent au rejet de lhypothse nulle (W possde une distribution fortement asymtrique si
bien quune valeur telle que 0.9 peut tre considre comme petite selon la documentation
de SAS). Lorsque le nombre dobservation est suprieur 3, une approximation due
Royston est mise en uvre qui conduit dfinir une gaussienne centre-rduite :
( ) ( ) ( )
log log 1 / z W = si 4 11 n , et
( ) ( )
log 1 / z W = si 12 2000 n ,
les coefficients , , ayant t obtenus par simulations. Une valeur leve en valeur absolue
de z conduisant au rejet de la normalit.

Les tests EDF

Lide est ici de comparer la fonction de rpartition thorique spcifie, ( ) F x , et la fonction
de rpartition empirique, ( )
n
F x , dfinie par :
( ) 0
n
F x = pour
(1)
x x < ,
( )
n
i
F x
n
= pour
( ) ( 1) i i
x x x
+
< et 1, , 1 i n = ,
( ) 1
n
F x = pour
( ) n
x n .
Cest une fonction en escalier avec une hauteur de marche gale
1
n
. On peut aussi la dfinir
comme :

1
1
( ) 1( )
n
n i
i
F x x x
n
=
=
o 1() est la fonction indicatrice.

Ces tests EDF repose sur un thorme important en statistique non paramtrique : si une
variable alatoire X a une fonction de rpartition continue
X
F alors la variable alatoire
( )
X
Y F X = possde une distribution de rpartition uniforme sur lintervalle [0,1].
12

Preuve : [ ] 0,1 y ,
( )
1 1
( ) ( ( ) ) ( ( )) ( )
X X X
P Y y P F X y P X F y F F y y

< = < = < = =
Remarque : ce thorme est galement trs utile pour gnrer des pseudo-nombres au
hasard ayant une distribution F ds lors que lon sait calculer son inverse et que lon
sait gnrer alatoirement des uniformes. En effet, il suffit de gnrer y partir dune
uniforme sur [0,1] et de calculer
1
( ) x F y
= . En consquence, x est une pseudo-

ralisation tire dans la loi correspondante F.

Le test de Kolmogorov-Smirnov

Pour statuer sur le caractre appropri de la fonction de rpartition ( ) F x il est raisonnable de
sintresser la distance qui la spare de la fonction empirique ( )
n
F x . Soit
sup ( ) ( )
n
x
D F x F x = . On peut montrer aisment que la distribution de D ne dpend pas de la
fonction de rpartition suppose F :
( ) ( )
n
F x F x =
1
1
( ) ( )
n
i
i
I x x F x
n
=

=
1
1
( ( ) ( )) ( )
n
i
i
I F x F x F x
n
=

(car F est monotone croissante)

=
1
1
( )
n
i
i
I y y y
n
=

, o [ ] ( ) 0,1 y F x = est une va uniforme

et donc :

,
1
1
( ) ( ) ( ) ( )
n
n i UNI n
i
F x F x I y y y F y y
n
=
= =
,
o
, UNI n
F est la fonction de rpartition empirique construite avec n ralisations de variables
alatoires uniformes dans [0,1].
Au total,

[ ]
,
0,1
sup ( ) ( ) sup ( )
n UNI n
x y
D F x F x F y y
= =
et on voit que le dernier terme ne fait pas intervenir F .
La dernire tape repose sur le thorme de Kolmogorov (que nous ne dmontrons pas) :
Pour un ensemble de n variables alatoires iid de fonction de rpartition continue F on a
13
( ) ( )
n
P nD x K x
, o ( ) K x est la fonction de rpartition de Kolmogorov dfinie par

2 2
1 2
1
( ) 1 2 ( 1)
i i x
i
K x e

=
=
.

Pour les faibles valeurs de n on trouve des tables donnant les valeurs critiques aux seuils de
risque usuels ; pour les tailles dchantillon importantes on peut utiliser les proprits
asymptotiques et donc calculer ( ) K x .

Les tests dAnderson-Darling et de Cramer-von Mises

Ce sont des tests drivs du test de Kolmogorov-Smirnov mais bass sur la diffrence
quadratique entre les fonctions de rpartition thorique suppose et empirique
( )
2
( ) ( )
n
F x F x . Ils ont donc comme forme gnrale une expression du type :
( )
2
( ) ( ) ( ) ( )
n
Q n F x F x x dF x
+
, o ( ) x est une fonction de pondration.

Ces tests ont une distribution qui, contrairement au test K-S, dpend de la distribution
suppose et donc pour lesquels les valeurs critiques varient selon lhypothse retenue. Par
ailleurs alors que dans K-S on regarde la distance maximale entre les deux fonctions de
rpartition, dans les deux tests cits maintenant lensemble des observations est considr.

Cramer-von Mises : la fonction de pondration est donne par :
( ) 1 x = et la statistique de test par :

2
2
1
2 1 1
2 12
n
i
i
i
W y
n n
=
| |
= +
|
\

On conclut au rejet de lhypothse nulle lorsque
2
W est suprieure sa valeur
critique.
Anderson-Darling : la fonction de pondration est donne par :
( )
1
( ) ( ) 1 ( ) x F x F x

= (

et la statistique de test par :
( )
2 1
( ) ( 1 )
1
(1 2 ) log( ) log(1 )
n
i n i
i
A n n i y y
+
=
(
= +

14
(on rappelle que lindice mis entre parenthse signifie que lon considre les
observations classes par ordre croissant et que
1
( ) ( )
( )
i i
y F x
= )

Elle donne plus de poids aux observations situes dans les queues de la distribution
que ne le fait la statistique de Kolmogorov-Smirnov (vous pouvez vrifier ceci
aisment : la fonction
1
( ) x

est croissante puis dcroissante avec ( ) F x et atteint
son maximum en ( ) 0.5 F x = ) et peut donc tre intressante dans les cas ou ce sont
prcisment les dviations importantes par rapport au centre de la distribution qui
importent. La dcision est de rejeter lhypothse nulle lorsque
2
A est suprieure
sa valeur critique.
Un exemple dapplication

Soit par exemple les notes sur 20 obtenues dans une certaine matire par trente-huit tudiants
pris au hasard dans une promotion. On se demande si on peut accepter lhypothse de tirage
dans une gaussienne.
data notes ;
input note @@ ;
cards ;
8.0 7.5 9.0 15.5 12.0 13.0 6.5 5.0 12.0 9.0 10.5 11.5 3.5 14.5 12.0 8.5
11.0 10.5 9.0
11.5 10.0 14. 7.5 10.5 11.0 8.5 12.0 4.5 9.5 12.0 11.0 8.0 7.5 12.5 10.5
9.0 5.0 10.0
;
proc univariate data=notes normal ;
var note ;
histogram note /
kernel(k=normal c=mise w=5)
normal (mu=est sigma=est);
probplot note / normal (mu=est sigma=est);
run ;

Loption normal utilise dans la ligne dappel de la procdure spcifie que la rpartition F
thorique des critures prcdentes est la rpartition dune gaussienne. La commande
histogram demande laffichage dun histogramme et loption normal (mu=est sigma=est)
lui superpose la densit dune gaussienne dont les paramtres sont la moyenne et lcart-type
estims sur lchantillon. Loption kernel(k=normal c=mise w=5) rclame laffichage de
lestimation de la densit par une fonction de kernel de type normal ; c=mise slectionne le
bandwidth parameter par minimisation de lintgrale de lerreur quadratique moyenne et
w=5 gre lpaisseur du trait (voir le cours de C. Hurlin pour plus de dtails). Linstruction
probplot affiche un graphique comparant les observations ordonnes avec les percentiles
dune distribution thorique, ici une gaussienne.
15
Lexcution de ce code donne la sortie suivante (lensemble des informations nest pas
reproduit) :

La procdure UNIVARIATE
Variable : note

Moments

N 38 Somme poids 38
Moyenne 9.81578947 Somme obs. 373
cart-type 2.74704031 Variance 7.54623044
Skewness -0.3285174 Kurtosis -0.0076241
SS non corrige 3940.5 SS corrige 279.210526
Coeff Variation 27.9859334 Moy. erreur std 0.44562878

Mesures statistiques de base

Position Variabilit

Moyenne 9.81579 cart-type 2.74704
Mdiane 10.25000 Variance 7.54623
Mode 12.00000 tendue 12.00000
Intervalle interquartile 4.00000

Tests de normalit

Test -Statistique-- -Seuil de significativit-

Shapiro-Wilk W 0.978335 Pr < W 0.6583
Kolmogorov-Smirnov D 0.098347 Pr > D >0.1500
Cramer-von Mises W-Sq 0.050157 Pr > W-Sq >0.2500
Anderson-Darling A-Sq 0.330941 Pr > A-Sq >0.2500

Au seuil de 10% aucune des quatre statistiques ne permet de rejeter lhypothse de normalit
(avec peu de points il est prfrable dutiliser un seuil de risque plus lev que ceux retenus
usuellement).
0 2 4 6 8 10 12 14 16 18 20
0
5
10
15
20
25
30
P
e
r
c
e
n
t
not e

Globalement ce graphique confirme bien que les observations peuvent tre considres
comme des ralisations dune gausienne, avec cependant une queue de distribution gauche
16
un peu paisse correspondant une frquence de notes basses plus importante quattendue
sous lhypothse de distribution normale.
Finalement le graphique des probabilits obtenues reproduit ci-aprs confirme bien les
prcdentes conclusions (en abscisse figure les percentiles.
1 5 10 25 50 75 90 95 99
2. 5
5. 0
7. 5
10. 0
12. 5
15. 0
17. 5
n
o
t
e
Nor mal Per cent i l es

Pour rappel, on donne dans le tableau suivant, repris N. Curtis, les rgles dinterprtation
des graphiques obtenus par les instructions probplot et/ou qqplot.

Pour mmoire, on prcise encore ici quelques amliorations intressantes pouvant tre
apportes linstruction histogram. En particulier, il est possible via loption inset de faire
apparatre dans le graphique les valeurs de certaines quantits, de grer le centre des barres
17
ainsi que leur nombre par loption midpoints, de tracer une verticale pour une valeur
particulire de labscisse, de spcifier lchelle en termes de frquence dobservations
reprsentes par les barres. Ainsi le code suivant :

proc univariate data=notes normal;
var note;
histogram note /
kernel(k=normal c=mise w=5)
normal (mu=est sigma=est)
midpoints=0 to 20 by 2
href=10
vscale=count;
inset n="N" (2.0)
mean="Moyenne" (5.2)
std="ecart-type" (5.2)
/pos=nw height=3;
run;

renvoie le graphe :

0 2 4 6 8 10 12 14 16 18 20
0
2
4
6
8
10
12
C
o
u
n
t
not e

Le test du Chi2

Ce test peut tre utilis sur des distributions discrtes et continues spcifies a priori. Les
classes dfinies par les distributions discrtes sont naturellement identifies par les
donnes traites. Par exemple une rpartition des individus selon leur rgion dhabitation, le
nombre de personnes constituant un mnage, etcDans le cas de distributions continues, les
observations doivent tre regroupes en classes ce qui induit une part darbitraire affectant les
conclusions obtenues par son application et de toute faon entrane une perte dinformation.

18
Sous 0 H : la fonction de rpartition est
X
F , o
X
F est donc connue, il est toujours
possible de calculer la probabilit dappartenance une classe donne, soit
k
p , 1, , k K =
o K est le nombre de classes. Dans ces conditions, si 0 H est vraie, leffectif attendu dans la
classe k avec un chantillon de taille n est simplement
k k
e np = . Soit
k
f leffectif observ
dans la classe k . Il semble raisonnable de regarder lcart entre ces affectifs attendus et
observs : si lcart est faible on acceptera raisonnablement 0 H , sil ne lest pas on la
rejettera. Tout le problme est de juger de la significativit dun tel cart. Pour cela on dfinit
la statistique Q comme :

( )
2
1
K
k k
k k
f e
Q
e
=

La distribution de Q distance finie est difficile obtenir. En revanche asymptotiquement, et
en se fondant sur des arguments renvoyant au test LRT dvelopp dans le cadre des
estimateurs du maximum de vraisemblance, on peut montrer plus aisment que cette
distribution va tendre vers une loi de Chi2 1 K dgrs de libert. Cette approximation est
cependant mauvaise pour les faibles probabilits et une rgle souvent pose est que leffectif
thorique de chaque classe doit tre au moins gal 5, ce qui peut impliquer des
regroupements de classes initiales. Par ailleurs la loi
X
F dpend gnralement de p
paramtres inconnus que lon doit estimer pralablement au calcul de Q. Dans ces cas, le
nombre de degrs utiliser pour le Chi2 est 1 K p . Par exemple, si on veut juger de
ladquation une normale de paramtres et
2
inconnus, on doit les remplacer par et
2
s et Q est compare la valeur critique dun Chi2 3 K degrs de libert. En thorie
galement pour que ladquation la loi asymptotique soit justifie il faudrait que les
paramtres inconnus soient estims par la mthode du maximum de vraisemblance sur les
donnes regroupes en classes et non pas, pour les distributions continues, sur les
observations initiales non regroupes.

Sous SAS cette statistique est disponible dans la procdure FREQ. Par dfaut loption CHISQ
suppose des proportions gales dans chacune des classes, soit des effectifs attendus gaux
/
k
e n K = pour 1, 2, , k K = . Il est naturellement possible de spcifier des effectifs attendus
diffrents avec loption TESTF=(liste de frquences), ou des proportions attendues avec
loption TESTP=(liste de proportions). Par ailleurs il est possible de demander le calcul du
seuil de significativit exact en plus de celui donn par lapproximation asymptotique.
19

Soit lexemple dapplication suivant : On pense que sur 100 tudiants de premire anne
toutes spcialits de formation confondues, un seul obtient son anne avec la mention trs
bien , quatre avec la mention bien , dix avec la mention assez bien , quarante-cinq avec
la mention passable et que quarante sont ajourns. Des donnes ont t collectes dans
deux universits. Elles paraissent dans le programme suivant :

data repartition;
input univ $ mention $ eff @@;
cards;
univA tb 22 univB tb 17 univA b 55 univB b 48 univA ab 243 univB ab 155
univA p 1082 univB p 682 univA aj 798 univB aj 573
;
run;

Il sagit de savoir si ces donnes sont compatibles avec la distribution suppose des mentions
et cela au sein de chacune des universits. La ralisation de lexrcice faisant lvidence
appel loption by univ , il convient de procder un tri pralable :

proc sort data=repartition;
by univ;
run;

Le test lui-mme est ralis au moyen des instructions qui suivent :

proc freq data=repartition order=data;
by univ;
tables mention / testp=(1 4 10 45 40);
weight eff;
run;

Pour chacune des 5 classes de mentions correspond donc la proportion attendue prcise dans
loption testp. On ne demande pas le calcul du seuil de significativit exact de la statistique
du Chi2 le temps de ce calcul tant prohibitif. Loption order=data force la procdure
ordonner les classes de mention selon lordre quelles ont dans le fichier de donnes, soit
(tb,b,ab,p,aj). En son absence SAS aurait utilis par dfaut lordre lexicographique
(ab,aj,b,p,tb) et il faudrait naturellement en tenir compte dans lindication de la liste des
proportions attendues, laquelle est prcise par testp=(1 4 10 45 40).
Les rsultats obtenus sont :

20

------------------------------------------- univ=univA --------------------------------------------

La procdure FREQ

Test Cumulative Cumulative
mention Frquence Percent Percent Frequency Percent

tb 22 1.00 1.00 22 1.00
b 55 2.50 4.00 77 3.50
ab 243 11.05 10.00 320 14.55
p 1082 49.18 45.00 1402 63.73
aj 798 36.27 40.00 2200 100.00

Test du Khi-2#pour proportions spcifies

Khi-2 30.9699
DDL 4
Pr > Khi-2 <.0001

Taille de l'chantillon = 2200
------------------------------------------- univ=univB --------------------------------------------

La procdure FREQ


tb 17 1.15 1.00 17 1.15
b 48 3.25 4.00 65 4.41
ab 155 10.51 10.00 220 14.92
p 682 46.24 45.00 902 61.15
aj 573 38.85 40.00 1475 100.00


Khi-2 3.7670
DDL 4
Pr > Khi-2 0.4385


Pour lUniversit B les donnes sont compatibles avec la distribution suppose (statistique
Q=3.7670, seuil de significativit asymptotique=0.4385). En revanche, pour lUniversit B
nous devons rejeter cette adquation au seuil de 5%.
Le calcul du seuil de significativit exact peut demander un temps dexcution assez long que
nous avons jug ici prohibitif. Il est possible dinterrompre les calculs des seuils exacts via,
sous Windows, les touches Ctrl-Break (Break=Arrt dfil). Il est normalement possible dans
ces conditions dvaluer le seuil exact avec un temps de calcul nettement plus rduit grce
des simulations de Monte Carlo si lon ne fait pas confiance lapproximation asymptotique.
Cette possibilit sera tudie ultrieurement, lemploi de loption MC conjointement avec
celle de BY gnrant des erreurs dans cette procdure FREQ, au moins jusqu la version 8.02
(Alert Note SN-005432).

21
Enfin il tait possible de tester lhypothse nulle sur la totalit des tudiants sans tenir compte
de leur spcialit de formation. Un tel exercice conduit ainsi aux rsultats donns ci-dessous :

La procdure FREQ


tb 39 1.06 1.00 39 1.06
b 103 2.80 4.00 142 3.86
ab 398 10.83 10.00 540 14.69
p 1764 48.00 45.00 2304 62.69
aj 1371 37.31 40.00 3675 100.00


Khi-2 29.8565
DDL 4
Pr > Khi-2 <.0001


Lhypothse nulle est ainsi rejete sur lchantillon total. Ceci illustre la ncessit dans ce
type de test de tenir compte dune possible htrognit des individus. Ainsi dans le cas
tudi, la rpartition suppose a priori nest pas invalide sur le sous-chantillon des tudiants
de lUniversit B.

TESTS SUR LA VALEUR CENTRALE
Avant daborder les tests non paramtriques nous allons faire quelques rappels sur les tests
paramtriques employs habituellement pour faire rpondre des interrogations sur la
tendance centrale dune distribution et sa mise en uvre sous SAS. Les aspects thoriques
sont dans cette premire partie considrs comme dj connus et ne sont donc pas dtaills.

LAPPROCHE PARAMERIQUE
Le test le plus commun pour tester une valeur particulire de lesprance ou lgalit des
esprances des moyennes de deux groupes est un test de student. Si le nombre de groupes est
suprieur deux on doit raliser une analyse de la variance.
22
Ces tests supposent que les chantillons sont des tirages de gaussiennes desprances
inconnues. Cependant on peut toujours se rfrer un thorme central-limite : mme si les
distributions ne sont pas normales, la moyenne empirique tend vers une gaussienne lorsque le
nombre dobservations, n, est grand. En pratique au-del dune vingtaine de points
lapproximation est souvent juge suffisante.

Test de student sur lesprance avec un seul chantillon

Il repose sur le fait que sous ( ) 0: H E x c = , ( 1)
x
x c
t t n
s
= avec
1
1
n
i
i
x x
n
=
=

,
( )
2
2
1
1
( 1)
n
i
i
s x x
n
=
=

, et
x
s
s
n
= =cart-type de la moyenne.

Sous SAS, on peut utiliser au moins trois procdures pour raliser ce test : TTEST, MEANS,
et UNIVARIATE.

Par exemple, on si on peut accepter lhypothse que le centre de la distribution des notes
utilises dans lexemple prcdent vaut 10.

La proc TTEST de SAS/STAT demande simplement que lon spcifie la valeur teste, c, avec
loption h0=c, le seuil de risque de premire espce, , choisi au moyen de loption
alpha= et, naturellement, le nom de la variable contenant les observations. Dans le cas
prsent, la syntaxe est donc :

proc ttest data=notes h0=10 alpha=0.05 ;
var note ;
run ;

La sortie gnre est :
The TTEST Procedure

Statistics

Lower CL Upper CL Lower CL Upper CL
23
Variable N Mean Mean Mean Std Dev Std Dev Std Dev Std Err Minimum Maximum

note 38 8.9129 9.8158 10.719 2.2396 2.747 3.554 0.4456 3.5 15.5

T-Tests

Variable DF t Value Pr > |t|

note 37 -0.41 0.6817

On y trouve les notes maximales et minimales de lchantillon, le nombre dobservations, la
note moyenne (ici 9.8158) avec indication des bornes dun intervalle de confiance 95% (ici
lesprance a 95 chances sur 100 de se situer entre 8.9129 et 10.719), lestimation de lcart-
type dchantillon s (ici 2.747) avec indication des bornes dun intervalle de confiance
95% (ici lcart-type a 95 chances sur 100 de se situer entre 2.2396 et 3.554). Enfin la valeur
de la statistique
9.8158 10
0.41
2.747
38
t

= = et son niveau de significativit (ici 0.6817) calcul en
supposant une student 37 degrs de libert. On accepterait donc lhypothse nulle au seuil
de 5%.

La proc MEANS construit galement ce test de student mais uniquement pour une valeur de
c gale zro. Ainsi pour obtenir les mmes sorties que prcdemment, il faut passer par une
tape DATA et soustraire 10 aux observations initiales puisquen effet,
0: ( ) 10 0: ( 10) 0 H E x H E x = = . On aurait alors :

data notes2 ;
set notes ;
note=note-10 ;
run;
proc means data=notes2 mean std stderr t probt clm alpha=0.05;
var note;
run;

Les options mean, std, stderr, t, probt et clm demandent respectivement laffichage de la
moyenne et de lcart-type dchantillon (x et ) s , de lcart-type de la moyenne ( )
x
s , de la
statistique t de student, de son niveau de significativit (bi-directionnel) ainsi que les bornes
dun intervalle de confiance 95% pour lesprance (naturellement il faut maintenant ajouter
10 certaines de ces quantits pour retrouver les rsultats affichs par proc TTEST).
24

Lexcution de ce code donne:

The MEANS Procedure

Analysis Variable : note

Lower 95% Upper 95%
Moyenne cart-type Erreur std t Value Pr > |t| CL for Mean CL for Mean

-0.1842105 2.7470403 0.4456288 -0.41 0.6817 -1.0871402 0.7187192

Proc UNIVARIATE autorise galement la ralisation de ce test. Toutefois cette procdure
donnant aussi les rsultats de tests non paramtriques nous la prsenterons ultrieurement.

Test de student didentit des esprances avec chantillon appari

Dans un chantillon appari type on dispose des observations 2 2 de plusieurs variables.
Lexemple type est celui dindividus sur lesquels on a mesur une variable avant et aprs un
traitement.
Lhypothse nulle souvent pose est celle de lgalit des esprances des deux variables et le
test se conduit simplement en ralisant un test de student sur la diffrence des valeurs de la
paire de variables. Soit
i
dif cette diffrence calcule sur le i
ime
individu et c la valeur
suppose (usuellement 0), on a donc 0:
dif
H c = , lalternative pouvant tre unidirectionnelle
ou bidirectionnelle. Sous 0 H la statistique
___
___
dif
dif c
t
s
| |
|
\
= , avec
___
1
i
dif dif
n
=

,
___
2
1
i
dif dif
s
n
| |
|
\
=
et
___
2
2
dif
s
s
n
= ,
suit un student 1 n degrs de libert.

Pour poursuivre lexemple prcdent selon cette logique, nous avons repris les mmes
tudiants et collect les notes obtenues dans une une seconde preuve sur la mme matire
aprs correction de la premire preuve. On est en droit dadmettre que des caractristiques
25
individuelles interviennent de sorte que pour un tudiant donn il ny a pas indpendance de
ses notes dans les deux interrogations. La question est de savoir si la moyenne des notes sest
modifie entre les deux preuves.

data un;
input note1 @@ ;
cards ;
8.0 7.5 9.0 15.5 12.0 13.0 6.5 5.0 12.0 9.0 10.5 11.5 3.5 14.5 12.0 8.5
11.0 10.5 9.0
11.5 10.0 14. 7.5 10.5 11.0 8.5 12.0 4.5 9.5 12.0 11.0 8.0 7.5 12.5 10.5
9.0 5.0 10.0
;
data deux;
input note2 @@ ;
cards;
9.0 7.0 9.5 15.0 13.0 13.0 7.0 6.0 14.0 8.5 11.0 11.0 6.0 14.0 13.5 8.0
10.5 11.5 10.0
10.0 10.5 15.0 9.0 10.0 11.5 9.5 11.0 5.5 12.0 11.0 12.5 9.5 7.0 12.0 12.0
10.0 6.5 9.5
;
data notes;
merge un deux;
run;

Le test seffectue aisment avec la procdure ttest selon :
proc ttest data=notes;
paired note2*note1;
run;

Avec, sur nos donnes les rsultats suivants :

The TTEST Procedure

Statistics

Difference N Mean Mean Mean Std Dev Std Dev Std Dev Std
Err

note2 - note1 38 0.1527 0.4868 0.821 0.8288 1.0167 1.3153
0.1649

T-Tests

Difference DF t Value Pr > |t|

note2 - note1 37 2.95 0.0055

Une lvation significative de la moyenne denviron point est ainsi rvle.
La syntaxe de paired autorise la construction de plusieurs tests avec un seul appel la
procdure FREQ. Ainsi, il est autoris dcrire : paired (x y)*(z*w), ce qui est quivalent
paired x*y x*w y*z y*w. De mme, avec paired (x y):(z*w) on obtient des rsultats
26
similaires ceux donns par paired x*z y*w. La syntaxe autorise galement la rfrence
des arrays avec par exemple : paired (x1-x10):(y1-y10). En revanche, lemploi de
paired interdit lemploi simultan des instructions var et class.

Comme avec le test de student prcdent il est possible demployer les procdures MEANS
ou UNIVARIATE plutt que TTEST. Linconvnient est quil est ncessaire pour ces deux
procdures de crer la diffrence des deux variables, via une tape DATA pralable,
diffrence sur laquelle on fait porter le test.

Test de student de comparaison desprances avec deux chantillons
indpendants

Lhypothse essentielle pour tester lgalit des moyennes de deux alatoires indpendantes
pour lesquelles on dispose de respectivement
1
n et
2
n ralisations est celle dgalit des
variances des alatoires en question. Il est donc important den tester la validit sachant quen
cas de rejet il est encore possible de construire des approximations de la student. Lhypothse
de normalit ne semble pas essentielle : il faut pourtant se mfier de ce test de student lorsque
les distributions sont trs diffrentes de la gaussienne notamment pour de faibles tailles
dchantillons.

1. En cas dgalit des variances : La statistique de test de lhypothse
2 1
0: H c =
(le cas dgalit des moyennes est naturellement obtenu en posant 0 c = ) est
simplement :
( )
2 1
1 2
1 1
Pooled
x x c
t
s
n n

=
+

o
2
pooled
s est la variance estime sur lchantillon constitu par lunion des deux
chantillons initiaux mais faisant cependant appel des moyennes empiriques
diffrentes (ce qui explique le nombre de liberts de la statistique), soit :

2 2
1 1 2 2 2
1 2
( ) ( )
2
i i
pooled
x x x x
s
n n
+
=
+

.
Sous la nulle t possde une distribution de student
1 2
2 n n + degrs de libert.
27
2. Le test dgalit des variances des deux alatoires doit galement vous tre connu : il
repose sur le fait que les statistiques dcart-type calcules sur chaque chantillon
obissent un loi de chi-deux ce qui permet de driver sans difficult une statistique
de Fisher sous
2 2
1 2
0: H = :
( )
( )
2 2
1 2
2 2
1 2
max ,
min ,
s s
F
s s
(
( =
(

Les nombres de degrs de libert tant selon le cas ( )
1 2
1, 1 n n o ( )
2 1
1, 1 n n .
3. En cas dingalit des variances. Le test des moyennes de deux populations
gaussiennes variance ingale est connu sous le nom de problme de Behrens-Fisher.
Plusieurs solutions ont t proposes (Fisher, Welch, Aspin, Qin, Howe, Jin ). SAS,
dans la procdure TTEST, propose de calculer lapproximation dun student selon :
1 2
1 2
a
x x
t
w w
=
+
, avec
2
1
1
1
s
w
n
= et
2
2
2
2
s
w
n
= .
Ensuite deux possibilits sont offertes : soit une approximation du seuil de
significativit de
a
t (Cochran et Cox), soit une approximation du nombre de degrs de
libert de
a
t (Satterthwhaite).

3.1. Approximation de Cochran et Cox . Il sagit dapproximer le seuil de
significativit de
a
t . Cest la valeur du seuil de risque tel que lon vrifie lgalit :
( ) ( )
1 1 2 2 1 2
/
a
t wt w t w w = + + (

o
1
t et
2
t sont les valeurs critiques, au seuil en question, de deux distributions de
student respectivement
1
1 n et
2
1 n degrs de libert. Une autre faon de
comprendre son application est de noter que cette approximation mne au rejet de
lhypothse nulle,
1 2
0: H = , au seuil de risque
0
fix a priori si
a
t est suprieur
une valeur critique obtenue comme moyenne pondre des valeurs critiques au seuil
0
de deux distributions de student respectivement
1
1 n et
2
1 n degrs de libert.

3.2. Approximation de Satterthwhaite. Elle approxime le nombre de degrs de libert
de
a
t selon :
28

( )
2
1 2
2 2
1 1 2 2
( 1) ( 1)
a
t
w w
df
n w n w
+
=
+
.
En rgle gnrale df nest pas un entier.
Par dfaut, ds lors que lon spcifie dans TTEST lingalit des variances,
lapproximation de Satterthwhaite est utilise.
4. Exemple dapplication. On reprend les 38 notes obtenues lors du premier examens
sachant que les 19 premires notes ont t obtenues par des filles et les 19 suivantes
lont t par des garons (il nest pas ncessaire que les 2 chantillons soient de tailles
identiques). Soit donc :
data notes3;
set notes;
if _n_<=19 then sexe='F';
else sexe='M';
run;
proc ttest data=notes3 cochran h0=0 alpha=0.10;
class sexe;
var note;
run;
Loption cochran dans lappel de TTEST demande laffichage des rsultats obtenus
avec lapproximation de Cochran-Cox (en son absence, seule Satterthwhaite est
employ). La spcification de h0=0 rclame le test dgalit des moyennes (elle est ici
non ncessaire puisquil sagit de lhypothse teste par dfaut). Enfin alpha=0.10
spcifie que lon travaille au seuil de risque de 10% (par dfaut TTEST utilise un seuil
de 5%). Les rsultats suivants sont gnrs :
The TTEST Procedure

Statistics

Variable sexe N Mean Mean Mean Std Dev Std Dev Std Dev Std Err

note F 19 8.698 9.9211 11.144 2.4276 3.0744 4.2565 0.7053
note M 19 8.7331 9.7105 10.688 1.94 2.4569 3.4016 0.5637
note Diff (1-2) -1.314 0.2105 1.7348 2.3381 2.7828 3.4614 0.9029

T-Tests

Variable Method Variances DF t Value Pr > |t|

note Pooled Equal 36 0.23 0.8169
note Satterthwaite Unequal 34.3 0.23 0.8170
note Cochran Unequal 18 0.23 0.8183

Equality of Variances

Valeur
Variable Method Num DF Den DF F Pr > F

note Folded F 18 18 1.57 0.3502

29
Dans le cas prsent on note que les trois tests conduisent la mme conclusion,
savoir le non rejet aux seuils de risque usuels de lhypothse dgalit. Par ailleurs, le
test dgalit des variances (Folded F) nest pas dfavorable lhypothse nulle et en
consquence il semble suffisant ici de faire rfrence seulement au rsultat du student
pooled.

Test de comparaison desprances avec deux chantillons indpendants
ou plus = Lanalyse de la variance

Lorsque lon a deux chantillons ou plus on peut raliser une analyse de la variance qui
gnralise lapproche prcdente. Le cas type est celui o une variable explicative (appele
souvent facteur) prend plusieurs modalits de sorte qu chaque modalit correspond un sous-
chantillon dune variable explique ralisations indpendantes suppose gaussienne et plus
prcisment que les ralisations du j
ime
groupe sont iid,
( )
2
,
j
N . On note en particulier
que la variance est identique sur tous les groupes, seules les esprances ventuellement
diffrent. Cest ce dernier aspect qui est tudi : il sagit de savoir si on a une modification de
lesprance avec la modalit de lexplicative. Lorsque le facteur explicatif prend J
modalits ( 2) J lhypothse nulle scrit donc:
1 2
0:
J
H = = = . Lalternative est que
toutes les moyennes ne sont pas gales. Notez que le rejet de 0 H ne renseigne ni sur les
moyennes qui diffrent ni sur le sens de la (ou des) dviation(s). En ce cas lanalyse peut donc
se poursuivre avec des mthodes de comparaisons multiples des moyennes.
La construction du test de 0 H repose sur des concepts que vous devez dj connatre : on
considre les variances intra-classes et inter-classes pour construire une statistique de Fisher,

int
1
J
j
ra j
j
n
V V
n
=
=
, cest la moyenne (pondre par les effectifs) des variances de chaque

classe ou variance within,

2
int
1
( )
J
j
er j
j
n
V y y
n
=
=
, cest la variance des moyennes (galement pondre) ou

variance between.

Avec
j
y = moyenne au sein du j
ime
groupe,

j
V = variance au sein du j
ime
groupe,
30
y = moyenne gnrale

j
n = effectif du j
ime
groupe,
n = effectif total.

Vous savez (Cf. les cours dADD ou dconomtrie linaire) que la variance totale est la
somme des variances intra et inter-classes et que ces deux dernires permettent de construire
des chi-deux indpendants de sorte quil est possible sous 0 H de dfinir un fisher F
( 1, ) J n J degrs de libert comme :

int
/( 1)
int /( )
er
V J
F
V ra n J

une valeur leve de F souligne quil y a relativement plus de diffrence entre les groupes
qu lintrieur des groupes et est donc un signal dfavorable lhypothse nulle.

1. Exemple danalyse de la variance un facteur
Nous disposons dun fichier clients indiquant le nombre de visites de dpannages ralises au
cours dune anne sur un type de matriel (variable visites), lexistence dun contrat
dentretien (variable contrat code 1 si le client possde un tel contrat et 0 sinon) et dune
valuation sur lutilisation du matriel (variable emploi code 1 si trs intensive, 2 si
intensive, 3 si normal, 4 si peu intensif).
On veut tudier limpact de lintensivit de lutilisation sur le nombre moyen de dpannages.

data pannes;
input visites contrat emploi @@;
cards;
12 1 1 12 1 2 11 1 3 9 1 4 11 1 1 10 1 2 12 1 3
8 1 4 12 1 1 11 1 2 11 1 3 9 1 4 14 1 1 12 1 2
11 1 3 10 1 4 12 1 1 12 1 2 10 1 3 8 1 4 13 1 1
11 1 2 12 1 3 10 1 4 12 1 1 9 2 2 8 2 3 8 2 4
10 2 1 9 2 2 8 2 3 7 2 4 8 2 1 8 2 2 9 2 3 8 2 4
9 2 1 9 2 2 8 2 3 8 2 4 9 2 1 9 2 2 6 2 3 7 2 4
8 2 1 9 2 2 8 2 3 9 2 4 10 2 1 9 2 2
;
run;

On commence par calculer des statistiques descriptives et notamment la moyenne du nombre
de visites selon les modalits dutilisation du matriel :

proc means data=pannes mean;
class emploi;
var visites;
31
run;
Avec comme rsultats :
The MEANS Procedure

Analysis Variable : visites

Nb
emploi obs. Moyenne

1 13 10.7692308

2 13 10.0000000

3 12 9.5000000

4 12 8.4166667

Assez logiquement il semble que le nombre dinterventions soit li au mode dutilisation.
Ceci peut toutefois ntre quun effet purement alatoire et on veut donc construire un test
formel de lhypothse
1 2 3 4
0: H = = = .
Pour raliser une analyse de la variance plusieurs procdures sont offertes par SAS et
notamment les procs ANOVA et GLM. La premire nest applicable que si la taille des sous-
chantillons est identique alors que la seconde autorise de travailler avec des effectifs de
groupes gaux ou diffrents (si les
j
n sont gaux entre eux, proc ANOVA est plus rapide et
ncessite moins de ressources machine que proc GLM). On mettra ici en uvre GLM.

Le code excuter est alors :
proc glm data=pannes;
class emploi;
model visites = emploi;
run;
quit;

La commande model spcifie le nom de lexplique et du facteur, class cr les
indicatrices de chaque modalits. GLM tant une procdure interactive on en sort avec quit.
Les rsultats associs sont les suivants :
The GLM Procedure

Class Level Information

Class Levels Values

emploi 4 1 2 3 4

Number of observations 50
32

Dependent Variable: visites

Somme des Valeur
Source DDL carrs Carr moyen F Pr > F

Model 3 36.2756410 12.0918803 4.63 0.0066

Error 46 120.2243590 2.6135730

Corrected Total 49 156.5000000

R-Square Coeff Var Root MSE visites Mean

0.231793 16.66655 1.616655 9.700000

Valeur
Source DDL Type I SS Carr moyen F Pr > F

emploi 3 36.27564103 12.09188034 4.63 0.0066

Valeur
Source DDL Type III SS Carr moyen F Pr > F

emploi 3 36.27564103 12.09188034 4.63 0.0066

Ici la valeur du Fisher (4.63) confirme le rejet de lhypothse nulle avec un degr de
significativit particulirement faible (0.0066) : lintensit de lutilisation du matriel affecte
le nombre moyen de pannes.
Il peut ds lors tre intressant de comparer les moyennes entre elles. Linstruction contrast
permet la ralisation de tests sur des combinaisons linaires des esprances. Par exemple, si
nous voulons tester
(i) esprance du 3
ime
groupe = esprance du premier
(ii) esprance du 3
ime
groupe = esprance du second
(iii) esprance du 3
ime
groupe = esprance du quatrime
(iv) esprance du 1
er
groupe =esprance du second
(v) moyenne des esprances groupe 1 & 2 = moyenne des esprances groupe 3 & 4

il suffit dexcuter :
class emploi;
contrast 'normal-intensif' emploi 0 -1 1 0;
contrast 'normal-trs intensif' emploi -1 0 1 0;
contrast 'normal-peu intensif=0' emploi 0 0 1 -1;
contrast 'trs intensif-intensif=0' emploi 1 -1 0 0;
33
contrast 'trs intensif+intensif=normal+peu intensif' emploi 1 1 -1 -1;
run;
quit;

et on obtient (on ne donne quune partie des rsultats) :
Contrast DDL Contrast SS Carr moyen F Pr > F

normal-intensif 1 1.56000000 1.56000000 0.60 0.4437
normal-trs intensif 1 10.05230769 10.05230769 3.85 0.0559
normal-peu intensif=0 1 7.04166667 7.04166667 2.69 0.1075
trs intensif-intensif=0 1 3.84615385 3.84615385 1.47 0.2313
trs intensif+intensif=normal+peu intensif 1 25.38782051 25.38782051 9.71 0.0031

On vous laisse interprter les rsultats en question. Rappelez-vous que dans ces comparaisons
de plusieurs moyennes labsence de significativit des carts nest pas transitive : par exemple
en comparant 3 moyennes,
1 2
, et
3
telles que
1 2 3
x x x < < on peut conclure que les deux
extrmes
1
et
3
sont diffrentes alors quelles peuvent ne pas tre individuellement
significativement diffrentes de
2
. La procdure GLM offre plusieurs possibilits pour
comparer un ensemble desprances entre elles et autorise notamment la construction
dintervalles de confiance sur les carts de moyennes. En particulier lorsque lon veut
considrer tous les couples dcarts possibles entre les moyennes des J groupes ou entre les
moyennes de 1 J groupes avec une moyenne de rfrence il est conseill dutiliser les tests
de Scheffe ou mieux encore de Tukey ou de Dunnett (Sur ces aspects voir la documentation
de proc GLM et spcialement la partie Details->Comparing Groups->Multiple Comparisons)
o encore dajuster le degr de risque utilis pour juger du rejet en fonction du nombre de
comparaisons effectus.

Le problme dans ce type de comparaisons multiples de moyennes est en effet que lon est
amen raliser un nombre relativement important de tests dhypothse simple et la difficult
est de matriser le seuil de risque (ou de confiance) : avec un seul test, le risque de premire
espce correspond bien celui choisi a priori, par exemple 5%. En revanche si lon effectue m
tests, la probabilit de rejeter tort passe 1-(1-0.5)
m
, soit avec 10 tests supposs
indpendants prs de 40%, et avec 20 tests plus de 60%. Il existe plusieurs solutions pour
contrler ce risque de premire espce. La plus simple est la mthode de Bonferroni : le seuil
de risque appliqu sur chaque hypothse simple est gal au seuil de risque choisi divis par le
nombre de tests simples raliss. Ainsi, avec 10 tests et un seuil de risque de 5%, on va
travailler individuellement avec un seuil de 5%/10=0.5%. En dautres termes lhypothse
nulle sera accepte pour un test individuel si son seuil de significativit est suprieur 0.5% et
34
non pas 5%. La mthode est simple mais elle possde linconvnient de privilgier
fortement lhypothse nulle de sorte que lon peut laccepter trop souvent tort. Les mthodes
dites de stepdown essayent de corriger cette tendance (par exemple les mthodes de Hochberg
ou de Holm). Le test de Sidak, galement disponible avec la proc GLM, est aussi une variante
de lajustement de Bonferroni du seuil de risque de premire espce. Une autre solution est
demployer un test bootstrap (Cf. cours de Ch. Hurlin) ce qui seffectue aisment avec la
procdure MULTTEST (membre de SAS/STAT) comme le montre lexemple ci-dessous :

proc multtest data=pannes boot n=1000 seed=123 bon pvals;
class emploi;
contrast 'normal-intensif' 0 -1 1 0;
contrast 'normal-trs intensif' -1 0 1 0;
contrast 'normal-peu intensif=0' 0 0 1 -1;
contrast 'trs intensif-intensif=0' 1 -1 0 0;
contrast 'trs intensif+intensif=normal+peu intensif' 1 1 -1 -1;
test mean(visites);
run;

On rclame la construction de 1000 chantillons boostrap (option n=1000), laffichage des
seuils ajusts selon la mthode de bonferroni (option bon), laffichage des seuils de
significativit (option pvals). Loption seed= initialise le gnrateur de nombre au hasard de
sorte que les rsultats peuvent tre rpts. Enfin, la commande test demande ce que les
tests portent sur la moyenne de chacune des variables spcifies, ici une seule : visites.

Les rsultats sont les suivants :

Model Information

Test for continuous variables: Mean t-test
Tails for continuous tests: Two-tailed
Strata weights: None
P-value adjustment: Bonferroni
P-value adjustment: Bootstrap
Center continuous variables? Yes
Number of resamples: 1000
Seed: 123

Contrast Coefficients

emploi

Contrast 1 2 3 4

normal-intensif 0 -1 1 0
normal-trs intensif -1 0 1 0
normal-peu intensif=0 0 0 1 -1
35
trs intensif-intensi 1 -1 0 0
trs intensif+intensi 1 1 -1 -1

Continuous Variable Tabulations

Standard
Variable emploi NumObs Mean Deviation

visites 1 13 10.7692 1.9215
visites 2 13 10.0000 1.4142
visites 3 12 9.5000 1.9306
visites 4 12 8.4167 0.9962

p-Values

Variable Contrast Raw Bonferroni Bootstrap

visites normal-intensif 0.4437 1.0000 0.8240
visites normal-trs intensif 0.0559 0.2796 0.1810
visites normal-peu intensif=0 0.1075 0.5377 0.3210
visites trs intensif-intensi 0.2313 1.0000 0.5670
visites trs intensif+intensi 0.0031 0.0157 0.0220

Au seuil de 5% la mthode bootsrap et celle de Bonferroni confirment le rejet dune esprance
gale pour les deux sous groupes {usage trs intensif et intensif} versus {usage normal et peu
intensif}. En revanche ce mme seuil on accepte les autres hypothses nulles. On note
galement que toutes deux contredisent au seuil de 10% le rsultat obtenu avec le test usuel de
lhypothse dgalit des moyennes des groupes {usage normal} et {usage trs intensif}
puisquelles ne permettent pas son rejet.

Plutt que de travailler avec les statistiques usuelles, on peut donc aussi recourir des tests
construits spcialement pour les comparaisons multiples. Ainsi le test de Tuckey est-il fond
sur le studentized range : pour chaque couple de moyennes possible on calcule lcart entre
les moyennes empiriques mais la normalisation tient compte du nombre de couples possibles.
Ainsi, alors que le test de student met au dnominateur lcart-type de lcart de moyenne, la
statistique studentized range utilise lcart-type de la moyenne. Elle teste donc lhypothse
que les plus grande et plus petite moyenne de J groupes sont gales. Si cet cart est non
significatif alors on ne peut rejeter lhypothse que lensemble des moyennes ne diffrent pas
au seuil choisi a priori. Le test de Tuckey est fond sur ce type de statistique et va
considrer tous les couples possibles de moyennes.

Dans notre exemple, en excutant le code suivant :
36
class emploi;
means emploi / tuckey;
run;
Nous obtenons :
Test de Tukey's Studentized Range (HSD) pour visites

NOTE: This test controls the Type I experimentwise error rate.

Alpha 0.05
Erreur Degrs de Libert 46
Erreur du Carr Moyen 2.613573
Valeur critique de l'tendue modifie selon la loi de Student 3.76958

Comparaisons significatives au niveau 0.05 indiques par : ***.

Difference
emploi Between Simultan 95%
Comparison Means Confidence Limits

1 - 2 0.7692 -0.9210 2.4594
1 - 3 1.2692 -0.4558 2.9943
1 - 4 2.3526 0.6275 4.0776 ***
2 - 1 -0.7692 -2.4594 0.9210
2 - 3 0.5000 -1.2251 2.2251
2 - 4 1.5833 -0.1417 3.3084
3 - 1 -1.2692 -2.9943 0.4558
3 - 2 -0.5000 -2.2251 1.2251
3 - 4 1.0833 -0.6759 2.8426
4 - 1 -2.3526 -4.0776 -0.6275 ***
4 - 2 -1.5833 -3.3084 0.1417
4 - 3 -1.0833 -2.8426 0.6759

Le seul cart significatif au seuil de 5% concerne la moyenne du nombre de visites des
groupes utilisation peu intensive et utilisation trs intensive.

Pour la validit des tests effectus jusquici nous avons implicitement suppos que les
variances au sein des divers sous-groupes taient gales. Une rgle souvent accepte est que
lhtroscdasticit nest pas un problme pour les tests prcdents si le rapport de la plus
grande la plus petite variance se situe dans un rapport de 2 1. Si on regarde de plus prs cet
aspect, il semble que lhypothse en question soit intenable.

proc means data=pannes std;
class emploi;
var visites;
run;

37
donne en effet :
The MEANS Procedure

Analysis Variable : visites

Nb
emploi obs. cart-type

1 13 1.9215378

2 13 1.4142136

3 12 1.9306146

4 12 0.9962049

On peut imaginer de raliser un test dgalit des variances. Ceci est possible toujours avec la
procdure GLM avec laquelle on peut notamment mettre en uvre le test de Bartlett, optimal
lorsque les donnes sont gaussiennes mais est fortement sensible au non respect de cette
hypothse distributionnelle, de Levenne qui consiste crer une variable mesurant la
dispersion des observations en prenant le carr o la valeur absolue (en prcisant
TYPE=SQUARE, valeur par dfaut, ou TYPE=ABS) des carts entre chaque observation et la
moyenne de son groupe puis raliser une analyse de la variance sur cette nouvelle variable,
et le test de Brown et Forsythe qui considre comme variable de dispersion la valeur absolue
des carts entre une observation et la mdiane de son groupe (Ces choix sont guids par
linstruction HOVTEST=BARTLETT / LEVENE / BF). Selon la documentation de SAS, la
puissance de ces tests reste cependant limite alors que lanalyse standard, sauf conditions
extrmes (variances trs diffrentes), donne des rsultats assez robustes. Dans les cas
extrmes, dtects notamment par les test robustes (Levenne ou BF), il est possible dutiliser
le test de Welch dgalit des moyennes.

Dans notre cas nous pouvons demander par exemple lexcution de :
class emploi;
means emploi / hovtest welch;
run;

Ce qui induit comme rsultats :
Levene's Test for Homogeneity of visites Variance
ANOVA of Squared Deviations from Group Means

Somme
38
des Carr Valeur
Source DDL carrs moyen F Pr > F

emploi 3 56.2574 18.7525 2.95 0.0424
Error 46 292.3 6.3553

Welch's ANOVA for visites

Valeur
Source DDL F Pr > F

emploi 3.0000 6.44 0.0023

Le test de Levenne (test par dfaut) dtecte 5% une htrognit des variances. Lemploi
du test de Welch conforte cependant la prcdente conclusion, savoir lingalit du nombre
moyen de dpannages selon lintensit de lutilisation du matriel.

2. Exemple danalyse de la variance deux facteurs

Nous nous limitons ici un simple exemple et une discussion (trop) brve de lextension
plusieurs facteurs.
Il est videmment possible de prendre en compte plus dun facteur explicatif. Ainsi dans notre
fichier dexemple nous disposons, en plus dune information sur le mode dutilisation du
matriel, dune information sur lexistence ou non dun contrat de maintenance. On veut donc
savoir si le nombre de visites moyen est affect par ces deux variables et ventuellement par
leur interaction. Ce dernier aspect signifiant simplement que limpact dune modalit dune
des variables dpend de la valeur prise par lautre. Lorsque les effectifs des divers sous-
chantillons diffrent la question de la mesure de lesprance se pose : au moins deux
moyennes peuvent tre calcules. La moyenne habituelle, savoir la moyenne des
observations dun sous-chantillon donn, peut naturellement toujours tre obtenue. Son
inconvnient est quelle est influence par la rpartition des individus au sein des modalits
des facteurs. On peut donc chercher mesurer limpact dun facteur soit sur la moyenne
empirique au sein de chaque groupe, soit sur la moyenne ajuste prenant en compte limpact
des autres facteurs (LS mean) obtenue en supposant des effectifs gaux dans chaque sous-
groupes. Par exemple, si nous cherchons ici mettre en vidence limpact des variables
emploi (4 modalits), contrat (2 modalits) ainsi que les ventuels effets croiss, les diverses
LS means vont selon les sous-groupes tre calcules avec les coefficients suivants (on ne
donne que le mode de calcul de quelques LS means) :
39

LS Mean emploi contrat Emploi*contrat

1 2 3 4 1 2 11 12 21 22 31 32 41 42
Globale 1 1/4 1/4 1/4 1/4 1/2 1/2 1/8 1/8 1/8 1/8 1/8 1/8 1/8 1/8
Emploi=1 1 1 0 0 0
1/2 1/2 1/2 1/2
0 0 0 0 0 0
Emploi=3 1 0 0 1 0
1/2 1/2
0 0 0 0
1/2 1/2
0 0
Contrat=2 1
1/4 1/4 1/4 1/4
0 1 0
1/4
0
1/4
0
1/4
0
1/4
Emploi=2, contrat=1 1 0 1 0 0 1 0 0 0 1 0 0 0 0 0

Dans notre cas, si nous excutons les commandes :
class emploi contrat ;
model visites = emploi contrat emploi*contrat / ss1 ss2 ss3 ss4;
run;

On obtient :
The GLM Procedure

Dependent Variable: visites

Somme des Valeur
Source DDL carrs Carr moyen F Pr > F

Model 7 128.3809524 18.3401361 27.39 <.0001

Error 42 28.1190476 0.6695011

Corrected Total 49 156.5000000

R-Square Coeff Var Root MSE visites Mean

0.820326 8.435366 0.818230 9.700000

Valeur
Source DDL Type I SS Carr moyen F Pr > F

emploi 3 36.27564103 12.09188034 18.06 <.0001
contrat 1 82.76650047 82.76650047 123.62 <.0001
emploi*contrat 3 9.33881088 3.11293696 4.65 0.0068

Valeur
Source DDL Type II SS Carr moyen F Pr > F

emploi 3 34.54214150 11.51404717 17.20 <.0001
contrat 1 82.76650047 82.76650047 123.62 <.0001
40
emploi*contrat 3 9.33881088 3.11293696 4.65 0.0068

Valeur
Source DDL Type III SS Carr moyen F Pr > F

emploi 3 33.74526862 11.24842287 16.80 <.0001
contrat 1 81.90520282 81.90520282 122.34 <.0001
emploi*contrat 3 9.33881088 3.11293696 4.65 0.0068

Valeur
Source DDL Type IV SS Carr moyen F Pr > F

emploi 3 33.74526862 11.24842287 16.80 <.0001
contrat 1 81.90520282 81.90520282 122.34 <.0001
emploi*contrat 3 9.33881088 3.11293696 4.65 0.0068

La somme des carrs de type 1 et 2 pour la variable emploi cherche mettre en vidence des
diffrences sur les moyennes arithmtiques des 4 groupes correspondant aux 4 modalits de
cette variable sans ajustement dune part et avec ajustement de linfluence de la variable
contrat dautre part. La somme des carrs de type 3 recherche des carts entre les moyennes
de type LS des 4 groupes correspondant aux 4 modalits de la variable emploi.
Indpendamment du mode de calcul, et donc de la moyenne considre, les conclusions sont
identiques : il existe un effet de chaque facteur sur le nombre de visites, cet effet tant
dpendant de la valeur prise par lautre facteur (effets croiss significatifs).

LAPPROCHE NON PARAMETRIQUE

Ici la mdiane remplace la moyenne comme mesure de la tendance centrale dune
distribution. Mme si la distribution sous-jacente nest pas gaussienne un thorme central-
limite nous enseigne que la distribution de la moyenne empirique de ralisations
41
indpendantes lest au moins asymptotiquement (en pratique on considre quavec une
trentaine de points lapproximation peut tre utilise). Les tests non paramtriques ne sont
donc ici utiles que si la distribution dvie fortement de la normale et que lon a peu
dobservations.

Tests avec un seul chantillon ou deux chantillons apparis

1. Le test du signe
On dispose dune variable alatoire de distribution continue tirages indpendants et
dchelle au moins ordinale. On ne suppose pas lhypothse de distribution gaussienne. Ce
test semploi donc pour des chantillons non gaussiens de petites tailles (avec une limite
infrieure dpendante du seuil de risque choisi. Par exemple 5% il faut avoir au moins 6
points sinon on ne peut pas construire dintervalle de rejet). Lobjectif est le test de 0: H la
mdiane est gale
0
M contre lalternative 1: H la mdiane est diffrente de
0
M , o
0
M est
une valeur spcifie a priori. Ceci peut donc encore scrire :

0
0: Pr( ) 1/ 2 H x M p = = contre
0
1: Pr( ) 1/ 2 H x M p =

Ce test peut galement sappliquer dans le cas dchantillons apparis constitus des paires
dobservations
1, 2,
( , )
i i
x x . La variable a considrer dans ce cas est simplement
1 2
x x x = et le
test dabsence deffet revient vrifier que la mdiane de x vaut zro, soit :
0: Pr( 0) 1/ 2 H x = contre 1: Pr( 0) 1/ 2 H x

Le test du signe consiste remplacer les observations plus grandes que
0
M par un signe + et
celles qui lui sont infrieures par un signe -. Si lhypothse nulle est vraie alors le nombre de
signes +, soit n
+
, doit tre proche du nombre de signes -, n
. Indpendamment de la loi de
x , le nombre de signes + , qui va constituer la statistique de test, possde une distribution
binomiale de paramtres n et (ceci est galement vrai pour n
, le nombre de signes -). Si

lalternative est unidirectionnel de la forme H1: la mdiane est suprieure
0
M , alors la
rgion de rejet est
{ }
| n n n
+ +
, expression dans laquelle n
est le plus petit entier tel que

!
0.5
!( )!
n
n
j n
n
j n j
. Si lalternative est de sens oppose, H1: la mdiane est infrieure

42
0
M , alors la rgion de rejet est
{ }
'
| n n n
+ +
o
'
n
est le plus grand entier tel que

'
0
!
0.5
!( )!
n
n
j
n
j n j
. La binomiale tant symtrique lorsque 0.5 p = , on a naturellement

'
n n n

= . Lorsque lalternative est bidirectionnelle, on rejette au seuil lorsque n
+
est
suprieur
/ 2
n
ou lorsquil est infrieur

'
/ 2
n
.

En fait SAS dans la procdure UNIVARIATE utilise une statistique de signe non standard :
( ) / 2 M n n
+
=
et il value la probabilit dun test bidirectionnel selon :

min( , )
( 1)
0
0
( )!
Pr(| | | |) 0.5
!( )!
n n
n n
j
n n
M M
j n n j
+
+
+
+
+
=
+
=
+

(ici n
+
et n
sont respectivement les nombres dobservations strictement suprieures et

infrieures
0
M : les observations gales
0
M ne sont pas prises en compte de sorte que
n n n
+
+ ). La lecture du test est celle utilise pour le student : si le seuil de probabilit est
infrieur au seuil de risque choisit on rejette lhypothse nulle.

Rappel : La loi binomiale ne dpend que de deux paramtres : le nombre
dobservations, n, et la probabilit de lvnement favorable , p. Ainsi,
la probabilit dobtenir
1
n rsultats favorables (et donc
1
n n rsultats
dfavorables) est donne par :

1 1
1
1 1
!
Pr( ) (1 )
!( )!
n n n
n
x n p p
n n n
= =

De cette expression on dduit celle de la fonction de rpartition :

1
1 1
1 1
0 1 1
!
( ) Pr( ) (1 )
!( )!
n
n n n
j
n
F n x n p p
n n n
=
= =

Par exemple la probabilit dobtenir deux 1 ou moins avec 4 jets
successifs dun d (non pip) est : Pr( 0) Pr( 1) Pr( 2) x x x = + = + = , soit :
0 4 1 3 2 2
4! 1 5 4! 1 5 4! 1 5
0!4! 6 6 1!3! 6 6 2!2! 6 6
| | | | | | | | | | | |
+ +
| | | | | |
\ \ \ \ \ \
= 0.482+0.386+0.116
= 0.984

43
On peut noter que deux approximations sont souvent utilises lorsque n est lev et donc que
le calcul des probabilits exactes devient coteux (cela se pratique souvent partir de 20
observations) :
Approximation par une normale : justifie lorsque n est grand et la
probabilit de lvnement favorable loigne de 1 ou 0. Des rgles ont
t proposes, par exemple lapproximation serait satisfaisante lorsque np et
n(1-p) sont suprieurs 5. La gaussienne est alors dfinie par
(1 )
p p
z
p p
n

On notera quune correction amliorant lapproximation par une distribution
continue (la gaussienne) dune distribution discrte a t propose qui vise
notamment en rapprocher le seuil de risque effectif du seuil de risque choisi.
Elle donne de bons rsultats mme lorsque p est relativement loin de 0.5.
La formulation de z est alors :

1
| |
2
(1 )
p p
n
z
p p
n

=
, soit encore :

1
| |
2
(1 )
n np
z
np p
+

=

Approximation par une variable de Poisson : lvnement tudi se produit
rarement et en consquence p (ou 1-p) est proche de 0. Pour une telle variable
alatoire de paramtre on a :
1
1
1
Pr( )
!
n
e
x n
n
= = , et ( ) ( ) E x V x = =
Par exemple, si un vnement particulier se produit en moyenne 2 fois par mois
et que lon sait que la frquence des observations a une distribution de Poisson
alors la probabilit de connatre un mois sans accident est gale

2
( 0) P x e
= = =0.135
et celle de connatre un mois avec 5 accidents est de

2 5
2
( 5) 0.0361
5!
e
P x
= = =
44
Supposons que la frquence soit de deux vnements sur 100 cas considrs, ce
qui correspond donc une probabilit de survenue de lvnement de 2%,
lemploi de la binomiale mnerait :

5 95
100!
Pr( 5) 0.02 (1 0.02)
5!(100 5)!
x = = =
0.0353
montrant ainsi quil nest pas draisonnable de simplifier les calculs par
lemploi de la Poisson.

2. Le test de Wilcoxon ou test des rangs signs (signed rank test)

Le test prcdent ne prend en compte que les signes et ne considre pas lamplitude des
diffrences entre les observations et
0
M . Logiquement, un test qui intgre galement cette
information doit tre plus performant. Cest prcisment ce que fait le test de Wilcoxon que
lon peut employer sur des donnes indpendantes mesures sur une chelle dintervalle
issues dune distribution symtrique. On commence par construire les carts,
0 i i
e x M = ,
puis on ordonne par ordre croissant les valeurs absolues des quantits obtenues et on
considre leur rang ( )
i
r e tout en conservant linformation sur leur signe : 1
i
s = si 0
i
e > et
0
i
s = si 0
i
e < . Cette variable alatoire s est une variable de Bernouilli pour laquelle, sous
0 H , ( ) 1/ 2
i
E s = et ( ) 0.25
i
V s = . Si on construit la variable SR
+
comme somme des rangs
des carts positifs :

1
(| |)
n
i i
i
SR s r e
+
=
=

alors il vient (on suppose labsence dobservations de mme rang,
qui correspond un vnement de probabilit nulle avec des alatoires continues. Dans tous
les cas, les observations pour lesquelles lcart est nul sont purement et simplement retires
des calculs et non prises en compte dans le total des observations disponibles n ) :
( )
1 1
( 1)
( ) 0.5 | | 0.5
4
n n
i
i i
n n
E SR r e i
+
= =
+
= = =

et

2
1
( ) ( / 2 ( / 2) ( 1)(2 1) / 24
n
i
V SR i i n n n
+
=
= = + +

45
On peut vrifier que
( 1)
2
n n
SR SR
+
+
+ = . Ainsi, pour une valeur suppose de
0
M le fait
davoir SR SR
+
est une indication favorable lhypothse dune mdiane suprieure
0
M . La statistique de Wilcoxon est dfinie comme la valeur minimale de SR
+
ou SR
.
Lorsque la taille de lchantillon est grande on peut utiliser lapproximation par une
gaussienne dfinie conformment aux prcdents rsultats par :

( 1)
min( , )
4
( 1)(2 1)
24
n n
SR SR
z
n n n
+
+
=
+ +

Ici galement une correction pour la continuit est souvent opre et on prfre retenir :

( 1)
min( , ) 0.5
4
( 1)(2 1)
24
n n
SR SR
z
n n n
+
+

=
+ +

SAS utilise cependant une autre dfinition en prenant comme statistique du test de Wilcoxon
la variable S :
( 1) / 4 S SR n n
+
= +
Ainsi, une valeur ngative de S est plutt favorable lhypothse dune mdiane infrieur
0
M . Dans les calculs, la procdure UNIVARIATE attribue aux observations de mme rang la
moyenne des rangs concerns. Ce mode de traitement des valeurs gales provoque une
rduction de la variance de SR
+
. De sorte que si pour des tailles dchantillon infrieures o
gale 20 le seuil de significativit de S est calcul avec la distribution exacte, en revanche
lorsque n est suprieur vingt points, SAS met en uvre une correction pour cette rduction
de variance de sorte que lapproximation est ralise par une student n-1 degrs de libert.

On notera enfin que le test de Wilcoxon est souvent prsent comme un test de symtrie de la
distribution sous-jacente aux observations sur lesquelles on calcule les rangs. Il est important
de se rappeler que le test de Wilcoxon est un test joint : la mdiane est gale
0
M et la
distribution est symtrique. Ainsi en cas de rejet, il est possible que la distribution soit
symtrique mais que la mdiane ne soit pas
0
M , ou encore que la distribution nest pas
46
symtrique alors que la mdiane est
0
M , ou encore que les 2 propositions sont simultanment
fausses. En pratique si la distribution apparat comme non symtrique, il est prfrable
dutiliser le test du signe, mme si celui est moins puissant pour statuer uniquement sur une
valeur particulire de la mdiane.

3. Un exemple dapplication

On reprend le fichier de donnes utilis prcdemment et constitu des notes obtenues par 38
tudiants lors dune premire preuve. La question pose est de savoir si on peut accepter une
mdiane gale 10.
Il suffit dexcuter :
proc univariate mu0=10;
var note1;
run;

Pour obtenir :
La procdure UNIVARIATE
Variable : note1

Moments

N 38 Somme poids 38
Moyenne 9.81578947 Somme obs. 373
cart-type 2.74704031 Variance 7.54623044
Skewness -0.3285174 Kurtosis -0.0076241
SS non corrige 3940.5 SS corrige 279.210526
Coeff Variation 27.9859334 Moy. erreur std 0.44562878


Position Variabilit

Mode 12.00000 tendue 12.00000

Tests de position : Mu0=10

Test -Statistique- -Seuil de significativit-

t de Student t -0.41337 Pr > |t| 0.6817
Signe M 1 Pr >= |M| 0.8679
Rangs signs S -16 Pr >= |S| 0.8051

Quantiles (Dfinition 5)

Quantile Estimation
47

100% Max 15.50
99% 15.50
95% 14.50
90% 13.00
75% Q3 12.00
50% Mdiane 10.25
25% Q1 8.00
10% 5.00
5% 4.50
1% 3.50
0% Min 3.50

Observations extrmes

----Minimale--- ----Maximale---

Valeur Obs. Valeur Obs.

3.5 13 12.5 34
4.5 28 13.0 6
5.0 37 14.0 22
5.0 8 14.5 14
6.5 7 15.5 4

On voit que les tests de signe et de Wilcoxon ne permettent pas aux seuils de risque usuels de
rejeter lhypothse 0: 10 H M = , et avec Wilcoxon, la symtrie de la distribution des notes.
Par ailleurs, n retrouve naturellement la valeur de la statistique du test de student calcule au
moyen de la procdure TTEST dans le chapitre prcdent.

Ces tests peuvent tre aussi utiliss sur des chantillons apparis. En reprenant les notes des
deux preuves et aprs avoir cr la diffrence note2-note1, on se demande sil y a eu une
amlioration dans la mdiane des notes sur les 2 preuves. Soit :

data notes;
merge un deux;
dif = note2-note1;
run;
proc univariate data=notes;
var dif;
run;

On obtient (seule une partie des rsultats est reproduite) :


Position Variabilit

48
Mode -0.50000 tendue 4.00000

Tests de position : Mu0=0

Test -Statistique- -Seuil de significativit-

t de Student t 2.951905 Pr > |t| 0.0055
Signe M 4.5 Pr >= |M| 0.1877
Rangs signs S 183 Pr >= |S| 0.0036

Ici le test de student et le test de Wilcoxon saccordent pour signaler une amlioration du
centre de la distribution des notes (esprance pour lun, mdiane pour lautre mais sous
lhypothse de symtrie, mdiane et esprance sont gales) entre les deux preuves. En
revanche le test du signe ne permet pas de rejeter une constance de la mdiane. Peut tre faut-
il voir l lillustration de la moindre puissance de ce test.

4. Le test de Chi2 de McNemar

Le test de McNemar peut tre considr comme une application du test de signe a des
variables dichotomiques. On suppose que les individus constituant lchantillon sont rpartis
en deux groupes, lun vrifiant la proprit A et lautre la proprit B. Suite un vnement
les mmes individus sont nouveau rpartis entre les deux sous-groupes et la question pose
est de savoir si lvnement a modifi la rpartition initiale en faveur de lun ou lautre sous-
groupe.
Selon cette logique on dispose dons dchantillons apparis. On peut reprsenter par un signe
+ les individus passant de la catgorie A vers la catgorie B, par un signe ceux qui
effectuent le dplacement oppos et ne pas considrer les individus qui sont dans le mme
sous-groupe avant et aprs lvnement. Dans ces conditions on se trouve plac dans les
conditions dapplication du test du signe expos ci-dessus. Si le nombre de signe +
(respectivement -) est not n
+
(resp. n
), la statistique ( ) / 2 M n n
+
= permettant de
raliser un test bidirectionnel ainsi que son degr de significativit peuvent tre valus.
Si n=n n
+
+ est suprieur 20 et si on emploie lapproximation asymptotique sans
correction de continuit alors, sous 0: H la distribution est inchange , il vient :

| | | 0.5 | | 0.5( ) | 0.5| ) | | ) |
(1 ) 0.25 0.5 0.5
( )
n np n n n n n n n n n
z
np p n n n
n n
+ + + + + +
+
+
= = = = =
+

49
Soit encore
( )
2
2
n n
z
n n
+
+
=
+
. Cette dernire statistique est connue sous le nom de Chi2 de
McNemar et elle possde naturellement sous 0 H une distribution de Chi2 un degr de
libert. Comme dhabitude si on dsire mener un test unidirectionnel il convient de diviser par
deux le seuil de significativit avant de le comparer au seuil de risque de premire espce
choisi.
Enfin, en pratique, si n
+
et/ou n
sont petits lapproximation nest pas trs satisfaisante et

il est sans doute prfrable de mener un test du signe tel que vu plus haut. SAS propose
dailleurs de calculer le seuil de significativit exact de la statistique de McNemar.

Exemple dapplication : On a demand 100 tudiants en fin de licence leur
choix dorientation entre deux masters A et B. Soixante affirment vouloir aller
en master A et quarante en master B. Une runion dinformation est organise
sur les cursus. A la suite de celle-ci les mmes tudiants sont rinterrogs sur
leurs choix : parmi les soixante, quarante-deux confirment loption prcdente
alors que parmi le second groupe de quarante, trente-quatre continuent dopter
pour le master B. Peut-on mettre en vidence une influence significative de la
runion sur la rpartition des flux attendus en master ? La statistique de
McNemar est calcule par la procdure FREQ de SAS. Pour traiter le
problme, il suffit dexcuter :

data masters;
input A $ B $ eff;
cards;
A A 42
A B 18
B A 6
B B 34
;
run;
proc freq;
table a*b / agree;
weight eff;
exact mcnem ;
run;

Loption agree de linstruction table rclame en particulier le calcul de la
statistique de McNemar, alors que linstruction exact mcnem requiert le calcul
du seuil de significativit exact sur cette statistique.
Une partie des rsultats obtenus est :
50
La procdure FREQ

Table de A par B

A B

Frquence
Pourcentage
Pourct. en ligne
Pourct. en col. A B Total

A 42 18 60
42.00 18.00 60.00
70.00 30.00
87.50 34.62

B 6 34 40
6.00 34.00 40.00
15.00 85.00
12.50 65.38

Total 48 52 100
48.00 52.00 100.00

Statistiques pour table de A par B

Test de McNemar

Statistique (S) 6.0000
DDL 1
Asymptotic Pr > S 0.0143
Exact Pr >= S 0.0227

Au seuil de 5% lhypothse nulle dabsence dinfluence de la runion est rejete,
cette conclusion tant obtenue tant avec lapproximation asymptotique quavec les
calculs exacts de la significativit (vous pouvez vrifier que lon a bien
( )
2
18 6 /(18 6) 6 S = + = . Notez galement quil ne sagit pas de tester la stabilit
individuelle des choix mais simplement lhomognit des marges du tableau
crois : si 10 tudiants passent de A vers B et 10 passent de B vers A, la statistique
S vaut zro).

5. Le test Binomial sur une proportion

Le test de signe vu ci-dessus a t utilis pour tester une valeur particulire pour la mdiane
des observations. Il peut arriver que linterrogation porte sur une proportion et dans ce cas le
test de signe peut naturellement sappliquer mme sil est plus usuel de passer alors par la
51
procdure FREQ. On illustre ceci au moyen de lexemple relatif aux notes obtenues la
premire session dun examen. Lhypothse 0 H considre plus haut postulait une mdiane
de 10 et nous avions notamment obtenu :
Signe M 1 Pr >= |M| 0.8679

Si lon suppose que pour tre admis dans la matire concerne la note obtenue doit tre gale
ou suprieure 10. On peut crer une variable admis gale 1 si cest le cas et zro sinon,
et laffirmation selon laquelle la mdiane des notes vaut 10 est quivalente postuler que le
pourcentage dadmis est de 50%. Soit donc 0 H : le pourcentage dadmis est de 0.5 . La
nouvelle variable est une binomiale de paramtre 0.5 sous 0 H . On peut donc passer par
lemploi de la procdure FREQ avec spcification dune binomiale de paramtre 0.5 et une
demande de calcul de seuil de significativit exact. Soit :
data un;
set un;
admis=0;
if note1>=10 then admis = 1;
run;
proc freq data=un;
tables admis / binomial(p=0.5);
exact binomial;
run;
Et on obtient :
La procdure FREQ

Cumulative Cumulative
admis Frquence Percent Frequency Percent

0 17 44.74 17 44.74
1 21 55.26 38 100.00

Proportion binomiale pour admis = 0

Proportion (P) 0.4474
ASE 0.0807
95% Limite de conf inf. 0.2893
95% Limite de conf sup. 0.6055

Limites de confiance exactes
95% Limite de conf inf. 0.2862
95% Limite de conf sup. 0.6170

Test de H0 : Proportion = 0.5

ASE sous H0 0.0811
Z -0.6489
Pr < Z unilatrale 0.2582
Pr > |Z| bilatral 0.5164

Test exact
Pr <= P unilatral 0.3136
52
Bilatral = 2 * unilatral 0.6271


Lhypothse nulle est toujours accepte, mais avec un seuil de risque de 0.6271 sensiblement
diffrent de celui quaffiche la procdure UNIVARIATE qui est de 0.8679 ?? Lexplication
rside dans le traitement des valeurs gales la mdiane suppose, ici 10 : le test du signe
dans UNIVARIATE limine les observations gales la valeur teste et en consquence les
individus concerns (le 21
ime
et le 38
ime
) disparaissent des calculs alors quils sont conservs
dans la procdure FREQ. Si on force leur limination du fichier de donnes :
data un;
set un;
if note1 ne 10;
run;

Lappel la proc FREQ prcdent mne :
Test exact
Pr <= P unilatral 0.4340
Bilatral = 2 * unilatral 0.8679


On vrifie bien alors la similitude des rsultats des deux procdures.

Statistique Non Parametrique - Partie 1

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Statistique Non Parametrique - Partie 1

Transféré par

Droits d'auteur :

Formats disponibles

1

STATISTIQUE NON PARAMETRIQUE ELEMENTAIRE

= o M est la mdiane de lchantillon

o 1() est la fonction indicatrice.

= . En consquence, x est une pseudo-

(car F est monotone croissante)

, o [ ] ( ) 0,1 y F x = est une va uniforme

, o ( ) K x est la fonction de rpartition de Kolmogorov dfinie par

, o ( ) x est une fonction de pondration.

, cest la moyenne (pondre par les effectifs) des variances de chaque

, cest la variance des moyennes (galement pondre) ou

, le nombre de signes -). Si

est le plus petit entier tel que

. Si lalternative est de sens oppose, H1: la mdiane est infrieure

est le plus grand entier tel que

. La binomiale tant symtrique lorsque 0.5 p = , on a naturellement

ou lorsquil est infrieur

sont respectivement les nombres dobservations strictement suprieures et

sont petits lapproximation nest pas trs satisfaisante et

Vous aimerez peut-être aussi