Stats

Cours dinitiation aux Statistiques
(les termes anglais sont entre parenthses et en italiques)
STATISTIQUES DESCRIPTIVES.............................................................................................2
Distribution normale...............................................................................................................3
PROBABILITS........................................................................................................................4
Distribution binmiale............................................................................................................4
STATISTIQUES INFRENTIELLES........................................................................................6
TEST DHYPOTHSE SUR UNE MOYENNE........................................................................7
Distribution de t......................................................................................................................8
TESTS DHYPOTHSE SUR LA DIFFRENCE ENTRE 2 MOYENNES............................9
INTERVALLES DE CONFIANCE..........................................................................................11
PUISSANCE DE TEST............................................................................................................12
ANOVA UN FACTEUR (one-way)......................................................................................13
Comparaisons post-hoc.........................................................................................................14
ANOVA DEUX FACTEURS (two-way)..............................................................................16
CORRLATION.......................................................................................................................18
Rgression et prdiction........................................................................................................19
Interprtation de r..................................................................................................................20
Coefficient de dtermination.................................................................................................20
Infrences sur la significativit du r......................................................................................21
CHI-2 (2 ; chi-square)..............................................................................................................22
Applications du 2.................................................................................................................22
STATISTIQUES NON-PARAMTRIQUES...........................................................................24
Coefficient de corrlation de Spearman (rs)..........................................................................25
Ltymologie ne nous apprend pas grandchose : status Utilises dans le pass pour la
collecte des impts par les tats, les Stats prennent une importance majeure dans la recherche
moderne. Ex : en 1987, la FDA donne le feu vert pour la mise sur le march de lAZT en un
temps record de 21 mois de recherche clinique (au lieu des ~9 ans habituels) tant donn la
situation dramatique des victimes du SIDA. LAZT avait des effets secondaires mais la preuve
statistique dune rduction du nombre de morts justifiait son utilisation.
On peut distinguer 2 sortes de Stats :
1) Stats descriptives : il sagit dorganiser et rsumer des observations. On ne fait pas de
comparaisons et on sintresse en gnral un seul groupe, chantillon ou population.
2) Stats infrentielles (ou inductives) : on peut ici viser 2 buts :
a) Dduire les proprits dune population partir de ltude dun chantillon.
Cest par ex le principe des sondages. Il est important que lchantillonnage
soit fait au hasard (random). On met ici le doigt sur la notion de variabilit,
principe inhrent tout phnomne biologique.
b) Comparer 2 ou plusieurs populations ou chantillons ; si une diffrence existe,
on se demandera si cette diffrence est due la variabilit (hasard), ou un
facteur diffrenciant les groupes tudis.
Un troisime type de Stats la charnire entre S descriptives et infrentielles a trait aux
notions de corrlation et prdiction (voir chapitre concern).
Dans toute dmarche utilisant les Stats, il convient dabord de poser une question de
recherche (ex. AZT freine-telle la lthalit du SIDA ?), laquelle est diffrente de la question
statistique o ce qui est trait, ce sont des donnes numriques. Les Stats font partie du plan
(design) exprimental gnr par la question de recherche. Ce plan fait en gnral intervenir 4
types de paramtres :
1) La variable indpendante : il sagit du X, ex. le stimulus dans une tude stimulusrponse ; exx. influence du stress dans un test de labyrinthe.
2) La variable dpendante : cest Y, ce que lon mesure, la rponse, le nombre de bons
(ou mauvais) choix dans le labyrinthe.
3) Le ou les facteurs sujets dtude : ex. effet dun tranquillisant sur les relations entre
stress et performance dans le labyrinthe.
4) Variables parasites : ex. coton autour du muscle en TP de LSV2 ; influence du cycle
jour/nuit sur un dosage hormonal. Il faut faire en sorte que les variables parasites
soient les mmes pour tous les groupes.
Aprs un test, on tire une conclusion statistique dordre quantitatif (ex. il y a 5% de chances
que tel rsultat soit d au hasard). Il ne sagit pas dune estimation qualitative : on ne peut pas
dire par ex. que les groupes A et B sont diffrents. Aprs excution du plan exprimental,
lequel comprend plusieurs tests (parfois un grand nombre), on peut esprer atteindre une
conclusion de recherche dordre qualitatif.
Les Stats mentent-elles ? En dehors de la manipulation dlibre, la possibilit existe de faire
des erreurs de design , par ex en ne contrlant pas certaines variables parasites ou en
effectuant inconsciemment un chantillonnage non-alatoire. Dautre part, la quasi-totalit des
rsultats publis dans les journaux scientifiques sont des rsultats positifs obtenus en
gnral avec un seuil de significativit (significance) de 0,05. Cela signifie que si 20 quipes
travaillent sur le mme sujet de recherche, dont 19 ne trouvent pas de rsultat positif, il existe
1/20 chances quun rsultat faux soit publi ! (ex des plannaires et des engrammes). Les
erreurs dchantillonnage sont les plus communes, particulirement en rapport avec la taille.
Une trop petite ou trop grande taille dchantillon peut amener des conclusions statistiques
qui faussent la conclusion de recherche.
STATISTIQUES DESCRIPTIVES
Pour avoir un coup dil densemble sur un grand nombre de donnes, on peut les reprsenter
en distributions de frquences, dont une forme commune est lhistogramme de frquence.
Dans ce dernier, le rapport de laire de chaque barre sur laire totale de lhistogramme donne
la frquence de lintervalle par rapport au nombre total de cas dans la distribution. Un
intervalle adquat peut se calculer partir de la formule de Sturge : 1+(3,3 log10 n) ; ou de
Yule : 2,5 4 n . Diffrents types de frquences peuvent sexprimer :
1) Absolue
2) Relative : permet de comparer des groupes deffectifs diffrents. Attention aux nonsens sur des n faibles (ex. le fait quun des 2 mcaniciens dAspremont soit alcoolique
ne veut pas dire que 50% des mcaniciens dAspremont sont alcooliques)
3) Cumulative absolue
4) Cumulative relative : permet de reprer les centiles (percentiles) dune distribution. La
courbe a une allure sigmode dont lacclration centrale est due la concentration des
effectifs autour de la moyenne.
Trois paramtres suffisent caractriser les distributions de frquences :
1) Forme : Poisson (J invers) ; asymtrique positive ou ngative (skewed) ;
rectangulaire ; bi- ou multimodale ; en cloche.
2) Tendance centrale
a) Mode (NB : le mode la mode) : toujours utilis avec les chelles nominales.
b) Mdiane : spare leffectif en 2 moitis. Formule complique mais facile
reprer sur une distribution de frquences cumulatives.
X
X
c) Moyenne arithmtique : =
pour la population ; X =
pour
N
n
lchantillon. NB : i) (X X ) = 0. ii) La
moyenne est sensible aux extrmes de la
distribution. iii) Est utilise pour les tests
statistiques si la distribution est normale car
cest le paramtre qui varie le moins dun
chantillon lautre. Dans une distribution
asymtrique, la mdiane est la meilleure
reprsentation de la tendance centrale. iv)
Dans une distribution symtrique, le mode, la mdiane et la moyenne ont la
Mode
Md Moy
mme valeur.
d) Moyenne gomtrique de n valeurs : nme racine de leur produit
MG =
i1
; Log MG = 1 (logX1 + logX2 ++ logXn)
3) Dispersion (variabilit)
Paramtre important pour les Stats infrentielles. Quantifie par :
a) Etendue ou talement (range) : max-min
b) Variance : comme (X X ) = 0, on prend le carr des dviations :
2
2
(X
2
2
(X
X
)
X
=
(pop) ; S =
(ch ;
NB : avec n-1 au dnominateur, on a un estimateur non-biais de la variance de

la population, s2 voir + loin).
(X X)
, la somme des carrs
(SC) des dviations de X par rapport la moyenne, est frquemment utilise en

statistiques. Son calcul, potentiellement fastidieux, peut tre simplifi par la
2
formule suivante : SC = X X-
1
-3
5
+1
7
+3
3
-1
16/4 = 4 = 0
(X)
n
. Ex :
(X - )2
9
1
9
1
= 20 ; 2 = 5
c) Ecart-type (standard deviation) : X =

d) Ecart rduit (z score) : z =
2 ; SX =
X X
S X (ou s X )
; NB : Z = 0 et z = 1.
Distribution normale
99,7%
95%
68%
-3 -2
-1
+1 +2
+3
Proprits : 95% des donnes sont comprises entre 1,96 et 99% entre 2,58 carts-type.
Ex : avec une moyenne et un cart-type de 100 15, on sait que 95% des donnes sont
comprises entre 70 et 130.
On peut consulter une Table daire sous la courbe pour dautres valeurs.
La courbe normale peut se dcrire par un formalisme mathmatique (sans grand intrt ici) :
N
2
(X X) /2 2
Y=
2 e
PROBABILITS
Nombre de possibilits correspondant au critre X f
Dfinition : Proba(X) = =
Nombre total de possibilits
N
( condition que toutes les possibilits aient des chances gales)
Ex : pile ou face = = 0,5. Exx : proba de sortir un pique = 13 = 0,25. NB : 0<P<1
52
1)
Thorme daddition = somme des probas = fonction OU

a) Quand les possibilits sont mutuellement exclusives
Ex : proba de faire un 5 OU un 6 aux ds = 1 + 1 = 2
(on ne peut pas faire un 5 ET un 6 la fois)

b) Quand les possibilits ne sont pas mutuellement exclusives
Ex : proba de sortir un as OU du pique = 4 + 13 - 1 = 16
52
2)
52
52
52
Thorme de multiplication = fonction ET (quand un rsultat na pas dinfluence sur

lautre, i.e. vnements indpendants)
Ex : proba de faire 2 piles de suite ou avec 2 pices = 1 x 1 = 1
proba sur n coups ou pices =

1
2
Distribution binmiale
Dfinition : distribution de probabilit P dapparition dun vnement X fois au cours de n
observations dichotomiques, ce dernier terme signifiant que seules peuvent se produire
lapparition de lvnement de proba p ou sa non-apparition de proba q (= 1-p).
PX peut tre calcule partir des termes successifs de dveloppement du binme de Newton
(expansion binmiale), lequel scrit (p + q)n.
Ex : distribution binmiale des rsultats de 2 jets de pice = (p + q)2 = p2 + 2pq + q2
= 0,52 + 2(0,5)(0,5) + 0,52 (PP-PF-FP-FF)
= 0,25 + 0,5 + 0,25
= 1 (NB : p + q toujours gale 1)
Quand n grandit, lexpansion devient trs complexe. De fait, lquation de la loi binmiale
n!
scrit : PX = (n X)!X! qn-X pX, o 0 X
On peut aussi consulter une Table de distribution binmiale pour 0,05 p 0,95 et 1 n 15.
Ex : on fait passer un QCM de 10 questions 4 choix (p = 0,25). Quelle est la proba davoir la
moyenne (5 questions justes) en rpondant au hasard ? Il faut faire la somme des probas
davoir 5, 6, 7, 8, 9 ou 10 questions justes. En regardant dans la Table, on trouve P = 0,0584 +
0,0162 + 0,0031 + 0,0004 + 0,0000 + 0,0000 = 0,078, ce qui veut dire que sur 100 tudiants 7
ou 8 peuvent passer par hasard .
A vous : quelle est la proba davoir 5 filles dans une famille de 10 enfants ?
Reprsentation graphique
PX 0,5
n=2
PX 0,5
0,4
0,4
0,3
0,3
0,2
0,2
0,1
0,1
0
PX 0,5
4 X (p 0,5)
n=4
0,4
0,3
0,2
0,1
0
n=3
4 X (p 0,5)
La forme vous rappelle quelque chose ?

La distribution normale est une distribution
binmiale o p = 0,5. Beaucoup de tests
statistiques sont bass sur lhypothse nulle, c-d quun rsultat soit d la variabilit alatoire.
Comme on connat la distribution de cette
variabilit, on peut dterminer la proba (ex. 5%)
quelle soit responsable de ce rsultat, et retenir
ou au contraire rejeter lhypothse nulle.
4 X (p 0,5)
STATISTIQUES INFRENTIELLES
Buts : 1) Les caractristiques de lchantillon dcrivent la population
2) Tester lhypothse nulle (H0) quun rsultat ou une diffrence entre groupes soient
ds au hasard. Exs : pile ou face sur 100 coups si f sloigne trop de 0,5 la pice est
truque ; rsultats au bac du lyce Imprial compars la moyenne nationale ; drogue
A compare drogue B ; etc).
En fait les 2 buts sont lis dans les tests statistiques : dans lexemple prcdent des drogues A
et B, on postule que les chantillons utiliss pour tester lhypothse sont reprsentatifs de leur
population respective, ce qui permettra de prdire avec une certaine proba quil vaut mieux
prescrire A, B, les 2 indiffremment, ou ni lune ni lautre. Un prrequis fondamental pour
valider ce postulat est que les chantillons soient constitus de manire alatoire.
Les tests dhypothse reposent essentiellement sur la mesure de la moyenne. Dans une
population finie, si on extrait tous les chantillons possibles dune taille donne, on obtient
une distribution de leurs moyennes appele distribution dchantillonnage alatoire de la
moyenne (random sampling distribution of the mean). La moyenne de ces moyennes,
est gale la moyenne de la population :
= X.
Soit une population [2,4,6,8] 16 chantillons de 2

au hasard.
Proba de chaque chantillon = x = 1/16.
Frquence (proba) de chaque moyenne :
Certaines populations sont finies (ex : loups des
AM),
mais dans la plupart des cas on a affaire des
populations infinies (ex : effets dune drogue sur des
rats). Pour une population infinie :
1)
2)
= X (5 dans notre exemple)
X
n
X ,
numros tirs
val
8 1/16
X- SC
27 2/16
-3
9
46 3/16
-1
1
65 4/16
+1
1
84 3/16
+3
9
53 2/16 20
22 =1/16
20/4 =5
X = 5 = 2,24
cest lcart-type de la distribution dchantillonnage de X ,
communment appel erreur-type de la moyenne (standard error of the mean ;

2,24 / 2 = 1,58 dans notre exemple).
X <
b) X diminue quand
NB : a)
3)
diminue et quand n augmente
Thorme de la limite centrale : quand n augmente, la distribution des X tend vers

une distribution normale quelque soit la distribution de la population dorigine (noter
que la population [2,4,6,8] a une distribution rectangulaire, alors que la distribution
dchantillonnage des moyennes correspondantes (cf. tableau) se rapproche de la
normale).
La distribution thorique des X permet de situer et comparer la moyenne dun chantillon

donn par rapport cette distribution afin de retenir ou rejeter lhypothse que X =
X .
6
TEST DHYPOTHSE SUR UNE MOYENNE

Ex: on veut dterminer si le niveau (not sur 100) de sportifs niois est diffrent de la
moyenne nationale H0: X = X
Niveau significatif 0,05 = 0,025
Moy obtenue ( X )
Ex : z =
X hypo
X/ n
Ecart-type pop
(hypo)
9085
= 2,5
20/ 100
Taille ch.
Zone de rejet
(hypo)
La moyenne obtenue est 2,5 erreurs-type au-dessus de la valeur attendue si H0 tait vraie.
H0 est rejete = 0,05
mais retenue ( accepte) = 0,01 (z = 2,58).
Importance de la taille de lchantillon !
NB : il est le plus souvent impossible de connatre lcart-type de la population entire, X. Il
faut donc lestimer partir de lchantillon, comme on estime X partir de
X . Le
problme est que la variance de lchantillon est un estimateur biais de la variance de la

population car
SX est toujours infrieure X . La solution est de calculer s X

2
SC , ce qui nous donne lcart-type s =

X
n1
(petit s) =
2 . On peut alors substituer X par son
estimateur non-biais sX. Le nouveau dnominateur
sX
= sX/ n sappelle l erreur-type
estime de la moyenne (estimated standard error of the mean). Quand on substitue
dans la formule du z, on obtient le t de Student :
t=
sX
X hypo
sX / n
A ce stade, un petit rappel ne sera probablement pas superflu

2 : variance de la population, SC
N
S2 : variance de lchantillon, SC
n
s2 : estimateur non-biais de 2, SC
n -1
X : cart-type de la population,
SX : cart-type de lchantillon,
sX : estimateur non-biais de X,
2
2
X : erreur-type de la moyenne,
sX
X
n
: erreur-type estime de la moyenne,
sX
n
ou
SX
n -1
ou
s
n
Distribution de t
Mme si X a une distribution normale, le fait de diviser par
s X , qui nest pas constant et
varie dun chantillon lautre, fait que t na pas une distribution normale.
Dcouverte de Gossett, qui crivait sous le pseudo de Student (GB, ca. 1900).
Pour des chantillons dont n , t ~ z, sinon :
Similarits
Diffrences (des distributions)
- Moyenne = 0
- Leptokurtique (+ troite au pic ; + large aux extrmits)
- Symtrie
- t > z (=1)
- Unimodicit
- Dpend du nombre de DL (t = z pour DL = )
t
DL = degrs de libert (degrees of freedom)
z
Ex : avec 5 DL, t0,05 = 2,57 contre 1,96 pour z
Il faut aller chercher une diffrence plus loin avec t
Pour consulter la Table de distribution de t, DL = n-1 car comme (X X ) = 0, le dernier
X- X nest pas libre de varier.
Ex. sur une pop de 3 lments : (sX =
(X X)
n 1
; avec (XX) = 0)
Si X1- X = +3 et X2- X = -7 X3- X = ncessairement +4.

Tests directionnels et non-directionnels (one-tailed vs two-tailed) : en choisissant une
hypothse alternative directionnelle (HA: X > ou < hypo), toute la zone de rejet (ex : 5%) est
reporte sur une des extrmits (tails) de la distribution au lieu dtre rpartie de chaque ct
de la moyenne.
NB : il faut dcider si on fait un test directionnel ou non-directionnel avant de recueillir les
donnes. Sinon, si on fait par ex un test non-directionnel 0,05 et quon passe ensuite un test
directionnel, on est pass en fait 0,1. Idem pour pour le niveau de significativit : on doit
dterminer avant le recueil de donnes (mais voir NBB plus bas).
Erreur de type I : quand H0 est rejete alors quelle est vraie.
Erreur de type II : quand H0 est retenue alors quelle est fausse.
NB : Erreur de type I = (ex 0,05) = proba de rejeter H0 quand elle est vraie.
NBB : au lieu de mentionner un seuil de significativit (ex p<0,05), on peut choisir de donner
les valeurs exactes de perreur I (ex p = 3x10-5).
TESTS DHYPOTHSE SUR LA DIFFRENCE ENTRE 2 MOYENNES

Mme procdure / logique (H0) que pour une moyenne unique, mais la distribution
dchantillonnage concerne maintenant toutes les diffrences de moyennes possibles entre 2
chantillons. Cette distribution a pour (1) moyenne
X Y
= 0 si H0 est vraie.
Le thorme de limite centrale sapplique cette distribution : elle est peu prs (2) normale
mme si les distributions de X et Y ne le sont pas.
A ct de la tendance centrale et de la forme, le 3me paramtre qui caractrise une distribution
est le degr de dispersion. La valeur de lcart-type de la distribution des XY , ou erreur-
X Y , va dpendre de la nature du test (ch. dp

contre indp ). Comme dhabitude, on va utiliser un estimateur non-biais, s X Y .
type de la diffrence entre 2 moyennes,
ts
ts
Le principe dun test de diffrence de moyennes consiste valuer le rapport de cette

diffrence un cart-type estim. On emploie le format gnral : z =
, et on
compare ce z une valeur critique pour retenir ou rejeter H0.

I. Cas dchantillons indpendants (non-apparis)
1) Pour des variances ingales (htroscdasticit),
sX Y
sX sY
nX nY
, ce qui
permet dvaluer les variances (et le n) de chaque groupe indpendamment. La

dmarche est valable pour des chantillons de grande taille car le z suit alors une
loi quasi normale. Pour de petits chantillons, le z nobit ni une distribution
normale ni une distribution de t.
2) Pour remdier ce problme, RA Fisher a introduit une modification qui consiste
mettre en commun la variance des 2 chantillons, ce qui gnre un z qui suit une
distribution de t. Cette modification est base sur les prmisses (assumption)
dhomognit des variances (homoscdasticit).
Dans ce cas :
s X Y
sc sc
nX nY
2
sc ( 1 1 ) , o sc2
nX nY
variance estime commune ;
2
c =
SCX SCY
n X n Y 2
3) Avec variances et n gaux,
X Y =
(XX) (YY)
n X n Y 2
SCX SCY
n(n 1)
est la
2
2sc2
n
10
Selon le cas, on peut maintenant calculer notre t =
Dans le cas H0: X = Y, t =
X Y
s X Y
(X Y)( X Y)hypo
sX Y
avec DL = (nX-1) + (nY-1).
Notas :
Test directionnel ou non-directionnel : les mmes principes que pour le test de moyenne
unique sappliquent ; le t calcul a la mme valeur, mais la zone de rejet est soit rpartie (nondirectionnel) soit concentre un des 2 extrmes (directionnel).
Avec des 2 gales, le test est plus efficace (capable de dtecter une diffrence si elle
existe) quand nX = nY car alors
-
s X Y
diminue.
En principe lhomognit de variance est requise pour avoir une distribution de Student.
Quand ce nest pas le cas ( 2X
Y ), on peut amliorer la situation en augmentant n
(jusqu ~20/groupe), ou avec nX = nY. Pour vrifier lquivariance, on peut utiliser un test de
F (voir plus loin) avec F =
s1 , o 2 > 2 , et DL = n -1 au numrateur et n -1 au
s1 s 2
2
s2
1
dnominateur.
Si F < Fcrit, on retient lhypothse nulle de lgalit des variances.
Quand les conditions sont trop dfavorables, on peut utiliser des tests non-paramtriques
(voir plus loin).
A
Principe gnral : A > B ?

B
II. Cas dchantillons dpendants (apparis)
NB : lappariement ne consiste pas seulement en mesures rptes sur le mme groupe ; on
peut aussi faire des paires sur la base dun facteur commun (ex : QI dans un test sur le stress
ou vice versa).
Ici t =
et
sX
(X Y)( X Y) hypo
s s 2r ( s X sY )
2
X
2
Y
, o r = coefficient de corrlation (voir plus loin)
= carr de lerreur-type.
Notas :
Le principe dquivariance nest pas requis ici.
DL = n paires 1 car tant donn une valeur X, la valeur Y correspondante nest pas
compltement libre de varier.
Dans un test appari, on peut calculer D , la moyenne des diffrences X-Y (contrairement
au test non-appari o on calcule la diffrence des moyennes), ainsi que leur cart-type estim
11
sD. Sans avoir calculer r, on peut obtenir le mme rsultat en testant H0: D = 0, cest--dire
en comparant D D(hypo), ce qui revient faire un test de moyenne unique :
t=
D D
sD / n
12
INTERVALLES DE CONFIANCE
Dans de nombreux cas, lestimation des IC savre plus utile et informative que les tests
dhypothse. On ne sintressera ici qu lestimation des IC de moyennes. Le but recherch
consistera calculer lIC de la moyenne dun chantillon comme lintervalle de valeurs qui a
95 ou 99% de chances de contenir la moyenne de la population dont cet chantillon est extrait.
Pour une distribution normale, si on connaissait X cet intervalle pourrait tre dtermin,
grce lcart rduit, comme X z
(z = 1,96 ou 2,58 pour p = 0,05 ou 0,01
respectivement).
Ne connaissant pas la plupart du temps X et
estimateur de
X , on substitue s X
(= sX/ n ) comme
X . Ce faisant, t se substitue z (voir plus haut), et on a X t sX , o p =

p
0,05 ou 0,01.
On cherche donc dans la Table le t correspondant avec DL = n-1 (NB : quand n, IC).
On obtient lIC en ajoutant puis en soustrayant tp X X . On est alors 95 ou 99% confiant

que cet IC contient X.
De mme, on peut calculer lIC dune diffrence entre 2 groupes, (XY) tp X Y , avec
s X Y
calcul diffremment selon quon a des chantillons dpendants ou indpendants.
On peut aussi exprimer lIC en nombre dcarts-type de la variable :

Pour une moyenne unique, la diffrence entre X et les limites de lIC, d1 =
Ex : X = 85 ; sX = 15 ; n = 25
sX
t ps X
sX
tp
n
15
= 3 ; t0,05 2 avec DL = 24.
25
85 (2x3) = 79 ; 85 + (2x3) = 91
d1 = 6/15 = 0,4 ;
tp
n
= 2/5 = 0,4.
Pour une diffrence entre 2 moyennes : d2 =
t ps X Y
, o s
s moy
moy
est la moyenne de sX et sY.
Relations de lIC avec H0 :

Attention ! Il peut y avoir une diffrence significative entre 2 groupes dont les IC se
chevauchent (overlap).
Dautre part, lIC dune diffrence entre 2 groupes peut ventuellement comporter une valeur
ngative et une valeur positive dont les positions relatives par rapport au zro dterminent
linterprtation de lIC (ex : 510). Nanmoins, la prsence du zro dans lICdif permet de
retenir H0, alors quinversement si lICdif ne contient pas zro, on peut rejeter H0.
Ex : XY = 12 ;
s X Y
= 5 ; n = 25x2 t = 12/5 = 2,4 > tcrit = 2 avec = 0,05 et DL =
48.
IC95 = 5x2 = 10 2 XY 22, o zro napparat pas
13
En conclusion, lIC peut permettre de dtecter une diffrence en plus de linformation

spcifique quil apporte. La mthode apparat donc suprieure dans bien des cas, en particulier
quand il sagit destimer la variabilit dun paramtre. En gnral, on choisira la mthode H0
quand il y a une dcision prendre
14
PUISSANCE DE TEST
(+ dtermination de la taille de lchantillon)
Comme un trop petit chantillon peut faire rater une diffrence importante, un trop grand
chantillon peut rvler une diffrence sans importance bien quelle soit significative.
Ex : QI / taille des enfants corrls (calcul a posteriori, r = 0,03 !) p<0,001 avec un
chantillon de 14000 (NY Times, 1986).
Rappel : erreur de type I = = proba de rejeter H0 quand elle est vraie
- Erreur de type II = = proba de retenir H0 quand elle est fausse
1 - = proba de rejeter H0 quand elle est fausse (= proba de dtecter une diffrence) =
puissance du test.
NB : quand diminue la puissance du test augmente
Facteurs qui affectent la puissance du test :
1) Distance X hypo (plus la distance est grande, plus il y a de chances de rejeter H0)
2) Taille de lchantillon :
sX
= sX/ n plus n est grand, plus
sX
est petit, moins il
y a de chevauchement entre les distributions des moyennes X et hypo.

3) Ecart-type des distributions, sX viter les variables parasites et essayer dapparier
4) Niveau de significativit : plus augmente plus la puissance de test augmente (au
dtriment de la protection dune erreur de type I).
5) Un test unidirectionnel est plus puissant quun test bidirectionnel.
Rsolution (effect size)
Il sagit ici dune question de recherche ( statistique) : quelle est lordre de grandeur dune
diffrence (discrepancy - entre la valeur dhypothse et la valeur vraie) quil nous semble
important de considrer ? Une manire pratique de rpondre cette question est dexprimer
cette diffrence (d) en termes dcarts-type (estims le plus souvent).
Pour un test dhypothse sur une moyenne unique, d =
X hypo
(ou s)
Pour un test dhypothse sur une diffrence de moyennes, d =
(X -Y) - ( X - Y) hypo
(ou s)
On peut par ex. considrer respectivement comme modre et consquente une d de 0,5 et 0,8
carts-type.
NB : on ne peut en principe calculer la puissance du test que si est connue, ce qui est
rarement le cas choisir une puissance dau moins 0,8 (80% de chances de rejeter H0 quand
elle est fausse).
On peut maintenant dterminer la taille de lchantillon en fonction de la :
Puissance du test = proba de ne pas rater une
Diffrence de grandeur choisie (rsolution).
Par ex., avec d = 0,5 et 1- = 0,8, la consultation de courbes de puissance (power curves)
pour un test de t non-appari et non-directionnel = 0,05 donne un effectif (n) de ~60.
Ralit
H0 fausse
H0 vraie
15
Dcision
Rtention Type II
OK
Rejet
OK
Type I
Domaine Domaine
ANOVA UN FACTEUR (one-way)
Pourquoi ne pas faire n tests de t ?

Lourd ! (ex : avec 7 groupes 21 tests)
Augmentation dramatique du risque derreur de type I : avec = 0,05 et des groupes
indpendants, la proba derreur = 1-0,95n = 1-0,9521 = 0,66 avec 21 tests !
Avec n groupes, on ne sait pas quoi au juste on compare un groupe donn
Cest Fisher, pre de la statistique moderne, qui dveloppe lANOVA.
H0: A = B = C = = k
NB : Pas de test directionnel avec ANOVA puisque H0 peut tre fausse dun grand nombre de
faons
NBB : HA implique que les diffrents traitements peuvent reprsenter diffrentes
populations .
I. Groupes indpendants
1) Variation intra-groupe = alatoire (inhrente) devrait tre la mme pour chaque
groupe.
2) Variation inter-groupes due aux diffrences parmi les moyennes ET la variation
inhrente.
En supposant pour simplifier que nA = nB = nC = = nk :
s 2
k
estime

2 (intra)
La variance moyenne des k groupes est une bonne estimation de la variance de la

population sous-jacente qui ne dpend pas des X ni de H0.
Par contre, si les groupes viennent de la mme population (H0 vraie), comme
2
peut dire : n s X
estime

2 (inter), o
sX
sX
= s2/n, on
est la variance des moyennes de chaque groupe.
On a donc 2 estimations de 2. Si H0 est vraie, les 2 estimations devraient tre semblables.

Si H0 est fausse, 2inter > 2intra. Ceci constitue le principe de base de lANOVA.
Procdure :
- Calculer la moyenne gnrale
X-
, puis partitionner en carts par rapport X et

X = (X - X ) + ( X - X )
- Calculer SC totale :
SCt =
(X X)
16
(X X)
(XX)
=
SCintra
n i (X i X )
SCinter
o ni = effectif de chaque (k) groupe et
Xi = moyenne de chaque groupe.

Concrtement, la partition de SCt en SCintra (variation indpendante du traitement )
+ SCinter (variation indpendante + dpendante du traitement) se fait :
SCintra =
(X X)
k
(X A X A)
(X BX B)
+ k
SCinter = n i (Xi X) = nA ( X A - X )2 + nB ( X B - X )2 +... k

.
17
Degrs de libert :
Rappel : s2 = SC/DL (= n-1 pour 1 chantillon)
DL pour SCt = nt-1
SCintra = (nA 1) + (nB 1) +... = nA + nB +... + nk k = nt k
SCinter = k-1
NB : nt k + k-1 = nt-1 = DL pour SCt
2
=
intra
SCintra ; s2
inter
nk
SCinter
k1
, et F =
sinter
2
sintra
Comparer ensuite la valeur critique de F dans la Table avec n DL au numrateur et n DL

au dnominateur.
Le F suit des distributions asymtriques qui varient selon le nombre de DL.
Ex. pour 4/20 et H0 vraie :
Frq
.
Zone de rejet de
H0 pour = 0,05
0 1 2 3 4 5 6 7 F
NB : - F toujours >0 car il ne peut y avoir de variance ngative
- Si F<1 suspecter un problme
(X)
n
- Pour calculer SC, utiliser plutt la formule X -
Prrequis (assumptions) :
Distribution normale (sinon OK quand n est grand)
Homoscdasticit (sinon OK quand les groupes ont la mme taille)
Indpendance vraie pour ce type dANOVA
Echantillonnage alatoire
On a vu plus haut quon pouvait utiliser le F pour tester lhomoscdasticit de 2 chantillons.
Pour >2 chantillons, il faut utiliser dautres tests tels que Bartlett ou Levene (voir Scherrer).
Comparaisons post-hoc
A nutiliser que si F est significatif
En ordre croissant de conservatisme (donc dcroissant de puissance) :
Duncan, Newman-Keuls, HSD de Tukey, Scheff, etc.
1) Pour comparer toutes les paires possibles, on peut utiliser le HSD de Tukey : on
compare la diffrence de 2 moyennes (2 groupes) HSD (honestly significant
difference). Si
HSD = q
X A - X B > HSD, on rejette H .
sintra
n
, o q est localis dans une Table en fonction de k, DL et .
Si n varie dun groupe lautre, on utilise la moyenne harmonique de n :

18
k
(1/ n A) (1/ n B) ... (1/ n k)
NB : alternative ANOVA : comparaisons plannifies, non-dvelopp ici...

2) Pour comparer chaque groupe un tmoin, on peut utiliser Dunnett :
H0:
X A = Xtmoin ; XB = Xtmoin
XAXtmoin
2
sintra( 1 1 )
n A n tmoin
t=
; etc
est localis dans une Table pour , k (tmoin inclus)
et DLintra.
II. Groupes dpendants (mesures rptes)
Uniquement avec des groupes de mme taille !
SCt et SCinter ne changent pas (SCinter est plus facile calculer car n est le mme).
SCintra est partitionne entre : - SCel : variation entre lments et
- SCres : variation rsiduelle (= alatoire).
A
1
2
3
1
2
3
B
C
2
3
3
4
4
5
Variation lments
6
9
12
1
2
3
A
1
2
3
B
C
2
3
1
3
2
1
Variation rsiduelle
6
6
6
Ex :
SCel = k ( Xel -
)2, o
Xel
= la moyenne dun lment dans k conditions
(traitements)
SCres = SCt - SCinter - SCel avec DLel = n-1 et DLres = (DLel)(DLinter) = (n-1)(k-1)
2
F=
sinter
2
sres
variation alatoire effet traitement

variation alatoire
NB : ce test est plus puissant que pour les groupes indpendants car on enlve la variation due
aux diffrences entre lments : s 2res <
sintra
On peut aussi utiliser les tests post-hoc pour mesures rptes, mais :
HSD = q
s res
n
(au lieu de
sintra ).
19
ANOVA DEUX FACTEURS (two-way)

Ex : effets des engrais A1 et A2 (mesurs par le rendement) sur les varits de bl B1 et B2.
I. Effets principaux
X B1 = X B2
Effet engrais H : X A1 = X A2
1) Effet varit H0:

2)
1
B
cellules
1
2
Revient faire des ANOVA 1
facteur : F1 =
s2A
s2res
; F2 =
s B , o la variance rsiduelle (inhrente) correspond ici la variance intra-cellule

s2res
(voir plus bas).
II. Interaction : les effets dun facteur influencent-ils ceux de lautre ? F3 =
s2AB
s2res
Partition des variances :

Dans lANOVA avec mesures rptes on partitionnait SCintra en SCel et SCres. Ici on
partitionne SCinter en SClignes + SCcolonnes + SClxc.
On a 5 SC :
SCt : identique ANOVA 1 facteur (variation de tous les X par rapport X )
-
SCintra-cellules = (X- X cell )2
SClignes = nlignes ( X lignes - X )2 identique SCinter dans ANOVA-1 facteur o chaque
ligne est considre comme un ensemble.

-
SCcol = ncol ( X col - X )2 identique SCinter dans ANOVA-1 facteur o chaque
colonne est considre comme un ensemble.

SClxc = SCt - (SCintra-cell + SClignes + SCcol)
Attention : nlignes et ncol reprsentent le nombre de X par lignes et par colonnes.
Degrs de libert :
DLt = nt-1 ; DLcol = nombre de colonnes-1 ; DLlignes = nombre de lignes-1 ;
DLintra-cell = (nintra-cell-1) ; DLlxc = (nombre de lignes-1) (nombre de colonnes-1)
On peut calculer les variances estimes intra-cellule, lignes, colonnes et lxc par le rapport
SC/DL correspondant.
2
- sintra
cell estime la variation inhrente
-
2
slignes
scol
2
slxc
estime la variation inhrente + effet principal de la varit de bl
estime la variation inhrente + effet principal de la varit dengrais

estime la variation inhrente + effet de linteraction
20
Pour dterminer les 3 effets (A, B et AxB) on calcule 3 F :

2
2
2
s
ligne
col
lxc
FA =
; FB =
; FAB =
.
2
2
2
sintra -cell
intra -cell
intra -cell
On les compare ensuite au F(H0) de la Table avec les DL appropris. Si F>FTable H0 rejete.
On peut enfin faire des comparaisons post-hoc si le nombre de conditions par facteur est >2.
Ex : HSD = q
sintra -cell
n
o q est localis dans la Table en fonction de , du nombre de
conditions par facteur et de DLintra-cell, et o n = nombre de X par colonnes ou par lignes, selon
quon cherche les diffrences parmi les conditions des facteurs A ou B.
Une diffrence de moyenne entre 2 conditions dun facteur donn est significative si elle
est >HSD.
Notas :
- Pour interprter leffet interaction, il faut en principe corriger la moyenne de chaque
cellule en soustrayant les effets principaux :
moy. cell. corrige = moy. cell. - (( L - X ) + ( C - X ) + X ), o L et C sont les moyennes
de chaque ligne et colonne qui constituent la cellule.
- Les prrequis sont les mmes que pour ANOVA 1 facteur, sauf quici un nombre gal de
X par cellule est plus important.
- On peut aussi faire des ANOVA 2 (ou +) facteurs avec mesures rptes. Ex des
contrleurs ariens : effets de 2, 12 ou 24 h de veille sur un test de vigilance rpt lors de 4
sessions sur n sujets. Ce type danalyse est assez complexe voir ouvrages spcialiss
Exemples de rsultats avec ANOVA-2F :
Rendement
Bl 1
Rendement
Bl 2
Aucun effet
Rendement
Bl 1
Bl 1
Rendement
Bl 2
Effet engrais
Rendement
Bl 2
Effet engrais + varit
Bl 1
Bl 1
Bl 2
Effet varit
Rendement
Bl 2
Effet engrais + varit

+ interaction
Bl 1
Bl 2
Effet interaction seul
21
22
CORRLATION
Notion lie celle de prdiction. Exs : taille parents / enfants (Galton) ; nombre de cigarettes
fumes / incidence du cancer pulmonaire ; ex. de corrlation ngative : nombre dheures
passes par des enfants devant la tl / rsultats aux tests de lecture
On part dune distribution bidimensionnelle (bivariate) ; on fait dabord un graphe (ou
diagramme) de dispersion (scatterplot). Ceci permet de reprer a priori une relation linaire,
la seule accessible au traitement mathmatique de Pearson (~1900).
NB : il existe aussi des relations non-linaires (ex : courbes dose-rponse ; courbes en cloche,
etc.). Dans ce cas, il faut mathmatiquement linariser les donnes (ex. log X si Y = a log X +
b)
La corrlation peut tre positive ou ngative, la pente de la relation tant toujours 0.
Coefficient de corrlation (de Pearson) : -1 r +1
r=
(z X z Y) =
n
(XX)(YY)
nSXSY
o n = nombre de paires de valeurs.
(XX)(YY)
(SC X)(SC Y)
Finalement, r =
NB : les ( XX ) et ( YY ) peuvent tre positifs ou ngatifs, de sorte que la somme des

produits + et - dtermine le signe de r (corrlation positive ou ngative), le dnominateur tant
toujours positif.
Dv. ng. de
Dv. pos. de
Y
x
-+
x
x
+
+
x
+
+
x
x
x
Dviations
positives de
-+
Dviations
ngatives de
X
Notas :
- Prendre un chantillon assez grand sur le plan taille absolue (N) et sur le plan gamme de
Z
talents .
- Corrlation causalit ; ex : X Y ? ou
?
X
Y
Ex : force physique / intelligence chez les enfants de 8 12 ans ; nombre de nids de cigognes /
nombre de naissances dans les villes dEurope
- Il existe dautres types de corrlation, ex. Spearman (voir dernier cours sur tests nonparamtriques).
23
Rgression et prdiction
Le terme de rgression vient du fait que pour des valeurs extrmes de X, les Y ont tendance
rgresser vers la moyenne. Par ex., les enfants de parents de taille ou de QI trs levs ont
tendance tre plus grands et intelligents que la moyenne, mais pas autant que leurs parents.
Les tudiants trs dous en maths ont tendance tre forts en stats, mais ne sont pas
forcment les meilleurs Le degr de rgression vers la moyenne dpend du r : nul si r=1,
total si r=0.
On trouve le meilleur ajustement (best fit) de la droite de rgression par la mthode des
moindres carrs (least squares) : si dY = Y-Y (o Y = valeur prdite de Y), d 2
Y doit tre
le plus petit possible.
Dans le cas o on a plusieurs valeurs de Y pour chaque X, on prdit des valeurs Y qui seront
diffrentes des Y X (moyennes des Y pour un X donn), et qui en sont des estimations. Dans
ce cas, dY = Y- Y X
NB : on peut aussi faire une rgression de X en Y , c--d prdire X en minimisant d 2
X
. Sauf dans le cas o r = 1, les droites de rgression de Y en X et de X en Y seront
diffrentes.
NBB : dans le cas o on a des valeurs aberrantes (outliers), on peut soit ajuster une droite de
rsistance base sur la diffrence Y- mdianeX (au lieu de Y X), soit tout simplement
liminer ces valeurs.
Proprits de la rgression :
- Toutes les droites (r) passent par lintersection de X et Y (pivot on peut calculer r
partir dune valeur de Y).
- Si r = 0, Y= Y .
Equation de la rgression :
Y'Y
SY
=r
X X
SX
Y= (r
SY )X - (r SY ) X + Y
SX
SX
Mthode pratique de calcul :

Y = aX + b
a=
(XX)(YY)
(XX)
b = Y - aX
Erreur-type destimation de Y en X (mesure de la variablit de Y par rapport Y) :
SYX =
(Y Y')
n
= SY
1r 2
Si r = 1 SYX = 0 ; si r = 0 SYX = SY (cart-type de Y)

Attention : ne pas confondre SYX avec Sxy, covariance de X et Y.
Lutilisation lgitime de SYX dpend de 3 conditions :
- Linarit X-Y
- Homoscdasticit (mme variance de Y pour tous les X)
- Distribution normale de Y pour tous les X
Toujours inspecter les donnes brutes sur le graphe !
24
NB : la valeur de la prdiction dpend toujours de la taille de lchantillon.

NBB : si on trace 2 lignes parallles autour de la droite de rgression des distances de 1 SYX,
2 SYX ou 3SYX, on devrait, si n est grand, trouver entre ces lignes respectivement 68%, 95% ou
99,7% des points du nuage.
25
Interprtation de r
SYX = SY
2
S
1 YX
S2Y
1r 2 r =
r nest pas seulement fonction de la dispersion de SYX (Y par rapport la rgression),

mais du rapport
SYX .
SY
Si SYX = 0 (corrlation parfaite) r = 1

Si SYX = SY r = 0.
Notion de gamme de talents :
Ex : stress ou pollution / taille des villes : faire Aspremont NY plutt que Nice, Bordeaux,
Lille, etc
Avec SYX = constante (homoscdasticit), r est en proportion directe de SY.
Ex : r = 1 10 ~0,9 ; r = 1 10 ~0,7
50
20
Quand SY (proportionnel la gamme de talents) augmente, r augmente.
***
r est-il une indication de la pente dune droite de rgression ?
Y = aX + b o a = pente.
a
b
Y =
X+
(r SY ) (r SY )X Y
SX
SX
pente = r
SY
SX
(appel coefficient de rgression)
si SY = SX, r = pente ; mais dans la plupart des cas SY SX r indique de combien

dcarts-type Y augmente quand X augmente dun cart-type (zY = r zX en termes dcarts
rduits).
Coefficient de dtermination
Y
Y-Y
x
x
Y-
Y-
(Y Y)
n
S2Y = variance
totale de Y
(Y Y')
n
S2YX = variance
de Y indpendante de X (= rsiduelle)
(Y'Y)
n
S2Y' = variance de
Y associe aux X (= explique)
26
S2Y' = r
2
SY
= coefficient de dtermination donne la proportion de la variance de Y
associe avec le changement de valeur de X (corrlation).

NB : si r = 0,5 r2 = 0,25 = 25% ; si r = 0,71 r2 = 0,5 = 50%
27
Infrences sur la significativit du r

En prenant tous les chantillons possibles de taille n dune population, on obtient une
distribution dchantillonnage des r dont la moyenne, , est le vrai coefficient de corrlation
de cette population. Lcart-type de cette distribution, r =
1 2
. On note que quand n ou
n 1
augmentent r diminue.
Dterminer la significativit du r revient tester lhypothse H0: = 0. Pour cela, on pourrait
calculer tr =
r n 2
1r 2
, et comparer la valeur de t pour H0 avec n-2 DL et 0,05 ou 0,01,
directionnel ou pas.
Une mthode plus simple consiste comparer r directement dans une Table de significativit
avec DL = n-2.
Vu que r diminue quand n augmente, on peut, avec des chantillons trs grands, trouver un r
hautement significatif alors que est trs faible. Inversement, avec un n trs faible, on peut,
par hasard, trouver un r lev. Il vaudrait donc mieux donner lintervalle de confiance de r
pour une estimation plus objective. Malheureusement, quand 0 la distribution de r nest
plus normale (elle lest pour =0, ce qui lgitime le test H0 ci-dessus).
Il faut convertir r en zr de Fisher (attention : aucun rapport avec lcart rduit z !) :
zr = ln 1 r distribution normale
1r
La conversion est disponible dans une Table r zr.

Pour un IC de 95% : zr 1,96
z r , o lerreur-type de z , z r =
r
1
.
n 3
On reconvertit ensuite les 2 limites zr en valeurs de r.

***
De mme, pour dterminer si une diffrence entre 2 r est significative, il faut convertir en zr
(valable pour des chantillons indpendants, plus complexe pour ch. dpendants).
z=
zr1zr2
, o lerreur-type de la diffrence entre les 2 z , zr1zr2 =
zr1zr2
r
1 1
n13
n 23
Comparer ensuite z = 1,96 pour = 0,05 ou 2,58 pour = 0,01.
Quand on compare plus de 2 chantillons, il faut faire une analyse de covariance (ANCOVA ;
voir par ex Scherrer : Biostatistique, 1984, p. 676). Ce type danalyse permet de rechercher,
parmi plusieurs droites de rgression, une diffrence de pente et/ou dordonne lorigine.
28
CHI-2 (2 ; chi-square)
Permet destimer si les frquences de distribution dune population dans n catgories diffrent
des frquences attendues selon une hypothse quelconque. Ex : y-a-til une prfrence des
tudiants en LSV pour certaine(s) des 4 options proposes ?
On pourrait ici tester par ex. H0: pA = pB = pC = pD = 0,25 (il ny a pas de prfrence).
Consquemment, le 2 permet de tester la qualit ou la validit dajustement (goodness of fit)
de donnes une quation.
2 =
(f -f ) 2
o a
n
fa

Sommation, sur n catgories, des frquences observes
et attendues
(fa = N x p = N x 0,25). On compare ensuite le 2 la valeur critique dans une Table pour un
choisi et DL = nombre de catgories - 1. Si 2 > la valeur critique, on rejette H0.
Frq
.
1
2
4
Frq
.
DL
Zone de rejet de
H0 pour = 0,05
10
6
DL = 3
0
10
20 2
0
10
Notas :
- Trs employ par les gnticiens qui attendent des frquences particulires de
reproduction (ex : apparition de phnotypes selon 9-3-3-1 9/16-3/16-3/16-1/16).
- Un prrequis est lindpendance des observations. Pour utiliser le 2 en mesures rptes,
il faut prendre certaines prcautions (Siegel & Castellan, 1988).
Applications du 2
1) Ajustement dquation
On a vu jusquici quavec la plupart des tests on cherche une diffrence (rejet de H0). Quand
on utilise le 2 pour estimer la qualit dajustement, on cherche au contraire dmontrer quil
ny a pas de diffrence avec la distribution thorique (rtention de H0).
2 =
'
Y1-Y1
2
+
Y 2-Y'2
2
++
Y k -Y'k
2
o
Y est la valeur observe pour un X donn, Y la valeur thorique dtermine par lquation
pour ce mme X, et l erreur-type de Y.
DL = nombre de donnes - nombre de paramtres variables
29
2) Tableaux de contingence 2 facteurs : permettent de tester lindpendance des groupes ou

au contraire linteraction entre 2 facteurs. NB : variables qualitatives surtout utilises. Ex :
Leg +
Leg -
fo
fa
fo
fa
Prlvements
PACA
2
3,5
8
6,5
10
IdF
2
2,8
6
5,2
8
Nord
10
7,7
12
14,3
22
14
26 = 40 prlvements
H0: la proportion de contamination est identique dans toutes les rgions.

fa = 14/40 = 0,35 faPACA = 10 x 0,35 = 3,5 ; faIdF = 8 x 0,35 = 2,8 ; faNord = 22 x 0,35 = 7,7.
2 =
(23,5) 2
3,5
(86,5) 2
6,5
= 2,4. Avec DL = (col-1)(lignes-1) = 2, 2 =
6 pour = 0,05.
On ne peut pas exclure que les prlvements sont homognes.
NB : quand 2 est significatif, on ne peut pas localiser lhtrognit, c--d dterminer quels
groupes sont dissemblables. Il faut pour a faire une transformation log complexe
NBB : le 2 a beaucoup dautres applications possibles (voir plus bas par ex.).
30
STATISTIQUES NON-PARAMTRIQUES
Pour distributions non-normales.
Ne testent pas une diffrence entre moyennes (paramtre) mais entre distributions, et peuvent
sadresser indiffremment la tendance centrale, dispersion ou symtrie.
Adaptes aux petits chantillons.
Bases sur un classement des donnes par rangs. Ex :
Valeurs :
4
5
5
8
11
11
11
15
19
Rang :
1
2,5
2,5
4
6
6
6
8
9
moyennes
des
rangs
I. 2 groupes indpendants : Mann-Whitney U (quivalent du t)

H0: les 2 chantillons viennent de populations avec la mme distribution.
NB : pour des formes et dispersions similaires, le test value surtout la tendance centrale,
laquelle se rapproche plus de la mdiane.
Procdure :
- Classer toutes les valeurs (X, Y) par rangs.
- Si nX < nY, calculer RX, la somme des rangs pour X.
- Comparer RX dans une Table avec = 0,025 pour p0,05 bidirectionnel, nX et nY.
Si RX < au chiffre infrieur ou > au chiffre suprieur, rejeter H0.
Pour = 0,05 directionnel, regarder seulement < ou >.
Quand n > aux n de la Table, il faut calculer U :
U = (nX)(nY) +
... puis lcart rduit, z =
n X(n X 1) - RX
2
U(n X n Y /2)
n X n Y(n X n Y 1)
12
> 1,96 ou 2,58 ?
Autre test possible : Kolmogorov-Smirnov

II. Plus de 2 groupes indpendants : Kruskal-Wallis (quivalent dANOVA)
H = -3 (nt+1) +
(R ) 2 (R ) 2
(R k) 2
1
2
12
...
n1
n2
nk
n t (n t 1)
On compare H la valeur critique du
avec DL = k-1.
Pour les comparaisons multiples (H > la valeur critique), on utilise les tests post-hoc utiliss
en stats paramtriques. Pour comparer tous les groupes entre eux, et si les n de chaque groupe
sont gaux, on peut par ex. utiliser le test de Student-Newman-Keuls en remplaant les
moyennes par la somme des rangs. Avec des n ingaux et/ou pour comparer les groupes un
tmoin, on peut utiliser les tests de Dunn ou Dunnett. Pour plus de dtails, voir Biostatistique
de Scherrer, p. 540.
31
III. 2 groupes dpendants

1) Test des signes : plus adapt des variables semi-quantitatives (chelles ordinales).
Pour chaque paire, on note la diffrence de rsultat en tant que signe + ou -.
H0: il y a autant de + que de -, ce qui quivaut un test de frquences. On peut donc
utiliser le 2.
2 =
(f o f a )2
f a
(f o f a )2
f a
et voir Table
NB : quand une diffrence = 0, liminer la paire et rduire N (pour le calcul de f) en

consquence.
NBB : le test des signes est OK pour n 10 (sinon test binmial avec les prcautions
indiques par ex. par Scherrer, p. 524).
2) Wilcoxon : le test de choix pour des variables quantitatives non-normales.
Plus puissant que le test des signes car il tient compte de la taille des diffrences entre
paires.
On classe par rangs la valeur absolue de la diffrence X-Y, puis on lui attribue le signe
de la diffrence. On fait la somme (en valeurs absolues) des valeurs positives (W+) et
ngatives (W-). Ex :
X
Y
X-Y
Rang
Signe
24
28
4
1
-1
W+ = 3 ; W- = 3
39
29
10
3
+3
On prend la valeur la plus
29
34
5
2
-2
petite (W+ ou W-) quon
compare dans une Table selon et le nombre de paires.
Pour les n non-inclus dans la Table : z =
W 0,25n(n 1)
n(n 1)(2n 1)
24
o 0,25n(n+1) est la
moyenne de la distribution des W.

IV. Plus de 2 groupes dpendants : faire une ANOVA de Friedman (voir fichier daide de
Statistica).
Coefficient de corrlation de Spearman (rs)
A utiliser par ex. quand n est petit.
rs = 1-
6D2
, o D = diffrence entre les paires de rangs et n = nb de paires de rangs
n(n 21)
Ici on classe chaque groupe X et Y par rangs. Ex :

X
1
3
5
7
9
Y
5
4
20
15
19
Rang X
1
2
3
4
5
Rang Y
2
1
5
3
4
D
-1
1
-2
1
1
D2
1
1
4
1
1
32
6x8
rs = 1- 5(251) = 0,6 on compare ensuite rs la valeur approprie pour et DL = n-2

dans la mme Table que pour le r de Pearson (0,6 < 0,88 H0 est retenue).
33

Stats

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Stats

Transféré par

Droits d'auteur :

Formats disponibles

Cours dinitiation aux Statistiques

(les termes anglais sont entre parenthses et en italiques)

; Log MG = 1 (logX1 + logX2 ++ logXn)

NB : avec n-1 au dnominateur, on a un estimateur non-biais de la variance de

, la somme des carrs

(SC) des dviations de X par rapport la moyenne, est frquemment utilise en

c) Ecart-type (standard deviation) : X =

Thorme daddition = somme des probas = fonction OU

(on ne peut pas faire un 5 ET un 6 la fois)

Ex : proba de sortir un as OU du pique = 4 + 13 - 1 = 16

Thorme de multiplication = fonction ET (quand un rsultat na pas dinfluence sur

proba sur n coups ou pices =

La forme vous rappelle quelque chose ?

Soit une population [2,4,6,8] 16 chantillons de 2

= X (5 dans notre exemple)

cest lcart-type de la distribution dchantillonnage de X ,

communment appel erreur-type de la moyenne (standard error of the mean ;

diminue et quand n augmente

Thorme de la limite centrale : quand n augmente, la distribution des X tend vers

La distribution thorique des X permet de situer et comparer la moyenne dun chantillon

TEST DHYPOTHSE SUR UNE MOYENNE

problme est que la variance de lchantillon est un estimateur biais de la variance de la

SX est toujours infrieure X . La solution est de calculer s X

SC , ce qui nous donne lcart-type s =

2 . On peut alors substituer X par son

estimateur non-biais sX. Le nouveau dnominateur

= sX/ n sappelle l erreur-type

estime de la moyenne (estimated standard error of the mean). Quand on substitue

dans la formule du z, on obtient le t de Student :

A ce stade, un petit rappel ne sera probablement pas superflu

: erreur-type estime de la moyenne,

s X , qui nest pas constant et

Si X1- X = +3 et X2- X = -7 X3- X = ncessairement +4.

TESTS DHYPOTHSE SUR LA DIFFRENCE ENTRE 2 MOYENNES

X Y , va dpendre de la nature du test (ch. dp

Le principe dun test de diffrence de moyennes consiste valuer le rapport de cette

compare ce z une valeur critique pour retenir ou rejeter H0.

permet dvaluer les variances (et le n) de chaque groupe indpendamment. La

variance estime commune ;

Selon le cas, on peut maintenant calculer notre t =

Dans le cas H0: X = Y, t =

avec DL = (nX-1) + (nY-1).

Quand ce nest pas le cas ( 2X

Y ), on peut amliorer la situation en augmentant n

F (voir plus loin) avec F =

Principe gnral : A > B ?

, o r = coefficient de corrlation (voir plus loin)

(z = 1,96 ou 2,58 pour p = 0,05 ou 0,01

X . Ce faisant, t se substitue z (voir plus haut), et on a X t sX , o p =

On obtient lIC en ajoutant puis en soustrayant tp X X . On est alors 95 ou 99% confiant

calcul diffremment selon quon a des chantillons dpendants ou indpendants.

On peut aussi exprimer lIC en nombre dcarts-type de la variable :

Pour une diffrence entre 2 moyennes : d2 =

est la moyenne de sX et sY.

Relations de lIC avec H0 :

= 5 ; n = 25x2 t = 12/5 = 2,4 > tcrit = 2 avec = 0,05 et DL =

En conclusion, lIC peut permettre de dtecter une diffrence en plus de linformation

= sX/ n plus n est grand, plus

est petit, moins il

y a de chevauchement entre les distributions des moyennes X et hypo.

Pour un test dhypothse sur une diffrence de moyennes, d =

Pourquoi ne pas faire n tests de t ?

La variance moyenne des k groupes est une bonne estimation de la variance de la

est la variance des moyennes de chaque groupe.