Vous êtes sur la page 1sur 88

Biostatistiques :

Petits effectifs
Master Recherche Biologie et Sant
P. Devos DRCI CHRU de Lille EA2694
patrick.devos@univ-lille2.fr
Biostatistiques : Petits effectifs

20/09/2012

Plan


Donnes Gnrales :
 Dfinition des statistiques
 Principe de lchantillonnage
 Principe du test statistique Tailles dchantillons
 Analyse descriptive / Test de Normalit.

Petits chantillons :
 Petits / Grands chantillons.
 Comparaison de deux ou plusieurs chantillons.
 Tests non-paramtriques
 Mesure de l'association entre plusieurs variables.
Biostatistiques : Petits effectifs

20/09/2012

La Statistique et les Biostatistiques




La STATISTIQUE : discipline traitant du recueil (plans dexprience,


sondages, ), du traitement et de linterprtation de donnes
caractrises par une grande variabilit.

Partie des mathmatiques appliques, utilisant la thorie des probabilits.

Beaucoup de domaines dapplications








Sondages : enqutes dopinion


Industrie : contrle de qualit
Marketing : scoring, profil de consommateurs
Mdecine : pidmiologie, recherche clinique
..

Statistiques appliques la Mdecine = BIOSTATISTIQUES


 Donnes spcifiques : variabilit inter et intra, donnes interprtes,
 Mthodes spcifiques : survie, courbes ROC, plans dexprience
Biostatistiques : Petits effectifs

20/09/2012

Mthodologie statistique


Employer bien sr la "bonne" procdure statistique pendant lanalyse !!!

MAIS cela ne suffit pas

Choisir le bon type dtude


Choisir le bon plan dexprience
Choisir les bons critres de jugement
Dfinir les variables recueillies
Qualit des donnes recueillies









Avant l tude !!!

Analyse statistique rigoureuse (tests, modles, )


Bonne interprtation des rsultats

Biostatistiques : Petits effectifs

Fin dtude

20/09/2012

Lchantillonnage

Biostatistiques : Petits effectifs

20/09/2012

Linfrence statistique


On dsire tudier une population P

Principe :
 On tire un chantillon E de taille n issu de P
 On analyse les caractristiques de E
 On gnralise P

Attention !!
 E doit tre un chantillon reprsentatif de P (mme probabilit pour chaque individu
de se retrouver dans E)
 E doit tre de taille suffisamment leve pour pouvoir extrapoler les rsultats

Dfinir trs prcisment la population que lon dsire tudier !!

Biostatistiques : Petits effectifs

20/09/2012

Les fluctuations dchantillonnage




Quand on tire alatoirement un chantillon, on a des fluctuations.

Exemple : on sintresse aux 10 premiers tudiants entrant dans lamphi. On


comptabilise 7 femmes et 3 hommes. Peut-on en dduire que 70% des tudiants
qui assisteront au cours sont des femmes ? NON !!!

On considre que dans la population


totale, les proportions dhommes et de
femmes sont les mmes P(H)=P(F)=1/2

0.3

0.25

P(X=k)

0.2
0.15

Soit X le nombre de femmes parmi les


10 tudiants. On peut montrer que X
suit une loi binomiale de taille 10 et de
paramtre 0.5 et calculer la probabilit
dobserver 0,1,2,,10 femmes.

0.1

0.05

Biostatistiques : Petits effectifs

10

20/09/2012

Les prendre en compte

Comment prendre en compte les fluctuations dchantillonnage ?


1) En vrifiant que lchantillon est reprsentatif (tests dadquation par exemple)
2) En donnant la marge derreur que lon commet en raisonnant sur un chantillon
(Intervalles de confiance)
3) En matrisant les risques derreurs (puissance dans le cas de comparaisons)

Biostatistiques : Petits effectifs

20/09/2012

Principe du test statistique

Biostatistiques : Petits effectifs

20/09/2012

Le test statistique


Un travail de recherche est bti pour rpondre une question

Le test statistique est bas sur 3 principes gnraux :


 Le test statistique sert rpondre une question
 Le test statistique est un test dhypothse : la question on associe une
hypothse (H0)
 Le test statistique ne peut conclure de manire certaine : preuve
exprimentale donc il faut prendre un risque (premire espce)

Conclusion fonde sur un test statistique

Principe du test statistique


Biostatistiques : Petits effectifs

20/09/2012

Principe du test statistique


Question : une pice de monnaie est-elle pipe?


tape 1 : on cherche prouver quelle est pipe

tape 2 : confrontation exprimentale : on jette 50 fois la pice.

tape 3 : test dhypothse


 Si pice non pipe : P(Face)=P(Pile)=1/2
 Choix de lhypothse tester note H0 : : la pice de monnaie nest pas pipe
 Soit X : nombre de Pile (ou Face)
 Si H0 est vraie, la loi de X est connue (binomiale)

P(X=k)= CkN p k (1 p ) N-k

Biostatistiques : Petits effectifs

20/09/2012

Principe du test statistique : Notion de risque


Si H0 vraie, toutes les configurations sont possibles, y compris
P(0P)=(0,5)50 8.8 10-16 !!
0.12

0.1

0.06

0.04

0.02

50

48

46

44

42

40

38

36

34

32

30

28

26

24

22

20

18

16

14

12

10

P (X=k)

0.08

Biostatistiques : Petits effectifs

20/09/2012

Principe du test statistique : Notion de risque





Il faut dcider : on choisit un risque raisonnable = 5%


On partage lensemble des possibilits en 2 zones, selon le risque 5% :
18P

25P

32P

0P

50P

Compatible H0 = 95%

Trs improbable sous H0 = 5% de


chance =REJET DE H0

Limites de la zone compatible avec H0 se dterminent grce au calcul des


probabilits. Ici 18 - 32

Biostatistiques : Petits effectifs

20/09/2012

Principe du test statistique : Rgle de dcision




Zone compatible avec H0 = probabilit de 95% de se produire si H0 vraie

Zone de rejet de H0 =
probabilit de 5% de se produire si H0 est vraie !!! (risque)

Rgle de dcision : on fixe a priori la rgle suivante :


- Si le rsultat de lexprience se trouve dans la zone compatible avec H0
(exemple 22P), on ne dcide rien ( non significatif )
- Si il se situe dans le zone rejet de H0 on dclare H0 FAUSSE, donc on
dclare H1 vraie, mais au risque 5%.
- Exemple : 15P, on dcide que la pice est truque

Risque de premire espce = Probabilit de rejeter H0 tort = 5%

Biostatistiques : Petits effectifs

20/09/2012

Notion de Puissance dun test


Vrit
H0

H1

Dcision

Compatible H0

Rejet de H0 =
on dcide H1

1-

= Proba (dcider H1 / H0 est vraie) = risque de premire espce


= Proba ( dcider compatible avec H0 / H1 est vraie) = risque de deuxime espce
Puissance = 1- = Proba ( dcider H1 / H1 est vraie)
= Risque d'affirmer qu'il y a une diffrence significative alors qu'elle n'existe pas rellement.
= Risque d'affirmer qu'il n'y a pas de diffrence significative alors qu'elle existe rellement.

Puissance = Probabilit de dtecter une diffrence si elle existe rellement


Biostatistiques : Petits effectifs

20/09/2012

Notion de puissance dun test




Puissance dpend de la diffrence


mais aussi de la variabilit

Puissance dpend du risque de


premire espce , mais inutile en
pratique car fix 5%

Puissance = F(,N,DS)
En pratique, on estime et DS
et on dduit N

Biostatistiques : Petits effectifs

20/09/2012

En pratique


Dpend du plan dexprience :


 Nombre de groupes
 Indpendant / Appari (patient propre tmoin)

Dpend du critre de jugement principal







Numrique
Binaire
Survie

Des 2 risques :
 : risque de premire espce : gnralement 5%
 : risque de seconde espce : infrieur 20%

Biostatistiques : Petits effectifs

20/09/2012

Application : Taille des chantillons


Comparaison de 2 moyennes (groupes indpendants)

n = 2( z 1 + z 1 )

=K

Test bilatral

Test unilatral

Alpha

Beta

Zalpha

Zbta

Alpha

Beta

Zalpha

Zbta

0.05

0.05

1.96

1.64

25.99

0.05

0.05

1.64

1.64

21.64

0.05

0.1

1.96

1.28

21.01

0.05

0.1

1.64

1.28

17.13

0.05

0.2

1.96

0.84

15.70

0.05

0.2

1.64

0.84

12.37

(Formules approches)
Biostatistiques : Petits effectifs

20/09/2012

Exemple





Diffrence attendue () : 5mm de mercure


Ecart-type (DS): 10 mm
Risque de premire espce ( ): 5%
Puissance (1- ): 90%

10
N = 21.01* = 84
5

( par groupe )

1
0.8
Puissance

0.6
0.4
0.2
0
0

50

100

150

200

Nombre de Patients par Groupe

Biostatistiques : Petits effectifs

20/09/2012

Application : Taille des chantillons


Comparaison de 2 frquences (groupes indpendants)
PA (1 PA ) + PB (1 PB )
PA (1 PA ) + PB (1 PB )
2
n=
( z 1 + z 1 ) = K
( PA PB )
( PA PB )

Test bilatral

Test unilatral

Alpha

Beta

Z1

Z2

Alpha

Beta

Z1

Z2

0.05

0.05

1.96

1.64

12.99

0.05

0.05

1.64

1.64

10.82

0.05

0.1

1.96

1.28

10.51

0.05

0.1

1.64

1.28

8.56

0.05

0.2

1.96

0.84

7.85

0.05

0.2

1.64

0.84

6.18

(Formules approches)
Biostatistiques : Petits effectifs

20/09/2012

Exemple

PA = 0.1, PB = 0.2

Risque de premire espce ( ): 5%

Puissance (1- ): 90%

N = 10.51* 25 = 263
( par groupe )

1
0.9
0.8

Puissance

0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0

50

100

150

200

250

300

350

400

450

500

Effectif par Groupe

Biostatistiques : Petits effectifs

20/09/2012

Puissance dun test et Taille dchantillon

Comparaison de deux antihypertenseurs avec :


 : 5mm de mercure
 Ecart-type (DS): 10 mm
 Risque de premire espce ( ): 5%

1- = 0.9  N1=N2=86

Ltude a t ralise sans calcul de puissance pralable sur 2 groupes de 30


sujets.
Puissance = 1-
= 0.48 !!!
Ne pas confondre :

Conditions dapplication du test et Puissance du test

Biostatistiques : Petits effectifs

20/09/2012

Traitement statistique
des donnes

Biostatistiques : Petits effectifs

20/09/2012

Mthodes Statistiques : dfinitions gnrales




INDIVIDU : Objet sur lequel un ou plusieurs caractres peuvent tre observs.

POPULATION : Ensemble des individus pris en considration.

VARIABLE : peut tre qualitative (attribut) ou quantitative (numrique).

DISCRETES (Nombre limit de valeurs)


QUANTITATIVES
CONTINUES (prend ses valeurs dans un intervalle
VARIABLES
BINAIRES ( Prsent / Absent )
QUALITATIVES

NOMINALES (SEXE, Couleur des Yeux, CSP, )


ORDINALES = SCORE (Notion dordre)

Biostatistiques : Petits effectifs

20/09/2012

Les mthodes statistiques

Univarie (moyenne, DS, )

Descriptive
Multivarie (ACP, )

La statistique
Univarie (tests, )

Infrentielle
Multivarie (modles, )

Biostatistiques : Petits effectifs

20/09/2012

La Statistique Descriptive


BUTS :





Contrle de qualit des donnes, descriptifs simples (moyennes, ).


Synthtiser, rsumer, structurer l'information contenue dans les donnes.
Mettre en vidence des proprits de l'chantillon.
Suggrer des hypothses.

Analyses univaries : moyennes, histogramme, box-plot, frquences,

Analyses multivaries =Analyse des Donnes. Permet de traiter des


donnes multidimensionnelles.

Principales mthodes multivaries:


 Mthodes de classification : dterminer des sous-groupes homognes
 Mthodes factorielles : rduire le nombre de variables par construction d'axes
synthtiques (ACP, AFC, ACM, ...), mais aussi sous-groupes dindividus
 2 classes de mthodes souvent complmentaires
Cours N 2

Biostatistiques : Petits effectifs

20/09/2012

La Statistique Infrentielle Univarie




BUT : Valider ou infirmer des hypothses a priori ou formules aprs


une phase exploratoire.

Utilisation de tests statistiques se rfrant des modles probabilistes.

EXEMPLES :
 Comparaison de moyennes (test T, Wilcoxon, )
 ANOVA (+ + + !!!) / Modle mixte
 Comparaison de frquences (Khi, Fisher exact)
 Tests de lois (Shapiro-wilk, Kolmogorov-Smirnov)
 ...

Biostatistiques : Petits effectifs

20/09/2012

STATISTIQUE DESCRIPTIVE
UNIVARIEE

Biostatistiques : Petits effectifs

20/09/2012

Analyse descriptive univarie

3 Objectifs :


Contrle des donnes : Frquences et Box-plots

Calcul des statistiques descriptives : moyenne, .

Prsentation des rsultats :


 Moyenne et Dviation standard ou Mdiane et Quartiles
 Frquence avec Intervalle de confiance

Biostatistiques : Petits effectifs

20/09/2012

Paramtres statistiques de base

Moyenne :

1 n
= xi
n i =1

2
1 n
xi x )
 Variance estime: s =
(

n 1 i =1

Dviation standard : racine carre de la variance

Min, Max, Mdiane, Quartiles, Centiles

Biostatistiques : Petits effectifs

20/09/2012

Le Box-Plot ( Bote Moustaches )


X max
0

1,5 (Q3-Q1)

Q3
+
Mdiane

II=Q3-Q1

0 : valeur comprise entre


1.5 et 3 interquartiles
* : valeur suprieure 3 interquartiles

Q1

1,5 (Q3-Q1)

X min

Biostatistiques : Petits effectifs

20/09/2012

Reprsentations graphiques

VARIABLES DISCRETES

Femme
45%
Homme
55%

VARIABLES CONTINUES
Homme
Femme

VARIABLES QUALITATIVES
Biostatistiques : Petits effectifs

20/09/2012

Distribution dun paramtre (loi)

Diffrentes formes observables

D
e
n
s
i
t
y

0. 04

0. 02

0
- 2 2 6 10 14 18 22 26 30 34 38

Modlisation de la distribution : Hypothse de loi

Biostatistiques : Petits effectifs

20/09/2012

Tests de Normalit

Hypothses de normalit requise pour


test T, ANOVA
rgression,
Intervalles de confiance (valeurs normales)
-4

-3

-2

-1

SHAPIRO-WILK ( N< 50 )

KOLMOGOROV-SMIRNOV ( N> 50 )

Biostatistiques : Petits effectifs

20/09/2012

Prsentation des rsultats




Toujours rappeler la population tudie, les patients inclus ou exclus,

Prciser les mthodes statistiques utilises

Faire des tableaux de synthse

Utiliser des graphiques

Existence de recommandations ( http://www.consort-statement.org/ )

Suivre scrupuleusement les guidelines si article scientifique !!!

Biostatistiques : Petits effectifs

20/09/2012

Prsentation des rsultats

Utilisation de la moyenne si distribution symtrique, de la mdiane si distribution


asymtrique
0.5
0.45
0.4
0.35
0.3
0.25

mdiane

0.2
0.15

moyenne

0.1
0.05

-4

-3

-2

-1

4
0
0

Pas de moyenne sans dviation standard

Pas de mdiane sans quartiles

Pas de frquence sans Intervalle de confiance

Biostatistiques : Petits effectifs

10

12

20/09/2012

Intervalles de confiance 95%

dun paramtre numrique :


si X suit une loi normale

dune moyenne :
quelque soit la loi de X, si n > 30

dune frquence
si np , nq > 10

x 1 . 96 DS
1 . 96 DS
x
n
p 1.96

Biostatistiques : Petits effectifs

p(1 - p)
n

20/09/2012

Normalit dun paramtre

Biostatistiques : Petits effectifs

20/09/2012

La droite de Henry
Normalit : trs important car condition de nombreux tests
Mthode graphique qui permet de vrifier la normalit dune distribution
Exemple :
Soit X, une variable alatoire N(m,)
: ]-,+[ [0,1]
x
(x) = P(X<x)

p
-3

-2

-1

z
On dfinit la fonction rciproque :
-1:

[0,1] ]-,+[
p -1(p)

Biostatistiques : Petits effectifs

0.01
0.025
0.05
0.5
0.95
0.975
0.99

-2.326
-1.96
-1.64
0
1.64
1.96
2.326

20/09/2012

En pratique
Ri
Soit (X1, ... , Xn) un chantillon issu de X, R1, ..., Rn les rangs associs, Yi = 1

n
+
1

Si X suit une loi normale, alors les points (Xi,Yi) sont aligns
Cas particulier des diagrammes P-P
2
2

R = 0.9775
1.5

0.5

0
15

17

19

21

23

25

27

29

31

33

-0.5

-1

-1.5

-2

Droite de pente 1/ coupant laxe des abscisses en m.

Biostatistiques : Petits effectifs

20/09/2012

Le test de Shapiro-Wilk
Test implment dans de nombreux logiciels et utilis pour des petits chantillons

Bas sur le calcul des


diffrences symtriques :

d1 = Xn - X1
d2 = Xn-1 - X2
.........
dk = Xn-k+1 - Xk

Puis on calcule :

b = ai di
i =1

On obtient k=n/2 ou k=(n-1)/2


diffrences selon la parit de n

, S = ( xi x )2

puis

i =1

W=

b
S

Les ai sont des coefficients dpendants de i et n

Utilisation dune table qui permet de conclure.

Biostatistiques : Petits effectifs

20/09/2012

Exemple

Xi
16.3
16.8
19.6
19.8
20.6
21.0
22.4
23.0
23.4
23.9
24.4
25.0
27.0
27.4
31.0

di

ai

ai*di

31.0-16.3=14.7

0.5150

7.5705

27.4-16.8=10.6

0.3306

3.50436

27.0-19.6=7.4

0.2495

1.8463

25.0-19.8=5.2

0.1878

0.97656

b = ai di = 14.71
i =1

24.4-20.6=3.8

0.1353

0.51414

23.9-21.0=2.9

0.0880

0.2552

23.4-22.4=1

0.0433

0.0433

S = ( xi x ) = 220.77

W = 0.9803

i =1

23

H0 : le paramtre suit une loi normale


= 0.05

Lecture de la table :

W > C(,n)

n = 15
C(,n) = 0.881
Biostatistiques : Petits effectifs

On ne rejette pas H0
20/09/2012

Comparaisons de groupes

Biostatistiques : Petits effectifs

20/09/2012

Comparaisons de groupes


Dpend du type de variable :


 Qualitatitives : Khi ou Fisher Exact
 Quantitatives

Comparaison Quantitatives 2 approches:


 Tests paramtriques : Student par exemple
Paramtrique = on fait une hypothse sur la loi du paramtre
on compare des moyennes : interprtation facile
Hypothse forte : normalit !!!

 Tests non paramtriques :


Bas sur des rangs
On compare des distributions : interprtation dlicate
Mais pas dhypothse de loi mais conditions dapplication

Biostatistiques : Petits effectifs

20/09/2012

Comparaisons de frquence : le test du Khi


EXEMPLE : On veut savoir sil existe une relation de cause effet
entre un pneumococque et le dcs.

On dispose dun chantillon


se rsumant ainsi :

V (vivant)

D (dcs)

Pneumocoque G1

33

15

48

Autre G2

314

55

369

347

70

N=417

La mortalit est-elle plus leve chez les pneumocoques ?







Soit H0 : Les 2 caractres sont indpendants


Calcul des effectifs thoriques Tij=( Li * Cj) / N (tous suprieurs 5)
1 degr de libert
Calcul de D = 8,11 on rejette lindpendance
Biostatistiques : Petits effectifs

20/09/2012

d Indpendance : gnralisation
On souhaite savoir si deux paramtres A et B sont indpendants

B1
B2
........
Bi
........
Bp

On construit le
tableau de
contingence
croisant A et B





A2
........
........
........
........
........
........
C2

Sous lhypothse dindpendance, Tij =


Calcul de :D =

i =1

A1
O11
O21
........
........
........
Op1
C1

j =1

(Tij Oij )

........
........
........
........
........
........
........
........

Aj
........
........
........
Oij
........
........
Cj

........
........
........
........
........
........
........
........

Ak
O1k
O2k
........
........
........
Opk
Ck

L1
L2
........
Li
........
Lp
N

Cj * Li
N

Tij

Attention Tij < 5

Degrs de libert : = (k-1) * (p-1)


Utilisation de la table pour dterminer une valeur limite z
Conclusion du test : si D > z alors rejet de H0, donc il existe une liaison entre
les caractres A et B
Biostatistiques : Petits effectifs

20/09/2012

Cas particuliers : Fisher exact

Test pouvant remplacer le dans le cas deffectifs thoriques infrieurs 5.

Bas sur la combinatoire

Valide quelque soient les effectifs thoriques

Valide quelque soit le nombre de lignes et de colonnes

Attention, temps de calcul prohibitif si le nombre de cases du tableau est


lev

Biostatistiques : Petits effectifs

20/09/2012

Cas particuliers : Khi appari

3 Modalits

2 Modalits
a

b c)
(
=
si b+c 10
b+c

Approximation par la loi normale

1 ddl
=

( b c 1) si b+c <10
b+c

Test exact

Test de Mac Nemar

L1

L2

L3

C1

C2

C3

2
2
2
f +h
c+g
b+d
*
C
1

L
1
+
*
C
2

L
2
+
(
)
(
)

* ( C 3 L3)
2
2
2
=
b + d c + g b + d f + h c + g f + h
2*
*
+
*
+
*

2
2
2
2
2




2

2 ddl
FLEISS : Statistical methods for rates and proportions

Biostatistiques : Petits effectifs

20/09/2012

Comparaisons de moyennes

Biostatistiques : Petits effectifs

20/09/2012

Tests paramtriques

Chaque fois que possible, utiliser des tests paramtriques car


plus faciles interprter et utilisent linformation totale (pas
de perte dinformation) et donc a priori plus puissants.

Attention : des conditions vrifier :


 Normalit de la distribution (population totale ou par sous-groupe)
 Lquilibre des groupes (mme effectif dans chaque groupe)
 Lgalit des variances (test de Fisher ou de Levene)

En fonction de la compatibilit avec certaines de ces


conditions, possibilit dutiliser un test paramtrique
Biostatistiques : Petits effectifs

20/09/2012

Comparaison de 2 groupes
X ~ N(m,) ?
OUI

NON
N1, N2 > 30 ?

galit des
Variances ?

OUI
NON
Loi
symtrique ?

OUI

NON
OUI

Test de Student

Approximation
de Satterthwaite

Test de
Student

Biostatistiques : Petits effectifs

NON
Wilcoxon
(non-paramtrique)

20/09/2012

Comparaison de k groupes


Paramtrique : ANOVA (pas au programme)

Non paramtrique : test de Kruskal-Wallis

H0 : les moyennes (ANOVA) ou les distributions (KW) sont les mmes dans les k
groupes

Cas 1 : on ne rejette pas H0


Cas 2 : on rejette H0

Pas de diffrence
O sont les diffrences ?

STOP
Post-hocs

Post-hocs : comparaisons multiples (par exemple, comparaison des groupes 2 2)

Biostatistiques : Petits effectifs

20/09/2012

Le modle linaire

Permet de modliser de nombreux plans dexprience, simples ou


complexes, en indpendant ou appari, un ou plusieurs facteurs.

Hypothse pralable de normalit sur lerreur (les rsidus)

En fait, comme tout modle linaire, validation a posteriori :


 Analyse des rsidus
 Analyse des individus influents

Biostatistiques : Petits effectifs

20/09/2012

Tests non-paramtriques

Biostatistiques : Petits effectifs

20/09/2012

Dfinition - Impact


Utilis en gnral sur de petits chantillons (taille infrieure 30 individus).

Pas de statistiques en dessous de 8 par groupe

Attention : les thormes statistiques (Th Central limite, par exemple) ne


sappliquent plus  Ncessit de disposer de tests spcifiques

Interprtation plus complique : on ne compare pas des moyennes.

Problme de lestimation :
 Dans les statistiques standard : moyenne, dviation standard
 Dans les modles

Biostatistiques : Petits effectifs

20/09/2012

Tests non-paramtriques


Distribution-free tests : tests ne faisant aucune hypothse a priori sur


la distribution des variables analyses (pas dhypothse de normalit).

Gnralement bass sur lanalyse des rangs.


soit (X1, X2,, Xn) n valeurs numriques dune mme variable
RANG(Xi) : Position de la valeur Xi dans la srie classe par ordre croissant
-2
3

3
8

2
7

1
6

0
5

-1
4

-3
2

4
9

5
10

-4
1

On obtient une nouvelle variable Rx qui varie de 1 n


Attention aux ex-aequo (individus ayant la mme valeur Xi)


Problmes :


On gomme les diffrences

Tests moins puissants


Biostatistiques : Petits effectifs

20/09/2012

Le test de Wilcoxon ou Mann-Withney




Utilis pour comparer les distributions de 2 groupes indpendants

H0 : Fa(X) <> Fb(X) (les fonctions de rpartition sont diffrentes)

On classe les observations par ordre croissant et on calcule la somme des rangs dans
chaque groupe.

On obtient une variable de dcision qui suit une N(0,1) si au moins 8 individus dans
chaque groupe

X
Si distribution identiques, alors mlange parfait entre le groupe A (ronds rouges) et
le groupe B (triangles verts).
Dans ce cas, les sommes des rangs sont identiques (ou proches) dans les 2 groupes
Biostatistiques : Petits effectifs

20/09/2012

Le test de Wilcoxon
Soit n et m les effectifs des groupe 1 et 2,
Wx la somme des rangs du groupe A (ou B)
Sous H0 : les distributions sont identiques , on peut calculer E(Wx) et V(Wx)

n(n + m + 1)
E (Wx) =
2

et

nm(n + m + 1)
V (Wx) =
12

Wx E (Wx)
Si n et m > 8, alors Z =
suit une loi N(0,1)
V (Wx)
(Formules valides sans ex-aequo)
Biostatistiques : Petits effectifs

20/09/2012

Le test de Kruskal-Wallis


Utilis pour comparer les distributions de plus de 2 groupes indpendants

H0 : les distributions (fonctions de rpartition) sont gales

Bas sur la diffrence de la moyenne des rangs dans chaque groupe la


moyenne des rangs sur la population globale

Si Ni 5, on obtient une variable de dcision H qui suit un k-1 ddl

1 k Ri
(N+1) 2
H = 2
-N

S i =1 ni
4

(Formule sans ex-aequo)

( N, effectif total, Ni effectif par groupe et Ri somme des rangs du groupe i )

Biostatistiques : Petits effectifs

20/09/2012

Kruskal-Wallis : diffrences 2 2 ?
Exemple : 3 groupes G1, G2 et G3 Test global significatif
On aimerait comparer G1/G2, G2/G3 et G1/G3 : 3 tests post-hoc !!!
Attention : Ncessit dune correction du risque

2 options possibles :


Option 1 : Utiliser les procdures implmentes dans certains logiciels (SAS,


SPSS, ) et qui permettent une correction :



Procdure de Dwass-Steel
Procdure de Conover-Inman

Option 2 : on effectue 3 tests de Wilcoxon au risque /3

Biostatistiques : Petits effectifs

20/09/2012

La mthode de Conover

On transforme la variable X en variable R en calculant les rangs (en


faisant attention aux ex-aequo).

On ralise une ANOVA normale sur la variable R (en utilisant les


corrections du risque a telles que Bonferroni ou Tukey)

Mthode simple mais pas forcment optimale (simulations) et qui a t


critique (prservation du risque alpha et puissance)

Rank Transformations as a Bridge Between Parametric and Nonparametric Statistics, W. J. Conover


and Ronald L. Iman - The American Statistician - Vol. 35, No. 3 (Aug., 1981), pp. 124-129

Biostatistiques : Petits effectifs

20/09/2012

Quelques exemples

Biostatistiques : Petits effectifs

20/09/2012

Exemple 1 : comparaison de 2 groupes


Comparaison du BMI dans 2 groupes
Gr 1
Gr 2

N1
20
25

N2
22
26

N3
23
26

N4
23
27

N5
23
27

N6
23
27

N7
24
28

N8
24
28

N9
25
29

N10
25
30

N11
26

N12
27

Question 1 : le BMI suit-il une loi normale dans cet chantillon ?


Test de Shapiro-Wilk :
W=0.978 et p = 0.891
On ne rejette pas H0
Le BMI suit une loi normale !

Biostatistiques : Petits effectifs

20/09/2012

Exemple 1 : comparaison de 2 groupes


Utilisation dun test paramtrique : le test de Student
galit des
Variances ?

Cas 1 : Variances gales

Cas 2 : Variances ingales

Test de Fisher (ou Levene)


F=1.56 , p=0.5155

Test de Student sur


variances pooles

T = - 4.85
DF = 20
p < 0.0001

Test de Student avec


corr Satterthwaite

T = - 4.96
DF = 19.98
p < 0.0001

Biostatistiques : Petits effectifs

20/09/2012

Exemple 1 : comparaison de 2 groupes


Si le BMI navait pas suivi une loi normale, alors utilisation
du test de Wilcoxon.

Somme des Rangs du Groupe 1 : 85.5


Somme des Rangs du Groupe 2 : 167.5
Z = 3.4582
p = 0.005

Les distributions du BMI sont statistiquement


diffrentes dans les 2 groupes.

Biostatistiques : Petits effectifs

20/09/2012

Exemple 2 : le test de Kruskal-Wallis


3 groupes de 10 individus Rponse cote de 0 20
Gr 1
Gr 2
Gr 3

N1
7
9
13

N2
8
12
12

N3
6
11
14

N4
5
11
15

N5
6
10
15

N6
7
12
16

N7
9
12
14

N8
10
11
15

N9
9
13
16

N10
8
12
13

Somme Ri
57.5
156.5
251

Test de KW :
Khi = 24.3885
DDL = 2
P < 0.0001

Biostatistiques : Petits effectifs

20/09/2012

Kruskal-Wallis : diffrences 2 2 ?
2 options possibles :

On aimerait comparer G1/G2, G2/G3


et G1/G3 : 3 tests post-hoc !!!
Attention la correction du
risque !!

Option 1 : correction disponible


dans le logiciel

Option 2 : on effectue 3 tests de


Wilcoxon au risque /3
G1-G2 : p=0.00004
G2-G3 : p=0.00013
G1-G3 : p=0.00001

< 0.0166

G1#G2 , G1#G3 et G2#G3

Biostatistiques : Petits effectifs

20/09/2012

Mthode de Conover

On transforme la variable en rang

On ralise lANOVA sur les rangs

Si rejet de H0, comparaisons post-hoc

Test global : p < 0.0001


Tests post-hocs significatifs
Mmes conclusions quavec le test de Kruskal-Wallis

Biostatistiques : Petits effectifs

20/09/2012

Exemple 2 : Modle linaire


Et si la loi tait normale ??? Test de Shapiro-Wilk

p=0.3541 !

La distribution suit une loi normale




Utilisation du modle linaire

Test de leffet global

Vrification de linfluence et des rsidus

Si modle OK et effet global significatif, alors calcul des tests post-hoc

Biostatistiques : Petits effectifs

20/09/2012

Exemple 2 : Modle linaire


3

Rsidus alatoires et normalement


distribus

Residual

0
0

10

15

20

25

30

0.16

-1

0.14
-2

0.12
0.1

Cook's D

-3
Obs Number

2 individus ayant une Distance de


Cook (influence) suprieure 4/n
mais infrieure 1.

0.08
0.06
0.04
0.02
0
0

10

15

20

25

30

35

Obs Number

Vrification du modle sans les 2 individus

Modle paramtrique parfaitement valide !!!


Biostatistiques : Petits effectifs

20/09/2012

1 groupe Mesures rptes

Biostatistiques : Petits effectifs

20/09/2012

2 mesures


Problmatique : mme paramtre X mesur 2 fois sur le mme individu :


Mesure Avant / Aprs traitement par exemple.

Plusieurs mthodes possibles

Cas 1 : X suit une loi normale

Test paramtrique

Test T appari
Test des signes

Cas 2 : X ne suit pas une loi


normale

Tests non
paramtriques

Biostatistiques : Petits effectifs

Wilcoxon appari

20/09/2012

Test de Student pour donnes apparis




On suppose que le paramtre X suit une loi normale, X mesur 2 fois :


X1 et X2

H0 : m1=m2

On calcule, pour chaque individu, la diffrence d, puis la moyenne et la


dviation standard de la diffrence.

alors

t=

suit une loi de Student n-1 ddl

Biostatistiques : Petits effectifs

20/09/2012

Le test des signes

On dispose de n diffrences

Soit K le nombre de diffrences positives (ou ngatives)

Sous H0 : m1=m2, il y a une chance sur 2 quune diffrence soit positive

On peut tablir la loi de K qui suit une loi binomiale


K ~ B(n,1/2)

Biostatistiques : Petits effectifs

20/09/2012

Le test de Wilcoxon pour donnes apparies




On dispose de n diffrences en valeur absolue

On ordonne par ordre croissant et on calcule les rangs

Soit Wx la somme des rangs des diffrences positives

Sous H0 : les distributions sont identiques, on peut calculer E(Wx) et V(Wx)

n(n + 1)
E (Wx) =
4

Si n > 10, alors

et

V (Wx) =

n(n + 1)(2n + 1)
24

Wx E (Wx)
Z=
suit une loi N(0,1)
V (Wx)

(Formules valides sans ex-aequo)


Biostatistiques : Petits effectifs

20/09/2012

Exemple
10 vins nots par 2 experts
Num
1
2
3
4
5
6
7
8
9
10

X1
62
73
66
69
61
69
64
76
61
65

X2
79
69
84
83
72
71
62
83
73
80

D
17
-4
18
14
11
2
-2
7
12
15

Moyenne

66.6

75.6

1) Normalit ?
Ri
9
1
10
7
5
3
2
4
6
8

Diffrence de notation ?

OUI : D suit une loi normale

2) Utilisation du T appari
md=9
d=7.90
n=10

t=3.60
ddl=9

p=0.0057 Trs significatif !


Biostatistiques : Petits effectifs

20/09/2012

Exemple
Si la loi navait pas t normale , utilisation de tests non paramtriques

1) Test des signes : K=2 diffrences ngatives - K suit une B(10,1/2)


2

p = C10k ( 0.5 ) = 0.0547 en unilatral, 0.109 en bilatral


10

NS !!

k =0

2) Wilcoxon appari : Wx=50.5 (sommes des rangs des diff >0)


E (Wx) =

n(n + 1)
= 27.5
4

V (Wx) =

n(n + 1)(2n + 1) 10*11* 21


=
= 96.25
24
24

Wx E (Wx) 50.5 27.5


=
= 2.3444
Z=
V (Wx)
96.25
Biostatistiques : Petits effectifs

?
p=0.019

20/09/2012

3 mesures ou plus


Problmatique : mme paramtre X mesur k fois sur le mme individu :


Test de plusieurs traitements / Mesures rptes dans le temps.

Plusieurs mthodes possibles

Cas 1 : X suit une loi normale

Paramtrique

Modle linaire

Cas 2 : X ne suit pas une loi


normale

Test non
paramtriques

Test de Friedman

Biostatistiques : Petits effectifs

20/09/2012

Le test de Friedman


Un chantillon de n individus, k mesures rptes

On calcule le rang de chaque variable pour chaque individu

Test bas sur la dispersion des rangs moyens de chaque mesure

12n
k +1

Q=

Ri

k (k + 1) i =1
2
k

(Formule valide sans


ex-aequo)

Q suit une loi de Khi k-1 ddl


Biostatistiques : Petits effectifs

20/09/2012

Exemple
10 souris Hormone mesure M0, M6, M12
Obs
1
2
3
4
5
6
7
8
9
10

X1
7.7
9.2
5.5
8.8
8.3
7.9
7.2
8.5
9.4
8.9

X2
7
8.3
4.8
8.1
7.2
7.5
7.1
7.3
8.4
8.2

X3
5.1
7.9
5.3
7.7
5.5
5.3
4.9
8
8
7.9

8.14

7.39

6.56

Rangs

Obs
1
2
3
4
5
6
7
8
9
10

Q=16.8 Suit un Khi 2 ddl p=0.0002245

R1
3
3
3
3
3
3
3
3
3
3

R2
2
2
1
2
2
2
2
1
2
2

R3
1
1
2
1
1
1
1
2
1
1

1.8

1.2

Trs significatif !!

Problme des tests post-hocs : pas simple !!!


Alternative : Wilcoxon apparis 2 2 avec correction du risque
Biostatistiques : Petits effectifs

20/09/2012

Associations entre paramtres

Biostatistiques : Petits effectifs

20/09/2012

Le coefficient de Corrlation : Introduction


Utilis pour tudier la liaison (ou lindpendance) entre 2
paramtres numriques.
EXEMPLES :
 Rapport entre la taille et le poids
 Rapport entre un prix de vente et une superficie
 Interaction entre des paramtres biologiques
 etc ...

On considre donc un couple de variables (X,Y)


N couples (Xi,Yi) , ralisations du couple de variables alatoires (X,Y)

Biostatistiques : Petits effectifs

20/09/2012

Le coefficient thorique
Soit (X,Y) un couple de variables alatoires
Le coefficient de corrlation linaire entre X et Y est dfini par :
=

COV(X,Y)

E(XY)-E(X)E(Y)

REMARQUES :
 est toujours compris entre -1 et 1

 Si X et Y sont indpendantes, alors E(XY)=E(X)E(Y) et donc = 0


 Sil existe une relation fonctionnelle du type Y=aX+b entre X et Y, alors || = 1
Biostatistiques : Petits effectifs

20/09/2012

Le coefficient observ
On dispose d un chantillon de taille N (N>30)
(X1,...,Xi,...Xn) et (Y1,...,Yi,...Yn)
On dfinit le coefficient de corrlation de BRAVAIS-PEARSON par :

r=

1n
(xi-x)(yi-y)
n1
SxSy

n
n
1
1
2
2
avec S 2x = (xi-x) et S 2y = (yi-y)
n1
n1

De mme que pour le coefficient thorique :


 r est compris entre -1 et 1
 r = 0 : pas de liaison
 r proche de 1 : liaison fonctionnelle

ATTENTION : absence de liaison nest pas quivalent indpendance


Biostatistiques : Petits effectifs

20/09/2012

Du bon usage de r !!!

r mesure le caractre LINEAIRE dune liaison

Usage rserv des nuages de points o les points sont rpartis de part et
dautre dune tendance

R est trs sensible aux individus extrmes.

Attention aux valeurs aberrantes.

Utilit de la reprsentation graphique.

Biostatistiques : Petits effectifs

20/09/2012

Le coefficient de corrlation de Spearman

Soient (X1,...,Xi,...Xn) et (Y1,...,Yi,...Yn),


(R1,...,Ri,...Rn) et (S1,...,Si,...Sn) les rangs associs.

Le coefficient de corrlation de Spearman calcul entre (X1,...,Xi,...Xn)


et (Y1,...,Yi,...Yn) est gal au coefficient de corrlation de Pearson
calcul entre (R1,...,Ri,...Rn) et (S1,...,Si,...Sn).

Utilis en non paramtrique si N<30

Biostatistiques : Petits effectifs

20/09/2012

Exemple
2 paramtres numriques mesurs chez 10 patients
140
120
100

80
60
40
20
0
0

10

15

20

25

30

35

40

45

50

Mesure de lassociation : calcul du coefficient de Spearman


R=0.973

p<0.0001

Biostatistiques : Petits effectifs

20/09/2012

Des questions ???


Alain Duhamel Ple de Sant Publique - aduhamel@univ-lille2.fr
Patrick Devos Dlgation la Recherche - pdevos@univ-lille2.fr
Julia Salleron Ple de Sant Publique julia.salleron@univ-lille2.fr

Possibilit de RDV le Mardi AM ou Jeudi AM (ou autre si ncessaire)

Mme Brigitte Bonneau

Contact :

Ple de Sant Publique


03 20 44 55 18
Biostatistiques : Petits effectifs

20/09/2012