Vous êtes sur la page 1sur 4

Bio2042 Transformation de donnes 1

Transformation de donnes: normalisation,


stabilisation des variances
Daniel Borcard
Dpartement de sciences biologiques
Universit de Montral
Rfrence: Legendre & Legendre 1998: paragraphe 1.5.6; 1984: p. 16 et suivantes.
De nombreuses mthodes d'analyse statistique, et notamment le
puissant groupe des statistiques paramtriques, se basent sur
l'hypothse de normalit: la distribution de frquences de certaines
variables utilises est suppose conforme la loi normale.
Malheureusement, cette conformit n'est souvent pas assure dans le
cas des donnes cologiques brutes. Le chercheur a donc deux choix
possibles: soit il a recours des mthodes statistiques qui ne requirent
pas la normalit des donnes (comme les mthodes non-
paramtriques, ou les permutations, lorsqu'il y en a de disponibles pour
raliser l'analyse souhaite), soit il normalise ses donnes. Le type de
transformation normalisatrice choisi dpend de l'allure de la
distribution de frquences des donnes brutes.
Il faut aussi remarquer que les transformations normalisatrices
courantes possdent la proprit importante de rduire
l'htroscdasticit des donnes, c'est--dire de stabiliser leur
variance (en d'autres mots encore, de rendre leur variance
indpendante de la moyenne et plus constante sur l'ensemble de
l'chantillon).
Enfin, et pour garder un certain ralisme, il y a bien des situations dans
lesquelles la normalisation complte (avec test l'appui) s'avre
impossible, mais o on peut se satisfaire de rendre la distribution de
frquence symtrique (pour autant que l'aplatissement ne soit pas trop
prononc).
Les quelques transformations les plus courantes sont voques ci-
dessous.
Bio2042 Transformation de donnes 2
Un cas typique de donnes asymtriques est celui des abondances
d'espces. De telles donnes sont souvent composes de quelques
observations o une espce est trs abondante, un nombre plus lev
d'observations o l'espce est bien reprsente, un nombre encore plus
lev o l'espce est faiblement reprsente, et de nombreuses
observations o l'espce est absente. Une telle distribution est
videmment asymtrique. On peut tenter de normaliser de telles
donnes par plusieurs formules, suivant la "gravit" de l'asymtrie:
Donnes suivant une distribution de Poisson: les donnes de ce
type prsentent deux caractristiques gnantes: leur distribution est
asymtrique, et la variance est gale la moyenne. Pour les normaliser,
on a recours la racine carre:
y' = ( y + c)
La constante c n'est utilise que s'il y a des valeurs ngatives dans les
donnes (donc pas dans le cas d'abondances d'espces!).
Exemple: comptages d'insectes diptres syrphides migrateurs au col de
Bretolet (Suisse). Une heure de comptage est considre comme une
observation. A gauche: donnes brutes; droite: donnes transformes
par la racine carre. La courbe normale est indique pour comparaison.
Bio2042 Transformation de donnes 3
Donnes suivant une distribution contagieuse: ce type de donnes
est trs courant en cologie, puisque la plupart des organismes vivants
prsentent une rpartition agrge. Les donnes suivent alors une
distribution lognormale ou une distribution binomiale ngative.
Malheureusement, la normalisation est souvent difficile en raison d'un
nombre excessif de zros. Les distributions de frquences des donnes
brutes sont fortement asymtriques droite: les classes reprsentant
les valeurs faibles (de zro quelques individus pour des comptages
d'effectifs) sont trs surreprsentes, et quelques lments contiennent
un trs grand nombre d'individus. On peut tenter plusieurs
transformations, les plus communment appliques tant la racine
carre ci-dessus et la transformation logarithmique:
y' = ln(y + c)
La constante c est cette fois utilise s'il y a des valeurs ngatives ou
nulles dans les donnes.
Exemple: dnombrements de l'acarien oribate Oppiella nova dans 70
prlvements de sphaignes au bord du lac Geai (Qubec). On constate
que mme la transformation ln(y+1) n'a pas suffi rendre la
distribution compltement symtrique.
D'autres transformations peuvent aussi tre tentes, comme la racine
cubique, ou le log au carr.
Bio2042 Transformation de donnes 4
Mthode de Box-Cox: lorsqu'il n'y a pas de raison a priori pour
choisir l'une ou l'autre de ces transformations, ces auteurs ont propos
une formule gnrale dont l'exposant gamma peut tre ajust par
itrations pour obtenir la meilleure transformation possible:
y' =
(y 1)
(si 0)
y
'
= ln( y) (si = 0)
Cette mthode, qu'on ne peut pas appliquer la main, est disponible
en langage R (fonction boxcox). D'autres informations son sujet, et
notamment des dtails de calcul, figurent dans Legendre et Legendre
(1984, p. 16-20; 1998: p. 39-45).
Donnes exprimes en proportions ou pourcentages: dans de telles
donnes, la variance dpend toujours de la moyenne. Pour de telles
donnes, qui sont souvent platykurtiques (trop tales), on peut avoir
recours la transformation arc-sinus de la racine carre (les donnes
brutes tant exprimes en valeurs p de 0 1):
p' = arcsin p
Exemple (tir de Sokal & Rohlf, 1981): donnes de fertilit d'oeufs de
la souche CP de Drosophila melanogaster, levs dans 100 tubes de
10 oeufs chacun: