Vous êtes sur la page 1sur 45

Bio-2042

Analyse multidimensionnelle

Introduction l'analyse multidimensionnelle


Daniel Borcard, Dp. de sciences biologiques, Universit de Montral
Rfrences:

Legendre, P. & L. Legendre. 1998. Numerical ecology. Second English


Edition. Elsevier, Amsterdam. normes changements depuis l'ancienne
dition (1984) en franais.
Scherrer, B. 2009. Biostatistique, volume 2, chapitre 25. Gatan Morin-Chenelire,
Montral.
Jongman, R. H. G., C. J. F. ter Braak & O. F. R. van Tongeren. 1995. Data analysis in
community and landscape ecology. Cambridge University Press, Cambridge.

Dfinition
cologie numrique: domaine de l'cologie quantitative qui traite de
l'analyse numrique des complexes de donnes (surtout dans un
contexte syncologique) (Legendre & Legendre, 1984). La plupart
des mthodes sont multivariables ou multidimensionnelles (voir cidessous). Contrairement la biostatistique, lcologie numrique (...)
combine systmatiquement les mthodes statistiques appropries
lcologie avec des techniques numriques non statistiques
(groupements, etc.), ceci trs souvent sans rfrence des distributions
thoriques (tests statistiques) (Legendre & Legendre, 1984).
Ajoutons quune partie importante des mthodes dcologie
numrique, particulirement dans les approches nouvelles labores
depuis les annes 1980, a t conue et mise au point par des
cologistes (et non des statisticiens purs) en fonction de
problmatiques spcifiques lcologie.
Analyse multivariable, analyse multidimensionnelle: ensemble de
mthodes d'analyse numrique traitant en bloc de tableaux de donnes
o chaque observation, chaque lment dchantillonnage est dfini
par plusieurs variables: abondances despces, mesures de climat,
etc.

Bio-2042

Analyse multidimensionnelle

1. Les donnes
En lieu et place de variables dpendantes prises isolment les unes des
autres, l'analyse multivariable traite de tableaux de donnes. Le
tableau de donnes de l'cologiste est en gnral une matrice
rectangulaire de la forme suivante:
Descripteurs
Variable 1

Variable 2

Variable j

Variable p

Objets
Objet 1
Objet 2
.
Objet i
.
Objet n

y11
y21

y12
y22

...
...

y1j
y2j

...
...

y1p
y2p

yi1

yi2

...

yij

...

yip

yn1

yn2

...

ynj

...

ynp

L'archtype du tableau de donnes cologiques est celui o les


variables sont des espces (reprsentes par des prsences-absences,
des abondances ou toute forme approprie de codage numrique) et
o les objets (observations) sont des prlvements, relevs, piges, etc.
Un tel tableau peut aussi tre constitu de variables
environnementales (mesures de climat, de physico-chimie, etc.) qui
serviront soit expliquer la variation d'un tableau d'espces, soit
caractriser une srie de sites sur le plan cologique.
Enfin, une variante de ce tableau de variables explicatives contient les
coordonnes gographiques des sites o d'autres variables ont t
mesures.

Bio-2042

Analyse multidimensionnelle

Descripteurs
Espces
p

Variables
spatiales
1
l

Objets

Variables
environnementales
1
m

Figure 1: les matrices de donnes de l'cologiste


Les buts des mthodes voques dans ce document sont:
- la mesure de la ressemblance entre les objets ou les variables d'un
tableau de donnes;
- le groupement des objets ou des variables selon ces ressemblances;
- l'ordination des objets et/ou des variables dans un espace rduit
permettant de faire ressortir leurs structures principales (gradients
notamment);
- la modlisation des relations entre des tableaux de donnes
expliquer et des ensembles de variables explicatives;
- le test de ces relations.

Bio-2042

Analyse multidimensionnelle

2. Matrices et mesures d'association


2.1 Matrices d'association
La grande majorit des mthodes d'analyse multivariable passent par
une comparaison de toutes les paires possibles d'objets ou de
descripteurs.
Lorsqu'on compare entre eux les paires d'objets, on parle d'analyse en
mode Q.
Lorsqu'on compare entre eux les paires de descripteurs, on parle
d'analyse en mode R.
Cette distinction est importante car la comparaison est fonde sur des
indices d'association, et que ces indices ne sont pas les mmes en
mode Q et en mode R.
En mode Q, les indices utiliss mesurent la similarit ou la distance
entre les paires d'objets. Exemple: distance euclidienne. En mode R,
on utilise plutt des coefficients de dpendance entre les variables, tels
que la covariance ou la corrlation.
L'ensemble des comparaisons de paires d'objets ou de descripteurs
forme une matrice d'association carre et symtrique, de dimension
n n (mode Q) ou p p (mode R):

a 11

Mode Q
a 1i
a 1n

a 11

Mode R
a 1j

a 1p

Ann = a i1

a ii

a in

A pp = a j1

a jj

a jp

a n1

a ni

a nn

a p1

a pj

a pp

Figure 2: matrices d'association.

Bio-2042

Analyse multidimensionnelle

Chaque valeur d'une de ces matrices fournit une comparaison entre


deux objets ou descripteurs dont la position dans la matrice de
donnes brutes est fournie par les lettres en indices: ain est la mesure
de la comparaison de l'objet i avec l'objet n. Les matrices
d'association sont symtriques car ain = ani . Les valeurs situes sur la
diagonale comparent les objets ou descripteurs avec eux-mmes. En
mode Q, la diagonale est en gnral compose de 0 (lorsque l'indice
est une distance) ou de 1 (lorsque l'indice est une similarit). En mode
R, la diagonale fournit une mesure de dpendance d'une variable avec
elle-mme: par exemple valeur de 1 si la mesure de dpendance est
une corrlation, ou variance si la mesure de dpendance est la
covariance.
Toute l'information pertinente d'une matrice d'association est donc
prsente dans le triangle situ au-dessus ou au-dessous de la
diagonale (sans cette dernire). Le nombre de comparaisons de toutes
les paires de n objets s'lve donc n(n1)/2.
2.2. Types de descripteurs
Avant de passer en revue les catgories d'indices d'association, il faut
prciser quels types mathmatiques de variables ces indices
s'appliqueront. La figure 3 ci-dessous rsume ces types sous forme
d'une hirarchie de complexit partant du type binaire (le plus simple:
1-0, oui-non, prsent-absent, ouvert-ferm...) au type quantitatif
continu. En analyse de donnes, on peut simplifier l'information
disposition (ex.: transformer des donnes d'abondances d'espces en
donnes de prsence-absence), mais pas l'inverse. Mais il arrive
souvent aussi que l'information dsire par les chercheurs puisse tre
obtenue sans que les variables soient mesures avec le maximum de
prcision possible. Trs souvent, un grand nombre d'objets mesurs
avec une certaine imprcision vaut mieux qu'un petit nombre d'objets
mesurs avec une prcision leve.

Bio-2042

Analyse multidimensionnelle

Binaires: 1 - 0 prsent - absent

Esp. 1 Esp. 2 Esp. 3

Description "espce prsente": 1


Descripteur
"espce"

Description "espce absente": 0

Relev
1
Relev
2
Relev
3

Multiples: - non-ordonns, nominaux : ex. couleurs, type de sol...


- ordonns: - semi-quantitatifs, ordinaux, de rang, : ex. classes de taille (010 cm, 10-50 cm, plus de 50 cm...), rang dans une course.

Classe de taille 1
Classe de taille 2
Classe de taille 3
- quantitatifs: - discontinus (ex.: nombre de personnes dans cette
salle, nb. d'individus par espce...
Esp. 1 Esp. 2 Esp. 3
Relev
1
Relev
2
Relev
3

12

18

56

- continus (ex.: temprature, longueur, ...)

Figure 3: types mathmatiques de descripteurs utiliss en cologie.

Bio-2042

Analyse multidimensionnelle

2.3. Le problme du double zro


Dans les paragraphes qui suivent, les mesures d'association seront
groupes en catgories en fonction du type d'objets ou de variables
auxquelles elles sont destines. Avant de faire cette revue, il faut
mentionner un problme relatif la comparaison d'objets lorsqu'un
descripteur donn a la valeur "zro" dans les deux objets.
Dans certains cas en effet, cette valeur possde la mme signification
que toute autre valeur de lchelle de mesure du descripteur.
Labsence (0 mg/L) doxygne dissous dans les couches profondes de
deux lacs est une information pleine de sens cologique, et ce sens est
le mme dans les deux lacs. On peut donc se servir de ces deux 0 pour
comparer les conditions cologiques des deux lacs.
Par contre, la valeur zro dans une matrice dabondances
despces est beaucoup plus difficile interprter. La prsence dune
espce dans un milieu donn implique lexistence dun ensemble
minimal de conditions permettant la survie de lespce en question (les
dimensions de sa niche cologique). Labsence de cette espce dun
prlvement ou relev peut en revanche tre due plusieurs causes
diffrentes: la niche de lespce peut tre occupe par une espce de
remplacement, ou labsence de lespce est due de mauvaises
conditions sur nimporte laquelle des dimensions (facteurs cologiques
importants) de sa niche, ou une variation purement stochastique de
distribution, ou encore lespce ne sest pas disperse rgulirement
sur le territoire tudi. Linformation prsence est donc plus
prcise et mieux interprtable que linformation absence.
C'est la raison pour laquelle on peut distinguer deux classes dindices
dassociation sur la base de ce problme: les indices symtriques, qui
considrent le double zro comme une ressemblance (au mme titre
que dautres identits de valeurs), et les indices asymtriques.
Lorsquon analyse des donnes dabondances despces, il est
prfrable dutiliser des indices asymtriques.

Bio-2042

Analyse multidimensionnelle

Les paragraphes qui suivent passent en revue les principales catgories


d'indices avec quelques exemples. Pour un expos complet et des cls
permettant de choisir un indice appropri une situation donne, voir
Legendre & Legendre (1998), ou encore le progiciel R d'analyse de
donnes de Legendre, Casgrain et Vaudor l'adresse web suivante:
<http://www.bio.umontreal.ca/legendre/> (ne pas confondre avec le
langage R!). De nombreux indices sont disponibles dans diverses
librairies du langage R (vegan, ade4...). Le choix d'un indice
appropri est fondamental, car toute analyse ultrieure se fera
sur la matrice d'association qui en rsulte.

2.4. Mesure de la ressemblance: mode Q


Les indices les plus frquemment utiliss pour comparer des objets
sont des indices de similarit ou de distance. En fonction des autres
caractristiques de variables exposs plus haut, on peut en outre les
classer sous la forme suivante:

indices symtriques
binaires

indices asymtriques

Donnes
quantitatives

indices symtriques
indices asymtriques

Figure 4: types d'indices d'association en mode Q.

Bio-2042

Analyse multidimensionnelle

2.4.1. Indices de similarit binaires symtriques


Cette expression signifie que les indices de cette catgorie traitent de
donnes binaires (et non que la valeur elle-mme des indices est
binaire) et que ces indices traitent un double zro de la mme manire
qu'un double 1. Le plus typique reprsentant de cette catgorie est
l'indice de simple concordance S1 [cette numrotation est celle de
Legendre & Legendre (1998)]. Il se construit de la manire suivante:
Var.1 Var.2 Var.3 Var.4 Var.5 Var.6
Obj.1 1
1
0
0
1
0
Obj.2 1
0
1
0
0
1

a+d
S1 =
a+b+c+d
Figure 5: construction de l'indice de simple concordance S1.
a reprsente les descripteurs pour lesquels les deux objets sont cods
1, d ceux o les deux objets sont cods 0, b et c ceux o l'un des
objets est cod 1 et l'autre 0. (a + b + c + d) = le nombre total de
descripteurs. On peut aussi reprsenter cela sous la forme d'un tableau
double entre:

Bio-2042

Analyse multidimensionnelle

10

Dans l'exemple ci-dessus, l'indice vaut donc:


S1 = (1+1)/(1+2+2+1) = 2/6 = 0.333
et signifie que 2 des 6 descripteurs, soit un tiers, ont la mme valeur (0
ou 1) pour les deux objets considrs.
Il existe une variante de l'indice de simple concordance o les
variables sont multiclasses au lieu d'tre binaires. L'indice fait le
rapport entre le nombre de descripteurs ayant le mme tat pour les
deux objets et le nombre total de descripteurs.
Cet indice et les autres de cette catgorie servent comparer des
objets sur la base de descripteurs binaires autres que les prsencesabsences d'espces.
2.4.2. Indices de similarit binaires asymtriques
Cette catgorie, qui forme le pendant de la prcdente, est destine
comparer des objets sur la base de prsence-absence d'espces. Les
formules sont du mme type que ci-dessus, mais ne font pas intervenir
la case d (doubles zros). Les indices les plus connus sont celui de
Jaccard (S7) et celui de Srensen (S8):

Bio-2042

Analyse multidimensionnelle

11

a
a+b +c
2a
S8 =
2a + b + c
S7 =

L'utilisation de ces deux indices est trs rpandue tant en botanique


qu'en zoologie.
2.4.3. Indices de similarit quantitatifs symtriques
Certains indices de cette catgorie sont intressants parce qu'ils
permettent de comparer au sein d'un mme coefficient des
descripteurs de types mathmatiques diffrents. Le truc consiste, pour
chaque paire d'objets, calculer des similarits partielles pour chaque
descripteur, puis de faire la moyenne des similarits obtenues. Parmi
les indices de ce genre, citons l'indice d'Estabrook & Rogers (S16 ) et
l'indice de Gower (S15 ).
2.4.4. Indices de similarit quantitatifs asymtriques
Cette catgorie, destine aux donnes d'abondances d'espces, recle
plusieurs indices frquemment utiliss. Mentionnons-en deux: l'indice
de Steinhaus S17 , et la similarit du khi-carr, S21 .
Le S17 , pour deux objets, compare pour chaque espce la plus petite
des abondances la moyenne des deux objets:
S17 =

W
2W
=
( A + B) 2 A + B

Exemple:

Bio-2042

Analyse multidimensionnelle

Abondance des espces

S17 =

Objet 1
Objet 2

70
64

3
4

4
7

5
4

1
3

Minima

64

12

83
82
76

2 76
= 0.921
83 + 82

Il faut remarquer que, par construction, l'indice S17 donne la mme


importance une diffrence d'abondance quel que soit le nombre
absolu d'individus. Donc, une diffrence entre 364 et 368 individus a la
mme importance qu'une diffrence entre 4 et 8 individus.
cologiquement, cela semble difficile justifier: la diffrence relative
est plus importante lorsque les abondances sont faibles. C'est pourquoi
on applique souvent l'indice de Steinhaus sur des donnes
transformes en logarithmes. Cet indice est aussi trs connu sous la
forme d'une distance, la distance de Bray-Curtis D14 = 1 S17 .
La similarit du khi-carr (S21 ) est apparente au khi-carr des
tableaux de contingence. Le tableau d'abondances d'espces est
transform en profils de probabilit conditionnelle, on calcule ensuite
une distance euclidienne pondre entre toutes les paires d'objets du
tableau, puis on prend la rciproque (S21 = 1D15 ) de ces distances. Le
calcul dtaill est prsent dans Legendre & Legendre (1998).

Bio-2042

Analyse multidimensionnelle

13

2.4.5. Mesures de distance en mode Q


2.4.5.1 Mesures de distance pour descripteurs qualitatifs ou binaires
Tous les coefficients de similarit peuvent tre transforms en
distances par lun ou lautre des procds suivants:
D = 1 S

D = 1 S2

D = 1 S

D = 1 S Smax

Ces conversions fournissent tous les indices appropris dans le cas des
indices portant sur des descripteurs qualitatifs ou binaires.
2.4.5.2 Mesures de distance pour descripteurs quantitatifs
Au contraire des mesures de similarit, les mesures de distance
accordent une valeur maximale deux objets compltement diffrents
et minimale (0) deux objets identiques. On distingue deux catgories
principales dindices de distance selon leurs proprits gomtriques:
- les mtriques, qui obissent aux quatre proprits suivantes:
1. Si a = b alors D(a,b) = 0
2. Si a b alors D(a,b) > 0
3. D(a,b) = D(b,a)
4. D(a,b) + D(b,c) D(a,c)
- les semi-mtriques, qui nobissent pas la quatrime proprit cidessus, et quon ne peut donc positionner correctement dans un
espace euclidien (comme on cherche le faire en analyse des
coordonnes principales, voir plus loin).
Le plus vident des indices de distance mtriques est la distance
euclidienne (D1). Chaque descripteur est considr comme une
dimension dans un espace euclidien, les objets sont positionns dans

Bio-2042

Analyse multidimensionnelle

14

cet espace en fonction de la valeur prise par chaque descripteur, et la


distance euclidienne se mesure selon le thorme de Pythagore:
D1 (x1 , x2 ) =

2
y

y
(
)
1j 2 j
j =1

Cette mesure na pas de borne suprieure. De plus, ses valeurs


saccroissent avec le nombre de descripteurs, et surtout la distance
varie avec lchelle de chacun des descripteurs. Cest pour cette
dernire raison quon calcule frquemment la distance euclidienne
aprs centrage et rduction des variables. Cette pratique existe
aussi en analyse en composantes principales (voir plus loin), qui
prserve la distance euclidienne entre objets. Attention, la distance
euclidienne D1 tient compte des doubles zros, ce qui la rend
inapproprie pour des donnes d'abondances d'espces brutes.
Plusieurs variantes de D1 ont t proposes pour pallier l'un ou
l'autre de ses inconvnients. Citons D3, la distance de corde, qui
calcule une distance euclidienne entre objets aprs avoir norm les
vecteurs-objets 1. Cette astuce rend D3 insensible aux doubles zros,
et approprie aux donnes d'abondances d'espces.
Une autre distance mtrique sera aborde plus loin pour son intrt en
relation avec les abondances d'espces. Il s'agit de la distance de
Hellinger D17 . On peut la comprendre comme la distance euclidienne
entre les sites, ces derniers tant reprsents par la racine carre des
frquences relatives de chaque espce.
Enfin, parmi les coefficients de distance semi-mtriques, le plus utilis
est D14 , la distance de Bray & Curtis, qui est la rciproque de la
similarit de Steinhaus: D14 = 1S17 .

Bio-2042

Analyse multidimensionnelle

15

2.5. Mesure de dpendance: mode R


Lorsqu'on compare des descripteurs entre eux sur la base de leurs
valeurs dans une srie d'objets, on cherche en gnral dcrire la
manire dont ces descripteurs varient l'un par rapport l'autre.
Lorsque les variables sont quantitatives, cette information peut tre
mesure par la covariance ou la corrlation linaire.
Lorsque les variables sont semi-quantitatives, et/ou qu'on recherche
des relations monotones mais pas forcment linaires, on utilise les
coefficients de corrlation non paramtriques (rho de Spearman, tau
de Kendall).
L'analyse de la dpendance entre descripteurs qualitatifs (nonordonns) passe par des tableaux de contingence. Le coefficient de
base de ces tableaux est le khi-carr.
2.6. Abondances d'espces: les associations biologiques
Les abondances d'espces posent les mmes problmes en mode Q et
R: que faire des doubles absences (doubles zros) dont on sait qu'ils
ne constituent pas, dans ce cas, une base solide de comparaison?
Les doubles absences sont frquentes dans les communauts
biologiques car beaucoup d'espces sont rares et peu sont dominantes.
Comme on veut en gnral fonder la recherche des associations
biologiques sur la totalit des espces d'un groupe taxonomique, la
matrice de base va contenir un grand nombre de zros. Par
consquent, les mesures de dpendance entre espces, sur lesquelles
sera tablie la recherche des associations biologiques, seront bases sur
un grand nombre de paires de zros. Or, le double zro ne permet par
une interprtation cologique aussi claire que la double prsence.
Avec des donnes d'espces quantitatives, il n'est pas recommand
d'utiliser les coefficients de covariance ou de corrlation de Pearson
car ceux-ci n'liminent pas les doubles zros. On peut y remdier en

Bio-2042

Analyse multidimensionnelle

16

liminant de l'tude les espces peu frquentes, en liminant les zros


des comparaisons (en les dclarant comme information manquante),
ou en liminant les doubles zros seulement des calculs de covariance
ou de corrlation (ce que proposent certains logiciels). De plus, les
coefficients de covariance ou de corrlation recherchent les relations
linaires entre les fluctuations d'abondance d'espces, si bien que si
deux espces sont toujours prsentes ensemble mais sans relation
linaire d'abondance, ces deux coefficients n'indiqueront pas de
relation. De faon analogue, les corrlations de Spearman et de
Kendall supposent une variation monotone des rangs.
Une autre mthode repose sur lusage du coefficient S21 , qui peut
sappliquer autant en mode R quen mode Q. Une autre solution
encore consiste appliquer le coefficient probabiliste de Goodall (S23 ),
en mode R, aux abondances d'espces. On obtient ainsi une limite
objective aux associations. On peut aussi raliser un groupement sur
des cooordonnes d'espces obtenues par une ordination approprie,
p.ex. une analyse factorielle des correspondances AFC (voir plus loin).
On peut parfois se satisfaire de dfinir les associations biologiques sur
la base de la co-occurrence d'espces plutt qu' partir de la
corrlation entre les fluctuations d'abondances d'espces. En effet, les
donnes quantitatives peuvent ne pas reflter les vrais proportions
entre les espces dans le milieu (problme d'chantillonnage,
d'identification des espces, de dfinition de la notion d'individu, etc.).
Ainsi, il est parfois prfrable de travailler en prsence-absence et avec
des coefficients qui excluent les doubles zros: Jaccard (S7) ou
Srensen (S8) (les seules mesures de similarit binaires tre utilises
en mode R), Fager (S24 ), ou le coefficient probabiliste de Krylov (S25 ).

Bio-2042

Analyse multidimensionnelle

17

3. Groupement
3.1. Aperu gnral
Le groupement ( clustering en anglais) est une analyse
multidimensionnelle qui vise partitionner lensemble des objets (ou
des descripteurs, pour le mode R). Une partition est une division de
lensemble en sous-ensembles, telle que chaque objet (ou descripteur)
appartienne une et une seule sous-collection (les groupes sont
mutuellement exclusifs: par exemple, une espce ne peut appartenir
deux genres en mme temps).
Dans la grande majorit des cas, les mthodes de groupement oprent
partir de matrices dassociation (similarit, distance ou
dpendance), do la ncessit de choisir une mesure de ressemblance
approprie.
On peut classer ainsi les grandes familles de mthodes de groupement:
1. Algorithmes squentiels ou simultans. La plupart des mthodes sont
squentielles et consistent en la rptition dune procdure donne jusqu ce que tous les
objets aient trouv leur place: recherche des deux objets les plus proches, puis du troisime
ou dune autre paire, et ainsi de suite, ou division en deux groupes, puis en 4... Les
algorithmes simultans, au contraire, sont ceux o lon arrive la solution en une seule
tape de calcul.

2. Agglomration ou division.

Parmi les procdures squentielles, les mthodes


agglomratives prennent pour point de dpart la collection des objets spars, pour les
regrouper progressivement jusqu ce que larbre soit form jusquau tronc. Les
mthodes de division partent au contraire de l'ensemble complet dobjets et le sparent en
sous-groupes de plus en plus petits jusqu obtention des objets spars. Dans les deux cas,
on dcide de retenir le niveau de partition le plus informatif dans le cadre de ltude: deux
groupes suffisent parfois, mais souvent il en faut davantage.

3. Mthodes monothtiques ou polythtiques.

Les algorithmes de groupement


par division peuvent procder chaque tape en choisissant un descripteur, le plus

Bio-2042

Analyse multidimensionnelle

18

appropri cette tape-l (mthode monothtique), ou partir dune matrice dassociation


base sur une combinaison de plusieurs descripteurs (comme cest le plus souvent le cas).

4. Mthodes hirarchiques ou non.

Une mthode hirarchique forme de petits


ensembles, qui se regroupent en units plus vastes, elles-mmes membres de groupes de
rang encore suprieur, etc. Exemple: espce - genre - famille - ordre. Les mthodes nonhirarchiques, elles, produisent une seule partition qui optimise lhomognit intragroupe.
Par exemple, on produit 2, 5 ou 10 groupes de telle manire que la somme des variances de
tous les groupes soit minimale, ce qui est ralis si les objets sont groups de manire ce
que les plus proches soient dans le mme groupe.

5. Mthodes probabilistes ou non.

Certaines mthodes procdent en recherchant


des groupes dont la matrice dassociation intragroupe a une certaine probabilit dtre
homogne. Cette approche est parfois utilise pour la recherche dassociations despces
(Legendre & Legendre, 1998).

3.2. Groupement agglomratif hirarchique liens simples


Cette mthode, intuitivement la plus simple, est appele single linkage
clustering ou nearest neighbour clustering en anglais. Elle procde,
partir dune matrice de similarits ou de distances, de la manire
suivante (voir lexemple plus bas):
1. Classement de la matrice dassociation en ordre dcroissant des
similarits (ou croissant des distances).
2. Formation des groupes de faon hirarchique: la premire ligne de
la matrice classe groupe les deux objets les plus proches, la ligne
suivante forme un nouveau groupe (si elle contient deux nouveaux
objets) ou sagglomre la premire (si un des objets figure sur la
ligne du dessus), et ainsi de suite. A mesure que la similarit diminue
(ou que la distance crot), les objets se regroupent et les groupes se
lient les uns aux autres.
Le tableau ci-dessous reprsente la matrice des distances euclidiennes
(D1) entre 5 objets fictifs (calcule par exemple sur la base de mesures

Bio-2042

Analyse multidimensionnelle

19

physico-chimiques du sol, centres et rduites) et servira de base pour


les exemples de calcul de groupements:
______________________________________________________________

1
2
3
4

0.20

0.25
0.40

0.45
0.35
0.30

0.80
0.50
0.60
0.70

______________________________________________________________

Premire tape du groupement liens simples: on rcrit ce fichier en


ordre de distances croissantes (avec les paires dobjets
correspondants):
________________________________________
D1
Paires formes
________________________________________
0.20
1-2
0.25
1-3
0.30
3-4
0.35
2-4
0.40
2-3
0.45
1-4
0.50
2-5
0.60
3-5
0.70
4-5
0.80
1-5

Bio-2042

Analyse multidimensionnelle

20

Deuxime tape: on forme les groupes en tendant progressivement la


distance:
a. Premier groupe se former: paire 1 - 2, la distance 0.2.
b. Lobjet 3 rejoint le groupe ci-dessus la distance 0.25.
c. Lobjet 4 rejoint le groupe ci-dessus la distance 0.30.
d. Lobjet 5 rejoint le groupe la distance 0.50.
Le nom de groupement liens simples vient du fait que
lassignation dun objet un groupe un niveau de similarit donn
ncessite seulement que cet objet prsente une affinit avec un des
membres du groupe la similarit considre. On verra plus loin que
les liens complets exigent au contraire une similarit suffisante avec
tous les membres du groupe.
Classiquement, le rsultat dun groupement hirarchique est reprsent
sous la forme dun dendrogramme. Celui de notre exemple se
prsentera comme suit:
Liaison proportionnelle
0.0

0.1

0.2

Connexit 0.000
0.3

0.4

0.5

1
2
3
4
5
Figure 7: Dendrogramme du groupement liens simples de lexemple
ci-dessus.
Lchelle
reprsente
les
distances.
Liaison
proportionnelle et connexit: voir texte.

Bio-2042

Analyse multidimensionnelle

21

3.3. Groupement agglomratif hirarchique liens complets


Au contraire de celle qui prcde, cette mthode (appele complete
linkage ou furthest neighbour sorting en anglais) demande quun
objet ne rejoigne un groupe que lorsquil est li au membre le plus
distant du groupe (donc, a fortiori, tous les membres du groupe). De
mme, pour quun groupe fusionne avec un autre, il faut que tous ses
membres soient lis tous ceux de lautre la distance (ou similarit)
considre.
En reprenant lexemple fictif ci-dessus, on procde de la manire
suivante:
Premire tape: criture du fichier de distances en ordre croissant
(comme avec les liens simples).
Deuxime tape: groupement selon le critre nonc ci-dessus:
a. Premier groupe se former: paire 1 - 2, la distance 0.20.
b. Un deuxime groupe se forme, indpendant du premier: paire 3 - 4,
distance 0.30. En effet, aucun des deux objets 3 ou 4 nest distance
plus faible du plus loign des membres du groupe 1 - 2 (3 est certes
0.25 de 1, mais 0.40 de 2).
c. La fusion de ces deux paires ne peut soprer quau niveau ou les
plus loigns des objets se rejoignent. Ici, lensemble des quatre objets
ont entre eux des distances infrieures ou gales 0.45. Cest donc
ce niveau que les groupes fusionnent.
d. Lobjet 5 ne peut fusionner que lorsquil est li tous les membres
du groupe dj form, cest dire au niveau 0.80.
Le dendrogramme reprsentant ce groupement a donc une allure bien
diffrente du prcdent (fig. 8):

Bio-2042

Analyse multidimensionnelle

Liaison proportionnelle
0.0

0.1

0.2

0.3

0.4

22

Connexit 1.000
0.5

0.6

0.7

1
2
3
4
5
Figure 8: Dendrogramme du groupement liens complets de
lexemple ci-dessus. Lchelle reprsente les distances.
La comparaison entre les deux dendrogrammes rvle la diffrence de
philosophie et de rsultats des deux mthodes: le groupement liens
simples permet un objet de rejoindre facilement un groupe, puisquil
suffit quil soit li un seul membre de ce groupe (on pourrait dire que
ladmission fonctionne par parrainage par un seul membre du
groupe!). Il sensuit une tendance produire des enchanements: une
paire se forme, bientt rejointe par un objet, puis par un autre, etc.
Cette proprit rend la mthode intressante pour mettre en vidence
des gradients (l'ordination, vue au chapitre prochain, est cependant
mieux adapte l'tude des gradients). Le groupement liens
complets, au contraire, est plus contraignant. Un groupe nadmet un
nouveau membre qu lunanimit, puisque le candidat doit tre li
tous les membres du groupe pour y entrer. Il sensuit aussi que plus
le groupe grandit, plus il est difficile dy entrer. On constate par
consquent la formation spare de plusieurs petits groupes (moins il
y a de membres, plus cest facile d'y entrer), qui ne se rejoignent qu
grande distance (ou faible similarit). Cette mthode est donc
particulirement propice pour trouver des sparations dans des
donnes a priori assez compactes. En dautre termes, la premire
mthode contracte lespace entre les objets, alors que la deuxime le
dilate.

Bio-2042

Analyse multidimensionnelle

23

3.4. Groupement agglomratif liens intermdiaires


Il sagit de tous les intermdiaires entre les deux extrmes ci-dessus:
on dfinit la proportion de liens (ou connexit) qui doivent tre
tablis entre un groupe et un candidat pour permettre ladmission de
ce dernier. Le progiciel R (P. Legendre, A. Vaudor et P. Casgrain)
nomme liaison proportionnelle cette solution intermdiaire, qui n'est
cependant pas disponible en langage R.
Ltude de cette famille de groupements montre que la mthode est
dune trs grande souplesse. Cette qualit pourrait (une fois de plus...)
faire penser quon fait dire aux donnes ce quon veut! En ralit, il
faut se souvenir des points suivants: 1. Il est indiqu de rflchir ce
quon veut avant de faire le groupement (au moins dans les grandes
lignes). Gradient? Groupes trs contrasts? Juste milieu? 2. Quelle
que soit la mthode choisie, les structures dgages figurent bel et
bien dans la matrice dassociation utilise. Il faut donc sassurer que
la matrice dassociation possde les proprits dsires, et choisir une
mthode de groupement qui permettent de voir les donnes sous un
aspect intressant.
3.5. Groupement hirarchique agglomratif moyen
Les quatre mthodes de cette famille sont couramment utilises en
taxonomie numrique. Leur nom dans cette discipline est cit entre
parenthse dans le tableau ci-dessous. Ces mthodes ne se basent pas
sur le nombre de liens entre les groupes ou objets, mais plutt sur des
calculs de similarit moyenne ou de position moyenne des groupes et
objets. La diffrence entre elles rside dune part dans le calcul de la
position des groupes en formation (moyenne arithmtique contre
groupement centrode), et dautre part dans la pondration ou non de
ces groupes en fonction du nombre dobjets quils contiennent.
Schmatiquement:

Bio-2042

Analyse multidimensionnelle

24

Moyennes
arithmtiques
Poids gaux

Groupement selon
lassociation moyenne (UPGMA)

Poids ingaux

Groupement poids
proportionnels (WPGMA)

Groupement
centrode
Groupement
centrode (UPGMC)
Groupement
mdian (WPGMC)

Seul le calcul de la mthode UPGMA est montr ici. On se rfrera


aux ouvrages spcialiss pour le calcul des autres mthodes.
Groupement selon lassociation moyenne (UPGMA)
Appele group average sorting ou unweighted arithmetic average
clustering en anglais, cette technique doit tre utilise avec des
prcautions particulires si l'on veut en extrapoler le rsultat une
population statistique plus vaste que l'chantillon: en effet, les
asymtries intervenant dans les branchements des dendrogrammes ne
sont interprtables correctement que si lchantillonnage qui a servi
constituer la matrice dassociation est du type alatoire simple.
Cette mthode permet un objet de rejoindre un groupe au niveau de
la similarit (ou distance) moyenne de cet objet avec tous les membres
du groupe. Lorsque deux groupes fusionnent, ils le font au niveau de la
moyenne des similarits reliant chaque membre dun groupe ceux de
lautre. Dans cette mthode, tous les objets se voient attribuer le mme
poids. Dans notre exemple:
- les objets 1 et 2 fusionnent 0.20;

Bio-2042

Analyse multidimensionnelle

25

- lobjet 3 a une distance de 0.25 avec 1, et de 0.40 avec 2. La


moyenne de ces distances est de 0.325, soit plus grande que celle entre
3 et 4 (0.30). Ces deux derniers objets fusionnent donc 0.30 en un
groupe distinct;
- lobjet 5 tant trs loign du reste et ninterfrant pas encore, les
deux groupes 1 - 2 et 3 - 4 fusionnent au niveau moyen de leurs
distances intergroupes, soit [D1(1-3) + D1(1-4) + D1(2-3) + D1(24)]/4 = (0.25+0.45+0.40+0.35)/4 = 0.3625;
- selon le mme raisonnement, lobjet 5 rejoint le groupe la moyenne
de ses distances avec tous les membres du groupe dj form, soit
(0.50+0.60+0.70+0.80)/4 = 0.65.
Lance & Williams: Association moyenne
0.0

0.1

0.2

0.3

0.4

0.5

0.6

1
2
3
4
5
Figure 9: Dendrogramme du groupement selon lassociation moyenne
de lexemple.
Ce rapide survol n'inclut de loin pas toutes les mthodes de
groupement disponibles. Mais il montre au moins que, contrairement
ce qu'on pourrait imaginer, il existe de trs nombreuses manires
d'obtenir un groupement partir d'une matrice d'association, et que le
choix dpend des buts du chercheur.

Bio-2042

Analyse multidimensionnelle

26

4. Ordination en espace rduit


4.1. Gnralits
Au contraire du groupement, qui rvle d'ventuelles discontinuits
dans les donnes, l'ordination cherche plutt mettre en vidence des
gradients. Un expos technique de la manire de procder pour
obtenir une ordination dpasse le cadre de cette introduction. Nous
nous contenterons ici d'un survol des mthodes les plus courantes,
avec une explication intuitive de manire dont ces mthodes
procdent.
Si, dans une srie d'observations, on avait not les valeurs de deux
variables, on pourrait reprsenter les observations dans un espace dont
les deux dimensions seraient les deux variables:

Figure 10: ordination de 6 objets en fonction de 2 variables.

Bio-2042

Analyse multidimensionnelle

27

Une matrice de donnes brutes (p. ex. une matrice prlvements


mesures physico-chimiques) comprend en gnral beaucoup plus que
deux variables. Ds lors, il devient difficile, laborieux et peu informatif
de dessiner les objets dans une srie d'espaces dont les deux
dimensions reprsenteraient toutes les paires possibles de descripteurs.
P. ex. pour 10 descripteurs, le nombre de plans possibles serait gal
(10 9)/2 = 45. Cette faon de faire ne permettrait ni de dceler les
structures les plus importantes des donnes, ni de tenir compte des
relations entre descripteurs. De plus, les descripteurs ne sont pas
indpendants les uns des autres, de sorte que les paires de descripteurs
ne devraient pas tre reprsentes en un systme d'axes orthogonaux.
Les mthodes d'ordination ont pour but de projeter les donnes dans
un nombre rduit de dimensions orthogonales les unes aux autres,
reprsentant les principales tendances de variabilit (donc: les
principales structures) des donnes. On mentionnera ici quatre
techniques de base: l'analyse en composantes principales (ACP),
l'analyse factorielle des correspondances (AFC), l'analyse en
coordonnes principales (ACoP), et le cadrage multidimensionnel nonmtrique.
4.2. Analyse en composantes principales (ACP)
En anglais: principal component analysis (PCA). On se rappelle la
technique de rgression de modle II dite axe majeur, dans laquelle
on ajuste une droite de rgression dans un nuage de points comme
celui de la figure 10 ci-dessus, en minimisant les carrs des distances
orthogonales la droite de rgression. La droite obtenue est en fait le
grand axe d'une ellipse qui contient toutes les donnes. L'axe mineur,
lui, est l'axe perpendiculaire l'axe majeur et qui passe lui aussi par le
centrode des donnes.

Bio-2042

Analyse multidimensionnelle

28

Chacun de ces axes est (entre autres) caractris par une valeur
propre (1 et 2); ces valeurs propres mesurent la quantit de
variation du nuage de points absorb par l'axe correspondant.
Ce systme d'axes peut aussi tre vu comme un nouveau rfrentiel
dans lequel on peut exprimer les coordonnes des objets: on projette
les objets orthogonalement sur chacun des axes pour obtenir leurs
coordonnes sur les axes en question:

Figure 11: ACP des 6 objets de la figure 10.


Cette mthode peut tre tendue plus de deux variables et devient
l'analyse en composantes principales. Chaque objet est caractris
par p descripteurs. L'ellipse du systme deux dimensions ci-dessus
devient donc un hyperellipsode p dimensions, dont les axes
(orthogonaux les uns aux autres) sont de plus en plus courts;
autrement dit, l'importance de ces axes en termes de variation des

Bio-2042

Analyse multidimensionnelle

29

donnes va en dcroissant. Par consquent, cette mthode permet


d'amener sur quelques axes principaux les grandes tendances de
variation des donnes (reprsentes par les plus longs axes de
l'hyperellipsode).
La technique de l'analyse en composantes principales permet de
reprsenter les objets (observations) sous forme de points sur un
diagramme de dispersion, et aussi les descripteurs sous forme de
vecteurs.
Selon la variante de calcul choisie, l'ACP privilgie soit la
reprsentation des objets (cadrage de type 1: vecteurs propres
norms 1: la distance euclidienne entre objets est alors prserve),
soit la reprsentation des descripteurs (cadrage de type 2: vecteurs
propres norms i: les angles entre descripteurs dans l'espace
factoriel reprsente la corrlation entre eux):

Figure 12: ACP de la fig. 11 avec reprsentation des variables.


Cadrage de type 1.
L'analyse en composantes principales est trs utile pour l'ordination
d'objets dcrits par des variables environnementales. Trs souvent,
ces variables tant mesures dans des units diffrentes, on centre et
rduit les variables avant l'analyse (exception: si toutes les donnes
sont exprimes dans les mmes units, ce qui inclut les coordonnes
gographiques). Par contre, comme c'est la distance euclidienne qui est
prserve entre les objets, cette technique est mal adapte l'analyse

Bio-2042

Analyse multidimensionnelle

30

de tableaux d'abondances d'espces. Cependant, Legendre et


Gallagher (2001)1 ont montr qu'on peut transformer les
abondances d'espces brutes de manire ce que les donnes
transformes puissent tre utilises en ACP, et que la distance
prserve entre les objets soit approprie pour les abondances
d'espces: distance de corde, distance ou mtrique du khi-carr, profil
d'espces et distance de Hellinger. Ces transformations sont
disponibles dans la librairie vegan de R.
4.3. Analyse factorielle des correspondances (AFC)
En anglais: correspondence analysis (CA). L'analyse factorielle des
correspondances consiste en une ACP sur un tableau de donnes
transformes. Les donnes brutes sont d'abord converties en profils de
probabilit conditionnelle pondre (par le total des lignes et des
colonnes), et le tableau rsultant subit une ACP. Le rsultat est une
ordination dans laquelle c'est la distance du khi-carr entre les objets
qui est prserve (et non pas la distance euclidienne). La distance du
khi-carr ne tenant pas compte des doubles zros, l'AFC est une
mthode adapte l'analyse des tableaux d'abondances d'espces. Les
donnes pour une AFC doivent tre dimensionnellement homognes et
positives ou nulles.
Pour des questions techniques, l'AFC produit un axe de moins qu'il
n'y avait de variables. De plus, l'usage veut qu'on reprsente
graphiquement ses rsultats sous la forme d'un diagramme de
dispersion o objets et descripteurs sont reprsents par des points.
Ainsi, pour le tableau de l'exemple prcdent augment d'une
troisime espce:

Legendre, P. & Gallagher, E. D. 2001. Ecologically meaningful transformations for ordination of species
data. Oecologia 129: 271-280.

Bio-2042

Analyse multidimensionnelle

31

Esp.1 Esp.2 Esp.3


Obj.1
Obj.2

1
4

5
4

2
6

Obj.3
Obj.4

3
1

Obj.5

3
2

0
5

Obj.6

4
0

on obtient le diagramme suivant pour les deux axes factoriels de


l'AFC:

Figure 13: plan factoriel 1x2 de l'AFC du tableau 3 espces montr


plus haut. Cadrage de type 1.

Bio-2042

Analyse multidimensionnelle

32

En l'occurrence, les valeurs propres des axes factoriels valent


respectivement 0.2295 et 0.0857. L'inertie totale (somme de toutes les
valeurs propres; deux valeurs propres dans cet exemple) vaut donc
0.2295+0.0857=0.3152, ce qui reprsente une variation "absorbe" (=
reprsente) de
0.2295/0.3152=72.8% pour l'axe 1
0.0857/0.3152=27.2 % pour l'axe 2
De faon trs schmatique (mais voir Legendre & Legendre, 1998),
un tel diagramme d'AFC se lit comme une carte o les proximits
entre les points reprsentent des affinits ou ressemblances.
Cadrages: en ACP, AFC et leurs versions contraintes ACR et ACC,
(voir plus bas), il existe plusieurs manires de reprsenter les rsultats,
selon qu'on privilgie la reprsentation des objets ou celle des
variables. Voir le document complmentaire "Cadrages en ordination".
4.4. Analyse en coordonnes principales (ACoP)
En anglais: principal coordinate analysis (PCoA). Les deux mthodes
ci-dessus imposent la distance prserve entre objets: euclidienne pour
l'ACP (et quelques autres grce aux pr-transformations de Legendre
& Gallagher) et khi-carr pour l'AFC. Mais si l'on dsire faire une
ordination d'objets ou de descripteurs sur la base d'une autre mesure
d'association plus approprie au problme tudi, il faut avoir recours
l'analyse en coordonnes principales. Cette technique permet de
reprsenter au mieux les structures de toute matrice d'association dans
un espace euclidien. Lorsque la mesure d'association utilise est
mtrique et euclidienne, toute la variation peut tre reprsente dans
un ensemble d'axes en espace euclidien. Lorsque la mesure
d'association n'est pas euclidienne, seule une partie de sa variation
peut tre reprsente sous forme euclidienne par l'ACoP, le reste
prenant la forme de valeurs propres ngatives. Il existe des techniques
pour corriger ce problme, mais on sort du cadre de cette introduction.

Bio-2042

Analyse multidimensionnelle

33

Les axes factoriels d'une ACoP se lisent comme ceux d'une AFC,
ceci prs que, dans sa forme simple, l'ACoP ne permet pas la
reprsentation simultane des objets et des descripteurs. La fonction
wascores de vegan, ainsi que la fonction biplot.pcoa de la librairie
PCNM (Legendre et al.) permettent toutefois la projection des espces
dans le graphe des objets.
4.5. Cadrage multidimensionnel non-mtrique
En anglais: nonmetric multidimensional scaling (NMDS ou MDS).
Cette mthode cherche reprsenter dans un nombre rduit et
primpos d'axes les relations d'ordre entre les objets. Elle peut se
baser sur des indices non-mtriques, et peut mme s'accommoder de
valeurs de distances manquantes, pour autant qu'il y ait assez
d'information pour positionner un objet par rapport quelques autres.
Le cadrage des objets est ralis itrativement par minimisation d'une
fonction de stress. Pour un nombre donn et petit de dimensions (par
exemple 2 ou 3), le cadrage non-mtrique permet souvent de
reprsenter une matrice de distances avec moins de dformations que
l'analyse en coordonnes principales.
4.6. Ordination canonique: analyses canoniques de redondance et
des correspondances (ACR et ACC)
En anglais: (canonical) redundancy analysis (RDA) et canonical
correspondence analysis (CCA). Les mthodes passes en revue cidessus sont destines reprsenter la variation d'une matrice de
donnes en un nombre rduit d'axes. L'interprtation des structures
dgages se fait a posteriori, par exemple en corrlant les coordonnes
des objets sur les axes d'ordination avec des variables explicatives. Le
processus de lordination nest pas influenc par les variables
explicatives. On laisse la matrice de donnes sexprimer sans
contrainte. Cette dmarche est de type exploratoire, ou descriptif. On

Bio-2042

Analyse multidimensionnelle

34

peut aussi se servir d'un diagramme d'ordination pour dlimiter des


groupes d'espces ou d'objets (encore qu'il n'y ait pas de rgle
formelle pour dlimiter de tels groupes).
L'ACR et l'ACC, au contraire, mettent explicitement en relation deux
matrices: une matrice expliquer et une matrice de variables
explicatives. Cette approche participe donc la fois de
l'ordination et de la rgression multiple:
Donnes expliquer
1 variable
1 variable
p variables
p variables

Variables explicatives
1 variable
m variables
m variables

Type danalyse
Rgression simple
Rgression multiple
Ordination simple
Ordination canonique

L'analyse de redondance ACR est la version canonique de l'analyse


en composantes principales ACP.
L'analyse canonique des correspondances ACC est la version
canonique de l'analyse factorielle des correspondances AFC.
En ACR et en ACC, le processus d'ordination est directement
influenc par l'action d'un ensemble de variables explicatives:
l'ordination cherche les axes qui soient exprims le mieux possible
par une combinaison linaire des variables environnementales. En
dautres mots, cette mthode cherche la combinaison de variables
environnementales qui explique le mieux la variation (ou dispersion) de
la matrice espces. En gros, le calcul consiste d'abord rgresser
tour tour chaque variable rponse sur les variables explicatives. De
ces rgressions multiples on extrait les valeurs ajustes. On soumet
ensuite le tableau de valeurs ajustes une ACP (dans le cas de
l'ACR) ou une AFC (dans le cas de l'ACC).

Bio-2042

Analyse multidimensionnelle

35

Il s'agit donc d'un processus d'ordination sous contrainte. Par


rapport une ordination non contrainte, la diffrence est donc
importante: c'est la matrice de variables explicatives qui conditionne le
poids (valeurs propres), lorthogonalit et la direction des axes. De
plus, contrairement aux ordinations simples, on peut dire ici que les
axes expliquent la variation des donnes (au sens statistique du mot).
A l'issue du calcul, on obtient autant d'axes contraints qu'il y a de
variables explicatives, mais chacun de ces axes est une combinaison
linaire (un modle de rgression multiple!) de toutes les variables
explicatives. Un axe privilgiera l'influence d'une des variables, le
suivant celle d'une ou plusieurs autres, etc. La variation de la matrice
de donnes qui ne peut pas tre explique par les variables
environnementales disposition est exprime sur une srie d'axes
subsquents, qui ne sont donc plus contraints.
Graphiquement, le rsultat d'une ACR ou d'une ACC s'exprime sous
la forme d'un biplot ou d'un triplot, suivant qu'on y fait apparatre les
objets et/ou les variables de la matrice expliquer (les variables
dpendantes), ainsi que les variables explicatives. En ACR, objets et
variables dpendantes sont reprsents comme en ACP, et en ACC ils
sont reprsents comme en AFC. Dans les deux cas, les variables
explicatives, elles, sont reprsentes comme des vecteurs si elles sont
quantitatives ou comme des points (centrodes) si elles sont binaires.
Exemple fictif (analyse canonique des correspondances):

Bio-2042

Analyse multidimensionnelle

36

Figure 14: diagramme de triple projection (triplot) d'ACC montrant les objets (cercles
noirs), les variables dpendantes (carrs blancs), les variables explicatives quantitatives
(flches) et les variables explicatives binaires (toiles). L'affinit des espces pour les
variables environnementales quantitatives s'estime par projection orthogonale des espces
sur les vecteurs, et l'affinit des espces pour les variables binaires se mesure leur
proximit ces dernires. Cadrage de type 1 (voir Legendre & Legendre 1998).

Exemple rel (analyse de redondance):

Bio-2042

Analyse multidimensionnelle

37

Figure 15:

diagramme de double projection (biplot) d'ACR (sur matrice de covariance,


cadrage de type 2) montrant les deux premiers axes d'une ordination de 143 sites des rives
du Saint-Laurent (non reprsents), 63 espces d'oiseaux (variables transformes Hellinger,
flches tte pleine ou sans tte), 15 variables explicatives quantitatives (flches tte
indente) et 9 classes de variables explicatives qualitatives (cercles, carrs et triangles).

On peut aussi raliser des ordinations canoniques partielles, dans


lesquelles on estime l'effet d'un groupe de variables explicatives sur la
matrice dpendante aprs avoir contrl l'effet d'un autre groupe de
variables explicatives. Cela permet, par exemple, d'examiner l'effet de
facteurs physico-chimiques sur une communaut vgtale en tenant
constant l'effet du climat.
Le partitionnement de la variance expliqu au chapitre de la
rgression multiple peut aussi tre appliqu dans le contexte de

Bio-2042

Analyse multidimensionnelle

38

l'ordination canonique, en particulier l'analyse de redondance. Ce


partitionnement multivariable a t propos en 19922 dans le contexte
cologique de l'tude des structures spatiales des communauts
vivantes. L'ide de base est que la structuration spatiale des
communauts est fonctionnelle, en ce sens que des organismes ou des
ressources disperss au hasard ne pourraient pas constituer des
cosystmes viables. De plus, la structure spatiale des communauts
induit de l'autocorrlation spatiale dans les donnes, ce qui rend
difficiles les tests statistiques (les donnes ne sont plus indpendantes).
Par consquent, il est important d'tudier comment les organismes et
leurs contraintes cologiques (variables environnementales) sont
distribues dans le milieu, afin, d'une part, d'en induire des hpothses
sur les mcanismes cologiques qui ont conduit ces distributions, et,
d'autre part, de prendre les mesures appropries pour raliser des tests
statistiques valides. Dans le contexte du partitionnement de la
variation, on travaille au minimum avec deux matrices explicatives,
l'une contenant les variables environnementales (climat, physicochimie, etc.), et l'autre contenant des variables dcrivant la structure
spatiale des communauts. La forme la plus simple de variables
spatiales consiste en les coordonnes X et Y des points d'chantillonnage, auxquelles on peut y ajouter des termes polynomiaux (voir
rgression polynomiale). Plus rcemment, nous avons mis au point une
manire d'obtenir des variables spatiales beaucoup plus labores,
(sinusodes de priodes allant de grande trs fine dans le cas d'un
chantillonnage rgulier), permettant d'analyser les structures spatiales
des donnes toutes les chellles perues par l'chantillon: les CPMV
(coordonnes principales de matrices de voisinage), PCNM en
anglais3,4,5. Le partitionnement peut aussi tre appliqu dans des
contextes autres que l'analyse des structures spatiales.
Borcard, D., P. Legendre. & P. Drapeau. 1992. Partialling out the spatial component of ecological
variation. Ecology 73(3): 1045-1055.
3
Borcard, D. & P. Legendre. 2002. All-scale spatial analysis of ecological data by means of principal
coordinates of neighbour matrices. Ecological Modelling 153: 51-68.
4
Borcard, D., P. Legendre, Avois-Jacquet, C. & Tuomisto, H. (2004). Dissecting the spatial structures of
ecologial data at all scales. Ecology 85(7): 1826-1832.
2

Bio-2042

Analyse multidimensionnelle

39

5. Tests statistiques pour donnes multivariables


Il sera question ici de deux mthodes de test statistique, toutes deux
oprant par permutations: le test sur les axes canoniques d'une ACC
ou d'une ACR et le test de Mantel.
5.1. Test sur les axes d'une ordination canonique
On se rappellera que les valeurs propres des axes indiquent la quantit
de variation des donnes explique par l'axe correspondant. L'ide
gnrale du test est de vrifier si une valeur propre canonique (ou une
somme de valeurs propres canoniques) gale ou suprieure la vraie
peut tre obtenue en cas d'absence de relation entre la matrice de
donnes et la matrice explicative. Les hypothses du test sont donc:
- H0: il n'y a pas de relation linaire entre la matrice rponse et la
matrice explicative;
- H1: il y a une relation linaire entre la matrice rponse et la matrice
explicative.
A l'origine, la statistique du test tait la valeur propre de l'axe test, ou
encore la somme de toutes les valeurs propres des axes canoniques
(pour tester la signification de l'ensemble de l'ordination canonique).
Actuellement, on se sert d'une statistique F (variation explique /
variation des rsidus), que l'on teste par permutations.
Selon les situations, les lments permuts sont les objets dans l'une
des matrices de donnes, ou encore certains rsidus. Voir Legendre &
Legendre (1998).
Ce type de test est trs largement utilis.
5

Legendre, P. & D. Borcard. 2006. Quelles sont les chelles spatiales importantes dans un cosystme? In:
J.-J. Droesbeke, M. Lejeune et G. Saporta (ds), Analyse statistique de donnes spatiales.
Editions TECNIP, Paris.

Bio-2042

Analyse multidimensionnelle

40

5.2. Test de Mantel: corrlation matricielle


Dcrit en 1967 par lpidmiologiste Nathan MANTEL6 , le test de
corrlation matricielle qui porte son nom a vu son usage se rpandre
dans les annes 1980. De nos jours cependant, avec l'avnement des
techniques puissantes d'ordination canonique (ACR et ACC), l'usage
du test de Mantel doit tre restreint aux cas o les hypothses et
les donnes elles-mmes se prsentent en termes de distances ou
similarits et ne peuvent pas tre traduites en donnes brutes.
5.2.1 Principe du test
Le test de Mantel porte sur la corrlation linaire entre deux
matrices
de
distances
ou
de
similarits
obtenues
indpendamment. Par exemple, on peut sen servir pour tester la
relation entre, d'une part, les distances entre une srie de relevs de
vgtation et, d'autre part, les distances entre ces mmes sites, mais
sur la base d'informations obtenues par tldtection. La question
sous-jacente serait: les donnes de tldtaction permettent-elles de
dceler des diffrences de vgtation? La matrice espces servirait
de base au calcul dune matrice de distances (p.ex. par lindice D14 de
Bray-Curtis), et la matrice tldtection pourrait tre base sur des
donnes quantitatives associes selon une distance euclidienne D1. Le
test dira si les similarits entre objets calcules sur la base des espces
sont corrles significativement avec les similarits calcules sur la
base des donnes tlmtriques. Si cest le cas, cela voudra dire que
plus deux sites se ressemblent sur le plan de leur composition vgtale,
et plus ils se ressemblent sur le plan de leurs signatures spectrales. On
en conclura qu'on peut utiliser les donnes spectrales pour dceler des
diffrences entre des communauts vgtales d'une rgion donne (par
exemple en fort quatoriale).
6

Mantel, N. 1967. The detection of disease clustering and a generalized regression approach. Cancer Res.
27: 209-220.

Bio-2042

Analyse multidimensionnelle

41

De faon rigoureuse, lhypothse nulle H0 du test de Mantel snonce


comme suit:
H0: les distances (ou similarits) entre les objets dans la matrice A ne
sont pas en relation linaire avec les distances (ou similarits)
correspondantes dans la matrice B.
La statistique z de Mantel, donc la mesure dont on se sert pour
valuer la ressemblance entre les deux matrices, est lorigine la
suivante:
n1

zM =

xij yij

i=1 j =i+1

o i et j sont les numros des lignes et colonnes des matrices de


similarits (ou distances).
Cependant, lusage sest rpandu dutiliser plutt la statistique r de
Mantel centre-rduite, dont la formule est aussi celle de la
corrlation linaire de Pearson:
1 n1 n xij x yij y

rM =

d 1 i=1 j =i+1 sx sy
o i et j sont comme ci-dessus, x-barre, y-barre, sx et sy sont les
moyennes et carts-types des valeurs de chacune des matrices,
et d = n(n1)/2 est le nombre de valeurs de similarit ou distance dans
une des matrices (sans la diagonale).

Bio-2042

Analyse multidimensionnelle

42

5.2.2. Exemple:
Imaginons deux matrices de similarits entre 4 objets:

1
2
3

0.25

0.43

0.55

0.43

0.41

0.47

0.17

0.39

0.22

0.60

0.66
Matrice espces

0.71
Matrice tldtection

La statistique z de Mantel se calcule comme suit:


z = (0.25 0.43) + (0.43 0.41) + (0.55 0.47) + (0.17 0.22) +
+ (0.39 0.60) + (0.66 0.71) = 1.2823
La valeur obtenue (1.2823) est la vraie valeur, qui doit tre
confronte une distribution de rfrence obtenue en permutant
alatoirement (99 ou 999 ou 9999 fois) les lignes et colonnes dune
des deux matrices, et en recalculant la statistique. Attention: les
valeurs des matrices d'association ne peuvent pas tre permutes
compltement au hasard! Le schma de permutations revient
permuter les objets dans une des matrices de donnes brutes avant
de recalculer les distances ou similarits.
Le test consiste finalement confronter la vraie valeur lensemble
des valeurs obtenues par permutations alatoires. Si la vraie valeur est
si leve quaucune ou presque des valeurs alatoires nest aussi
grande ou plus grande quelle (donc si lobtention de la vraie valeur
est trs improbable sous H0), on rejettera lhypothse nulle de nonrelation entre les deux matrices et on considrera la corrlation comme

Bio-2042

Analyse multidimensionnelle

43

significative au seuil choisi. Par contre, si la vraie valeur se trouve dans


le corps de la distribution des valeurs obtenues alatoirement, on en
conclura quon ne peut pas rejeter lhypothse H0 que la relation entre
les deux matrices soit due au hasard.
Dans un test de Mantel sur donnes cologiques ralis sur une paire
de matrices de similarit ou une paire de matrices de distance (et non
une similarit et une distance!), le test est toujours unilatral droite.
En effet, en cologie, la seule hypothse contraire sense est que les
deux matrices sont corrles positivement. Une corrlation ngtive
entre deux matrices de similarits signifierait, par exemple, que plus
deux communauts vgtales sopnt semblables entre elles sur le plan
des espces, et plus elles sont diffrentes entre elles sur le plan des
signatures spectrales. Cela illustre la particularit de l'interprtation
d'un test de Mantel, qui doit se baser sur les similarits ou les
distances, et non sur les donnes brutes.
Remarques additionnelles
Comme la corrlation de Pearson, le test de Mantel a aussi une forme
partielle, o l'on teste la corrlation rM(AB.C) entre deux matrices de
distances A et B aprs avoir retir l'effet d'une troisime matrice C;
rM(AB.C) est calcul de la mme manire qu'un coeffficient de
corrlation partielle de Pearson.
On peut aussi se servir du test de Mantel pour comparer les donnes
un modle de groupement. La matrice de distances explicative
reprsente le modle en divisant les objets en groupes: les paires
d'objets appartenant au mme groupe ont une distance de 0, les paires
d'objets dont les membres appartiennent des groupes diffrents
reoivent une distance de 1, comme ci-dessous:

Bio-2042

Analyse multidimensionnelle

44

1 0.55 0.63

0.15

0.26

0.28

0.31

0.46

0.09

0.26

0.37

0.52

0.78

0.86

0.77

3
4
5

0.62
Matrice Espces

1
Matrice Modle

Mise en garde
Le paragraphe ci-dessous est traduit d'un manuscrit de Pierre
Legendre7. Il met en garde les usagers contre une utilisation
inapproprie du test de Mantel.
"Les empiristes qui sourcillent la vue de justifications thoriques
seront peut-tre intresss par le fait que le R2M d'un test de Mantel ou
d'une rgression sur matrices de distances est toujours beaucoup plus
bas que le R2 d'une rgression (multiple) ou d'une analyse canonique
calcule sur les donnes brutes, lorsqu'une telle opration est possible;
cela a souvent t relev par les usagers du test de Mantel. C'est aussi
l'un des rsultats rapports par Dutilleul et al. (2000, Tableau 2)8; on
peut aisment le vrifier sur n'importe quel jeu de donnes. Legendre

7
8

Legendre, P. Mantel and partial Mantel tests: practical aspects. Submitted (Evolution).
Dutilleul, P., J. D. Stockwell, D. Frigon, and P. Legendre. 2000. The Mantel-Pearson paradox: statistical
considerations and ecological implications. Journal of Agricultural, Biological, and
Environmental Statistics 5: 131-150.

Bio-2042

Analyse multidimensionnelle

45

(2000, Tableau II)9 a aussi montr que la puissance d'une corrlation


de Pearson (c'est--dire sa capacit de rejeter l'hypothse nulle
lorsqu'elle est fausse) est beaucoup plus leve que la puissance d'un
test de Mantel simple calcul sur des matrices de distance drives des
mmes donnes (...). Par consquent, chaque fois que possible,
utilisez des procdures statistiques bases sur les donnes brutes,
telles que corrlation, rgression ou analyse canonique. Rservez
le test de Mantel et ses formes drives pour tester des hypothses
[naturellement] formules en termes de distances. "
Par ailleurs, Legendre, Borcard & Peres-Neto (2005)10 et 200811 ont
ralis d'autres simulations qui ont donn le mme rsultat et d'autres
informations: d'une part la puissance des tests de Mantel est trs faible
compare celle des ordinations canoniques, et d'autre part certaines
utilisations drives du test de Mantel ou de la rgression multiple sur
matrice de distances (comme le partitionnement de variation sur
matrices de distances) sont abusives et dpourvues de fondement
mathmatique.

Legendre, P. 2000. Comparison of permutation methods for the partial correlation and partial Mantel tests.
Journal of Statistical Computation and Simulation 67: 37-73.

Legendre, P., D. Borcard and P. R. Peres-Neto. 2005. Analyzing beta diversity: partitioning the spatial
variation of community composition data. Ecological Monographs 75: 435-450.
11
Legendre, P., D. Borcard and P. R. Peres-Neto. 2008. Analyzing or explaining beta diversity: Comment.
Ecology 89: 3238-3244.
10