Vous êtes sur la page 1sur 93

7.

ANALYSE
MULTIDIMENSIONNELLE

Gnralits
Statistiques classiques

Uni- ou bi-dimensionnelles

Statistiques multidimensionnelles = analyse
multivariable

Traitent simultanment densembles dobjets


caractriss par plusieurs variables

En biologie, on a souvent affaire des objets

caractriss par un grand nombre de variables


Variables = descripteurs = dimensions

Objets = lments

Longueur
Individu 1

Mesure 1,1

Individu 2

Mesure 2,1

Largeur

Masse

Longvit Fcondit

...

Variable p

Individu 3

...

Individu n

Mesure i,j

Mesure n,p

Analyse multivariable

Problme : visualisation des donnes en plus de 3


dimensions

O
O

Masse

it
nd
co

Masse

Lon

Longueur

r
u
e
g
r
a
L

Longueur

t
gvi

Types de mthodes

Analyse descriptive

Groupement (n variables) : recherche de discontinuits
(partitions) dans les ensembles de donnes

!
!

Ordination (n variables) : recherche de gradients


Ce ne sont pas des statistiques : pas de tests

Interprtation des structures



Tests : hypothses

Rgression multiple : 1 variable dpendante, p


variables indpendantes

!

Y = f(X1, X2, ..., Xn)

Analyse canonique : n variables dpendantes, p


variables indpendantes

Tests statistiques : comparaison entre matrices


dassociations

Test de Mantel : corrlation entre 2 matrices



!
!

Test de Mantel partiel : comparaison entre 2

matrices en contrlant leffet dune troisime

Buts

Simplifier la vision des donnes



Rduire leur dimensionalit

Dgager les tendances de la variabilit des
donnes

Recherche des structures



Interprtation des donnes

Prise en compte des variables confondantes

Important de bien connatre les mthodes et leurs


proprits

planification dune tude : avant sa ralisation...



rponse adquate la question pose

limites de linterprtation

un ordinateur (ncessaire ici !) donne toujours
une rponse, mais pas forcment la bonne

Matrices dassociation
Objets
Objets

Objets

Variables

Mode Q : Objets X Objets



Ressemblance

Variables

Variables
Mode R :Variables X Variables

Dpendance

Mesure de similarit (Mode Q)

Problme du double zro



La prsence de la valeur 0 dans deux objets
implique-t-elle leur ressemblance ?

Oui : indices symtriques



Non : indices asymtriques

Indice de similarit binaires symtriques



Coefficient
de
simple
concordance
(S
)
1

Bois

Peint

> 1 kg

Objet 1

Objet 2

Objet 3

Objet 4

S1 entre objets 1 et 2 :




nombre de descripteurs valeur identique = 2



nombre total de descripteurs = 3

S1 = 2/3 = 0,67

Matrice de similarit
Objet 1
Objet 2
Objet 3
Objet 4

Objet 1

Objet 2

Objet 3

Objet 4

0,67

0,33

0,67

0,33
1

Objet 2

Objet 1
1

a : nombre de 1 dans les 2 objets



b : nombre de 1 dans lobjet 1

c : nombre de 1 dans lobjet 2

d : nombre de 0 dans les 2 objets

!

a + b + c + d = nombre total de descripteurs



a et d : ressemblances

b et c : diffrences

S
=
(a
+
d)/(a
+
2b
+
2c
+
d)

2
S
=
(2a
+
2d)/(2a
+
b
+
c
+
2d)
3
S1 = (a + d)/(a + b + c + d)

Indices de similarit binaires asymtriques



Coefficient
de
communaut
de
Jaccard
(S
)

7

S
=
a/(a
+
b
+
c)
7
Espce 1

Espce 2

Espce 3

Milieu 1

Milieu 2

Milieu 3

Milieu 4

Milieu 1
Milieu 2
Milieu 3
Milieu 4

Milieu 1
1

Milieu 2
0,5

Milieu 3
0,33

Milieu 4
1

0,5

0,33
1

Coefficient de Sorensen (S8)


Equivalent
asymtrique
de
S
3

S8 = 2a/(2a + b + c)

Indices de similarits quantitatifs asymtriques



Coefficient
de
Steinhaus
(S
)

17

! sp 1
Milieu 1

sp 2

sp 3

sp 4

sp 5

sp 6

70

83

64

64

!
Milieu 2
Minima

!
!
!

82

S17
= W/((A + B)/2) = 2W/(A + B)

Ex : S17 = (2 X 76)/(83 + 82) = 0,921

Coefficient de Kulcynski (S18)


S18 = (W/A + W/B)/2

76

Mesure de distance (Mode Q)

Coefficient de distance mtrique



Si a = b, D(a,b) = 0

Si a b, D(a,b) > 0

D(a,b) = D(b,a)

D(a,b) + D(b,c) D(a,c)

Coefficient semi-mtriques

Nobissent pas la quatrime proprit

Fcondit

Coefficient de distance mtriques



Distance
Euclidienne
(D
)
1

Fcondit

Parasite 1

25

70

Parasite 2

12

30

P1

70

D1
30

Taille (mm)

P2

12

Taille

25

2
2
D1(P1,P2) = ((T1 - T2) + (F1 - F2) )

2
2


= ((25 - 12) + (70 - 30) )

= 42,1

D1

Y1

Y2

...

Yi

X1

Y11

Y21

Yi1

X2

Y12

Y22

Yi2

= ((yi1 - yi2) )

Problmes :

D
est
sensible
au
double-zro

1
D
est
sensible

lchelle
des
variables

1

On standardise souvent les variables avant le calcul de


D1

D2 = (1/n)D1

Distance de corde (D3) et mtrique godsique


(D4)

Non affectes par le double-zro


D3 borne 2

Espce 2

Echantillon 1

D4 = arc cos (1 - (D3 / 2))

D3
D4
Echantillon 2

Espce 1

Coefficient de distance semi-mtriques



Distance
de
Watson
et
al.
(D
)
=
1
S
13
8

Distance
de
Bray-Curtis
(D
)
=
1
S
14
17

Appele diffrence de pourcentage



Trs utilise pour les abondances despces

Coefficients de dpendance
(Mode R)

Ils existent pour diffrents types de variables



Quantitatives

Semi-quantitatives

Qualitatives

Coefficients de dpendance pour variables


quantitatives

Covariance : dispersion des 2 variables



Corrlation : intensit de la liaison

Variables

Variables

Objets

Variables

S
1
S

S
S
S
S

Matrice de dispersion

ou de variance-covariance
Variables

Variables

r
1
1
1

Matrice de corrlation

3
1
1

Coefficients de dpendance pour variables semiquantitatives


de Spearman

de Kendall

Coefficient de dpendance pour variables


qualitatives

2

Le

Tableau de contingence

Exemple

Htes

Parasites

Espce 1

Espce 1
x

Espce 3
x

Espce 2
Espce 3

Espce 2

x
x

x
x

Certains parasites sont-ils associs certains htes ?

2
Mesure dassociation :
Variable 1

Variable 2

Modalit 1 Modalit 2 Modalit k


Modalit 1

x
x

Modalit 2
Modalit i

x
x

x
x

Valeur espre si indpendance des variables



E = (xi. . x.k)/x..
2
2
= ((O-E) /E)

avec O = valeur observe



test statistique possible ( = (i-1)(k-1))

Groupements
1

Recherche des discontinuits dans les ensembles de


donnes

Une partition est une division de l'ensemble en sousensembles, telle que chaque objet (ou descripteur)
appartienne une et une seule sous-collection

Grandes familles de
mthodes de groupement
1. Algorithmes squentiels ou simultans

2. Agglomration ou division

3. Mthodes monothtiques ou polythtiques

4. Mthodes hirarchiques ou non

5. Mthodes probabilistes ou non

Exemple

Classification cologique de prlvements (1-5) sur la


base des abondances des espces prsentes

On
obtiendrait
exactement
la
mme
chose
avec
S
17

Ide sous-jacente : les milieux partageant les mmes


Mesure de distance : D14

espces sont cologiquement proches

Groupement agglomratif liens


Groupement agglomratif liens simples

Lien avec un seul lment du groupe
________________________________________
2
3
4
5
1
0.20
0.25
0.45
0.80
2
0.40
0.35
0.50
3
0.30
0.60
4
0.70
________________________________________
0.0
1
2
3
4
5

0.1

0.2

0.3

0.4

0.5

0,2
0,25
0,3
0,35
0,4
0,45
0,5
0,6
0,7
0,8

Paires formes
1-2
1-3
3-4
2-4
2-3
1-4
2-5
3-5
4-5
1-5

Groupement agglomratif liens complets



Lien avec tous les lments du groupe
________________________________________
2
3
4
5
1
0.20
0.25
0.45
0.80
2
0.40
0.35
0.50
3
0.30
0.60
4
0.70
________________________________________
0.0
1
2
3
4
5

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0,2
0,25
0,3
0,35
0,4
0,45
0,5
0,6
0,7
0,8

Paires formes
1-2
1-3
3-4
2-4
2-3
1-4
2-5
3-5
4-5
1-5

Liens simples : contracte lespace entre objets


(enchanements)

Liens complets : dilate lespace entre les objets


(groupes bien spars)
0.0

0.1

0.2

0.3

0.4

0.5

0.0

0.1

0.2

0.3

0.4

0.5

1
2
3
4
5

1
2
3
4
5

0.6

0.7

0.8

Groupement agglomratif liens intermdiaires



Lien avec une proportion donne des lments du
groupe

Proportion = connexit.Varie entre 0 (liens


simples) et 1 (liens complets)

Connexit = 0,5
0.0
1
2
3
4
5

0.1

0.2

0.3

0.4

0.5

Groupement agglomratif moyen

Groupement selon lassociation moyenne



UPGMA (unweighted pair-group method using
arithmetic average)

Chaque lment du groupe garde le mme poids


pendant lanalyse

La matrice dassociation est reforme chaque


tape ( groupement liens)

Chaque nouveau groupe form est remplac par


sa valeur moyenne

Objets

0,2

0,25

0,45

0,8

0,4

0,35

0,5

0,3

0,6

0,7

2
1

3
4
5
1-2

0,325

0,65

0,3

0,6

0,7

0,3625 0,65

3-4

0,65

5
4

0.0

0,4

1-2
3

1-2-3-4
5

0,65
-

0.1

0.2

0.3

0.4

0.5

0.6

WPGMA

Idem UPGMA mais avec pondration selon le
nombre dlments dans le groupe

Augmente le contraste entre les groupes

Groupement centrode

UPGMC et WPGMC

Comme UPGMA et WPGMA mais en utilisant une
moyenne gomtrique plutt quarithmtique :
centrode (= barycentre, point de coordonnes
moyennes)

Peut conduire des inversions dans le


dendrogramme

Violation de la proprit ultramtrique :


D(A,B) Max |D(A,C) , D(B,C)|

Interprtation : polytomie

0.0
1
2
3
4
5

0.1

0.2

0.3

0.4

0.5

UPGMC

10

4
A

B
8
6,32

6
4

9,40

2
0
D

Mthode de Ward

Hirarchique

Sur donnes brutes ou matrices de distance

Minimise la somme des carrs des distances au centrode
de chaque groupe (variance l'intrieur de chaque
groupe) si applique aux donnes brutes, ou la somme
des carrs des distances entre paires si applique
une matrice de distance

Distances Euclidiennes (double zro) sur donnes

brutes (mthode originale), ou tout type de distance si


matrice de distance

K-means
Non hirarchique

Mthode divisive

Nombre de groupes dfini par l'utilisateur

Minimise la variance intragroupe des
donnes brutes

Distances Euclidiennes (double zro)

La matrice cophntique

Appele aussi matrice ultramtrique car elle rpond aux


4 proprits d'une matrice mtrique, et en plus la
proprit ultramtrique cite plus haut (si pas
d'inversion)

Matrice dassociation dont les distances (ou similarits)


sont calcules partir de larbre

A partir dun arbre phylogntique, cest la matrice de


distances patristiques

1
1

r et le coefficient de
La corrlation cophntique


dtermination

2
r

Corrlation cophntique r : corrlation linaire


de Pearson entre la matrice d'association de
dpart et la matrice cophntique

Coefficient de dtermination r2 : variance


exprime par la matrice cophntique par
rapport la matrice d'association de dpart

La corrlation cophntique ne peut tre teste :


deux distributions pas indpendantes

Exemple

Corrlation cophntique r : 0,89

2
Coefficient de dtermination r : (0,89) = 0,79 donc
2

le dendrogramme du groupement selon l'association


moyenne de l'exemple reproduit 79% de la variance
de la matrice de distances Euclidiennes

On peut utiliser le de Kendall ou le de Spearman


si on est plus intress par la topologie du
dendrogramme que par la longueur des branches

Exemples

Classification de mtagnomes de communauts


microbiennes marines (Distance Euclidienne +
UPGMA ; Quaiser et al. 2010)

Expression de nombreux gnes dans diffrentes


conditions (Choi et al. 2012)

Ordination en espace rduit


Reprsentation de n objets sur lesquels on a mesur p
variables (avec gnralement p < n)

But : passer dun espace multidimensionnel complexe

un espace comprenant moins de dimensions (2 voire 3)


Lensemble des donnes (objets et/ou variables) sera


reprsent (ordonn) dans cet espace rduit

Problme : comment choisir ces dimensions ?

Le nuage de points

Les points-objets forment dans le repre dorigine


(les p dimensions) une hyperellipsode

Si la distribution des objets est multinormale, on

connat certaines proprits mathmatiques du


nuage de points (les mthodes dordination sont
assez robustes)

Ces proprits vont tre utilises pour choisir les


meilleures dimensions reprsentant la variabilit
des donnes

La forme du nuage de points dpend des relations


entre les variables
r = 0,7

r = -0,3

r=0

r=1

Axes principaux

On peut tablir les axes passant par le maximum de


variance du nuage de points

Ils sajustent au nuage de points selon le critre des


moindres carrs

Chaque axe est perpendiculaire aux autres (donc ils


sont linairement indpendants)

Ces axes sont des combinaisons linaires des


variables dorigine

On les appelle les axes principaux (parfois facteurs)

Masse

Axe Principal 1

Axe Principal 2
Longueur

Ha
ut

eu

Valeur propre et vecteur propre

A chaque axe sont associs une valeur propre et un


vecteur propre

Valeur propre () : variance exprime par laxe



Vecteur propre (u) : direction de laxe

La variance exprime par un plan form par deux

axes principaux est la somme des variances (valeur


propres) exprimes par ces axes

Il y a autant de et de u que de variables dorigines :


redcoupage et hirarchisation de la variance

Coordonnes dans le nouveau


systme daxes : composantes
principales

Axe Principal 1

1 = 50 %

u2

u1

Axe Principal 2

2 = 30 %

Plan 1 X 2 : 80 % de la variance totale du nuage de


points

Nombre de composantes
interprtables

Problme : la variance de nimporte quel nuage de

point peut-tre exprime sur des axes principaux, mais


il ne contient pas forcment de structure informative

Critres pour savoir si la variance exprime est

intressante, et le nombre daxes interprter


>

Bton bris

Diagramme de Shepard
moyen

Modle du bton bris


50
45
40
% variance

35
30
Alatoire
Observ

25
20
15
10
5
0
1

Valeurs propres

10

Diagramme de Shepard

Passage en espace rduit : projection des points sur

le plan exprimant le maximum de variance (1 X 2)


Le plan 1 X 2 peut ne pas suffire, on peut alors


utiliser dautres projections (1 X 3, 2 X 3)
Axe 3

Axe 2

+++
+

Axe 1

Axe 1

+
++ +
+

Mise en vidence des :



Ressemblances entre les objets (observations)

Ressemblances entre les variables

Relations entre les variables et les observations

Ordination sans contrainte : toute la variation de
lhyperellipsode est exprime puis interprte a
posteriori (analyse indirecte)

Analyse en composantes
principales (ACP)

Pour des donnes quantitatives ou semi-quantitatives



Suppose une relation linaire ou monotone entre les
variables

Utilisable avec des abondances despces avec certaines


transformations (ex. Legendre & Gallagher 2001)

Transpose un nuage de points-objets, situ dans un

espace multidimensionnel complexe, dans un sousespace plus simple, pour observer graphiquement les
relations entre les objets

Principales tapes du calcul

Matrice de donnes de dpart : centrage ou


centrage et rduction des donnes

Calcul de la matrice de covariance (= matrice de


corrlation si donnes standardises, cest le cas
gnral)

Calcul des valeurs propres et vecteurs propres


partir de cette matrice

Calcul des nouvelles coordonnes des objets

dans le repre form par les axes principaux : ce


sont les composantes principales

Projection des points dans un espace rduit, en


gnral les deux premiers axes

Calcul des coordonnes des descripteurs


originaux dans le nouveau repre

Reprsentation graphique

Diagramme dordination : projection sur le plan choisi



Diagramme de double projection dans lespace rduit
(= biplot) : objets et descripteurs
II
Descripteurs

Objets

Interprtation dans lespace rduit

Position des objets



Proximit des points : prserve la distance Euclidienne

Position des descripteurs

Flches se terminant sur les points-descripteurs

Angle entre les flches : covariance ou corrlation

Interprter les descripteurs ayant suffisamment
dinfluence sur le plan de projection : dpassant le
cercle des contributions quilibres (longueur des axes si
contribution gale chaque dimension) et proches du
cercle de rayon 1 (pour une matrice de corrlation)

Cercle des contributions


quilibres
II

Cercle de rayon 1

Projection des objets sur les descripteurs :

contribution de lobjet laxe. Plus la projection est


loin du centre, plus la valeur est loin de la moyenne
II


Entre une variable i et un axe descripteur k, labscisse

Pour un angle entre deux variables i et j : cos = rij



de i sur k (projection) est gal rik, pour des variables
centres-rduites (matrice de corrlation)
II

V1
rV1,I

Les deux principaux types dACP

Vecteurs propres norms 1



Les distances entre les objets sont
interprtables

Angles entre descripteurs non interprtables


Vecteurs propres norms



Angles entre descripteurs = corrlations

Distances entre objets non prserves

Rsum
Variables
Individus

II

u norms :

angles

=

corrlations

u norms 1 :

proximits

=

distances

Biplot

Variables

= descripteurs
Individus

= objets

II

Cercle des contributions


quilibres
Cercle de rayon 1

Exemples

Classification despces de Gyrodactylus (parasites) sur


la base de variables morphologiques mesures sur les
pices sclrifies du hapteur (Shinn et al. 2001)

Classification de populations humaines sur la base


de donnes gnomiques (174000 SNPs ; Schuster
et al. 2010)

Analyse factorielle de
correspondances (AFC)

Mme principe que lACP



Pour variables qualitatives, binaires, semi-quantitatives
et quantitatives

Typiquement : tude des relations entre deux


variables nominales

Donnes sous forme de tableau de contingence :


lanalyse cherche mettre en vidence les
correspondances (relations) entre les lignes et les
colonnes

En cologie : traitement des donnes

dabondance despces (descripteurs ici)


Espces

Stations

Trucus
S1

Frquence 1,1

S2

Frquence 2,1

Machinus

Bidulus

...

Exempla

S3

...

S4

Frquence i,j

Frquence n,p

Ide sous-jacente : expliquer la rpartition des stations



et/ou des espces selon des critres cologiques


Non affecte par le problme du double-zro

Suppose une relation unimodale avec les variables
2
Prserve la distance du entre les points

environnementales

Principales tapes du calcul

Transformation des frquences absolues en


probabilits : frquences relatives centres
fi

Frquences absolues

= fi

= fi

=f

=1

Frquences relatives

Q
Frquences relatives centres

Avec qij = pij - pi.p.j / pi.p.j soit


- centrage (- frquence thorique)



- pondration

Calcul de la matrice de covariance partir de la


matrice Q

Calcul des valeurs propres et vecteurs propres


partir de cette matrice de covariance

Calcul des nouvelles coordonnes des objets dans


le repre form par les axes principaux

Projection des points dans un espace rduit, en


gnral les deux premiers axes

On peut placer les lignes et les colonnes du

tableau de contingence dans le mme espace


factoriel

Inertie totale = I =

On peut effectuer un test dindpendance des
deux variables

2
= npI avec np = effectif total

H
:
quelle
que
soit
la
station,
la
distribution
des
0
2
Test du , avec (n-1)(p-1) degrs de libert

espces est la mme


H0 : quelle que soit lespce, la rpartition selon


les stations est la mme

Interprtation dans lespace rduit

Variance du plan lie celles des valeurs propres



Comme en ACP, on peut ne placer que les sites
(objets) ou les espces (descripteurs) sur le
diagramme ; ou les deux (biplot)

Proximit entre objets (stations) et descripteurs

(espces) : ressemblance. Attention, cela est fonction


de la variance exprime par le plan considr

Plus les points sont proches du centre, plus ils sont


proches des caractristiques moyennes de
lchantillon

Interprtation des axes principaux en terme de

facteurs biologiques, en relation avec la projection


des objets et des descripteurs (comme ACP)

Relations de type barycentrique. On a deux


options pour la projection :

Type I. Placer les lignes (sites) au barycentre

(=centrode) des colonnes (espces) : meilleure


ordination des sites

Type II. Linverse donne une meilleure


ordination des espces :

Espces places au centre de gravit

(=barycentre = centrode) des sites o


elles sont prsentes

Chaque site est pondr par la frquence


relative de lespce considre

Les points-espces sont donc plus proches


des points-sites o leur occurrence est la
plus forte

Frquence relative du
site 8 pour lespce 11 :

raret ce site
Espce 4

Frquence relative de
lespce 3 au site 5 :

occurrence forte

Espce 2
Site 5
Espce 11

Espce 9

Site 8

Espce 3

Site
12

Site 9
Site 2
Espce 19

Type I

Type II

Exemple
Descripteurs

= espces

II

Sites

Espces

Objets =
stations

Ordination sur matrices de


distances
Analyse en coordonnes principales (PCoA) : permet
lutilisation de beaucoup de coefficients. Mthode
base sur les vecteurs propres pour reprsenter
objets ou variables

Nonmetric multidimensional scaling (NMDS) : mthode


non base sur les vecteurs propres, place les objets
dans un repre comportant un nombre prdfini
daxes, en minimisant une fonction de stress (0 1,
bien si 0,2). Fonctionne avec des valeurs
manquantes. Procd itratif assez intense en calcul

Analyse discriminante
Analyse discriminante linaire, gnralement

But : trouver la meilleure combinaison de variables

permettant dexpliquer des groupes prdfinis


(hypothse biologique, groupement sur un autre jeu de
donnes, )

Test pralable que les groupes sont diffrents



Pas dlimitation des groupes ici, mais interprtation

Recherche de la meilleure combinaison de variables
expliquant les groupes : fonction discriminante

Test de Mantel

Test de la corrlation linaire entre deux matrices de


distances ou de similarits obtenues indpendamment

Hypothse nulle H0 : les distances (ou similarits) entre les


objets dans la matrice A ne sont pas en relation linaire avec
les distances (ou similarits) correspondantes dans la
matrice B

Lhypothse nulle est teste par permutations des objets,


car les distances ne sont pas indpendantes les unes des
autres

Statistique Z de Mantel
A

A
x

.....

+X
+

Test

1. Permutation alatoire des objets (A-D)

2. Calcul dun nouveau Z : Zp

3. Rptition n fois (ex : 999) des tapes 1 et 2

4. Ajout de la valeur observe Z aux 999 valeurs de
Zp

5. Trac de la distribution : histogramme de
frquences

6. H0 est rejete si Z fait partie des valeurs
extrmes (ex : 5%)

Statistique r de Mantel centre-rduite


(corrlation linaire de Pearson)

!
!
!

r = [ 1/(n-1)]

[ (x
i

ij -

x)/s x] (y i j - y)/s y

On peut aussi transformer les valeurs en rangs


et calculer le de Spearman

Exemple

Deux
matrices
de
distances
entre
4
sites
(S
-S
)

1 4

Distances
en
terme
dabondances
despces
(D
)

14

Distances
environnementales
(D
),
sur
la
base
de
1

plusieurs descripteurs du milieu

Matrice de distance D14


S

Matrice de distances D1
S

0,25 0,43 0,55

0,43 0,41 0,47

0,17 0,39

0,22 0,6

0,66

0,71

Calcul du Z de Mantel

Z = (0,25 x 0,43) + (0,43 x 0,41) + (0,55 x 0,47) +

(0,17 x 0,22) + (0,39 x 0,60) + (0,66 x 0,71) =


1,2823 (valeur observe)

: confrontation de la valeur observe


Test
lensemble des valeurs obtenues par permutations
alatoires (100 ici)

Permutations (Z

Observ

Z
1,2823

<Z
95

Proba (z)

=Z

>Z

0,05

(P = (2 + 3)/(95 + 2 + 3) = 5/100 = 0,05)


Observ

r
0,7982

Permutations
<r
95

=r
2

Proba (r)
>r
3

0,05

Le pourcentage de variance explique (R2), ainsi que la


puissance du test sont moins levs pour un test de
Mantel que pour une corrlation de Pearson sur les
donnes brutes correspondantes

Mieux dutiliser les donnes brutes quand cest


possible

Rserver le test de Mantel et ses drivs dans les


cas ou lutilisation des matrices de distance est
ncessaire

Pour contrler leffet dune troisime matrice (ex :

donnes temporelles ou spatiales), il existe un test de


Mantel partiel

Rgression multiple sur


matrices de distance

Gnralisation du test de Mantel plusieurs


matrices de distance : rgression multiple

Une matrice dpendante (Y)



N
matrices
indpendantes
(X
,
X
,
X
,...)

1 2 3

Test par permutations des objets de la matrice Y



Test des coefficients de rgression