7 Anamul

7.
ANALYSE
MULTIDIMENSIONNELLE
Gnralits
Statistiques classiques

Uni- ou bi-dimensionnelles

Statistiques multidimensionnelles = analyse
multivariable

Traitent simultanment densembles dobjets

caractriss par plusieurs variables
En biologie, on a souvent affaire des objets
caractriss par un grand nombre de variables

Variables = descripteurs = dimensions
Objets = lments
Longueur
Individu 1
Mesure 1,1
Individu 2
Mesure 2,1
Largeur
Masse
Longvit Fcondit
...
Variable p
Individu 3
...
Individu n
Mesure i,j
Mesure n,p
Analyse multivariable
Problme : visualisation des donnes en plus de 3

dimensions
O
O
Masse
it
nd
co
Masse
Lon
Longueur
r
u
e
g
r
a
L
Longueur
t
gvi
Types de mthodes
Analyse descriptive

Groupement (n variables) : recherche de discontinuits
(partitions) dans les ensembles de donnes

!
!
Ordination (n variables) : recherche de gradients

Ce ne sont pas des statistiques : pas de tests
Interprtation des structures

Tests : hypothses

Rgression multiple : 1 variable dpendante, p

variables indpendantes

!
Y = f(X1, X2, ..., Xn)
Analyse canonique : n variables dpendantes, p

variables indpendantes
Tests statistiques : comparaison entre matrices

dassociations

Test de Mantel : corrlation entre 2 matrices

!
!
Test de Mantel partiel : comparaison entre 2
matrices en contrlant leffet dune troisime
Buts
Simplifier la vision des donnes

Rduire leur dimensionalit

Dgager les tendances de la variabilit des
donnes

Recherche des structures

Interprtation des donnes

Prise en compte des variables confondantes
Important de bien connatre les mthodes et leurs

proprits

planification dune tude : avant sa ralisation...

rponse adquate la question pose

limites de linterprtation

un ordinateur (ncessaire ici !) donne toujours
une rponse, mais pas forcment la bonne
Matrices dassociation
Objets
Objets
Objets
Variables
Mode Q : Objets X Objets

Ressemblance
Variables
Variables
Mode R :Variables X Variables

Dpendance
Mesure de similarit (Mode Q)
Problme du double zro

La prsence de la valeur 0 dans deux objets
implique-t-elle leur ressemblance ?

Oui : indices symtriques

Non : indices asymtriques
Indice de similarit binaires symtriques

Coefficient
de
simple
concordance
(S
)
1
Bois
Peint
> 1 kg
Objet 1
Objet 2
Objet 3
Objet 4
S1 entre objets 1 et 2 :

nombre de descripteurs valeur identique = 2

nombre total de descripteurs = 3

S1 = 2/3 = 0,67
Matrice de similarit
Objet 1
Objet 2
Objet 3
Objet 4
Objet 1
Objet 2
Objet 3
Objet 4
0,67
0,33
0,67
0,33
1
Objet 2
Objet 1
1
a : nombre de 1 dans les 2 objets

b : nombre de 1 dans lobjet 1

c : nombre de 1 dans lobjet 2

d : nombre de 0 dans les 2 objets

!
a + b + c + d = nombre total de descripteurs

a et d : ressemblances

b et c : diffrences
S
=
(a
+
d)/(a
+
2b
+
2c
+
d)

2
S
=
(2a
+
2d)/(2a
+
b
+
c
+
2d)
3
S1 = (a + d)/(a + b + c + d)

Indices de similarit binaires asymtriques

Coefficient
de
communaut
de
Jaccard
(S
)

7
S
=
a/(a
+
b
+
c)
7
Espce 1
Espce 2
Espce 3
Milieu 1
Milieu 2
Milieu 3
Milieu 4
Milieu 1
Milieu 2
Milieu 3
Milieu 4
Milieu 1
1
Milieu 2
0,5
Milieu 3
0,33
Milieu 4
1
0,5
0,33
1
Coefficient de Sorensen (S8)

Equivalent
asymtrique
de
S
3
S8 = 2a/(2a + b + c)

Indices de similarits quantitatifs asymtriques

Coefficient
de
Steinhaus
(S
)

17
! sp 1
Milieu 1
sp 2
sp 3
sp 4
sp 5
sp 6
70
83
64
64
!
Milieu 2
Minima
!
!
!
82
S17
= W/((A + B)/2) = 2W/(A + B)

Ex : S17 = (2 X 76)/(83 + 82) = 0,921
Coefficient de Kulcynski (S18)

S18 = (W/A + W/B)/2
76
Mesure de distance (Mode Q)
Coefficient de distance mtrique

Si a = b, D(a,b) = 0

Si a b, D(a,b) > 0

D(a,b) = D(b,a)

D(a,b) + D(b,c) D(a,c)

Coefficient semi-mtriques

Nobissent pas la quatrime proprit
Fcondit
Coefficient de distance mtriques

Distance
Euclidienne
(D
)
1
Fcondit
Parasite 1
25
70
Parasite 2
12
30
P1
70
D1
30
Taille (mm)
P2
12
Taille
25
2
2
D1(P1,P2) = ((T1 - T2) + (F1 - F2) )

2
2

= ((25 - 12) + (70 - 30) )

= 42,1
D1

Y1
Y2
...
Yi
X1
Y11
Y21
Yi1
X2
Y12
Y22
Yi2
= ((yi1 - yi2) )

Problmes :

D
est
sensible
au
double-zro

1
D
est
sensible
lchelle
des
variables

1
On standardise souvent les variables avant le calcul de

D1
D2 = (1/n)D1

Distance de corde (D3) et mtrique godsique

(D4)

Non affectes par le double-zro

D3 borne 2

Espce 2
Echantillon 1
D4 = arc cos (1 - (D3 / 2))
D3
D4
Echantillon 2
Espce 1
Coefficient de distance semi-mtriques

Distance
de
Watson
et
al.
(D
)
=
1
S
13
8

Distance
de
Bray-Curtis
(D
)
=
1
S
14
17

Appele diffrence de pourcentage

Trs utilise pour les abondances despces
Coefficients de dpendance
(Mode R)
Ils existent pour diffrents types de variables

Quantitatives

Semi-quantitatives

Qualitatives
Coefficients de dpendance pour variables

quantitatives

Covariance : dispersion des 2 variables

Corrlation : intensit de la liaison
Variables
Variables
Objets
Variables
S
1
S
S
S
S
S
Matrice de dispersion

ou de variance-covariance
Variables
Variables
r
1
1
1
Matrice de corrlation
3
1
1
Coefficients de dpendance pour variables semiquantitatives

de Spearman

de Kendall
Coefficient de dpendance pour variables

qualitatives

2

Le
Tableau de contingence

Exemple
Htes
Parasites
Espce 1
Espce 1
x
Espce 3
x
Espce 2
Espce 3
Espce 2
x
x
x
x
Certains parasites sont-ils associs certains htes ?
2
Mesure dassociation :
Variable 1
Variable 2
Modalit 1 Modalit 2 Modalit k

Modalit 1
x
x
Modalit 2
Modalit i
x
x
x
x
Valeur espre si indpendance des variables

E = (xi. . x.k)/x..
2
2
= ((O-E) /E)

avec O = valeur observe

test statistique possible ( = (i-1)(k-1))
Groupements
1
Recherche des discontinuits dans les ensembles de

donnes

Une partition est une division de l'ensemble en sousensembles, telle que chaque objet (ou descripteur)
appartienne une et une seule sous-collection
Grandes familles de
mthodes de groupement
1. Algorithmes squentiels ou simultans

2. Agglomration ou division

3. Mthodes monothtiques ou polythtiques

4. Mthodes hirarchiques ou non

5. Mthodes probabilistes ou non
Exemple
Classification cologique de prlvements (1-5) sur la

base des abondances des espces prsentes

On
obtiendrait
exactement
la
mme
chose
avec
S
17

Ide sous-jacente : les milieux partageant les mmes

Mesure de distance : D14

espces sont cologiquement proches
Groupement agglomratif liens

Groupement agglomratif liens simples

Lien avec un seul lment du groupe
________________________________________
2
3
4
5
1
0.20
0.25
0.45
0.80
2
0.40
0.35
0.50
3
0.30
0.60
4
0.70
________________________________________
0.0
1
2
3
4
5
0.1
0.2
0.3
0.4
0.5
0,2
0,25
0,3
0,35
0,4
0,45
0,5
0,6
0,7
0,8
Paires formes
1-2
1-3
3-4
2-4
2-3
1-4
2-5
3-5
4-5
1-5
Groupement agglomratif liens complets

Lien avec tous les lments du groupe
________________________________________
2
3
4
5
1
0.20
0.25
0.45
0.80
2
0.40
0.35
0.50
3
0.30
0.60
4
0.70
________________________________________
0.0
1
2
3
4
5
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0,2
0,25
0,3
0,35
0,4
0,45
0,5
0,6
0,7
0,8
Paires formes
1-2
1-3
3-4
2-4
2-3
1-4
2-5
3-5
4-5
1-5
Liens simples : contracte lespace entre objets

(enchanements)

Liens complets : dilate lespace entre les objets

(groupes bien spars)
0.0
0.1
0.2
0.3
0.4
0.5
0.0
0.1
0.2
0.3
0.4
0.5
1
2
3
4
5
1
2
3
4
5
0.6
0.7
0.8
Groupement agglomratif liens intermdiaires

Lien avec une proportion donne des lments du
groupe

Proportion = connexit.Varie entre 0 (liens

simples) et 1 (liens complets)
Connexit = 0,5
0.0
1
2
3
4
5
0.1
0.2
0.3
0.4
0.5
Groupement agglomratif moyen
Groupement selon lassociation moyenne

UPGMA (unweighted pair-group method using
arithmetic average)

Chaque lment du groupe garde le mme poids

pendant lanalyse

La matrice dassociation est reforme chaque

tape ( groupement liens)

Chaque nouveau groupe form est remplac par

sa valeur moyenne
Objets
0,2
0,25
0,45
0,8
0,4
0,35
0,5
0,3
0,6
0,7
2
1
3
4
5
1-2
0,325
0,65
0,3
0,6
0,7
0,3625 0,65
3-4
0,65
5
4
0.0
0,4
1-2
3
1-2-3-4
5
0,65
-
0.1
0.2
0.3
0.4
0.5
0.6
WPGMA

Idem UPGMA mais avec pondration selon le
nombre dlments dans le groupe

Augmente le contraste entre les groupes
Groupement centrode

UPGMC et WPGMC

Comme UPGMA et WPGMA mais en utilisant une
moyenne gomtrique plutt quarithmtique :
centrode (= barycentre, point de coordonnes
moyennes)

Peut conduire des inversions dans le

dendrogramme

Violation de la proprit ultramtrique :

D(A,B) Max |D(A,C) , D(B,C)|

Interprtation : polytomie
0.0
1
2
3
4
5
0.1
0.2
0.3
0.4
0.5
UPGMC
10
4
A
B
8
6,32
6
4
9,40
2
0
D
Mthode de Ward
Hirarchique

Sur donnes brutes ou matrices de distance

Minimise la somme des carrs des distances au centrode
de chaque groupe (variance l'intrieur de chaque
groupe) si applique aux donnes brutes, ou la somme
des carrs des distances entre paires si applique
une matrice de distance

Distances Euclidiennes (double zro) sur donnes
brutes (mthode originale), ou tout type de distance si

matrice de distance
K-means
Non hirarchique

Mthode divisive

Nombre de groupes dfini par l'utilisateur

Minimise la variance intragroupe des
donnes brutes

Distances Euclidiennes (double zro)
La matrice cophntique
Appele aussi matrice ultramtrique car elle rpond aux

4 proprits d'une matrice mtrique, et en plus la
proprit ultramtrique cite plus haut (si pas
d'inversion)

Matrice dassociation dont les distances (ou similarits)

sont calcules partir de larbre

A partir dun arbre phylogntique, cest la matrice de

distances patristiques
1
1
r et le coefficient de
La corrlation cophntique

dtermination
2
r
Corrlation cophntique r : corrlation linaire

de Pearson entre la matrice d'association de
dpart et la matrice cophntique

Coefficient de dtermination r2 : variance

exprime par la matrice cophntique par
rapport la matrice d'association de dpart

La corrlation cophntique ne peut tre teste :

deux distributions pas indpendantes
Exemple

Corrlation cophntique r : 0,89

2
Coefficient de dtermination r : (0,89) = 0,79 donc
2
le dendrogramme du groupement selon l'association

moyenne de l'exemple reproduit 79% de la variance
de la matrice de distances Euclidiennes

On peut utiliser le de Kendall ou le de Spearman

si on est plus intress par la topologie du
dendrogramme que par la longueur des branches
Exemples
Classification de mtagnomes de communauts

microbiennes marines (Distance Euclidienne +
UPGMA ; Quaiser et al. 2010)
Expression de nombreux gnes dans diffrentes

conditions (Choi et al. 2012)
Ordination en espace rduit

Reprsentation de n objets sur lesquels on a mesur p
variables (avec gnralement p < n)

But : passer dun espace multidimensionnel complexe
un espace comprenant moins de dimensions (2 voire 3)

Lensemble des donnes (objets et/ou variables) sera

reprsent (ordonn) dans cet espace rduit

Problme : comment choisir ces dimensions ?
Le nuage de points
Les points-objets forment dans le repre dorigine

(les p dimensions) une hyperellipsode

Si la distribution des objets est multinormale, on
connat certaines proprits mathmatiques du

nuage de points (les mthodes dordination sont
assez robustes)

Ces proprits vont tre utilises pour choisir les

meilleures dimensions reprsentant la variabilit
des donnes
La forme du nuage de points dpend des relations

entre les variables
r = 0,7
r = -0,3
r=0
r=1
Axes principaux
On peut tablir les axes passant par le maximum de

variance du nuage de points

Ils sajustent au nuage de points selon le critre des

moindres carrs

Chaque axe est perpendiculaire aux autres (donc ils

sont linairement indpendants)

Ces axes sont des combinaisons linaires des

variables dorigine

On les appelle les axes principaux (parfois facteurs)
Masse
Axe Principal 1
Axe Principal 2
Longueur
Ha
ut
eu
Valeur propre et vecteur propre
A chaque axe sont associs une valeur propre et un

vecteur propre

Valeur propre () : variance exprime par laxe

Vecteur propre (u) : direction de laxe

La variance exprime par un plan form par deux
axes principaux est la somme des variances (valeur

propres) exprimes par ces axes

Il y a autant de et de u que de variables dorigines :

redcoupage et hirarchisation de la variance
Coordonnes dans le nouveau

systme daxes : composantes
principales
Axe Principal 1

1 = 50 %
u2
u1
Axe Principal 2

2 = 30 %
Plan 1 X 2 : 80 % de la variance totale du nuage de

points
Nombre de composantes
interprtables
Problme : la variance de nimporte quel nuage de
point peut-tre exprime sur des axes principaux, mais

il ne contient pas forcment de structure informative

Critres pour savoir si la variance exprime est
intressante, et le nombre daxes interprter

>

Bton bris

Diagramme de Shepard
moyen
Modle du bton bris

50
45
40
% variance
35
30
Alatoire
Observ
25
20
15
10
5
0
1
Valeurs propres
10
Diagramme de Shepard
Passage en espace rduit : projection des points sur
le plan exprimant le maximum de variance (1 X 2)

Le plan 1 X 2 peut ne pas suffire, on peut alors

utiliser dautres projections (1 X 3, 2 X 3)
Axe 3
Axe 2
+++
+
Axe 1
Axe 1
+
++ +
+
Mise en vidence des :

Ressemblances entre les objets (observations)

Ressemblances entre les variables

Relations entre les variables et les observations

Ordination sans contrainte : toute la variation de
lhyperellipsode est exprime puis interprte a
posteriori (analyse indirecte)
Analyse en composantes
principales (ACP)
Pour des donnes quantitatives ou semi-quantitatives

Suppose une relation linaire ou monotone entre les
variables

Utilisable avec des abondances despces avec certaines

transformations (ex. Legendre & Gallagher 2001)

Transpose un nuage de points-objets, situ dans un
espace multidimensionnel complexe, dans un sousespace plus simple, pour observer graphiquement les
relations entre les objets
Principales tapes du calcul
Matrice de donnes de dpart : centrage ou

centrage et rduction des donnes

Calcul de la matrice de covariance (= matrice de

corrlation si donnes standardises, cest le cas
gnral)

Calcul des valeurs propres et vecteurs propres

partir de cette matrice
Calcul des nouvelles coordonnes des objets
dans le repre form par les axes principaux : ce

sont les composantes principales

Projection des points dans un espace rduit, en

gnral les deux premiers axes

Calcul des coordonnes des descripteurs

originaux dans le nouveau repre
Reprsentation graphique
Diagramme dordination : projection sur le plan choisi

Diagramme de double projection dans lespace rduit
(= biplot) : objets et descripteurs
II
Descripteurs
Objets
Interprtation dans lespace rduit
Position des objets

Proximit des points : prserve la distance Euclidienne

Position des descripteurs

Flches se terminant sur les points-descripteurs

Angle entre les flches : covariance ou corrlation

Interprter les descripteurs ayant suffisamment
dinfluence sur le plan de projection : dpassant le
cercle des contributions quilibres (longueur des axes si
contribution gale chaque dimension) et proches du
cercle de rayon 1 (pour une matrice de corrlation)
Cercle des contributions

quilibres
II
Cercle de rayon 1
Projection des objets sur les descripteurs :
contribution de lobjet laxe. Plus la projection est

loin du centre, plus la valeur est loin de la moyenne
II

Entre une variable i et un axe descripteur k, labscisse
Pour un angle entre deux variables i et j : cos = rij

de i sur k (projection) est gal rik, pour des variables
centres-rduites (matrice de corrlation)
II
V1
rV1,I
Les deux principaux types dACP
Vecteurs propres norms 1

Les distances entre les objets sont
interprtables

Angles entre descripteurs non interprtables

Vecteurs propres norms

Angles entre descripteurs = corrlations

Distances entre objets non prserves
Rsum
Variables
Individus
II
u norms :

angles

=

corrlations
u norms 1 :

proximits

=

distances
Biplot
Variables

= descripteurs
Individus

= objets
II
Cercle des contributions

quilibres
Cercle de rayon 1
Exemples
Classification despces de Gyrodactylus (parasites) sur

la base de variables morphologiques mesures sur les
pices sclrifies du hapteur (Shinn et al. 2001)
Classification de populations humaines sur la base

de donnes gnomiques (174000 SNPs ; Schuster
et al. 2010)
Analyse factorielle de
correspondances (AFC)
Mme principe que lACP

Pour variables qualitatives, binaires, semi-quantitatives
et quantitatives

Typiquement : tude des relations entre deux

variables nominales

Donnes sous forme de tableau de contingence :

lanalyse cherche mettre en vidence les
correspondances (relations) entre les lignes et les
colonnes
En cologie : traitement des donnes
dabondance despces (descripteurs ici)

Espces
Stations
Trucus
S1
Frquence 1,1
S2
Frquence 2,1
Machinus
Bidulus
...
Exempla
S3
...
S4
Frquence i,j
Frquence n,p
Ide sous-jacente : expliquer la rpartition des stations

et/ou des espces selon des critres cologiques

Non affecte par le problme du double-zro

Suppose une relation unimodale avec les variables
2
Prserve la distance du entre les points

environnementales
Principales tapes du calcul
Transformation des frquences absolues en

probabilits : frquences relatives centres
fi
Frquences absolues
= fi
= fi
=f
=1
Frquences relatives
Q
Frquences relatives centres
Avec qij = pij - pi.p.j / pi.p.j soit

- centrage (- frquence thorique)

- pondration
Calcul de la matrice de covariance partir de la

matrice Q

Calcul des valeurs propres et vecteurs propres

partir de cette matrice de covariance

Calcul des nouvelles coordonnes des objets dans

le repre form par les axes principaux

Projection des points dans un espace rduit, en

gnral les deux premiers axes

On peut placer les lignes et les colonnes du
tableau de contingence dans le mme espace

factoriel
Inertie totale = I =

On peut effectuer un test dindpendance des
deux variables

2
= npI avec np = effectif total

H
:
quelle
que
soit
la
station,
la
distribution
des
0
2
Test du , avec (n-1)(p-1) degrs de libert

espces est la mme

H0 : quelle que soit lespce, la rpartition selon

les stations est la mme
Interprtation dans lespace rduit
Variance du plan lie celles des valeurs propres

Comme en ACP, on peut ne placer que les sites
(objets) ou les espces (descripteurs) sur le
diagramme ; ou les deux (biplot)

Proximit entre objets (stations) et descripteurs
(espces) : ressemblance. Attention, cela est fonction

de la variance exprime par le plan considr

Plus les points sont proches du centre, plus ils sont

proches des caractristiques moyennes de
lchantillon
Interprtation des axes principaux en terme de
facteurs biologiques, en relation avec la projection

des objets et des descripteurs (comme ACP)

Relations de type barycentrique. On a deux

options pour la projection :

Type I. Placer les lignes (sites) au barycentre
(=centrode) des colonnes (espces) : meilleure

ordination des sites
Type II. Linverse donne une meilleure

ordination des espces :

Espces places au centre de gravit
(=barycentre = centrode) des sites o

elles sont prsentes

Chaque site est pondr par la frquence

relative de lespce considre

Les points-espces sont donc plus proches

des points-sites o leur occurrence est la
plus forte
Frquence relative du
site 8 pour lespce 11 :

raret ce site
Espce 4
Frquence relative de
lespce 3 au site 5 :

occurrence forte
Espce 2
Site 5
Espce 11
Espce 9
Site 8
Espce 3
Site
12
Site 9
Site 2
Espce 19
Type I
Type II
Exemple
Descripteurs

= espces
II
Sites
Espces
Objets =
stations
Ordination sur matrices de

distances
Analyse en coordonnes principales (PCoA) : permet
lutilisation de beaucoup de coefficients. Mthode
base sur les vecteurs propres pour reprsenter
objets ou variables

Nonmetric multidimensional scaling (NMDS) : mthode

non base sur les vecteurs propres, place les objets
dans un repre comportant un nombre prdfini
daxes, en minimisant une fonction de stress (0 1,
bien si 0,2). Fonctionne avec des valeurs
manquantes. Procd itratif assez intense en calcul
Analyse discriminante
Analyse discriminante linaire, gnralement

But : trouver la meilleure combinaison de variables
permettant dexpliquer des groupes prdfinis

(hypothse biologique, groupement sur un autre jeu de
donnes, )

Test pralable que les groupes sont diffrents

Pas dlimitation des groupes ici, mais interprtation

Recherche de la meilleure combinaison de variables
expliquant les groupes : fonction discriminante
Test de Mantel
Test de la corrlation linaire entre deux matrices de

distances ou de similarits obtenues indpendamment

Hypothse nulle H0 : les distances (ou similarits) entre les

objets dans la matrice A ne sont pas en relation linaire avec
les distances (ou similarits) correspondantes dans la
matrice B

Lhypothse nulle est teste par permutations des objets,

car les distances ne sont pas indpendantes les unes des
autres
Statistique Z de Mantel
A
A
x
.....
+X
+
Test

1. Permutation alatoire des objets (A-D)

2. Calcul dun nouveau Z : Zp

3. Rptition n fois (ex : 999) des tapes 1 et 2

4. Ajout de la valeur observe Z aux 999 valeurs de
Zp

5. Trac de la distribution : histogramme de
frquences

6. H0 est rejete si Z fait partie des valeurs
extrmes (ex : 5%)
Statistique r de Mantel centre-rduite

(corrlation linaire de Pearson)

!
!
!
r = [ 1/(n-1)]
[ (x
i
ij -
x)/s x] (y i j - y)/s y
On peut aussi transformer les valeurs en rangs

et calculer le de Spearman
Exemple

Deux
matrices
de
distances
entre
4
sites
(S
-S
)

1 4
Distances
en
terme
dabondances
despces
(D
)

14
Distances
environnementales
(D
),
sur
la
base
de
1
plusieurs descripteurs du milieu
Matrice de distance D14

S
Matrice de distances D1
S
0,25 0,43 0,55
0,43 0,41 0,47
0,17 0,39
0,22 0,6
0,66
0,71
Calcul du Z de Mantel

Z = (0,25 x 0,43) + (0,43 x 0,41) + (0,55 x 0,47) +
(0,17 x 0,22) + (0,39 x 0,60) + (0,66 x 0,71) =

1,2823 (valeur observe)

: confrontation de la valeur observe

Test
lensemble des valeurs obtenues par permutations
alatoires (100 ici)
Permutations (Z
Observ
Z
1,2823
<Z
95
Proba (z)
=Z
>Z
0,05
(P = (2 + 3)/(95 + 2 + 3) = 5/100 = 0,05)

Observ
r
0,7982
Permutations
<r
95
=r
2
Proba (r)
>r
3
0,05
Le pourcentage de variance explique (R2), ainsi que la

puissance du test sont moins levs pour un test de
Mantel que pour une corrlation de Pearson sur les
donnes brutes correspondantes

Mieux dutiliser les donnes brutes quand cest

possible

Rserver le test de Mantel et ses drivs dans les

cas ou lutilisation des matrices de distance est
ncessaire

Pour contrler leffet dune troisime matrice (ex :
donnes temporelles ou spatiales), il existe un test de

Mantel partiel
Rgression multiple sur

matrices de distance
Gnralisation du test de Mantel plusieurs

matrices de distance : rgression multiple

Une matrice dpendante (Y)

N
matrices
indpendantes
(X
,
X
,
X
,...)

1 2 3
Test par permutations des objets de la matrice Y

Test des coefficients de rgression

7 Anamul

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

7 Anamul

Transféré par

Droits d'auteur :

Formats disponibles

7.

Traitent simultanment densembles dobjets

En biologie, on a souvent affaire des objets

caractriss par un grand nombre de variables

Problme : visualisation des donnes en plus de 3

Ordination (n variables) : recherche de gradients

Interprtation des structures

Rgression multiple : 1 variable dpendante, p

Y = f(X1, X2, ..., Xn)

Analyse canonique : n variables dpendantes, p

Tests statistiques : comparaison entre matrices

Test de Mantel : corrlation entre 2 matrices

Test de Mantel partiel : comparaison entre 2

matrices en contrlant leffet dune troisime

Simplifier la vision des donnes

Recherche des structures

Prise en compte des variables confondantes

Important de bien connatre les mthodes et leurs

planification dune tude : avant sa ralisation...

Mode Q : Objets X Objets

Mesure de similarit (Mode Q)

Problme du double zro

Oui : indices symtriques

Indice de similarit binaires symtriques

nombre de descripteurs valeur identique = 2

a : nombre de 1 dans les 2 objets

a + b + c + d = nombre total de descripteurs

Indices de similarit binaires asymtriques

Coefficient de Sorensen (S8)

Indices de similarits quantitatifs asymtriques

Coefficient de Kulcynski (S18)

Mesure de distance (Mode Q)

Coefficient de distance mtrique

Coefficient de distance mtriques

On standardise souvent les variables avant le calcul de

Distance de corde (D3) et mtrique godsique

Non affectes par le double-zro

D4 = arc cos (1 - (D3 / 2))

Coefficient de distance semi-mtriques

Appele diffrence de pourcentage

Ils existent pour diffrents types de variables

Coefficients de dpendance pour variables

Covariance : dispersion des 2 variables

Coefficients de dpendance pour variables semiquantitatives

Coefficient de dpendance pour variables

Certains parasites sont-ils associs certains htes ?

Modalit 1 Modalit 2 Modalit k

Valeur espre si indpendance des variables

avec O = valeur observe

Recherche des discontinuits dans les ensembles de

Classification cologique de prlvements (1-5) sur la

Ide sous-jacente : les milieux partageant les mmes

espces sont cologiquement proches

Groupement agglomratif liens

Groupement agglomratif liens complets

Liens simples : contracte lespace entre objets

Liens complets : dilate lespace entre les objets

Groupement agglomratif liens intermdiaires

Proportion = connexit.Varie entre 0 (liens

Groupement agglomratif moyen

Groupement selon lassociation moyenne

Chaque lment du groupe garde le mme poids

La matrice dassociation est reforme chaque