Académique Documents
Professionnel Documents
Culture Documents
descriptives et multivariées
1. Analyses à un tableau
ind1
ind2
Ind3
.
.
.
.
.
.
.
Grande diversité
- Présence/absence,
abondances, mesures,
pourcentages, noms…
var
Colonnes
Entrées
Lignes
site ou sp
Quels types de données ?
Grande diversité
var site
Colonnes Objet
Entrées Entrées
Lignes Objet
site ou sp site
Quels types de données ?
Grande diversité
- Couplage
Variables
Espèces environnementales
Abondances Mesures
sites
Quels types de données ?
Grande diversité
- K- tableaux
sites
sites
Comment choisir une analyse ?
-de description:
Décrire un phénomène sans avoir d’idées a priori sur les résultats qui peuvent apparaître.
structurer et simplifier les données issues de plusieurs variables, sans privilégier l'une
d'entre elles en particulier
Résumer l’information en minimisant la déperdition d’informations et
repérer des dimensions cachées
ACP, AFC, ACM…
-d’explication
Les variables n’ont pas la même importance et ne jouent pas le même rôle. On est en
face d’un problème d’"explication" dès que l’on cherche à construire le schéma explicatif
d’un phénomène en utilisant d’autres phénomènes.
Expliquer une variable par plusieurs
Régressions, analyses discriminantes
Comment choisir une analyse ?
-de description:
Décrire un phénomène sans avoir d’idées a priori sur les résultats qui peuvent apparaître.
structurer et simplifier les données issues de plusieurs variables, sans privilégier l'une
d'entre elles en particulier
Résumer l’information en minimisant la déperdition d’informations et
repérer des dimensions cachées
ACP, AFC, ACM…
-d’explication
Les variables n’ont pas la même importance et ne jouent pas le même rôle. On est en
face d’un problème d’"explication" dès que l’on cherche à construire le schéma explicatif
d’un phénomène en utilisant d’autres phénomènes.
Expliquer une variable par plusieurs
Régressions, analyses discriminantes
Comment choisir une analyse ?
-de description:
Décrire un phénomène sans avoir d’idées a priori sur les résultats qui peuvent apparaître.
structurer et simplifier les données issues de plusieurs variables, sans privilégier l'une
d'entre elles en particulier
Résumer l’information en minimisant la déperdition d’informations et
repérer des dimensions cachées
ACP, AFC, ACM…
-d’explication
Les variables n’ont pas la même importance et ne jouent pas le même rôle. On est en
face d’un problème d’"explication" dès que l’on cherche à construire le schéma explicatif
d’un phénomène en utilisant d’autres phénomènes.
Expliquer une variable par plusieurs
Régressions, analyses discriminantes
Comment choisir une analyse ?
- Données quantitatives
• Données continues : elles sont issues de mesures (taille, poids, âge, quantité de
nourriture, taux d’hormones, quantité de nitrates, valeurs du pH, etc.) ;
- Données qualitatives
Elles peuvent se coder pour créer un tableau. Elles peuvent être codées en chiffres à valeurs arbitraires (1
et 2 par exemple, mais pourrait être aussi bien 0 et 1). Dans ce codage arbitraire, il n’y a pas de relation
d’ordre entre les nombres.
Comment choisir une analyse ?
Var
(T°, Azote,phosphates…)
sites 4,56
Données quantitatives
ACP (Analyse en Composantes Principales)
Données multivariées
Nombreuses variables
(dont certaines corrélées)
Var Var
(T°, Azote,phosphates…) (longueur_aile, masse…)
ou
sites 4,56 sp 9,02
Données quantitatives
p Var
Le tableau de données ayant p variables, les
individus (sites ou sp dans nos exemples) se
trouvent dans un espace à p dimensions. * *
n ind * * *
*
Quand deux dimensions (ex: largeur et
longueur), facile de représenter les données
sur un plan :
p Var
Le tableau de données ayant p variables, les
individus (sites ou sp dans nos exemples) se
trouvent dans un espace à p dimensions. * *
n ind * * *
*
Var
(T°, Azote,phosphates…)
sites 4,56
p
ACP (Analyse en Composantes Principales)
Données multivariées
Nombreuses variables
(dont certaines corrélées)
Var
(T°, Azote,phosphates…)
sites 4,56
p
4,5 3 15 19………………..
6 7 26 7…………………
………………………………..
n ……………………………….. n observations effectuées sur
p variables numériques
potentiellement corrélées
ACP (Analyse en Composantes Principales)
Données multivariées
Nombreuses variables
(dont certaines corrélées)
Var
(T°, Azote,phosphates…)
sites 4,56
p
4,5 3 15 19………………..
6 7 26 7………………… Résume un ensemble de
………………………………..
n ……………………………….. n observations effectuées sur
p variables numériques
potentiellement corrélées
k
en un ensemble de
k facteurs non-corrélés
n
(composantes principales-axes)
ACP (Analyse en Composantes Principales)
p Var.env
pH CaCo3 ……..etc
n sites
* * *
(xi,yi) * *
* (xi,yi,zi,wi….)
* * *
*
* *
* * *
* *
*
G
* *
*
*
* *
G : barycentre du nuage
Axe 1 = axe d’allongement maximal du nuage (première composante principale)
* * *
* *
*
G
* *
*
*
* *
G : barycentre du nuage
Axe 1 = axe d’allongement maximal du nuage (première composante principale)
Axe qui porte le maximum d’inertie c’est à dire qui explique la plus grande part de variance
La méthode consiste à définir la première droite D1 de façon à maximiser les carrés des
distances de projection des points sur la droite
Objectif: minimiser la
distance à l’axe
* * *
* *
*
G
* *
*
*
* * Objectif: maximiser la
somme des inerties
(variance) projetées
G : barycentre du nuage
Axe 2 = axe perpendiculaire à Axe 1
Axe 2
Axe 1
* * *
* *
* *
* * *
*
* *
*
G*
*
*
* *
G : barycentre du nuage
Rotation
Plan principal
Axe 2
Axe 1
G
*
*
*
Rotation
Plan principal
Axe 2
Axe 1
G
*
*
*
Rotation
Plan principal
Axe 2
Axe 1
G
*
*
*
ACP (Analyse en Composantes Principales)
Une analyse telle que l’ACP ramène le nuage de points en trois,
quatre ou n dimensions à un plan en 2 dimensions.
ACP (Analyse en Composantes Principales)
Une analyse telle que l’ACP ramène le nuage de points en trois,
quatre ou n dimensions à un plan en 2 dimensions.
Ainsi, si les deux premiers axes d’une ACP ne fournissent pas une
partie écrasante de l’information, il convient de s’intéresser à
l’information complémentaire fournie par le troisième axe. On peut
visualiser le plan formé par les axes 1 et 3 et celui par les axes 2 et
3. On peut aussi lire dans le tableau les coordonnées des différents
points pour les différents axes, afin de repérer les éventuels écarts
importants (deux points côte-à-côte sur le plan principal peuvent être très
éloignés en réalité).
ACP (Analyse en Composantes Principales)
p Variables "corrélées"
k Axes : variables indépendantes les unes des autres (donc "non corrélées").
Ces nouvelles variables sont nommées « composantes principales »
(comb. linéaires des p var. d’origine)
• Ces k composantes capturent le maximum de variation dans les observations
• Axe1 est la direction de variance maximale dans le nuage de points p-dimensionnel
* Axe2 est dans la direction de plus grande variance après PC1, avec la contrainte
que la covariance entre PC1 et PC2 est nulle;…
Axe 1
= PC1= Composante principale 1
ACP (Analyse en Composantes Principales)
edit(meteo)
dim(meteo)
meteo<-read.table ("meteo.txt", h=T, row.names=1)
edit(meteo)
dim(meteo)
boxplot(meteo)
summary(meteo)
edit(meteo)
dim(meteo)
boxplot(meteo)
summary(meteo)
cor(meteo)
Inertie
Axes
# On obtient de nombreuses informations. Que veulent-elles dire ?
acpmeteo
Select the number of axes: 3
Duality diagramm
class: pca dudi
$call: dudi.pca(df = meteo, center = TRUE, scale = TRUE, scannf = TRUE, nf = 2)
$nf: 3 axis-components saved
$rank: 5
eigen values: 1.801 1.312 0.9632 0.6606 0.2633
vector length mode content
1 $cw 5 numeric column weights
2 $lw 400 numeric row weights
3 $eig 5 numeric eigen values
data.frame nrow ncol content
1 $tab 400 5 modified array
2 $li 400 3 row coordinates
3 $l1 400 3 row normed scores
4 $co 5 3 column coordinates
5 $c1 5 3 column normed scores
other elements: cent norm
names(acpmeteo)
[1] "tab" "cw" "lw" "eig" "rank" "nf" "c1" "li" "co" "l1" "call" "cent" "norm
head(acpmeteo$tab)
head(acpmeteo$cw) ….etc
names(acpmeteo)
[1] "tab" "cw" "lw" "eig" "rank" "nf" "c1" "li" "co" "l1" "call" "cent" "norm
eig: valeurs propres (eigen values) = fraction de l'inertie (variance) totale prise en
compte par chaque axe ( !!! sur le graphique, on exprime en % inertie)
acpmeteo$eig
1.8013073 1.3115447 0.9631864 0.6606342 0.2633273
Dans notre exemple, le premier axe factoriel extrait 36.1 % de l'inertie totale, le
deuxième axe factoriel 26.2 % de l'inertie totale. Le premier plan factoriel représente
donc 62.3 % de l'inertie initiale. Ceci signifie que lorsque nous projetons le nuage de
points initial sur le plan defini par les deux premiers axes factoriels, nous avons
perdu de l’information (mais 62 % : déjà très bien).
# Coordonnées des variables et des sites sur les différents axes
acpmeteo$c1
acpmeteo$li
acpmeteo$l1
# On peut les récupérer, les coller (cbind) puis les écrire dans un fichier .csv (write.csv) pour
les manipuler par exemple sous excel (mettre au carré, puis ordonner pour trouver celles
qui contribuent le plus…), même principe pour c0,c1,li,l1
sortie<- acpmeteo$li
write.csv(sortie, ‘sortie_coord_ind.csv’)
# Données dont on se sert assez peu:
Les points les plus intéressants sont généralement ceux qui sont
assez proches d'un des axes, et assez loin de l'origine. Ces points sont
bien corrélés avec cet axe et sont les points explicatifs pour l'axe : Ce
sont les points les plus “parlants” ; leur “vraie distance” de l'origine
est bien représentée sur le plan factoriel.
Il se peut que sur un axe ils soient très proches, alors que sur un
autre ils seront très loin l'un de l'autre. Il faut donc les regarder par
rapport à tous les axes qui ont été retenus pour l'analyse. S'ils sont
bien corrélés avec l'axe qui les montre proches, alors, on peut
conclure qu’ils sont vraiment proches.
2. Représentation des variables
Exemple :
> dimdesc(resHOC.acp)
$Dim.1
correlation P-value
C31 0.9945125 6.959405e-38
…
C57 0.5007367 1.167711e-03
$Dim.2
correlation P-value
C14 0.9449266 1.549951e-19
C58 0.8884877 4.435173e-14
C24 0.7526624 3.269133e-08
$Dim.3
correlation P-value
C49 0.9142193 4.327578e-16
C2 -0.3246164 4.377473e-02
3. Représentation simultanée des individus et des variables
scatter(acpmeteo)
s.label (acpmeteo$li,label=0.5)
s.label (acpmeteo$co*5, add=TRUE)
library(ade4)
library(ade4TkGUI)
ade4TkGUI (TRUE)
Analyses sur un tableau
ACP (PCA)
(dudi.pca)
Nom de fichier d’entrée
(attention, quand import dans R,
préciser : h=T, row.names=1)
Sites
(ou sp
ou indiv)
ACP
(dudi.pca)
var
Quantitatif
AFC
(dudi.coa)
var
Pa, abce,
contingence
Autres analyses sur un tableau
AFC
(dudi.coa)
var
Pa, abce,
contingence
AFC (analyse factorielle des correspondances)
Différences entre ACP et AFC:
- ACP n’est pas une analyse symétrique: on cherche plutôt à savoir comment se
répartissent les lignes en fonction des colonnes (ex: rel / var meteo)
- AFC est une analyse symétrique: elle ne tient pas compte de la structure en ligne ou
en colonne du tableau. Elle est plutôt réservée à l’analyse de table de contingence
sp
sites
AFC (analyse factorielle des correspondances)
Différences entre ACP et AFC:
- ACP n’est pas une analyse symétrique: on cherche plutôt à savoir comment se
répartissent les lignes en fonction des colonnes (ex: rel / var meteo)
- AFC est une analyse symétrique: elle ne tient pas compte de la structure en ligne ou
en colonne du tableau. Elle est plutôt réservée à l’analyse de table de contingence.
- Le critère de maximisation pour les axes est le chi2, écart à l’indépendance entre les
lignes et les colonnes. C’est la représentation graphique associée au chi2. Ici, on ne teste
plus, mais on décrit plutôt la relation éventuelle entre les lignes et les colonnes.
- Les axes de l’AFC maximisent la séparation des espèces par les sites et en même
temps la séparation des sites par les espèces
sites
sp
sites
sp sites
Autres analyses sur un tableau
var
Sites
(ou sp
ou indiv)
Analyse de Hill smith
ACP
(dudi.pca) var
var
Quantitatif
Qualitatif
Quantitatif
AFC
(dudi.coa)
var
Pa, abce,
contingence
Autres analyses sur un tableau
var
Quantitatif
Qualitatif
Autres analyses sur un tableau
var
Sites Quantitatif
(ou sp Qualitatif
ou indiv)
Analyse de Hill smith
ACP
PCO (=PCoA)**
Sur matrice de distance !!!
AFC
Sites*
Sites* Dissimilarité
principal coordinates
analysis
PCO (=PCoA)
Sur matrice de distance !!!
Sites*
Sites* Dissimilarité
sp
-AFC (Analyse factorielle des correspondances = CA – dudicoa)
Analyse symétrique, données de présence/absence ou sites 0/1
abondances, tables de contingence. (souvent bcp de « 0 ») 57
sites
-PCO (Analyse en coordonnées principales= PcoA)
Indice
- tableaux (=matrice) : Distances (dissimilarités) sites De dis-
similarité
Exemples
PCA (=ACP)
Jeux de données :
(meteo.txt)
HabitatCLCBuf150.txt
HabitatCLCBuf150Sans211
Exemple
Caractérisation paysagère (en terme habitats) de sites
Codes
Sites
Exemple
Caractérisation paysagère (en terme habitats) de sites
Codes
Sites
Exemple
Caractérisation paysagère (en terme habitats) de sites
Codes
Sites
Codes numériques
CORINE land cover
Caractérisation paysagère (en terme habitats) de sites
Hab<-read.table(‘HabitatCLCBuf150.txt’,h=T,row.names=1)
Nom du fichier « data » à analyser
Nom du fichier de sortie de l’analyse
Terres arables
Vegetation arbustive
et herbacée
Forêts
Prairies
Analyse sans l’habitat 211
Zone
agricoles
hetérogènes
Vegetation arbustive
et herbacée
L231:prairies
L242 & 243: Z. agri.hetero
L321:pelouses
L322:landes
L323:veg. sclerophylle
L333:veg.clairsemée
Analyse sans l’habitat 211
Forêts de conifères
Forêts de feuillus
Tissu urbain
discontinu
COA (=AFC)
Jeux de données :
aranstationspAb.txt
aran<-read.table('aranstationspAb.txt',h=T,row.names=1)
aranstationspAb.txt
Espèces
Station H1 0 0 1 0 0
H2 0 0 59 0 0
H : avec haie S1 0 0 6 0 1
S2 0 1 17 0 10
S3 1 14 16 0 11
H3 0 1 1 0 7
Effectifs collectés
S4 0 1 2 0 0
H4 0 9 6 0 0
H5 0 14 5 0 6
S : sans haie S5 0 20 0 0 14
S6 0 0 17 0 2
S7 0 0 3 0 0
Espèces
Station
Représentations: s.label, s.arrow…voir aussi s.class
s.label(afc_aran$li)
haie<-read.table('aranstationspAb_haie.txt',h=T,row.names=1)
s.class(afc_aran$li,haie[,1])
sous-entendu
colonne n°1 du fichier haie
Avec bien sûr ordre(labels) des
entêtes de lignes identiques
dans les deux fichiers
s.class(afc_aran$li,haie[,1],
chullSize = 1)
Hill smith
Jeux de données :
CaractAutoroute.txt
Graphisme:
Pour plus d’infos sur les options « graphiques »:
https://cran.r-project.org/web/packages/adegraphics/adegraphics.pdf
library(ade4graphics)
http://www.sthda.com/french/articles/38-methodes-des-composantes-principales-
dans-r-guide-pratique/80-acp-dans-r-avec-ade4-scripts-faciles/
library(factoextra)