Académique Documents
Professionnel Documents
Culture Documents
Correspondances AFC,
Analyses des Correspondances
Multiples ACM, analyses mixtes
Analyse discriminante, classification
Emmanuelle Gilot-Fromont
Janvier 2020
1
AFC
1. Les données
2. Questions
4. Interprétation
5. Exemples
1. Les données
Table de contingence : effectifs obtenus en croisant deux variables
qualitatives
I distributions en ligne
1 j J
3
Exemple
10 distributions en
lignes
3 distributions en
colonnes
4
Tableau des fréquences
On considère souvent le tableau des fréquences :
fij = nij/n
5
Test d’indépendance
(observé théorique) 2
2
ij théorique
Théorique = nfi. f.j
6
Sous-exemple
17
37
12 11 31 54
7
Profils-lignes et profils-colonnes
8
Interprétation géométrique
9
Interprétation géométrique
10
2. Questions
Ressemblance entre les profils-lignes : y a-t-il des ressemblances /
différences entre lignes
y a-t-il des lésions qui ont le même profil d’évolution?
Correspondances :
à quelle lésion correspond quelle évolution?
11
Ressemblance
- distance du chi-deux
- distance entre les points-
lignes du nuage des lignes :
propriétés euclidiennes
12
3. Ajustement des nuages
Ajustement du nuage des lignes = chercher une suite privilégiée de
directions dans le nuage de points telle que :
13
Ajustement du nuage des colonnes
Chercher une suite privilégiée de directions dans le nuage de points
ayant les mêmes caractéristiques
Dualité:
- les inerties associées aux axes de mêmes rangs sont égales
- les facteurs de même rang sur les lignes et les colonnes sont liés par
des relations de transition
14
Relations de transition
1 f ij
Fs (i ) Gs ( j )
s j f i .
1 f ij
Gs ( j ) Fs (i )
s i f i .
15
En pratique
Transformation des données en fréquences
Centrage
16
4. Interprétation
- Analyse d’inertie
- Aides à l’interprétation
17
Analyse d’inertie
0.15
Mesure l’intensité de la liaison entre les
variables (chi2 = prise en compte de n =
0.10
significativité)
0.05
Analyse du pourcentage d’inertie reprise par
0.00
chaque axe, graphe des valeurs propres
18
Représentation graphique
Représentation simultanée des projections des deux nuages sur les
axes de même rang.
19
Représentation graphique
La projection
maximise la
corrélation canonique
= écart à
l’indépendance
20
Aides à l’interprétation
Les contributions ne sont pas triviales car les poids des lignes et des
colonnes ne sont plus uniformes
21
5. Exemples
devenir de taurillons
22
Gradient de gravité
Avifaune des Albères
généralistes
forêt pelouse
maquis
spécialistes
Classe d’âge et
activité
principale sur
internet
gradient d’âge
24
ACM
1. Les données
2. Questions
3. Analyse
4. Interprétation
5. Exemples
1. Les données
1 j J Variables qualitatives :
1 x11 chaque variable comprend
un petit nombre k de
modalités sans signification
numérique :
i xij
1 = bleu
2 = blanc
I xIJ 3 = rouge
26
Choix des classes
Nombre de classes :
- si trop peu, on groupe des individus différents
- si trop, effectifs faibles
27
Question Réponses possibles Poids (%) Abréviation
Mode seul 48,30% Seul
d'occupation colocataires
en couple
13,84%
13,05%
Coloc
Couple
Exemple
avec les parents 23,50% Parents
non réponse 1,31% NR1
cité universitaire 10,70% Cité 383 étudiants interrogés en
Type studio 28,20% Studio 2001 sur leurs modalités de
d'habitation appartement 30,29% Appart
chambre chez un particulier 5,22% Chambre logement
autre 19,84% Autre
non réponse 5,74% NR2
moins de 1 an 20,89% < 1 an
Ancienneté 1 à 3 ans 24,80% 1-3 ans
hors du foyer plus de 3 ans 28,72% > 3 ans
familial non applicable 24,80% NA
non réponse 0,78% NR3
Eloignement moins de 1 km 26,89% < 1 km
de la fac 1 à 5 km 49,87% 1 à 5 km
plus de 5 km 20,89% > 5 km
non réponse 2,35% NR4
Superficie moins de 10 m2 9,14% < 10
(m2) 10 à 20 m2 10 à 20
17,75%
28
20 à 30 m2 24,80% 20 à 30
plus de 30 m2 39,16% > 30
non réponse 9,14% NR5
Tableau disjonctif complet
Une colonne par modalité
1 j J
Une colonne = une
1
indicatrice (présence
/absence)
29
Tableau de Burt
Symétrique: J x J tables de
1 j k J contingences juxtaposées
(cf AFC)
1
Chaque TC représente une
relation entre deux
j TC(j,k) variables j et k
k TC(j,k)
30
2. Questions
Sur les individus : cf ACP : typologie, ressemblances / différences,
groupes
31
Questions sur les modalités
Une modalité = une colonne du tableau disjonctif complet : deux
modalités se ressemblent d’autant plus qu’elles sont portées par les
mêmes individus (TDC)
32
3. Analyse
Sur le tableau disjonctif complet :
Chaque modalité est représentée par les individus qui la portent (1)
ou non (0)
33
Ajustement des nuages
Cf ANOVA
34
Et les variables?
Le tableau disjonctif complet considère les modalités comme autant de
colonnes distinctes.
35
4. Interprétation
Analyse de l’inertie :
36
Représentation graphique
37
Exemple
38
Exemple
Le barycentre des
modalités d’une même
variable est au centre
du nuage
Une modalité
fréquente est proche
du centre du nuage
Une modalité
excentrée est une
modalité peu
représentée
39
Et les variables?
Logement étudiant :
associations:
- non-réponses
- seul / moins de 1 an
- colocation / couple
40
Aide à l’interprétation
Rapports de corrélation h2 = contributions de chaque axe à la
représentation de chaque modalité, sommés par variable
N’interpréter que les variables dont les h2 sont élevés pour un axe
donné!
41
5. Exemples
Logement étudiant :
- axe 1: gradient
répondants/non
répondants +
éloignement
42
Habitat de
l’ours
Caractéristiques
physiques (altitude,
dénivelée,
cloisonnement) et
paysagères (domaine
forestier, boisement,
hêtraie, zones favorables
à l’ours, zones
inexploitées, dernière
présence rapportée) de
38 massifs alpins.
43
Enquête loisirs selon age, sexe, niveau d’études atteint Enquête loisirs
44
Analyses mixtes
1. Données, questions
2. Analyse
3. Interprétation
1. données, questions
Tableau d’individus décrit par un ensemble variables quantitatives +
qualitatives
46
Principe
47
2. Analyse
ACP normée : la quantité maximisée est le coefficient de
corrélation r
(k , Fs )
r
k
2
( j, Fs )
h 2
En AFDM: j
k
r 2
( k , Fs )
j
( j, Fs )
h 2
48
En pratique
Juxtaposition d’un tableau des données quantitatives centrées
réduites et d’un tableau disjonctif complet dans lequel les 1 ont
été remplacés par des
s
ACP centrée
49
3. Interprétation
Mêmes éléments d’interprétations que l’ACP et l’ACM : inertie,
plans factoriels des lignes, des variables quantitatives et des
modalités qualitatives, aides à l’interprétation
50
Exemple
Plants de sorgho de 5 variétés,
décrits par
- 14 microsatellites
- 4 caractères morphologiques
(forme et compacité de la panicule,
couleur des
grains, couverture de la glume) et
- des caractères phénologiques
Barnaud 2007
51
Exemple: les loricarinae
- 30 individus (1/genre)
- 17 variables qualitatives
- 11 variables quantitatives
52
Analyse discriminante
Données, questions
Méthode
1. données, questions
Un ensemble d’individus de plusieurs groupes décrits par les
mêmes variables
Pétale L
Pétale l
Fonction discriminante
Chaque variable discrimine (partiellement)
F1 = discrimination
maximale
F2 = deuxième axe
possible
Interprétation
• Discrimination forte
sur l’axe 1
• Axe 1 Setosa //
autres, axe 2:
versicolor/virginica
• Axe 1: pétales et
longueur sépales,
(=axe 1 de l’ACP des
4 variables); axe 2:
largeur sépales (=axe
2 de l’ACP)
3. Méthodes de classification
1. Principe
Height
0 2 4 6 8
A1993
B1992
S1993
B2004
S1992
B1999
B2003
B2000
A1992
A1998
A1991
B1993
S1994
S2005
S2001
A1996
S2000
S1991
d01^2
S1998
S2002
B2002
hclust (*, "ward")
A1997
S1996
S1999
Cluster Dendrogram
B1998
S1997
A1994
B1997
B1994
S2003
B2001
Classification automatique
S2004
A1995
B1996
1. Principe
Objectif: répartir les éléments d’un
ensemble en groupes tels que: Cluster Dendrogram
8
homogènes
- Les groupes sont au maximum
6
différents entre eux
4
Height
Hauteur des nœuds peut être
2
proportionnelle à la différence
0
entre les éléments
A1991
B1993
B1994
S1991
S2003
B2000
S1993
A1993
B1992
B1999
B2003
S2001
B2002
A1997
A1994
B1997
B2004
S1992
S1994
S2005
B1998
S1997
B2001
S2004
A1995
B1996
A1992
A1998
A1996
S2000
S1998
S2002
S1996
S1999
La troncature du dendrogramme produit une partition: ici 4 groupes
d01^2
hclust (*, "ward")
61
2. Méthodes de mesure des distances
Variables quantitatives: distance euclidienne
Y compris pour les distances entre points sur un plan factoriel
d’ACM ou d’AFC
c
d 1
pqc
p/q = nombre de modalités présentes chez l’individu 1/2
c = nombre de modalités présentes chez les deux individus
62
3. Méthodes de classification
A partir de la matrice des distances des points deux à deux:
63
Algorithmes ascendants
Regroupement des deux points les plus proches
64
Algorithme de Ward
Algorithme ascendant dont le critère est que le regroupement doit
faire augmenter l’inertie intra-groupe au minimum
65
Exemple
Départements de la région
île-de-France : distribution
des votes sur 8 listes au 1er
tour des élections
régionales de 2004
66
Conclusion