Académique Documents
Professionnel Documents
Culture Documents
EXEMPLE D’APPLICATION
Jérôme Pagès
Résumé
Une méthodologie factorielle permettant d’inclure à la fois des variables quantitatives et
qualitatives en tant qu’éléments actifs d’une même analyse a été proposée par B. Escofier en 1979
dans le cadre de l’analyse des correspondances multiples. De son côté, Saporta a esquissé en 1990
une méthodologie ayant le même objectif mais dans le cadre de l’analyse en composantes
principales. Enfin, la pratique de l’analyse factorielle multiple (AFM) suggère la possibilité de
mettre en œuvre une AFM sur des données mixtes en considérant chaque variable, quantitative ou
qualitative, comme un groupe d’une seule variable. On peut montrer que ces trois approches
conduisent aux même résultats. L’ensemble de ces trois points de vue confère à la méthode
proposée initiallement par B. Escofier le statut d’une méthode à part entière : l’Analyse Factorielle
de Données Mixtes (AFDM).
Cette communication présente le principe de l’AFDM et une application illustrant la façon dont elle
équilibre l’influence des différents types de variables.
Mots-clés : Analyse ou composantes principales, analyse des correspondances multiples, analyse
factorielle multiple, données mixtes.
Summary
In the framework of multiple correspondences analysis, B. Escofier (1979a) proposed a factor
analysis in which both quantitative and qualitative variables can intervene as active ones. This
approach is equivalent to the one outlined by Saporta (1990) in the principal components analysis
framework and to a multiple factor analysis (MFA ; Escofier & Pagès, 1998) in which each set of
variables is composed by only one variable. All these equivalencies lead to a method (Factor
analysis for mixed data: FAMD) having several good properties and easy to perform. This paper
presents the principle of FAMD and an application showing how it balances the influence of the
different kinds of variables.
Keywords : Principal components analysis, multiple correspondances analysis, multiple factor
analysis, mixed data.
1 Introduction
L’introduction simultanée de variables quantitatives et qualitatives (données dites mixtes) en tant
qu’éléments actifs d’une même analyse factorielle est une problématique fréquente. L’intérêt de
conserver telles quelles les variables quantitatives (i.e. sans les coder en qualitatives) vaut
essentiellement dans deux cas :
• lorsque le nombre de variables qualitatives est très petit comparé à celui des variables
quantitatives
• lorsque le nombre d’individus est faible.
Plusieurs propositions d’analyse factorielle de données mixtes ont déjà été faites. On peut citer,
sans prétendre à l’exhaustivité, les travaux suivants de l’Ecole française d’Analyse des données :
Tenenhaus (1977), Escofier (1979a) et Saporta (1990).
Adoptant le point de vue de l’ACM, Escofier (1979a) a proposé d’introduire des variables
quantitatives (moyennant un codage approprié) dans une ACM : elle décrit plusieurs propriétés de
cette méthodologie ainsi qu’une application.
Il est possible, moyennant une métrique judicieusement choisie, de réaliser une ACP sur un tableau
juxtaposant des variables quantitatives réduites et des variables qualitatives codées sous forme
disjonctive complète. Cette possibilité est esquissée dans Saporta (1990) sous le nom d’extension
de l’ACP et de l’ACM.
Enfin, lorsque les variables constituent des groupes homogènes (i.e. les variables d’un même
groupe sont de même type), une analyse factorielle multiple (AFM) peut être réalisée (Escofier &
Pagès, 1998 p 173 ; Pagès, 2002).
Si l’on transpose les idées de B. Escofier (1979a) dans le cadre de l’ACP, on retrouve l’extension
de Saporta (1990). En outre, cette méthode est équivalente à une AFM dans laquelle chaque groupe
est réduit à une seule variable, quantitative ou qualitative.
La convergence entre ces trois points de vue (ACP, ACM et AFM) apporte une justification solide à
cette méthodologie qui du coup mérite une dénomination à part entière soit : Analyse Factorielle de
Données Mixtes (AFDM). Les propriétés de l’AFDM sont étudiées en détail dans Pagès (2004),
présentation qui comporte une application sur des données réelles. Nous nous limitons ici à rappeler
le principe de l’AFDM et à décrire une application sur des données construites pour illustrer la
façon dont l’AFDM équilibre l’influence des différents types de variables.
2 Données, notations
Soient I individus notés i et munis du même poids pi = 1/I ∀i. Ces individus sont décrits par :
• K1 variables quantitatives {k = 1, K1} ; ces variables seront toujours supposées centrées
réduites ; ceci n’est pas une commodité mais une nécessité due à la présence des deux types de
variables ;
• Q variables qualitatives {q = 1, Q}; la qième variable présente Kq modalités {kq = 1, Kq} ;
l’ensemble des modalités a pour cardinal ΣqKq = K2.
Soit K = K1 + K2 le nombre total de variables quantitatives et de variables indicatrices.
Ces notations sont rassemblées dans le tableau de la figure 1 dans lequel les variables qualitatives
apparaissent à la fois sous leur forme condensée et sous leur forme disjonctive complète.
I
Figure 1. Structure des données et principales notations.
xik : valeur de i pour la variable (centrée-réduite) k ; xiq: modalité de i pour la variable q ;
xikq : = 1 si i possède la modalité k de la variable q et 0 sinon
4 Principe de l’AFDM
En recherchant la direction v de RI qui rend maximum l’inertie projetée du nuage NK (comportant à
la fois les variables quantitatives et les indicatrices), on rend maximum le critère (en notant r le
coefficient de corrélation) :
∑ r2 (k, v) + ∑ .η 2 ( q, v )
k∈K1 q∈Q
5 Graphiques de l’AFDM
Comme dans toute analyse factorielle on représente :
• le nuage des individus par sa projection sur ses axes d’inertie (on note Fs le facteur sur I de
rang s) ;
• les variables quantitatives par leur coefficient de corrélation avec les facteurs Fs ;
• les modalités de variables qualitatives par les centres de gravité des individus correspondant.
En outre, s’inspirant de la représentation des groupes de variables en AFM, on fait figurer sur un
même graphique les deux types de variables dans le droit fil des représentations des variables
qualitatives en ACM proposés par Escofier (1979b) ou Cazes (1982). La coordonnée de la variables
x le long de l’axe s vaut :
• r²(x, Fs) si x est une variable quantitative ;
• η²(x, Fs) si x est une variable qualitative.
Remarque : cette représentation n’annule pas l’intérêt du classique cercle des corrélations
puisqu’elle ne dépend pas du signe de r(x, Fs).
6 Application
La contribution d’une variable à l’inertie d’un facteur s’interprète comme une mesure de la liaison
(carré du coefficient de corrélation – cas d’une variable quantitative – ou le rapport de corrélation –
cas d’une variable qualitative) entre le facteur et la variable.
Le premier axe exprime la liaison entre A et C et le second la liaison entre B et C, résultat attendu
compte tenu de la non corrélation entre A et B et de la liaison plus forte entre A et C qu’entre B et
C (cf. Tableau 2). L’équilibre entre les contributions des deux types de variables apparaît ici de
façon parfaite.
2 0.8
f a
1 0.4
C3 C1
e b
A
0 0
-1 -0.4
-2 d c
-0.8
C2
B
-0.8 -0.4 0 0.4 0.8
-3 Facteur 1 - 48.90 %
-3.0 -1.5 0 1.5 3.0
Facteur 1 - 48.90 %
B C
Figure 4. Représentation simultanée des
0.75 variables quantitatives et qualitatives
La coordonnée d’une variable le long de l’axe s
s’interprète comme une mesure de la liaison
0.50 (carré du coefficient de corrélation – cas d’une
variable quantitative – ou rapport de corrélation
– cas d’une variable qualitative) entre la
0.25 variable et le facteur s.
A
0
0 0.25 0.50 0.75 1.00
Facteur 1 - 48.90 %
7 Conclusion
La méthodologie proposée initialement par Escofier (1979a), dans le cadre de l’ACM, et esquissée
par Saporta (1990), dans le cadre de l’ACP, prend en compte les variables quantitatives comme une
ACP normée et les variables qualitatives comme une ACM. L’équilibre entre les deux types de
variables est assuré par leurs propriétés inertielles. Les résultats qu’elle produit peuvent être
interprétés avec les règles usuelles de l’ACP et de l’ACM. Sa mise en œuvre peut être réalisée très
facilement à l’aide d’un programme d’AFM.
En combinant l’AFDM et l’AFM, il est possible d’étendre l’AFM au cas de groupes de variables
pouvant inclure chacun des variables des deux types. Ces groupes sont codées de façon à ce que
leur ACP non normée conduise aux résultats de l’AFDM ; dans l’AFM, ils sont alors déclarés
comme quantitatifs. En procédant ainsi, on équilibre à la fois les groupes entre eux et les variables
au sein de chaque groupe. On retrouve ici un cas particulier d’analyse factorielle multiple
hiérarchique (Le Dien et Pagès 2002).
Bibliographie
[1] Abascal-Fernandez E., Landaluce-Cluo M.I., Garcia-Laube I. (2003). Multiple factor analysis of mixed
tables : a proposal for analysing problematic metric variables. Proceeding cf CARME 2003 meeting.
Barcelona, June 2003.
[2] Cazes P. (1980). Note sur les éléments supplémentaires en analyse des correspondances. Les cahiers de
l’analyse des données, 7 (1) 9-23 et 7 (2) 133-154
[3] Escofier B.(1979a). Traitement simultané de variables quantitatives et qualitatives en analyse factorielle.
Les cahiers de l’analyse des données 4 (2) 137-146.
[4] Escofier B.(1979b). Une représentation des variables dans l’analyse des correspondances multiples.
Revue Statistique Appliquée XXVII (4) 37-47.
[5] Escofier B. et Pagès J. (1998). Analyses factorielles simples et multiples. 3e ed. Dunod.
[6] Le Dien S. et Pagès J. (2002). Analyse factorielle multiple hiérarchique. Revue de statistique appliquée
LI (2) 47-73.
[7] Pagès J. (2002). Analyse factorielle multiple appliquée aux variables qualitatives et aux données mixtes.
Revue de statistique appliquée L (4) 5-37.
[8] Pagès J. (2004). Analyse factorielle de données mixtes. Revue de statistique appliquée à paraître.
[9] Saporta G. (1990). Simultaneous analysis of qualitative and quantitative data. Atti della XXXV riunione
scientifica ; società ita liana di statistica, 63-72.
[10] Tenenhaus M. (1977). Analyse en composantes principales d’un ensemble de variables nominales ou
numériques. Revue de Statistique Appliquée, XXV (2) 39-56.
[11] Spad (2002). Diffusé par CISIA – 30 rue Victor Hugo – 92532 Levallois-Perret cedex