Vous êtes sur la page 1sur 6

ANALYSE FACTORIELLE DE DONNÉES MIXTES : PRINCIPE ET

EXEMPLE D’APPLICATION

Jérôme Pagès

Laboratoire de mathématiques appliquées


Agrocampus, 35042 Rennes cedex
email : pages@agrorennes.educagri.fr

Résumé
Une méthodologie factorielle permettant d’inclure à la fois des variables quantitatives et
qualitatives en tant qu’éléments actifs d’une même analyse a été proposée par B. Escofier en 1979
dans le cadre de l’analyse des correspondances multiples. De son côté, Saporta a esquissé en 1990
une méthodologie ayant le même objectif mais dans le cadre de l’analyse en composantes
principales. Enfin, la pratique de l’analyse factorielle multiple (AFM) suggère la possibilité de
mettre en œuvre une AFM sur des données mixtes en considérant chaque variable, quantitative ou
qualitative, comme un groupe d’une seule variable. On peut montrer que ces trois approches
conduisent aux même résultats. L’ensemble de ces trois points de vue confère à la méthode
proposée initiallement par B. Escofier le statut d’une méthode à part entière : l’Analyse Factorielle
de Données Mixtes (AFDM).
Cette communication présente le principe de l’AFDM et une application illustrant la façon dont elle
équilibre l’influence des différents types de variables.
Mots-clés : Analyse ou composantes principales, analyse des correspondances multiples, analyse
factorielle multiple, données mixtes.

Summary
In the framework of multiple correspondences analysis, B. Escofier (1979a) proposed a factor
analysis in which both quantitative and qualitative variables can intervene as active ones. This
approach is equivalent to the one outlined by Saporta (1990) in the principal components analysis
framework and to a multiple factor analysis (MFA ; Escofier & Pagès, 1998) in which each set of
variables is composed by only one variable. All these equivalencies lead to a method (Factor
analysis for mixed data: FAMD) having several good properties and easy to perform. This paper
presents the principle of FAMD and an application showing how it balances the influence of the
different kinds of variables.
Keywords : Principal components analysis, multiple correspondances analysis, multiple factor
analysis, mixed data.

1 Introduction
L’introduction simultanée de variables quantitatives et qualitatives (données dites mixtes) en tant
qu’éléments actifs d’une même analyse factorielle est une problématique fréquente. L’intérêt de
conserver telles quelles les variables quantitatives (i.e. sans les coder en qualitatives) vaut
essentiellement dans deux cas :
• lorsque le nombre de variables qualitatives est très petit comparé à celui des variables
quantitatives
• lorsque le nombre d’individus est faible.
Plusieurs propositions d’analyse factorielle de données mixtes ont déjà été faites. On peut citer,
sans prétendre à l’exhaustivité, les travaux suivants de l’Ecole française d’Analyse des données :
Tenenhaus (1977), Escofier (1979a) et Saporta (1990).
Adoptant le point de vue de l’ACM, Escofier (1979a) a proposé d’introduire des variables
quantitatives (moyennant un codage approprié) dans une ACM : elle décrit plusieurs propriétés de
cette méthodologie ainsi qu’une application.
Il est possible, moyennant une métrique judicieusement choisie, de réaliser une ACP sur un tableau
juxtaposant des variables quantitatives réduites et des variables qualitatives codées sous forme
disjonctive complète. Cette possibilité est esquissée dans Saporta (1990) sous le nom d’extension
de l’ACP et de l’ACM.
Enfin, lorsque les variables constituent des groupes homogènes (i.e. les variables d’un même
groupe sont de même type), une analyse factorielle multiple (AFM) peut être réalisée (Escofier &
Pagès, 1998 p 173 ; Pagès, 2002).
Si l’on transpose les idées de B. Escofier (1979a) dans le cadre de l’ACP, on retrouve l’extension
de Saporta (1990). En outre, cette méthode est équivalente à une AFM dans laquelle chaque groupe
est réduit à une seule variable, quantitative ou qualitative.
La convergence entre ces trois points de vue (ACP, ACM et AFM) apporte une justification solide à
cette méthodologie qui du coup mérite une dénomination à part entière soit : Analyse Factorielle de
Données Mixtes (AFDM). Les propriétés de l’AFDM sont étudiées en détail dans Pagès (2004),
présentation qui comporte une application sur des données réelles. Nous nous limitons ici à rappeler
le principe de l’AFDM et à décrire une application sur des données construites pour illustrer la
façon dont l’AFDM équilibre l’influence des différents types de variables.

2 Données, notations
Soient I individus notés i et munis du même poids pi = 1/I ∀i. Ces individus sont décrits par :
• K1 variables quantitatives {k = 1, K1} ; ces variables seront toujours supposées centrées
réduites ; ceci n’est pas une commodité mais une nécessité due à la présence des deux types de
variables ;
• Q variables qualitatives {q = 1, Q}; la qième variable présente Kq modalités {kq = 1, Kq} ;
l’ensemble des modalités a pour cardinal ΣqKq = K2.
Soit K = K1 + K2 le nombre total de variables quantitatives et de variables indicatrices.
Ces notations sont rassemblées dans le tableau de la figure 1 dans lequel les variables qualitatives
apparaissent à la fois sous leur forme condensée et sous leur forme disjonctive complète.

K1 variables Q variables Q variables qualitatives = K2


quantitatives qualitatives indicatrices
(centrées-réduites) (codage condensé) (codage disjonctif complet)
1 q Q
1 kq K2
1 k K1 1 q Q 1 kq Kq
1

i xik xiq xikq

I
Figure 1. Structure des données et principales notations.
xik : valeur de i pour la variable (centrée-réduite) k ; xiq: modalité de i pour la variable q ;
xikq : = 1 si i possède la modalité k de la variable q et 0 sinon

3 Représentation des variables dans RI


Soit RI l’espace des fonctions sur I. Cet espace est muni de la métrique diagonale des poids des
individus notée D : D (i, j) = 0 si j ≠ i
= pi si j = i
Généralement les individus ont le même poids : D = (1/I) Id (en notant Id la matrice identité de
dimension I).
Comme en ACP normée, les variables quantitatives sont représentées par des vecteurs de longueur
1.
Comme en ACM, la variable q est représentée par le nuage Nq de ses Kq indicatrices centrées. Ce
nuage engendre le sous-espace Eq de dimension Kq − 1, ensemble des fonctions sur I centrées et
constantes sur les classes de la partition définie par q. Pour que Nq ait, dans une ACP non normée,
les mêmes propriétés inertielles que dans une ACM, il faut affecter à l’indicatrice kq le poids 1/pkq
(en notant pkq la proportion des individus possédant la modalité kq). Comme les programmes d’ACP
usuels ne permettent pas l’introduction directe de poids de colonnes, on préfèrera diviser les valeurs
de l’indicatrice kq par pkq , ce que nous appelons le codage-ACP de la variable qualitative.
En procédant ainsi, on obtient en particulier la propriété fondamentale suivante de l’ACM : l’inertie
projetée de Nq sur une variable centrée y est égale au rapport de corrélation η ²(q, y) entre q et y.

4 Principe de l’AFDM
En recherchant la direction v de RI qui rend maximum l’inertie projetée du nuage NK (comportant à
la fois les variables quantitatives et les indicatrices), on rend maximum le critère (en notant r le
coefficient de corrélation) :
∑ r2 (k, v) + ∑ .η 2 ( q, v )
k∈K1 q∈Q

point de départ de la proposition de Saporta (1990 p66).


Géométriquement, les variables k étant réduites, r(k, v) = cosθkv, en notant θkv l’angle entre les
vecteurs k et v. De même, v étant centrée, η ²(q, v) = cos²θqv en notant θqv l’angle entre v et sa
projection sur Eq. Le critère s’écrit alors
∑ cos 2θ kv + ∑ cos2θ qv
k∈K1 q∈Q

point de départ de la présentation de l’AFDM par Escofier (1979a).


Dans sa présentation de l’AFDM, Escofier (1979a) adopte un point de vue technique symétrique de
celui choisi ici : elle se place dans le cadre de l’ACM et code la variable quantitative de façon à
obtenir un tableau traitable dans ce cadre. Il s’agit donc bien de la même méthode, dont les résultats
peuvent être obtenus via une ACM ou une ACP.
En AFM, les groupes de variables sont pondérés de façon rendre égale à 1 leur inertie axiale
maximum. En introduisant un tableau de données mixtes dans lequel chaque variable, quantitative
ou qualitative, constitue un groupe, on obtient donc les résultats de l’AFDM :
- les variables quantitatives sont centrées-réduites ;
- les variables qualitatives sont codées comme en ACM.
L’idée d’appliquer l’AFM à des groupes constitués chacun d’une seule variable quantitative ou
qualitative à déjà été proposée (Abascal-Fernandez et al 2003).

5 Graphiques de l’AFDM
Comme dans toute analyse factorielle on représente :
• le nuage des individus par sa projection sur ses axes d’inertie (on note Fs le facteur sur I de
rang s) ;
• les variables quantitatives par leur coefficient de corrélation avec les facteurs Fs ;
• les modalités de variables qualitatives par les centres de gravité des individus correspondant.
En outre, s’inspirant de la représentation des groupes de variables en AFM, on fait figurer sur un
même graphique les deux types de variables dans le droit fil des représentations des variables
qualitatives en ACM proposés par Escofier (1979b) ou Cazes (1982). La coordonnée de la variables
x le long de l’axe s vaut :
• r²(x, Fs) si x est une variable quantitative ;
• η²(x, Fs) si x est une variable qualitative.
Remarque : cette représentation n’annule pas l’intérêt du classique cercle des corrélations
puisqu’elle ne dépend pas du signe de r(x, Fs).

6 Application

6.1 Données, problématique


Les données ont été construites de façon à mettre en évidence les propriétés de l’AFDM avec un
tableau aussi petit que possible : ceci facilite la mise en évidence directe dans les données brutes
des résultats montrés par l’analyse. Elles se composent de deux variables quantitatives non
corrélées (A et B) et d’une variable qualitative (C) à trois modalités (C1, C2, C3) liée aux deux
précédentes (Tableaux 1 et 2).

données brutes données en vue d’une ACP


A B C Acr Bcr C1 C2 C3
a 1 1 1 -1.464 -1.225 1.732 0 0
b 2 2 1 -0.878 0 1.732 0 0 A B C
c 3 3 2 -0.293 1.225 0 1.732 0 A 1
d 4 3 2 0.293 1.225 0 1.732 0 B 0 1
e 5 2 3 0.878 0 0 0 1.732 C .914 .750 2
f 6 1 3 1.464 -1.225 0 0 1.732
Tableau 1. Données : six individus décrits par trois Tableau 2. Liaison entres les
variables variables initiales
A, B : deux variables quantitatives ; C : variables Pour deux variables
qualitative. Acr, Bcr : variables A et B centrées réduites ; quantitatives A, B : r²(A, B) ;
C1, C2, C3 : indicatrices des modalités de C « codées- Pour une variable qualitative C
ACP». et une variable quantitative A :
η²(A, C).

6.2 Pourcentages d’inertie


Les deux premiers axes expriment, à part à peu près égale, l’essentiel de l’inertie, résultat attendu
compte tenu de la structure des données (Tableau 3).

Inertie Totale Axe 1 Axe 2


Ensemble 4 (100%) 1.9562 (48.90%) 1.8660 (46.65%)
A 1 .9781 0
B 1 0 .9330
C 2 .9781 .9330
Tableau 3. Décomposition de l’inertie, par variable et par dimension de l’AFDM

La contribution d’une variable à l’inertie d’un facteur s’interprète comme une mesure de la liaison
(carré du coefficient de corrélation – cas d’une variable quantitative – ou le rapport de corrélation –
cas d’une variable qualitative) entre le facteur et la variable.
Le premier axe exprime la liaison entre A et C et le second la liaison entre B et C, résultat attendu
compte tenu de la non corrélation entre A et B et de la liaison plus forte entre A et C qu’entre B et
C (cf. Tableau 2). L’équilibre entre les contributions des deux types de variables apparaît ici de
façon parfaite.

6.3 Représentation des individus et des modalités (Figure 2)


Du point de vue des individus, l’axe 1 place bien les points selon l’ordre de la variable A, mais de
façon « caricaturée » par la variable C (par rapport à A, rapprochement de a et b, de c et d et de f et
e). De façon précise, par exemple, selon la variable quantitative A, b est à mi-chemin entre a et c ;
selon la variable qualitative C, b est confondu avec a. Le premier axe, lié de façon identique aux
variables A et C, place b dans une position compromis à savoir à mi-chemin entre le milieu de [a, c]
et de a. De ce point de vue aussi, le rôle joué par les deux types de variable est parfaitement
équilibré.
A propos du deuxième axe, on peut faire une remarque analogue : la position des individus
correspond globalement à la variable B mais est marquée par la variable qualitative.
Facteur 2 - 46.65 % Facteur 2 - 46.65 %

2 0.8

f a
1 0.4
C3 C1
e b
A
0 0

-1 -0.4

-2 d c
-0.8
C2
B
-0.8 -0.4 0 0.4 0.8
-3 Facteur 1 - 48.90 %
-3.0 -1.5 0 1.5 3.0
Facteur 1 - 48.90 %

Figure 2. Représentation des individus et des Figure 3. Représentation des variables


modalités (centres de gravité) quantitatives

6.4 Représentation des variables (Figures 3 et 4)


La représentation des variables quantitatives est celle, classique, de l’ACP (Figure 3). Globalement,
l’axe 1 correspond à la variable A et l’axe 2 à la variable B.
La représentation conjointe des deux types de variables (Figure 4) est une illustration du tableau 2.
Elle sera donc surtout précieuse dans le cas d’un grand nombre de variables. Dans cet exemple, elle
montre clairement la liaison de A avec F1, de B avec F2 et de C avec ces deux facteurs.
Facteur 2 - 46.65 %
1.00

B C
Figure 4. Représentation simultanée des
0.75 variables quantitatives et qualitatives
La coordonnée d’une variable le long de l’axe s
s’interprète comme une mesure de la liaison
0.50 (carré du coefficient de corrélation – cas d’une
variable quantitative – ou rapport de corrélation
– cas d’une variable qualitative) entre la
0.25 variable et le facteur s.

A
0
0 0.25 0.50 0.75 1.00
Facteur 1 - 48.90 %
7 Conclusion
La méthodologie proposée initialement par Escofier (1979a), dans le cadre de l’ACM, et esquissée
par Saporta (1990), dans le cadre de l’ACP, prend en compte les variables quantitatives comme une
ACP normée et les variables qualitatives comme une ACM. L’équilibre entre les deux types de
variables est assuré par leurs propriétés inertielles. Les résultats qu’elle produit peuvent être
interprétés avec les règles usuelles de l’ACP et de l’ACM. Sa mise en œuvre peut être réalisée très
facilement à l’aide d’un programme d’AFM.
En combinant l’AFDM et l’AFM, il est possible d’étendre l’AFM au cas de groupes de variables
pouvant inclure chacun des variables des deux types. Ces groupes sont codées de façon à ce que
leur ACP non normée conduise aux résultats de l’AFDM ; dans l’AFM, ils sont alors déclarés
comme quantitatifs. En procédant ainsi, on équilibre à la fois les groupes entre eux et les variables
au sein de chaque groupe. On retrouve ici un cas particulier d’analyse factorielle multiple
hiérarchique (Le Dien et Pagès 2002).

Bibliographie
[1] Abascal-Fernandez E., Landaluce-Cluo M.I., Garcia-Laube I. (2003). Multiple factor analysis of mixed
tables : a proposal for analysing problematic metric variables. Proceeding cf CARME 2003 meeting.
Barcelona, June 2003.
[2] Cazes P. (1980). Note sur les éléments supplémentaires en analyse des correspondances. Les cahiers de
l’analyse des données, 7 (1) 9-23 et 7 (2) 133-154
[3] Escofier B.(1979a). Traitement simultané de variables quantitatives et qualitatives en analyse factorielle.
Les cahiers de l’analyse des données 4 (2) 137-146.
[4] Escofier B.(1979b). Une représentation des variables dans l’analyse des correspondances multiples.
Revue Statistique Appliquée XXVII (4) 37-47.
[5] Escofier B. et Pagès J. (1998). Analyses factorielles simples et multiples. 3e ed. Dunod.
[6] Le Dien S. et Pagès J. (2002). Analyse factorielle multiple hiérarchique. Revue de statistique appliquée
LI (2) 47-73.
[7] Pagès J. (2002). Analyse factorielle multiple appliquée aux variables qualitatives et aux données mixtes.
Revue de statistique appliquée L (4) 5-37.
[8] Pagès J. (2004). Analyse factorielle de données mixtes. Revue de statistique appliquée à paraître.
[9] Saporta G. (1990). Simultaneous analysis of qualitative and quantitative data. Atti della XXXV riunione
scientifica ; società ita liana di statistica, 63-72.
[10] Tenenhaus M. (1977). Analyse en composantes principales d’un ensemble de variables nominales ou
numériques. Revue de Statistique Appliquée, XXV (2) 39-56.
[11] Spad (2002). Diffusé par CISIA – 30 rue Victor Hugo – 92532 Levallois-Perret cedex

Vous aimerez peut-être aussi