Vous êtes sur la page 1sur 8

Description d'une variable catégorielle ou d'une sous-population

L'analyse multidimensionnelle est souvent complétée par des analyses univariées qui sont
utilisées pour caractériser un certain nombre de variables spécifiques. Nous nous
concentrerons ici sur la description d'une variable catégorielle spécifique ainsi que de
groupes d'individus définis par les catégories de cette variable. Pour ce faire, nous pouvons
utiliser des variables quantitatives, des variables catégorielles ou les catégories de variables
catégorielles.
Par exemple, nous décrirons ici en détail la variable « type » (moins cher, luxe, supermarché,
etc.); une caractéristique intéressante de cette variable est qu'elle comporte plus de deux
catégories.
Description d'une variable catégorielle par une variable catégorielle
Pour évaluer la relation entre la variable catégorielle qui nous intéresse (« type ») et une
autre variable catégorielle, nous pouvons effectuer un test du chi- 2.
Plus la valeur de p-value associée au test est petite, plus l'hypothèse d'indépendance est
douteuse et plus la variable catégorique caractérise la variable « type ». Les variables
catégorielles peuvent donc être triées par ordre croissant de p-value. Dans l'exemple (voir
tableau 3.5), la variable « lieu d'achat » est le plus étroitement lié à la variable « type ».

Description d'une sous-population (ou d'une catégorie) par une variable


quantitative
Pour chaque catégorie de la variable catégorielle « type »  et pour chaque variable
quantitative (notée X), le v- test (une valeur de test) est calculé comme suit:

où x́ q est la moyenne de la variable X pour les individus de la catégorie q, x́ est la moyenne de


X pour tous les individus, et Iq est le nombre d'individus portant la catégorie q. Cette valeur
est utilisée pour tester l'hypothèse nulle suivante:
« les valeurs de X pour les individus qui ont choisi la catégorie q sont choisies au hasard
parmi toutes les valeurs possibles de X ». On considère donc la variable aléatoire X́ q ,
moyenne des individus pour la catégorie q. Sa valeur et sa variance attendues sont

Le v-test peut donc être considéré comme un "écart standardisé" entre la moyenne des
individus de catégorie q et la moyenne générale.
Nous pouvons attribuer une probabilité au v-test. Si, parmi les participants, X est
normalement distribué selon l'hypothèse nulle, la distribution X́ q est la suivante:

Si X n'est pas normalement distribué, nous pouvons toujours utiliser la distribution normale
comme distribution approximative pour X́ q . Nous considérons le v-test comme une
statistique du test pour H0 (la moyenne de X pour la catégorie q est égale à la moyenne
générale, "ou en d'autres termes, la variable X ne caractérise pas la catégorie q") et peut donc
calculer une p-value.
Remarque
Lorsque les catégories proviennent d'un regroupement, ce test ne peut être appliqué de
manière satisfaisante qu'aux variables supplémentaires (c'est-à-dire qui n'ont pas été
utilisées pour déterminer les catégories), mais elles sont également calculées pour les
variables actives à titre d'information.
Étant donné que la valeur de p fournit une indication de la signification "d'un écart donné, il
est logique d'organiser les variables quantitatives par ordre décroissant de v-test en se
limitant à des valeurs de p inférieures à 5%.
Dans l'exemple (voir ci-dessous), la seule catégorie à être caractérisée par une variable
quantitative est le luxe. Cette catégorie est caractérisée par des individus d'âge supérieur à la
moyenne, le v-test étant positif. L'âge moyen de ceux qui achètent dans cette classe est de
43,4 ans alors que l'âge moyen global est de 37,1 ans.

Description d'une sous-population (ou d'une catégorie) par les catégories d'une
variable catégorielle
La description d'une variable catégorielle peut être affinée en étudiant les relations entre les
catégories. Nous caractérisons ainsi chacune des catégories de la variable qui nous intéresse
(type de variable) en utilisant les catégories des variables catégorielles.
Ces calculs sont illustrés en utilisant d'abord la variable « lieu d'achat » et ensuite le tableau
de contingence pour la variable « type » et « lieu d'achat » (voir tableau 3.6)
Examinons la catégorie « luxe » et considérons la variable « lieu d'achat » qui comprend trois
catégories: « supermarché », « supermarché + spécialiste » et « magasin spécialisé ». Nous
examinerons de plus près le magasin spécialisé (voir tableau 3.7). La question suivante est
posée:
La catégorie « luxe » est-elle caractérisée par la catégorie boutique spécialisée? "L'objectif est
de calculer la proportion de personnes qui achètent leur thé dans une boutique spécialisée
Iq
parmi celles qui achètent du thé de luxe à partir du pourcentage global des personnes qui
t

Iq
I
achètent leur thé dans des magasins spécialisés t .
I

Ces deux proportions sont égales sous l'hypothèse nulle d'indépendance :


Iq It
t
=
Iq I

I q individus sont sélectionnés au hasard (ceux de la catégorie qui nous intéresse dans le luxe)
parmi I (la population totale). Nous nous concentrerons sur la variable aléatoire X égale au
nombre I q d'occurrences d'individus ayant la caractéristique étudiée (achetée dans un
t

magasin spécialisé), tout en rappelant que leur taille d'échantillon au sein de la population est
It. Sous l'hypothèse nulle, la variable aléatoire X suit la distribution hypergéométrique H (I;
It; Iq). La probabilité d'avoir une valeur plus extrême que la valeur observée peut donc être
calculée. Pour chaque catégorie de la variable étudiée, chacune des catégories des variables
catégorielles caractérisantes peut être triée par ordre croissant de valeur p. La première ligne
du tableau 3.8 indique que 70% (21 = 30; voir le tableau 3.6 ou l'extrait) des personnes qui
achètent leur thé dans des magasins spécialisés appartiennent également à la classe luxe;
39,6% (21 = 53; voir tableau 3.6) des individus de la classe luxe achètent leur thé dans des
magasins spécialisés; 10% (30 = 300; voir tableau 3.6) des participants achètent leur thé
dans des magasins spécialisés. La valeur de p du test (1.58e-11) est fournie avec le test v
associé (6.64). Le test v correspond ici au quantile de la distribution normale qui est associé à
la valeur p; le signe indique une surreprésentation ou une sous-représentation (Lebart et al.,
2006). Les catégories de toutes les variables catégorielles sont organisées du plus au moins
caractéristique lorsque la catégorie est surreprésentée dans la classe donnée (c'est-à-dire la
catégorie en question) par rapport aux autres catégories (le test v est donc positif), et du
moins caractéristique à la plupart lorsque la catégorie est sous-représentée dans la classe (et
le v-test est donc négatif). Les individus qui achètent du thé de luxe se caractérisent surtout
par le fait qu'ils n'achètent pas de thé dans les supermarchés (le test V pour les supermarchés
est négatif et a la valeur absolue la plus élevée).
A propos de l’AFC
L’analyse factorielle des correspondances (AFC ou CA pour correspondence analysis en
anglais) est une extension de l’analyse en composantes principales pour analyser l’association
entre deux variables qualitatives (ou catégorielles).

L’AFC permet de résumer et de visualiser l’information contenue dans le tableau de


contingence formé par les deux variables catégorielles. Le tableau de contingence contient les
fréquences formées par les deux variables.

L’AFC retourne les coordonnées des éléments des colonnes et des lignes du tableau de
contingence. Ces coordonnées permettent de visualiser graphiquement l’association entre les
éléments de lignes et de colonnes dans un graphique à deux dimensions.

Significativité statistique
Pour interpréter l’AFC, la première étape consiste à évaluer s’il existe une dépendance
significative entre les lignes et les colonnes.

Une méthode rigoureuse consiste à utiliser la statistique de khi2 pour examiner l’association
entre les modalités des lignes et celles des colonnes.

Valeurs propres / Variances


L’examination des valeurs propres permet de déterminer le nombre d’axes principaux à
considérer. Les valeurs propres correspondent à la quantité d’informations retenue par
chaque axe. Elles sont grandes pour le premier axe et petites pour l’axe suivant.

Les valeurs propres peuvent être utilisées pour déterminer le nombre d’axes à retenir. Il n’y a
pas de «règle générale» pour choisir le nombre de dimensions à conserver pour
l’interprétation des données. Cela dépend de la question et du besoin du chercheur. Par
exemple, si vous êtes satisfait avec 80% des variances totales expliquées, utilisez le nombre
de dimensions nécessaires pour y parvenir.
Une autre méthode pour déterminer le nombre de dimensions est de regarder le graphique
des valeurs propres (scree plot), ordonnées de la plus grande à la plus petite valeur. Le
nombre d’axes est déterminé par le point point, au-delà duquel les valeurs propres restantes
sont toutes relativement petites et de tailles comparables.
Il est également possible de calculer une valeur propre moyenne au-dessus de laquelle l’axe
doit être conservé dans le résultat.

Encadré
Nos données contiennent nrow lignes et ncol colonnes.
Si les données étaient aléatoires, la valeur attendue de la valeur propre pour chaque axe serait
1 / (nrow (database) -1) en termes de lignes.
De même, l’axe moyen devrait représenter 1 / (ncol (database) -1) en termes de colonnes.
Tout axe avec une contribution supérieure au maximum de ces deux pourcentages devrait
être considéré comme important et inclus dans la solution pour l’interprétation des données.
Source : (M. T. Bendixen 1995)
Biplot symétrique
Le graphique standard de l’analyse factorielle des correspondances est un biplot symétrique
dans lequel les lignes (points bleus) et les colonnes (triangles rouges) sont représentées dans
le même espace à l’aide des coordonnées principales. Ces coordonnées représentent les
profils des lignes et des colonnes.
Une fois que le biplot symétrique des lignes et des colonnes est affiché, il est important de
prendre en compte la remarque sous-mentionnées
« La distance entre les points lignes ou entre les points colonnes donne une mesure de leur
similitude (ou dissemblance). Les points lignes avec un profil similaire sont proches sur le
graphique. Il en va de même pour les points colonnes. »
La prochaine étape, pour l’interprétation, est de déterminer les points lignes et colonnes qui
contribuent le plus à la définition des différents axes principaux retenus dans le modèle.
Notez que, pour interpréter la distance entre les points colonnes et les points lignes, le moyen
le plus simple est de créer un biplot asymétrique. Cela signifie que les profils des colonnes
doivent être représentés dans l’espace des lignes ou vice versa.
Biplot asymétrique
Pour créer un biplot asymétrique, les points lignes (ou colonnes) sont visualisés à partir des
“coordonnées standard” (S) et les points colonnes (ou lignes) sont visualisés à partir des
“coordonnées principales” (P) (M. Bendixen 2003).
Pour un axe donné, les coordonnées standard et principales sont liées comme suit:
P = sqrt (valeur propre) X S
P: Coordonnée principale d’une ligne (ou d’une colonne) sur l’axe
valeur propre: Valeur propre de l’axe
Pour interpréter la distance entre les lignes et les colonnes, vous devriez projeter
perpendiculairement des points lignes sur la flèche de la colonne.
Dans le biplot symétrique standard (mentionné dans la section précédente), il est difficile de
connaître les points les plus contributifs à la solution de l’AFC.

Michael Greenacre a proposé une nouvelle solution (biplot de contribution) qui intègre la
contribution des points (M. Greenacre 2013). Dans ce graphique, les points qui contribuent
très peu à la solution sont proches du centre du biplot et sont relativement peu importants
pour l’interprétation.
Graphique des points lignes
Le graphique des points lignes montre les relations entre les points lignes:

 Les lignes avec un profil similaire sont regroupées.


 Les lignes corrélées négativement sont positionnées sur des côtés opposés de l’origine de du
graphique (quadrants opposés).
 La distance entre les points lignes et l’origine mesure la qualité des points lignes sur le
graphique. Les points lignes qui sont loin de l’origine sont bien représentés sur le graphique.

Les lignes qui contribuent le plus à Dim.1 et Dim.2 sont les plus importantes pour expliquer
la variabilité dans le jeu de données.
Les lignes qui ne contribuent pas beaucoup à aucune dimension ou qui contribuent aux
dernières dimensions sont moins importantes.
A propos de l’AFM
L’Analyse Factorielle Multiple (AFM ou MFA pour Multiple Factor Analysis en anglais) (J.
Pagès 2002) est une méthode d’analyse de données multivariées permettant de résumer et de
visualiser un tableau de données complexe, dans lequel les individus sont décrits par
plusieurs ensembles de variables (quantitatives et / ou qualitatives) structurés en groupes.

L’AFM prend en compte la contribution de tous les groupes actifs de variables pour définir la
distance entre les individus. Le nombre de variables dans chaque groupe peut différer et la
nature des variables (qualitatives ou quantitatives) peut varier d’un groupe à l’autre, mais les
variables doivent être de même nature dans un groupe donné (Abdi and Williams 2010).
L’AFM peut être considérée comme une analyse factorielle générale dont le coeur est basé
sur:
L’Analyse en Composantes Principales (ACP) lorsque les variables sont quantitatives,
L’Analyse des Correspondances Multiples (ACM) lorsque les variables sont qualitatives.
Cette analyse globale, dans laquelle plusieurs ensembles de variables sont considérés
simultanément, nécessite d’équilibrer les influences de chaque ensemble de variables. Par
conséquent, dans l’AFM, les variables sont pondérées lors de l’analyse. Les variables du
même groupe sont normalisées en utilisant la même valeur de pondération, qui peut varier
d’un groupe à l’autre. Techniquement, l’AFM attribue à chaque variable du groupe j, un poids
égal à l’inverse de la première valeur propre de l’analyse (ACP ou ACM selon le type de
variable) du groupe j.
L’analyse factorielle multiple peut être utilisée dans une variété de domaines (J. Pagès 2002),
où les variables sont organisées en groupes:
Analyse de données d’enquête, où un individu est une personne; une variable est une
question. Les questions sont organisées par thèmes (groupes de questions).
Analyse sensorielle, où un individu est un produit alimentaire. Un premier ensemble de
variables comprend les variables sensorielles (douceur, amertume, etc.); une seconde
comprend des variables chimiques (pH, taux de glucose, etc.).
Écologie, où un individu est un lieu d’observation. Un premier ensemble de variables décrit
les caractéristiques du sol; une seconde décrit la flore.
Série temporelle, où plusieurs personnes sont observées à différentes dates. Dans cette
situation, il existe généralement deux façons de définir des groupes de variables:
Généralement, les variables observées au même moment (date) sont rassemblées.
Lorsque les variables sont identiques d’une date à l’autre, chaque ensemble peut rassembler
les différentes dates pour une variable.

Vous aimerez peut-être aussi