Vous êtes sur la page 1sur 25

RAPPORT

L’ANALYSE FACTORIELLE
MULTIPLE

MASTER
ECONOMIE APPLIQUEE

Présenté par :
AOURRAZ Soulaimane
BOUACHRA Monsif
RAMAH Ahmed
OUELD BEN TAYEB Badr

Encadré par :
Dr. ANOUALIGH Jamaa

Année Universitaire 2022/2023


INTRODUCTION

L’analyse des données est un domaine issu du monde des statistiques qui vise
à faire le lien entre les différentes données statistiques pour les classer, les décrire et
les analyser de manière succincte.

Parmi les méthodes de l’analyse des données, l’analyse factorielle tient une
place primordiale Elle est utilisée soit seule, soit conjointement avec des méthodes
de classification. Qui essaie d'identifier des variables sous-jacentes, ou facteurs, qui
permettent d'expliquer le motif des corrélations à l'intérieur d'un ensemble de
variables observées.

L'analyse factorielle est souvent utilisée dans la réduction de données, en


identifiant un petit nombre de facteurs qui expliquent la plupart des variances
observées dans le plus grand nombre de variables manifestes. On peut également
utiliser l'analyse factorielle pour générer des hypothèses concernant des mécanismes
de causalité ou pour afficher des variables pour une analyse ultérieure (par exemple,
pour identifier la colinéarité avant une analyse de régression linéaire).

Il existe essentiellement deux types des méthodes d’analyse factoriel, soit des
méthodes classiques qui comprend Analyse en Composantes Principales, Analyse
Factorielle des Correspondances, Analyse des Correspondances Multiples, soit des
méthodes avancées comme Analyse Factorielle Multiple, Analyse Factorielle
Multiple Hiérarchique, Analyse Proustienne Généralisée.

Dans ce travail, nous intéressons uniquement aux méthodes avancées


d'analyse factorielle et plus particulièrement à la méthode d'analyse factorielle
multiple. Nous commencerons par un survol théorique de la méthode dans le
premier axe et Ensuite nous verrons la méthodologie de l'analyse factorielle
multiple en deuxième axe et en fin nous appliquons la méthode dans le logiciel plus
utilisé d'analyse des données R avec des interprétations des résultats en troisième
axe.
I : Survol théorique de la méthode
1. Définition et les objectifs de la méthode
L’Analyse Factorielle Multiple (AFM ou MFA pour Multiple Factor Analysis
en anglais) (J. Pagès 2002) est une méthode d’analyse de données multivariées
permettant de résumer et de visualiser un tableau de données complexe, dans lequel
les individus sont décrits par plusieurs ensembles de variables (quantitatives et / ou
qualitatives) structurés en groupes.

L’AFM prend en compte la contribution de tous les groupes actifs de


variables pour définir la distance entre les individus. Le nombre de variables dans
chaque groupe peut différer et la nature des variables (qualitatives ou quantitatives)
peut varier d’un groupe à l’autre, mais les variables doivent être de même nature
dans un groupe donné (Abdi and Williams 2010).

Cette méthode particulière est utile dans de nombreux domaines où les


variables sont structurées en groupes. Par exemple :

• Génomique : variables protéines, variables ADN

• Analyse sensorielle : variables sensorielles et variables physico-chimiques

• Questionnaires : santé des étudiants (variables de consommation de drogue,


variables de condition psychologique, sommeil, variables d’identification,)

• Comparaison de codes (variables continues, variables qualitatives).

L'AFM est réalisée en deux étapes. Tout d’abord, une analyse en composantes
principales (ACP) est effectuée sur chaque ensemble de données qui est ensuite «
normalisé » en divisant tous ses éléments par la racine carrée de la première valeur
propre obtenue à partir de son ACP. Ensuite, les ensembles de données normalisés
sont fusionnés pour former une matrice unique et un ACP global est effectuée sur
cette matrice. Les ensembles de données individuels sont ensuite projetés sur
l'analyse globale pour analyser les points communs et les écarts.

Parmi les objectifs de la méthode d’analyse factorielle multiple :

• Étudier et décrire l'ensemble des individus à l'aide de toutes les variables et


décrire les relations entre les différentes variables (d'un même groupe ou d'un
groupe à l'autre).

• Prendre en compte la structure en groupes.

• Etudier globalement les ressemblances et les différences entre groupes.

• Etudier les ressemblances et les différences entre groupes du point de vue


individuel.

• Comparer les typologies issues des analyses séparées.

2. Quand l'utiliser
L'AFM est utilisée pour analyser un ensemble d'observations décrites par
plusieurs groupes de variables. Le nombre de variables dans chaque groupe peut
différer et la nature des variables (nominales ou quantitatives) peut varier d'un
groupe à l'autre mais les variables doivent être de même nature dans un groupe
donné. L'analyse déduit une image intégrée des observations et des relations entre
les groupes de variables.

3. L’idée principale
L'objectif de l'AFM est d'intégrer différents groupes de variables décrivant les
mêmes observations. Pour ce faire, la première étape consiste à rendre ces groupes
de variables comparables. Une telle étape est nécessaire car l'analyse simple obtenue
en concaténant toutes les variables serait dominée par le groupe avec la structure la
plus forte.
Un problème similaire peut se produire dans un ACP non normalisé : sans
normalisation, la structure est dominée par les variables avec la plus grande
variance. Pour l'ACP, la solution consiste à normaliser (c'est-à-dire à utiliser des
scores Z) chaque variable en la divisant par son écart type.

La solution proposée par AFM est similaire : pour comparer des groupes de
variables, chaque groupe est normalisé en divisant tous ses éléments par une
quantité appelée sa première valeur singulière qui est l'équivalent matriciel de l'écart
type. Pratiquement, cette étape est mise en œuvre en effectuant un ACP sur chaque
groupe de variables. La première valeur singulière est la racine carrée de la première
valeur propre de l'ACP. Après normalisation, les tables de données sont
concaténées dans une table de données qui est soumis à ACP.

II : Méthodologie de l’AFM
a Analyses factorielles de tableaux juxtaposés et AFM
Pour fixer les idées, nous considérons le cas d’une suite de J tableaux, dans
lesquels les mêmes Kg variables quantitatives sont mesurées sur les mêmes I
individus, indicée par le temps. L’ACP usuelle offre deux voies pour décrire
l’évolution des données
Figure 1.1

Les deux juxtapositions d’un ensemble de tableaux doublement appariés. La


juxtaposition A (resp. B) en ligne (resp. Colonne) est possible du fait de
l’homologie entre les lignes (resp. Colonnes) des tableaux. Kg : nombre de variables
par groupe ; Xm : tableau moyen.
L’ACP des J tableaux juxtaposés en ligne (A) fournit une représentation des
individus, chacun considéré du point de vue de l’ensemble des J dates. Elle fournit
une représentation des variables dans laquelle chacune donne lieu à un point par
date. Elle permet ainsi de suivre l’évolution des Kg variables au cours du temps.
Dans cette approche, l’homologie entre les variables n’est pas utilisée dans les
calculs mais seulement lors de l’interprétation (en reliant sur les plans factoriels, par
exemple, les points relatifs à une même variable). En revanche, l’observation des
mêmes individus au cours du temps est ici essentielle. L’ACP des J tableaux
juxtaposés en colonne (B) permet de suivre l’évolution des individus au cours du
temps puisqu’une ligne correspond à un individu à une date donnée. On peut
centrer chaque tableau avant la juxtaposition si l’on souhaite ne pas faire apparaître
l’évolution globale des individus. Dans cette analyse, l’homologie entre les variables
est utilisée.

b La pondération des groupes


Exemple géométrique

ACP de l'ensemble des variables : 1e composante principale liée au groupe1 ce


qui compte la répartition de l'inertie au sein d'un groupe.

Le groupe qui compte : celui qui concentre l’inertie sur la première dimension.
Principe de la pondération en AFM :
Il faut essayer de redonner plus d'importance aux groupes dont l'inertie
globale est répartie sur plusieurs axes.
Plus l’inertie d’un groupe est « diluée » sur un nombre important d’axes, moins
l’inertie du premier axe est important.
On choisit la première valeur propre comme mesure de la structuration de
l’inertie du groupe
Le Poids d’une variable d'un groupe =1/l où l’est l'inertie du 1er axe de l'ACP
de ce groupe

Définition et statut des groupes de variables


Définition des groupes
Dans la plupart des cas, le regroupement des variables s’impose, tout
simplement parce que la notion de groupe s’insère directement dans la
problématique et a été utilisée dans la définition des données à recueillir.
Statut de groupes
Comme dans les analyses factorielles usuelles, le statut des éléments, actif ou
supplémentaire, s’impose dans beaucoup de cas mais mérite quelquefois une
discussion. La démarche en AFM est identique à celle des autres analyses
factorielles lorsque l’on considère l’AFM comme.

Des points de vue spécifiques apparaissent lorsque l’on considère l’AFM


comme méthode de recherche de facteurs communs. Une illustration en est fournie
par un autre exemple, issu lui aussi du domaine des vins. Pour un ensemble de vins,
on dispose de variables :
1. physico-chimiques mesurées sur la vendange
2. physico-chimiques mesurées sur les vins ;
3. sensorielles
3. Qualité de représentation du nuage des variables d’un
groupe

La qualité de représentation d’un nuage de points par un axe s’apprécie


usuellement au travers du rapport [inertie projetée sur l’axe / inertie totale]. C’est
bien là une interprétation essentielle du pourcentage d’inertie en analyse factorielle.

a Représentation des groupes de variables

En AFM, dans la représentation des groupes de variables (dite « carré des


liaisons »), la coordonnée du groupe j le long de l’axe s s’interprète principalement
de deux façons :

La contribution des variables du groupe j à la construction de l’axe s ; – la


mesure de liaison Lg entre le groupe j et l’axe s. En AFMH, ces deux notions ne
coïncident que pour les groupes de l’analyse d’ensemble (définis par la partition
associée au nœud sommital). En pratique, on privilégie la mesure Lg : on calcule
l’inertie projetée des variables du groupe défini par un nœud, en utilisant les poids
de ces variables dans l’analyse du nœud immédiatement supérieur. Le carré des
liaisons ainsi obtenu s’interprète comme la projection du nuage NJ des groupes de
variables définis par la partition associée à chaque nœud de la hiérarchie et
pondérés aux sens de l’AFM (première valeur propre égale à 1). Il bénéficie, entre
autres, de la propriété suivante : quelles que soient leurs positions dans l’arbre
hiérarchique, deux groupes identiques sont confondus dans le carré des liaisons (ce
qui ne serait pas vrai avec l’optique « contribution »).

• Représentation de nuage moyen et nuages partiels.


Ont définie deux types de nuages des individus :
Individus

Un nuage moyen : les individus décrit par l’ensembles ses variables.


K nuages partielles

Chaque individu partiel= les individus décrit par les variables d’un seul groupe
En AFM, cette représentation bénéficie d’une propriété importante : chaque
point moyen i est au barycentre de ses J points partiels i j. Cette propriété est
obtenue en dilatant le nuage N j I par une homothétie de rapport J. En AFMH,
cette propriété est étendue de la façon suivante : le point i n (individu i considéré
du point de vue des variables incluses dans le nœud n) est au barycentre des
individus partiels associés aux groupes de variables rassemblés par le nœud n.

L’AFM comme ACP pondérée du nuage moyen

• On réalise une ACP (pondérée) du nuage moyen


• On projette les points des nuages partiels sur les axes
principaux du nuage moyen
Illustration :
Conséquence : sur chaque axe tout individu (i) est affecté de de K points
partiels.
III. AFM appliquée aux données

Notre travail porte sur une évaluation sensorielle des vins par différents juges
en utilisant l’analyse factorielle multiple AFM dont l’objectif est :

Etudier la variabilité sensorielle des vins en relation avec le type de sol et


l’appellation.

Mettre en évidence les principales dimensions de la variabilité sensorielle des


vins et relier ces dimensions avec le type de terroir et l’appellation. Pour cette
analyse on choisit une base de données comportant 21 lignes (vins) qui sont des
individus et 31 colonnes qui sont des variables. Les 31 variables sont divisées en :

- Deux variables catégorielles qui sont : label (Saumur, Bourgueil ou Chinon)


et soil (Reference, Env1, Env2 or Env4).et qui sont des variables qualitatives
illustratives
- 29 variables qui sont des variables sensorielles numériques continues
(quantitatives) Pour chaque vin(individu), la valeur est le score moyen pour tous les
juges.

Les 31 variables sont organisées en groupes comme suit :

Nom du Nature des


Groupe Description Les variables
groupe variables
Variables
Groupe=2
catégorielles
(Groupe Origin L’origine des vins Label et Soil
qualitatives
supplémentaire)
supplémentaires
Odor.Intensity.before.shaking
Aroma.quality.before.shaking, Variables
L’odeur des vins
Groupe =5. Odor Fruity.before.shaking, sensorielles
avant agitation.
Flower.before.shaking quantitatives
Spice.before.shaking.
Odor.Intensity,
Quality.of.odour, Fruity,
Variables
L’inspection Flower, Spice, Plante,
Groupe=3 sensorielles
Visual visuelle des vins Phenolic, Aroma.intensity,
quantitatives
Aroma.persistency et
Aroma.quality
Odor.Intensity, Quality.of.odour,
Variables
Odor.after.s l’odeur des vins Fruity, Flower, Spice, Plante,
Groupe =10 sensorielles
haking après agitation Phenolic, Aroma.intensity,
quantitatives
Aroma.persistency et Aroma.quality
Attack.intensity- Acidity-
Variables
Astringency- Alcohol- Balance,
Groupe =9 taste le goût des vins sensorielles
Smooth- Bitterness- Intensity -
quantitatives
Harmony
Variables
Groupe =2
Le jugement global Overall.quality sensorielles
(Groupe overall
des vins Typical quantitatives
supplémentaire)
supplémentaires

1. Visualisation et interprétation des groupes de variables

a. Visualisation des groupes de variables

Sur ce graphe les groupes de variables actives qui sont : "odor","visual",


"odor.after.shaking"et"taste" sont en couleur rouges tandis que les variables
supplémentaires : "origin"et "overall" Sont en couleur verte
Le graphe illustre une correlation entre les groupes de variables et les
dimensions 1 et 2 ; les coordonnées des quatre groupes actifs sont presque les
mêmes sur la première dimension ce qui montre que les groupes : "odor", "visual",
"odor.after.shaking" et "taste" contribuent de manière identique à la première
dimension tandis que seuls les groupes odor et odor.after.shake contribuent plus à
la deuxième dimension leur coordonnées sont plus élevées sur la deuxième
dimension.
b Contribution des groupes de variables

• Contribution à la première dimension :

On voit bien sur ce graphe la nette contribution des quatre groupe


"odor","visual", "odor.after.shaking"et"taste" d’une manière presque similaire à la
première dimension.
• Contribution à la deuxième dimension :

Seuls les deux groupes odor et odor.after.shake contribuent considérablement


à la deuxième dimension.
c Corrélation entre les variables quantitatives et les dimensions
Le graphe illustre le cercle de corrélation montre l’association entre les
variables, la qualité de représentation des variables, ainsi que la corrélation entre les
variables et les dimensions. Les quatre groupes de variables actives sont colores de
couleurs différentes tandis que les variables supplémentaires sont de deux groupes
en pointillé et de couleur violette

• Les variables corrélées positivement sont regroupées, tandis que celles


corrélées négativement sont positionnées sur les côtés opposés de l’origine du
graphique (quadrants opposés).
• La distance entre les variables et l’origine mesure la qualité des variables sur le
graphique. Les points variables qui sont loin de l’origine sont bien représentés.

• Pour une dimension donnée, les variables les plus corrélées à la dimension
sont proches de la dimension

Les variables « intensité » et « harmonie » sont les plus corrélées positivement à


la première dimension

Les variables les plus corrélées à la deuxième dimension sont : i) Spice before
shaking et Odor intensity before shaking pour le groupe odor ; ii) Spice, Plant et
Odor intensity pour le groupe odor after shaking et iii) Bitterness pour le groupe
taste.

• La contribution des variables quantitatives à la dimension 1 :

Le graphe illustre la contribution des 20 variables quantitatives à la première


dimension la plus contribuable étant : sueface-felling et la moins contribuable étant :
odor-intensity
• La contribution des variables quantitatives à la dimension 2 :

Le graphe illustre la contribution des 20 variables quantitatives à la deuxième


dimension la plus contribuable étant : space before shaking et la moins contribuable
etant : fruity before shaking

En résume les variables qui contribuent le plus à l’axe 1 et à l’axe 2 sont les plus
importantes pour expliquer la variabilité dans le jeu de données.
• Les variables quantitatives les plus contributives :

Le graphe montre les variables quantitatives divisées en groupes colores selon


leurs contributions aux axes 1 et 2. Les variables en rouges sont les plus contributives
et les variables en bleu les moins contributives.

• Les variables quantitatives en fonction de leurs qualités de représentation :


Le graphe met en évidence les qualités de représentations des variables
quantitatives par leurs valeurs des cos2.la variable ayant le cos2 proche de 1 est la
plus représentée pour les deux dimension 1 et 2.les variables en rouge sont les plus
représentées par les deux dimensions et celles en bleu les moins représentées.

Le graphe représente les variables quantitatives en fonction de leurs qualités de


représentation par la dimension 1 selon leur valeur du cos2.

2. Visualisation et interprétation des groupes d’individus


Le graphe montre que les individus ayant des profils similaires sont proches sur
le graphique. Le premier axe oppose principalement le vin 1DAM et, les
vins 1VAU et 2ING.
Comme décrit dans la section précédente, la première dimension représente
l’harmonie et l’intensité des vins. Ainsi, le vin 1DAM (coordonnées positives) a été
évalué comme le plus “intense” et “harmonieux” contrairement aux vins 1VAU et
2ING (coordonnées négatives) qui sont les moins “intenses” et “harmonieuses”.

Le deuxième axe est essentiellement associé aux deux vins T1 et T2 caractérisés


par une forte valeur des variables Spice.before.shaking et
Odor.intensity.before.shaking.
La plupart des catégories des variables qualitatives supplémentaires sont
proches de l’origine de la carte. Ce résultat indique que les catégories concernées ne
sont pas liées au premier axe (“intensité” et “harmonie” des vins) ou au deuxième
axe (vin T1 et T2).

La catégorie Env4 présente des coordonnées élevées sur le deuxième axe lié à
T1 et T2.

La catégorie “Reference” est connue pour être liée à un excellent sol viticole.
Comme prévu, notre analyse démontre que la catégorie “Reference” a des
coordonnées élevées sur le premier axe, corrélée positivement avec l’intensité et
l’harmonie des vins.

Ce graphe des individus montre qu’on peut colorer les individus(habillage) en


utilisant une variable qualitative dans ce cas
Les individus sont colorés selon la variable qualitative « label ».
Ce graphe des individus montre qu’on peut colorer les individus(habillage) en
utilisant deux variables qualitatives en même temps dans ce cas lèses individus sont
colores selon la variable qualitative « label » et « soil ».

• Visualisation des points partiels de tous les individus


Ce graphique des individus partiels est obtenu à partir de l’analyse effectuée
avec un seul groupe pour un individu donné, le point correspond à l’individu moyen
ou au centre de gravité des points partiels de l’individu. C’est-à-dire que l’individu est
considéré par tous les groupes de variables, pour un individu donné, il y a autant de
points partiels que de groupes de variables en d’autres termes ce graphique des
individus partiels représente chaque vin vu par chaque groupe et son barycentre.
Le graphe illustre la visualisation des points partiels pour les vins d’intérêt
(“1DAM”, “1VAU”, “2ING”)

Le graphique des axes partiels montre la relation entre les axes principaux de
l’AFM et ceux obtenus lors de l’analyse de chaque groupe en utilisant soit une ACP
(pour les groupes de variables continues) soit une ACM (pour les variables
qualitatives).
IV. Résumé (récapitulatif)
La représentation des variables montre que la plupart des variables sont
fortement corrélées à la première dimension, quel que soit le groupe auquel elles
appartiennent. Cette dimension représente “intensité” et “harmonie”, des notions
positives communément utilisées en parlant de vins. Les variables les plus corrélées
à la deuxième dimension sont Spice before shaking et Odor intensity before
shaking du groupe odor, Spice, Plant et Odor intensity du groupe odor after
shaking et Bitterness du groupe taste. Cette dimension représente une
caractéristique épicée, végétale, essentiellement due à l’olfaction.
Les coordonnées des individus et modalités peuvent être liées à cette
interprétation des deux premières composantes principales via l’observation du
deuxième graphique. Le vin 1DAM a été évalué comme le plus “intense” et
“harmonieux” contrairement aux vins 1VAU et 2ING qui sont les moins “intenses
”et “harmonieux”. Le deuxième axe est essentiellement dû aux vins T1 et T2. Ces
deux vins étant en fait le même évalué deux fois par les juges, la deuxième
dimension sera désignée comme le “cas particulier du vin T”. La plupart des
modalités sont proches de l’origine du plan factoriel, ce qui signifie que ces
modalités ne sont pas reliées à l’“intensité”, l’“harmonie” ou au “vin T”. La
modalité Env4 possède des coordonnées élevées sur le deuxième axe mais
uniquement en lien avec T1 et T2. La modalité Reference, a priori en relation avec
un sol réputé pour la qualité des vins qu’il produit, possède des coordonnées
élevées sur le premier axe et est donc positivement corrélée aux notions “intensit”
et “harmonie”, ce qui confirme l’a priori.

Le graphique des individus partiels représente chaque vin vu par chaque


groupe et son barycentre. Par défaut, les deux vins avec la plus petite inertie intra-
groupe et les deux vins avec la plus grande inertie intra-groupe sont représentés

1DAM a été évalué comme particulièrement “intense” et “harmonieux”,


notamment par le groupe odor : ses coordonnées sur le premier axe sont plus
extrêmes du point de vue de ce groupe que de celui des autres. Du point de vue du
groupe odor, 2ING était plus “intense” et “harmonieux” que 1VAU mais du point
de vue du groupe taste, 1VAU était plus “intense” et “harmonieux” que 2ING.

Tous les groupes ont à peu près la même vision des modalités sauf pour la
modalité Env4, ce qui reprend l’interprétation de la représentation des individus.

Les quatre groupes actifs ont des coordonnées rapprochées sur la première
dimension ce qui signifie que leur contribution à la première composante principale
est à peu près la même. Cela signifie également que la première composante
principale de l’AFM est commune à tous les groupes. Quant à la deuxième
dimension, ce sont les groupes d’olfaction qui y ont les coordonnées les plus
élevées. Ces deux groupes contribuent le plus à la deuxième composante principale
interprétation de la représentation des individus.

Vous aimerez peut-être aussi