Vous êtes sur la page 1sur 34

Master : Management Financier de l’Entreprise

Les méthodes exploratoires

Préparé par : Mlle. ADDOULA Zhour Encadré par : Pr. IBOURK Aomar
Mlle. MAAZOUZ Soukaina
Mlle BOUJNANE Soukaina
Mlle HANAF Zineb

Année universitaire : 2014-2015


Qu’est ce que les méthodes
exploratoires ?
Qu’est ce que les méthodes exploratoires ?
• Quand des individus sont décrits par un jeu de variables,
plusieurs méthodes sont possibles selon le type de
variables considéré (quantitatives ou qualitatives):
• Quand les variables sont quantitatives, on peut réaliser
une ACP (Analyse en Composantes Principales).
• Quand les individus sont décrits par deux variables
qualitatives, on peut construire un tableau de contingence
et réaliser une AFC (Analyse Factorielle des
Correspondances).
• Quand les individus sont décrits par un jeu de variables
qualitatives, on peut réaliser une ACM (Analyse des
Correspondances Multiples).
L’analyse en composantes
principales
I. Objectif

L’objectif de l’analyse en composantes principales (ou ACP) est purement


descriptif : il s’agit « d’explorer » un ensemble d’observations rassemblées
sous la forme d’un tableau de données indiquant pour chaque unité
statistique les valeurs observées d’un certain nombre de variables
quantitatives. L’unité statistique peu être primaire (par exemple un
individu, une entreprise) ou secondaire. Dans ce dernier cas, il s’agit de
regroupement d’unités statistiques primaires.

L’objectif de l’Analyse en Composantes Principales est de revenir à un


espace de dimension réduite en déformant le moins possible la réalité. Il
s’agit donc d’obtenir le résumé le plus pertinent des données initiales.
II. Démarche d’une ACP
1. Préparation des données:
S’assurer que les données sont quantitatives. Dans la pratique, on
considère souvent les variables qualitatives ordinales comme des
quantitatives. Par exemple, dans les enquêtes de satisfaction les variables
qualitatives ordinales possèdent les modalités suivantes : Pas du tout
satisfait ; plutôt pas satisfait ; moyennement satisfait ; plutôt satisfait ;
Tout à fait satisfait. On considère que ces modalités correspondent a une
note donnée par l’individu avec 1 pour Pas du tout satisfait, 2 pour plutôt
pas satisfait … et on obtient ainsi que variable quantitative discrète que
l’on pourra utiliser en ACP

! On rappelle également que la variable sexe, même si elle est codifié 1


pour les hommes et 2 pour les femmes est une variable qualitative et ne
doit donc pas être utilisée dans l’ACP.
II. Démarche d’une ACP
2. Paramétrer le logiciel
Il faut indiquer au logiciel les divers paramètres de l’ACP:
- les variables actives (celles qui permettront de discriminer
les individus),
- les variables supplémentaires ,
- la présence éventuelle d’individus supplémentaires
- le nombre de valeurs propres a calculer
- le nombre d’axes à représenter
- éventuellement, le libellé des individus (ou l’identifiant
des individus)
Exemple
On étudie les données sur 50 clients de l’hypermarché EUROMARKET constituées de
l’âge, du revenu, du montant des achats, du nombre d’enfants, de la catégorie
socioprofessionnelle (CSP) et du sexe.
Les variables quantitatives sont les suivantes : l’âge, le revenu, le montant des achats, le
nombre d’enfants. Nous verrons ultérieurement comment tenir compte du sexe et
de la catégorie socioprofessionnelle dans les analyses.

- Individus supplémentaires:
Les unités statistiques supplémentaires sont des unités statistiques sur lesquelles on
dispose des observations des variables mais dont on ne veut pas tenir compte dans
le calcul des paramètres statistiques. On définit souvent comme unités statistiques
supplémentaires les centres de gravité de groupes formés à priori, définis par les
moyennes des variables de ces groupes.
3. Réaliser les calculs:

Vu la taille du tableau de données que l’on traite habituellement, c’est le


logiciel qui réalisera cette étape. Le logiciel produit alors différents
tableaux et graphiques (mapping) qu’il faudra interpréter.
III. Interprétation des résultats
1. Déterminer le nombre d’axes de l’analyse:

Pour répondre à cette question, il faut consulter le tableau des valeurs


propres qui accompagne l’ACP. Les valeurs propres sont classées de façon
décroissante. L’inertie de chaque axe et l’inertie cumulée figurent
également dans ce tableau.

Il y a deux manières pour déterminer le nombre d’axes à prendre en compte :


- Un critère “absolu” : ne retenir que les axes dont les valeurs propres sont
supérieures à 1 (c'est le critère de Kaiser).
- Un critère “relatif” : retenir les valeurs propres qui “dominent” les autres,
en se référant au graphique en barres des valeurs propres (“screeplot”,
chez les Anglo-saxons).
3. Sélectionner les individus et variables à
interpréter:

Les mapping de l’ACP sont les projections des variables et des individus sur un
plan factoriel déterminé.
On commencera par interpréter le premier plan factoriel (celui formé par les
facteurs F1 et F2) car c’est celui qui concentre la plus grande partie de
l’information du nuage.
Sur un plan factoriel, on n’interprète que les variables et les individus qui sont
bien représentés. Pour les individus, on utilisera les contributions absolues
et relatives alors que pour les variables, on n’interprètera que celles qui
sont proches du cercle de corrélation.
4. Les Sorties graphiques
La représentation des variables.
Ce mapping se distingue par la présence d’un cercle de corrélation. Sur un plan factoriel
déterminé, on n’interprète que les variables qui sont bien représentées c’est à dire
celles qui sont proches ou sur le cercle de corrélation.
On interprète deux types de positions :
- Les positions des variables par rapport aux axes afin de déterminer quelles sont les
variables qui « font les axes ». On va ainsi pouvoir nommer les axes en fonction des
variables.
- Les positions des variables les unes par rapport aux autres. Le coefficient de
corrélation entre deux variables étant le cosinus de l’angle formé par les vecteurs on
en déduit que :
- deux variables qui sont proches ou confondu (angle de 0°) sont corrélées
positivement (coefficient de corrélation proche de 1),
- deux variables opposées (formant un angle de 180°) sont corrélées
négativement (coefficient de corrélation proche de -1)
- deux variables positionnées à angle droit (angle de 90°) ne sont pas du tout
corrélées (coefficient de corrélation égal à 0)
La représentation des individus

Cas 1: L’ACP est réalisé sur un tableau comportant beaucoup d’individus (+30)
Dans ce cas, on ne pourra pas interpréter les positions relatives de tous les
individus car le nuage sera tellement dense que l’on n’y verra pas grand-
chose. Toutefois, si un individu est atypique, il va ressortir du nuage et on
pourra alors l’identifier pour éventuellement le supprimer et effectuer un
nouveau passage sans cet individu. Dans ce cas, on a souvent recours à
une méthode classification automatique afin de regrouper les individus
qui sont proches les uns des autres et ainsi de constituer des type
d’individus ayant un comportement similaire.

Cas 2: Si l’ACP est réalisée sur un nombre d’individus plus faible


l’interprétation du nuage des individus est alors possible. C’est notamment le
cas lorsque l’on travaille avec des unités statistiques secondaires, où il sera
par exemple intéressant d’étudier la position de telle ou telle agence
bancaire.
La représentation individus/variables

Bien qu’elle soit mathématiquement contestable, les logiciels standard


fournissent une représentation graphique dans laquelle est juxtaposée la
projection des variables et des individus. Cette représentation permet de
visualiser les individus ayant des valeurs élevés (ou faible) de telle ou telle
variable.
Nomination des composantes:
Autres Conclusions:

En synthétisant les informations issues des 5 variables analysées, notre mapping


nous montre qu’il y a beaucoup d’efforts à faire en matière d’accueil et de
renseignement des clients dans les magasins de Nice, Marseille, Amiens et
Toulon. Ce dernier est également très peu apprécié en matière de choix.
Les magasins de Paris, de Lyon et de Marseille sont appréciés de la clientèle
pour le choix qu’ils proposent et la facilité pour trouver les produits
recherchés.
Lyon se distingue aussi par l’amabilité du personnel et peut être considéré
comme le meilleur magasin parmi ceux qui ont fait l’objet de l’analyse.
Ces conclusions sont confirmées par l’examen des tableaux de corrélations et de
coordonnées des individus, fournis par le logiciel d’analyse.
Analyse factorielle des
correspondances
• Une méthode AFC admet en entrée un "tableau croisé
dynamique", et produit en sortie une ou plusieurs cartes
ou images de répartition des valeurs et des variables.
• Par exemple, la participation croisée boursière : si 6
investisseurs répartissent leurs portefeuilles entre 10
entreprises, on obtient par AFC une carte comprenant 16
points, dont 6 représentent chacun des investisseurs et les
10 autres représentent chacune des 10 entreprises.
L'analyse informe sur la distance entre les points,
permettant d'interpréter indirectement les pourcentages
de participation au capital des entreprises.
Principe
• Le principe de ces méthodes est de partir sans
a priori sur les données et de les décrire en
analysant la hiérarchisation de l'information
présente dans les données. Pour ce faire, les
analyses factorielles étudient l'inertie du
nuage de points ayant pour coordonnées les
valeurs présentes sur les lignes du tableau de
données.
Principe général de l’analyse factorielle des correspondances (AFC)

« L’analyse factorielle traite des tableaux de nombres.


Elle remplace un tableau de nombres difficile à analyser par une série de
tableaux plus simples qui sont une bonne approximation de celui-ci »
Ces tableaux sont « simples », car ils sont exprimables sous forme de
graphiques

Pourquoi « des correspondances » ?


variables numériques Þ Corrélation
variables nominales Þ Correspondance

Pourquoi « factorielle » ?
Il s’agit de décomposer le tableau original en une somme de
tableaux/matrices qui sont chacun le produit de facteurs simples.
Autrement dit, on les « met en facteurs »
Principale source d’informations, et de l’exemple utilisé pour ce
cours : Que sais-je ? « L' analyse factorielle » - N°2095, Philippe
CIBOIS, ed. PUF, épuisé, extrait disponible en ligne
Demarche
• L'analyse factorielle des correspondances AFC développée par
Jean-Paul Benzecri et ses collaborateurs emploie la métrique
du chi-deux : chaque ligne est affectée d'une masse qui est sa
somme marginale, le tableau étudié est le tableau des profils
des lignes, ce qui permet de représenter dans le même
espace à la fois les deux nuages de points associés aux lignes
et aux colonnes du tableau de données ; elle est par ailleurs
très agréablement complétée par des outils de classification
ascendante hiérarchique (CAH) qui permettent d'apporter des
visions complémentaires, en particulier en construisant des
arbres de classification des lignes ou des colonnes.
Une représentation graphique intuitive

20 A
30 BDD'
20 CE
30 FGH
Université Classes Prépa Autres
Analyse des Correspondances
Multiples
Analyse des Correspondances
Multiples

L'Analyse des Correspondances Multiples (ACM) est une


méthode qui permet d'étudier l'association entre au moins
deux variables qualitatives.
Elle permet en effet d'aboutir à des cartes de représentation
sur lesquelles on peut visuellement observer les proximités
entre les catégories des variables qualitatives et les
observations.
Analyse des Correspondances
Multiples
• Objectif : Même objectif que l’ACP ou AFC ! Visualiser,
résumer l’information contenue dans des masses
volumineuses de données

L’ACM vise à mettre en évidence :


Les relations entre les modalités des différentes variables
Les relations entre les individus statistiques
Les relations entre les variables telles qu’elles apparaissent à
partir des relations entre modalités
Analyse des Correspondances Multiples

Etude des individus : deux individus sont proches s'ils ont répondu
de la même façon aux questions. On ne s'intéressera pas vraiment
aux individus en tant que tels mais plutôt aux populations : y a-t-il
des groupes d'individus ?

Etude des variables et des modalités : les questions sont les mêmes
que pour l'ACP. Premièrement, on veut étudier les relations entre
variables et les associations entre modalités. Deux modalités sont
proches si elles ont souvent été prises ensemble. Deuxièmement, on
recherche une ou plusieurs variable(s) synthétique(s) continue(s)
pour résumer les variables qualitatives. Troisièmement, on cherche à
caractériser des groupes d'individus par des modalités.
Analyse des Correspondances
Multiples
Analyse des Correspondances
Multiples
Domaine d'application :
L'ACM est une méthode très générale qui s'applique à tout
tableau dans lequel un ensemble d'individus est décrit par des
variables qualitatives. Elle n'est donc pas inféodée à un champ
disciplinaire particulier. Toutefois elle est très utilisée dans le
traitement des enquêtes d'opinion, les questionnaires étant
souvent composés de questions à choix multiples.
Merci de votre attention