Vous êtes sur la page 1sur 35

UNIVERSITÉ LUMIÈRE LYON 2

FACULTÉ DE SCIENCES ÉCONOMIQUES


ET DE GESTION

M1 - Economie quantitative

Analyse des données


Polycopié 1 : Méthodes factorielles

Année Universitaire 2013-2014


R. Abdesselam
Courriel ; rafik.abdesselam@univ-lyon2.fr
http://eric.univ-lyon2.fr/~rabdesselam/Documents/
PRESENTATION
Description détaillée du cours
1. Analyse statistique des données uni-bidimensionnelles
- Introduction aux méthodes de sondage
- Les types de questions (fermée, ouverte-textuelle) - codage
- Méthodes descriptives ( tris à plat - tris croisés - Tamis – analyse bivariée)
- Méthodologie et Techniques de dépouillement d’enquête - traitements statistiques
2. Analyse statistique des données multidimensionnelle
2.1 Méthodes d'analyse factorielle
- Analyse en Composantes Principales
- Analyse Factorielle des Correspondances Simples - Multiples
- Analyse Factorielle Discriminante - Analyse Discriminante Linéaire
2.2 Méthodes de classification automatique des données
- Classification non hiérarchique : nuées dynamiques
- Analyse et interprétation d’une partition
- Classification hiérarchique ascendante - descendante

Objectifs
Le but de ce cours est de donner aux étudiant(e)s une formation de base en traitement de données
multidimensionnelles. Plusieurs techniques statistiques seront présentées et on insistera surtout sur la
compréhension intuitive, l’interprétation correcte et l’utilisation pratique de celles-ci. Par conséquent, l’emploi de
concepts mathématiques sera réduit à son minimum et ces derniers ne serviront qu’à facilité la compréhension des
méthodes étudiées. Les méthodes les plus importantes sont présentées d’une manière aussi concrète que
possible, sans que soient trop développés ni les fondements mathématiques, ni les questions de calcul numérique.
Le logiciel SPAD sera utilisé mais aucune connaissance préalable de celui-ci n’est requise. Par contre, une
connaissance des concepts et méthodes statistiques (population, échantillon, estimation, test d’hypothèse) de base
est requise.
Chaque méthode est illustrée par des applications à des données réelles. L’utilisateur doit évidemment avoir une
idée suffisamment précise des principes généraux et des conditions d’application de ces méthodes, mais il doit
consacrer essentiellement son attention à la méthodologie d’enchaînement de ces méthodes et à l’interprétation
des résultats obtenus.
L’analyse des données permet l’étude d’un problème dans sa globalité : multiplicité et interaction des critères,
diversité de l’environnement. Elle permet la description, l’exploration, l’analyse d’importants tableaux de données.
Bien adaptée aux études de terrain, c’est en particulier l’outil idéal des traitements d’enquêtes.
Les entreprises croulent littéralement sous le poids des données qu’elles ont à leur disposition. Ces données
contiennent potentiellement une quantité importante d’informations pouvant être bénéfiques à l’entreprise si utilisées
correctement.
Enfin, sous le vocable « Data mining » fouille de données, on retrouve différentes techniques statistiques
utilisées pour explorer et analyser de grands ensembles de données. Ces techniques ont généralement pour but de
développer des modèles prévisionnels, de réduire la taille des données, faire de la segmentation ou bien de
découvrir des associations pertinentes. L’analyse multidimensionnelle des données est à la base de plusieurs
techniques de data maning et est utilisée dans plusieurs domaines de l’économie et de la gestion dont le marketing.

M1 : Economie Quantitative – Analyse des Données - 2 - R. Abdesselam


Approche pédagogique
Sept séances de cours magistraux salle E233 – durée 3h30) et six séances de travaux dirigés (salle E233 –
durée 1h30) comprenant des exemples d’application traités avec le logiciel SPAD.

MATERIEL PEDAGOGIQUE
Ressources diverses
(2) Polycopiés de cours, (1) polycopié de travaux dirigés ainsi que de nombreux fichiers de données réelles
SPAD – Système pour l’Analyse de Données, version 7.4, Kit-Etudiant.
Références bibliographiques

Référence(s) de base
ème
[1] Bouroche J.M., Saporta G. L'analyse des données, "Que sais-je?" N°1854 , PUF, 8 édition (2002).
Ce fascicule de poche constitue une excellente introduction à l’analyse statistique multidimensionnelle. Il met
l’accent sur l’interprétation intuitive des idées et concepts en n’ayant presque aucun recours à la notation
mathématique. Il accorde aussi beaucoup d’importance à l’interprétation correcte des résultats.

Autres références
[2] Caillez F., Pages J.P. Introduction à l'Analyse des Données SMASH (1975).
[3] Celeux G, Diday E, Govaert G, Lechevalier Y, Ralambondrany H. Classification automatique des données.
Environnement statistique et informatique, Dunod (1989).
[4] Cibois P. L'analyse factorielle, "Que sais-je?" PUF (1983).
[5] Cibois P. L'analyse des données en sociologie. PUF (1984).
ème
[6] Escofier B., Pagès J. Analyses factorielles simples et multiples 3 édition Dunod (1988).
[7] Fenneteau H., Bialès C. Analyse statistique des données. Ellipses (1993).
[8] Grangé D., Lebart L. Traitements statistiques des enquêtes. Dunod (1993).
[9] Han J. , Kamber M. : Data Mining Concepts and Techniques, (2001).
[10] Michael J.A. Berry, Gordon Linoff : Data Mining, Masson (1997).
[11] Moscarola J. Enquêtes et analyse de données. Vuibert Gestion (1990).
[12] Rodriguez Herrera R., Salles-Le-Gac D. Initiation à l’analyse factorielle des données – Fondements
mathématiques et interprétations. Ellipses (2002).
[13] Saporta G. Probabilité, analyse des données et statistique Editions Technip (1990).
[14] Stanton A, Glantz K, Bryan K : Primer of applied regression and anlysis of variance, Mc Graw Hill, (2000).
[15] Volle M., Analyse des données. Economica (1978).
[16] Guide du logiciel SPAD version 6 Système pour l’Analyse des Données.

Adresses de sites Web à consulter :


[1] http://www.decisia.fr/SPAD_Presentation.html
[2] http://www.decisia.fr/index2.html
[3] http://dept.econ.yorku.ca/jasj/classes.html Cours C. Gourieroux, Econometric, Analysais of individual Risks
[4] http://dorakmt.tripod.com/mtd/glosstat.html glossaire statistique

CONTROLE DES CONNAISSANCES


Examen terminal - durée 2h - salle informatique.

M1 : Economie Quantitative – Analyse des Données - 3 - R. Abdesselam


Préambule

Ce cours vise à présenter les méthodes d'analyses de données en mettant l'accent sur les outils
d'interprétation, sans écarter pour autant l'exposé des principes de fonctionnement. Ces méthodes
d'analyse sont aisées à mettre en oeuvre depuis le développement des moyens informatiques puissants
de calcul, mais leur interprétation est souvent délicate.

On insistera donc sur leurs aspects intuitifs, à savoir leur principe général, leurs objectifs et les
techniques d’interprétation des résultats. De plus, chaque méthode est illustrée par des applications à
des données réelles.

Bien évidemment, avant d'effectuer ces méthodes d'analyses multidimensionnelles sophistiquées, il


est recommandé de prendre contact avec les données au moyen des outils classiques de la statistique
descriptive ou de ceux plus récents de la statistique exploratoire ( cf. Méthodologie et techniques de
dépouillement d'enquête ).

Les objectifs

- mettre en évidence les principes de fonctionnement de ces méthodes sans recourir au formalisme
mathématique (des ouvrages permettant d'approfondir les fondements mathématiques sont
indiqués en bibliographie),
- montrer à partir d'exemples réels comment interpréter les résultats de ces analyses,
- donner une idée de l'intérêt mais aussi des dangers et limites de ces méthodes,
- l'enchaînement canonique de ces méthodes dans le cadre d'une analyse structurelle des données
d'enquête.

Un peu d'histoire

Les prémices de ces méthodes ont été mises en place dans la première moitié de ce siècle par les travaux
de Pearson (1904) et Hotelling (1933), aboutissant à l'Analyse en Composantes Principales (ACP, Principal
Component Analysis, PCA, appelée aussi Factor Analysis dans certains logiciels) qui permet de traiter un
tableau de variables quantitatives.

Dans les années 1968-1975, divers travaux tentent de mettre au point une technique équivalente pour
traiter des tableaux de contingence ( tableau croisé de deux variables qualitatives ) : on peut citer les
modèles de l'américain Goodman. Un français, Benzecri, trouve le moyen d'appliquer les principes de l'ACP
à un tel tableau : c'est l'Analyse Factorielle des Correspondances (AFC). Il assortit ses travaux de
considérations épistémologiques sur l'inutilité des hypothèses probabilistes (qui sont à la base des
statistiques classiques : test, etc..) dans le traitement des données. Il prône une approche fondée sur le refus
de ces hypothèses qui se présente comme une alternative aux approches statistiques classiques
(essentiellement d'origine anglo-saxonne) et prend le nom d'Analyse de Données.

A la suite de ces travaux, une sorte d'école se développe en France. Diverses techniques sont mises au
point dans ce cadre : Analyse Factorielle des Correspondances Multiples ( AFCM ou ACM ) ; Analyse
Factorielle Discriminante (AFD); Segmentation ; Méthodes des Nuées Dynamiques ; etc. A la fin des années
80 la querelle entre partisans de l'Analyse de Données et statisticiens "classiques" s'est apaisée. Les
premiers ont réintroduit des éléments de probabilités dans leurs techniques et les seconds ont fini par
considérer que ces méthodes pouvaient parfois être utiles.

Le « Data Mining » est apparu aux Etats-Unis au milieu des années 1990. Il désigne l’ensemble des
moyens d’exploitation informatique « intelligente » des données utilisant des modèles de prédiction variés. La
traduction en français la plus proche est « fouille de données ». Il ne suffit pas d’avoir les données, encore
faut-il savoir les traiter pour les synthétiser, les analyser, les rechercher, les mettre en perspective d’une
action bien définie ou d’un objectif à atteindre. C’est ainsi que s’introduit naturellement le Data Mining qui est
essentiellement dû à la conjonction des deux facteurs suivants :

M1 : Economie Quantitative – Analyse des Données - 4 - R. Abdesselam


- l’accroissement exponentiel, dans les entreprises, de données liées à leur activité (données sur la
clientèle, les stocks, la fabrication, la comptabilité, la gestion, les ressources humaines, etc.). Les
entreprises ont vite compris qu’il serait dommage de ’ jeter’ ces données car elles contiennent des
informations-clé (connaissances) sur leur fonctionnement, ces connaissances s’avérant stratégiques
pour la prise de décision.
- Les progrès très rapides des matériels et logiciels informatiques, permettant de stocker des données et
de les analyser pour un coût de plus en plus faible, tout en gérant des volumes de plus en plus
importants.

L’analyse statistique exploratoire des données nécessite beaucoup de calculs et est inutilisable sans
moyens informatiques. Pour traiter ses données, le statisticien contemporain a le plus souvent recours aux
grands logiciels très répandus SAS, SPAD, SPSS. Ces logiciels constituent des outils indispensables très
puissants, voire de véritables environnements informatiques (SAS), permettant le traitement d'une grande
variété de données.

Introduction

Plus de vingt-cinq années de pratique ont démontré la puissance des méthodes d'analyses de données ou
techniques de statistique descriptive multidimensionnelle, pour acquérir de l'information synthétique sur des
échantillons énormes ou les très grands ensembles de données complexes comme le sont les fichiers
d'enquêtes. La souplesse des programmes de calcul et leur efficacité permettent d'y faire appel de façon
répétée sur les mêmes données.
Lorsqu’on dispose d’un volumineux fichier de données, il est difficile d’appréhender globalement
l’information contenue. Les méthodes statistiques classiques sont insuffisantes. En effet, la statistique
descriptive nous enseigne seulement comment dégager des pourcentages et comment représenter l’intensité
entre deux caractères, par exemple le PIB en fonction de la population d’un ensemble de pays ; la statistique
inférentielle (mathématique), quant à elle, permet d’estimer des paramètres de distribution ( moyenne,
variance, proportion, etc.) et de vérifier la validité d’hypothèses, notamment si deux séries de données
correspondent à deux caractères corrélés. Toutes ces méthodes ne permettent pas d’extraire les
informations d’un grand fichier, d’où l’on veut, en dépistant des concomitances répétées, déduire les relations
statistiques entres diverses caractéristiques. L’analyse des données permet des études globales incluant
toutes les caractéristiques de ces mêmes données ; ces études ont pour but de mettre en lumière les
phénomènes importants en faisant le minimum d’hypothèses a priori sur les importances relatives des
informations. Aujourd’hui, l’analyse des données est devenue un outil indispensable dans de nombreux
domaines, par exemple l’aide à la décision, en finance, dans les études de marché ou dans l’étude du risque.

Les méthodes d'Analyse de Données sont rangées en deux grandes familles : les méthodes d'analyse
factorielle et les méthodes de classification automatique.

Ces deux familles de méthodes ont pour objet de résumer l'information contenue dans les données. Elles
sont plus complémentaires que concurrentes, et peuvent avec profit être utilisées conjointement sur un même
tableau de données du type " individus ( objets ) x variables ( attributs )". On peut, dans certains cas,
associer utilement une classification aux résultats d'une analyse factorielle.
Les méthodes d'analyse factorielle constituent un domaine important de l'analyse des données et relèvent
de l'analyse linéaire. Elles sont diverses de part leurs différents domaines d'applications, mais leurs arrière-
plans mathématiques sont très proches. Les méthodes factorielles ont pour objet de résumer l'information
apportée par un ensemble de variables, par un nombre plus restreint de variables nouvelles appelées
"facteurs".
Les méthodes de classification automatique porte sur l'ensemble des individus ( objets ) qu'il s'agit de
regrouper en classes ou catégories jugées les plus homogènes possibles et cela au regard d'un critère.
On distinguera les variables selon leur type : quantitatives ou qualitatives et selon leur fonction dans
l'analyse : actives ou illustratives ( supplémentaires ).

M1 : Economie Quantitative – Analyse des Données - 5 - R. Abdesselam


1- Analyse en Composantes Principales
1-1 Généralités
L'Analyse en Composantes Principales1 (ACP) est une méthode statistique exploratoire permettent une
description essentiellement graphique de l’information contenue dans de grands tableaux de données. C’est
aussi une méthode de structuration et de synthèse de données numériques. Elle permet de présenter un
résumé descriptif, accompagné de représentations graphiques, d'un ensemble d'observations mesurées sur
un ensemble de variables numériques. On utilisera cette méthode lorsqu'il s'agira de décrire et de "visualiser"
au mieux l'information contenue dans un tableau de données quantitatives où n individus ( objets ) ont été
évalués en fonction de p variables ( attributs ou caractéristiques ).
L'ACP est une méthode très efficace pour représenter des données corrélées entre elles. Elle est largement
utilisée dans les études de marché, d’opinion et, de plus en plus, dans le domaine industriel.

1-2 Présentation de la méthode


Supposons que l'on analyse les variables PIB et Population d'un ensemble de pays. On peut construire un
graphique représentant les individus ( 15 pays de UE ) :

En présence de deux variables, il est facile de représenter, dans un plan , l'ensemble des données . L'allure
du nuage de points permet, d'étudier l'intensité de la liaison "corrélation" entre ces deux variables, de situer
les différents individus ( pays ) et éventuellement de les classer.
Supposons que l'on dispose d'une troisième variable "Taux d’inflation" : il devient alors difficile de tout avoir
sur un graphique. Il faut recourir à la perspective ou faire deux graphiques ( PIB x Population et Taux
d’inflation x Population par exemple ). Rajoutons une quatrième variable ‘’Taux de croissance’’, voire une
cinquième ‘’Taux de chômage’’, etc. La représentation graphique des données devient alors impossible. Or
ces variables sont corrélées entre elles : elles sont donc partiellement redondantes.

Question : peut-on déterminer un nombre restreint de variables, représentant les mêmes données et
non corrélées entre elles ?

1
Principal Component Analysis (PCA).

M1 : Economie Quantitative – Analyse des Données - 6 - R. Abdesselam


1-2 Objectif de la méthode
L'ACP consiste à synthétiser le nombre de variables observées, autrement dit elle va tenter de résumer
l'information contenue dans le tableau de données, en un ensemble réduit de combinaisons linéaires des
variables initiales, en veillant à minimiser la perte d'information du fait de cette réduction. Ces nouvelles
variables synthétiques appelées "composantes principales ou facteurs ou encore macro-caractéristiques"
possèdent donc les propriétés suivantes :

- les composantes principales, notées ( C1, C2, ..., Cq ), sont des combinaisons linéaires des variables
pour tout j = 1,q avec q  p .
p p
initiales ( X1, X2, , X ) : Cj = a1X1 + a2X2 + ... + apX
- elles sont non corrélées (les coefficients de corrélation linéaire des composantes prises deux à deux sont
nuls) ce qui évite la redondance de l'information déjà résumée.
- la première composante porte ou résume plus d'informations que la seconde qui en porte plus que la
troisième et ainsi de suite, de sorte qu'en se limitant aux 2 ou 3 premières composantes on dispose d'un
bon résumé de l'information contenue dans les données.

En résumé, on peut dire que l’ACP consiste à transformer les variables initiales corrélées en de nouvelles
variables, les composantes principales, combinaisons linéaires des variables initiales non corrélées entre
elles, de variance maximale et les plus liées aux variables initiales : l’ACP est une méthode factorielle
linéaire. Ainsi, on utilisera l’ACP pour faire apparaître :
- la structuration des variables actives, c’est-à-dire les systèmes de relation qui existent entre elles ;
leurs association ou leurs oppositions.
- La répartition des individus les uns par rapport aux autres, en relation avec les variables traitées ; les
individus qui présentent des caractéristiques communes ou antagonistes.

A noter que l’ACP est une méthode essentiellement descriptive, préalable à l’emploi d’autres méthodes
statistiques, telles que les méthodes de classification, de régression ou encore d’économétrie.

Moyens mathématiques
Les outils mathématiques utilisés sont ceux de l'algèbre linéaire et du calcul matriciel. Le principe est le
suivant :
Diagonalisation
Matrice des corrélations > Matrice des valeurs propres
X1 X2 ... Xp C1 C2 ... Cp
X 1
1 r12 ... r1p C 1
1 0 0 0
X2 r21 1 ... r2p C2 0 2 0 0
... ... ... ... ... ... 0 0 ... 0
Xp rp1 rp2 ... 1 Cp 0 0 0 p
( r12 = r( X1 , X2) coefficient de corrélation linéaire entre les variables X 1 et X2 )
On diagonalise la matrice des corrélations2 (matrice symétrique dont les éléments sont les coefficients de
corrélation linéaire entre les variables initiales prises deux à deux) (*).
- les vecteurs propres de cette matrice définissent les nouvelles variables recherchées; les composantes
principales
- les valeurs propres associées, sont les variances des composantes principales (l'information résumée par
chacune des composantes).
- les axes factoriels sont les droites engendrées par les vecteurs propres.

On peut montrer que les composantes principales ainsi définies, vérifient bien les propriétés recherchées :
non corrélées entre elles, de variance décroissante, combinaisons linéaires des variables de départ. Cette
dernière propriété permet de construire des graphiques représentant les individus aussi bien que les
variables dans l'espace défini par les composantes.

2
On ne traite ici que le cas le plus courant. Le cas général part de la matrice des variances-covariances et d'une matrice des poids qui peut
varier. Ici on parle d'une ACP normée, les données sont centrées et réduites pour éliminer les effets de l'origine (moyennes) et des unités
(variances) des variables.

M1 : Economie Quantitative – Analyse des Données - 7 - R. Abdesselam


1-3 Points à retenir
- Matrice des corrélations : fournit des éléments de description des associations entre les variables actives.
Sa lecture nous donne une première idée de l'intensité de la liaison linéaire
entre les variables, mais l'analyse en composantes principales va permettre
d'obtenir une synthèse de ces liaisons.

- Somme des valeurs propres : représente la variance ( l'inertie, l'information ) totale à résumer . Elle est
égale au nombre de variables dans le cas d'une ACP normée.

- Valeur propre : la variance de la composante principale correspondante (l'information résumée par l'axe
factoriel considéré).
- Pourcentage : le rapport de la valeur propre à l'inertie totale, ce qui mesure la quantité de l'information
résumée par l'axe factoriel correspondant.

Variables et individus actifs : Interprétation interne

Variables actives
- Coordonnées : les coordonnées des variables initiales sur les axes factoriels engendrés par les
composantes principales.
- Corrélations variables-facteurs : coefficients de corrélations entre les variables actives initiales et les
composantes principales; ce qui mesure la qualité de la représentation
des variables dans les plans factoriels.
Individus actifs
- Coordonnées : les coordonnées des individus sur les axes factoriels
- Contribution : mesure la qualité de représentation de l'individu sur l'axe factoriel considéré. C'est la part
d'inertie ou d'information de l'individu à la détermination de l'axe factoriel correspondant
- Cosinus carré : détermine la qualité de représentation de l'individu sur l'axe factoriel considéré. La
qualité de la représentation d'un individu dans un plan est définie par la somme des cosinus carrés
correspondant aux deux axes factoriels définissant le plan.

Variables et individus supplémentaires : Interprétation externe


Les éléments supplémentaires éventuels n’interviennent pas dans les calculs de détermination des
composantes principales ; par contre, ils sont très utiles a posteriori pour enrichir l’interprétation de ces
composantes.

Variables supplémentaires
On peut également représenter dans l'analyse, des variables mixtes ( quantitatives et/ou qualitatives )
supplémentaires ou illustratives. L'utilisation de ces variables qui n'ont pas participé à la détermination des
axes factoriels apporte des éclairages différents, il s'agit alors d'une interprétation externe.
- Les variables quantitatives illustratives se représentent aisément dans le cercle des corrélations à partir
de leurs corrélations avec les composantes principales.

- Quant aux variables qualitatives, on utilise en général le principe barycentrique qui consiste à faire
figurer le centre de gravité ( point moyen ) de chaque modalité.

Individus supplémentaires
- On peut également projeter des individus supplémentaires, à partir de leurs coordonnées relatives
aux variables initiales. N'ayant pas servi à la détermination des axes, les contributions des individus
illustratifs sont nulles.

M1 : Economie Quantitative – Analyse des Données - 8 - R. Abdesselam


1-4 Qualité des représentations - Interprétation des résultats
Les projections sur les plans principaux sont des représentations déformées de la réalité et il convient de
prendre des précautions quant à l'interprétation des résultats. On peut décomposer la lecture des résultats
d'une ACP en plusieurs étapes qui sont les suivantes :

- L'histogramme des valeurs propres permet de vérifier la qualité du résumé sur les différents axes factoriels.
Le nombre d'axes à retenir est un problème délicat et qui n'a pas de
solution rigoureuse.

Il n'y a pas de règle précise fixant un seuil à partir duquel on éliminerait l'analyse ou décidant du nombre
d'axes à étudier ( en analyse des données, tout est affaire d'interprétation ). Souvent on tient compte de la
forme de l'histogramme pour déterminer le nombre d'axes à interpréter :

+--------+----------+----------------------------------------------------------------------------------+
| NUMERO | POURCENT.| HISTOGRAMME DES 4 PREMIERES VALEURS PROPRES |
| | CUMULE | 2 axes factoriels |
+--------+----------+----------------------------------------------------------------------------------+
| 1 | 63.03 | ******************************************************************************** |
| 2 | 93.23 | *************************************** |
| 3 | 98.54 | ******* |
| 4 | 100.00 | ** |
+--------+----------+----------------------------------------------------------------------------------+

+--------+----------+----------------------------------------------------------------------------------+
| NUMERO | POURCENT.| HISTOGRAMME DES 4 PREMIERES VALEURS PROPRES |
| | CUMULE | 3 axes factoriels |
+--------+- ---+----------------------------------------------------------------------------------+
| 1 | 49.79 | ******************************************************************************** |
| 2 | 75.97 | ************************************** |
| 3 | 98.27 | ********************************* |
| 4 | 100.00 | ******** |
+--------+----------+----------------------------------------------------------------------------------+

Pour rester intéressants, les axes doivent fournir une information plus importante que chaque variable
initiale. On peut également retenir les axes dont le taux d'inertie (exprimé en %) serait à peu près égal à
100/p , où p est le nombre de variables actives initiales.
Dans le cas d'une ACP normée, on retient les axes factoriels dont la valeur propre est supérieure à un. En
effet en données centrées-réduites les variables initiales ont des variances égales à un et on cherche des
combinaisons linéaires de variance maximale donc supérieures.

- Les corrélations variables-facteurs permettent de donner un sens aux axes factoriels et de vérifier la qualité
de représentation des variables dans les plans factoriels. Si une
variable n'est corrélée avec aucun des axes d'un plan, on ne peut
guère tenir compte de cette variable dans ce plan. On s’interessera aux
coefficients les plus forts en valeur absolue et proches de 1.
- les valeurs-tests : Si l'on projette les modalités de variables qualitatives illustratives, les valeurs-tests
constituent un indice de la qualité de représentation de ces modalités sur les plans
factoriels. On considère que si la projection d'une modalité sur un axe est due au
hasard, elle réalise une loi normale centrée réduite. Si la valeur-test est supérieure à
1.96 en valeur absolue sur au moins l'un des deux axes, on considère que cette
projection n'est pas due au hasard et que l'on peut en tenir compte. Autrement dit, la
position de cette modalité ( catégorie ) illustrative, dans le plan factorielle, est
significativement différente de l'origine.
- les cosinus carrés : Lorsque l'on étudie la représentation des individus, les cosinus carrés entre individus et
axes factoriels permettent de déterminer les individus qui sont bien ou mals représentés
dans chaque plan. Le plus simple est de fixer arbitrairement un seuil (0.4 , 0.5 ou plus)
et de ne tenir compte, dans une première phase d'interprétation, que des individus dont
le cosinus carré dépasse ce seuil, avant de réintégrer progressivement les autres.
- contribution : On retiendra que les individus dont la contribution à l'axe factoriel est au moins égale à la
moyenne des valeurs des contributions sur cet axe.
- Le graphique des variables ( cercle de corrélations dans le cas d'une ACP normée ) permet de visualiser
les proximités entre variables en terme de corrélation. C'est une synthèse
graphique de la matrice des corrélations des variables actives : les directions
des variables donnent le sens des corrélations. La distance par rapport au
centre du graphique visualise la qualité de représentation dans le plan ( plus
une variable est proche du centre, plus mauvaise est sa représentation ).

M1 : Economie Quantitative – Analyse des Données - 9 - R. Abdesselam


- Le graphique des individus permet de visualiser les proximités entre individus qui s'interprétent en terme de
similitudes de comportement vis-à-vis des variables. L'étude de la forme du
nuage des individus permettra de distinguer d'éventuels regroupements et de
différencier des individus ou des groupes d'individus selon leurs réponses à
l'ensemble des variables actives.
Remarques :
La superposition de ces deux graphiques ( variables - individus ) est dénuée de sens car ces nuages de
points ne font pas partie d'un même espace. Bien qu’il existe une manière de représenter simultanément
individus et variables appelée « biplot », nous préconisons de représenter séparément les deux ensembles
pour éviter des confusions.
Si les graphiques sont ce que l'on regarde en premier le plus souvent, il faut tenir compte des divers
indicateurs qui permettent d'éviter les pièges de l'interprétation de ce qui ne constitue qu'un résumé des
données.
Rappelons que les éléments supplémentaires n’interviennent pas dans les calculs de détermination des
axes factoriels ; par contre, ils sont très utiles a posteriori pour conforter et enrichir l’interprétation de ces
axes.
L’interprétation interne consiste à étudier les résultats en se basant sur les variables et les individus actifs.
L’étude des éléments supplémentaires se fait à travers la phase d’interprétation externe.

1.5 Exemple d'application

1.5.1 Données ( Principaux indicateurs économiques et financiers de UE-2000 )


On s'intérresse ici aux principaux indicateurs économiques et financiers des 15 pays de l’Union Européenne.
Source : Publication de la banque de France - 14 septembre 2001- Document disponible sur le site internet de la
banque de France : (http://www.banque-France.fr/fr/stat/main.htm). En plus des variables caractéristiques de la
population et du Produit Intérieur Brut, présentées dans le dictionnaire des variables, on distingue deux principaux
thèmes ou groupes de variables continues. Le premier se réfère aux finances publiques, le second à l’activité et
l’emploi. Le tableau suivant résument les principales variables retenues pour donner une description d’ensemble
des caractéristiques des 15 pays de l’Union Européenne.

Dictionnaire des variables


---------------------------------------------------------------------------
1 . Etat membre ( 3 MODALITES )
AUTR - Autre ZNEU - Zone Non Euro ZEUR - Zone Euro-EUM
2 . Population (%) UE-2000 ( CONTINUE )
POPU - Population (%) UE-2000
3 . Produit Intérieur Brut (%) UE-2000 ( CONTINUE )
PIB - Produit Intérieur Br
---------------------------------------------------------------------------
Thème ‘’Finances publiques’’
4 . Recettes totales des APU en % du PIB ( CONTINUE )
RECE - Recettes totales des
5 . Dépenses totales des APU en % du PIB ( CONTINUE )
DEPE - Dépenses totales des APU
6 . Solde des finances publiques en % du PIB ( CONTINUE )
SDFP - Solde des finances publiques
7 . Dette brute des APU en % du PIB ( CONTINUE )
DETB - Dette brute des APU
---------------------------------------------------------------------------
Thème ‘’Activité-Emploi’’
8 . Taux de chômage en % population active ( CONTINUE )
TCHO - Taux de chômage en %
9 . Ventes au détail en volume (%) ( CONTINUE )
VENT - Ventes au détail en
10 . Production industrielle hors bâtiment ( CONTINUE )
PIND - Production industrie
11 . Taux de croissance en volume du PIB ( CONTINUE )
TCRO - Taux de croissance e
---------------------------------------------------------------------------

M1 : Economie Quantitative – Analyse des Données - 10 - R. Abdesselam


1.5.2 Résultats
Dans cet exemple, l'objectif est de décrire les variables du thème ‘’finances publiques-2000’’ de l’ensemble des
15 pays de l’UE. A noter qu'on a considéré les variables continues du thème ‘’Activité-Emploi’’ et la variable
nominale Etat membre comme variables supplémentaires ainsi que les deux pays hors UE (Etats-Unis et Japon)
comme individus supplémentaires. Les résultats numériques et graphiques sont les suivants :

SELECTION DES INDIVIDUS ET DES VARIABLES UTILES


VARIABLES NOMINALES ILLUSTRATIVES
1 VARIABLES 3 MODALITES ASSOCIEES
------------------------------------------------------------------------------------------------------------------
1 . Etat membre ( 3 MODALITES )
------------------------------------------------------------------------------------------------------------------
VARIABLES CONTINUES ACTIVES
4 VARIABLES
------------------------------------------------------------------------------------------------------------------
4 . Recettes totales des APU ( CONTINUE )
5 . Dépenses totales des APU ( CONTINUE )
6 . Solde des finances publiques ( CONTINUE )
7 . Dette brute des APU ( CONTINUE )
------------------------------------------------------------------------------------------------------------------
VARIABLES CONTINUES ILLUSTRATIVES
4 VARIABLES
------------------------------------------------------------------------------------------------------------------
8 . Taux de chômage en % population active ( CONTINUE )
9 . Ventes au détail en volume (%) ( CONTINUE )
10 . Production industrielle hors bâtiment ( CONTINUE )
11 . Taux de croissance en volume du PIB ( CONTINUE )
------------------------------------------------------------------------------------------------------------------
INDIVIDUS
----------------------------- NOMBRE -------------- POIDS ---------------
POIDS DES INDIVIDUS: Poids des individus, uniforme egal a 1. UNIF
RETENUS ............ NITOT = 17 PITOT = 17.000
SELECTION APRES FILTRAGE
ACTIFS ............. NIACT = 15 PIACT = 15.000
SUPPLEMENTAIRES .... NISUP = 2 PISUP = 2.000
-------------------------------------------------------------------------

M1 : Economie Quantitative – Analyse des Données - 11 - R. Abdesselam


ANALYSE EN COMPOSANTES PRINCIPALES
STATISTIQUES SOMMAIRES DES VARIABLES CONTINUES
EFFECTIF TOTAL : 15 POIDS TOTAL : 15.00
+-------------------------------------------------------+----------------------+----------------------+
| NUM . IDEN - LIBELLE EFFECTIF POIDS | MOYENNE ECART-TYPE | MINIMUM MAXIMUM |
+-------------------------------------------------------+----------------------+----------------------+
| 4 . RECE - Recettes totales des 15 15.00 | 45.77 5.43 | 34.70 56.80 |
| 5 . DEPE - Dépenses totales des 15 15.00 | 44.01 5.94 | 30.00 52.70 |
| 6 . SDFP - Solde des finances p 15 15.00 | 1.37 2.66 | -1.50 6.70 |
| 7 . DETB - Dette brute des APU 15 15.00 | 60.71 27.38 | 5.30 110.80 |
|-------------------------------------------------------|----------------------|-----------------------
| 8 . TCHO - Taux de chômage en % 14 14.00 | 6.53 3.45 | 2.60 14.10 |
| 9 . VENT - Ventes au détail en 15 15.00 | 3.91 2.51 | -0.40 9.10 |
| 10 . PIND - Production industrie 15 15.00 | 5.96 3.72 | 0.00 15.40 |
| 11 . TCRO - Taux de croissance e 15 15.00 | 4.46 2.33 | 2.90 11.50 |
+-------------------------------------------------------+----------------------+----------------------+

MATRICE DES CORRELATIONS


| RECE DEPE SDFP DETB
-----+----------------------------
RECE | 1.00
DEPE | 0.89 1.00
SDFP | 0.11 -0.32 1.00
DETB | 0.17 0.43 -0.59 1.00
-----+----------------------------
| RECE DEPE SDFP DETB

MATRICE DES VALEURS-TESTS


| RECE DEPE SDFP DETB
-----+----------------------------
RECE | 99.99
DEPE | 5.58 99.99
SDFP | 0.43 -1.27 99.99
DETB | 0.68 1.77 -2.64 99.99
-----+----------------------------
| RECE DEPE SDFP DETB

VALEURS PROPRES
APERCU DE LA PRECISION DES CALCULS : TRACE AVANT DIAGONALISATION .. 4.0000
SOMME DES VALEURS PROPRES .... 4.0000
HISTOGRAMME DES 4 PREMIERES VALEURS PROPRES
+--------+------------+----------+----------+----------------------------------------------------------------------------------+
| NUMERO | VALEUR | POURCENT.| POURCENT.| |
| | PROPRE | | CUMULE | |
+--------+------------+----------+----------+----------------------------------------------------------------------------------+
| 1 | 2.2063 | 55.16 | 55.16 | ******************************************************************************** |
| 2 | 1.3907 | 34.77 | 89.93 | *************************************************** |
| 3 | 0.3909 | 9.77 | 99.70 | *************** |
| 4 | 0.0121 | 0.30 | 100.00 | * |
+--------+------------+----------+----------+----------------------------------------------------------------------------------+

COORDONNEES DES VARIABLES SUR LES AXES 1 A 4


VARIABLES ACTIVES
----------------------------+------------------------------------+-------------------------------+-------------------------------
VARIABLES | COORDONNEES | CORRELATIONS VARIABLE-FACTEUR | ANCIENS AXES UNITAIRES
----------------------------+------------------------------------+-------------------------------+-------------------------------
IDEN - LIBELLE COURT | 1 2 3 4 0 | 1 2 3 4 0 | 1 2 3 4 0
----------------------------+------------------------------------+-------------------------------+-------------------------------
RECE - Recettes totales des | -0.75 -0.66 0.01 -0.07 0.00 | -0.75 -0.66 0.01 -0.07 0.00 | -0.50 -0.56 0.02 -0.66 0.00
DEPE - Dépenses totales des | -0.94 -0.30 -0.15 0.08 0.00 | -0.94 -0.30 -0.15 0.08 0.00 | -0.63 -0.25 -0.23 0.69 0.00
SDFP - Solde des finances p | 0.52 -0.76 0.38 0.03 0.00 | 0.52 -0.76 0.38 0.03 0.00 | 0.35 -0.65 0.61 0.29 0.00
DETB - Dette brute des APU | -0.70 0.54 0.47 0.00 0.00 | -0.70 0.54 0.47 0.00 0.00 | -0.47 0.46 0.76 -0.01 0.00
----------------------------+------------------------------------+-------------------------------+-------------------------------

Représentation des variables actives – Finances publiques


Cercle de corrélation

M1 : Economie Quantitative – Analyse des Données - 12 - R. Abdesselam


COORDONNEES, CONTRIBUTIONS ET COSINUS CARRES DES INDIVIDUS
INDIVIDUS ACTIFS (AXES 1 A 4)
+---------------------------------------+-------------------------------+--------------------------+--------------------------+
| INDIVIDUS | COORDONNEES | CONTRIBUTIONS | COSINUS CARRES |
|---------------------------------------+-------------------------------+--------------------------+--------------------------|
| IDENTIFICATEUR P.REL DISTO | 1 2 3 4 0 | 1 2 3 4 0 | 1 2 3 4 0 |
+---------------------------------------+-------------------------------+--------------------------+--------------------------+
| France 6.67 3.17 | -1.48 -0.15 -0.97 0.06 0.00 | 6.7 0.1 16.0 1.8 0.0 | 0.70 0.01 0.30 0.00 0.00 |
| Allemagne 6.67 1.26 | -0.13 0.88 -0.63 -0.28 0.00 | 0.0 3.7 6.8 42.7 0.0 | 0.01 0.61 0.31 0.06 0.00 |
| Autriche 6.67 1.24 | -0.80 0.42 -0.65 0.07 0.00 | 2.0 0.8 7.1 2.8 0.0 | 0.52 0.14 0.34 0.00 0.00 |
| Belgique 6.67 3.91 | -1.47 0.91 0.95 0.03 0.00 | 6.6 4.0 15.5 0.6 0.0 | 0.55 0.21 0.23 0.00 0.00 |
| Espagne 6.67 2.53 | 0.93 1.28 -0.19 -0.04 0.00 | 2.6 7.8 0.6 1.0 0.0 | 0.34 0.64 0.01 0.00 0.00 |
| Finlande 6.67 5.09 | 0.61 -2.02 0.79 -0.01 0.00 | 1.1 19.6 10.7 0.0 0.0 | 0.07 0.80 0.12 0.00 0.00 |
| Grèce 6.67 4.88 | -2.06 0.65 0.41 0.16 0.00 | 12.9 2.0 2.8 14.5 0.0 | 0.87 0.09 0.03 0.01 0.00 |
| Irlande 6.67 11.91 | 3.33 0.57 0.70 0.08 0.00 | 33.5 1.5 8.3 3.7 0.0 | 0.93 0.03 0.04 0.00 0.00 |
| Italie 6.67 3.67 | -1.14 1.18 0.97 -0.19 0.00 | 3.9 6.7 16.0 20.5 0.0 | 0.36 0.38 0.26 0.01 0.00 |
| Luxembourg 6.67 7.17 | 2.15 -1.54 -0.41 -0.08 0.00 | 14.0 11.4 2.9 3.2 0.0 | 0.64 0.33 0.02 0.00 0.00 |
| Pays-bas 6.67 0.45 | 0.65 0.04 0.16 0.05 0.00 | 1.3 0.0 0.5 1.4 0.0 | 0.93 0.00 0.06 0.01 0.00 |
| Portugal 6.67 2.35 | 0.52 1.24 -0.73 0.09 0.00 | 0.8 7.4 9.1 4.8 0.0 | 0.11 0.66 0.23 0.00 0.00 |
| Danemark 6.67 3.14 | -0.92 -1.47 -0.39 0.00 0.00 | 2.6 10.3 2.5 0.0 0.0 | 0.27 0.68 0.05 0.00 0.00 |
| Royaume-Uni 6.67 1.86 | 1.32 0.26 -0.19 0.07 0.00 | 5.3 0.3 0.6 2.7 0.0 | 0.94 0.04 0.02 0.00 0.00 |
| Suède 6.67 7.36 | -1.50 -2.25 0.17 -0.02 0.00 | 6.8 24.3 0.5 0.3 0.0 | 0.31 0.69 0.00 0.00 0.00 |
+---------------------------------------+-------------------------------+--------------------------+--------------------------+

Représentation des individus actifs (pays UE-15)


Premier plan principal

VARIABLES ILLUSTRATIVES
----------------------------+------------------------------------+-------------------------------+-------------------------------
IDEN - LIBELLE COURT | 1 2 3 4 0 | 1 2 3 4 0 | 1 2 3 4 0
----------------------------+------------------------------------+-------------------------------+-------------------------------
POPU - Population (%) UE-20 | -0.14 0.42 -0.26 -0.55 0.00 | -0.14 0.42 -0.26 -0.55 0.00 |
PIB - Produit Intérieur Br | -0.03 0.25 -0.33 -0.60 0.00 | -0.03 0.25 -0.33 -0.60 0.00 |
TCHO - Taux de chômage en % | -0.26 0.27 0.14 -0.45 0.00 | -0.26 0.27 0.14 -0.45 0.00 |
VENT - Ventes au détail en | 0.21 -0.05 0.33 0.63 0.00 | 0.21 -0.05 0.33 0.63 0.00 |
PIND - Production industrie | 0.25 -0.30 0.41 -0.04 0.00 | 0.25 -0.30 0.41 -0.04 0.00 |
TCRO - Taux de croissance e | 0.76 -0.18 0.27 0.12 0.00 | 0.76 -0.18 0.27 0.12 0.00 |
----------------------------+------------------------------------+-------------------------------+-------------------------------

Représentation des variables illustratives


Premier plan principal

M1 : Economie Quantitative – Analyse des Données - 13 - R. Abdesselam


INDIVIDUS ILLUSTRATIFS (AXES 1 A 4)
+---------------------------------------+-------------------------------+--------------------------+--------------------------+
| INDIVIDUS | COORDONNEES | CONTRIBUTIONS | COSINUS CARRES |
|---------------------------------------+-------------------------------+--------------------------+--------------------------|
| IDENTIFICATEUR P.REL DISTO | 1 2 3 4 0 | 1 2 3 4 0 | 1 2 3 4 0 |
+---------------------------------------+-------------------------------+--------------------------+--------------------------+
| Etats-Unis 6.67 12.98 | 3.02 1.84 0.68 0.11 0.00 | 0.0 0.0 0.0 0.0 0.0 | 0.70 0.26 0.04 0.00 0.00 |
| Japon 6.67 15.07 | -1.59 3.54 -0.11 0.11 0.00 | 0.0 0.0 0.0 0.0 0.0 | 0.17 0.83 0.00 0.00 0.00 |
+---------------------------------------+-------------------------------+--------------------------+--------------------------+
COORDONNEES ET VALEURS-TEST DES MODALITES AXES 1 A 4
+---------------------------------------------+-------------------------------+------------------------------------+----------+
| MODALITES | VALEURS-TEST | COORDONNEES | |
|---------------------------------------------|-------------------------------|------------------------------------|----------|
| IDEN - LIBELLE EFF. P.ABS | 1 2 3 4 0 | 1 2 3 4 0 | DISTO. |
+---------------------------------------------+-------------------------------+------------------------------------+----------+
| 1 . Etat membre |
| AUTR - Autre 0 0.00 | 0.0 0.0 0.0 0.0 0.0 | 0.00 0.00 0.00 0.00 0.00 | 0.00 |
| ZNEU - Zone Non Euro 3 3.00 | -0.5 -1.8 -0.4 0.3 0.0 | -0.37 -1.15 -0.13 0.02 0.00 | 1.48 |
| ZEUR - Zone Euro 12 12.00 | 0.5 1.8 0.4 -0.3 0.0 | 0.09 0.29 0.03 0.00 0.00 | 0.09 |
+---------------------------------------------+-------------------------------+------------------------------------+----------+

Représentation des individus illustratifs sur le premier plan principal


Modalités de la variable nominale ‘Etat membre’

1.5.3 Quelques interprétations des résultats


Les tableaux des statistiques sommaires et des corrélations des variables "finances publiques des 15 pays
de l’UE" nous fournissent les premières informations :
- Statistiques descriptives ( moyenne, écart-type, minimum, maximum ) des variables actives et illustratives
continues.
- lorsque l'ordre de grandeur des variances des variables actives et/ou les unités de mesure de ces
variables sont différentes, il est dès lors indispensable de normer les données c’est-à-dire choisir une
ACP normée.
- la variable ‘‘Recettes totales des APU3’’ est fortement corrélée positivement avec la variable ‘’Dépenses
totales des APU’’ alors que la variable ‘’Solde des finances publiques’’ est corrélée négativement avec la
variable ‘’Dette brut des APU’’. La matrice des valeurs-tests présente les résultats des tests statistiques
des coefficients de corrélation des variables actives.
- Seuls les deux premiers facteurs significatifs de l’analyse sont conservés. Les taux d'inertie expliquée
correspondent à 55,16% et 34,77% de l'information globale représentée respectivement par le
premier et deuxième facteur. Le plan constitué de ces deux facteurs principaux décrit environ 90% de
l'information totale contenue dans les quatre variables actives initiales.

3
APU - Administrations publiques : Ensemble des unités institutionnelles dont la fonction principale est de produire des services non marchands ou d’effectuer des
opérations de redistribution du revenu et des richesses nationales. Elles tirent la majeure partie de leurs ressources de contributions obligatoires. Le secteur des
administrations publiques comprend les administrations publiques centrales, les administrations publiques locales et les administrations de sécurité sociale.

M1 : Economie Quantitative – Analyse des Données - 14 - R. Abdesselam


Représentation graphique des variables – finances publiques:
Le graphique "cercle de corrélations" donne une représentation des caractéristiques finances publiques
des 15 pays de l’UE sur les deux premiers axes factoriels. Les données étant ici centrées réduites, les
coordonnées de ces caractéristiques sur les axes sont les coefficients de corrélations entre les variables et
les composantes principales. Ainsi, sur le premier plan principal,

- le premier facteur est corrélé négativement avec les dépenses, les recettes et la dette brute des APU, et
positivement avec le solde des finances publiques.
- le deuxième facteur est significativement corrélé négativement avec le solde des finances publiques et les
recettes, et positivement avec la dette brut des APU.
Seule la variable illustrative "Taux de croissance en volume du PIB" du thème ‘’Activité-Emploi’’ qui a été
projetée a posteriori dans le plan factoriel, est corrélée avec le premier axe factoriel.

Représentation graphique des individus ( pays de l’UE-15 ) :

L’interprétation interne de la représentation des individus s’effectue toujours à partir de celle des variables
actives. Ainsi, relativement à l’ensemble des pays de l’UE et sur le premier plan factoriel,

- le premier facteur oppose les pays dont les recettes, les dépenses et la dette brute sont élevées avec un
solde des finances publiques significativement faible c’est le cas de la Grèce, Suède, France ou encore
de la Belgique, aux pays comme l’Irlande et le Luxembourg dont le solde des finances publiques est élevé
alors que les recettes, les dépenses et la dette brute sont significativement faibles. De plus, ces pays ont
plutôt un taux de croissance en volume du PIB élevé par rapport à celui de l’ensemble des pays de l’UE
( interprétation externe – variables illustratives ).

- Quant au deuxième facteur, il oppose les pays ayant un solde des finances publiques et des recettes
significativement élevés et une faible dette brute des APU ( Suède, Finlande, Luxembourg et le
Danemark ), aux pays caractérisés par une dette brute importante et un solde des finances publiques et
des recettes faibles c’est le cas notamment de l’Espagne, de l’Italie et du Portugal.

L’origine ( fictive ) des axes représente un pays qui aurait pour caractéristique ‘’finances publiques’’ la
moyenne des quatre variables actives étudiées.

M1 : Economie Quantitative – Analyse des Données - 15 - R. Abdesselam


2 Analyse Factorielle des Correspondances
Le domaine d'application de l'Analyse Factorielle des Correspondances4 (AFC), développée par
Benzécri (1969), est différent de celui de l'ACP. Alors que cette dernière s'applique aux tableaux de mesures
et au traitement de données quantitatives, l'AFC est une méthode adaptée à la description d'un tableau de
contingence et permet d'étudier les éventuelles relations existant entre les deux variables qualitatives de
ce tableau.

Le tableau de contingence ou de dépendance est un tableau croisé des effectifs des modalités de
deux variables qualitatives ou nominales.

La validité de l'AFC s'étend à tout tableau de données à condition que les données recensées dans ce
tableau soient toutes positives et homogènes. On peut ainsi traiter des tableaux de mesures exprimées
dans la même unité, des tableaux d'échanges, tableaux de notes, tableaux de rangs, etc..

2-1 Objectif de la méthode


Décrire la dépendance entre deux variables qualitatives ( nominales ).
L'observation de deux caractères qualitatifs sur un ensemble d'individus permet de construire un tableau
de contingence.

Par exemple, pour les 81491 créateurs-repreneurs d’entreprises, créées ou reprises au cours du
premier semestre 1994 ( Source : Insee - Les Créations d’entreprises du premier semestre 1994 - Système
productif n°97-98 - mars 96 ), si on veut décrire les éventuels liens entre les secteurs d'activités et les
qualifications professionnelles du dernier emploi, le tableau ci-dessous donne la répartition des 81491
créateurs-repreneurs d’entreprises selon ces deux caractères.

Secteur Qualification professionnelle du dernier emploi


d’activité A.C.C.Entps. Cadre P.Interméd Employé Ouvrier E.S.Qualif Total
I.Agro.Alimentaire 291 129 112 508 529 148 1717
Industrie 1109 1250 773 1528 1195 570 6425
Construction 1186 1011 1011 1956 4482 1107 10753
Commerce 4865 4316 3316 7927 3275 3928 27627
Transport 401 337 256 1247 557 312 3110
H.C.Restaurants 1374 684 528 3095 859 1083 7623
Serv. Entreprises 2833 5382 1654 3179 387 1670 15105
Serv. Ménages 1306 1117 1655 3265 560 1228 9131
Total 13365 14226 9305 22705 11844 10046 81491

Tableau de contingence

Peut-on donner une réponse graphique à la question : Est-il raisonnable de penser qu'il existe une
liaison ( correspondance ) entre les secteurs d'activités des entreprises créées-reprises et la qualification
professionnelle du créateur-repreneur ?

Remarquons tout d'abord qu'un tableau de contingence peut se lire de deux manières différentes : selon
ses lignes ou selon ses colonnes. On peut répondre à la question posée en appliquant les principes de
l'Analyse en Composantes Principales. L'AFC se présente alors comme 2 ACP particulières selon que l'on
s'intéresse aux lignes ( secteurs d’activités ) ou aux colonnes (qualification professionnelle) du tableau de
contingence.

2.1.1 Première analyse : ACP des profils-lignes ( secteurs d’activités )


Si on s'intéresse aux secteurs d’activités des entreprises créées-reprises, on construit le tableau des
profils-lignes en ramenant le total ligne du tableau de contingence à 1 (100%), on évite ainsi les effets de
marges. On détermine ainsi pour chaque secteur d’activité la répartition des créateurs-repreneurs selon la
qualification professionnelle de leur dernier emploi. Par exemple, c’est dans le secteur de la construction que
les ouvriers (41.68%) ont créé ou repris le plus d’entreprises que tous les autres ou encore ce sont les
cadres (9.40%) qui ont créé ou repris le moins d’entreprises dans ce secteur (interprétation par rapport au
profil moyen : tous secteurs d’activités confondus).

4
Factorial Correspondence Analysis (FCA).

M1 : Economie Quantitative – Analyse des Données - 16 - R. Abdesselam


Secteur  Qualification professionnelle du dernier emploi
Activité  A.C.C.Entps. Cadre P.Interméd Employé Ouvrier E.S.Qualif Total
I.Agro.Alimentaire 16.95 7.51 6.52 29.59 30.81 8.62 100
Industrie 17.26 19.46 12.03 23.78 18.60 8.87 100
Construction 11.03 9.40 9.40 18.19 41.68 10.29 100
Commerce 17.61 15.62 12.00 28.69 11.85 14.22 100
Transport 12.89 10.84 8.23 40.10 17.91 10.03 100
H.C.Restaurants 18.02 8.97 6.93 40.60 11.27 14.21 100
Serv. Entreprises 18.76 35.63 10.95 21.05 2.56 11.06 100
Serv. Ménages 14.30 12.23 18.13 35.76 6.13 13.45 100
Profil moyen 16.40 17.46 11.42 27.86 14.53 12.33

Tableau des profils-lignes (%)

Nous allons considérer les lignes de ce tableau comme des individus et les colonnes comme des
caractères. On fait ensuite l'ACP de ce tableau avec une métrique particulière, (métrique du Khi²) pour
calculer les distances entre profils, et des poids proportionnels aux effectifs des lignes. Cela revient en fait à
procéder comme pour l'ACP normée en remplaçant la matrice des coefficients de corrélation linéaire par une
matrice adaptée aux caractères qualitatifs. On obtient ainsi une analyse et des représentations graphiques
des secteurs d’activités dans des plans factoriels appropriés.

2.1.2 Deuxième analyse : ACP des profils-colonnes ( qualification professionnelle )

Si on veut s'intéresser aux qualifications professionnelles des créateurs-repreneurs, on construit le


tableau des profils-colonnes en ramenant le total colonne du tableau de contingence à 1 (100%).

Secteur Qualification professionnelle du dernier emploi profil


Activité  A.C.C.Entps. Cadre P.Interméd Employé Ouvrier E.S.Qualif moyen
I.Agro.Alimentaire 2.18 0.91 1.20 2.24 4.67 1.47 2.11
Industrie 8.30 8.79 8.31 6.73 10.09 5.67 7.88
Construction 8.87 7.11 10.87 8.61 37.84 11.02 13.20
Commerce 36.40 30.34 35.64 34.91 27.65 39.10 33.90
Transport 3.00 2.37 2.75 5.49 4.70 3.11 3.82
H.C.Restaurants 10.28 4.81 5.67 13.63 7.25 10.78 9.35
Serv. Entreprises 21.20 37.83 17.77 14.00 3.27 16.62 18.54
Serv. Ménages 9.77 7.85 17.79 14.38 4.73 12.22 11.20
Total 100 100 100 100 100 100 100

Tableau des profils-colonnes (%)

On peut ainsi savoir pour chaque catégorie professionnelle comment se répartissent les secteurs
d’activités des entreprises créées-reprises. Ainsi, on constate que les cadres ont créé ou repris plus
d’entreprises dans les secteurs des services aux entreprises (37.83%) et de l’industrie (8.79%), et moins
dans les autres secteurs (interprétation par rapport au profil moyen : toutes qualifications confondues).

On procède de la même façon avec le tableau des profils-colonnes en prenant les colonnes pour
individus et les lignes pour caractères. On obtient ainsi une analyse et une représentation graphique des
qualifications professionnelles.

Remarques :
1- La mise en correspondance et le rôle symétrique que fait jouer la métrique du Khi² pour les modalités
lignes et colonnes du tableau de contingence, fait que l'ACP des profils-lignes est équivalente à l'ACP
des profils-colonnes : les composantes principales d'une analyse se déduisent de celles de l'autre et les
valeurs propres des deux analyses sont identiques.
2- Le nombre d'axes factoriels est toujours inférieur ou égal au min(p-1 , q-1) où p et q sont les nombres de
modalités des deux caractères qualitatifs.
3- Dans la pratique, on effectue qu'une seule des 2 ACP, les résultats de l'autre analyse se déduisent par
des formules de transition. Il est possible de superposer les graphiques (moyennant un changement
d'échelle) des 2 ACP pour visualiser, dans les plans factoriels, les liaisons entre les profils-lignes et les
profils-colonnes ( représentation simultanée ).
4- Les principes de représentation et les indices de qualité associés dans le cadre de l'Analyse en
Composantes Principales restent inchangés.

M1 : Economie Quantitative – Analyse des Données - 17 - R. Abdesselam


2.2 Exemple - Résultats
2.2.1 Données ( Les créations-reprises d'entreprises )
Enquête réalisée par l'Insee auprès de 81491 créateurs-repreneurs d'entreprises au cours du premier
semestre 1991. Nous avons soumis à l'analyse des correspondances le tableau de contingence donnant la
qualification professionnelle et le secteur d'activité des 81491 créateurs-repreneurs d'entreprises.

2.2.2 Interprétation de quelques résultats


Les résultats et les règles de lecture des représentations graphiques de cette méthode demandent à être
interprétés avec prudence.

Les deux tableaux de profils permettent de répondre aux questions suivantes :


Tableau des profils-lignes : "Quelle est la qualification professionnelle du dernier emploi du créateur ou
repreneur de chaque secteur d'activité ?

Tableau des profils-colonnes : "Quel est le secteur d'activité des entreprises créées ou reprises par
chaque qualification professionnelle ?

La proximité entre deux points "secteur d'activité" signifiera une similitude des profils "qualification
professionnelle’’. Il en est ainsi pour les hôtels-cafés-restaurants et les services aux ménages, par exemple
(cf. tableau des profils-lignes).

La proximité entre deux points "qualification professionnelle" signifiera une similitude des profils "secteur
d'activité". C'est ce que l'on constate pour les professions intermédiaires et les artisans-commerçants-chefs
d'entreprise (cf. tableau des profils-colonnes).

La proximité entre les hôtels-cafés-restaurants et les services aux ménages s'explique notamment par le
fait que dans ces deux secteurs, la proportion d'entreprises créées ou reprises par les employés (13.63% ,
14.38%) est supérieure à la moyenne (9.35% , 11.20%), et une proportion d'entreprises créées ou reprises
par les cadres (4.81% , 7.85%) inférieure à la moyenne.

M1 : Economie Quantitative – Analyse des Données - 18 - R. Abdesselam


Enfin, on notera que les proximités entre profils s'interprètent toujours par référence au profil moyen, et
que les proximités les plus aisées à interpréter se situent toujours à la périphérie du graphique.

Analyse de la dépendance

L’Analyse Factorielle des Correspondances (AFC) de la table de contingence conduit à cinq axes
factoriels représentant toute l’information à résumer c’est-à-dire l’association symétrique, entre les
qualifications professionnelles et les secteurs d’activité des créateurs et repreneurs d’entreprises, mesurée
par le phi-deux de Pearson (² = 0.1794).
Dans le cas de l’indépendance des deux variables, hypothèse d’indépendance des lignes et des colonnes du
tableau de contingence ci-dessous, la mesure de l’association serait une réalisation d’un khi-deux de
Pearson à 35 degrés de liberté ( KHI2 = 14619.49 ), noté ²calculé , dont la relation est ² = ²calculé / n, où
n = 81491 entreprises désigne la taille de l’échantillon. L’hypothèse d’indépendance est évidemment rejetée
vu que PROBA ( KHI2 > 14619.49 ) = 0.0001 < 5% (risque d’erreur) .

EDITION DU TABLEAU CROISE


TABLEAU 1 EN LIGNE : Secteur d’activité POIDS TOTAL : 81491
EN COLONNE : Qualification professionnelle du dernier emploi

POIDS | A.C.C.Entps. | Cadre | P.Intermédia | Employé | Ouvrier | E.S.Qualific | ENSEMBLE


% COLONNE | | | | | | |
% LIGNE | | | | | | |
---------------------+--------------+--------------+--------------+--------------+--------------+--------------+--------------
| 291 | 129 | 112 | 508 | 529 | 148 | 1717
I.Agro.Alimentaire | 2.18 | 0.91 | 1.20 | 2.24 | 4.67 | 1.47 | 2.11
| 16.95 | 7.51 | 6.52 | 29.59 | 30.81 | 8.62 | 100.00
---------------------+--------------+--------------+--------------+--------------+--------------+--------------+--------------
| 1109 | 1250 | 773 | 1528 | 1195 | 570 | 6425
Industrie | 8.30 | 8.79 | 8.31 | 6.73 | 10.09 | 5.67 | 1 7.88
| 17.26 | 19.46 | 12.03 | 23.78 | 18.60 | 8.87 | 100.00
---------------------+--------------+--------------+--------------+--------------+--------------+--------------+--------------
| 1186 | 1011 | 1011 | 1956 | 4482 | 1107 | 10753
Construction | 8.87 | 7.11 | 10.87 | 8.61 | 37.84 | 11.02 | 13.20
| 11.03 | 9.40 | 9.40 | 18.19 | 41.68 | 10.29 | 100.00
---------------------+--------------+--------------+--------------+--------------+--------------+--------------+--------------
| 4865 | 4316 | 3316 | 7927 | 3275 | 3928 | 27627
Commerce | 36.40 | 30.34 | 35.64 | 34.91 | 27.65 | 39.10 | 33.90
| 17.61 | 15.62 | 12.00 | 28.69 | 11.85 | 14.22 | 100.00
---------------------+--------------+--------------+--------------+--------------+--------------+--------------+--------------
| 401 | 337 | 256 | 1247 | 557 | 312 | 3110
Transport | 3.00 | 2.37 | 2.75 | 5.49 | 4.70 | 3.11 | 3.82
| 12.89 | 10.84 | 8.23 | 40.10 | 17.91 | 10.03 | 100.00
---------------------+--------------+--------------+--------------+--------------+--------------+--------------+--------------
| 1374 | 684 | 528 | 3095 | 859 | 1083 | 7623
H.C.Restaurants | 10.28 | 4.81 | 5.67 | 13.63 | 7.25 | 10.78 | 9.35
| 18.02 | 8.97 | 6.93 | 40.60 | 11.27 | 14.21 | 100.00
---------------------+--------------+--------------+--------------+--------------+--------------+--------------+--------------
| 2833 | 5382 | 1654 | 3179 | 387 | 1670 | 15105
Serv. Entreprises | 21.20 | 37.83 | 17.77 | 14.00 | 3.27 | 16.62 | 18.54
| 18.76 | 35.63 | 10.95 | 21.05 | 2.56 | 11.06 | 100.00
---------------------+--------------+--------------+--------------+--------------+--------------+--------------+--------------
| 1306 | 1117 | 1655 | 3265 | 560 | 1228 | 9131
Serv. Menages | 9.77 | 7.85 | 17.79 | 14.38 | 4.73 | 12.22 | 11.20
| 14.30 | 12.23 | 18.13 | 35.76 | 6.13 | 13.45 | 100.00
---------------------+--------------+--------------+--------------+--------------+--------------+--------------+--------------
| 13365 | 14226 | 9305 | 22705 | 11844 | 10046 | 81491
ENSEMBLE | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00
| 16.40 | 17.46 | 11.42 | 27.86 | 14.53 | 12.33 | 100.00
------------------------------------------------------------------------------------------------------------
KHI2 = 14619.49 / 35 DEGRES DE LIBERTE / 0 EFFECTIFS THEORIQUES INFERIEURS A 5
PROBA ( KHI2 > 14619.49 ) = 0.000 / V.TEST = 99.10
------------------------------------------------------------------------------------------------------------

ANALYSE DES CORRESPONDANCES BINAIRES


VALEURS PROPRES
APERCU DE LA PRECISION DES CALCULS : TRACE AVANT DIAGONALISATION .. 0.1794
SOMME DES VALEURS PROPRES .... 0.1794
HISTOGRAMME DES 5 PREMIERES VALEURS PROPRES
+--------+------------+----------+----------+----------------------------------------------------------------------------------+
| NUMERO | VALEUR | POURCENT.| POURCENT.| |
| | PROPRE | | CUMULE | |
+--------+------------+----------+----------+----------------------------------------------------------------------------------+
| 1 | 0.1244 | 69.33 | 69.33 | ******************************************************************************** |
| 2 | 0.0442 | 24.65 | 93.97 | ***************************** |
| 3 | 0.0075 | 4.19 | 98.16 | ***** |
| 4 | 0.0025 | 1.41 | 99.57 | ** |
| 5 | 0.0008 | 0.43 | 100.00 | * |
+--------+------------+----------+----------+----------------------------------------------------------------------------------+

COORDONNEES, CONTRIBUTIONS DES FREQUENCES SUR LES AXES 1 A 5


FREQUENCES ACTIVES
+------------------------------------------+-------------------------------+--------------------------+--------------------------+
| FREQUENCES | COORDONNEES | CONTRIBUTIONS | COSINUS CARRES |
|------------------------------------------+-------------------------------+--------------------------+--------------------------|
| IDEN - LIBELLE COURT P.REL DISTO | 1 2 3 4 5 | 1 2 3 4 5 | 1 2 3 4 5 |
+------------------------------------------+-------------------------------+--------------------------+--------------------------+
| ACCE - A.C.C.ENTREPRISE 16.40 0.02 | 0.13 0.00 0.06 0.06 0.05 | 2.1 0.0 6.6 20.5 54.4 | 0.64 0.00 0.12 0.13 0.10 |
| CADR - CADRES 17.46 0.28 | 0.39 0.36 0.02 -0.03 -0.01 | 21.1 49.8 1.3 5.8 4.5 | 0.54 0.45 0.00 0.00 0.00 |
| PINT - PROF.INTERMEDIAIRE 11.42 0.07 | 0.09 -0.06 -0.23 -0.02 0.02 | 0.7 0.8 82.3 1.3 3.4 | 0.12 0.05 0.83 0.00 0.00 |
| EMPL - EMPLOYES 27.86 0.06 | 0.04 -0.24 0.05 -0.05 -0.01 | 0.4 36.7 9.3 24.7 1.1 | 0.03 0.90 0.04 0.03 0.00 |
| OUVR - OUVRIERS 14.53 0.67 | -0.80 0.17 0.01 -0.01 0.00 | 75.4 9.5 0.1 0.4 0.0 | 0.96 0.04 0.00 0.00 0.00 |
| ESQU - E.SQUALIFICATION 12.33 0.03 | 0.05 -0.11 -0.01 0.10 -0.05 | 0.2 3.2 0.3 47.3 36.6 | 0.09 0.44 0.01 0.37 0.09 |
+------------------------------------------+-------------------------------+--------------------------+--------------------------+

M1 : Economie Quantitative – Analyse des Données - 19 - R. Abdesselam


COORDONNEES, CONTRIBUTIONS ET COSINUS CARRES DES INDIVIDUS
AXES 1 A 5
+---------------------------------------+-------------------------------+--------------------------+--------------------------+
| INDIVIDUS | COORDONNEES | CONTRIBUTIONS | COSINUS CARRES |
|---------------------------------------+-------------------------------+--------------------------+--------------------------|
| IDENTIFICATEUR P.REL DISTO | 1 2 3 4 5 | 1 2 3 4 5 | 1 2 3 4 5 |
+---------------------------------------+-------------------------------+--------------------------+--------------------------+
| IAAlimentaire 2.11 0.27 | -0.49 -0.02 0.14 -0.04 0.09 | 4.1 0.0 5.4 1.1 21.5 | 0.89 0.00 0.07 0.00 0.03 |
| Industrie 7.88 0.03 | -0.08 0.13 -0.02 -0.04 0.07 | 0.4 3.0 0.4 5.0 57.7 | 0.19 0.56 0.01 0.05 0.19 |
| Construction 13.20 0.60 | -0.75 0.21 -0.03 0.00 -0.02 | 59.1 13.2 1.5 0.0 9.9 | 0.92 0.07 0.00 0.00 0.00 |
| Commerce 33.90 0.01 | 0.05 -0.07 -0.01 0.06 0.00 | 0.7 4.1 0.9 41.6 0.1 | 0.23 0.48 0.02 0.28 0.00 |
| Transport 3.82 0.11 | -0.16 -0.20 0.12 -0.16 -0.03 | 0.8 3.6 7.6 36.7 5.5 | 0.23 0.39 0.14 0.23 0.01 |
| HCRestaurants 9.35 0.13 | -0.01 -0.31 0.17 0.00 -0.01 | 0.0 20.8 38.0 0.1 0.7 | 0.00 0.76 0.24 0.00 0.00 |
| S.Entreprises 18.54 0.31 | 0.47 0.30 0.03 -0.02 -0.01 | 32.8 36.7 2.1 2.3 4.0 | 0.71 0.28 0.00 0.00 0.00 |
| S.Ménages 11.20 0.13 | 0.15 -0.27 -0.17 -0.05 -0.01 | 2.2 18.5 44.1 13.3 0.6 | 0.18 0.56 0.23 0.02 0.00 |
+---------------------------------------+-------------------------------+--------------------------+--------------------------+

Créateurs / Repreneurs d’entreprises


Qualification – Activité de l’entreprise
Représentation de l’association – Premier plan principal

Représentation graphique
La dépendance entre le secteur d'activité et la qualification professionnelle du dernier emploi peut être
décrite par le premier plan principal qui résume environ 94% de l'information globale.
- Le premier axe oppose les secteurs de la construction et de l'industrie agroalimentaire, caractéristiques
des ouvriers, au secteur des services aux entreprises représentatif des cadres.

- Quant au deuxième axe, il oppose les employés qui ont le plus créé ou repris d'entreprises dans les
services aux ménages et les hôtels-cafés-restaurants, aux cadres qui caractérisent les entreprises
créées ou reprises dans le secteur des services auprès des entreprises.

Enfin, pour éviter des interprétations abusives de proximités graphiques illusoires, comme en Analyse en
Composantes Principales, il est recommandé de consulter le tableau des contributions "contributions
absolues" et le tableau des cosinus carrés des angles entre les points et avec les axes factoriels
"contributions relatives".

M1 : Economie Quantitative – Analyse des Données - 20 - R. Abdesselam


3 Analyse Factorielle des Correspondances Multiples

L'analyse de plus de deux variables qualitatives s'effectue à l'aide d'une extension de l'AFC que l'on
appelle Analyse Factorielle des Correspondances Multiples5 (AFCM ou ACM). C'est l'une des méthodes les
plus utilisées en analyse des données, ses principaux domaines d'applications sont le traitement des
questionnaires et l'exploitation des enquêtes par sondages.
Du point de vue de l'analyse des données une variable qualitative est une question; ses modalités sont
les différentes réponses possibles. Les variables utilisées sont nécessairement qualitatives. Cependant, il est
toujours possible de transformer une variable quantitative en une variable qualitative ordinale ( classes
d'âges, tranches de salaires, etc. ). Il est possible de positionner des variables continues en élément
supplémentaire ( sans transformation au préalable en variable qualitative par découpage en classes ).

3.1 Objectif de la méthode


Décrire et étudier les liaisons entre plusieurs variables qualitatives.

L'AFCM consiste à effectuer une Analyse Factorielle des Correspondances sur un tableau disjonctif
complet ( logique ) ou à un tableau de Burt.
Le tableau de Burt est calculé directement à partir du codage condensé ou disjonctif complet. On trouve
dans ce tableau tous les tableaux de contingence croisant les variables deux à deux. Sur la diagonale se
trouvent les variables croisées avec elles-mêmes, et donc les effectifs correspondant à chaque modalité. Par
exemple, dans l'enquête portant sur les créations d'entreprises au cours du premier semestre 1991, on a
relevé six variables qualitatives ( questions ) totalisant 29 modalités.
( Source : Insee - Les Créations d’entreprises du 1er semestre 1994 - Système productif n°97-98 - mars 96 ).

Tableau disjonctif complet (logique) :

Individu -25 ans 25-39 40ans+ homme femme ... ... ... s.entps s.ména
I001 1 0 0 0 1 0 0 0 0 1
I002 0 1 0 0 0 0 0 1 0 0

.... .. .. .. .. .. .. .. .. .. ..
I81491 0 0 1 0 0 1 0 0 1 0

Tableau de Burt :

-25 ans 25-39 40ans+ homme femme ... ... ... s.entps s.ména
-25ans 7019 0 0 4778 2241 ... ... ... 749 1103
25-39 0 42678 0 30307 12371 ... ... ... 7900 5069
40ans+ 31794 21657 10137 ... ... 6456 2959
homme 56742 0 ... ... ... 10572 4536
femme 24749 ... ... ... 4533 4595
... ... ... ... ... ...
... ... ...
... ... ...
... 0 0
s.entps 15105 0
s.ména 9131

On peut montrer que les résultats de l'AFCM obtenus à partir d'un tableau disjonctif ou d'un tableau de Burt,
considéré comme un tableau de données, sont équivalents. Pour des raisons évidentes d'économie de
calcul, les logiciels utilisent généralement le tableau de Burt.

5
Multiple «Factorial» Correspondence Analysis (MCA).

M1 : Economie Quantitative – Analyse des Données - 21 - R. Abdesselam


3.2 Exemple - Résultats

3.2.1 Données ( Source : Insee - Les Créations d’entreprises du premier semestre 1994 - Système productif n°97-98 - mars 96 ).

Enquête réalisée par l'Insee auprès de 81491 créateurs-repreneurs d'entreprises au cours du premier
semestre 1991. Nous avons soumis à l'analyse des correspondances multiples six variables qualitatives
( questions ), quatre actives et deux illustratives, totalisant 29 modalités (19 actives et 10 illustratives).

Variables actives :
Classes d'âge des créateurs-repreneurs ( moins de 25 ans, entre 25 et 39 ans, 40 ans et plus )
Sexe ( homme, femme )
Qualification professionnelle ( artisan/commerçant/chef entreprise, cadre, prof.intermédiaire, employé,
ouvrier, étudiant/sans qualification )
Diplôme le plus élevé ( pas diplôme/cep, bepc, cap/bep, bac technique, bac général, bts/dut,
deug/équivalent, bac+3 et plus )
Variables illustratives :
Situation préalable ( actif, chômeur/non actif )
Secteurs d'activités ( industrie agro-alimentaire, industrie, construction, commerce, transport,
hôtel/café/restaurant, services aux entreprises, services aux ménages )

Les variables actives utilisées dans cet exemple représentent la signalétique des créateurs-repreneurs
d'entreprises ( classes d'âges, sexe, qualification professionnelle, diplôme le plus élevé ). En général, ces
questions décrivent plus ou moins objectivement les créateurs-repreneurs. Les deux autres variables (
situation préalable, secteurs d'activités des entreprises créées ou reprises ), constituant le sujet même de
l'enquête, sont représentés en éléments supplémentaires ou illustratifs.

M1 : Economie Quantitative – Analyse des Données - 22 - R. Abdesselam


Remarques :
- Il serait maladroit de mélanger, par exemple, des informations de type socio-économique ( âge, sexe,
profession, etc. ) et des opinions ou des comportements. Comment interpréterait-on alors la proximité entre
deux individus ? Si deux individus sont éloignés, est-ce à cause de leurs opinions différentes ou parce qu'ils
ont des profils socio-économiques opposés ?
- On notera que l'analyse exploratoire met en jeu de façon essentielle les dépendances entre les
questions actives. Par contre les variables illustratives ( qualitatives ou quantitatives ) sont introduites l'une
après l'autre, sans tenir compte de leur éventuelle dépendance.

3.3.2 Résultats et interprétation


ANALYSE DES CORRESPONDANCES BINAIRES
VALEURS PROPRES
APERCU DE LA PRECISION DES CALCULS : TRACE AVANT DIAGONALISATION .. 1.0011
SOMME DES VALEURS PROPRES .... 1.0011

HISTOGRAMME DES 15 PREMIERES VALEURS PROPRES


+--------+------------+----------+----------+----------------------------------------------------------------------------------+
| NUMERO | VALEUR | POURCENT.| POURCENT.| |
| | PROPRE | | CUMULE | |
+--------+------------+----------+----------+----------------------------------------------------------------------------------+
| 1 | 0.1463 | 14.61 | 14.61 | ******************************************************************************** |
| 2 | 0.1232 | 12.31 | 26.92 | ************************************************************************** |
| 3 | 0.0883 | 9.82 | 36.74 | *************************************************************** |
| 4 | 0.0832 | 8.31 | 45.05 | *********************************************************** |
| 5 | 0.0708 | 7.07 | 52.12 | *************************************************** |
| 6 | 0.0644 | 6.43 | 58.55 | ************************************************* |
| 7 | 0.0627 | 6.26 | 64.82 | ************************************************ |
| 8 | 0.0625 | 6.25 | 71.06 | *********************************************** |
| 9 | 0.0587 | 5.86 | 76.92 | ********************************************** |
| 10 | 0.0563 | 5.62 | 82.55 | ********************************************* |
| 11 | 0.0507 | 5.06 | 87.61 | **************************************** |
| 12 | 0.0477 | 4.77 | 92.37 | ***************************** |
| 13 | 0.0362 | 3.61 | 95.99 | *********************** |
| 14 | 0.0252 | 2.52 | 98.51 | ***************** |
| 15 | 0.0149 | 1.49 | 100.00 | *********** |
+--------+------------+----------+----------+----------------------------------------------------------------------------------+

Compte tenu de la nature particulière du tableau disjonctif qui conduit à un nuage très éparpillé, les
pourcentages d'information apportés par chaque axe sont en général très faibles ce qui surprend le
néophyte. Il n'y a là rien d'inquiétant mais cela rend un peu plus délicat le choix du nombre pertinent d'axes
factoriels à retenir.

Les règles de lecture sont semblables à celles de l'AFC. Seuls les calculs de contributions cumulées pour
les modalités de chaque question active ont été ajoutés.

D’après les résultats graphiques et numériques précédents, on interprétera l’analyse des deux premiers
facteurs en s’aidant des tableaux des contributions et des cosinus carrés.

Le premier plan factoriel résume environ 27% de la dépendance entre les caractères signalétiques des
créateurs-repreneurs, elle peut être interprétée de la façon suivante :
- Le premier axe caractérise surtout la qualification professionnelle du dernier emploi des créateurs-
repreneurs ainsi que leurs diplômes, il oppose les jeunes ouvriers et employés d'un niveau CAP/BEP, aux
cadres artisans-commerçants et chefs d'entreprise plus âgés et plus diplômés (DEUG et BAC+3).
- Le deuxième axe caractérise davantage la qualification professionnelle du dernier emploi ainsi que le sexe
des créateurs-repreneurs. Il oppose les femmes étudiantes ou sans qualification d'un niveau BAC général
aux ouvriers diplômés d'un CAP/BEP.

Le deuxième graphique montre la projection des modalités de réponses des deux caractères illustratifs
sur le premier plan principal de l’analyse de la signalétique des créateurs-repreneurs d'entreprises. Pour
l’interprétation des modalités de ces caractères, on s’aidera du tableau des valeurs-test. Ainsi,
- Le premier axe oppose donc les jeunes ouvriers et employés d'un niveau CAP/BEP qui étaient inactifs ou
chômeurs et qui ont créé ou repris des entreprises dans les secteurs de l'industrie agroalimentaire, des
transports et des hôtels-cafés-restaurants, aux cadres artisans-commerçants et chefs d'entreprise plus
âgés et plus diplômés (DEUG, BAC+3) qui étaient actifs et qui ont créé ou repris dans le secteur des
services aux entreprises.
- Le deuxième axe oppose les femmes étudiantes ou sans qualification d'un niveau BAC général, qui ont
créé ou repris des entreprises de services aux ménages, aux ouvriers diplômés d'un CAP/BEP, qui ont créé
ou repris des entreprises dans les secteurs de la construction et de l'industrie.

M1 : Economie Quantitative – Analyse des Données - 23 - R. Abdesselam


4 Analyse Factorielle Discriminante
L'Analyse Factorielle Discriminante6 (AFD) et les techniques associées ont pris une grande importance
ces dernières années. Appliquées essentiellement dans le domaine médical pour l’aide au diagnostic, elles
sont maintenant utilisées dans des domaines très variés : en économie, en reconnaissance des formes, dans
les banques et les assurances avec les techniques de scoring, dans le domaine biomédical, du management
pour décider de l'avenir d'une entreprise en fonction de ses diverses mesures comptables, de la vente pour
sélectionner les clients potentiels les plus intéressants, etc.
L’objectif de l’analyse discriminante dite « décisionnelle » est de définir une règle permettant de classer un
individu dans un groupe particulier, parmi les groupes possibles. Cette affectation à un groupe donné se fait
sur la base des caractéristiques (variables) observées sur cet individu. Elle permet aussi de mettre en
évidence les liaisons existant entre un caractère qualitatif à expliquer (à discriminer) et un ensemble de
caractères explicatifs quantitatifs (discriminants).
En analyse discriminante, on distingue a priori deux ou plusieurs groupes d’individus sur lesquels on
mesure un ensemble de caractères communs. L’analyse va alors chercher à mettre en évidence ce qui
différencie ces groupes.
4.1 Objectif de la méthode
En réalité, le but précis de l’analyse discriminante dépend du contexte. Dans la plupart des cas, l’aspect
diagnostic est essentiel. On vise avant tout une bonne prédiction des groupes a priori. La bonne affectation,
dans le futur, d’individus de provenance inconnue est le but principal. Elle se différencie des méthodes de
classification7, dans la mesure où les classes (groupes) sont définies au départ de l’analyse. On distingue
donc deux objectifs pour l'analyse discriminante :
- Objectif descriptif : rechercher quels sont les caractères qui permettent de séparer le mieux possible
les classes (groupes) d'individus et donner des représentations graphiques qui rendent compte au mieux
de cette séparation.
- Objectif décisionnel : Un nouvel individu (anonyme) se présente, pour lequel on ne connaît que les
valeurs des caractères descriptifs discriminants, il s'agit alors de décider dans quelle classe il faut
l'affecter.

L'analyse discriminante tente alors de résoudre le problème de l'affectation à une classe d'un individu
caractérisé par de nombreux caractères explicatifs. Les fonctions linéaires discriminantes seront les
combinaisons linéaires de ces caractères, dont les valeurs séparent au mieux des classes connues a priori.
Par exemple, certains résultats réalisés sur un ensemble d'entreprises caractérisé par une série de
mesures comptables (C.A., différents ratios, frais de publicité, etc.) et dont on connaît leur situation actuelle
(bonne, stable, critique), on se propose de "prédire" (ou de décider) l'avenir d'une nouvelle entreprise
connaissant ses résultats sur le même ensemble de mesures comptables.
A partir de ces informations, l'analyse discriminante va prévoir la situation la plus probable de cette
nouvelle entreprise.

Exemple : Caractéristiques de 200 entreprises.


Le caractère qualitatif à discriminer "Situation de l'entreprise" comprend ici trois modalités (bonne, stable,
critique) et les caractères explicatifs quantitatifs sont les mesures comptables : Chiffre d’affaires annuel
(M.F.), nombre de Salariés, nombre de points de Vente, ..., frais de Publicité (M.F.).

Caractères explicatifs Caractère à expliquer


Mesures comptables Situation de l’entreprise
Ets C.A. S V P Bonne Stable Critique Classe
E001 6860 325 152 414 1 0 0 1
E002 2925 353 117 234 0 0 1 3
... ... ... ... ... ... ... ... ...
E200 5775 412 124 295 0 1 0 2
Tableau des données
Le tableau ci-dessous contient les valeurs moyennes des mesures comptables des 200 entreprises sur
chacune des trois situations.

6
Factorial Discriminant Analysis (FDA, descriptive discriminant analysis, canonical variate analysis) .
7
Cluster analysis, classification.

M1 : Economie Quantitative – Analyse des Données - 24 - R. Abdesselam


Mesures comptables
Classes C.A. S V P Effectif Poids
Bonne 5465 330 346 396 66 0.330
Stable 4325 341 219 127 84 0.420
Critique 3675 326 182 221 50 0.250
Tableau des centres des classes

Ainsi, d'un point de vue de la discrimination, l'analyse factorielle discriminante, en décrivant l'échantillon
d'apprentissage composé de 200 entreprises, permet de répondre aux questions préalables suivantes :
- Est-il possible de réaliser la discrimination à partir des caractères descriptifs (mesures comptables)
choisis ?
- Comment se comportent les caractères descriptifs vis-à-vis des trois classes à discriminer ?
- Quelles sont les caractères ou les groupes de caractères les plus discriminants ?
Peut-on donner une réponse graphique à la question : Dans quelle mesure la situation d'une entreprise
dépend-t-elle des mesures comptables ?
0n peut répondre à la question posée en appliquant les principes de l'Analyse en Composantes
Principales au tableau des centres des classes. l'AFD se présente alors comme une ACP particulière.

4.2 Analyse en Composantes Principales des centres des classes :


On considère alors les centres des classes comme des individus et les colonnes comme des variables.
On fait ensuite l'ACP de ce tableau avec une métrique particulière, (distance de Mahalanobis) pour calculer
les proximités entre les centres des classes, et des poids proportionnels aux effectifs des classes. On obtient
ainsi, une analyse et des représentations graphiques sur des plans factoriels appropriés qui permettent de
séparer au mieux les centres des classes.

Les résultats d'une AFD peuvent alors se visualiser sur les plans factoriels appelés plans discriminants et
se formuler par des critères d'inertie :

- maximiser l'inertie interclasses : séparer au mieux les centres des classes afin d'exalter les
différences entre classes.

- minimiser l'inertie intra-classes : les individus appartenant à une même classe soient le plus
concentrés possible autour du centre de la classe afin que
l'étendue dans les classes soit bien délimitée.

Les principes de représentation et les indices de qualité sont les mêmes que ceux de l'Analyse en
Composantes Principales.
Remarques :
- Cas de deux classes, on retrouve les résultats de l'analyse discriminante linéaire classique rencontrée
fréquemment lors des applications. C'est aussi un cas particulier de la régression multiple, où la
variable à expliquer ne prend que deux valeurs (modalités), chacune d'elles caractérisant une classe.

- Quand le nombre de variables descriptives est très élevé relativement à la taille de l'échantillon, il est
souvent indispensable de passer par une phase de sélection des "meilleurs" caractères discriminants
afin d'obtenir une discrimination satisfaisante. Certains logiciels d'analyse de données proposent des
méthodes hiérarchiques de sélection des caractères, basées sur des critères de mesure du "pouvoir"
discriminant de ces caractères. Ce sont des techniques de discrimination pas à pas analogues à la
régression stepwise où on introduit au fur et à mesure les caractères explicatifs dans une formule de
discrimination.

- L'Analyse Factorielle Discriminante sur un ensemble de variables qualitatives explicatives


(discriminantes) et une AFD sur les composantes principales (quantitatives) de l'AFCM des variables
explicatives.

M1 : Economie Quantitative – Analyse des Données - 25 - R. Abdesselam


4.3 Discrimination en 2 classes - Exemple - Données ( Le marché belge des petites voitures )
On s'intéresse ici à un échantillon de voitures de moins de 3,80 mètres. On dispose du prix en milliers de
francs belges, de la consommation urbaine, de la cylindrée, de la vitesse maximum, du volume maximum du
coffre, du rapport poids/puissance et de la longueur de 27 voitures.
L'objectif est de mettre en évidence les caractéristiques qui différencient ces voitures concurrentes.

On désire déterminer dans quelle mesure la marque du constructeur est liée aux caractéristiques mesurées
par les six caractères quantitatifs ( prix en milliers de francs belges, consommation urbaine, cylindrée, vitesse
maximum, volume maximum du coffre et le rapport poids/puissance ). Le caractère qualitatif à discriminer,
marque du constructeur ( Française, Etrangère ), prend ici deux modalités.

Disposant des caractéristiques de trois nouvelles petites voitures, anonymes quant à leur marque, on se
propose de visualiser ces voitures dans les plans discriminants de l'analyse et ainsi tenter de prévoir la
marque de leur constructeur. Ces trois voitures seront considérées dans l'analyse comme individus
supplémentaires.

AFD : Marché des petites voitures en Belgique


SELECTION DES INDIVIDUS ET DES VARIABLES UTILES
VARIABLES NOMINALES ACTIVES
1 VARIABLES 2 MODALITES ASSOCIEES
---------------------------------------------------------------------------------------------------------
8 . Marque du constructeur ( 2 MODALITES )
---------------------------------------------------------------------------------------------------------

VARIABLES CONTINUES ACTIVES


6 VARIABLES
---------------------------------------------------------------------------------------------------------
1 . Prix ( CONTINUE )
2 . Consommation urbaine ( CONTINUE )
3 . Cylindrée ( CONTINUE )
4 . Vitesse ( CONTINUE )
5 . Volume maximum du coffre ( CONTINUE )
6 . Rapport poids/puissance ( CONTINUE )
7 . Longueur ( CONTINUE )
---------------------------------------------------------------------------------------------------------

INDIVIDUS
----------------------------- NOMBRE -------------- POIDS ---------------
POIDS DES INDIVIDUS: Poids des individus, uniforme egal a 1. UNIF
RETENUS ............ NITOT = 30 PITOT = 30.000
SELECTION APRES FILTRAGE
ACTIFS ............. NIACT = 27 PIACT = 27.000
SUPPLEMENTAIRES .... NISUP = 3 PISUP = 3.000
-------------------------------------------------------------------------

STATISTIQUES USUELLES DES VARIABLES


TRIS A PLAT DES VARIABLES NOMINALES
------ EFFECTIFS -------
ABSOLU %/TOTAL %/EXPR. HISTOGRAMME DES POIDS
9 . Marque du constructeur
MFRA - Française 10 37.04 37.04 ******************
METR - Etrangère 17 62.96 62.96 *****************************
ENSEMBLE 27 100.00 100.00
-----------------------------------------------------------------------------------------------------

Exemple ADL : Marché des petites voitures en Belgique

Dans le cas de deux groupes, l’analyse discriminante classique est formellement équivalente à une
régression. Appliquée sur les coordonnées factorielles de l’analyse en composantes principales des
caractéristiques des voitures, l’analyse discriminante de Fisher fournit le modèle de discrimination c’est-à-dire
la combinaison linéaire des variables qui séparent au mieux les deux groupes de voitures.

M1 : Economie Quantitative – Analyse des Données - 26 - R. Abdesselam


SELECTION DES INDIVIDUS ET DES VARIABLES UTILES
VARIABLES NOMINALES ACTIVES
1 VARIABLES 2 MODALITES ASSOCIEES
----------------------------------------------------------------------------------------------------
9 . Marque du constructeur ( 2 MODALITES )
----------------------------------------------------------------------------------------------------
VARIABLES CONTINUES ACTIVES
7 VARIABLES
----------------------------------------------------------------------------------------------------
1 . Prix ( CONTINUE )
2 . Consommation urbaine ( CONTINUE )
3 . Cylindrée ( CONTINUE )
4 . Vitesse ( CONTINUE )
5 . Volume maximum du coffre ( CONTINUE )
6 . Rapport poids/puissance ( CONTINUE )
7 . Longueur ( CONTINUE )
----------------------------------------------------------------------------------------------------
INDIVIDUS
----------------------------- NOMBRE -------------- POIDS ---------------
POIDS DES INDIVIDUS: Poids des individus, uniforme egal a 1. UNIF
RETENUS ............ NITOT = 30 PITOT = 30.000
SELECTION APRES FILTRAGE
ACTIFS ............. NIACT = 27 PIACT = 27.000
SUPPLEMENTAIRES .... NISUP = 3 PISUP = 3.000
-------------------------------------------------------------------------
ANALYSE DISCRIMINANTE A 2 GROUPES
MODELE 1
DEFINITION
:----- MODELE : V9 =V1--V7
GESTION DES DONNEES MANQUANTES AUCUNE VALEUR MANQUANTE DETECTEE
ANALYSE DISCRIMINANTE LINEAIRE SUR L'ECHANTILLON : DE BASE
ENTRE LES 2 GROUPES : Française ET Etrangère
VARIABLE DE GROUPE NUMERO 9 : Marque du constructeur

M1 : Economie Quantitative – Analyse des Données - 27 - R. Abdesselam


Statistiques sommaires :
Tests de comparaison de deux moyennes selon chaque variable discriminante.
DESCRIPTION DES ECHANTILLONS
EFFECTIFS 10 17
MFRA METR T PROB
--------------------------------------------------------
MOY 340.220 307.112 0.984 0.335
PRIX E.TY ( 95.476)( 71.570)
MAXI 506.300 500.100
MINI 259.600 219.300
--------------------------------------------------------
MOY 7.000 7.218 0.471 0.641
CONS E.TY ( 1.305)( 0.987)
MAXI 9.300 9.200
MINI 5.600 6.100
--------------------------------------------------------
MOY 1177.100 1158.882 0.216 0.831
CYLI E.TY ( 241.183)( 178.511)
MAXI 1597.000 1461.000
MINI 954.000 903.000
--------------------------------------------------------
MOY 151.400 155.941 0.502 0.620
VITE E.TY ( 27.431)( 17.718)
MAXI 200.000 200.000
MINI 115.000 131.000
--------------------------------------------------------
MOY 1062.400 806.706 2.243 0.034
VOLU E.TY ( 123.670)( 333.652)
MAXI 1200.000 1200.000
MINI 915.000 202.000
--------------------------------------------------------
MOY 20.090 17.800 1.041 0.308
RPPU E.TY ( 7.052)( 3.941)
MAXI 33.100 23.400
MINI 10.200 11.000
--------------------------------------------------------
MOY 3.637 3.615 0.752 0.459
LONG E.TY ( 0.062)( 0.077)
MAXI 3.700 3.700
MINI 3.500 3.400
--------------------------------------------------------
STATISTIQUES USUELLES DES VARIABLES : TRIS A PLAT DES VARIABLES NOMINALES
------ EFFECTIFS -------
ABSOLU %/TOTAL %/EXPR. HISTOGRAMME DES POIDS
9 . Marque du constructeur
MFRA - Française 10 37.04 37.04 ******************
METR - Etrangère 17 62.96 62.96 *****************************
ENSEMBLE 27 100.00 100.00
--------------------------------------------------------------------------------------------------
Résultats de l’analyse discriminante :
RESULTATS DE LA DISCRIMINATION LINEAIRE DE FISHER
TABLEAU DES EFFECTIFS DES GROUPES
GROUPES D'AFFECTATION
MFRA METR
GROUPES D'ORIGINE -------------------------
MFRA 8 2
METR 0 17
-------------------------
TABLEAU DE CLASSEMENT
POURCENTAGES DES CLASSEMENTS
BIEN CLASSES MAL CLASSES TOTAL
GROUPES D'ORIGINE --------------------------------------------------
MFRA 8.00 2.00 10.00
( 80.00) ( 20.00) (100.00)
--------------------------------------------------
METR 17.00 0.00 17.00
(100.00) ( 0.00) (100.00)
--------------------------------------------------
TOTAL 25.00 2.00 27.00
( 92.59) ( 7.41) (100.00)
LISTE DES INDIVIDUS MAL CLASSES
GROUPE MFRA : PE1 RE7
GROUPE METR : IL N'Y A AUCUN INDIVIDU MAL CLASSE

M1 : Economie Quantitative – Analyse des Données - 28 - R. Abdesselam


Interprétation des résultats :

Les résultats du tableau de classement, indiquent un résumé du classement en terme de probabilité en


utilisant la fonction discriminante.
Nous obtenons les pourcentages de bonne et de mauvaise classifications. Ainsi, sur 10 voitures de
marque française, 8 ont été classés comme voitures de marque française et 2 comme étant de marque
étrangère pour un pourcentage d’erreur ( % mal classés ) de 20%. Sur les 17 voitures de marques
étrangères, toutes ont été classés comme tel et aucune voiture n’a été classée comme étant de marque
française donc pour un pourcentage d’erreur de 0%. En tout, le pourcentage d’erreur total est de 7,41%. Le
pourcentage total de mal classés est la moyenne des % mal classés ‘’intra classe’’ relativement aux
probabilités a priori des classes (37% et 63% cf.tri à plat ou statistiques de la vriable à discriminer– option
probabilités a priori ).
L’option probabilités a priori de chaque groupe doit être utilisée si les groupes sont de tailles différentes.
Ce qui donnera alors la même importance à chaque groupe.
Efficacité de l’analyse discriminante :
Un bon classement est associé à un taux d’erreur faible. Il s’agit donc de comparer le risque d’erreur
associé à une prédiction sans utiliser l’analyse discriminante avec un risque d’erreur associé à une prédiction
en utilisant l’analyse discriminante. Sans analyse discriminante, nous avons 1 chance sur 2 d’effectuer un
mauvais classement.
L’échantillon total ou d’apprentissage est généralement subdivisé en deux échantillons : l’échantillon de
base est utilisé pour caractériser le modèle de discrimination et l’échantillon test pour juger de la qualité de
la discrimination faite en appliquant la méthode d’affectation aux individus, connus a priori, de cet échantillon
et en dénombrant le pourcentage d’individus bien classés.
Un autre aspect important, souvent oublié, est la conséquence (monétaire ou autre) d’un mauvais
classement. Par exemple,
- un médecin désire classer ses patients selon le risque (faible, élevé) qu’ils ont de développer un
cancer. Dans cette situation, classer un patient comme étant à faible risque, alors qu’en réalité il est à
risque élevé, est beaucoup plus préjudiciable pour la santé du patient que l’inverse (classer un
patient à risque élevé alors qu’il est à risque faible). L’analyse discriminante sera efficace, pour
certaines situations, si le taux d’erreur pour un type de mauvais classement est faible.
- Ou encore, un gérant de banque qui veut classer ses emprunteurs potentiels selon 2 catégories
(risqué, peu risqué). Pour le gérant, c’est beaucoup plus embarrassant de classer une personne dans
la catégorie peu risqué lorsque le risque de cette personne est élevé que l’inverse. Si le pourcentage
d’erreur de ce mauvais classement est faible, on peut dire dans ce cas que l’analyse discriminante
est efficace.
Les résultats de la fonction discriminante, de la « régression équivalente » ainsi que des variables
explicatives, qui discriminent significativement les deux groupes, sont donnés dans le tableau suivant.
FONCTION LINEAIRE DISCRIMINANTE
VARIABLES CORRELATIONS COEFFICIENTS ECARTS T PROBA
........ VARIABLES FONCTION REGRESSION TYPES STUDENT
NUM LIBELLES AVEC F.L.D. DISC. (RES. TYPE REG.)
(SEUIL= 0.39)
..............................................................................................
1 Prix 0.195 0.1988 0.0306 0.0067 4.57 0.000
2 Consommation urbaine -0.095 -4.0235 -0.6201 0.2180 2.84 0.010
3 Cylindrée 0.043 0.0004 0.0001 0.0014 0.05 0.963
4 Vitesse -0.101 -0.7739 -0.1193 0.0377 3.17 0.005
5 Volume maximum du co 0.413 0.0040 0.0006 0.0005 1.14 0.270
6 Rapport poids/puissa 0.206 -0.9570 -0.1475 0.0929 1.59 0.129
7 Longueur 0.150 -15.1890 -2.3411 2.1097 1.11 0.281
CONSTANTE 152.184906 23.645252 10.7812 2.1932 0.0409
..............................................................................................
R2 = 0.70447 F = 6.47020 PROBA = 0.001
D2 = 9.46492 T2 = 59.59396 PROBA = 0.001

M1 : Economie Quantitative – Analyse des Données - 29 - R. Abdesselam


Qualités du modèle discriminant :
1. Pourcentages de bien classés :
Le pourcentage total de bien classés est 92.59% : le modèle est très satisfaisant.
Attention, ce taux, calculé sur l’échantillon ayant servi à estimer les paramètres, est
nécessairement trop optimiste. Il faudrait normalement le comparer à celui obtenu sur
l’échantillon test !!!
La comparaison entre analyse discriminante et la régression logistique est possible mais demande un
peu d’attention et surtout la constitution préalable d’un échantillon test.

2. Le modèle dans son ensemble est-il significatif ?


Globalement, les variables explicatives introduites dans le modèle discriminent : en effet, ici, le modèle
dans son ensemble est significatif car la probabilité ( PROBA = 0.001 ) est inférieure à  = 5% , risque
d’erreur classique choisi.
Relations entre les modèles discriminant et régression multiple équivalente :
- les coefficients des modèles sont proportionnels
- relations entre le T² (de Hotelling), le R² (coefficient de détermination), le D² (distance de
Mahalanobis) et le F (de Fisher) :
La statistique de Fisher est liée au T² , D² et R² par les formules :
F(p , n – p – 1) = (n – p – 1) T² / (n – 2) p = (n – p – 1) n1 n2 D² / p n² = (n – p – 1) R² / p (1- R²)
avec (p , n – p – 1) degrés de liberté. n = n1 + n2 désigne la taille de l’échantillon de deux groupes
d’effectifs respectfs n1 et n2 et p le nombre de variables explicatives.
D’autre part, Le T² et D² sont liés par l’équation :
T²(n - 2 , p) = n1 n2 ( n – 2) D² / n² = n² R² / n1 n2 (1- R²).
On en déduit l’expression de D² en fonction de R² : D² = n² R² / n1 n2 (1- R²)

3. Quelles sont les variables qui discriminent réellement les deux groupes ?
Les variables explicatives qui discriment les deux groupes sont celles dont la probabilité est inférieure
au risque d’erreur choisi ( PROBA <  = 5% ). Ainsi, parmi les sept variables introduites, seuls le prix, la
consommation urbaine et la vitesse discriminent donc différencient les deux groupes. Le signe du
coefficient de la fonction linéaire discriminante permet de localiser les caractéristiques de chacun des
groupes : le signe positif pour le groupe 1 et le signe négatif pour le groupe 2.
Ainsi, on peut conclure que les voitures de marque française « G1+ » sont significativement plus
chères alors que les voitures de marque étrangère « G2- » se différencient par leur consommation urbaine
et leur vitesse significativement plus élevées.

Affectation des individus de l’échantillon d’apprentissage :


Cette méthode fournit aussi une estimation de la probabilité d’appartenance d’un individu à un groupe
sachant qu’il a été affecté à tel ou tel groupe.
LISTE DES AFFECTATIONS ET DES PROBABILITES CORRESPONDANTES
IND. ORIG AFFEC PROBA FONCT.
AFFEC FISHER
TO3 METR == 1.000 -10.015 I *..............................|............................ I
OP1 METR == 1.000 -9.278 I ..*............................|............................ I
SZ2 METR == 1.000 -8.656 I ....*..........................|............................ I
SZ3 METR == 1.000 -8.539 I .....*.........................|............................ I
TO1 METR == 0.999 -7.483 I ........*......................|............................ I
SE4 METR == 0.998 -6.886 I ..........*....................|............................ I
SE9 METR == 0.997 -6.283 I ...........*...................|............................ I
DA2 METR == 0.997 -6.219 I ............*..................|............................ I
FI3 METR == 0.995 -5.874 I .............*.................|............................ I
FO9 METR == 0.987 -4.835 I ................*..............|............................ I
VW3 METR == 0.982 -4.540 I .................*.............|............................ I
FO1 METR == 0.974 -4.149 I ..................*............|............................ I
AS2 METR == 0.973 -4.112 I ..................*............|............................ I
FI5 METR == 0.972 -4.064 I ..................*............|............................ I
NI1 METR == 0.942 -3.326 I .....................*.........|............................ I
FID METR == 0.907 -2.811 I ......................*........|............................ I
FI8 METR == 0.720 -1.475 I ..........................*....|............................ I
RE7 MFRA METR 0.704 -1.399 I ..........................*....|............................ I
PE1 MFRA METR 0.622 -1.030 I ............................*..|............................ I
PE6 MFRA == 0.706 0.346 I ...............................|*........................... I
RE8 MFRA == 0.921 1.917 I ...............................|.....*...................... I
CI4 MFRA == 0.953 2.474 I ...............................|......*..................... I
RE4 MFRA == 0.978 3.253 I ...............................|.........*.................. I
RE1 MFRA == 0.997 5.137 I ...............................|...............*............ I
PE9 MFRA == 1.000 7.681 I ...............................|......................*..... I
RE3 MFRA == 1.000 9.110 I ...............................|...........................* I
PE3 MFRA == 1.000 9.190 I ...............................|...........................* I

M1 : Economie Quantitative – Analyse des Données - 30 - R. Abdesselam


Affectation des individus anonymes : Objectif décisionnel du modèle :
ANALYSE DISCRIMINANTE LINEAIRE SUR L'ECHANTILLON : ANONYME
ENTRE LES 2 GROUPES : Française ET Etrangère
VARIABLE DE GROUPE NUMERO 9 : Marque du constructeur
LISTE DES AFFECTATIONS ET DES PROBABILITES CORRESPONDANTES
IND. ORIG AFFEC PROBA FONCT.
AFFEC FISHER
VS1 ? METR 0.998 -6.758 I *...........................................|............... I
VS2 ? MFRA 0.791 0.797 I ............................................|.....*......... I
VS3 ? MFRA 0.940 2.220 I ............................................|..............* I

Représentation graphique sommaire :


Les histogrammes des individus sont tracés, repérés par leur identification, sur le seul axe discriminant,
pour les deux groupes à différencier.
HISTOGRAMMES 0
HISTOGRAMME OBTENU SUR GROUPE MFRA : G1 : +
-9.4 -8.1 -6.8 -5.5 -4.3 -3.0 -1.7 -0.4 0.9 2.1 3.4 4.7 6.0 7.3 8.5
-10.0 -8.7 -7.5 -6.2 -4.9 -3.6 -2.3 -1.1 0.2 1.5 2.8 4.1 5.3 6.6 7.9 9.2
+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+
RE3
2 MAL CLASSES RE7 PE1 PE6 RE8 CI4 RE4 RE1 PE9 PE3
+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+
0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 1 0 1 1 1 0 0 1 0 0 0 1 0 2

HISTOGRAMME OBTENU SUR GROUPE METR : G2 : -


-9.4 -8.1 -6.8 -5.5 -4.3 -3.0 -1.7 -0.4 0.9 2.1 3.4 4.7 6.0 7.3 8.5
-10.0 -8.7 -7.5 -6.2 -4.9 -3.6 -2.3 -1.1 0.2 1.5 2.8 4.1 5.3 6.6 7.9 9.2
+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+
FO1
SZ3 DA2 VW3 FI5 AUCUN MAL CLASSE
TO3 OP1 SZ2 TO1 SE4 SE9 FI3 FO9 AS2 NI1 FID FI8
+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+
1 1 2 1 1 2 1 0 2 3 1 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

Comme la taille de l’échantillon est faible, on demande de valider la règle par des tirages
«bootstrap». Les résultats de la discrimination sont ré-édités avec les estimations « bootstrap » : le
biais et la précision des classements globaux sont édités avec les classements directs.
ANALYSE DISCRIMINANTE VIA ESTIMATIONS BOOTSTRAP : 10 TIRAGES ALEATOIRES
ESTIMATION BOOTSTRAP DE LA DIFFERENCE ENTRE UNE PROBABILITE DE CLASSEMENT ET SON ESTIMATION
(ENTRE * * : L'ECART-TYPE BOOTSTRAP ASSOCIE L'ESTIMATION DE LA DIFFERENCE)
FRAN ETRA
GROUPES D'ORIGINE ------------------------
FRAN -8.00 8.00
* 7.89* * 7.89*
ETRA 4.12 -4.12
* 4.84* * 4.84*
------------------------
FRAN ETRA
ESTIMATIONS BOOTSTRAP DES EFFECTIFS ET POURCENTAGES
ENTRE ETOILES : ECART-TYPE DES POURCENTAGES
RAPPEL DU CALCUL DE BASE BOOTSTRAP
EFFECTIFS ET (POURCENTAGES) | EFFECTIFS ET (POURCENTAGES)
BIEN CLASSES MAL CLASSES | BIEN CLASSES MAL CLASSES TOTAL
GROUPES -----------------------------------------------------------------------
FRAN 8.00 2.00 | 7.20 2.80 10.00
( 80.00) ( 20.00) | ( 72.00) ( 28.00) (100.00)
| * 9.94* * 9.94*
------------------------------------------------------------------------
ETRA 17.00 0.00 | 16.30 0.70 17.00
(100.00) ( 0.00) | ( 95.88) ( 4.12) (100.00)
| * 1.86* * 1.86*
------------------------------------------------------------------------
TOTAL 25.00 2.00 | 23.50 3.50 27.00
( 92.59) ( 7.41) | ( 87.04) ( 12.96) (100.00)
| * 3.40* * 3.40*

M1 : Economie Quantitative – Analyse des Données - 31 - R. Abdesselam


ESTIMATIONS BOOSTRAP POUR LA FONCTION DISCRIMINANTE
VARIABLES . CORRELATIONS . COEFFICIENTS
................ VARIABLES . FONCTION
NUMERO . NOM . F.L.D . DISCRIMINANTE
MOYENNE ECART-TYPE MOYENNE ECART-TYPE MOY/E-T
.......................................................................
1 PRIX 0.075 0.142 0.329072 0.116958 2.8136
2 CONS -0.158 0.152 -6.390500 3.320573 1.9245
3 CYLI -0.075 0.101 0.000796 0.021419 0.0372
4 VITE -0.228 0.201 -1.244145 0.404979 3.0721
5 VOLU 0.361 0.123 0.003431 0.003458 0.9920
6 RPP 0.313 0.179 -1.433466 1.178268 1.2166
7 LONG 0.043 0.116 -29.143648 12.849764 2.2680
CONSTANTE 259.699646 94.038246 2.7616
.......................................................................

Sélection des meilleures variables discriminantes


Cette méthode (FUWILD) permet de rechercher, par l’algorithme de Furnival et Wison, Les m
meilleurs ajustements de taille k variables discriminantes, (k = 1 à p = nombre de variables explicatives
et m = 3 par défaut). Le R² (carré de la corrélation multiple par défaut ) ou le R² ajusté, ou le CP de
Mallows sont les critères possibles de sélection des ajustements. Ils peuvent être changés dans l’onglet
« paramètres ».

M1 : Economie Quantitative – Analyse des Données - 32 - R. Abdesselam


RECHERCHE DES AJUSTEMENTS OPTIMAUX
MODELE 1
DEFINITION
:----- MODELE
V9 = V1--V7
APUREMENT DES INDIVIDUS ACTIFS AYANT UNE DONNEE MANQUANTE POUR LA VARIABLE ENDOGENE
INDIVIDUS ACTIFS RETENUS POUR LES CALCULS: 27
INDIVIDUS ACTIFS EXCLUS POUR LES CALCULS: 0

GESTION DES DONNEES MANQUANTES.


LES VALEURS MANQUANTES SONT REMPLACEES PAR LES MOYENNES INTRA-GROUPES
POUR LES INDIVIDUS ANONYMES ELLES SONT REMPLACEES PAR LES MOYENNES GENERALES
----------------------------------------------------------------------------------------------------------
GRP NUM. MOYENNE MOYENNE NB. VALEURS
VAR. INTRA GROUPE GENERALE MANQUANTES LIBELLE DE LA VARIABLE
----------------------------------------------------------------------------------------------------------
1 1 340.220 319.374 0 Prix - (MF- Belges)
1 2 7.000 7.137 0 Consommation urbaine (litre)
1 3 1177.100 1165.630 0 Cylindrée (cm3)
1 4 151.400 154.259 0 Vitesse maximum (km/h)
1 5 1062.400 901.407 0 Volume maximum du coffre
1 6 20.090 18.648 0 Rapport Poids/Puissance
1 7 3.637 3.623 0 Longueur du véhicule (mètre)
2 1 307.112 319.374 0 Prix - (MF- Belges)
2 2 7.218 7.137 0 Consommation urbaine (litre)
2 3 1158.882 1165.630 0 Cylindrée (cm3)
2 4 155.941 154.259 0 Vitesse maximum (km/h)
2 5 806.706 901.407 0 Volume maximum du coffre
2 6 17.800 18.648 0 Rapport Poids/Puissance
2 7 3.615 3.623 0 Longueur du véhicule (mètre)
----------------------------------------------------------------------------------------------------------

LES MEILLEURS AJUSTEMENTS DU MODELE


ANALYSE DISCRIMINANTE LINEAIRE
VARIABLE DE GROUPE NUMERO 9 : Marque du constructeur
GROUPES : Française ET Etrangère

1 VARIABLE + CONSTANTE, DDL(STUDENT) = 25


AJUSTEMENT 1
R**2= 0.168 F(R2)= 5.0313 PROBA= 0.0340 V-TEST= 2.12
COEFFICIENT STUDENT PROBA V-TEST IDEN LIBELLE DE LA VARIABLE
0.0014 2.24 0.034 2.12 VOLU Volume maximum du coffre

2 VARIABLES + CONSTANTE, DDL(STUDENT) = 24


AJUSTEMENT 1
R**2= 0.503 F(R2)= 12.1374 PROBA= 0.0002 V-TEST= 3.52
COEFFICIENT STUDENT PROBA V-TEST IDEN LIBELLE DE LA VARIABLE
0.0209 4.88 0.000 4.03 PRIX Prix - (MF- Belges)
-0.0768 4.74 0.000 3.94 VITE Vitesse maximum (km/h)
AJUSTEMENT 2
R**2= 0.339 F(R2)= 6.1666 PROBA= 0.0066 V-TEST= 2.48
COEFFICIENT STUDENT PROBA V-TEST IDEN LIBELLE DE LA VARIABLE
0.0103 3.29 0.003 2.96 PRIX Prix - (MF- Belges)
0.1582 3.31 0.003 2.98 RPP Rapport Poids/Puissance
AJUSTEMENT 3
R**2= 0.224 F(R2)= 3.4614 PROBA= 0.0464 V-TEST= 1.68
COEFFICIENT STUDENT PROBA V-TEST IDEN LIBELLE DE LA VARIABLE
0.0096 2.58 0.016 2.40 PRIX Prix - (MF- Belges)
-0.6638 2.40 0.024 2.25 CONS Consommation urbaine (litre)

3 VARIABLES + CONSTANTE, DDL(STUDENT) = 23


AJUSTEMENT 1
R**2= 0.612 F(R2)= 12.0965 PROBA= 0.0001 V-TEST= 3.86
COEFFICIENT STUDENT PROBA V-TEST IDEN LIBELLE DE LA VARIABLE
0.0252 5.97 0.000 4.59 PRIX Prix - (MF- Belges)
-0.5141 2.54 0.018 2.36 CONS Consommation urbaine (litre)
-0.0709 4.80 0.000 3.95 VITE Vitesse maximum (km/h)

4 VARIABLES + CONSTANTE, DDL(STUDENT) = 22


AJUSTEMENT 1
R**2= 0.648 F(R2)= 10.1383 PROBA= 0.0001 V-TEST= 3.77
COEFFICIENT STUDENT PROBA V-TEST IDEN LIBELLE DE LA VARIABLE
0.0226 5.10 0.000 4.10 PRIX Prix - (MF- Belges)
-0.6113 2.95 0.007 2.68 CONS Consommation urbaine (litre)
-0.0585 3.52 0.002 3.10 VITE Vitesse maximum (km/h)
0.0008 1.51 0.146 1.45 VOLU Volume maximum du coffre

M1 : Economie Quantitative – Analyse des Données - 33 - R. Abdesselam


5 VARIABLES + CONSTANTE, DDL(STUDENT) = 21
AJUSTEMENT 1
R**2= 0.685 F(R2)= 9.1464 PROBA= 0.0001 V-TEST= 3.73
COEFFICIENT STUDENT PROBA V-TEST IDEN LIBELLE DE LA VARIABLE
0.0272 5.23 0.000 4.14 PRIX Prix - (MF- Belges)
-0.6293 3.13 0.005 2.81 CONS Consommation urbaine (litre)
-0.1044 3.13 0.005 2.81 VITE Vitesse maximum (km/h)
0.0008 1.67 0.109 1.60 VOLU Volume maximum du coffre
-0.1323 1.57 0.131 1.51 RPP Rapport Poids/Puissance

6 VARIABLES + CONSTANTE, DDL(STUDENT) = 20


AJUSTEMENT 1
R**2= 0.704 F(R2)= 7.9446 PROBA= 0.0002 V-TEST= 3.57
COEFFICIENT STUDENT PROBA V-TEST IDEN LIBELLE DE LA VARIABLE
0.0308 5.10 0.000 4.04 PRIX Prix - (MF- Belges)
-0.6166 3.09 0.006 2.76 CONS Consommation urbaine (litre)
-0.1197 3.35 0.003 2.95 VITE Vitesse maximum (km/h)
0.0006 1.17 0.257 1.13 VOLU Volume maximum du coffre
-0.1490 1.76 0.094 1.67 RPP Rapport Poids/Puissance
-2.3346 1.14 0.269 1.11 LONG Longueur du véhicule (mètre)

CROISSANCE DU R**2 EN FONCTION DU NOMBRE DE VARIABLES


0.037 (R**2 MIN) (R**2 MAX) 0.704

Courbe du R2 selon le nombre de variables

3
Nombre de
variables du 4
modèle
5

0.06 0.12 0.19 0.25 0.32 0.38 0.45 0.51 0.58 0.64 0.70

Valeur du R2

Les résultats fournis sont en faveur du choix du modèle à k = 3 variables (prix, consommation et
vitesse), car on atteint un palier dans la croissance du R². On pourrait donc refaire la discrimination en
ne choisissant que ces trois variables.

5 Présentation des résultats d'une analyse factorielle


La partie publiable des résultats d'une analyse factorielle ne représente en général qu'une petite fraction
des calculs effectués, on publiera surtout les graphiques factoriels offrant un panorama exceptionnel et qui
rendent un peu plus vivante la lecture de certains tableaux de résultats. Les rubriques ci-dessous doivent
nécessairement accompagner chaque analyse :

 Dimension du tableau de données : nombres de variables et d'individus dans le cas d'une ACP,
nombres de lignes et de colonnes dans le cas d'une AFC d'un tableau de contingence, nombres de
variables discriminantes et de modalités de la variable à discriminer dans le cas d'une AFD.

 Nature et codage des données : préciser le type des variables, s'agit-il de mesures numériques
continues (quantitatives), de codage disjonctif, de codage ordinal (qualitatives), s'agit-il d'effectifs, de
pourcentages.

 Liste des variables : avoir une idée de l'importance de chacun des thèmes, du caractère représentatif
de l'ensemble des variables destiné à être synthétisé. On ne peut juger de la pertinence d'un facteur
sans connaître cette liste. Même si elle figure sur le graphique, il est bon de l'avoir sous les yeux
séparément, accompagnée des caractéristiques statistiques correspondantes (moyennes, écart-types,
minimum, maximum, etc..).

M1 : Economie Quantitative – Analyse des Données - 34 - R. Abdesselam


 Variables actives et illustratives (ou individus actifs et illustratifs) : les variables actives interviennent
simultanément dans l'analyse, elles servent à calculer un système de distances entre les individus, qui
permettra de déterminer les axes factoriels. Par contre les variables illustratives ou supplémentaires
interviennent une par une après la détermination de ces axes, elles ne contribuent pas à l'analyse, on
les visualise tout simplement sur les axes factoriels des variables actives. Il est donc nécessaire de
bien distinguer les deux ensembles de variables.

 Liste des valeurs propres et des taux d'inertie (information résumée) : les valeurs propres elles-mêmes
ne sont utiles que dans le cas d'une AFC : une valeur propre voisine de 1 indique que la représentation
simultanée est de bonne qualité. Les taux d'inertie peuvent aider à juger de la signification statistique
des facteurs.

 Aides à l'interprétation (contributions absolues et relatives) : il n'est pas indispensable de publier les
listes exhaustives de ces paramètres, en général trop encombrantes. Quelques contributions absolues
(qui indiquent comment une variable participe à la construction d'un axe) pourront être citées pour
étayer l'éventuelle caractérisation de l'axe. Les contributions absolues trop fortes ( de l'ordre de 40 à
50% par exemple) sont en général suspectes : elles traduisent un certain déséquilibre de la synthèse.
Les contributions relatives peuvent être fortes : elles traduisent dans ce cas la caractérisation exclusive
de l'axe par une variable.

 Les graphiques : un certain nombre de procédures élémentaires permettent de clarifier la lecture des
plans factoriels :
- on allégera le graphique en éliminant les variables dont la position n'est pas "significative", en
général situées près de l'origine des axes,
- on joindra par des contours polygonaux les modalités ordonnées de façon naturelle (classes de
revenus, classes d’âges, nombre d'enfants, etc.).

 Règles d'interprétation générales : rappelons qu'en analyse des correspondances, les deux ensembles
jouent des rôles identiques : l'origine des axes est aussi bien le centre de gravité des points-lignes que
des points-colonnes. Par contre en ACP, l'origine n'est centre de gravité que pour les individus; les
variables peuvent être ainsi sur un même demi-axe : on parlera alors de facteur de taille. Pour les deux
méthodes, les seules proximités dont l'interprétation est strictement licite sont les proximités entre
éléments d'un même ensemble. Ces proximités sont d'autant plus "significatives" que l'on s'éloigne de
l'origine des axes vers la périphérie du graphique. En ce qui concerne les proximités croisées en AFC,
on interprétera par exemple, la position d'un point-ligne par rapport à celles de tous les points-colonnes
ou vice versa. L'interprétation sera ici encore d'autant plus claire que le point sera davantage éloigné
de l'origine des axes.

M1 : Economie Quantitative – Analyse des Données - 35 - R. Abdesselam

Vous aimerez peut-être aussi