Académique Documents
Professionnel Documents
Culture Documents
M1 - Economie quantitative
Objectifs
Le but de ce cours est de donner aux étudiant(e)s une formation de base en traitement de données
multidimensionnelles. Plusieurs techniques statistiques seront présentées et on insistera surtout sur la
compréhension intuitive, l’interprétation correcte et l’utilisation pratique de celles-ci. Par conséquent, l’emploi de
concepts mathématiques sera réduit à son minimum et ces derniers ne serviront qu’à facilité la compréhension des
méthodes étudiées. Les méthodes les plus importantes sont présentées d’une manière aussi concrète que
possible, sans que soient trop développés ni les fondements mathématiques, ni les questions de calcul numérique.
Le logiciel SPAD sera utilisé mais aucune connaissance préalable de celui-ci n’est requise. Par contre, une
connaissance des concepts et méthodes statistiques (population, échantillon, estimation, test d’hypothèse) de base
est requise.
Chaque méthode est illustrée par des applications à des données réelles. L’utilisateur doit évidemment avoir une
idée suffisamment précise des principes généraux et des conditions d’application de ces méthodes, mais il doit
consacrer essentiellement son attention à la méthodologie d’enchaînement de ces méthodes et à l’interprétation
des résultats obtenus.
L’analyse des données permet l’étude d’un problème dans sa globalité : multiplicité et interaction des critères,
diversité de l’environnement. Elle permet la description, l’exploration, l’analyse d’importants tableaux de données.
Bien adaptée aux études de terrain, c’est en particulier l’outil idéal des traitements d’enquêtes.
Les entreprises croulent littéralement sous le poids des données qu’elles ont à leur disposition. Ces données
contiennent potentiellement une quantité importante d’informations pouvant être bénéfiques à l’entreprise si utilisées
correctement.
Enfin, sous le vocable « Data mining » fouille de données, on retrouve différentes techniques statistiques
utilisées pour explorer et analyser de grands ensembles de données. Ces techniques ont généralement pour but de
développer des modèles prévisionnels, de réduire la taille des données, faire de la segmentation ou bien de
découvrir des associations pertinentes. L’analyse multidimensionnelle des données est à la base de plusieurs
techniques de data maning et est utilisée dans plusieurs domaines de l’économie et de la gestion dont le marketing.
MATERIEL PEDAGOGIQUE
Ressources diverses
(2) Polycopiés de cours, (1) polycopié de travaux dirigés ainsi que de nombreux fichiers de données réelles
SPAD – Système pour l’Analyse de Données, version 7.4, Kit-Etudiant.
Références bibliographiques
Référence(s) de base
ème
[1] Bouroche J.M., Saporta G. L'analyse des données, "Que sais-je?" N°1854 , PUF, 8 édition (2002).
Ce fascicule de poche constitue une excellente introduction à l’analyse statistique multidimensionnelle. Il met
l’accent sur l’interprétation intuitive des idées et concepts en n’ayant presque aucun recours à la notation
mathématique. Il accorde aussi beaucoup d’importance à l’interprétation correcte des résultats.
Autres références
[2] Caillez F., Pages J.P. Introduction à l'Analyse des Données SMASH (1975).
[3] Celeux G, Diday E, Govaert G, Lechevalier Y, Ralambondrany H. Classification automatique des données.
Environnement statistique et informatique, Dunod (1989).
[4] Cibois P. L'analyse factorielle, "Que sais-je?" PUF (1983).
[5] Cibois P. L'analyse des données en sociologie. PUF (1984).
ème
[6] Escofier B., Pagès J. Analyses factorielles simples et multiples 3 édition Dunod (1988).
[7] Fenneteau H., Bialès C. Analyse statistique des données. Ellipses (1993).
[8] Grangé D., Lebart L. Traitements statistiques des enquêtes. Dunod (1993).
[9] Han J. , Kamber M. : Data Mining Concepts and Techniques, (2001).
[10] Michael J.A. Berry, Gordon Linoff : Data Mining, Masson (1997).
[11] Moscarola J. Enquêtes et analyse de données. Vuibert Gestion (1990).
[12] Rodriguez Herrera R., Salles-Le-Gac D. Initiation à l’analyse factorielle des données – Fondements
mathématiques et interprétations. Ellipses (2002).
[13] Saporta G. Probabilité, analyse des données et statistique Editions Technip (1990).
[14] Stanton A, Glantz K, Bryan K : Primer of applied regression and anlysis of variance, Mc Graw Hill, (2000).
[15] Volle M., Analyse des données. Economica (1978).
[16] Guide du logiciel SPAD version 6 Système pour l’Analyse des Données.
Ce cours vise à présenter les méthodes d'analyses de données en mettant l'accent sur les outils
d'interprétation, sans écarter pour autant l'exposé des principes de fonctionnement. Ces méthodes
d'analyse sont aisées à mettre en oeuvre depuis le développement des moyens informatiques puissants
de calcul, mais leur interprétation est souvent délicate.
On insistera donc sur leurs aspects intuitifs, à savoir leur principe général, leurs objectifs et les
techniques d’interprétation des résultats. De plus, chaque méthode est illustrée par des applications à
des données réelles.
Les objectifs
- mettre en évidence les principes de fonctionnement de ces méthodes sans recourir au formalisme
mathématique (des ouvrages permettant d'approfondir les fondements mathématiques sont
indiqués en bibliographie),
- montrer à partir d'exemples réels comment interpréter les résultats de ces analyses,
- donner une idée de l'intérêt mais aussi des dangers et limites de ces méthodes,
- l'enchaînement canonique de ces méthodes dans le cadre d'une analyse structurelle des données
d'enquête.
Un peu d'histoire
Les prémices de ces méthodes ont été mises en place dans la première moitié de ce siècle par les travaux
de Pearson (1904) et Hotelling (1933), aboutissant à l'Analyse en Composantes Principales (ACP, Principal
Component Analysis, PCA, appelée aussi Factor Analysis dans certains logiciels) qui permet de traiter un
tableau de variables quantitatives.
Dans les années 1968-1975, divers travaux tentent de mettre au point une technique équivalente pour
traiter des tableaux de contingence ( tableau croisé de deux variables qualitatives ) : on peut citer les
modèles de l'américain Goodman. Un français, Benzecri, trouve le moyen d'appliquer les principes de l'ACP
à un tel tableau : c'est l'Analyse Factorielle des Correspondances (AFC). Il assortit ses travaux de
considérations épistémologiques sur l'inutilité des hypothèses probabilistes (qui sont à la base des
statistiques classiques : test, etc..) dans le traitement des données. Il prône une approche fondée sur le refus
de ces hypothèses qui se présente comme une alternative aux approches statistiques classiques
(essentiellement d'origine anglo-saxonne) et prend le nom d'Analyse de Données.
A la suite de ces travaux, une sorte d'école se développe en France. Diverses techniques sont mises au
point dans ce cadre : Analyse Factorielle des Correspondances Multiples ( AFCM ou ACM ) ; Analyse
Factorielle Discriminante (AFD); Segmentation ; Méthodes des Nuées Dynamiques ; etc. A la fin des années
80 la querelle entre partisans de l'Analyse de Données et statisticiens "classiques" s'est apaisée. Les
premiers ont réintroduit des éléments de probabilités dans leurs techniques et les seconds ont fini par
considérer que ces méthodes pouvaient parfois être utiles.
Le « Data Mining » est apparu aux Etats-Unis au milieu des années 1990. Il désigne l’ensemble des
moyens d’exploitation informatique « intelligente » des données utilisant des modèles de prédiction variés. La
traduction en français la plus proche est « fouille de données ». Il ne suffit pas d’avoir les données, encore
faut-il savoir les traiter pour les synthétiser, les analyser, les rechercher, les mettre en perspective d’une
action bien définie ou d’un objectif à atteindre. C’est ainsi que s’introduit naturellement le Data Mining qui est
essentiellement dû à la conjonction des deux facteurs suivants :
L’analyse statistique exploratoire des données nécessite beaucoup de calculs et est inutilisable sans
moyens informatiques. Pour traiter ses données, le statisticien contemporain a le plus souvent recours aux
grands logiciels très répandus SAS, SPAD, SPSS. Ces logiciels constituent des outils indispensables très
puissants, voire de véritables environnements informatiques (SAS), permettant le traitement d'une grande
variété de données.
Introduction
Plus de vingt-cinq années de pratique ont démontré la puissance des méthodes d'analyses de données ou
techniques de statistique descriptive multidimensionnelle, pour acquérir de l'information synthétique sur des
échantillons énormes ou les très grands ensembles de données complexes comme le sont les fichiers
d'enquêtes. La souplesse des programmes de calcul et leur efficacité permettent d'y faire appel de façon
répétée sur les mêmes données.
Lorsqu’on dispose d’un volumineux fichier de données, il est difficile d’appréhender globalement
l’information contenue. Les méthodes statistiques classiques sont insuffisantes. En effet, la statistique
descriptive nous enseigne seulement comment dégager des pourcentages et comment représenter l’intensité
entre deux caractères, par exemple le PIB en fonction de la population d’un ensemble de pays ; la statistique
inférentielle (mathématique), quant à elle, permet d’estimer des paramètres de distribution ( moyenne,
variance, proportion, etc.) et de vérifier la validité d’hypothèses, notamment si deux séries de données
correspondent à deux caractères corrélés. Toutes ces méthodes ne permettent pas d’extraire les
informations d’un grand fichier, d’où l’on veut, en dépistant des concomitances répétées, déduire les relations
statistiques entres diverses caractéristiques. L’analyse des données permet des études globales incluant
toutes les caractéristiques de ces mêmes données ; ces études ont pour but de mettre en lumière les
phénomènes importants en faisant le minimum d’hypothèses a priori sur les importances relatives des
informations. Aujourd’hui, l’analyse des données est devenue un outil indispensable dans de nombreux
domaines, par exemple l’aide à la décision, en finance, dans les études de marché ou dans l’étude du risque.
Les méthodes d'Analyse de Données sont rangées en deux grandes familles : les méthodes d'analyse
factorielle et les méthodes de classification automatique.
Ces deux familles de méthodes ont pour objet de résumer l'information contenue dans les données. Elles
sont plus complémentaires que concurrentes, et peuvent avec profit être utilisées conjointement sur un même
tableau de données du type " individus ( objets ) x variables ( attributs )". On peut, dans certains cas,
associer utilement une classification aux résultats d'une analyse factorielle.
Les méthodes d'analyse factorielle constituent un domaine important de l'analyse des données et relèvent
de l'analyse linéaire. Elles sont diverses de part leurs différents domaines d'applications, mais leurs arrière-
plans mathématiques sont très proches. Les méthodes factorielles ont pour objet de résumer l'information
apportée par un ensemble de variables, par un nombre plus restreint de variables nouvelles appelées
"facteurs".
Les méthodes de classification automatique porte sur l'ensemble des individus ( objets ) qu'il s'agit de
regrouper en classes ou catégories jugées les plus homogènes possibles et cela au regard d'un critère.
On distinguera les variables selon leur type : quantitatives ou qualitatives et selon leur fonction dans
l'analyse : actives ou illustratives ( supplémentaires ).
En présence de deux variables, il est facile de représenter, dans un plan , l'ensemble des données . L'allure
du nuage de points permet, d'étudier l'intensité de la liaison "corrélation" entre ces deux variables, de situer
les différents individus ( pays ) et éventuellement de les classer.
Supposons que l'on dispose d'une troisième variable "Taux d’inflation" : il devient alors difficile de tout avoir
sur un graphique. Il faut recourir à la perspective ou faire deux graphiques ( PIB x Population et Taux
d’inflation x Population par exemple ). Rajoutons une quatrième variable ‘’Taux de croissance’’, voire une
cinquième ‘’Taux de chômage’’, etc. La représentation graphique des données devient alors impossible. Or
ces variables sont corrélées entre elles : elles sont donc partiellement redondantes.
Question : peut-on déterminer un nombre restreint de variables, représentant les mêmes données et
non corrélées entre elles ?
1
Principal Component Analysis (PCA).
- les composantes principales, notées ( C1, C2, ..., Cq ), sont des combinaisons linéaires des variables
pour tout j = 1,q avec q p .
p p
initiales ( X1, X2, , X ) : Cj = a1X1 + a2X2 + ... + apX
- elles sont non corrélées (les coefficients de corrélation linéaire des composantes prises deux à deux sont
nuls) ce qui évite la redondance de l'information déjà résumée.
- la première composante porte ou résume plus d'informations que la seconde qui en porte plus que la
troisième et ainsi de suite, de sorte qu'en se limitant aux 2 ou 3 premières composantes on dispose d'un
bon résumé de l'information contenue dans les données.
En résumé, on peut dire que l’ACP consiste à transformer les variables initiales corrélées en de nouvelles
variables, les composantes principales, combinaisons linéaires des variables initiales non corrélées entre
elles, de variance maximale et les plus liées aux variables initiales : l’ACP est une méthode factorielle
linéaire. Ainsi, on utilisera l’ACP pour faire apparaître :
- la structuration des variables actives, c’est-à-dire les systèmes de relation qui existent entre elles ;
leurs association ou leurs oppositions.
- La répartition des individus les uns par rapport aux autres, en relation avec les variables traitées ; les
individus qui présentent des caractéristiques communes ou antagonistes.
A noter que l’ACP est une méthode essentiellement descriptive, préalable à l’emploi d’autres méthodes
statistiques, telles que les méthodes de classification, de régression ou encore d’économétrie.
Moyens mathématiques
Les outils mathématiques utilisés sont ceux de l'algèbre linéaire et du calcul matriciel. Le principe est le
suivant :
Diagonalisation
Matrice des corrélations > Matrice des valeurs propres
X1 X2 ... Xp C1 C2 ... Cp
X 1
1 r12 ... r1p C 1
1 0 0 0
X2 r21 1 ... r2p C2 0 2 0 0
... ... ... ... ... ... 0 0 ... 0
Xp rp1 rp2 ... 1 Cp 0 0 0 p
( r12 = r( X1 , X2) coefficient de corrélation linéaire entre les variables X 1 et X2 )
On diagonalise la matrice des corrélations2 (matrice symétrique dont les éléments sont les coefficients de
corrélation linéaire entre les variables initiales prises deux à deux) (*).
- les vecteurs propres de cette matrice définissent les nouvelles variables recherchées; les composantes
principales
- les valeurs propres associées, sont les variances des composantes principales (l'information résumée par
chacune des composantes).
- les axes factoriels sont les droites engendrées par les vecteurs propres.
On peut montrer que les composantes principales ainsi définies, vérifient bien les propriétés recherchées :
non corrélées entre elles, de variance décroissante, combinaisons linéaires des variables de départ. Cette
dernière propriété permet de construire des graphiques représentant les individus aussi bien que les
variables dans l'espace défini par les composantes.
2
On ne traite ici que le cas le plus courant. Le cas général part de la matrice des variances-covariances et d'une matrice des poids qui peut
varier. Ici on parle d'une ACP normée, les données sont centrées et réduites pour éliminer les effets de l'origine (moyennes) et des unités
(variances) des variables.
- Somme des valeurs propres : représente la variance ( l'inertie, l'information ) totale à résumer . Elle est
égale au nombre de variables dans le cas d'une ACP normée.
- Valeur propre : la variance de la composante principale correspondante (l'information résumée par l'axe
factoriel considéré).
- Pourcentage : le rapport de la valeur propre à l'inertie totale, ce qui mesure la quantité de l'information
résumée par l'axe factoriel correspondant.
Variables actives
- Coordonnées : les coordonnées des variables initiales sur les axes factoriels engendrés par les
composantes principales.
- Corrélations variables-facteurs : coefficients de corrélations entre les variables actives initiales et les
composantes principales; ce qui mesure la qualité de la représentation
des variables dans les plans factoriels.
Individus actifs
- Coordonnées : les coordonnées des individus sur les axes factoriels
- Contribution : mesure la qualité de représentation de l'individu sur l'axe factoriel considéré. C'est la part
d'inertie ou d'information de l'individu à la détermination de l'axe factoriel correspondant
- Cosinus carré : détermine la qualité de représentation de l'individu sur l'axe factoriel considéré. La
qualité de la représentation d'un individu dans un plan est définie par la somme des cosinus carrés
correspondant aux deux axes factoriels définissant le plan.
Variables supplémentaires
On peut également représenter dans l'analyse, des variables mixtes ( quantitatives et/ou qualitatives )
supplémentaires ou illustratives. L'utilisation de ces variables qui n'ont pas participé à la détermination des
axes factoriels apporte des éclairages différents, il s'agit alors d'une interprétation externe.
- Les variables quantitatives illustratives se représentent aisément dans le cercle des corrélations à partir
de leurs corrélations avec les composantes principales.
- Quant aux variables qualitatives, on utilise en général le principe barycentrique qui consiste à faire
figurer le centre de gravité ( point moyen ) de chaque modalité.
Individus supplémentaires
- On peut également projeter des individus supplémentaires, à partir de leurs coordonnées relatives
aux variables initiales. N'ayant pas servi à la détermination des axes, les contributions des individus
illustratifs sont nulles.
- L'histogramme des valeurs propres permet de vérifier la qualité du résumé sur les différents axes factoriels.
Le nombre d'axes à retenir est un problème délicat et qui n'a pas de
solution rigoureuse.
Il n'y a pas de règle précise fixant un seuil à partir duquel on éliminerait l'analyse ou décidant du nombre
d'axes à étudier ( en analyse des données, tout est affaire d'interprétation ). Souvent on tient compte de la
forme de l'histogramme pour déterminer le nombre d'axes à interpréter :
+--------+----------+----------------------------------------------------------------------------------+
| NUMERO | POURCENT.| HISTOGRAMME DES 4 PREMIERES VALEURS PROPRES |
| | CUMULE | 2 axes factoriels |
+--------+----------+----------------------------------------------------------------------------------+
| 1 | 63.03 | ******************************************************************************** |
| 2 | 93.23 | *************************************** |
| 3 | 98.54 | ******* |
| 4 | 100.00 | ** |
+--------+----------+----------------------------------------------------------------------------------+
+--------+----------+----------------------------------------------------------------------------------+
| NUMERO | POURCENT.| HISTOGRAMME DES 4 PREMIERES VALEURS PROPRES |
| | CUMULE | 3 axes factoriels |
+--------+- ---+----------------------------------------------------------------------------------+
| 1 | 49.79 | ******************************************************************************** |
| 2 | 75.97 | ************************************** |
| 3 | 98.27 | ********************************* |
| 4 | 100.00 | ******** |
+--------+----------+----------------------------------------------------------------------------------+
Pour rester intéressants, les axes doivent fournir une information plus importante que chaque variable
initiale. On peut également retenir les axes dont le taux d'inertie (exprimé en %) serait à peu près égal à
100/p , où p est le nombre de variables actives initiales.
Dans le cas d'une ACP normée, on retient les axes factoriels dont la valeur propre est supérieure à un. En
effet en données centrées-réduites les variables initiales ont des variances égales à un et on cherche des
combinaisons linéaires de variance maximale donc supérieures.
- Les corrélations variables-facteurs permettent de donner un sens aux axes factoriels et de vérifier la qualité
de représentation des variables dans les plans factoriels. Si une
variable n'est corrélée avec aucun des axes d'un plan, on ne peut
guère tenir compte de cette variable dans ce plan. On s’interessera aux
coefficients les plus forts en valeur absolue et proches de 1.
- les valeurs-tests : Si l'on projette les modalités de variables qualitatives illustratives, les valeurs-tests
constituent un indice de la qualité de représentation de ces modalités sur les plans
factoriels. On considère que si la projection d'une modalité sur un axe est due au
hasard, elle réalise une loi normale centrée réduite. Si la valeur-test est supérieure à
1.96 en valeur absolue sur au moins l'un des deux axes, on considère que cette
projection n'est pas due au hasard et que l'on peut en tenir compte. Autrement dit, la
position de cette modalité ( catégorie ) illustrative, dans le plan factorielle, est
significativement différente de l'origine.
- les cosinus carrés : Lorsque l'on étudie la représentation des individus, les cosinus carrés entre individus et
axes factoriels permettent de déterminer les individus qui sont bien ou mals représentés
dans chaque plan. Le plus simple est de fixer arbitrairement un seuil (0.4 , 0.5 ou plus)
et de ne tenir compte, dans une première phase d'interprétation, que des individus dont
le cosinus carré dépasse ce seuil, avant de réintégrer progressivement les autres.
- contribution : On retiendra que les individus dont la contribution à l'axe factoriel est au moins égale à la
moyenne des valeurs des contributions sur cet axe.
- Le graphique des variables ( cercle de corrélations dans le cas d'une ACP normée ) permet de visualiser
les proximités entre variables en terme de corrélation. C'est une synthèse
graphique de la matrice des corrélations des variables actives : les directions
des variables donnent le sens des corrélations. La distance par rapport au
centre du graphique visualise la qualité de représentation dans le plan ( plus
une variable est proche du centre, plus mauvaise est sa représentation ).
VALEURS PROPRES
APERCU DE LA PRECISION DES CALCULS : TRACE AVANT DIAGONALISATION .. 4.0000
SOMME DES VALEURS PROPRES .... 4.0000
HISTOGRAMME DES 4 PREMIERES VALEURS PROPRES
+--------+------------+----------+----------+----------------------------------------------------------------------------------+
| NUMERO | VALEUR | POURCENT.| POURCENT.| |
| | PROPRE | | CUMULE | |
+--------+------------+----------+----------+----------------------------------------------------------------------------------+
| 1 | 2.2063 | 55.16 | 55.16 | ******************************************************************************** |
| 2 | 1.3907 | 34.77 | 89.93 | *************************************************** |
| 3 | 0.3909 | 9.77 | 99.70 | *************** |
| 4 | 0.0121 | 0.30 | 100.00 | * |
+--------+------------+----------+----------+----------------------------------------------------------------------------------+
VARIABLES ILLUSTRATIVES
----------------------------+------------------------------------+-------------------------------+-------------------------------
IDEN - LIBELLE COURT | 1 2 3 4 0 | 1 2 3 4 0 | 1 2 3 4 0
----------------------------+------------------------------------+-------------------------------+-------------------------------
POPU - Population (%) UE-20 | -0.14 0.42 -0.26 -0.55 0.00 | -0.14 0.42 -0.26 -0.55 0.00 |
PIB - Produit Intérieur Br | -0.03 0.25 -0.33 -0.60 0.00 | -0.03 0.25 -0.33 -0.60 0.00 |
TCHO - Taux de chômage en % | -0.26 0.27 0.14 -0.45 0.00 | -0.26 0.27 0.14 -0.45 0.00 |
VENT - Ventes au détail en | 0.21 -0.05 0.33 0.63 0.00 | 0.21 -0.05 0.33 0.63 0.00 |
PIND - Production industrie | 0.25 -0.30 0.41 -0.04 0.00 | 0.25 -0.30 0.41 -0.04 0.00 |
TCRO - Taux de croissance e | 0.76 -0.18 0.27 0.12 0.00 | 0.76 -0.18 0.27 0.12 0.00 |
----------------------------+------------------------------------+-------------------------------+-------------------------------
3
APU - Administrations publiques : Ensemble des unités institutionnelles dont la fonction principale est de produire des services non marchands ou d’effectuer des
opérations de redistribution du revenu et des richesses nationales. Elles tirent la majeure partie de leurs ressources de contributions obligatoires. Le secteur des
administrations publiques comprend les administrations publiques centrales, les administrations publiques locales et les administrations de sécurité sociale.
- le premier facteur est corrélé négativement avec les dépenses, les recettes et la dette brute des APU, et
positivement avec le solde des finances publiques.
- le deuxième facteur est significativement corrélé négativement avec le solde des finances publiques et les
recettes, et positivement avec la dette brut des APU.
Seule la variable illustrative "Taux de croissance en volume du PIB" du thème ‘’Activité-Emploi’’ qui a été
projetée a posteriori dans le plan factoriel, est corrélée avec le premier axe factoriel.
L’interprétation interne de la représentation des individus s’effectue toujours à partir de celle des variables
actives. Ainsi, relativement à l’ensemble des pays de l’UE et sur le premier plan factoriel,
- le premier facteur oppose les pays dont les recettes, les dépenses et la dette brute sont élevées avec un
solde des finances publiques significativement faible c’est le cas de la Grèce, Suède, France ou encore
de la Belgique, aux pays comme l’Irlande et le Luxembourg dont le solde des finances publiques est élevé
alors que les recettes, les dépenses et la dette brute sont significativement faibles. De plus, ces pays ont
plutôt un taux de croissance en volume du PIB élevé par rapport à celui de l’ensemble des pays de l’UE
( interprétation externe – variables illustratives ).
- Quant au deuxième facteur, il oppose les pays ayant un solde des finances publiques et des recettes
significativement élevés et une faible dette brute des APU ( Suède, Finlande, Luxembourg et le
Danemark ), aux pays caractérisés par une dette brute importante et un solde des finances publiques et
des recettes faibles c’est le cas notamment de l’Espagne, de l’Italie et du Portugal.
L’origine ( fictive ) des axes représente un pays qui aurait pour caractéristique ‘’finances publiques’’ la
moyenne des quatre variables actives étudiées.
Le tableau de contingence ou de dépendance est un tableau croisé des effectifs des modalités de
deux variables qualitatives ou nominales.
La validité de l'AFC s'étend à tout tableau de données à condition que les données recensées dans ce
tableau soient toutes positives et homogènes. On peut ainsi traiter des tableaux de mesures exprimées
dans la même unité, des tableaux d'échanges, tableaux de notes, tableaux de rangs, etc..
Par exemple, pour les 81491 créateurs-repreneurs d’entreprises, créées ou reprises au cours du
premier semestre 1994 ( Source : Insee - Les Créations d’entreprises du premier semestre 1994 - Système
productif n°97-98 - mars 96 ), si on veut décrire les éventuels liens entre les secteurs d'activités et les
qualifications professionnelles du dernier emploi, le tableau ci-dessous donne la répartition des 81491
créateurs-repreneurs d’entreprises selon ces deux caractères.
Tableau de contingence
Peut-on donner une réponse graphique à la question : Est-il raisonnable de penser qu'il existe une
liaison ( correspondance ) entre les secteurs d'activités des entreprises créées-reprises et la qualification
professionnelle du créateur-repreneur ?
Remarquons tout d'abord qu'un tableau de contingence peut se lire de deux manières différentes : selon
ses lignes ou selon ses colonnes. On peut répondre à la question posée en appliquant les principes de
l'Analyse en Composantes Principales. L'AFC se présente alors comme 2 ACP particulières selon que l'on
s'intéresse aux lignes ( secteurs d’activités ) ou aux colonnes (qualification professionnelle) du tableau de
contingence.
4
Factorial Correspondence Analysis (FCA).
Nous allons considérer les lignes de ce tableau comme des individus et les colonnes comme des
caractères. On fait ensuite l'ACP de ce tableau avec une métrique particulière, (métrique du Khi²) pour
calculer les distances entre profils, et des poids proportionnels aux effectifs des lignes. Cela revient en fait à
procéder comme pour l'ACP normée en remplaçant la matrice des coefficients de corrélation linéaire par une
matrice adaptée aux caractères qualitatifs. On obtient ainsi une analyse et des représentations graphiques
des secteurs d’activités dans des plans factoriels appropriés.
On peut ainsi savoir pour chaque catégorie professionnelle comment se répartissent les secteurs
d’activités des entreprises créées-reprises. Ainsi, on constate que les cadres ont créé ou repris plus
d’entreprises dans les secteurs des services aux entreprises (37.83%) et de l’industrie (8.79%), et moins
dans les autres secteurs (interprétation par rapport au profil moyen : toutes qualifications confondues).
On procède de la même façon avec le tableau des profils-colonnes en prenant les colonnes pour
individus et les lignes pour caractères. On obtient ainsi une analyse et une représentation graphique des
qualifications professionnelles.
Remarques :
1- La mise en correspondance et le rôle symétrique que fait jouer la métrique du Khi² pour les modalités
lignes et colonnes du tableau de contingence, fait que l'ACP des profils-lignes est équivalente à l'ACP
des profils-colonnes : les composantes principales d'une analyse se déduisent de celles de l'autre et les
valeurs propres des deux analyses sont identiques.
2- Le nombre d'axes factoriels est toujours inférieur ou égal au min(p-1 , q-1) où p et q sont les nombres de
modalités des deux caractères qualitatifs.
3- Dans la pratique, on effectue qu'une seule des 2 ACP, les résultats de l'autre analyse se déduisent par
des formules de transition. Il est possible de superposer les graphiques (moyennant un changement
d'échelle) des 2 ACP pour visualiser, dans les plans factoriels, les liaisons entre les profils-lignes et les
profils-colonnes ( représentation simultanée ).
4- Les principes de représentation et les indices de qualité associés dans le cadre de l'Analyse en
Composantes Principales restent inchangés.
Tableau des profils-colonnes : "Quel est le secteur d'activité des entreprises créées ou reprises par
chaque qualification professionnelle ?
La proximité entre deux points "secteur d'activité" signifiera une similitude des profils "qualification
professionnelle’’. Il en est ainsi pour les hôtels-cafés-restaurants et les services aux ménages, par exemple
(cf. tableau des profils-lignes).
La proximité entre deux points "qualification professionnelle" signifiera une similitude des profils "secteur
d'activité". C'est ce que l'on constate pour les professions intermédiaires et les artisans-commerçants-chefs
d'entreprise (cf. tableau des profils-colonnes).
La proximité entre les hôtels-cafés-restaurants et les services aux ménages s'explique notamment par le
fait que dans ces deux secteurs, la proportion d'entreprises créées ou reprises par les employés (13.63% ,
14.38%) est supérieure à la moyenne (9.35% , 11.20%), et une proportion d'entreprises créées ou reprises
par les cadres (4.81% , 7.85%) inférieure à la moyenne.
Analyse de la dépendance
L’Analyse Factorielle des Correspondances (AFC) de la table de contingence conduit à cinq axes
factoriels représentant toute l’information à résumer c’est-à-dire l’association symétrique, entre les
qualifications professionnelles et les secteurs d’activité des créateurs et repreneurs d’entreprises, mesurée
par le phi-deux de Pearson (² = 0.1794).
Dans le cas de l’indépendance des deux variables, hypothèse d’indépendance des lignes et des colonnes du
tableau de contingence ci-dessous, la mesure de l’association serait une réalisation d’un khi-deux de
Pearson à 35 degrés de liberté ( KHI2 = 14619.49 ), noté ²calculé , dont la relation est ² = ²calculé / n, où
n = 81491 entreprises désigne la taille de l’échantillon. L’hypothèse d’indépendance est évidemment rejetée
vu que PROBA ( KHI2 > 14619.49 ) = 0.0001 < 5% (risque d’erreur) .
Représentation graphique
La dépendance entre le secteur d'activité et la qualification professionnelle du dernier emploi peut être
décrite par le premier plan principal qui résume environ 94% de l'information globale.
- Le premier axe oppose les secteurs de la construction et de l'industrie agroalimentaire, caractéristiques
des ouvriers, au secteur des services aux entreprises représentatif des cadres.
- Quant au deuxième axe, il oppose les employés qui ont le plus créé ou repris d'entreprises dans les
services aux ménages et les hôtels-cafés-restaurants, aux cadres qui caractérisent les entreprises
créées ou reprises dans le secteur des services auprès des entreprises.
Enfin, pour éviter des interprétations abusives de proximités graphiques illusoires, comme en Analyse en
Composantes Principales, il est recommandé de consulter le tableau des contributions "contributions
absolues" et le tableau des cosinus carrés des angles entre les points et avec les axes factoriels
"contributions relatives".
L'analyse de plus de deux variables qualitatives s'effectue à l'aide d'une extension de l'AFC que l'on
appelle Analyse Factorielle des Correspondances Multiples5 (AFCM ou ACM). C'est l'une des méthodes les
plus utilisées en analyse des données, ses principaux domaines d'applications sont le traitement des
questionnaires et l'exploitation des enquêtes par sondages.
Du point de vue de l'analyse des données une variable qualitative est une question; ses modalités sont
les différentes réponses possibles. Les variables utilisées sont nécessairement qualitatives. Cependant, il est
toujours possible de transformer une variable quantitative en une variable qualitative ordinale ( classes
d'âges, tranches de salaires, etc. ). Il est possible de positionner des variables continues en élément
supplémentaire ( sans transformation au préalable en variable qualitative par découpage en classes ).
L'AFCM consiste à effectuer une Analyse Factorielle des Correspondances sur un tableau disjonctif
complet ( logique ) ou à un tableau de Burt.
Le tableau de Burt est calculé directement à partir du codage condensé ou disjonctif complet. On trouve
dans ce tableau tous les tableaux de contingence croisant les variables deux à deux. Sur la diagonale se
trouvent les variables croisées avec elles-mêmes, et donc les effectifs correspondant à chaque modalité. Par
exemple, dans l'enquête portant sur les créations d'entreprises au cours du premier semestre 1991, on a
relevé six variables qualitatives ( questions ) totalisant 29 modalités.
( Source : Insee - Les Créations d’entreprises du 1er semestre 1994 - Système productif n°97-98 - mars 96 ).
Individu -25 ans 25-39 40ans+ homme femme ... ... ... s.entps s.ména
I001 1 0 0 0 1 0 0 0 0 1
I002 0 1 0 0 0 0 0 1 0 0
.... .. .. .. .. .. .. .. .. .. ..
I81491 0 0 1 0 0 1 0 0 1 0
Tableau de Burt :
-25 ans 25-39 40ans+ homme femme ... ... ... s.entps s.ména
-25ans 7019 0 0 4778 2241 ... ... ... 749 1103
25-39 0 42678 0 30307 12371 ... ... ... 7900 5069
40ans+ 31794 21657 10137 ... ... 6456 2959
homme 56742 0 ... ... ... 10572 4536
femme 24749 ... ... ... 4533 4595
... ... ... ... ... ...
... ... ...
... ... ...
... 0 0
s.entps 15105 0
s.ména 9131
On peut montrer que les résultats de l'AFCM obtenus à partir d'un tableau disjonctif ou d'un tableau de Burt,
considéré comme un tableau de données, sont équivalents. Pour des raisons évidentes d'économie de
calcul, les logiciels utilisent généralement le tableau de Burt.
5
Multiple «Factorial» Correspondence Analysis (MCA).
3.2.1 Données ( Source : Insee - Les Créations d’entreprises du premier semestre 1994 - Système productif n°97-98 - mars 96 ).
Enquête réalisée par l'Insee auprès de 81491 créateurs-repreneurs d'entreprises au cours du premier
semestre 1991. Nous avons soumis à l'analyse des correspondances multiples six variables qualitatives
( questions ), quatre actives et deux illustratives, totalisant 29 modalités (19 actives et 10 illustratives).
Variables actives :
Classes d'âge des créateurs-repreneurs ( moins de 25 ans, entre 25 et 39 ans, 40 ans et plus )
Sexe ( homme, femme )
Qualification professionnelle ( artisan/commerçant/chef entreprise, cadre, prof.intermédiaire, employé,
ouvrier, étudiant/sans qualification )
Diplôme le plus élevé ( pas diplôme/cep, bepc, cap/bep, bac technique, bac général, bts/dut,
deug/équivalent, bac+3 et plus )
Variables illustratives :
Situation préalable ( actif, chômeur/non actif )
Secteurs d'activités ( industrie agro-alimentaire, industrie, construction, commerce, transport,
hôtel/café/restaurant, services aux entreprises, services aux ménages )
Les variables actives utilisées dans cet exemple représentent la signalétique des créateurs-repreneurs
d'entreprises ( classes d'âges, sexe, qualification professionnelle, diplôme le plus élevé ). En général, ces
questions décrivent plus ou moins objectivement les créateurs-repreneurs. Les deux autres variables (
situation préalable, secteurs d'activités des entreprises créées ou reprises ), constituant le sujet même de
l'enquête, sont représentés en éléments supplémentaires ou illustratifs.
Compte tenu de la nature particulière du tableau disjonctif qui conduit à un nuage très éparpillé, les
pourcentages d'information apportés par chaque axe sont en général très faibles ce qui surprend le
néophyte. Il n'y a là rien d'inquiétant mais cela rend un peu plus délicat le choix du nombre pertinent d'axes
factoriels à retenir.
Les règles de lecture sont semblables à celles de l'AFC. Seuls les calculs de contributions cumulées pour
les modalités de chaque question active ont été ajoutés.
D’après les résultats graphiques et numériques précédents, on interprétera l’analyse des deux premiers
facteurs en s’aidant des tableaux des contributions et des cosinus carrés.
Le premier plan factoriel résume environ 27% de la dépendance entre les caractères signalétiques des
créateurs-repreneurs, elle peut être interprétée de la façon suivante :
- Le premier axe caractérise surtout la qualification professionnelle du dernier emploi des créateurs-
repreneurs ainsi que leurs diplômes, il oppose les jeunes ouvriers et employés d'un niveau CAP/BEP, aux
cadres artisans-commerçants et chefs d'entreprise plus âgés et plus diplômés (DEUG et BAC+3).
- Le deuxième axe caractérise davantage la qualification professionnelle du dernier emploi ainsi que le sexe
des créateurs-repreneurs. Il oppose les femmes étudiantes ou sans qualification d'un niveau BAC général
aux ouvriers diplômés d'un CAP/BEP.
Le deuxième graphique montre la projection des modalités de réponses des deux caractères illustratifs
sur le premier plan principal de l’analyse de la signalétique des créateurs-repreneurs d'entreprises. Pour
l’interprétation des modalités de ces caractères, on s’aidera du tableau des valeurs-test. Ainsi,
- Le premier axe oppose donc les jeunes ouvriers et employés d'un niveau CAP/BEP qui étaient inactifs ou
chômeurs et qui ont créé ou repris des entreprises dans les secteurs de l'industrie agroalimentaire, des
transports et des hôtels-cafés-restaurants, aux cadres artisans-commerçants et chefs d'entreprise plus
âgés et plus diplômés (DEUG, BAC+3) qui étaient actifs et qui ont créé ou repris dans le secteur des
services aux entreprises.
- Le deuxième axe oppose les femmes étudiantes ou sans qualification d'un niveau BAC général, qui ont
créé ou repris des entreprises de services aux ménages, aux ouvriers diplômés d'un CAP/BEP, qui ont créé
ou repris des entreprises dans les secteurs de la construction et de l'industrie.
L'analyse discriminante tente alors de résoudre le problème de l'affectation à une classe d'un individu
caractérisé par de nombreux caractères explicatifs. Les fonctions linéaires discriminantes seront les
combinaisons linéaires de ces caractères, dont les valeurs séparent au mieux des classes connues a priori.
Par exemple, certains résultats réalisés sur un ensemble d'entreprises caractérisé par une série de
mesures comptables (C.A., différents ratios, frais de publicité, etc.) et dont on connaît leur situation actuelle
(bonne, stable, critique), on se propose de "prédire" (ou de décider) l'avenir d'une nouvelle entreprise
connaissant ses résultats sur le même ensemble de mesures comptables.
A partir de ces informations, l'analyse discriminante va prévoir la situation la plus probable de cette
nouvelle entreprise.
6
Factorial Discriminant Analysis (FDA, descriptive discriminant analysis, canonical variate analysis) .
7
Cluster analysis, classification.
Ainsi, d'un point de vue de la discrimination, l'analyse factorielle discriminante, en décrivant l'échantillon
d'apprentissage composé de 200 entreprises, permet de répondre aux questions préalables suivantes :
- Est-il possible de réaliser la discrimination à partir des caractères descriptifs (mesures comptables)
choisis ?
- Comment se comportent les caractères descriptifs vis-à-vis des trois classes à discriminer ?
- Quelles sont les caractères ou les groupes de caractères les plus discriminants ?
Peut-on donner une réponse graphique à la question : Dans quelle mesure la situation d'une entreprise
dépend-t-elle des mesures comptables ?
0n peut répondre à la question posée en appliquant les principes de l'Analyse en Composantes
Principales au tableau des centres des classes. l'AFD se présente alors comme une ACP particulière.
Les résultats d'une AFD peuvent alors se visualiser sur les plans factoriels appelés plans discriminants et
se formuler par des critères d'inertie :
- maximiser l'inertie interclasses : séparer au mieux les centres des classes afin d'exalter les
différences entre classes.
- minimiser l'inertie intra-classes : les individus appartenant à une même classe soient le plus
concentrés possible autour du centre de la classe afin que
l'étendue dans les classes soit bien délimitée.
Les principes de représentation et les indices de qualité sont les mêmes que ceux de l'Analyse en
Composantes Principales.
Remarques :
- Cas de deux classes, on retrouve les résultats de l'analyse discriminante linéaire classique rencontrée
fréquemment lors des applications. C'est aussi un cas particulier de la régression multiple, où la
variable à expliquer ne prend que deux valeurs (modalités), chacune d'elles caractérisant une classe.
- Quand le nombre de variables descriptives est très élevé relativement à la taille de l'échantillon, il est
souvent indispensable de passer par une phase de sélection des "meilleurs" caractères discriminants
afin d'obtenir une discrimination satisfaisante. Certains logiciels d'analyse de données proposent des
méthodes hiérarchiques de sélection des caractères, basées sur des critères de mesure du "pouvoir"
discriminant de ces caractères. Ce sont des techniques de discrimination pas à pas analogues à la
régression stepwise où on introduit au fur et à mesure les caractères explicatifs dans une formule de
discrimination.
On désire déterminer dans quelle mesure la marque du constructeur est liée aux caractéristiques mesurées
par les six caractères quantitatifs ( prix en milliers de francs belges, consommation urbaine, cylindrée, vitesse
maximum, volume maximum du coffre et le rapport poids/puissance ). Le caractère qualitatif à discriminer,
marque du constructeur ( Française, Etrangère ), prend ici deux modalités.
Disposant des caractéristiques de trois nouvelles petites voitures, anonymes quant à leur marque, on se
propose de visualiser ces voitures dans les plans discriminants de l'analyse et ainsi tenter de prévoir la
marque de leur constructeur. Ces trois voitures seront considérées dans l'analyse comme individus
supplémentaires.
INDIVIDUS
----------------------------- NOMBRE -------------- POIDS ---------------
POIDS DES INDIVIDUS: Poids des individus, uniforme egal a 1. UNIF
RETENUS ............ NITOT = 30 PITOT = 30.000
SELECTION APRES FILTRAGE
ACTIFS ............. NIACT = 27 PIACT = 27.000
SUPPLEMENTAIRES .... NISUP = 3 PISUP = 3.000
-------------------------------------------------------------------------
Dans le cas de deux groupes, l’analyse discriminante classique est formellement équivalente à une
régression. Appliquée sur les coordonnées factorielles de l’analyse en composantes principales des
caractéristiques des voitures, l’analyse discriminante de Fisher fournit le modèle de discrimination c’est-à-dire
la combinaison linéaire des variables qui séparent au mieux les deux groupes de voitures.
3. Quelles sont les variables qui discriminent réellement les deux groupes ?
Les variables explicatives qui discriment les deux groupes sont celles dont la probabilité est inférieure
au risque d’erreur choisi ( PROBA < = 5% ). Ainsi, parmi les sept variables introduites, seuls le prix, la
consommation urbaine et la vitesse discriminent donc différencient les deux groupes. Le signe du
coefficient de la fonction linéaire discriminante permet de localiser les caractéristiques de chacun des
groupes : le signe positif pour le groupe 1 et le signe négatif pour le groupe 2.
Ainsi, on peut conclure que les voitures de marque française « G1+ » sont significativement plus
chères alors que les voitures de marque étrangère « G2- » se différencient par leur consommation urbaine
et leur vitesse significativement plus élevées.
Comme la taille de l’échantillon est faible, on demande de valider la règle par des tirages
«bootstrap». Les résultats de la discrimination sont ré-édités avec les estimations « bootstrap » : le
biais et la précision des classements globaux sont édités avec les classements directs.
ANALYSE DISCRIMINANTE VIA ESTIMATIONS BOOTSTRAP : 10 TIRAGES ALEATOIRES
ESTIMATION BOOTSTRAP DE LA DIFFERENCE ENTRE UNE PROBABILITE DE CLASSEMENT ET SON ESTIMATION
(ENTRE * * : L'ECART-TYPE BOOTSTRAP ASSOCIE L'ESTIMATION DE LA DIFFERENCE)
FRAN ETRA
GROUPES D'ORIGINE ------------------------
FRAN -8.00 8.00
* 7.89* * 7.89*
ETRA 4.12 -4.12
* 4.84* * 4.84*
------------------------
FRAN ETRA
ESTIMATIONS BOOTSTRAP DES EFFECTIFS ET POURCENTAGES
ENTRE ETOILES : ECART-TYPE DES POURCENTAGES
RAPPEL DU CALCUL DE BASE BOOTSTRAP
EFFECTIFS ET (POURCENTAGES) | EFFECTIFS ET (POURCENTAGES)
BIEN CLASSES MAL CLASSES | BIEN CLASSES MAL CLASSES TOTAL
GROUPES -----------------------------------------------------------------------
FRAN 8.00 2.00 | 7.20 2.80 10.00
( 80.00) ( 20.00) | ( 72.00) ( 28.00) (100.00)
| * 9.94* * 9.94*
------------------------------------------------------------------------
ETRA 17.00 0.00 | 16.30 0.70 17.00
(100.00) ( 0.00) | ( 95.88) ( 4.12) (100.00)
| * 1.86* * 1.86*
------------------------------------------------------------------------
TOTAL 25.00 2.00 | 23.50 3.50 27.00
( 92.59) ( 7.41) | ( 87.04) ( 12.96) (100.00)
| * 3.40* * 3.40*
3
Nombre de
variables du 4
modèle
5
0.06 0.12 0.19 0.25 0.32 0.38 0.45 0.51 0.58 0.64 0.70
Valeur du R2
Les résultats fournis sont en faveur du choix du modèle à k = 3 variables (prix, consommation et
vitesse), car on atteint un palier dans la croissance du R². On pourrait donc refaire la discrimination en
ne choisissant que ces trois variables.
Dimension du tableau de données : nombres de variables et d'individus dans le cas d'une ACP,
nombres de lignes et de colonnes dans le cas d'une AFC d'un tableau de contingence, nombres de
variables discriminantes et de modalités de la variable à discriminer dans le cas d'une AFD.
Nature et codage des données : préciser le type des variables, s'agit-il de mesures numériques
continues (quantitatives), de codage disjonctif, de codage ordinal (qualitatives), s'agit-il d'effectifs, de
pourcentages.
Liste des variables : avoir une idée de l'importance de chacun des thèmes, du caractère représentatif
de l'ensemble des variables destiné à être synthétisé. On ne peut juger de la pertinence d'un facteur
sans connaître cette liste. Même si elle figure sur le graphique, il est bon de l'avoir sous les yeux
séparément, accompagnée des caractéristiques statistiques correspondantes (moyennes, écart-types,
minimum, maximum, etc..).
Liste des valeurs propres et des taux d'inertie (information résumée) : les valeurs propres elles-mêmes
ne sont utiles que dans le cas d'une AFC : une valeur propre voisine de 1 indique que la représentation
simultanée est de bonne qualité. Les taux d'inertie peuvent aider à juger de la signification statistique
des facteurs.
Aides à l'interprétation (contributions absolues et relatives) : il n'est pas indispensable de publier les
listes exhaustives de ces paramètres, en général trop encombrantes. Quelques contributions absolues
(qui indiquent comment une variable participe à la construction d'un axe) pourront être citées pour
étayer l'éventuelle caractérisation de l'axe. Les contributions absolues trop fortes ( de l'ordre de 40 à
50% par exemple) sont en général suspectes : elles traduisent un certain déséquilibre de la synthèse.
Les contributions relatives peuvent être fortes : elles traduisent dans ce cas la caractérisation exclusive
de l'axe par une variable.
Les graphiques : un certain nombre de procédures élémentaires permettent de clarifier la lecture des
plans factoriels :
- on allégera le graphique en éliminant les variables dont la position n'est pas "significative", en
général situées près de l'origine des axes,
- on joindra par des contours polygonaux les modalités ordonnées de façon naturelle (classes de
revenus, classes d’âges, nombre d'enfants, etc.).
Règles d'interprétation générales : rappelons qu'en analyse des correspondances, les deux ensembles
jouent des rôles identiques : l'origine des axes est aussi bien le centre de gravité des points-lignes que
des points-colonnes. Par contre en ACP, l'origine n'est centre de gravité que pour les individus; les
variables peuvent être ainsi sur un même demi-axe : on parlera alors de facteur de taille. Pour les deux
méthodes, les seules proximités dont l'interprétation est strictement licite sont les proximités entre
éléments d'un même ensemble. Ces proximités sont d'autant plus "significatives" que l'on s'éloigne de
l'origine des axes vers la périphérie du graphique. En ce qui concerne les proximités croisées en AFC,
on interprétera par exemple, la position d'un point-ligne par rapport à celles de tous les points-colonnes
ou vice versa. L'interprétation sera ici encore d'autant plus claire que le point sera davantage éloigné
de l'origine des axes.