Vous êtes sur la page 1sur 23

Analyse des données

L’analyse des données (aussi appelée analyse exploratoire des données ou AED) est une famille de
méthodes statistiques dont les principales caractéristiques sont d'être multidimensionnelles et descriptives.
Dans l'acception française, la terminologie « analyse des données » désigne donc un sous-ensemble de ce
qui est appelé plus généralement la statistique multivariée. Certaines méthodes, pour la plupart
géométriques, aident à faire ressortir les relations pouvant exister entre les différentes données et à en tirer
une information statistique qui permet de décrire de façon plus succincte les principales informations
contenues dans ces données. D'autres techniques permettent de regrouper les données de façon à faire
apparaître clairement ce qui les rend homogènes, et ainsi mieux les connaître.

L’analyse des données permet de traiter un nombre très important de données et de dégager les aspects les
plus intéressants de la structure de celles-ci. Le succès de cette discipline dans les dernières années est dû,
dans une large mesure, aux représentations graphiques fournies. Ces graphiques peuvent mettre en
évidence des relations difficilement saisies par l’analyse directe des données ; mais surtout, ces
représentations ne sont pas liées à une opinion « a priori » sur les lois des phénomènes analysés
contrairement aux méthodes de la statistique classique.

Les fondements mathématiques de l’analyse des données ont commencé à se développer au début du
e
XX siècle, mais ce sont les ordinateurs qui ont rendu cette discipline opérationnelle, et qui en ont permis une
utilisation très étendue. Mathématiques et informatique sont ici intimement liées.

fig.18 - Cartographie spectrale des Iris de Fisher qui ont donné lieu à de nombreuses études
en analyse des données.
Sommaire
Définition
Histoire
Domaines d'application
Analyse par réduction des dimensions
Analyse en composantes principales
Analyse factorielle des correspondances
Analyse des correspondances multiples
Analyse canonique
Positionnement multidimensionnel
Analyse Factorielle Multiple
Exemples d’application
Intérêt
Autres méthodes
Analyse par classification
Classification automatique
Classification « à plat »
Classification hiérarchique
Analyse factorielle discriminante
Analyse des données et régressions
Approche PLS
Régressions
Logiciels
Notes et références
Notes
Références
Ouvrages spécialisés
Articles publiés sur internet
Voir aussi
Bibliographie
Articles connexes
Liens externes

Définition
Dans l'acception française, la terminologie « analyse des données » désigne un sous-ensemble de ce qui est
appelé plus généralement la statistique multivariée. L'analyse des données est un ensemble de techniques
descriptives, dont l'outil mathématique majeur est l'algèbre matricielle, et qui s'exprime sans supposer a
b 1, i 1
priori un modèle probabiliste .
Elle comprend l’analyse en composantes principales (ACP), employée pour des données quantitatives, et
ses méthodes dérivées : l'analyse factorielle des correspondances (AFC) utilisée sur des données
qualitatives (tableau d’association) et l'analyse factorielle des correspondances multiples (AFCM ou ACM)
généralisant la précédente. L'analyse canonique et l'analyse canonique généralisée, qui sont plus des cadres
b 2, b 3
théoriques que des méthodes aisément applicables , étendent plusieurs de ces méthodes et vont au-
b4
delà des techniques de description . L'Analyse Factorielle Multiple est adaptée aux tableaux dans lesquels
les variables sont structurées en groupes et peuvent être quantitative et/ou qualitatives. La classification
automatique, l’analyse factorielle discriminante (AFD) ou analyse discriminante permettent d’identifier des
groupes homogènes au sein de la population du point de vue des variables étudiées.

En marge de l'analyse des données, l'analyse en composantes indépendantes (ACI), plus récente, issue de la
physique du signal et connue initialement comme méthode de séparation aveugle de source, est plus proche
intuitivement des méthodes de classification non supervisée. L'iconographie des corrélations pour des
données qualitatives et quantitatives, organise les corrélations entre variables sous la forme de graphes.
L'analyse inter-batterie de Tucker est intermédiaire entre l'analyse canonique et l'analyse en composantes
b 5
principales , l'analyse des redondances appelée aussi analyse en composantes principales sur variables
instrumentales se rapproche de la régression puisque les variables d'un des groupes analysés sont
considérées comme dépendantes, les autres comme indépendantes, et que la fonction à maximiser est une
b6
somme de coefficients de corrélation entre les deux groupes .

En dehors de l'école française, l'analyse des données multivariée est complétée par la méthode de poursuite
de projection de John Tukey, et les méthodes de quantification de Chikio Hayashi, dont la quantification de
b7
type III est analogue à l'analyse de correspondances . L'analyse factorielle anglo-saxonne, ou « Factor
Analysis », est proche de l'analyse en composantes principales, sans être équivalente, car elle utilise les
note 1, i 2, i 3 note 2
techniques de régression pour découvrir les « variables latentes » .

Ces procédés permettent notamment de manipuler et de synthétiser l’information provenant de tableaux de


données de grande taille, à l'aide de l'estimation des corrélations entre les variables que l’on étudie. L'outil
statistique utilisé est la matrice des corrélations ou la matrice de variance-covariance.

Histoire
Les pères de l’analyse des données modernes sont Jean-Paul Benzécri, Louis Guttman, Chikio Hayashi
i 4, i 1
(concepteur des méthodes dénommées « Data Sciences »), Douglas Carroll et R.N. Shepard .

Mais bien avant leur temps, les techniques de base de l'analyse des données sont déjà connues. Les
tableaux de contingences, par exemple, sont présents tôt dans l'histoire : l'invincible armada est décrite, par
Paz Salas et Alvarez dans un livre publié en 1588, sous la forme d'un tableau où les lignes représentent les
flottes de navires et les colonnes les caractéristiques telles que le tonnage, le nombre de gens d'armes, etc.
Nicolas de Lamoignon de Basville, intendant du roi Louis XIV, compte et caractérise les couvents et le
i5
monastères de la région du Languedoc en 1696 .

La classification trouve son maître, entre 1735 et 1758, en la personne de Carl von Linné qui met en place à
b8
cette époque les fondements de la nomenclature binomiale et la taxinomie moderne . Robert R. Sokal et
b9
Peter H.A. Sneath présentent en 1963 des méthodes quantitatives appliquées à la taxinomie .

Les notions requises pour une analyse des données modernes commencent à être maîtrisées au début du
e i6
XIX siècle . Adolphe Quetelet, astronome, statisticien belge, exploite ce qu'il connait de la loi gaussienne
à l'anthropométrie pour examiner la dispersion autour de la moyenne (la variance) des mesures des tailles
d'un groupe d'hommes. Puis, Francis Galton, parce qu'il veut étudier la taille des pères et des fils, s'intéresse
à la variation conjointe (la covariance et la corrélation) de deux grandeurs, qui est à l'origine de ce qu'on
appelle aujourd'hui la régression.

Quand Karl Pearson et Raphael Weldon s'emparent des travaux de Francis Galton, ils peuvent généraliser
la régression de Galton aux données multidimensionnelles, puis Karl Pearson a l'idée de changer les axes
de présentation pour les exprimer en fonction de variables indépendantes en 1901, établissant ainsi les
prémisses de l’analyse en composantes principales. Celle-ci est développée en 1933 par Harold Hotelling
qui définit en 1936 l'Analyse canonique.

Marion Richardson et Frederic Kuder en 1933, cherchant à améliorer la qualité des vendeurs de « Procter
& Gamble », utilisent ce qu'on appelle maintenant l'algorithme (« Reciprocal averaging »), bien connu en
i 7
ACP . Herman Otto Hirschfeld, dans sa publication « A connection between correlation and
i8
contingency », découvre les équations de l'analyse des correspondances .

C'est la psychométrie qui développe le plus l'analyse des données. Quand Alfred Binet définit ses tests
psychométriques pour mesurer l'intelligence chez l'enfant, Charles Spearman s'en accapare pour définir, en
1904, sa théorie des facteurs général et spécifique qui mesurent l'aptitude générale et l'aptitude particulière à
i9
une activité, nécessaires pour mener à bien cette activité . Louis Leon Thurstone met au point sous forme
matricielle les équations induites par la théorie des facteurs, en 1931, et la complète par l'étude du terme
i 10
d'erreur . Il introduit aussi la notion d'axes principaux d'inertie. En 1933, Harold Hotelling propose
i9
l'utilisation de l'itération pour la diagonalisation des matrices et la recherche des vecteurs propres .

Jean-Paul Benzécri et Brigitte Escofier-Cordier proposent l'Analyse factorielle des correspondances en


1962-65, mais en 1954 Chikio Hayashi a déjà établi les fondations de cette méthode sous le nom
i4
Quantification de type III .

L'analyse des correspondances multiples est initiée par Louis Guttman en 1941, Cyril Burt en 1950 et à
i7
Chikio Hayashi en 1956 . Cette technique est développée au Japon en 1952 par Shizuhiko Nishisato sous
i 7, i 11
la dénomination « Dual Scaling » et aux Pays-Bas en 1990 sous le nom de « Homogeneity
i 12 i7
analysis » par le collectif Albert Gifi .

L'avènement de l'ordinateur, et surtout du micro-ordinateur, est un saut technologique qui rend possible les
calculs complexes, les diagonalisations, les recherches de valeurs propres sur de grands tableaux de
i 9, i 1
données, avec des délais d'obtention de résultats très courts par rapport à ce qui est fait dans le passé .

Domaines d'application
L'analyse des données est utilisée dans tous les domaines dès lors que les données se présentent en trop
grand nombre pour être appréhendées par l'esprit humain.

En sciences humaines, cette technique est utilisée pour cerner les résultats des enquêtes d'opinion par
b 10
exemple avec l'Analyse des correspondances multiples ou l'Analyse factorielle des
b 11
correspondances . La sociologie compte beaucoup sur l'analyse des données pour comprendre la vie et
le développement de certaines populations comme celles du Liban dont l'évolution est montrée par deux
études faites en 1960 et 1970, présentées par Jean-Paul Benzécri, et dont la structure du niveau de vie et de
b 12
son amélioration sont décortiquées à l'aide de l'analyse en composantes principales . L'analyse des
correspondances multiples est souvent utilisée en sociologie pour analyser les réponses à un questionnaire.
Les sociologues Christian Baudelot et Michel Gollac utilisent une analyse des correspondances multiples
i 13
pour étudier le rapport des Français à leur travail . S'inspirant de Pierre Bourdieu pour étudier un
« champ » spécifique, le sociologue Frédéric Lebaron emploie une ACM pour analyser le champ des
b 13
économistes français et Hjellbrekke et ses coauteurs appliquent la même méthode pour analyser le
i 14
champ des élites norvégiennes . De même, François Denord et ses coauteurs utilisent une ACM pour
i 15
analyser le champ du pouvoir en France à partir du Who's Who . Toujours dans les travaux qui
s'inspirent de Pierre Bourdieu, on peut aussi prendre comme exemple l'analyse du champ du cinéma
i 16
i 16
français par Julien Duval . Les linguistes utilisent l'analyse de texte et les techniques d'analyse des
données pour situer un député sur l'échiquier politique en examinant la fréquence d'usage de certains
b 14
mots . Brigitte Escofier-Cordier a étudié quelques éléments du vocabulaire employé dans la pièce de
Racine, Phèdre, pour montrer comment l'auteur se sert des mots pour ancrer ses personnages dans la
i 17
hiérarchie sociale . En économie, les bilans des entreprises ont été étudiés par C. Desroussilles pour
décrire la structure et la taille de ces organismes à l'aide de la classification ascendante et de l'analyse des
i 18
correspondances . La structure de la consommation des ménages dans la CEE, est présentée par Jean-
b 15
Paul Benzécri et al. sur les deux axes d'une analyse des correspondances et une première étape dans
l'établissement d'une nomenclature des activités économiques dans l'industrie montre l'utilité d'une analyse
b 16
des correspondances et de la classification hiérarchique dans ce type d'opération .

Dans le domaine des sciences et techniques, certains chercheurs adoptent ces méthodes statistiques pour
b 17
déchiffrer plusieurs caractéristiques du génome . D'autres se servent de l'analyse des données pour
i 19
mettre en place un processus nécessaire à la reconnaissance des visages . En épidémiologie, l'Inserm met
à disposition ses données qu'ont exploitées Husson et al. via l'Analyse factorielle des correspondances pour
b 18
décrire les tranches d'âges en France en fonction de leurs causes de mortalité . Jean-Paul Benzécri donne
b 19
aussi des exemples de l'usage de l'analyse des correspondances dans le cadre de l'apprentissage , de
b 20 b 21
l'hydrologie , de la biochimie . Un exemple dans les sciences de l'environnement est celui de l'étude
des traces de métaux dans le blé en fonction des sols cultivés, qui utilise l'analyse des corrélations
i 20
canoniques considérée habituellement comme un outil plutôt théorique . L'Observatoire des Maladies du
Bois de la Vigne a cherché, dans la première décennie de ce siècle, à mesurer l'évolution de trois maladies
de la vigne en pratiquant, entre autres méthodes, l'analyse des correspondances multiples et l'analyse en
i 21
composantes principales dans un projet d'épidémiologie végétale .

Le domaine du sport est très friand de statistiques : un médecin du sport s'interroge sur l'âge des pratiquants,
i 22
leurs motivations et le sport qu'ils pratiquent . Dans une autre étude le sport s'intéresse aux motivations
des sportifs lesquelles vont de l’amitié et la camaraderie à l'affirmation de soi représentées sur un axe, et de
b 22
la nature et la beauté à la combativité sur un second axe . Le sociologue cherche à savoir si la sociabilité
i 23
des adeptes d'un sport est influencée par sa pratique , la biométrie humaine caractérise la morphologie du
sportif selon le sport qu'il pratique, et dans le cas de sports collectifs le poste qu'il occupe dans
i 24
l'équipe , etc.

La microfinance s'est aussi emparée de l'analyse des données pour évaluer les risques et définir les
i 25
populations emprunteuses . L'industrie de l'assurance se sert de l'analyse des données pour la
i 26
connaissance des risques et la tarification à priori .

Analyse par réduction des dimensions


La représentation des données multidimensionnelles dans un espace à dimension réduite est le domaine des
analyses factorielles, analyse factorielle des correspondances, analyse en composantes principales, analyse
b 23
des correspondances multiples . Ces méthodes permettent de représenter le nuage de points à analyser
dans un plan ou dans un espace à trois dimensions, sans trop de perte d'information, et sans hypothèse
i 27
statistique préalable . En mathématiques, elles exploitent le calcul matriciel et l'analyse des vecteurs et
des valeurs propres.

Analyse en composantes principales

L'analyse en composantes principales est utilisée pour réduire p variables corrélées en un nombre q de
variables non corrélées de telles manières que les q variables soient des combinaisons linéaires des p
variables initiales, que leur variance soit maximale et que les nouvelles variables soient orthogonales entre
i 29, i 30, i 31
elles suivant une distance particulière . En ACP, les variables sont quantitatives.
Les composantes, les
nouvelles variables,
définissent un sous-espace
à q dimensions sur lequel
sont projetés les individus
avec un minimum de
pertes d'information. Dans
cet espace le nuage de
points est plus facilement
représentable et l'analyse
fig.01 - ACP : contribution des b 24
est plus aisée . En
individus aux deux premières analyse des
composantes principales d'après une correspondances, la fig.02 - ACP : contribution des
présentation effectuée par FG
représentation des variables aux deux premières
Carpentier sur sa page « Analyse en
individus et des variables composantes principales d'après une
composantes principales avec présentation effectuée par FG
i 28 ne se fait pas dans le
R» à l'aide du logiciel R sur les Carpentier sur sa page « Analyse en
même espace.
données Budgets-Temps de l'ONU, composantes principales avec
étude effectuée en 1967 R»
i 28
à l'aide du logiciel R sur les
La mesure de la qualité de
représentation des données Budgets-Temps de l'ONU,
données peut être étude effectuée en 1967
effectuée à l'aide du calcul de la contribution de l'inertie de chaque
composante à l'inertie totale. Dans l'exemple donné sur les deux
images ci-contre, la première composante participe à hauteur de 45,89 % à l'inerte totale, la seconde à
21,2 %.

Plus les variables sont proches des composantes et plus elles sont corrélées avec elles. L'analyste se sert de
b 25
cette propriété pour l'interprétation des axes . Dans l'exemple de la fig.01 les deux composantes
principales représentent l'activité majeure et l'activité secondaire la plus fréquente dans lesquelles les
Femmes (F) et les Hommes (H) mariés (M) ou célibataires (C) aux Usa (U) ou en Europe de l'Ouest (W)
partagent leur journée. Sur la fig.02 est illustré le cercle des corrélations où les variables sont représentées
en fonction de leur projection sur le plan des deux premières composantes. Plus les variables sont bien
représentées et plus elles sont proches du cercle. Le cosinus de l'angle formé par deux variables est égal au
b 26
coefficient de corrélation entre ces deux variables .

De même, plus l'angle engendré par l'individu et l'axe de la composante est petit et mieux l'individu est
représenté. Si deux individus, bien représentés par un axe, sont proches, ils sont proches dans leur espace.
i 29
Si deux individus sont éloignés en projection, ils sont éloignés dans leur espace .

Analyse factorielle des correspondances

Le but de l'AFC - définie par Jean-Paul Benzécri et ses équipes - est de trouver des liens ou
correspondances entre deux variables qualitatives (nominales). Cette technique traite les tableaux de
contingence de ces deux variables. En fait, une AFC est une ACP sur ces tableaux dérivés du tableau initial
note 3, note 4, b 28
munis de la métrique du . Le principe de l'AFC est identique à celui de l'ACP. Les axes
explicatifs qui sous-tendent le tableau de fréquences de deux variables qualitatives sont recherchés et
présentés dans un graphique.

Il y a au moins deux différences entre une ACP et une AFC : la première est qu'on peut représenter les
b 29
individus et les variables dans un même graphique, la seconde concerne la similarité . Deux points-
lignes sont proches dans la représentation graphique si les profils colonnes sont similaires Par exemple sur
lignes sont proches dans la représentation graphique, si les profils-colonnes sont similaires. Par exemple sur
le graphique de la fig.03, Paris et les Yvelines ont voté d'une manière similaire, ce qui n'est pas évident
quand on regarde le
tableau de contingence
initial puisque le nombre
de votants est assez
différent dans les deux
départements. De même,
deux points-colonnes
(dans l'exemple des
figures 03 et 04 les points
colonnes sont les
candidats) sont proches
graphiquement si les
fig.03 - Analyse factorielle des profils-lignes sont fig.04 - Analyse factorielle des
correspondances (plan factoriel F1- similaires. Dans l'exemple correspondances (plan factoriel F2-
F2) des données des élections (fig.04), les départements F3) des données des élections
régionales de 2004 en Île-de-France ont voté pour Bayrou et régionales de 2004 en Île-de-France -
(ref F.G. Carpentier - Université de Le Pen de la même (ref F.G. Carpentier - Université de
i 32 i 32
Brest - France ) manière. Les points-lignes Brest - France )
et les points-colonnes ne
peuvent pas être comparés
note 5, i 33
d'une manière simple .

En ce qui concerne l'interprétation des facteurs, Jean-Paul Benzécri est très clair :

« ..interpréter un axe, c'est trouver ce qu'il y a d'analogue d'une part entre tout ce qui est
écrit à droite de l'origine, d'autre part entre tout ce qui s'écarte à gauche ; et exprimer, avec
concision et exactitude, l'opposition entre les deux extrêmes.....Souvent l'interprétation d'un
facteur s'affine par la considération de ceux qui viennent après lui. »
b 30
— Jean-Paul Benzécri, L'analyse des données : 2 l'analyse des correspondances

La qualité de la représentation graphique peut être évaluée globalement par la part du expliquée par
chaque axe (mesure de la qualité globale), par l'inertie d'un point projetée sur un axe divisé par l'inertie
totale du point (mesure de la qualité pour chaque modalité), la contribution d'un axe à l'inertie totale ou le
rapport entre l'inertie d'un nuage (profils_lignes ou profils_colonnes) projeté sur un axe par l'inertie totale
b 31
du même nuage .

Analyse des correspondances multiples


b 33, note 6
L'Analyse des Correspondances Multiples (ACM) est une extension de l'AFC .

L'ACM se propose d'analyser p (p ≥ 2) variables qualitatives d'observations sur n individus. Comme il


s'agit d'une analyse factorielle elle aboutit à la représentation des données dans un espace à dimensions
réduites engendré par les facteurs. L'ACM est l'équivalent de l'ACP pour les variables qualitatives et elle se
b 34
réduit à l'AFC lorsque le nombre de variables qualitatives est égal à 2 .

Formellement, une ACM est une AFC appliquée sur le tableau disjonctif complet, ou bien une AFC
appliquée sur le tableau de Burt, ces deux tableaux étant issus du tableau initial. Un tableau disjonctif
complet est un tableau où les variables sont remplacées par leurs modalités et les éléments par 1 si la
modalité est remplie 0 sinon pour chaque individu. Un tableau de Burt est le tableau de contingence des p
variables prises deux à deux.
L'interprétation se fait au
niveau des modalités dont
les proximités sont
examinées. Les valeurs
propres ne servent qu'à
déterminer le nombre
d'axes soit par la méthode
du coude soit en ne
prenant que les valeurs
propres supérieures à .
fig.05 - Analyse des La contribution de l'inertie
correspondances Multiples : des modalités à celle des fig.06 - Analyse des
contributions des modalités aux deux différents axes est correspondances Multiples :
premiers axes (plan factoriel F1-F2) analysée comme en
b 35, note 7, i 34 contributions des individus aux deux
des données d'une enquêtes sur les
AFC . premiers axes (plan factoriel F1-F2)
OGM effectuée en 2008 par
des données d'une enquête sur les
Agrocampus - Université de Rennes L'utilisation de variables OGM effectuée en 2008 par
- France auprès de 135 personnes -
b 32 supplémentaires, variables Agrocampus - Université de Rennes
(voir F.Husson et al. )
qui ne participent pas à la - France auprès de 135 personnes -
b 32
constitution des axes ni au (voir F.Husson et al. )
calcul des valeurs propres,
peut aider à interpréter les axes.

La qualité de la représentation d'un individu sur un axe factoriel est mesurée par où est l'angle
formé par la projection du vecteur individu sur l'espace factoriel avec l'axe factoriel. Plus la valeur de
est proche de 1 plus la qualité est bonne.

Analyse canonique
b 36
L'analyse canonique permet de comparer deux groupes de
variables quantitatives appliqués tous deux sur les mêmes
individus. Le but de l'analyse canonique est de comparer ces deux
groupes de variables pour savoir s'ils décrivent un même
phénomène, auquel cas l'analyste pourra se passer d'un des deux
groupes de variables.

Un exemple parlant est celui des analyses médicales effectuées sur


b 37
les mêmes échantillons par deux laboratoires différents .
L'analyse canonique généralise des méthodes aussi diverses que la
régression linéaire, l'analyse discriminante et l'analyse factorielle
b 37
des correspondances .
fig.08 - Analyse Canonique des
Plus formellement, si et sont deux groupes de variables, Correlations : matrices des
corrélations sur les données
l'analyse canonique cherche des couples de vecteurs ,
nutrimouse du package CCA de R
combinaisons linéaires des variables de et respectivement,
d'après l'article d'Ignacio et al. dans
le plus corrélées possibles. Ces variables sont dénommées « Journal of Statistical Software
variables canoniques. Dans l'espace ce sont les vecteurs propres (volume 23, issue 12, January
des projections et respectivement sur les sous espace de 2008) »
i 35

et , où p et q représentent le nombre de variables des deux


groupes engendrés par les deux ensembles de variables
groupes, engendrés par les deux ensembles de variables.

mesure la corrélation entre les deux groupes. Plus


cette mesure est élevée, plus les deux groupes de variables sont
corrélés et plus ils expriment le même phénomène sur les
individus.

Dans l'illustration de la fig.08, les corrélations entre les variables à


l'intérieur des deux groupes sont représentées par les
corrélogrammes du haut, la corrélation entre les deux groupes est
expliquée au-dessous. Si la couleur dominante était vert clair
aucune corrélation n'aurait été détectée. Sur la fig.07, les deux
groupes de variables sont rassemblés dans le cercle des corrélations
rapportés aux deux premières variables canoniques.
fig.07 - Analyse Canonique des
Correlations : représentation des
Enfin l'analyse canonique généralisée au sens de Caroll (d'après
variables et des individus dans le J.D.Caroll) étend l'analyse canonique ordinaire à l'étude de p
plan des deux premières variables groupes de variables (p > 2) appliquées sur le même espace des
canoniques sur les données individus. Elle admet comme cas particuliers l'ACP, l'AFC et
nutrimouse du package CCA de R l'ACM, l'analyse canonique simple, mais aussi la régression
d'après l'article d'Ignacio et al. dans simple, et multiple, l'analyse de la variance, l'analyse de la
i 36
« Journal of Statistical Software covariance et l'analyse discriminante .
(volume 23, issue 12, January
i 35
2008) »
Positionnement multidimensionnel

Pour utiliser cette


technique les tableaux ne
doivent pas être des
variables caractéristiques
d'individus mais des
« distances » entre les
individus. L'analyste
souhaite étudier les
similarités et les
dissimilarités entre ces
individus.

fig.09 - MDS métrique (analyse en Le positionnement fig.10 - MDS non métrique (analyse
positionnement multidimensionnel) multidimensionnel en positionnement
de quelques villes mondiales via une (« multidimensional multidimensionnel) de quelques villes
matrice des distances inter-villes, scaling » ou MDS) est mondiales classées par ordre des
avec l'aide du guide disponible sur donc une méthode distances (1 la plus petite distance,
Quick-R factorielle applicable sur 21 la plus grande distance) avec
des matrices de distances l'aide du guide disponible sur Quick-
i 37 R
entre individus . Cette
méthode ne fait pas partie de ce qu'on nomme habituellement
l'analyse des données « à la française ». Mais elle a les mêmes
caractéristiques que les méthodes précédentes : elle est fondée sur le calcul matriciel et ne demande pas
d'hypothèse probabiliste. Les données peuvent être des mesures de p variables quantitatives sur n individus,
et dans ce cas l'analyste calcule la matrice des distances ou bien directement un tableau des distances
entre individus.
Dans le cas classique dit métrique, la mesure des dissimilarités utilisée est une distance euclidienne. Elle
permet d'approximer les dissimilarités entre individus dans l'espace de dimension réduite. Dans le cas non
métrique les données sont ordinales, de type rang. L'analyste s'intéresse plus à l'ordre des dissimilarités
plutôt qu'à leur étendue. La MDS non métrique utilise un indice de dissimilarité (équivalent à une distance
mais sans l'inégalité triangulaire) et permet l'approximation de l'ordre des entrées dans la matrice des
i 37
dissimilarités par l'ordre des distances dans l'espace de dimension réduite .

Comme en ACP, il faut déterminer le nombre de dimensions de l'espace cible, et la qualité de la


représentation, est mesurée par le rapport de la somme de l'inertie du sous-espace de dimension réduite sur
i 37
l'inertie totale . En fait, MDS métrique est équivalent à une ACP où les objets de l'analyse MDS serait
i 38
les individus de l'ACP . Dans l'exemple ci-contre, les villes seraient les individus de l'ACP et le
positionnement GPS remplacerait les distances inter-villes. Mais l'Analyse MDS prolonge l'ACP,
puisqu'elle peut utiliser des fonctions de similarité/dissimilarité moins contraignantes que les distances.

Avec le positionnement multidimensionnel, visualiser les matrices de dissimilarités, analyser des


benchmarks et effectuer visuellement des partitionnements dans des matrices de données ou de
dissimilarités sont des opérations aisées à effectuer.

Analyse Factorielle Multiple

L’analyse factorielle multiple (AFM) est dédiée aux tableaux dans lesquels un ensemble d’individus est
décrit par plusieurs groupes de variables, que ces variables soient quantitatives, qualitatives ou mixtes. Cette
méthode est moins connue que les précédentes mais son très grand potentiel d’application justifie une
note 8
mention particulière .

Exemples d’application
Dans les enquêtes d’opinion, les questionnaires sont toujours structurés en thèmes. On
peut vouloir analyser plusieurs thèmes simultanément.
Pour une catégorie de produits alimentaires, on dispose, sur différents aspects des
produits, de notes données par des experts et de notes données par des consommateurs.
On peut vouloir analyser simultanément les données des experts et les données des
consommateurs.
Pour un ensemble de milieux naturels, on dispose de données biologiques (abondance
d’un certain nombre d’espèces) et de données environnementales (caractéristiques du
sol, du relief, etc.). On peut vouloir analyser simultanément ces deux types de données.
Pour un ensemble de magasins, on dispose du chiffre d’affaires par produit à différentes
dates. Chaque date constitue un groupe de variables. On peut vouloir étudier ces dates
simultanément.

Intérêt

Dans tous ces exemples, il est utile de prendre en compte, dans l’analyse elle-même et non seulement lors
de l’interprétation, la structure des variables en groupes. C’est ce que fait l’AFM qui :

pondère les variables de façon à équilibrer l’influence des différents groupes, ce qui est
particulièrement précieux lorsque l’on est en présence de groupes quantitatifs et de
groupes qualitatifs ;
fournit des résultats classiques des analyses factorielle : représentation des individus, des
variables quantitatives et des modalités des variables qualitatives ;
variables quantitatives et des modalités des variables qualitatives ;

fournit des résultats spécifiques de la structure en groupe : représentation des groupes


eux-mêmes (un point = un groupe), des individus vus par chacun des groupes (un individu
= autant de points que de groupes), des facteurs des analyses séparées des groupes
(ACP ou ACM selon la nature des groupes).

Autres méthodes

Ces méthodes, mises au point plus récemment, sont moins bien connues que les précédentes.

L'Analyse Factorielle Multiple Hiérarchique (« Hierarchical Multiple Factorial


i 39
Analysis ») prend en compte une hiérarchie sur les variables variables et non
seulement une partition comme le fait l'AFM
L'Analyse Procustéenne Généralisée (« Generalized Procustean Analysis ») juxtapose au
i 40
mieux plusieurs représentations d'un même nuage de points .
L'Analyse Factorielle Multiple Duale (« Dual Multiple Factor Analysis ») prend en compte
une partition des individus.
i 41
L'Analyse Factorielle de Données Mixtes (« Factor Analysis of Mixed Data ») est
adaptée aux tableaux dans lesquels figurent à la fois des variables quantitatives et
qualitatives.
i 42
L'iconographie des corrélations
représente les corrélations entre
variables (qualitatives et quantitatives)
ainsi que les individus
« remarquables ». Cette méthode non
supervisée se prête bien à la restitution
d’une organisation, qu’elle soit
arborescente ou bouclée, hiérarchique
ou non. Quelle que soit la dimension
des données, variables et individus
remarquables sont à la surface d'une
sphère ; il n'est donc pas besoin
d'interpréter des axes. Plus que sur la
position des points, l'interprétation
repose essentiellement sur
l'organisation des liens.
L'ACI décompose une variable Iconographie des corrélations entre les variables des
multivariée en composantes planètes. Traits pleins : corrélations positives
linéairement et statistiquement "remarquables". Traits pointillés : corrélations
i 43, note 9
indépendantes . négatives "remarquables".
L'algorithme t-SNE permet la
visualisation des données dans un
espace de deux ou trois dimensions en rendant compte des proximités locales.

Analyse par classification


La classification des individus est le domaine de la classification automatique et de l'analyse discriminante.
Classifier consiste à définir des classes, classer est l'opération permettant de mettre un objet dans une classe
b 38
définie au préalable . La classification automatique est ce qu'on appelle en exploration de données
(« data mining ») la classification non supervisée, l'analyse discriminante fait partie des techniques
b 38
l d d é l d l f é
b 38
statistiques connues en exploration de données sous le nom de classification supervisée .

Classification automatique

Le but de la classification automatique est de découper l'ensemble des données étudiées en un ou plusieurs
sous-ensembles nommés classes, chaque sous-ensemble devant être le plus homogène possible. Les
membres d'une classe ressemblent plus aux autres membres de la même classe qu'aux membres d'une autre
classe. Deux types de classification peuvent être relevés : d'une part la classification (partitionnement ou
recouvrement) « à plat » et d'autre part le partitionnement hiérarchique. Dans les deux cas, classifier revient
à choisir une mesure de la similarité/dissimilarité, un critère d'homogénéité, un algorithme, et parfois un
i 44
nombre de classes composant la partition .

Classification « à plat »

La ressemblance
(similarité/dissimilarité)
des individus est mesurée
par un indice de similarité,
un indice de dissimilarité
i 45
ou une distance . Par
exemple, pour des
données binaires
l'utilisation des indices de
similarité tels que l'indice
de Jaccard, l'indice de
Dice, l'indice de
fig.11 - Classification utilisant fig.12 - Classification utilisant
l'algorithme k-means sur les deux
concordance ou celui de l'algorithme PAM après une Analyse
premières variables effectuée sur les
Tanimoto est en composantes principales
i 45
données nutrients mises à fréquente . Pour des effectuée sur les données nutrients
disposition par l'université de données quantitatives, la mises à disposition par l'université
Cologne
note 10
d'après le guide de distance euclidienne est la de Cologne
note 10
d'après le guide de
Vincent Zoonekynd sur le site plus appropriée, mais la Vincent Zoonekynd sur le site
« Statistics with R » distance de Mahalanobis « Statistics with R »
i 45
est parfois adoptée .
Les données sont soit des
matrices de p variables qualitatives ou quantitatives mesurées sur n individus, soit directement des données
de distances ou des données de dissimilarité.

Le critère d'homogénéité des classes est en général exprimé par la diagonale d'une matrice de variances-
covariances (l'inertie) inter-classes ou intra-classes. Ce critère permet de faire converger les algorithmes de
b 39
ré-allocation dynamiques qui minimisent l'inertie intra-classe ou qui maximisent l'inertie inter-classes .

Les principaux algorithmes utilisent la ré-allocation dynamique en appliquant la méthode de B.W. Forgy
des centres mobiles, ou une de ses variantes : la méthode des k-means, la méthode des nuées
b 40 i 46
dynamiques , ou PAM (« Partitioning Around Medoids (PAM) »).

Les méthodes basées sur la méthode de Condorcet, l'algorithme espérance-maximisation, les densités sont
i 47, i 48
aussi utilisées pour bâtir une classification .

Il n'y a pas de classification meilleure que les autres, en particulier lorsque le nombre de classes de la
partition n'est pas prédéterminé. Il faut donc mesurer la qualité de la classification et faire des compromis.
La qualité de la classification peut se mesurer à l'aide de l'indice qui est le rapport de l'inertie inter classe
sur l'inertie totale calculé pour plusieurs valeurs du nombre de classe total le compromis étant obtenu par la
sur l inertie totale, calculé pour plusieurs valeurs du nombre de classe total, le compromis étant obtenu par la
b 41, note 11
méthode du coude .
L'interprétation des classes, permettant de comprendre la partition, peut s'effectuer en analysant les
individus qui composent chaque classe. Le statisticien peut compter les individus dans chaque classe,
calculer le diamètre des classes - ie la distance maximum entre individus de chaque classe. Il peut identifier
les individus proches du centre de gravité, établir la séparation entre deux classes - opération consistant à
i 49
mesurer la distance minimum entre deux membres de ces classes . Il peut analyser aussi les variables, en
calculant par exemple la fréquence de certaines valeurs de variables prises par les individus de chaque
classe, ou en caractérisant les classes par certaines valeurs de variables prises par les individus de chaque
i 49
classe .

Classification hiérarchique

Les données en entrée


d'une classification
ascendante hiérarchique
(CAH) sont présentées
sous la forme d'un tableau
de dissimilarités ou un
tableau de distances entre
individus.

Il a fallu au préalable
fig.13 - Carte factorielle où les choisir une distance
individus sont coloriés en fonction de (euclidienne, Manhattan,
fig.14 - Représentation 3D d'un arbre
leur appartenance à une classe. Ceci Tchebychev ou autre) ou
hiérarchique définissant une
a été effectué par une CAH après un indice de similarité
classification (cluster) effectuée
une analyse factorielle des (Jacard, Sokal, Sorensen,
après une analyse factorielle des
correspondances multiples sur le coefficient de corrélation
correspondances multiples sur le
dataset « tea » disponible sous R linéaire, ou autre). dataset « tea » disponible sous R
avec FactoMineR
avec FactoMineR
La classification
ascendante se propose de
classer les individus à l'aide d'un algorithme itératif. À chaque
étape, l'algorithme produit une partition en agrégeant deux classes de la partition obtenue à l’étape
précédente.

Le critère permettant de choisir les deux classes dépend de la méthode d'agrégation. La plus utilisée est la
b 42
méthode de Ward qui consiste à agréger les deux classes qui font baisser le moins l'inertie interclasse .
D'autres indices d'agrégation existent comme celui du saut minimum (« single linkage ») où sont agrégées
deux partitions pour lesquelles deux éléments - le premier appartenant à la première classe, le second à la
seconde - sont le plus proches selon la distance prédéfinie, ou bien celui du diamètre (« complete linkage »)
b 43
pour lequel les deux classes à agréger sont celles qui possèdent le couple d'éléments le plus éloigné .

L'algorithme ascendant se termine lorsqu'il ne reste qu'une seule classe.

La qualité de la classification est mesurée par le rapport inertie inter-classe sur inertie totale.

Des stratégies mixtes, alliant une classification « à plat » à une classification hiérarchique, offrent quelques
avantages. Effectuer une CAH sur des classes homogènes obtenus par une classification par ré-allocation
i 49
dynamique permet de traiter les gros tableaux de plusieurs milliers d'individus , ce qui n'est pas possible
par une CAH seule. Effectuer une CAH après un échantillonnage et une analyse factorielle permet
i 49
d'obtenir des classes homogènes par rapport à l'échantillonnage .
Analyse factorielle discriminante

L'analyse factorielle
discriminante (AFD), qui
est la partie descriptive de
l'analyse discriminante, est
aussi connue sous le nom
d'analyse linéaire
discriminante, d'analyse
discriminante de Fisher et
d'analyse canonique
b 44
discriminante . Cette
technique projette des
classes prédéfinies sur des
fig.15 - Matrice de Nuages de points fig.16 - AFD sur Analyse en
plans factoriels
sur les données Iris présentés sur composantes principales des
les axes des variables 2 à 2
discriminant le plus données iris
possible. Le tableau de
données décrit n individus
sur lesquels p variables quantitatives et une variable qualitative à q modalités ont été mesurées. La variable
qualitative permet de définir les q classes et le regroupement des individus dans ces classes. L'AFD se
propose de trouver q-1 variables, appelées variables discriminantes, dont les axes séparent le plus les
b 45
projections des q classes qui découpent le nuage de points .

Comme dans toutes les analyses factorielles descriptives, aucune hypothèse statistique n'est faite au
préalable ; ce n'est que dans la partie prédictive de l'analyse discriminante que des hypothèses a priori sont
émises.

La mesure de la qualité de la discrimination est effectuée à l'aide du de Wilks qui est égal au rapport du
déterminant de la matrice de variances-covariances intra-classe sur le déterminant de la matrice de
variances-covariances totale. Un de Wilks faible indique une discrimination forte par les plans
b 46
factoriels . Par exemple sur les données Iris, il est de 0.0234 sur les deux premiers facteurs. En outre si la
i 50
première valeur propre est proche de 1, l'AFD est de qualité .

La corrélation entre les variables et les facteurs permet d'interpréter ceux-ci.

Une AFD est une ACP effectuée sur les barycentres des classes d'individus constituées à l'aide des
modalités de la variable qualitative. C'est aussi une analyse canonique entre le groupe des variables
b 47
quantitatives et celui constitué du tableau disjonctif de la variable qualitative .

Analyse des données et régressions


En s'inspirant de ce qu'écrivent Henry Rouanet et ses coauteurs, l'analyse des données descriptive et
i 51
l'analyse prédictive peuvent être complémentaires, et parfois produire des résultats similaires .

Approche PLS
note 12
L'approche PLS est plus prédictive que descriptive, mais les liens avec certaines analyses que l'on
vient de voir ont été clairement établis.
L'algorithme d'Herman Wold, nommé tout d'abord NILES
(« Nonlinear Estimation by Iterative Least SquareS »), puis
NIPALS (« Nonlinear Estimation by Iterative Partial Least
SquareS ») a été conçu en premier lieu pour l'analyse en
b 49, i 52
composantes principales .

En outre, PLS permet de retrouver l'analyse canonique à deux


blocs de variables, l'analyse inter batteries de Tucker, l'analyse des
redondances et l'analyse canonique généralisée au sens de
i 53
Carroll . La pratique montre que l'algorithme PLS converge
vers les premières valeurs propres dans le cas de l'analyse inter
b 50
batteries de Tucker , l'analyse canonique à deux blocs de
i 53
variables et l'analyse des redondances . fig.17 - Approche PLS : réseau de
causalité entre quatre groupes de
b 48
variables (d'après M.Tenenhaus )
Régressions

La régression sur composantes principales (PCR) utilise l'ACP pour réduire le nombre de variables
explicatives en les remplaçant par les composantes principales qui ont l'avantage de ne pas être corrélées.
PLS et PCR sont souvent comparées l'une à l'autre dans la littérature.

Déjà mentionné plus haut dans cet article, l'analyse canonique est équivalente à la régression linéaire
i 54
lorsqu'un des deux groupes se réduit à une seule variable .

Logiciels
L'analyse des données moderne ne peut être dissociée de l'utilisation des ordinateurs ; de nombreux
logiciels permettant d'utiliser les méthodes d'analyse des données vues dans cet article peuvent être cités.
2
SPSS, Statistica, HyperCube , SAS et CORICO fournissent des modules complets d'analyse des données ;
3
le logiciel R aussi avec des bibliothèques comme FactoMineR, Ade4 ou MASS ; Braincube , solution
d'analyse de données massives pour l'industrie.

Notes et références

Notes
1. Les « loadings » peuvent être vus comme des coefficients de régression exprimant les
variables en fonction des facteurs 1.
2. Les « facteurs » dans le modèle du « Factor Analysis » considérés comme « variables
latentes », préexistent aux mesures ; tandis que dans l'analyse en composantes principales,
les « composantes » sont les variables, conséquences des mesures, permettant de réduire
les dimensions.
3. L'AFC peut aussi être vue comme une Analyse canonique particulière b 27.
4. Ceux-ci sont nommés tableaux des profils-lignes et des profils-colonnes. Si le tableau initial
possède p lignes et q colonnes, et si est son élément générique, le tableau des profils-
lignes a pour élément générique , celui des profils-colonnes . Les profils-lignes

forment un nuage de p points dans qu'on munit de la métrique

. Une métrique équivalente est appliquée sur sur les

profils-colonnes
5. Pour plus d'informations sur l'exemple ci-contre voir l'analyse de FG Carpentier de
l'université de Brest FG Carpentier, « Analyse Factorielle des correspondances » (http://geai.
univ-brest.fr/~carpenti/2004-2005/PSRS83B-2.pdf) [PDF], sur geai.univ-brest.fr, 2004
(consulté le 12 novembre 2011).
6. Pour appréhender l'apport spécifique de l'ACM, voir Saporta 2006, p. 227.

7. L'inertie totale du nuage de points est égale à , l'inertie de la variable

possédant modalités est donnée par et l'inertie de la modalité j a pour

formule .

8. Deux livres comportent une description détaillée de l’AFM : Escofier & Pagès 2008 et Pagès
2013.
9. Voir ce document aussi pour une comparaison entre ACP et ACI.
10. Voir les données sur le site Université de Koln, « « Data Sets for Clustering Techniques » »
(http://www.uni-koeln.de/themen/statistik/data/cluster/), sur uni-koeln.de (consulté le
29 novembre 2011).
11. Voir « Glossaire du data mining ».
12. PLS signifie « Partial Least Squares » soit Moindres carrés partiels ou bien « Projection to
Latent Structure » soit Projection sur la Structure Latent selon les cas.

Références
1. Elizabeth Garrett-Mayer, « Statistics in Psychosocial Research : Lecture 8 : Factor Analysis
I » (http://ocw.jhsph.edu/courses/statisticspsychosocialresearch/pdfs/lecture8.pdf), sur
ocw.jhsph.edu, 2006 (consulté le 29 janvier 2012).
2. « Publications » (http://www.bearingpoint.com/fr-fr/7-5295/), sur bearingpoint.com (consulté
le 31 août 2020).
3. « Braincube Cloud Solution » (http://www.ipleanware.com), sur www.ipleanware.com

Ouvrages spécialisés
1. Husson 2009, p. iii
2. Saporta 2006, p. 190
3. Lebart 2008, p. 38
4. Lebart 2008, p. 418-419
5. Tenenhaus 1998, p. 23
6 Tenenhaus 1998 p 35
6. Tenenhaus 1998, p. 35
7. Lebart 2008, p. 131
8. Benzécri 1976, p. 91 et suiv. (Tome I)
9. Benzécri 1976, p. 63 et suiv. (Tome I)
10. Husson 2009, p. 155
11. Benzécri 1976, p. 339 (Tome II)
12. Benzécri 1976, p. 372(Tome II)
13. Frédéric Lebaron, La Croyance économique, Le Seuil, coll. « Liber », 5 juin 2000, 1re éd.,
260 p. (ISBN 978-2-02-041171-4)
14. Benzécri 1976, p. 329 (Tome II)
15. Benzécri 1976, p. 467 (Tome II)
16. Benzécri 1976, p. 485 (Tome I)
17. Husson 2009, p. 58
18. Husson 2009, p. 110
19. Benzécri 1976, p. 29 (Tome I)
20. Benzécri 1976, p. 31 (Tome I)
21. Benzécri 1976, p. 37 (Tome I)
22. Benzécri 1976, p. 55 (Tome I)
23. Lebart 2008, p. 6
24. Saporta 2006, p. 162
25. Saporta 2006, p. 178
26. Lebart 2008, p. 93
27. Saporta 2006, p. 212.
28. Saporta 2006, p. 201-204
29. Husson 2009, p. 70
30. Benzécri 1976, p. 47 (Tome II)
31. Husson 2009, p. 81-83
32. Husson 2009, p. 155
33. Lebart 2008, p. 187
34. Saporta 2006, p. 220
35. Husson 2009, p. 140-141
36. Lebart 2008, p. 37
37. Saporta 2006, p. 189-190
38. Husson 2009, p. 172
39. Saporta 2006, p. 250-251
40. Saporta 2006, p. 243
41. Tufféry 2010, p. 240
42. Saporta 2006, p. 258
43. Saporta 2006, p. 256
44. Lebart 2008, p. 329
45. Tufféry 2010, p. 329
46. Tufféry 2010, p. 342
47. Saporta 2006, p. 444
48. Tenenhaus 1998, p. 243
49. Tenenhaus 1998, p. 61
50. Tenenhaus 1998, p. 237 et suiv.
Articles publiés sur internet
1. Jean-Paul Benzécri, « Histoire et Préhistoire de l'Analyse des données : Partie 5 », Les
Cahiers de l'analyse des données, vol. 2, no 1, 1977, p. 9-40 (lire en ligne (http://archive.num
dam.org/ARCHIVE/CAD/CAD_1977__2_1/CAD_1977__2_1_9_0/CAD_1977__2_1_9_0.pd
f) [PDF], consulté le 30 janvier 2012)
2. (en) N. Zainol, J. Salihon et R. Abdul-Rahman, « Biogas Production from Waste using
Biofilm Reactor: Factor Analysis in Two Stages System », World Academy of Science,
Engineering and Technology, vol. 54, no 2, 2009, p. 30-34 (lire en ligne (http://www.waset.or
g/journals/waset/v54/v54-6.pdf) [PDF], consulté le 2 février 2012)
3. (en) Reza Nadimi et Fariborz Jolai, « Joint Use of Factor Analysis (FA) and Data
Envelopment Analysis (DEA) for Ranking of Data Envelopment Analysis », International
Journal of Mathematical, Physical and Engineering Sciences, vol. 2, no 4, 2008, p. 218-222
(lire en ligne (http://www.akademik.unsri.ac.id/download/journal/files/waset/v2-4-39-14.pdf)
[PDF], consulté le 2 février 2012)
4. (en) Noboru Ohsumi et Charles-Albert Lehalle, « Benzecri, Tukey and Hayashi (maths) » (htt
p://lehalle.blogspot.com/2006/04/benzecri-tukey-and-hayashi-maths.html), sur
lehalle.blogspot.com, 2006 (consulté le 6 novembre 2011)
5. (en) Antoine de Falguerolles, « L'analyse des données : before and around », Journal
Electronique d'Histoire des Probabilités et de la Statistique, vol. 4, no 2, décembre 2008 (lire
en ligne (http://www.jehps.net/Decembre2008/Falguerolles.pdf) [PDF], consulté le
7 janvier 2012)
6. Jean-Paul Benzécri, « Histoire et Préhistoire de l'Analyse des données : Partie 2 », Les
Cahiers de l'analyse des données, vol. 1, no 2, 1976, p. 101-120 (lire en ligne (http://archive.
numdam.org/ARCHIVE/CAD/CAD_1976__1_2/CAD_1976__1_2_101_0/CAD_1976__1_2_
101_0.pdf), consulté le 22 janvier 2012)
7. Ludovic Lebart, « L'analyse des données des origines à 1980 : quelques éléments », Journal
Electronique d'Histoire des Probabilités et de la Statistique, vol. 4, no 2, décembre 2008 (lire
en ligne (http://www.jehps.net/Decembre2008/Lebart.pdf) [PDF], consulté le 6 janvier 2012)
8. Gilbert Saporta, « Données supplémentaires sur l'analyse des données » (http://cedric.cnam.
fr/~saporta/MSH75.pdf) [PDF], sur cedric.cnam.fr, 1975 (consulté le 6 novembre 2011)
9. Jean-Paul Benzécri, « Histoire et Préhistoire de l'Analyse des données : Partie 4 », Les
Cahiers de l'analyse des données, vol. 1, no 4, 1976, p. 343-366 (lire en ligne (http://archive.
numdam.org/ARCHIVE/CAD/CAD_1976__1_4/CAD_1976__1_4_343_0/CAD_1976__1_4_
343_0.pdf) [PDF], consulté le 22 janvier 2012)
10. (en) Louis Léon Thurstone, Multiple factor analysis. Psychological Review, 38, 1931, p. 406–
427
11. (en) Shizuhiko Nishisato, « Elements of Dual Scaling : An Introduction to Practical Data
Analysis », Applied Psychological Measurement, vol. 18, no 4, décembre 1994, p. 379-382
(présentation en ligne (http://apm.sagepub.com/content/18/4/379.full.pdf+html?frame=heade
r), lire en ligne (http://takane.brinkster.net/yoshio/b008.pdf) [PDF])
12. (en) George Michailidis et Jan de Leeuw, « The Gifi System of Descriptive Multivariate
Analysis », Statistical Science, vol. 4, no 13, 1998, p. 307-336 (lire en ligne (http://projecteucli
d.org/DPubS/Repository/1.0/Disseminate?view=body&id=pdf_1&handle=euclid.ss/1028905
828) [PDF], consulté le 6 janvier 2012)
13. Christian Baudelot et Michel Gollac, « Faut-il travailler pour être heureux ? », Insee
Première, no 560, décembre 1997 (lire en ligne (http://www.insee.fr/FR/FFC/DOCS_FFC/ip5
60.pdf), consulté le 7 janvier 2012)
14. (en) Johs Hjellbrekke, Brigitte Le Roux, Olav Korsnes, Frédéric Lebaron, Henry Rouanet et
Lennart Rosenlund, « The Norwegian Field of Power Anno 2000 », European Societies,
vol. 9, no 2, 2007, p. 245-273 (lire en ligne (http://www.u-picardie.fr/labo/curapp/IMG/pdf/7761
vol. 9, n 2, 2007, p. 245 273 (lire en ligne (http://www.u picardie.fr/labo/curapp/IMG/pdf/7761
86142_content.pdf), consulté le 7 janvier 2012)

15. François Denord, Paul Lagneau-Ymonet et Sylvain Thine, « Le champ du pouvoir en


France », Actes de la recherche en sciences sociales, no 190, 2011, p. 24-57 (lire en ligne (h
ttp://www.cairn.info/revue-actes-de-la-recherche-en-sciences-sociales-2011-5-page-24.htm),
consulté le 30 janvier 2012)
16. Julien Duval, « L'art du réalisme », Actes de la recherche en sciences sociales, nos 161-162,
2006, p. 96-195 (lire en ligne (http://www.cairn.info/revue-actes-de-la-recherche-en-sciences-
sociales-2006-1-page-96.htm), consulté le 21 janvier 2012)
17. E. Boukherissa, « Contribution à l'étude de la structure des pièces de théâtre : Analyse de la
matrice de présence des personnages sur la scène », Les Cahiers de l'Analyse des
données, vol. 20, no 2, 1995, p. 153-168 (lire en ligne (http://archive.numdam.org/ARCHIVE/
CAD/CAD_1995__20_2/CAD_1995__20_2_153_0/CAD_1995__20_2_153_0.pdf) [PDF],
consulté le 7 janvier 2012)
18. C. Desroussilles, « Taille et structure des entreprises étudiées d'après leurs bilans », Les
Cahiers de l'Analyse des données, vol. 5, no 1, 1980, p. 45-63 (lire en ligne (http://archive.nu
mdam.org/ARCHIVE/CAD/CAD_1980__5_1/CAD_1980__5_1_45_0/CAD_1980__5_1_45_
0.pdf) [PDF], consulté le 23 janvier 2012)
19. (en) Zhang Yan et Yu Bin, « Non-negative Principal Component Analysis for Face
Recognition », World Academy of Science, Engineering and Technology, vol. 48,
décembre 2010, p. 577-581 (lire en ligne (http://www.waset.org/journals/waset/v75/v75-191.p
df) [PDF], consulté le 7 janvier 2012)
20. L. Bellanger, D. Baize et R. Tomassone, « L'Analyse des corrélations canoniques
appliquées à des données environnementales », Revue de Statistique Appliquée, vol. LIV,
no 4, 2006, p. 7-40 (lire en ligne (http://archive.numdam.org/ARCHIVE/RSA/RSA_2006__54
_4/RSA_2006__54_4_7_0/RSA_2006__54_4_7_0.pdf) [PDF], consulté le 24 janvier 2012)
21. F. Bertrand, M. Maumy, L. Fussler, N. Kobes, S. Savary et J. Grossman, « Etude statistique
des données collectées par l'Observatoire des maladies du Bois de la Vigne », Journal de la
Société Française de Statistique, vol. 149, no 4, 2008, p. 73-106 (lire en ligne (http://archive.n
umdam.org/ARCHIVE/JSFS/JSFS_2008__149_4/JSFS_2008__149_4_73_0/JSFS_2008_
_149_4_73_0.pdf) [PDF], consulté le 24 janvier 2012)
22. H. Seiffolahi, « Caractéristiques des sujets pratiquant divers sports dans la région
parisienne », Les Cahiers de l'Analyse des Données, vol. 6, no 4, 1981, p. 493-497 (lire en
ligne (http://archive.numdam.org/ARCHIVE/CAD/CAD_1981__6_4/CAD_1981__6_4_493_
0/CAD_1981__6_4_493_0.pdf) [PDF], consulté le 25 janvier 2012)
23. Renaud Laporte, « Pratiques Sportives et Sociabilité », Mathematics and Social Sciences,
vol. 43, no 170, 2005, p. 79-94 (lire en ligne (http://msh.revues.org/2967?file=1) [PDF],
consulté le 7 janvier 2012)
24. Anne-Béatrice Dufour, Jacques Pontier et Annie Rouard, « Morphologie et Performance
chez les Sportifs de Haut Niveau: Cas du Handball et de la Natation » (http://pbil.univ-lyon1.f
r/R/articles/abd02.pdf) [PDF], sur pbil.univ-lyon1.fr, 1988 (consulté le 11 novembre 2011)
25. Carla Henry, Manohar Sharma, Cecile Lapenu et Manfred Zeller, « Outil d’évaluation de la
pauvreté en microfinance » (http://www.lamicrofinance.org/files/15212_file_outil_evaluation_
pauvrete.pdf) [PDF], sur lamicrofinance.org, 2003 (consulté le 20 novembre 2011)
26. Arthur Charpentier et Michel Denuit, Mathématiques de l'Assurance Non Vie, t. II,
Economica, 2005, 596 p. (ISBN 978-2-7178-4860-1)
27. Dominique Desbois, « La place de l’a priori dans l’analyse des données économiques ou le
programme fort des méthodes inductives au service de l’hétérodoxie », Modulad, no 32,
2008, p. 176-181 (lire en ligne (http://www.modulad.fr/archives/numero-39/Notule-Desbois-3
9/Notule-39-DESBOIS-Analyse.pdf) [PDF], consulté le 21 janvier 2012)
28. FG Carpentier, « Analyse en composantes principales avec R » (http://geai.univ-brest.fr/~car
penti/2006-2007/Documents-R/ACP-avec-R.html), sur geai.univ-brest.fr, 2006 (consulté le
19 b 2011)
19 novembre 2011)

29. C. Duby et S. Robin, « Analyse en Composantes Principales » (http://www.agroparistech.fr/I


MG/pdf/ACP2006.pdf) [PDF], sur agroparistech.fr, 2006 (consulté le 3 novembre 2011)
30. Christine Decaestecker et Marco Saerens, « Analyse en composantes principales » (http://w
ww.isys.ucl.ac.be/etudes/cours/linf2275/06cours.pdf) [PDF], sur isys.ucl.ac.be (consulté le
3 novembre 2011)
31. (en) Hossein Arsham, « « Topics in Statistical Data Analysis: Revealing Facts From Data » »
(http://home.ubalt.edu/ntsbarsh/stat-data/topics.htm#rintroduction), sur home.ubalt.edu
(consulté le 3 novembre 2011)
32. FG Carpentier, « Analyse factorielle des correspondances avec R » (http://geai.univ-brest.fr/~
carpenti/2006-2007/Documents-R/AFC-avec-R.html), sur geai.univ-brest.fr (consulté le
18 décembre 2011)
33. R. Ramousse, M. Le Berre et L. Le Guelte, « Introduction aux Statistiques » (http://www.cons-
dev.org/elearning/stat/multivarie/6-5/6-5.html), sur cons-dev.org, 1996 (consulté le
12 novembre 2011)
34. Université Pierre et Marie Curie, Paris, « Analyse factorielle des correspondances multiples :
4.3 Formulaire » (http://www.obs-vlfr.fr/Enseignement/enseignants/labat/anado/afcm/formulai
re.html), sur obs-vlfr.fr (consulté le 13 novembre 2011)
35. (en) Ignacio Gonzalez, Sébastien Déjean, Pascal G. P. Martin et Alain Baccini, « « CCA: An
R Package to Extend Canonical Correlation Analysis » » (http://www.jstatsoft.org/v23/i12/pap
er) [PDF], sur jstatsoft.org, 2008 (consulté le 19 novembre 2011)
36. Ph. Casin et J.C. Turlot, « Une présentation de l'analyse canonique généralisée dans
l'espace des individus », Revue de Statistique Appliquée, vol. 34, no 3, 1986, p. 65-75 (lire
en ligne (http://archive.numdam.org/ARCHIVE/RSA/RSA_1986__34_3/RSA_1986__34_3_
65_0/RSA_1986__34_3_65_0.pdf) [PDF], consulté le 8 janvier 2012)
37. (en) A. Mead, « Review of the Development of Multidimensional Scaling Methods »,
Statistician, vol. 41, no 1, 1992, p. 27-39 (lire en ligne (http://isds.bus.lsu.edu/chun/teach/702
5/7025-reading/mds.pdf) [PDF], consulté le 8 janvier 2012)
38. Dominique Desbois, « Une introduction au positionnement multidimensionnel. », Modulad,
vol. 32, 2005, p. 1-28 (lire en ligne (http://www.modulad.fr/archives/numero-32/desbois-32/de
sbois-32.pdf) [PDF], consulté le 20 janvier 2012)
39. Sébastien le Dien et Jérôme Pagès, « Analyse Factorielle Multiple Hiérarchique », Revue de
Statistique Appliquée, vol. 51, no 2, 2003, p. 47-73 (lire en ligne (http://archive.numdam.org/A
RCHIVE/RSA/RSA_1986__34_3/RSA_1986__34_3_65_0/RSA_1986__34_3_65_0.pdf)
[PDF], consulté le 8 janvier 2012)
40. Jérôme Pagès, « Analyse Factorielle Multiple et Analyse Procustéenne », Revue de
Statistique Appliquée, vol. LIII, no 4, 2005, p. 61-
86url=http://smf4.emath.fr/Publications/JSFdS/RSA/53_4/pdf/sfds_rsa_53_4_61-86.pdf
41. Jérôme Pagès, « Analyse Factorielle de Données Mixtes », Revue de Statistique Appliquée,
vol. 52, no 4, 2004, p. 93-111 (lire en ligne (http://archive.numdam.org/ARCHIVE/RSA/RSA_
2004__52_4/RSA_2004__52_4_93_0/RSA_2004__52_4_93_0.pdf), consulté le
8 janvier 2012)
42. Michel Lesty, « Corrélations partielles et corrélations duales », Modulad, vol. 39,
décembre 2008, p. 1-22 (lire en ligne (http://www.modulad.fr/archives/numero-39/Lesty-39/Le
sty-39.pdf), consulté le 8 janvier 2012)
43. Jean-François Cardoso, « Analyse en composantes indépendantes » (http://perso.telecom-p
aristech.fr/~cardoso/Papers.PDF/jsbl02-long.pdf) [PDF], sur perso.telecom-paristech.fr
(consulté le 12 décembre 2011)
44. Laurence Reboul, « CH 3 : Classification » (http://iml.univ-mrs.fr/~reboul/ADD4-MAB.pdf)
[PDF], sur iml.univ-mrs.fr (consulté le 24 novembre 2011)
45. J.M Loubes, « Exploration Statistique Multidimensionnelle Chapitre 8 : Classication non
supervisée » (http://www.math.univ-toulouse.fr/~loubes/e8_classif.pdf) [PDF], sur math.univ-
toulouse.fr (consulté le 25 novembre 2011)
46. (en) Unesco, « « Partitioning Around Medoids » » (http://www.unesco.org/webworld/idams/a
dvguide/Chapt7_1_1.htm), sur unesco.org (consulté le 27 novembre 2011)
47. Christel Vrain, « Classification non supervisée » (http://www.univ-orleans.fr/sciences/info/res
sources/Modules/master2/ECBD/cluster_4p.pdf) [PDF], sur univ-orleans.fr (consulté le
24 novembre 2011)
48. Catherine Aaron, « Algorithme EM et Classification non Supervisée » (http://samos.univ-pari
s1.fr/archives/ftp/preprints/samos212.pdf) [PDF], sur samos.univ-paris1.fr (consulté le
25 novembre 2011)
49. Mireille Summa-Gettler et Catherine Pardoux, « La Classification Automatique » (http://www.
ceremade.dauphine.fr/~touati/EDOGEST-seminaires/Classification.pdf) [PDF], sur
ceremade.dauphine.fr (consulté le 26 novembre 2011)
50. Jean-Yves Baudot, « L'AFD modèle Linéaire » (http://www.jybaudot.fr/Factorielles/afdlin.htm
l), sur jybaudot.fr, 2008 (consulté le 11 décembre 2011)
51. Henry Rouanet, Frédéric Lebaron, Viviane Le Hay, Werner Ackermann et Brigitte Le Roux,
« Régression et Analyse Géométrique des Données : Réflexions et Suggestions »,
Mathématiques et Sciences humaines, no 160, hiver 2002, p. 13-45 (lire en ligne (http://msh.r
evues.org/2882), consulté le 4 janvier 2012)
52. Séverine Vancolen, « Régression PLS » (http://doc.rero.ch/lm.php?url=1000,41,4,20070716
085523-YM/mem_VancolenS.pdf) [PDF], sur doc.rero.ch, 2004 (consulté le
17 décembre 2011)
53. Michel Tenenhaus, « L'approche PLS », Revue de Statistique Appliquée, vol. 47, no 2, 1999,
p. 5-40 (lire en ligne (http://archive.numdam.org/ARCHIVE/RSA/RSA_1999__47_2/RSA_19
99__47_2_5_0/RSA_1999__47_2_5_0.pdf) [PDF], consulté le 8 janvier 2012)
54. J. Obadia, « L'analyse en composantes explicatives », Revue de Statistique Appliquée,
vol. 26, no 4, 1978, p. 5-28 (lire en ligne (http://archive.numdam.org/ARCHIVE/RSA/RSA_19
78__26_4/RSA_1978__26_4_5_0/RSA_1978__26_4_5_0.pdf) [PDF], consulté le
8 janvier 2012)

Voir aussi

Bibliographie
Jean-Paul Benzécri et al., L'Analyse des Données : 1 La Taxinomie, Paris, Dunod, 1976,
631 p. (ISBN 2-04-003316-5).
Jean-Paul Benzécri et al., L'Analyse des Données : 2 L'Analyse des correspondances,
Paris, Dunod, 1976, 616 p. (ISBN 2-04-004255-5).
Jean-Marie Bouroche et Gilbert Saporta, L'Analyse des données, Paris, Presses
Universitaires de France, 2006, 9e éd., 125 p. (ISBN 978-2-13-055444-8).
Alain Desrosières, « Analyse des données et sciences humaines : comment cartographier
le monde social ? », Journal électronique d’histoire d’histoire des probabilités et des
statistiques, décembre 2008 (lire en ligne (http://www.emis.de/journals/JEHPS/Decembre2008/Desrosier
es.pdf))
Brigitte Escofier et Jérôme Pagès, Analyses factorielles simples et multiples : objectifs,
méthodes et interprétation, Paris, Dunod, Paris, 2008, 318 p. (ISBN 978-2-10-051932-3)
François Husson, Sébastien Lê et Jérome Pagès, Analyse de données avec R, Rennes,
P U i it i d R 2009 224
Presses Universitaires de Rennes, 2009, 224 p. (ISBN 978-2-7535-0938-2).

(en) Lyle V. Jones, The Collected Works of John W. Tukey T.IV, Monterey, California,
Chapman and Hall/CRC, 1987, 675 p. (ISBN 978-0-534-05101-3, lire en ligne (https://books.google.co
m/books?id=C1guHWTlVVoC&printsec=frontcover)).
(en) Lyle V. Jones, The Collected Works of John W. Tukey T.I, Monterey, California,
Wadsworth Pub Co, 1984, 680 p. (ISBN 978-0-534-03303-3, lire en ligne (https://books.google.com/boo
ks?id=ZLiYGNCCE8wC&printsec=frontcover)).
Ludovic Lebart, Marie Piron et Alain Morineau, Statistique Exploratoire
Multidimensionnelle, Paris, Dunod, 2006, 464 p. (ISBN 978-2-10-049616-7)
Frédéric Lebaron, L'enquête quantitative en sciences sociales : Recueil et analyse des
données, Dunod, coll. « Psycho sup », 26 janvier 2006, 1re éd., 182 p.
(ISBN 978-2-10-048933-6)
Jérôme Pagès, Analyse factorielle multiple avec R, Les Ulis, EDP sciences, Paris, 2013,
253 p. (ISBN 978-2-7598-0963-9)
Gilbert Saporta, Probabilités, Analyse des données et Statistiques, Paris, Éditions
Technip, 2006, 622 p. [détail des éditions] (ISBN 978-2-7108-0814-5, présentation en ligne (https://books.
google.com/books?id=rprNjztQYPAC))
Michel Tenenhaus, La régression PLS : Théorie et Pratique, Paris, éditions Technip, 1998,
254 p. (ISBN 978-2-7108-0735-3, lire en ligne (https://books.google.com/books?id=OesjK2KZhsAC&printsec
=frontcover))
Stéphane Tufféry, Data Mining et statistique décisionnelle : l'intelligence des données,
Paris, éditions Technip, 2010, 705 p. (ISBN 978-2-7108-0946-3, lire en ligne (https://books.google.co
m/books?id=AyIYAAn4a2kC&printsec=frontcover))
J W Tukey et K.E. Basford, Graphical Analysis of Multiresponse Data, Londres,
(en)
Chapman & Hall (CRC Press), 1999, 587 p. (ISBN 0-8493-0384-2).
Michel Volle, Analyse des données, Economica, 1997, 4e éd., 323 p.
(ISBN 978-2-7178-3212-9).
Michel Volle, « L'analyse des données », Économie et Statistique, vol. 96, no 1, 1968,
p. 3–23 (DOI 10.3406/estat.1978.3094 (https://dx.doi.org/10.3406/estat.1978.3094), présentation en ligne (ht
tp://www.persee.fr/web/revues/home/prescript/article/estat_0336-1454_1978_num_96_1_3094)).

Articles connexes
Statistique multivariée
Analyse factorielle
Analyse de similitudes

Liens externes
FactoMineR, une bibliothèque de fonctions R destinée à l'analyse des données (http://fact
ominer.free.fr/)

La version du 28 février 2012 de cet article a été reconnue comme « bon article », c'est-à-
dire qu'elle répond à des critères de qualité concernant le style, la clarté, la pertinence, la
citation des sources et l'illustration.
Ce document provient de « https://fr.wikipedia.org/w/index.php?title=Analyse_des_données&oldid=186027168 ».

La dernière modification de cette page a été faite le 3 septembre 2021 à 14:05.

Droit d'auteur : les textes sont disponibles sous licence Creative Commons attribution, partage dans les mêmes
conditions ; d’autres conditions peuvent s’appliquer. Voyez les conditions d’utilisation pour plus de détails, ainsi que
les crédits graphiques. En cas de réutilisation des textes de cette page, voyez comment citer les auteurs et
mentionner la licence.
Wikipedia® est une marque déposée de la Wikimedia Foundation, Inc., organisation de bienfaisance régie par le
paragraphe 501(c)(3) du code fiscal des États-Unis.

Politique de confidentialité
À propos de Wikipédia
Avertissements
Contact
Développeurs
Statistiques
Déclaration sur les témoins (cookies)

Vous aimerez peut-être aussi