Vous êtes sur la page 1sur 84

REPUBLIQUE ALGERIENNE DEMOCRATIQUE ET POPULAIRE

MINISTERE DE L'ENSEIGNEMENT SUPERIEUR ET DE LA RECHERCHE SCIENTIFIQUE

UNIVERSITE MENTOURI DE CONSTANTINE

FACULTE DES SCIENCES

DEPARTEMENT DE MATHEMATIQUES

MEMOIRE

PRESENTE POUR OBTENIR LE DIPLOME DE MASTER

EN STATISTIQUE APPLIQUEE

Thème :

Présente par : Ayache Assia

Rahmani Fouad Lazhar maitre de conférences_ université Mentouri_ Rapporteur

1
TABLE DES MATIERES
(ANALYSE EN COMPOSANTES PRINCIPALES)

Chapitre 1

LA METHODE
1 Introduction …………………………………...……………………………………4
2 Le problème………………………………………..……………………………….5
3 Les types de tableaux pouvant être traités par l’ACP………….……………………6
4 Les tableaux des données. Notations…………………..…………………………… 6
A. Tableau de donnée initial……………………………………………..……….. 6
B. Les poids affectés aux individus. Données centrées réduites……..……….........8
a. La matrice des poids………………………………..……………………..8
b. Le centre de gravité du tableau……………………………………………8
c. Le tableau de données centrées réduites…………….…………………….9
d. La matrice de variance-covariance et la matrice de
corrélation…………..………………………………………………………9
5 Objectifs de l'ACP………………………...……………………………………... ....10
6 Avantages et inconvénients de l'ACP…………………………………………….....10
a. Avantages………………………………………………………..10
b. Inconvénients…………………………………………………….11
7 Interprétations géométriques…………...…………………………………………....11
a. Pour les n individus…………………………………………………………11
b. Pour les p variables………………………………………………………....11
8 Individus et variables …………..…………..……………………………………...12
8.1 Analyse du nuage des individus………………………………………...…...12
a. principe d’ajustement……………………………………………...12
b. Distance entre individus……………………………………….….13
c. matrice à diagonaliser…………………………………………….14
d. Axes factoriels……………………………………………………15
8.2 Analyse du nuage des points- variables…………………………………..15
a. Distance entre points-variables…………………………………15
b. Distance à l’origine……………………………………………17
c. Axes factoriels ou composantes principales………...................18
9 Compléments et variantes……………………………………………………..…19
9.1 Individus et variables supplémentaires………………………………...….19
a. Individus supplémentaires……………………………………..….20
b. Variables continues supplémentaires..………..…………………….20
c. Variables nominales supplémentaires……………..……….……..…21
9.2 Représentation simultanée…………………………………………..…...…21
a- Représentation séparée des deux nuages…………………………….....21

2
b- Justification d’une autre représentation simultanée…………………..22
9.3 Analyse en composantes principales non normée……………………...…24
a- Principe de l’analyse et nuage des individus……………………...….24
b- Nuage des variables……………………………………………..……25
9.4 Analyses non-paramétriques…………………………………………..…26
a- Analyse des rangs………………………………………………..…..27
b- Robustesse de l’ACP…………………………………………..…….28
9.5 L ‘analyse factorielle en facteurs commun et spécifiques……….………28
a- Le modèle………………………………………….………...28
b- Estimation des paramètres inconnus…………….…………..30
10 Exemple d’application………………………………………………………….33

Chapitre 2

Analyse D’un Tableau Des préférences


1 Introduction…………………………………………………………………………54
2 Analyse des préférences…………………………………………………………….54
3 Exemple d’application………………………………………………………………55

Chapitre 3

Analyse D’un Tableau De distances

1. Rappel……………………………………………………………..73
2. Représentation d’un ensemble de variables à partir d’une matrice de
corrélation……………………………………………………………………...73
3. Représentation d’un ensemble d’individus a partir d’un tableau de
distance………………………………………………………………………………………………………….74
4. Exemple d’application………………………………………………………….76

3
4
1. Introduction :
L’Analyse en composantes principales (ACP) fait partie du groupe des méthodes
descriptives multidimensionnelles appelées méthodes factorielles (cf. §-9.5 L ‘analyse
factorielle en facteurs commun et spécifiques). Ces méthodes qui sont apparues au début des
années 30ont été surtout développées en France dans les années 60, en particulier par Jean-
Paul Benzècri qui a beaucoup exploité les aspects géométriques et les représentations
graphiques. Dans la mesure où ce sont des méthodes descriptives, elles ne s’appuient pas sur
un modèle probabiliste, mais elles dépendent d’un modèle géométrique. L’ACP propose, à
partir d’un tableau rectangulaire de données comportant les valeurs de p variables
quantitatives pour n unités (appelées aussi individus), des représentations géométriques de ces
unités et de ces variables. Ces données peuvent être issues d’une procédure d’échantillonnage
ou bien de l’observation d’une population toute entière. Les représentations des unités
permettent de voir s’il existe une structure, non connue a priori, sur cet ensemble d’unités. De
façon analogue, les représentations des variables permettent d’étudier les structures de
liaisons linaires sur l’ensemble des variables considérées. Ainsi, on cherchera si l’on peut
distinguer des groupes dans l’ensemble des unités en regardant quelles sont les unités qui se
ressemblent, celles qui se distinguent des autres, etc. Pour les variables, on cherchera quelles
sont celles qui sont très corrélées entre elles, celles qui, au contraire ne sont pas corrélées aux
autres, etc.

Nous verrons après l’exposé de la méthode, quelles précautions il faut prendre pour
interprètes correctement les représentations obtenues. Dans tous les cas, il ne faut pas oublier
d’où sont issues les données utilisées et ce qu’elles représentent et signifient pour le problème
que l’on se pose.

Enfin, comme pour toute méthode descriptive, réaliser une ACP n’est une pas une fin
en soi. L’ACP servira à mieux connaître les données sur les quelles on travaille, à détecter
éventuellement des valeurs suspectes, et aidera à formuler des hypothèses qu’il faudra étudier
à l’aide de modèles et d’études statistiques inférentielles. On pourra aussi, a posteriori, se
servir des représentations fournies par l’ACP pour illustrer certains résultats dans un but
pédagogique.

5
2. Le problème :

Il s’agit de synthétiser les données contenus dans le tableau ; pour cela on construit
un petit nombre de variables, appelées composantes principales. Permettant de saisir
l’essentiel du tableau .

Ainsi, àl’étape 1, on détermine une variables synthétique la première composante


principale combinaison linéaire des variables .

Ce qui signifie que la valeur de pour l’individu est donnée par :

Cette première composante principale ne suffit généralement par résumer de façon


satisfaisante les données du tableau . aussi, on construit une deuxième composante
principale. Puis une troisième…

De façon générale, à l’étape , on construit la composante d’ordre

Matriciellement, ou est un vecteur colonne à m éléments, l’élément d’ordre j


état égal à , ce vecteur est appelé facteur d’ordre k (ou kieme facteur)

Les facteurs fournissent un système de « poids » pour les variables ; certains « poids »
sont négatifs, d’autres positifs ; en fait ce qui importe n’est pas la valeur de chacun de ces
poids, mais le rapport de ces « poids » les uns pas rapports sont inchangés. Les facteurs par
une constante non nulle, ces rapports sont inchangés. Les facteurs sont donc définie à une
constante multiplicative prés ; aussi, on impose une contrainte de normalisation pour chacun
des facteurs :

Les composantes principales sont des variables de moyenne nulle, puisque. Les variables
d’origine sont centrées, la valeur pour l’individu i de la composante principale k est :

6
3. Les types de tableaux pouvant être traités par l’ACP :
L’ACP s’applique à des tableaux à deux dimensions croisant des individus et des
variables quantitatives ou pouvant être considérées comme telles. Selon la nature de ces
variables, on distingue trois grandes catégories de tableaux qui peuvent être traités par
l’ACP ; ce sont :

a. Les tableaux de mesures: les variables sont obtenues à partir de comptages ou de


recensements ; ces variables, continues ou entières, sont quantitatives.

Exemple : le RGP (Recensements Général de la Population) en 2008.

b. Les tableaux de notes: Les variables sont obtenues à partir de notations.

Les notes sont des ((variables qualitatives ordinales)) qui peuvent être généralement
assimilées à des variables quantitatives.

c. Les tableaux de rangs : Les variables sont des rangs ; les n individus sont classés
de 1 à n, du meilleur au plus mauvais, du plus rapide au plus lent, etc.
4. Les tableaux de données. Notations :
A. Tableau de données initiales
On possède un tableau rectangulaire de mesure (comme une matrice) dont les colonnes sont
des variables (mensurations, taux, températures, ...) et dont les lignes représentent des
individus statistiques (unités élémentaires telles que des êtres humains, des pays, des années
...). On note X ce tableau de données.

• X: Tableau de données

• Xij : Valeur de la ime observation pour la jime variable

• Xi. : ime observation du tableau

• X.j : jme variable du tableau

• n : Effectif des individus

• p: Nombre de variable

On cherche à représenter le nuage des individus.

A chaque individu noté ei, on pet associer un point dans

Rp = espace des individus.

7
A chaque variable du tableau X est associé un axe de Rn.

Impossible à visualiser dès que p > 3.

8
B. Les poids affectés aux individus.

Données centrées réduites :


a. La matrice des poids

Si les données ont été recueillies à la suite d’un tirage aléatoire à probabilités égales,
les n individus ont tous même importance, 1/n, dans le calcul des caractéristiques de
l’échantillon. Il n’en est par toujours ainsi et il est utile pour certaines applications de
travailler avec des poids éventuellement différents d’un individu à l’autre (échantillons
redressés, données regroupées…).

Ces poids, qui sont des nombres positifs de somme 1 comparables à des fréquences, sont
regroupés dans une matrice diagonale de taille n.

= ou les vérifient =1

Souvent, on aura : ou est la matrice identité, c’est - à -dire que l’on


affecte le même poids à chaque individu.

b. Le centre de gravité du tableau

Définition du centre de gravité :

On appellera centre de gravité associé à la matrice des poids le vecteur défini par :

= ou =

est en fait la moyenne pondérée des valeurs de la variable j prises par l’ensemble des
individus.

On a aussi :

= D ou = dans

9
c. Le tableau de données centrées réduites :

On note :

= et =

Ou = est la variance de variable j.

On note de même = la covariance entre les variables j et


j’ et le coefficient de corrélation linéaire entre les variables j et j’.

Définitions du tableau centré et du tableau centré réduit :

On définit le tableau centré associé à , noté , par :

Y=X= =

Le tableau centré réduit associé à , noté , est défini par :

d. La matrice de variance-covariance et la matrice de corrélation

En utilisant les notations précédentes, la matrice de variance-covariance s’écrit :

et la matrice de corrélation :

En fait, est la matrice de variance-covariance du tableau de données centrées réduites. Ainsi,


résume la structure des dépendances linéaires entre les variables.

10
5. Objectifs de l'ACP :
Il existe plusieurs approches différentes de l'ACP, mais toutes s'accordent sur les
conditions de son application et son objectif général.
Cette méthode s'applique aux ensembles de données quantitatives d'au moins deux variables.
Puisqu'il s'agit d'une méthode d'analyse de données multifactorielle, ce but est de résumer
l’information extraite de cet ensemble de données. Ceci se fait par la construction des outils
simples et lisibles de représentation des informations traitées, permettant de faire ressortir
entre des données brutes les éventuels liens existant entre les variables (en terme de
corrélation),

 donner des indications sur la nature, la force et la pertinence de ces liens, afin de
faciliter leur interprétation et découvrir quelles sont les tendances dominantes de
l'ensemble de données,
 réduire efficacement le nombre de dimensions étudiées (et ainsi simplifier l'analyse),
en cherchant à exprimer le plus fidèlement possible l'ensemble original de données
grâce aux relations détectées entre les variables.

6. Avantages et inconvénients de l'ACP


a. Avantages

Simplicité mathématique:

L'ACP est une méthode factorielle car la réduction du nombre des caractères ne se fait
pas par une simple sélection de certains d'entre eux, mais par la construction de nouveaux
caractères synthétiques obtenus en combinant les caractères initiaux au moyen des "facteurs".
Cependant, il s'agit seulement de combinaisons linéaires,les seuls véritables outils
mathématiques utilisés dans l'ACP sont le calcul des valeurs/vecteurs propres d'une matrice,
et les changements de base.
Sur le plan mathématique, l'ACP est donc une méthode simple à mettre en œuvre.
Simplicité des résultats :
Grâce aux graphiques qu'elle fournit, l'Analyse en Composantes Principales permet
d'appréhender une grande partie de ses résultats d'un simple coup d'œil.
Puissance :
L'ACP a beau être simple, elle n'en est pas moins puissante. Elle offre, en quelques
opérations seulement, un résumé et une vue complète des relations existant entre les variables
quantitatives d'une population d'étude, résultats qui n'auraient pas pu être obtenus autrement,
ou bien uniquement au prix de manipulations fastidieuses.
Flexibilité :
L'ACP est une méthode très souple, puisqu'elle s'applique sur un ensemble de données
de contenu et de taille quelconques, pour peu qu'il s'agisse de données quantitatives
organisées sous forme individus/variables. Cette souplesse d'utilisation se traduit surtout par
la diversité des applications de l'ACP, qui touche tous les domaines.

11
b. Inconvénients
En tant que méthode d'analyse de données, l'ACP n'a pas réellement d'inconvénients en
soi. Elle s'applique simplement sur des cas précis et pour générer un type de résultat
particulier. Ce la n'aurait donc aucun sens de dire que c'est un inconvénient de l'ACP qu'elle
ne s'applique pas en dehors de ce contexte. De même, étant donné qu'il s'agit avant tout d'une
technique de résumé de données, la perte d'information forcément engendrée n'est pas un
inconvénient, mais plutôt une condition d'obtention du résultat, même si elle occulte parfois
des caractéristiques pourtant représentatives dans certains cas particuliers.
7. Interprétations géométriques :
Les représentations géométriques entre les lignes et entre les colonnes du tableau de
données permettent de restituer visuellement les proximités entre les individus et entre les
variables.

a. Pour les n individus:

Dans ,les n(n-1) distances attachées aux couples de points qui représentent des
individus ont une interprétation directe pour l’utilisateur :

(i,i’)= [1]

Il s’agit ici de la distance euclidienne classique. Deux points très voisins si, dans
l’ensemble, leurs p coordonnées sont très proches. Les deux individus concernés sont alors
caractérisés par des valeurs presque égales pour chaque variable.

Dans l’exemple évoqué ci-dessus, deux individus représentés par des points proches
consacrent les mêmes temps aux mêmes activités.

b. Pour les p variables:

Si les valeurs prises par deux variables particulières sont très voisines pour tout les
individus, ces variables seront représentées par deux points très proches dans . Cela peut
vouloir dire que ces variables mesurent une même chose ou encore qu’elles sont liées par une
relation particulière. Toutefois la définition de ces proximités dans les deux espaces est assez
frustre. Des problèmes d’échelle de mesure se posent d’emblée : le temps consacré au
sommeil est toujours beaucoup plus important que le temps passé à la lecture par ailleurs,
dans un cadre plus général , comment calculer la distance entre deux variable si l’une est
exprimée en euros et l’autre dinar alg? Comment interpréter un éloignement moyen dans ?
Est – ce que deux individus assez proche dans ont des valeurs assez voisines pour chacune
des variables, ou au contraire très proches pour certaines et éloignées pour d’autre ? L’analyse
en composantes principales normée permet de donner des éléments de réponses à ces
questions.

12
8. Individus et variables :
8.1 Analyse du nuage des individus :
Nous considérons tout d’abord ici le nuage des n individus non pondérés. Dans
l’espace des variables, et vous ajuster le nuage de n points par un sous- espace à une puis a
deux dimensions, de façon à obtenir sur un graphique une représentation visuelle la plus
fidèle possible des proximités entre les n individu vis-à-vis des variables

a. principe d’ajustement :

Ce n’est donc plus la somme des carrés des distances à l’origine en projection qu’il faut
rendre maximum, mais la somme des carrés des distance entre tout les couples d’individus :

Max
(H)

H0
Espace
.
. ... ...
Rp .
..
. . .. H1
0

Figure 1. Droite d’ajustement du nuage de n points

Autrement dit , la droite d’ajustement H1 ne doit pas être astreinte à passer par
l’origine , comme H0 dans l’analyse générale.
Si h et h’ désignent les valeurs des projections de deux point–individus i et i’ sur H1 , on a la
relation classique :

Ou h désigne la moyenne des projections des n individus

13
Et correspond à la projection sur H1 du centre de gravité G du nuage dont la jéme coordonnée
vaut :

i’

i H1

hi’

o hi

Figure 2 projection sur H1

Par conséquent, on a :

Rendre maximum la somme des carrés des distances entre tout les couples d’individus
revient à maximiser la somme des carrés des distance entre les points et le centre de gravité du
nuage G

MAX(H) { }

Est équivalent a :

MAX(H) { }

Si l’origine est prise en G, la quantité à maximiser sera la somme des carré des distance
à l’origine, le sous –espace cherche résulte de l’analyse du tableau transformé X, de terme
général :

b. Distance entre individus :

La distance entre deux individu i et i’ est la distance euclidienne usuelle donnée par la
formule [1[ il peut exister des valeur de j pour les quelles les variables correspondantes sont
d’échelles très diverses (exemple : temps passé au sommeil, temps passé la lecture); on veut
que la distance entre deux points soit indépendante des unités sur les variables. On peut
parfois désirer, surtout lorsque les unités de mesure ne sont pas les même, faire jouer a chaque
variable un rôle identique dans la définition entre individu on parle alors d’analyse en
composantes principales normée. Pour cela on corrige les échelles en adoptant la distance :

14
désignant l’écart- type de la variable j dont le carré (variance) vaut :

Finalement, nous retiendrons que l’analyse normée dans du tableau brut R est l’analyse
général de X, de terme générale

[7-1]

Toutes les variables ainsi transformées sont « comparables » et ont mémé dispersion :

Les variables sont centrées réduites on mesure l’écart à la moyenne en nombre d’écarts- types
de variable j.

c. matrice à diagonaliser :

En résumé l’analyse du nuage des points – individus dans Rp nous a amené effectuer
une translation de l’origine au centre de gravite de ce nuage et à changer, dans le cas de
l’analyse normée, les échelles sur les différents axes l’analyse du tableau transformé X nous
conduit à diagonaliser la matrice C= X’X le terme général de cette matrice s’écrit :

Soit :

C’est –à-dire :

n’est pas autre que le coefficient de corrélation empirique entre les variables j et j’
(d’où l’utilité du coefficient au dénominateur de la relation [7-1[ ) la matrice à
diagonaliser est donc la matrice de corrélation C.

15
d. Axes factoriels :

Les coordonnées des n points sur l’axe factoriel normé (aiéme vecteur propre de la
matrice C associé à la valeur propre ) sont les n composantes du vecteur :

Le facteur a est une combinaison des variables initiales puisque le nuage des
individus est centré sur le centre de gravité (les masses affectées aux individus étant à 1/n), la
moyenne du facteur est nulle :

Et sa variance vaut :

La coordonnée du point individu i sur cet axe s’écrit explicitement :

8.2 Analyse du nuage des points- variables :


L’analyse générale développée dans la section précédente nous a montré qu’en
effectuant un ajustement dans un espace, on effectuait implicitement un ajustement dans
l’autre espace. Nous avons volontairement choisi de commencer en travaillant dans Rp, dans
cet espace la transformation du tableau R initial selon la relation [7-1[ avait deux objectifs :

- d’une part obtenir un ajustement qui respecte dans la mesure du possible les distances entre
points – individus ;

- d’autre part faire jouer des rôles similaires à toutes les variables dans la définition des
distances entre individus.

Notons que la formule ] 7-1[ ne fait pas intervenir de façon symétrique les lignes et les
colonnes du tableau initial R: que signifie dans Rn , la proximité entre deux points variables j
et j’ si l’on prend comme coordonnées de ces variables les colonnes du tableau transformé X ?

a. Distance entre points-variables

La distance entre variables découle de l’analyse dans .

Calculons la distance euclidienne usuelle entre deux variables j et j’:

16
Soit :

Remplaçant Xij par sa valeur tirée de [7-1] et tenant compte du fait que :

On obtient : et également :

D’ou la relation liant la distance dans entre deux points-variables j et j’ et le coefficient de


corrélation entre ces variables :

[7-2]

Ce qui implique :

Dans l’espace , le cosinus de l’angle de deux p vecteurs variables est le coefficient de


corrélation entre ces deux variables ( , si ces deux variables sont à la distance
1 de l’origine (i.e. si elles sont de variance unité), le cosinus n’est autre que leur produit
scalaire.

Le système de proximités entre points-variables induit par la relation [7-2] est familier
au statisticien :

- Deux variables centrées réduites fortement corrélées sont très proches l’une de l’autre

( ) ou au contraire les plus éloignées possible ( ) selon que la relation linéaire


qui les lies est directe ou inverse:

-Deux variables orthogonales ( ) sont à distance moyenne et signifie qu’elles sont


linéairement indépendantes.

Les proximités entre points-variables s’interprètent en termes de corrélations.

17
b. Distance à l’origine
L’analyse dans ne se fait pas par rapport au centre de gravité du nuage de points-
variables, contrairement au cas du nuage des points-individus, mais par rapport à l’origine. La
distance d’une variable j à l’origine O s’exprime par :

Tout les points-variables sont sur une sphère de rayon 1 centrée à l’origine des axes

Remarque

La transformation analytique simple de [7-1] a dans les espaces et des


interprétations géometriques totalement différentes. Considérons par exemple l’opération de
centrage des variables :
-Dans , cette transformation équivaut à une translation de l’origine des axes au
centre de gravité ( ou point moyen) de nuage (cf. Figure 7.2.1)

Figure 7.2.1

-Dans , cette transformation est une projection parallèlement à la première bissectrice


des axes sur l’hyperplan qui lui est orthogonal (cf. Figure 7.2.2).

18
Première bissectrice

0 j’

Seconde bissectrice

Figure 7.2.2

c. Axes factoriels ou composantes principales dans

Il est inutile de procéder à la diagonalisation de la matrice XX’d’ordre (n,n) une fois


connus les vecteurs propres et les valeurs propres de la matrice C=X’X d’ordre (p,p).
Le vecteur = X est en effet un vecteur propre unitaire de XX’. Relativement à
la même valeur propre écrit :

= X’ = X’X = [7.2-1]

Comme =X , On a :

= [7.2-2]

Alors les coordonnés factorielles des points-variables sur l’axe sont les
composantes de X’

Soit encore de :

Et l’on a
La coordonnée d’un point-variable sur un axe n’est autre que le coefficient de
corrélation de cette variable avec le facteur (combinaison linéaire des variables initiales)
considéré lui-même comme variable artificielle dont les coordonnées sont constituées par les
n projections des individus sur cet axe.
Les axes factoriels étant orthogonaux deux à deux, on obtient ainsi une série de
variables artificielles non corrélées entre elles, appelées composantes principales, qui
synthétisent les corrélations de l’ensemble des variables initiales.

19
Remarques

1) L’analyse en composantes principales ne traduit que des liaisons linéaires entre les
variables. Un coefficient de corrélation faible entre deux variables signifie donc que celles-ci
sont indépendantes linéairement alors qu’il peut exister une relation de degré supérieur à 1
(liaison non linéaire).
2) La coordonnée d’un point-variable sur l’axe est nécessairement inférieure

à1

En valeur absolue :

et :

3) Le nuage de points-variables dans n’est pas centré sur l’origine.


9. compléments et variantes
L’analyse en composantes principale étant au carrefour de plusieurs méthodes et de
plusieurs pratiques, on regroupera dans cette section quelques thèmes qui se rattachent aussi
bien à son environnement théorique qu’à son utilisation concrète. Le paragraphe 8.1 sera ainsi
consacré à la méthodologie des éléments supplémentaires, on décrira ensuite un mode de
représentation simultanée des variables et des individus et l’on exposera les précautions à
prendre lorsque l’on procède à une analyse en composantes principales non normée.

On traitera ensuite des variantes non-paramétriques de l’analyse en composantes


principales (cf. § 8-2-1). Au paragraphe 8-2-2, on posera les bases de l’analyse factorielle en
facteurs communs et spécifiques, utilisée depuis le début du siecle par les
psychométriciens, qui est étroitement apparentée à l’analyse en composantes principales.
Enfin le dernier paragraphe évoquera certaines méthodes dérivées.

9.1 Individus et variables supplémentaires


On dispose d’informations complémentaires que l’on veut rapporter à l’analyse des
temps d’activités des hommes actifs regroupés en catégories. Par exemple, on veut enrichir
cette analyse par une série d’indicateurs d’habitudes de fréquentation-media, constituant des
variables continues et par le niveau d’éducation et l’âge qui sont des variables nominales.

On désire également positionner des groupes d’individus (ligne supplémentaires).

Le tableau de données R peut être ainsi complété en colonnes par un tableau à n lignes et

Colonnes et en lignes par un tableau à lignes et p colonnes.

20
Il n’est pas nécessaire de connaitre le tableau à lignes et p colonnes croisant
individus et variables supplimentaire s (.cf Figure 8-1).

Figure 8-1. Lignes et colonne supplémentaires

Les tableaux et vont être respectivement transformés en tableau


et de façon à rendre ces nouvelles lignes et colonnes comparables à celle de X .

Dans l’espace les variables supplémentaires peuvent être continues ou nominales.

a. Individus supplémentaires

Pour situer les individus supplémentaires par rapport aux autres dans l’espace il est
nécessaire de les positionner par rapport au centre de gravité du nuage (déjà calculé sur les n
individus), de diviser les coordonnées par les écarts-types des variables (déjà calculés sur les
n individus), et de faire intervenir le coefficient . D’ou la transformation :

Les coordonnées des nouveaux points-individus sont donc les lignes du vesteur

En appelant le tableau on obtient simultanément les n+ coordonées des


individus analysés et supplémentaires en effectuant le produit

b. Variables continues supplémentaires

Dans , pour que les distances entre variables s’interprétent encore en termes de
corrélations, ces variables doivent être à valeurs numériques continues et il est indispensables
d’effectuer la transformation :

21
On calcule donc les nouvelles moyennes et les nouveaux écarts-types correspondant aux
variables supplémentaires, pour positionner celles-ci sur la sphère de rayon unité. Les
coordonnées des variables supplimentaires sur cet axe sont donc les lignes du vecteur
et correspondent chacune au coefficient de corrélation entre la variable et le facteur (le
facteur est la variable artificielle « coordonnée sur l’axe factoriel »).

c. Variables nominales supplémentaires

Si la variable à mettre en supplémentaire est nominale, on ne peut plus effectuer la


même transformation.

Dans ce cas, on ramène la variable nominale ayant m modalités, à m groupes


d’individus définis par les modalités de la variable. On traite ensuite ces m groupes
d’individus comme des individus supplémentaires. Ce sont les centres de gravité de ces
groupes d’individus qui vont être positionnés dans l’espace .

9.2 Représentation simultanée

L’analyse du nuage des variables est déduite de celle du nuage des individus :

La représentation des variables sur des axes factoriels dans aide l’interprétation des axes
factoriels dans et réciproquement.

a. Représentation séparée des deux nuages

Mais les deux nuages ne sont pas dans le même repère, ce qui rend impossible la
représentation simultanée des individus et des variables. Les proximités entre individus
s’interprètent en termes de similitudes de comportement vis-à-vis des variables et les
proximités entre variables en termes de corrélations. Il faut bien se garder d’interpréter la
distance séparant un point-variable d’un point-individu car ces deux points ne font pas partie
d’un même nuage dans un même espace : la superposition de ces deux plans factoriels est
dénuée de sens.

22
Dans l’espace Dans l’espace

L’analyse du nuage des n points- L’analyse du nuage des p points-


Individus se fait dans le repère : variables se fait dans le repère :

V2

.3
U2
0 V1

1.
1

U1

La représentation des individus La représentation des variables


sur les axes factoriels fournit sur les axes factoriels fournit une
a meilleure visualisation approchée synthèse graphique de La matrice
des distances entre les individus des corrélations.

Figure 8-2-1 Figure 8-2-2

Nuage des individus dans Nuage des variables dans

b. Justification d’une autre représentation simultanée

Cependant si l’on considère non plus des points-variables mais des directions de
variables dans , on peut alors envisager de représenter simultanément, dans cet espace, à la
fois les points-individus et des vecteurs représentant les variables. dans l’espace des n

23
points-individus, après transformation du tableau de données, on dispose de deux systèmes
d’axes :

- Les anciens axes unitaires ( ,...... ) correspondant aux p variables


avant l’analyse ou :
= (0,0,......, 1,0,....,0)

{ (j=1,.....,p)} est le systéme d’axes de référence pour les coordonnées initiales des
individus.
- Les nouveaux axes unitaires { ( =1,.....,p) constitués des axes factoriels.
La possibilité d’une représentation simultanée réside alors dans la projection ( en
ligne supplémentaire) de l’ancien axe sur le nouvel axe

La coordonnée de la projection de sur vaut :

Il est ainsi possible de représenter dans les directions données par les variables
d’origine sur le plan factoriel du nuage des individus ; ces directions peuvent être
matérialisées par des vecteurs unitaires. Ces vecteurs constituent le repère d’origine dans
lequel on a construit le nuage des individus. Ils sont donc orthogonaux deux à deux. Ce qui
s’appellera représentation simultanée est donc la projection du repère orthonormé des axes
d’origine sur le plan factoriel du nuage des individus.

Rappelons que, dans , la coordonnée de la variable j sur l ‘axe est égale au


coefficient de corrélation(cf.formule [7-1]) entre la variable et le facteur et vaut :

= [7-1]

Les deux nuages des variables ne coïncident donc pas. Ils différent l’un de l’autre par
une dilatation définie sur chaque axe par le coefficient . Dans le cas de la
représentation simultanée, qui est en fait une représentation dans , on n’interpréte pas la
distance entre deux variables en terme de corrélation, puisqu’il s’agit en réalité des extrémités
de deux vecteurs unitaires orthogonaux. L’interprétation de la distance entre deux variables
(en terme de corrélation) ne peut se faire que dans . En tenant compte de ces
considérations, il est licite de comparer, sur la représentation simultanée, les positions
24
respectives de deux individus vis-à-vis de l’ensemble des variables, ou de deux variables vis-
à-vis de l’ensemble des individus. On dispose ainsi d’une perspective déformée du système
d’axes original tenait compte des liaisons existant entre les variables initiales. La direction
d’une variable définit des zones pour les individus : d’un coté, ceux qui prennent des fortes
valeurs pour cette variable et, à l’opposé, ceux qui prennent des valeurs faibles.

Remarques :

1) Si l’échelle des coordonnées des points-variables a une interprétation en termes de


corrélations, il n’en est pas de même pour les points-individus. On appliquera a leurs
coordonnées un coefficient de dilatation convenable. La valeur assure souvent un
dispôsitionnnement dans le plan compatible avec la répartition des points-variables et
permet ainsi une représentation équilibrée des deux nuages.
2) Dans la représentation simultanée, il ne peut y avoir de variables continues
supplémentaires (elles ne constituent pas des axes d’origine pour le positionnement des
individus). Il peut y avoir des variables nominales supplémentaires car ce sont des
individus supplémentaires.
9.3 Analyse en composantes principales non normée

L’analyse en composantes principales non normée revient à considérer le nuage de


points centré et non réduit. On généralisera cependant l’analyse en faisant jouer maintenant à
chaque points-individus un rôle proportionnel à sa masse (ce que l’on aurait évidemment pu
faire à propos de l’analyse normée)

a. Principe de l’analyse et nuage des individus

Plaçons-nous dans l’espace et considérons le nuage des points-individus pesants,


centré sur le centre de gravité G.

L’analyse en composantes principales revient à effectuer une analyse générale de points


pondérés avec comme origine le centre de gravité du nuage.

Le tableau de données initiales R subit plusieurs transformations : on construit le


tableau X de données centrées et chaque individu i est affecté d’une masse (ou d’un poids) .
Ces masses constituent les éléments diagonaux de la matrice diagonale N. Le tableau Z
soumis à l’analyse en composantes principales non normées est par conséquent de la forme :

Z= X

25
R X N Z
(n,p) (n,p) (n,p) (n,p)

données données données données

initiales centrées des poids transformées

Figure 8-3-1. Transformation du tableau de données en analyse


en composantes principales non normée

La matrice à diagonaliser est la matrice d’inertie autour du centre de gravité du nuage


G:

A= Z’Z= X’NX

de terme général :

Si les masses représentent des fréquences, alors la matrice à diagonaliser est la matrice
des covariances A partir de là, on détermine les axes factoriels tels que . Les
coordonnées factoriels sur ces axes sont données par :

=X

dont les composantes s’écrivent :

avec :

26
b. Nuage des variables

L’analyse du nuage des p variables dans revient à faire l’analyse gènérale du tableau
Z:

= )

avec : =1 et =

La distance induite entre deux variables s’exprime par :

(j,j’)= - )²

soit :

(j,j’)= + +2

par conséquent :

(j,j’)=var(j)+var(j’)-2cov(j,j’) [8-1]

J’
J’
J’

0
j 0
j 0
j

cov (j,j’)>0
Cov(j,j’)=0 Cov(j,j’)<0

Figure 8-3-2 distance entre deux variables

La distance entre deux variables s’exprime en termes de covariance et augmente avec


les variances. Elle diminue si la liaison est positive et augmente si la liaison est négative. La
distance d’une variable à l’origine des axes est sa variance :

(O,j’)=var(j)= = ( - )²

Par conséquent, pour l’analyse en composantes principales non normée, la sphère de


corrélations n’est plus l’espace de départ.

27
9.4 Analyses non-paramétriques

Ces méthodes ne différent de la précédente que par une transformation préliminaire des
données. Elles sont recommandées lorsque les données de base sont hétérogènes. Elles
donnent des résultats d’une grande robustesse, se prêtant par ailleurs à des interprétations
simples en termes statistiques.

a. Analyse des rangs

Le tableau initial des données est transformé en tableau de rangs. L ‘observation i de la


variable j consiste alors en un classement : c’est le rang de l’observation i lorsque les n
observations sont classées par ordre de grandeur (avec une convention ad hoc pour le
classement des ex-aequos). Dans ces conditions, la distance entre deux variables j et j’est
définie par la formule :

(j,j’)= ²

L’utilisation des rangs sera justifiée dans les contextes suivants :

- Les données de base peuvent être elles-mêmes de classements, auquel cas ce type
d’analyse s’impose.
- Les échelles de mesure des variables peuvent être si différentes que l’opération de
réduction pratiquée par l’analyse en composantes principales normée reste
insuffisante. De plus cette opération ne remédie pas par exemple à la dissymétrie
des distributions. Il parait enfin plus justifie de synthétiser une famille de
classements qu’un ensemble très hétérogène de mesures.
- Les hypothèses a priori faites implicitement sur les mesures sont plus faibles et par
conséquent moins arbitraires : la loi des distances est maintenant non-
paramétrique ; nous disposerons donc de seuils de confiance qui ne dépendront
que ce l’hypothèse de continuité des lois des observations, plus plausible que celle
de normalité.
- Enfin, les représentations fournies sont robustes, peu sensibles à l’existence de
valeurs aberrantes, ce qui sera souvent une qualité appréciable.

28
Les règles d’interprétation se déduisent de celles de l’analyse en composantes
principales puisque c’est cette analyse que l ‘on effectue après l’opération de
transformation en rangs. La proximité entre deux variables s’interprète en terme de
corrélation de rangs : deux variables seront très proches pour des classements
voisins des observations ; au contraire, deux variables éloignées correspondront à
des classements pratiquement inverse. Deux observations seront proches si elles
ont des rangs similaires pour chacune des variables.
Enfin, dans la représentation simultanée, on a une idée de l’ensemble du
classement des observations pour une variable en examinant les positions
respectives de cette variable et de l »’ensemble des observations.
b. Robustesse de l’ACP

Le critère d’ajustement des moindres-carrés est pratiquement bien adapté à la


distribution normale. Dans le cas d’une distribution uniforme (cas de l’analyse des rangs), il
tend à donner une importance excessive aux observations extrêmes. On rendra donc plus
robuste l’analyse par une transformation qui « normalise»la distribution uniforme des rangs.

Considérons la observation de n observations rangées et soit F la fonction de


répartition de la loi normale. On remplacera l’observation de rang k par la valeur tirée de la
fonction de répartition inverse de la loi Normale :

Pour n grand, la transformation est équivalente au remplacement de la observation


par l’espérance de la observation dans un échantillon rangé de n valeurs normales.

9.5 L ‘analyse factorielle en facteurs commun et spécifiques

L’analyse factorielle en facteurs communs et spécifiques (factor analysis) est un


modèle très ancien. Bien qu’il s’agisse d’un modèle statistique particulier, et non d’une
méthode exploratoire, ses liens profonds avec l’analyse en composantes principales nous
incitent à le présenter dans ce chapitre. Ce modèle est utilisé principalement par les
psychologues et psychométriciens.

Les développements auxquels il donne lieu sont complexes et diversifiés. On pourra


consulter sur ce point les ouvrages de Harman (1967), Mulaik (1972).

29
a. Le modèle

Cette méthode se propose de reconstituer, à partir d’un petit nombre q de facteurs, les
corrélations existant entre p variables observées. On suppose l’existence d’un modèle a
priori :

= + [8-2]

Dans cette écriture représente le vecteur observé des p variables ; est un


tableau (p,q) de coefficients inconnus ( avec q p) ; est la valeur du vecteur aléatoire
en non observable de q facteurs communs ; et la valeur du vecteur non observable de
residus, lesquels représentent l’effet combiné de facteurs spécifiques et d’une perturbation
aléatoire.

Ainsi par exemple, dans le cas des facteurs communs « = intelligence » et


« =mémoire » que cherchaient les psychologues, le système [8-2] s’écrit pour le
individus :

Chaque observation de chaque variable est considérée comme une réalisation d’une
variable aléatoire déterminée, par addition au résidu aléatoire spécifique, pondérations qui
dépendent de chaque variable)

Désignons par X le tableau (n,p) dont la ligne est le vecteur transposé qui
représente l’observation i. De meme F désigne le tableau (n,q) non observable dont la
lign est ; et E le tableau (n,p) non observable dont la ligne est . Le modéle
liant l ‘ensemble des observations aux facteurs hypothétiques s’ecrit :

= + [8-3]

30
Dans cette écriture, seul X observable, et le modèle est par conséquent indéterminé.
Son identification et l’estimation des paramètres posent des problèmes complexes, sources
d’une abondante littérature. Une cascade d’hypothèses a priori supplémentaires va permettre
d’écrire le problème sous une forme simplifiée, la seule que nous aborderons ici.

Sans perte de généralité, nous supposerons centrées les variables dont les observations
sont les colonnes de X, ainsi que les variables aléatoires que constituent les facteurs communs
et les facteurs spécifiques. Nous utiliserons les notations suivantes :

- W matrice (p,p) des covariances théoriques entre variables ;


- matrice (q,q) des covariances théoriques entre facteurs communs.
- matrice (p,p) des covariances théoriques entre facteurs spécifiques.
Appelons S la matrice des covariances empipiriques des observations X, que nous
supposerons également centrées. Par définition et en vertu de [8-3],
on a :

S= X = (F +E)’(F +E)

C’est-à-dire :

S= F + [8-4]

Aux hypothèses du modèle, nous ajouterons l’hypothèse a priori que les facteurs
résiduels sont non corrélés aux facteurs communs ; la matrice des covariances théoriques
correspondantes étant nulle, nous considérons comme négligeables dans [8-4] les matrices
et dont les espérances doivent être nulles. La relation [8-4] prend la forme
simplifiée :

S= F +

Correspondant à la relation théorique suivante pour le modèle :

W= [8-5]

Le problème d’estimation consiste à ajuster dans [8-5] une matrice qui, au regard
d’un critére choisi par ailleurs, soit proche de la matrice des covariances empiriques S. Mais
afin d’obtenir une solution unique pour les paramètres de , et , il est necéssaire
d’introduire des contraintessupplimentaires dans le modéle.

31
On suppose en général que les facteurs spécifiques sont non corrélés, c’est-à-dire que la
matrice est diagonale. On impose de plus gèneralement que les facteurs communs soient
orthogonaux et de variance unité, autrement dit la matrice est la matrice identité I d’ordre q.
La relation [8-5] du modèle s’écrit alors :

W=

Sur cette relation le lien avec l’analyse en composantes principales apparait clairement. Il
s’agit dans ce cas de décomposer la matrice des covariances empiriques S sous la forme

Ou est la matrice diagonale des valeurs propres (rangées) et le tableau des vecteurs
propres unitaires correspondant. Cette relation s’écrit encore :

Ou est le tableau des vecteurs propres multipliés par les racines carrées des valeurs propres
corresponantes.

Avec ce point de vue, l’analyse en facteurs communs et spécifiques suppose qu’en


retranchant une matrice diagonale à éléments positif ( estimant ), on obtient une
décomposition de la matrice des covariances empiriques sous la forme :

Ou ne contient que q colonnes alors que dans le tableau contenait colonnes.


On voit au passage qu’une analyse en composantes principales ou les dernières valeurs
propres sont proches et voisines de 0, donnera des résultats très voisins de ceux d’une analyse
à facteurs communs orthogonaux.

b. Estimation des paramètres inconnus

On n’insistera pas ici sur les problèmes posés par un tel modèle, qui font l’objet d’une
abondante littérature. On donnera seulement quelques moyens pratiques de calcul.

Le problèmes essentiel est d ‘estimer , matrice diagonale des variances des résidus
spécifiques. Une fois estimée par , il suffit de chercher les composantes principales
(vecteurs propres) de (S- ) ; on ne doit normalement trouver qu’un petit nombre de
composantes différentes(statistiquement) de 0.

Nous allons examiner ici une spécification particulière du modèle, puis donner un algorithme
de calcul dans le cas général.

- Cas de variances spécifiques égales :


32
On suppose a priori que les facteurs spécifiques ont tous mémé variance théorique o2 ;
autrement dit par hypothèse

Et , si on note s2 , la relation ]8.2[ devient :

On obtiendrait une estimation de Γ en cherche les composantes principales principale de la


matrice . En effectuant l’analyse de S, on écrit :

S= U U’

Et par conséquent :

Les valeurs propres de sont celles de S diminuées de S2(les vecteurs propres étant
identiques) puisque doit être de range q, il est nécessaire que S2 soit valeur propre
multiple d’ordre p-q pour S.

En particulier si, dans une analyse en composantes principales petites valeur propre sont
sensiblement égales, on peut considérer que les données sont engendrées par un modèle
factoriel à variances spécifiques égales 1

- une méthode de calcul dans le cas général

La méthode que nous donnons ici est simple 2. Elle procède de façon itérative en posant au
départ . On calcule les vecteurs propres unitaires de S rangés dans le tableau U :

Si l’on veut retenir q facteur communs on ne garde que les q premières colonnes de , tableau
que l’on notera on devrait pouvoir écrire :

On estimera donc provisoirement par les éléments diagonaux de ( ), et on


calculera q premiers vecteurs propres de (S- ).

33
A l’itération suivante on estime par de ( ), et l’on poursuit les opérations
jusqu’à observer une convergence raisonnable du processus. On aura alors obtenu la
décomposition cherchée :

Motionnons pour conclure ce bref aperçu les travaux historiques d’Anderson et Rubin (1956)
et de la lawley et maxwell (1963) qui placé l’analyse factorielle en communs et spécifiques
dans un cadre inférentiel classique.

10. Exemple d’application dans R


1. Le logiciel R
• Développé par Ross Ihaka et Robert Gentleman de l'Université d'Auckland, puis par des
volontaires
• Très grand choix de techniques statistiques, y compris les plus récentes (packages)
• Langage de programmation, logiciel mathématique (calcul matriciel, int. numérique,
optimisation, …)
• Graphiques très flexibles et d’une qualité remarquable
• C’est gratuit!!!
2. Installation du logiciel R et paquetages
• Télécharger le logiciel R à : http://cran.r-project.org/
• De nombreux paquetages sont aussi disponibles, qui étendent les fonctionnalités de R (à
installer via Internet).
3. Exemple :( ACP version raccourcie-nouveau masque-1.pdf)
Le tableau de cet exemple possède 21 lignes, et chaque ligne est associée à une eau minérale
gazeuse. Les données recueillies donnent la composition minérale des eaux.

L’ACP sera réalisé avec des variables concernant 8 minéraux qui sont des variables continues
exprimées en mg/l.

Des variables supplémentaires pourront être introduites a posteriori, plus tard, pour enrichir
les interprétations.

Ces variables supplémentaires peuvent être continues ou nominales. On dispose ici de la


variable prix qui est continue, et de quelques variables nominales comme la minéralité totale,
la région d’origine et la comparaison avec l’eau courante : l’eau est oui ou non conforme à
l’eau du robinet.

On se posera plusieurs problèmes : on comparera les eaux minérales gazeuses selon leur
composition, on étudiera une éventuelle liaison entre le prix et la minéralité, et également
l’influence de la provenance géographique sur leur composition.

34
Cet ensemble de données va illustrer la méthode ACP, mais n’en montre pas toute la
puissance, ni toute l’efficacité puisque les fichiers de données réelles peuvent comporter des
milliers de lignes et une centaine de colonnes ou plus.

Eau-minérale Calcium Magnésium Potassium Bicarbonates Sulfates Fluorures Sodium Nitrates Prix-litre
Arcens 14,5 24 10,7 1213 11 1,3 439 0,14 0,34
Arvie 170 92 130 2195 31 0,9 650 0 0,44
Badoit 190 85 10 1300 40 1 150 5,8 0,64
Beckerich 83,4 32 7,6 353 124 0,6 34 1 0,17
Châteauneuf 152 36 40 1799 195 3 651 0,05 0,58
Eau-de-Perrier 149 7 1,4 420 42 0,05 11,5 5,2 0,72
Faustine 170 50 26 1200 8 2 230 0,05 0,2
La-Salvetat 253 11 3 820 25 0,25 7 0,05 0,38
Perrier 149 7 1,4 420 42 0,05 11,5 5,6 0,94
Puits-St-eorges 46 34 18,5 1373 10 0,5 434 8 0,35
Pyrénées 48 12 1 183 18 0,05 31 5 0,3
Quézac 241 95 49,7 1685 143 2,1 255 0,05 0,52
San-Pellegrino 185 53 2,5 237,9 444 0,6 35 2 0,65
St-Diéry 85 80 65 1350 25 0,3 385 1,9 0,32
St-Jean 76 25 36 908 52 1,1 228 1,4 0,4
St-Pierre 35 20 36 1180 35 1,7 383 0,05 0,32
St-Yorre 90 11 132 4368 174 9 1708 2,5 0,53
Vernet 29 17 22 470 7 1,3 120 0,05 0,36
Vernière 190 72 49 1170 158 0,05 154 1,2 0,39
Vichy-Célestins 103 10 66 2989 138 5 1172 1,5 0,59
Wattwiller 135 15,4 1,9 172 247 1,6 3 0 0,77

Voici le tableau avec en ligne, 21 eaux gazeuses: Arcens, Arvie, …, et en colonne, les 8
minéraux : calcium, magnésium, potassium, … tous mesurés en mg/l.

Notre objectif est dans un 1er temps de comparer les eaux minérales en fonction de la
similitude des compositions en minéraux. Les variables choisies concernant la composition
sont appelées les variables actives. Elles constituent les seuls éléments utilisés pour le
moment pour comparer les eaux entre elles. Une analyse commence donc toujours par le
choix des éléments actifs.

35
Calcium Magnésium Potassium Bicarbonates Sulfates Fluorures Sodium Nitrates
Moyenne 124 38 34 1229 94 1,5 338 2
Ecart-type 68 29 38 990 105 2 417 2,4
Minimum 15 7 1 172 7 0,1 3 0
Maximum 253 95 132 4368 444 9 1708 8

Pour commencer, on va vérifier la cohérence des données par quelques statistiques


élémentaires : moyenne, écart-type, minimum, maximum… Une erreur grave de mesure
pourrait perturber l’analyse.

C’est un petit tableau. Néanmoins, un examen direct des données ne donne que des
renseignements très succincts. Il est difficile de repérer les eaux de composition similaire, ou
encore des minéraux qui se répartissent de la même façon sur toutes les eaux.

On peut remarquer, par exemple, que « Pyrénées » a des valeurs assez faibles pour l’ensemble
des minéraux, tandis que « St-Yorre » a des valeurs plutôt élevées. Mais, il est difficile de
trouver directement, à la lecture des données brutes, l'ensemble des similitudes entre lignes et
des similitudes de distribution dans les colonnes.

La petite taille du tableau est intéressante pour suivre les calculs, présenter la nature des
résultats, bref pour la pédagogie de l’exposé. La vraie puissance de la méthode s'apprécierait
mieux sur des tableaux plus riches, décrivant des phénomènes plus complexes et des
problèmes plus réels.

Nuage des 21 points-lignes approché dans R2 par l’ACP

36
Axe 2

Axe 1

le point du nuage le plus excentré à droite, a la coordonnée la plus élevée sur le 1er axe, l'axe
horizontal.

Les deux points opposés, comme Pyrénées en haut et Quézac en bas, indiquent que les
compositions minérales sont probablement assez différentes.

Mais on prendra garde que les projections sur le plan déforment le nuage : elles réduisent les
distances entre points.

En bref, deux points proches sur le plan ne sont pas nécessairement aussi proches qu’ils le
paraissent, surtout quand on s'approche du centre.

Nuage des 8 minéraux approché dans R2 par l’ACP

37
Axe 2

Axe 1

la représentation des variables: les 8 minéraux projetés sur le 1er plan factoriel. Ce sont les
colonnes du tableau. Traditionnellement, les colonnes sont représentées par des flèches. On
trouvera une justification un plus loin.

Remarquons que les points, extrémités des flèches, sont tous situés à l’intérieur d’un cercle de
rayon 1, appelé le cercle des corrélations.

Nous allons donner immédiatement quelques règles d’interprétation, en se réservant d'y


revenir plus tard pour des explications.

1ère règle : quand deux points sont proches du cercle et que les flèches forment un angle
faible, la corrélation entre les deux variables est forte.

C’est le cas pour tous les couples formés avec Fluorures–Sodium-Bicarbonates–Sodium–


Potassium.

Ceci confirme la dépendance forte déjà remarquée pour ces minéraux. Ce sont les 3 nuages
formés de points quasi–alignés dans la galerie des graphiques dessinée auparavant.

Deuxième règle : si l’angle est presque droit, la corrélation est presque nulle. C’est le cas par
exemple du couple Calcium–Potassium.

Le graphique montre clairement deux groupes de composants minéraux, les 4 composants


proches du premier axe, côté positif, et deux composants, Calcium et Magnésium, proches du
deuxième axe, côté négatif.

Tableau des données centrées et réduites

38
Carré de
la
Eau minérale Calcium Magnésium Potassium Bicarbonates Sulfates Fluorures Sodium Nitrates distance
à
l'origine

Arcens -1,60 -0,46 -0,61 -0,02 -0,78 -0,12 0,24 -0,77 4,44

Arvie 0,68 1,85 2,55 0,98 -0,60 -0,32 0,75 -0,83 13,07

Badoit 0,98 1,61 -0,63 0,07 -0,51 -0,27 -0,45 1,61 7,06

Beckerich -0,59 -0,19 -0,70 -0,88 0,29 -0,47 -0,73 -0,41 2,65

Châteauneuf 0,42 -0,05 0,16 0,58 0,96 0,71 0,75 -0,81 3,19

Eau de Perrier 0,37 -1,04 -0,86 -0,82 -0,49 -0,74 -0,78 1,35 5,85

Faustine 0,68 0,42 -0,21 -0,03 -0,81 0,22 -0,26 -0,81 2,12

La Salvetat 1,90 -0,90 -0,82 -0,41 -0,65 -0,64 -0,79 -0,81 7,40

Perrier 0,37 -1,04 -0,86 -0,82 -0,49 -0,74 -0,78 1,52 6,33
Puits St-
8,83
Georges -1,14 -0,12 -0,41 0,15 -0,79 -0,52 0,23 2,53
Pyrénées -1,11 -0,87 -0,87 -1,06 -0,72 -0,74 -0,74 1,27 7,07

Quézac 1,73 1,95 0,42 0,46 0,47 0,27 -0,20 -0,81 8,17

San Pellegrino 0,90 0,53 -0,83 -1,00 3,32 -0,47 -0,73 0,01 14,56

St-Diéry -0,57 1,44 0,83 0,12 -0,65 -0,62 0,11 -0,03 3,92

St-Jean -0,70 -0,43 0,06 -0,32 -0,40 -0,22 -0,26 -0,24 1,11

St-Pierre -1,30 -0,60 0,06 -0,05 -0,56 0,07 0,11 -0,81 3,04

St-Yorre -0,49 -0,90 2,61 3,17 0,76 3,67 3,29 0,22 42,87

Vernet -1,39 -0,70 -0,31 -0,77 -0,82 -0,12 -0,52 -0,81 4,72

Vernière 0,98 1,17 0,40 -0,06 0,61 -0,74 -0,44 -0,33 3,71

Vichy-Célestins -0,30 -0,94 0,86 1,78 0,42 1,70 2,00 -0,20 11,98

Wattwiller 0,17 -0,75 -0,85 -1,07 1,45 0,02 -0,80 -0,83 5,90

Moyenne 0 0 0 0 0 0 0 0 168

Ecart-type 1 1 1 1 1 1 1 1
Minimum -1,60 -1,04 -0,87 -1,07 -0,82 -0,74 -0,80 -0,83

Maximum 1,90 1,95 2,61 3,17 3,32 3,67 3,29 2,53

le tableau des données après l’opération de centrage–réduction.

Les compositions des minéraux étaient exprimées en mg/l. Toutes les valeurs étaient positives
évidemment.

Après l’opération de centrage–réduction, il n’y a plus d’unité. Les variables sont toutes de
moyenne nulle, certaines positives, d'autres négatives ; et leur écart–type est égal à 1 pour
toute variable.

On va regarder ce que cela veut dire pour le calcul des distances.

On calcule par exemple le carré de la distance entre les deux premières lignes (Arcens et
Arvie). L'amorce du calcul est immédiatement sous le tableau. Le résultat est 21,9.

On calcule de la même façon la distance entre deux variables. Prenons par exemple les 2
premières colonnes, Calcium et Magnésium. Sur la dernière ligne sous le tableau, on trouve
après calcul la valeur 1,1.

39
Dans la dernière colonne du tableau, on a mis les carrés des distances de chaque individu à
l’origine. On voit, par exemple, que St-Yorre est la plus excentrée. On l’avait déjà remarqué
sur le graphique de l’analyse présenté en préambule.

D’autre part, la somme des carrés des distances de tous les points à l’origine a été calculée
dans la dernière case de cette colonne. Elle est égale à 168 et on remarque que c'est le produit
8 fois 21 c'est-à-dire le produit du nombre n de lignes par le nombre p de colonnes.

Ce n'est pas un hasard. Le résultat se justifie de la façon suivante. La somme des carrés des
termes de la colonne j est égale à n : n fois la variance de la variable j, qui est égale à 1
comme on l'a vu. C’est la raison pour laquelle on obtient p fois n.

Conséquence importante, qui est une propriété remarquable de l'ACP normée: la dispersion
totale des points est, en ACP normée, une fonction des seules dimensions du tableau. Elle est
donc, en particulier, indépendante de la nature des liaisons entre les variables.

C'est cette dispersion globale, connue, qui va se répartir sur les axes factoriels de l'analyse. Et
cette répartition sera, elle, fonction de la structure des liaisons entre les variables

Les coordonnées factorielles des individus-lignes

Distance
Identificateur Axe 1 Axe 2 Axe 3 Axe 4 Axe 5 Axe 6 Axe 7 Axe 8 à
l'origine
Arcens -0,14 1,41 -0,04 1,34 0,38 0,55 -0,44 0,01 2,11

Arvie 2,02 -1,81 2,02 0,84 0,25 -0,93 -0,02 -0,07 3,62

Badoit -0,84 -0,85 1,55 -1,56 -0,08 0,87 0,12 -0,01 2,66

Beckerich -1,29 0,18 -0,60 0,58 0,49 0,10 0,09 0,02 1,63

Châteauneuf 1,26 -0,67 -1,01 0,09 -0,08 0,18 -0,27 -0,10 1,79
Eau de -1,83 0,89 0,06 -1,00 -0,72 -0,40 0,06 -0,02 2,42
Perrier
Faustine -0,11 -0,60 0,40 0,73 -0,85 0,54 0,20 -0,09 1,46

La Salvetat -1,36 -0,75 -0,40 0,40 -2,13 -0,22 -0,29 0,04 2,72

40
Perrier -1,86 0,94 0,11 -1,14 -0,70 -0,42 0,09 -0,02 2,52
Puits St- -0,58 1,89 1,32 -1,63 0,67 0,06 -0,26 0,04 2,97
Georges
Pyrénées -1,88 1,78 0,27 -0,37 0,30 -0,16 0,18 -0,05 2,66

Quézac 0,60 -2,68 0,50 0,00 -0,25 0,55 0,19 0,07 2,86
San -1,27 -2,12 -2,29 -1,20 1,31 -0,17 -0,12 -0,03 3,82
Pellegrino
St-Diéry 0,24 -0,41 1,60 0,54 0,91 -0,07 -0,06 -0,06 1,98

St-Jean -0,37 0,68 0,03 0,65 0,15 -0,23 0,13 0,07 1,05

St-Pierre 0,19 1,12 -0,15 1,28 0,27 0,02 -0,03 0,07 1,74

St-Yorre 6,32 1,13 -0,73 -0,99 -0,20 -0,07 0,35 0,04 6,55

Vernet -0,79 1,27 -0,17 1,51 0,22 0,07 0,33 0,00 2,17

Vernière -0,34 -1,80 0,36 -0,05 0,27 -0,31 -0,14 0,14 1,93
Vichy- 3,20 0,86 -0,79 -0,32 -0,35 0,09 -0,40 -0,03 3,46
Célestins
Wattwiller -1,16 -0,46 -2,04 0,31 0,16 -0,06 0,26 -0,02 2,43

Moyenne 0 0 0 0 0 0 0 0

Variance 3,57 1,74 1,12 0,87 0,49 0,15 0,05 0,00 8

Pourcentage 44,6 21,7 14,0 10,9 6,1 1,9 0,6 0,0 100

les coordonnées de tous les points dans le nouveau repère, c’est-à-dire sur les huit axes
factoriels. Dans la dernière colonne, on a recalculé la distance de chaque point à l’origine. On
retrouve par exemple que « Saint Yorre » est la marque la plus excentrée, avec une distance à
l’origine égale à 6,55.

Sur l’avant dernière ligne, figurent les variances des coordonnées sur chaque axe. C’est la
mesure de la dispersion des points sur chaque axe ; c’est cette dispersion que le critère a
maximisé. Il est donc bien normal d’avoir des variances décroissantes, du 1er au dernier axe.

Encore une remarque importante : la somme des variances est égale à huit. Mais huit, c’est
aussi le nombre de variables. Est-ce une coïncidence propre à ces données ?

Dans le repère d’origine, la variance du nuage en projection sur chaque axe est égale à 1
puisque les variables sont centrées-réduites. Donc, la variance totale sur les huit axes
d’origine est égale à huit. Et la variance totale du nuage est propre au nuage ; c'est la même
avant et après le changement de repère fait par l'ACP.

Il est intéressant de calculer les pourcentages de dispersion sur chaque axe factoriel. C’est ce
qu'on trouve dans la dernière ligne du tableau: le 1er axe prend en compte 44,6% de la
dispersion, et le 2ème axe 21,7%. Ce qui donne 66,3% de la dispersion totale pris en compte
sur le 1er plan factoriel.

Plus ce pourcentage est fort, plus les distances sur le plan sont globalement proches des
distances réelles. C'est le critère d'optimalité de la représentation choisi pour définir l'ACP.

41
Le premier plan factoriel des individus–lignes

Identificateur Axe 1 Axe 2


Arcens -0,14 1,41
Arvie 2,02 -1,81
Badoit -0,84 -0,85
Beckerich -1,29 0,18
Châteauneuf 1,26 -0,67
Eau de
-1,83 0,89
Perrier
Faustine -0,11 -0,60
La Salvetat -1,36 -0,75
Perrier -1,86 0,94
Puits St-
-0,58 1,89
Georges
Pyrénées -1,88 1,78

42
Quézac 0,60 -2,68
San
-1,27 -2,12
Pellegrino
St-Diéry 0,24 -0,41
St-Jean -0,37 0,68
St-Pierre 0,19 1,12
St-Yorre 6,32 1,13
Vernet -0,79 1,27
Vernière -0,34 -1,80
Vichy-
3,20 0,86
Célestins
Wattwiller -1,16 -0,46
Moyenne 0 0
Variance 3,57 1,74
Pourcentage 44,6 21,7

43
On trouve à droite le tableau des coordonnées axe 1, axe 2, qui ont permis de dessiner
ce graphique.

La marque « St-Yorre » a déjà été repérée comme la plus excentrée. C’est elle qui a la
coordonnée la plus élevée sur le 1er axe factoriel avec une valeur égale à 6,32. Le point le plus
excentré du nuage influence le plus souvent, comme ici, la direction du 1er axe factoriel.

Quand on fait un retour sur le tableau des données, on remarque que « Puits St-
Georges » et « Pyrénées » ont effectivement des valeurs proches pour l’ensemble des
minéraux. On retrouve les 2 marques voisines sur le plan factoriel.

A l’inverse, « Arcens » et « Arvie », qui ont des valeurs très différentes pour
l’ensemble des minéraux, sont bien des points éloignés sur le plan.

Cependant, prenons garde à l’interprétation des proximités. Il ne faut pas négliger les
déformations inévitables dues aux projections. On verra par la suite que deux points voisins
ne correspondent pas toujours à des points à valeurs proches dans les données. On introduira
d'ailleurs des indicateurs numériques pour nous éviter ces erreurs possibles de lecture.

Dispersion sur les axes factoriels

Identificateur Facteur 1 Facteur 2 Facteur 3


Arcens -0,14 1,41 -0,04
Arvie 2,02 -1,81 2,02
Badoit -0,84 -0,85 1,55
Beckerich -1,29 0,18 -0,60
Châteauneuf 1,26 -0,67 -1,01
Eau de Perrier -1,83 0,89 0,06
Faustine -0,11 -0,60 0,40
La Salvetat -1,36 -0,75 -0,40
Perrier -1,86 0,94 0,11
Puits St-
-0,58 1,89 1,32
Georges
Pyrénées -1,88 1,78 0,27
Quézac 0,60 -2,68 0,50
San Pellegrino -1,27 -2,12 -2,29
St-Diéry 0,24 -0,41 1,60

44
St-Jean -0,37 0,68 0,03
St-Pierre 0,19 1,12 -0,15
St-Yorre 6,32 1,13 -0,73
Vernet -0,79 1,27 -0,17
Vernière -0,34 -1,80 0,36
Vichy-
3,20 0,86 -0,79
Célestins
Wattwiller -1,16 -0,46 -2,04
Moyenne 0 0 0
Variances 3,57 1,74 1,12

le tableau des 3 premiers facteurs : ce sont, par définition du mot Facteur, les
coordonnées du nuage des individus sur les 3 premiers axes factoriels.

Par construction, par définition même, un axe factoriel est un axe de plus grande
dispersion, de plus grand allongement du nuage. Ou, ce qui revient au même, c'est un axe de
plus grande variance des coordonnées des points. Le premier axe est l'axe de plus grande
variance possible des coordonnées factorielles; le 2ème axe, est l'axe orthogonal de plus grande
variance résiduelle, etc. Ces variances successives, dans l'ordre décroissant, sont notées 
pour l'axe numéro a. C'est la formule affichée.

La plus grande variance correspond à la direction de plus grand allongement du nuage.


C'est la structure la plus forte des dépendances entre variables, ou de similitudes globales
entre individus. Les facteurs sont toujours rangés dans l'ordre de variances décroissantes.

Dans ce tableau de résultat, on a fait figurer ici les trois premiers facteurs avec leur
variance sur la dernière ligne: 3,57 pour la première, 1,74 pour la deuxième et 1,12 sur le 3ème
axe. Les colonnes Facteur 1 et facteur 2 sont les coordonnées utilisées pour placer les points-
individus sur le premier plan factoriel.

Reconstitution avec les deux premiers axes factoriels

Identificateur Facteur 1 Facteur 2


Arcens -0,14 1,41
Arvie 2,02 -1,81
Badoit -0,84 -0,85
Beckerich -1,29 0,18
Châteauneuf 1,26 -0,67
Eau de Perrier -1,83 0,89
Faustine -0,11 -0,60
La Salvetat -1,36 -0,75
Perrier -1,86 0,94
Puits St-Georges -0,58 1,89
Pyrénées -1,88 1,78
Quézac 0,60 -2,68
San Pellegrino -1,27 -2,12
St-Diéry 0,24 -0,41
St-Jean -0,37 0,68
St-Pierre 0,19 1,12

45
St-Yorre 6,32 1,13
Vernet -0,79 1,27
Vernière -0,34 -1,80
Vichy-Célestins 3,20 0,86
Wattwiller -1,16 -0,46
Variances 3,57 1,74
Pourcentage
variance 44,6 21,7

Soit 66%

Ce tableau reprend les coordonnées des individus sur les deux premiers axes factoriels.

La marque Saint Yorre est, comme nous l’avons déjà remarqué, le point le plus
excentré du nuage sur le 1er axe. La marque Vichy-Célestins a aussi une coordonnée élevée.

Le 2ème axe oppose Puits St-Georges et Pyrénées, avec les coordonnées les plus
élevées, à Quézac et San Pellegrino avec les coordonnées les plus faibles.

Sur l’avant dernière ligne, apparaissent les variances. En ACP normée, la variance ou
dispersion totale du nuage est égale au nombre de variables puisqu’elles sont toutes de
variance unité.

On voit que le 1er axe factoriel, avec une variance égale à 3,57, est une direction
d’allongement notable du nuage des individus. Le 2ème axe a une dispersion de 1,74 qui
encore élevé comparée à la dispersion moyenne par axe qui vaut un. La dispersion prise en
compte sur le 1er plan est 66% de la variance totale, c’est-à-dire 3,57 plus 1,74 divisé par 8.

Il est d’usage de faire apparaître ces dispersions en terme de pourcentage, le


pourcentage de dispersion évoquant l’importance de l’axe d’allongement correspondant. On
aura l’occasion de dire plus loin que l’interprétation de valeurs numériques de ces
pourcentages est très délicate. Ces valeurs dépendent de façon complexe de beaucoup
d’éléments, en particulier de la structure des données, du nombre de lignes et du nombre de
colonnes du tableau. On dira donc ici 66% sans savoir préciser si c'est une valeur un forte, très
forte ou exceptionnellement forte.

46
Interprétation de la représentation

Ce graphique représente le nuage des individus projeté sur le 1er plan factoriel,
graphique qu'on a déjà commenté.

La nouveauté ici est l'ensemble des flèches dessinées en brun autour du centre du
nuage. Chaque flèche correspond à une variable, colonne du tableau des données. Ce sont très
précisément les vecteurs unitaires du repère des variables initiales, repère grâce auquel on a
construit le nuage des individus. Les directions visibles ici sont très exactement ce repère
d'origine, où les vecteurs sont orthogonaux 2 à 2, écrasé par projection sur le premier plan
factoriel.

Cet écrasement cause évidemment des déformations. C'est bien clair puisque tous les
angles entre couple de vecteurs devraient être droits, et tous les vecteurs unitaires devraient se
terminer sur le cercle de rayon 1 tracé ici.

Mais, au moins pour les vecteurs variables qui ne sont pas trop éloignés du plan, la
direction qu'ils donnent sera celle des valeurs croissantes des variables.

On voit par exemple que, dans la direction de Sodium et Fluorures, se trouvent St-
Yorre et Vichy-Célestins. On peut effectivement vérifier sur le tableau des données que ces
deux eaux ont une minéralité en Sodium et Fluorure très supérieure à la moyenne.

Quant au vecteur Magnésium, il pointe sur Quézac. Et on vérifiera sur les données que
Quézac a une minéralité Magnésium très supérieure à la moyenne. Par contre, Puy St
Georges, qui a une faible teneur en Magnésium, est bien à l’opposé de Quézac sur le
graphique.

47
En bref, dans ce type de représentation où l'on trouve à la fois les individus et les
variables, les vecteurs-variables sont là pour typer les points individus vers lesquels ils
pointent. C'est là la règle d'interprétation du graphique.

Exemple numérique : corrélations et distances

Calcium Magnésium Potassium Bicarbonates Sulfates Fluorures Sodium Nitrates

Calcium 1

Magnésium 0,45 1

Potassium 0,01 0,34 1

Bicarbonates 0,00 0,12 0,85 1

Sulfates 0,32 0,08 0,01 0,03 1

Fluorures -0,11 -0,20 0,63 0,86 0,24 1

Sodium -0,21 -0,07 0,80 0,96 0,08 0,90 1

Nitrates -0,13 -0,13 -0,26 -0,10 -0,20 -0,19 -0,09 1

Calcium Magnésium Potassium Bicarbonates Sulfates Fluorures Sodium Nitrates


Calcium 0
Magnésiu
1,11 0
m
Potassium 1,98 1,33 0
Bicarbonat
2,00 1,76 0,31 0
es
Sulfates 1,35 1,84 1,98 1,94 0
Fluorures 2,22 2,41 0,74 0,28 1,51 0
Sodium 2,42 2,14 0,40 0,08 1,83 0,20 0
Nitrates 2,26 2,26 2,52 2,20 2,40 2,37 2,18 0

Les distances entre tous les couples de variables s’interprètent donc en fonction des
corrélations. Avec 8 variables, on a 56 (8 fois 7) couples de variables, et on calcule autant de
corrélations. Mais la corrélation entre j et j’ est la même qu’entre j’ et j. Les corrélations sont
rangées dans un tableau symétrique avec des 1 sur la diagonale. On ne présente donc que la
moitié du tableau, la moitié inférieure, par exemple.

A partir de ce tableau, on calcule les carrés des distances entre tous les couples de
variables.

Les termes diagonaux de la matrice des distances correspondent à la distance d’une


variable avec elle-même. Ils sont bien nuls.

Examinons ce qui se passe avec ces deux tableaux de corrélations et de distances.

La corrélation entre les minéraux « Calcium » et « Bicarbonates » est très proche de 0.


Le carré de leur distance est voisin de deux. Les deux vecteurs associés seront orthogonaux.

La corrélation entre les minéraux « Sodium » et « Bicarbonates » est égale 0,96. Le


carré de leur distance est égal à 0,08, c’est-à-dire très faible. Les deux vecteurs associés seront
donc quasi–confondus.

48
Pour les minéraux « Sodium » et « Fluorures », le coefficient de corrélation est égal à
0,90, et le carré de la distance à 0,2.

Le carré de la distance entre les minéraux « Potassium » et « Nitrates » est égal à 2,52.
Un carré de distance supérieur à 2 correspond à une corrélation négative. L’angle entre les
deux vecteurs est supérieur à 90°.

Représentation approchée des variables

Libellé de la
Axe 1 Axe 2
variable
Calcium -0,07 -0,82
Magnésium 0,06 -0,76
Potassium 0,88 -0,18
Bicarbonates 0,97 0,00
Sulfates 0,14 -0,48
Fluorures 0,91 0,14
Sodium 0,97 0,18

Les vecteurs–variables avec des extrémités voisines du cercle, sont très proches du 1er
plan factoriel. En effet, la projection a très peu raccourci leur longueur réelle égale à 1. Ce
sont les variables bien représentées.

La distance entre deux variables bien représentées donne une bonne idée de la valeur
de leur corrélation. On arrive à une propriété intéressante de l’ACP : la représentation des
variables dans le 1er plan factoriel fournit une visualisation de la matrice des corrélations.

Pour nos données, les minéraux Potassium, Bicarbonates, Fluorures et Sodium sont
bien représentés, ainsi que les minéraux Calcium et Magnésium.

49
Les minéraux Bicarbonates et Sodium sont bien représentés et font entre eux un angle
faible sur l’image factorielle. On a vu que le carré de leur distance est proche de 0 et que leur
corrélation est très élevée.

Si deux minéraux bien représentés sont presque perpendiculaires, comme pour


Bicarbonates et Calcium, la corrélation est voisine de zéro. Dans ce cas, quand l’un des
minéraux augmente, on ne sait pas ce que fera l’autre.

En examinant le 1er plan factoriel et les valeurs des coordonnées des variables sur
chacun des axes, on remarque un 1er groupe de minéraux liés entre eux avec des coordonnées
élevées sur le 1er axe factoriel : ce sont Potassium, Bicarbonates, Fluorures et Sodium.

On remarque aussi un 2ème groupe de minéraux liés entre eux avec des coordonnées
plutôt élevées sur le 2ème axe factoriel : ce sont Calcium et Magnésium.

Les deux derniers minéraux Sulfates et Nitrates sont mal représentés. On aurait besoin
dans ce cas d’autres axes factoriels. On les utilisera effectivement pour autre chose que la
visualisation.

Nuage des individus et nuage des variables

1/ Nuage des individus

Nuage des individus et direction des variables d’origine dans le nuage des point–lignes

2/Nuage des variables

50
Nuage des variables : visualisation de la matrice des corrélations

L’Analyses en Composantes Principales du nuage des individus et du nuage des


variables sont liées par les relations de transition.

Exemple numérique : deux continues supplémentaires

Pour l’analyse et l’exploration d’un phénomène, on rassemble dans un tableau autant


d’observations que possible, en ligne et en colonne. Plus le tableau est riche et abondant, plus
on aura de chance que son exploration par analyse factorielle apporte des enseignements
intéressants.

Introduisons maintenant une nouvelle continue supplémentaire, la minéralité totale,


somme pour chaque eau gazeuse des valeurs de tous les composants minéraux.

Pour Arcens par exemple, 1714 est la somme de 14,5 pour calcium, 24 pour
Magnésium …

51
Minéralité
Eau minérale Calcium Magnésium Potassium Bicarbonates Sulfates Fluorures Sodium Nitrates Prix/litre
totale

Arcens 14,5 24 10,7 1213 11 1,3 439 0,14 1714 0,34


Arvie 170 92 130 2195 31 0,9 650 0 3269 0,44
Badoit 190 85 10 1300 40 1 150 5,8 1782 0,64
Beckerich 83,4 32 7,6 353 124 0,6 34 1 636 0,17
Châteauneuf 152 36 40 1799 195 3 651 0,05 2876 0,58
Eau de Perrier 149 7 1,4 420 42 0,05 11,5 5,2 636 0,72
Faustine 170 50 26 1200 8 2 230 0,05 1686 0,2
La Salvetat 253 11 3 820 25 0,25 7 0,05 1119 0,38
Perrier 149 7 1,4 420 42 0,05 11,5 5,6 637 0,94
Puits St-Georges 46 34 18,5 1373 10 0,5 434 8 1924 0,35
Pyrénées 48 12 1 183 18 0,05 31 5 298 0,3
Quézac 241 95 49,7 1685 143 2,1 255 0,05 2471 0,52
San Pellegrino 185 53 2,5 237,9 444 0,6 35 2 960 0,65
St-Diéry 85 80 65 1350 25 0,3 385 1,9 1992 0,32
St-Jean 76 25 36 908 52 1,1 228 1,4 1328 0,4
St-Pierre 35 20 36 1180 35 1,7 383 0,05 1691 0,32
St-Yorre 90 11 132 4368 174 9 1708 2,5 6495 0,53
Vernet 29 17 22 470 7 1,3 120 0,05 666 0,36
Vernière 190 72 49 1170 158 0,05 154 1,2 1794 0,39
Vichy-Célestins 103 10 66 2989 138 5 1172 1,5 4485 0,59
Wattwiller 135 15,4 1,9 172 247 1,6 3 0 576 0,77

Représentation graphique

1  0,98 cor  Prix, axe 1  0, 02




2   0, 04 cor  Prix, axe 2   0,13

52
Cette nouvelle variable continue supplémentaire est très liée au 1er axe factoriel avec une
corrélation linéaire de 0,98.

Cette corrélation très élevée permet d’interpréter le 1er axe. C’est l’axe « Minéralité » sur
lequel les eaux gazeuses vont être à peu près rangées selon leur degré de minéralité.

Pour l’analyse et l’exploration de données, on rassemble autant de variables que possible.


Plus le tableau est riche et abondant, plus on aura de chance que son exploration par analyse
factorielle apporte des enseignements intéressants.

Pour notre exemple, le prix ne nous apporte rien, tandis que la minéralité totale nous permet
de donner un sens au 1er axe factoriel.

représentation des eaux minérales

Coordonnées Cosinus carrés


Cérré de la
Identificateur distance à Axe 1 Axe 2 Axe 1 Axe 2 Qualité
l'origine
Arcens 4,4 -0,14 1,41 0,00 0,45 0,45
Arvie 13,1 2,02 -1,81 0,31 0,25 0,56
Badoit 7,1 -0,84 -0,85 0,10 0,10 0,20
Beckerich 2,6 -1,29 0,18 0,62 0,01 0,64
Châteauneuf 3,2 1,26 -0,67 0,50 0,14 0,64
Eau de Perrier 5,8 -1,83 0,89 0,58 0,14 0,71
Faustine 2,1 -0,11 -0,60 0,01 0,17 0,18
La Salvetat 7,4 -1,36 -0,75 0,25 0,08 0,33
Perrier 6,3 -1,86 0,94 0,54 0,14 0,68
Puits St-Georges 8,8 -0,58 1,89 0,04 0,40 0,44
Pyrénées 7,1 -1,88 1,78 0,50 0,45 0,95
Quézac 8,2 0,60 -2,68 0,04 0,88 0,92
San Pellegrino 14,6 -1,27 -2,12 0,11 0,31 0,42
St-Diéry 3,9 0,24 -0,41 0,01 0,04 0,06
St-Jean 1,1 -0,37 0,68 0,12 0,42 0,54
St-Pierre 3,0 0,19 1,12 0,01 0,41 0,42
St-Yorre 42,9 6,32 1,13 0,93 0,03 0,96
Vernet 4,7 -0,79 1,27 0,13 0,34 0,48
Vernière 3,7 -0,34 -1,80 0,03 0,88 0,91
Vichy-Célestins 12,0 3,20 0,86 0,85 0,06 0,91
Wattwiller 5,9 -1,16 -0,46 0,23 0,04 0,26

• Qualité de représentation sur le 1er plan factoriel particulièrement bonne pour

Pyrénées, Quézac, St-Yorre, Vernière, Vichy-Célestins.

Les eaux minérales Pyrénées, Quézac, St-Yorre , Vernière et Vichy-Célestins


sont les eaux les mieux représentées dans ce plan. Ainsi 95% de la vraie
distance de Pyrénées à l'origine est visible sur le graphique (vraie distance au
carré).

53
Ce qui veut dire que ces points sont situés presque exactement dans le 1er plan
factoriel. Leurs distances deux à deux sur ce plan sont donc des images assez
fidèles des vraies distances qui les séparent dans l’espace à 8 dimensions.

On ne peut pas en dire autant de points comme St-Diéry, Wattwiller, Salvetat,


Faustine et Badoit, par exemple, pour lesquels il serait plus hasardeux de
comparer les distances sur le graphique.

Qu'est-ce qui nous fait dire que ces points sont bien ou mal représentés? Il n’y
a pas de seuil pour parler d’une « bonne » qualité de représentation. Mais il est
évidemment utile de repérer les points les mieux représentés et les plus mal
représentés.

la représentation des individus sur le 1er plan factoriel avec des points
proportionnels à leur qualité de représentation – somme des carrés des cosinus.

On repère visuellement les eaux les mieux représentées dans le plan : St-Yorre
et Vichy-Célestins en haut à droite, Quézac et Vernière en bas du graphique,
Pyrénées en haut à gauche, ainsi que Perrier, Eau de Perrier et Beckerich.

Une telle représentation visuelle a l'intérêt d'attirer l'attention facilement sur les
positions interprétables sans danger dans le plan.

54
55
1. Introduction
On sait que, à tout espace normé, on peut associer un espace métrique: il suffit de prendre
comme distance entre deux points la norme du vecteur différence. Inversement, certaines
distances, nommées Euclidiennes, peuvent être associées à une norme dérivant d’un produit
scalaire, toujours par l’intermédiaire du vecteur différence. Il existe donc bien, dans certains
cas, une relation entre espaces normés et espaces métriques, relation non symétrique
d’ailleurs.
On peut également considérer qu’un espace vectoriel de dimension 1, c’est à dire un axe,
induit un ordre sur les points. L’analyse ordinale a comme but essentiel de rechercher un tel
axe, ou l’ordre qu’il induit, en respectant au mieux les préférences émises. Comme on peut
présenter l’Analyse en Composantes Principales comme la recherche d’un espace de
dimension restreinte et fixée, respectant au mieux les similarités (produits scalaires), on voit
le lien entre ACP et Analyse Ordinale. Le positionnement multidimensionnel cherche lui à
construire des espaces, non nécessairement Euclidiens, respectant au mieux les distances. Les
liens unissant ACP et positionnement multidimensionnel, ou encore similarités et
dissimilarités, ont déjà été étudiés sous le nom de fonctions de similitude. Pour conclure, on
peut dire que l’analyse ordinale cherche à extraire une matrice triangulaire qu’elle
privilégiera, considérant sa symétrique comme nulle; tandis que l’analyse ordinale que nous
proposons accordera autant d’importance aux deux parties de la matrice, estimant qu’elles
sont également porteuses d’information

2. Analyse des préférences

On suppose donnée une matrice P de préférences, et on désire la représenter «au mieux» dans
des espaces adaptés. Plusieurs critères sont possibles.
Critère Pref0
On cherche K axes de préférences, chacun représentant un ordre sur les produits, de poids ,
avec coordonnée du produit i sur l’axe , et tels que
– – Soit minimum.
L’exposant 0 a comme conséquence de chercher des ordres tels que le nombre de fois où le
produit i a été jugé meilleur que le produit j est le plus proche possible des préférences
données.
Une alternative consiste à optimiser le critère Pref1 défini comme
– minimum.
Ces deux critères sont des cas particuliers non symétriques du problème de MDS L1 à savoir
– –

Ces critères sont optimisés à l’aide d’exploration systématique d’arbres et de procédés


d’élagage de certaines branches. Ils sont efficaces et rapides jusqu’à environ douze produits,
ce qui est suffisant.
La méthode est appliquée à un exemple de l’industrie automobile, portant sur le confort
postural des sièges

56
La notion de préférence collective se trouve dans de nombreux problèmes tels l’Analyse
Ordinale ou l’Analyse Sensorielle. Sur le plan mathématique on peut la présenter comme une
notion de distance, ou plutôt de dissimilarité non symétrique. Après avoir défini la notion de
préférence de Minkovsky, en analogie avec les distances du même type, nous montrons que
l’on peut étendre à ce type de distance non symétrique la problématique et les algorithmes du
Multidimensionnel Scaling. En particulier nous fournissons des algorithmes optimaux pour
une analyse métrique en norme L1, et une autre pour une analyse en norme L0, débouchant sur
des analyses ordinales simultanées. Un exemple est traité.
3. Exemple d’application
 Analyse des préférences des consommateurs
 Questions :
• Pourquoi les consommateurs aiment ou n’aiment pas un produit ?
• Quel nouveau produit fabriqué pour qu’il soit apprécié par beaucoup de consommateurs
(quel nouveau marché visé) ?
 Objectif de la cartographie des préférences
Relier les préférences des consommateurs aux caractéristiques physico-chimiques et/ou
sensorielles d’un produit Objectif de la cartographie des préférences.
Visualiser ces relations sur une carte « facilement » lisible.
 Cartographie des préférences
Deux types de cartographie
• Cartographie interne : différences entre produits fondées sur les préférences des consommateurs
puis mise en relation avec les caractéristiques sensorielles et/ou physico-chimiques des produits
• Cartographie externe : différences entre produits fondées sur leur caractéristique sensorielle et/ou
physico-chimique puis mise en relation avec les préférences des consommateurs Cartographie des
préférences des consommateurs.
A. Cartographie interne

1ère étape : Construction d’une carte à partir des préférences des consommateurs : ACP
avec les préférences en variables actives

57
2ème étape : Mise en relation avec les préférences des consommateurs: projection des
descripteurs sensoriels et/ou des variables physico-chimiques en tant que variables
supplémentaires

58
 Classification et segmentation des consommateurs
Possibilité de « segmenter » les consommateurs en classes de préférence Classification de
variables ou transposition du tableau et classification des consommateurs

59
 Classification et segmentation des consommateurs
Étude des préférences par classe et caractérisation des classes à partir des produits préférés
par classe ou des caractéristiques des consommateurs

Classe Coeff mean P-value Vtest


1 / 4 Adjust

Prod.9 -1.4107796 4.812500 1.303011 -4.839294


e-06
Prod.14 -1.4319588 4.968750 1.005624 -4.890535
e-06
Prod.1 -1.7774188 3.531250 4.374504 -5.051894
e-07
Prod.6 -1.5711871 3.093750 2.734544 -5.140880
e-07
Prod.10 -1.8230864 4.437500 6.342102 -5.408877
e-08

60
Classe Coeff mean P-value Vtest
2 / 4 Adjust

Prod.1 0.7439628 6.052632 0.01966775 2.332627

Représentation des moyennes de classe

class Pr.1 Pr.2 Pr.3 Pr.4 Pr.5 Pr.6 Pr.7 Pr.8 Pr.9 Pr. Pr. Pr. Pr. Pr. Pr. Pr.
10 11 12 13 14 15 16
1 3.71 7.36 8.07 7.93 3.86 5.86 3.00 6.36 5.36 3.07 4.57 4.14 3.57 5.93 6.21 6.00
2 6.72 6.89 7.00 6.33 5.36 6.81 4.64 5.56 7.58 5.33 7.64 5.78 5.56 7.14 6.61 6.61
3 4.27 5.07 4.67 3.73 4.87 5.13 3.53 4.67 5.40 5.47 4.67 4.33 3.80 5.33 5.47 5.60
4 4.06 4.09 7.12 6.24 2.35 5.79 2.62 4.32 7.62 4.00 6.79 2.97 3.44 5.56 6.26 5.15

61
B. Cartographie externe

1ère étape: Construction d’une carte à partir des descripteurs sensoriels et/ou physico-
chimiques: ACP avec descripteurs en variables actives

Comment construire la carte des produits en cartographie externe?


• Par une ACP
• Par une AFM si variables de natures différentes (sensorielle et physico-chimique par
exemple)

2ème étape: Mise en relation avec les préférences des consommateurs: régression des
préférences sur les composantes principales de l’ACP obtenues à l’étape 1
Comment relier la carte des produits aux préférences des consommateurs ?
Idée : construire, par consommateur, un modèle de régression de la préférence en fonction des
composantes principales de l’ACP

62
Conso j F1 F2
Prod.1
Prod.2 Conso j = m + aF1 +bF2
Prod.3

Prod. I

63
Mais : préférences des consommateurs pas toujours linéaire

Préférence

__ Saveur sucrée ++

Produit apprécié si ni trop sucré ni trop peu

Plusieurs modèles possibles:


- Modèle vectoriel : Y = m + a F1 + b F2
- Modèle circulaire : Y = m + a F1 + b F2 + c (F12 + F22)
- Modèle elliptique : Y = m + a F1 + b F2 + c F1 2 + d F22
- Modèle complet : Y = m + a F1 + b F2 + c F12 + d F22 + e F1F2

Comment synthétiser les préférences de tous les consommateurs ?


- Discrétiser le plan de la carte de l’ACP

- Pour chaque consommateur, séparer le plan en zone(s) de préférence et zone(s) de


rejet (i.e. pour chaque point de la carte, prédire à l’aide du modèle de régression, si
la prédiction est supérieure à la moyenne : zone de préférence, sinon zone de rejet)

- Cumuler toutes les zones de préférences sur une seule carte (i.e. pour chaque
point de la carte, comptabiliser le nombre de consommateurs qui considèrent ce
point comme un point de préférence)

64
- Pour chaque consommateur, on peut aussi matérialiser « son » produit idéal
(i.e. le point de la carte pour lequel la prédiction est la plus élevée) par une
croix

 Modèle circulaire

Rq : préférence individuelle souvent dans les coins: même problème que modèle vectoriel

65
 Modèle elliptique

66
 Modèle quadratique complet

Produits 2, 8, 11 plus appréciés que les autres : intérêt de la carte sur ces données ?
 Problèmes possibles: axe 1 et 2 de l’analyse factorielle peu liés aux préférences
 Amélioration possible: Remplacer l’analyse factorielle par de la régression PLS avec
X l’ensemble des descripteurs et Y l’ensemble des préférences : la carte des produits
fournie aura des axes liés aux préférences
 Problème liés à la régression: si modèle complet, 6 paramètres sont à estimer à partir
de I produits (I = 8, 10 ?), quel est la stabilité du modèle ?
 Amélioration possible: faire une régression PLS et ne conserver que les 2 premières
composantes PLS (i.e. revient à n’estimer « que » 3 paramètres : la moyenne et un
paramètre par composante)
C. Cartographie
- Avantages de la cartographie :
Carte : rendu joli
- Désavantages:
 Stabilité des jugements hédoniques peu évidente.
 Construction de modèle avec peu de produits peu stable.

67
 Analyse des préférences avec PREFMAP :
Tableau des fréquences d’association entre les critères et les groupes

Centre de gravité des groupes

X1 X2

68
La corrélation entre [Homme] et les projections est maximum

Calcul de la position des commentaires

 10  
 14  
   
Max COR p Homme  15 , y1X1  y2 X2 
  
   
y12  y22 1  16  
  25 
 

Solution

1. Régression de PHomme sur X1, X2

pHomme  cste  y1X1  y2 X2


2. Normalisation
1  y1 
y Homme  y 
y12  y22  2

69
Model Summary

Adjust ed Std. Error of


Model R R Square R Square the Estimate
1 .876a .768 .535 3. 765
a. Predic tors : (Const ant), X2, X1

Coeffici entsa

Uns tandardized Standardized


Coef f icients Coef f icients
Model B Std. Error Beta t Sig.
1 (Constant) 16. 777 1. 713 9. 793 .010
X1 3. 671 1. 702 .737 2. 157 .164
X2 2. 965 1. 908 .531 1. 554 .260
a. Dependent Variable: Hommes

1  3.671 .78
yHomme   
2  2.965
3.671  2.965 
2
 .63

Utilisation du Prefmap

70
Y Constante Axe_1 Axe_2 R² Cos1 Cos2
Hommes 16.777 3.671 2.965 0.768 0.78 0.63
Femmes 24.155 -6.150 -3.711 0.889 -0.86 -0.52
Jeunes 12.622 -0.899 -0.453 0.305 -0.89 -0.45
Moins_jeunes 6.387 1.785 1.652 0.940 0.73 0.68
Aisés 9.549 -4.239 2.027 0.816 -0.90 0.43
Tout_le_monde 9.921 3.909 0.790 0.892 0.98 0.20
Grands_fumeurs 7.874 5.615 1.995 0.822 0.94 0.33
Petits_fumeurs 7.835 -1.736 -1.341 0.759 -0.79 -0.61
Snobs 7.102 -3.186 1.337 0.915 -0.92 0.39
Prolétaires 3.082 2.599 0.582 0.856 0.98 0.22
Employés 2.206 0.162 -0.498 0.411 0.31 -0.95
Non_connaisseurs 3.611 -0.918 -0.629 0.359 -0.82 -0.57
Fantaisie 2.726 -0.238 -0.722 0.789 -0.31 -0.95
Luxe 8.947 -4.127 1.561 0.805 -0.94 0.35
Pas_chère 7.259 3.579 0.710 0.971 0.98 0.19
Chère 10.075 -3.518 2.029 0.858 -0.87 0.50
Pharmaceutique 2.101 0.560 0.070 0.768 0.99 0.12
Bâtarde 3.047 -0.738 -0.521 0.323 -0.82 -0.58
Occasionnelle 11.583 -3.912 -2.914 0.943 -0.80 -0.60
Courante 13.664 8.814 2.656 0.926 0.96 0.29
Goût_agréable 6.865 -2.012 0.396 0.786 -0.98 0.19
Léger 13.828 -1.020 0.140 0.294 -0.99 0.14
Parfumé 2.919 -1.630 0.102 0.894 -1.00 0.06
Infecte 9.233 -1.816 -1.082 0.341 -0.86 -0.51
Corsé 11.706 5.522 3.067 0.825 0.87 0.49
Mentholé 10.566 -3.983 -11.857 0.975 -0.32 -0.95
Fade 5.333 -0.198 -0.714 0.228 -0.27 -0.96
Esthétique 8.249 -3.557 1.591 0.835 -0.91 0.41
Goût_américain 3.058 -1.002 0.746 0.704 -0.80 0.60
Gâterie_offerte 3.199 -1.242 0.366 0.913 -0.96 0.28
Passe_temps 4.965 -2.278 -0.805 0.988 -0.94 -0.33
Pour_faire_bien 7.348 -3.823 0.390 0.942 -0.99 0.10

71
Carte des préférences

1
Moins_jeunes
groupe_3
Goût_américain Hommes
Chère Corsé
Aisés
Esthétique
Snobs groupe_2 Courante
Luxe 0.5 Grands_fumeurs
Gâterie_offerte Prolétaires
Goût_agréable groupe_5
Léger
Pour_faire_bien Tout_le_monde
groupe_4
Parfumé Pas_chère
0 Pharmaceutique
-2 -1.5
Passe_temps -1 -0.5 0 0.5 1 1.5 2
Axe_2

Jeunes -0.5
Non_connaisseur
Femmes
Infecte
Bâtarde
Petits_fumeurs
s
Occasionnelle -1
Mentholé Fade
Fantaisie Employés

-1.5

groupe_1
-2

Axe_1

29

Critères classés par valeur décroissante du R2 > .76

72
73
74
1. Rappel

La relation montre que l’on peut calculer les coordonnées des points individus sur les axes
factoriels (les ) si l’on connait les vecteurs et valeurs propres de la matrice d’inertie des
points variables . Il suffit donc de connaitre cette matrice puis de la diagonaliser pour obtenir
une représentation euclidienne des points individus.

Réciproquement, la relation (2) montre qu’il suffit de connaitre la matrice d’inertie des
points individus, et de la diagonaliser, pour obtenir une représentation euclidienne des points
variables.

Ces constatation sont à l’origine de deux des applications les plus intéressantes de
l’analyse en composantes principales la représentation euclidienne d’un ensemble de variable
à partir d’une matrice de corrélation ; la représentation euclidienne d’un ensemble
d’individus à partir d’un tableau de distances

= (1)

Gα= Uαj (2)

2. Représentation d’un ensemble de variables à partir d’une matrice


de corrélation.

La matrice d’inertie du nuage N(1) des individus est, .

Ou est le coefficient de corrélation de variables j et j’ notons C la matrice symétrique

(k,k) de corrélation V=NC

Les vecteurs propres unitaires de C sont les même que ceux de V, notons l’ -ème valeur
propre de C : on a

En diagonalisant C on obtient les vecteurs propres U et les valeurs propre λα de V nous


avons

d’où

L’image euclidienne des points variables s’obtient donc à partir de la diagonalisation


de la diagonalisation de la matrice, on remarquera qu’ici l’image des points variables. Se
construit sans qu’il soit nécessaire de connaitre les valeurs de ces variables pour chaque
individu de la population considérée : il suffit de disposer de la matrice des corrélations.

75
3. Représentation d’un ensemble d’individus a partir d’un tableau de
distance.

La matrice d’inertie du nuage N(j) des points variables est de terme général

V jj= X’i Xi’

Une fois connus les produis scalaires X’iXi’ on calcule la matrice Γ ; en diagonalisant Γ, on
trouve ses vecteurs propres Wα et ses valeurs propres µα = . Al’aide de la relation

= Wαi

On obtien une représentation du nuage d’individus. Démontrons qu’il est possible de calculer les
termes X’1Xi’ à partir du tableau des distances dii’ entre les points de N(I). Cela va nous
permettre d’obtenir une représentation euclidienne du tableau des distances dii’

Posons :

d2i = ∑i d2ii’

d2 = ∑ii’ d2ii’

Nous avons établi la relation suivante entre l’inertie d’un nuage par rapport à son centre de
gravité et les distance entre les points qui le posent :

In (I) = ∑ii’ mimi’ ║Xi – Xi’║2

Cette expression donne ici.

In (I) = d2

Comme nous supposons N(I) centré, d’après le théorème de Huygens.

Nd2i = N║Xi║2 + In(I)

D’où

║Xi║2 = d2i - d2.

Et comme :

Xi – Xi’= [║xi║+║ xi’║2 - ║ xi - xi’║2]

76
Xi – Xi’= [d2i +d2i’ – d2ii’ –d2 ]
Cette relation permet de calculer Xi – Xi’ à partir du tableau des dii. La matrice Γ de terme
général Xi – Xi’ est symétrique, donc diagonalisation.

Ses valeurs propres sont réelles et on peut construire une base orthonormée avec
vecteur propres. Deux cas sont alors possible :

Toutes les valeurs propres Γ sont positives : on obtiendra alors la meilleure


représentation possible du tableau des distance dans un espace à P dimension en considérant
les premiers vecteurs propres de Γ et en calculant les qui leur sont associés

Γ possède de valeur propre négative. Dans ce cas Γ ne peut pas être considérée comme
la matrice d’inertie d’un nuage situé dans un espace euclidien. il n’existe pas de
représentation euclidienne du tableau des dii’ .

Cela peut se produire sile tableau dii’ n’est issu de l’utilisation d’une métrique
euclidienne. ce sera notamment le cas si dii’ ne respecte pas les axiomes de la distance

1)- dii=0 (diagonale nulle)

2)- = di’i (symitrie)

3)- dii’ dii’’ + di’’i’ Ѵi ‘’ (inégalité triangulaire)

Il est facile de vérifier visuellement si te tableau respecte les axiomes (1) et (2) par
contre, on ne peut généralement par vérifier sans calculs qu’il respecte l’axiome (3) . Des
tableaux tout à fait « acceptables » visuellement peuvent ainsi correspondre à des
« distances » qui ne sont pas représentables dans un espace. Il peut arriver aussi qu’un tableau
dii’ qui respecte les axiomes de la distance ne soit pas représentable dans un espace métrique.

On peut décider de construire le mage N(i) en ne tentant compte que des valeurs
propre non négatives de Γ, mais alors on obtient un nuage dans le quel,║ xi - xi’║2 d2ii’ , ou
bien l’on peut modifier le tableau dii’ de telle sort qu’il puisse être associe à une métrique
euclidienne.

77
Exemple d’application

(§ L’exemple initial de eau minérale partie exemple numérique: corrélations et


distances).

78
Exemple d’application

Distances entre 10 villes européennes (en Miles)

Londre Stockhol Lisbonn Madri Pari Amsterda Berli Pragu Rom Dubli
s m e d s m n e e n
Londres 0
Stockholm 569 0
Lisbonne 667 1212 0
Madrid 530 1043 201 0
Paris 141 617 596 431 0
Amsterda
m 140 446 768 608 177 0
Berlin 357 325 923 740 340 218 0
Prague 396 423 882 690 337 272 114 0
Rome 569 787 714 516 436 519 472 364 0
Dublin 190 648 714 622 320 302 514 573 755 0

s<-read.table("acp2.txt",h=T);

>s

Londres Stockholm Lisbonne Madrid Paris Amsterdam Berlin Prague Rome

Londres 0 569 667 530 141 140 357 396 569

Stockholm 569 0 1212 1043 617 446 325 423 787

Lisbonne 667 1212 0 201 596 768 923 882 714

Madrid 530 1043 201 0 431 608 740 690 516

Paris 141 617 596 431 0 177 340 337 436

Amsterdam 140 446 768 608 177 0 218 272 519

Berlin 357 325 923 740 340 218 0 114 472

Prague 396 423 882 690 337 272 114 0 364

Rome 569 787 714 516 436 519 472 364 0

Dublin 190 648 714 622 320 302 514 573 755

Dublin

Londres 190

79
Stockholm 648

Lisbonne 714

Madrid 622

Paris 320

Amsterdam 302

Berlin 514

Prague 573

> a<dudi.pca(s)
5
4
3
2
1
0

>a

Duality diagramm

class: pca dudi

80
$call: dudi.pca(df = s)

$nf: 2 axis-components saved

$rank: 9

eigen values: 5.459 2.544 1.532 0.2361 0.1091 ...

vector length mode content

1 $cw 10 numeric column weights

2 $lw 10 numeric row weights

3 $eig 9 numeric eigen values

data.frame nrow ncol content

1 $tab 10 10 modified array

2 $li 10 2 row coordinates

3 $l1 10 2 row normed scores

4 $co 10 2 column coordinates

5 $c1 10 2 column normed scores

other elements: cent norm

a$eig

[1] 5.45857215 2.54379432 1.53202102 0.23609397 0.10910567 0.04651310


0.04140688 0.01936318 0.01312971

Axis1 Axis2

Londres 1.4591849 1.933514792

Stockholm 0.8743249 -3.141091773

Lisbonne -5.0384777 0.002931429

Madrid -3.5064468 0.661493535

Paris 1.1648444 1.834218518

Amsterdam 2.0987021 1.018013417

Berlin 2.0346493 -1.102081877


81
Prague 1.6415032 -1.214464675

Rome -1.1223267 -1.463437128

Dublin 0.3940424 1.470903762

Axe1 Axe2
Londres 1.4591849 1.933514792
Stockholm 0.8743249 -3.141091773
Lisbonne -5.0384777 0.002931429
Madrid -3.5064468 0.661493535
Paris 1.1648444 1.834218518
Amsterdam 2.0987021 1.018013417
Berlin 2.0346493 -1.102081877
Prague 1.6415032 -1.214464675
Rome -1.1223267 -1.463437128
Dublin 0.3940424 1.470903762

82
Bibliographie
[1] Ludovic lebart et Marie Piron et Alain Morineau : « Statistique Exploratoire
Multidimensionnelle. 4e édition », Paris, 2006.

[2] Philippe Casin : « Analyse des données et des Panels de données », Paris, Bruxelles,
1999.

[3] Gilbert Saporta et Françoise Lavallard : « L’analyse des données évolutives », Paris, 1996.

[4] G. Saporta : «Probabilités Analyses des Données et Statistique», Paris, 1990.

[5] J-P & F. Benzécri : « l’analyse des données « 2 l’analyse des correspondances » », bordas,
Paris, 1976.

[6] Alain Baccini § Philippe Besse : « Statistique Descriptive Multidimensionnelle »,


Université Paul Sabatier, 1999.

[7] Catherine PARDOUX, Mireille GETTLER-SUMMA § Alain MORINEAU : « L'analyse


des données au XXIème siècle, ACP version raccourcie-nouveau masque-1 », ©
DeeNov, Paris, 2010/pdf.

[8] http/Michel Tenenhaus/Analyse des proximités, des préférences et typologie.pdf.

[9] www.cnam.fr/math/IMG/pdf/copos.princip.pdf.

[10] www.euforic.org/fes/acp.htm.

[11] www.agrogaristech.fr/IMG/pdf/ACP2006.pdf.

[12] www.RennesFrance/g.lecabre@infonie.fr

[13] http://sensominer.free.fr

[14] www.enseeiht.fr/~gergaud/teaching.pdf

83
84

Vous aimerez peut-être aussi