Vous êtes sur la page 1sur 61

COURS DANALYSE DE DONNES

Prsentation
Ce cours ne ncessite que quelques connaissances mathmatiques relatives la
manipulation des matrices et ce essentiellement pour comprendre la thorie de
lanalyse en composantes principales.
Il peut tre facilement abord par les tudiants de gestion (marketing, conomie,
commerce ...), de psychologie, de mdecine et les lves ingnieurs
(informatique, acoustique...).
Ce cours de statistique lmentaire et d'analyse de donnes comprend cinq
chapitres qui peuvent tre consults de faon indpendante.
Il est conseill de commencer par le chapitre description de tableau . Il
prsente des concepts lmentaires de statistique descriptive utiliss dans le
reste des chapitres.
Le chapitre que nous conseillons d'aborder en second lieu est Classification
Automatique .
En effet pour bien assimiler les notions lmentaires de classification nous avons
besoin des lments descriptifs prsents au premier chapitre.
Les trois autres chapitres peuvent ensuite tre librement abords car ils sont
indpendants.

DESCRIPTION DE TABLEAU
L'analyse de donnes est un ensemble plus ou moins dfini de mthodes
statistiques.
La premire tape dans une analyse de donnes est essentiellement la dfinition
de la population ou des individus1 tudier. Ces individus sont dcrits par des
caractres ou variables2. Ces individus et variables sont souvent sous forme de
tableau ou matrice.
Pour un problme donn l'utilisateur doit dterminer les individus, les variables,
les types associs chaque variable, leur codage, .
-

donnes
utilisation de mthodes danalyse de donnes
rsultats

I Individus et variables
1.1 Choix des individus
Les donnes d'un problme peuvent correspondre une population assez vaste et l'analyse de donnes
intervient gnralement aprs le recueil de ces donnes. Elle utilise des mthodes de description
souvent indpendantes de la faon dont ces donnes ont t obtenues. Ces donnes sont reprsentes
sous forme de tableau:

1.2 Dfinition thorique des variables


A chaque paramtre ou caractre choisi par l'utilisateur pour dcrire les
individus on peut associer une ou plusieurs variables.
Soit W l'ensemble des individus, une variable est dfinie par :
1) une application v de W sur un ensemble d'arrive O
2) une structure algbrique S sur O pouvant se transporter sur W par v.
Par la suite, avec un abus de langage, on donnera le mme nom l'application v
et la variable v.
On a donc v : W O muni de la structure S.
1

Population ou individus : Ce terme s'applique aussi bien un ensemble de personnes


humaines qu' des ensembles d'objets concrets ou abstraits: client d'un magasin, production d'un
atelier, voitures d'une socit, plantes...
2
Un caractre ou une variable : chaque individu d'une population peut tre caractris par un
ou plusieurs caractres. Ainsi le personnel d'une entreprise peut tre dcrit selon le sexe, ge,
salaire, nombre d'enfants...

Le choix des variables est troitement li au problme pos. L'analyse de


donnes peut permettre de vrifier la validit des variables en faisant ressortir,
par exemple, les redondances et la pertinence de certaines variables.
Exemple: Si l'on dsire utiliser un poids exact on dfinit une variable v qui
associe chaque individu son poids. L'espace d'arrive O est R + et sa structure
algbrique S est celle du corps des rels (c.--d. l'addition, la multiplication et la
relation d'ordre ont un sens).
Par contre si l'on est seulement intress par des classes de poids, on dfinit une
nouvelle variable v' qui associe chaque individu sa classe de poids, l'espace
d'arrive O' est alors l'ensemble des entiers naturels muni d'une relation d'ordre
note S' (dans ce cas seule la relation d'ordre a un sens).
On voit que les variables v et v' sont diffrentes bien qu'elles concernent le
mme paramtre "poids".
1.3 Les types de variables
Une fois les variables choisies, il faut leur associer un "type" et suivant la
structure de S, on distingue deux grands types de variables:
variables
quantitatives

variables
qualitatives

1.3.1 Les variables quantitatives


L'ensemble d'arrive d'une variable quantitative est R. Dans la pratique on
distingue les types suivants :
Quantitatif
Exemple
quantitatif
mesurable

revenu, poids,

quantitatif d'ordre note, rang,


quantitatif de
comptage

frquence, contingence,

quantitatif binaire

succs-chec, prsenceabsence,

1.3.2 Les variables qualitatives


L'ensemble d'arrive d'une variable qualitative est fini O. Les lments de O sont
appels modalits de la variable (les valeurs que peut prendre la variable). On
distingue essentiellement les types suivants:
Qualitatif

Exemple

qualitatif
nominal

lieu gographique, catgorie


socioprofessionnelle,

qualitatif

pas d'accord, sans opinion,


3

ordinal
qualitatif
textuel

titre de film, nom d'auteur,

Pour le qualitatif nominal on ne considre que la structure d'ensemble. Pour le


qualitatif ordinal O est muni d'une structure d'ordre total.
Exercice1
Si notre variable "poids" prend les valeurs suivantes:
50
55.
5
66
79
89
...
Quel est le type de cette variable?
qualitative ordinale
quantitative de comptage
quantitative mesurable (Bonne rponse)
1.4 Le choix du codage
Une variable v de muni d'une structure S tant choisie, le codage intervient
chaque fois que l'on dsire modifier l'espace d'arrive O, ou les valeurs prises
par v dans O ou encore la structure algbrique S associe ces valeurs.
Raliser un codage revient donc effectuer un changement de variables. On
peut exprimer le codage c qui permet de passer de la variable v la variable v'
l'aide du schma:
Exemple: Si on parle de l'ge d'une personne, qui peut
prendre comme valeur 15, 30... On peut parler d'une
moyenne d'ge, d'une personne dont l'ge est le double
d'une autre personne... .
On pense donc automatiquement une variable v
quantitative mesurable.
Si l'on dsire transformer l'ge en classe d'ge, on obtient
une nouvelle variable v qualitative ordinale.
Si maintenant on ne dsire plus faire intervenir l'ordre entre les tranches d'ge,
on obtient une variable v'' qualitative nominale.

On modifie ainsi la structure algbrique de l'espace d'arrive bien que les


valeurs prises par la variable n'aient pas t modifies.
Considrons la variable quantitative ge, v, dfinie sur = {w1, w2, w3,} avec:
v(w1) =17; v(w2) = 64 et v(w3) = 25.
Supposons que les tranches d'ge soient [1,20]; ]20,40]; ]40,80], respectivement
codes 1,2,3; alors la nouvelle variable v' qui est qualitative ordinale prendra les
valeurs:
v'(w1) = c o v (w1) =c(17)=1;
v'(w2) = c o v (w2) =3
v'(w3) = c o v (w3) =2.
Exercice2
Si notre variable poids prend les valeurs suivantes:
50
55.
5
66
79
89
...
On dsire appliquer un recodage sur cette variable.
Ainsi un poids entre 50 et 60 sera cod 1; un poids entre 61 et 65 sera cod 2 ...
Quel est le nouveau type de la variable poids ?
quantitatif de comptage
quantitatif d'ordre
qualitatif ordinal (Bonne rponse)
1.5 Similarit
Le choix d'une similarit ou dissimilarit intervient dans la plupart des mthodes
de classification et d'analyse factorielle. Cette notion vise essentiellement
associer une valeur numrique chaque couple d'individus ou de variables pour
mesurer leur ressemblance.
Exemple: Supposons que W soit un ensemble form de deux plantes w 1, et w2 et
que l'on dispose de 3 variables pour les caractriser :
v1 -> nombre de feuilles;
V2 -> nombre de ptales;
V3 -> nombre de bourgeons.
On peut mesurer la similarit par le nombre d'occurrences communes et la
dissimilarit par le nombre de diffrences.
II Construction d'un tableau de donnes
2.1 Dfinition
5

Un tableau de donnes se dduit de la dfinition de l'ensemble des individus et


des variables. Soit n le nombre d'individus, un individu sera not w i et
correspond une ligne du tableau. Soit p le nombre de variables, une variable
sera not vj et correspond une colonne.
Nous notons l'ensemble des individus { w1, , wn}; V est l'ensemble des variables { v1, ,vp}. Le
tableau de donnes associ est X= (xij ; i=1..n ; j=1..p ) o xij = vj(wi)
v1 . vj

vp

w1
.
xij

wi
wn
2.2 Exemples de tableaux de donnes
2.2.1 Tableau individus*variables

1) Tableau de donnes quantitatives: c'est le cas o toutes les variables sont


quantitatives.
Exemple : est un ensemble dont chaque lment w i est associ un sondage
gologique. Les paramtres expriment la teneur en diffrents minerais de
chacun des sondages. vj(wi)est une mesure de la teneur du minerai pour le
sondage wi.
Nsondage/variable Teneur en fer Teneur en cuivre
sondage1

0.1

0.2

sondage2

0.3

0.3

sondage3

0.4

0.2

2) Tableau de donnes qualitatives ou de modalits : c'est le cas o toutes les


variables sont qualitatives. Si toutes les variables sont ordinales (resp nominales)
on dira que l'on a un tableau de modalits ordonnes (resp non ordonnes)
Indiv/Journal V1 V2 V3 V4
W1

W2

W3
1 2 1 2
L'individu rpond 1, 2 ou 3 suivant sa frquence de lecture d'un journal.
1pas du tout ;
2 quelques fois ;
3 souvent.

3) Tableau binaire : on rencontre souvent des variables qui ne prennent que deux
valeurs codes gnralement 0 et 1. Elles conduisent des tableaux binaires.
Indiv/Jour V1 V2 V3 V4
W1

W2

W3
1 0 0 1
Chaque individu rpond par oui ou par non la question "avez-vous achet ce
journal ?"
4) Tableau de prfrence : on peut par exemple disposer des prfrences des
personnes interroges sur des marques de parfum
Pers/Marque M1 M2 M3 M4 M5
W1

W2

W3

W4

Dans cet exemple reprsente l'ensemble des personnes interroges. Aux


marques Mi sont associes des variables vi : {1, 2, 3, 4, 5} qui peuvent tre
considres comme un ensemble de variables qualitatives ordinales.
Ainsi V3(w2) =5; signifie que le deuxime individu prfre la troisime marque de
parfum toutes les autres.
5) Tableau htrogne : c'est le cas de tableau o les variables sont de types
diffrents:
Marchandise/v Pri mode
Fragili
aria
x transport
t
W1

7.6 avion

W2

10.
bateau
9

W3

3.5 train

2.2.2 Tableaux variables*variables


Tableau de contingence et tableaux de frquence
A partir de deux variables qualitatives on dfinit le tableau de contingence
croisant les modalits de deux variables. La case l'intersection de la ligne i et
de la colonne j contient le nombre d'individus ayant choisi la modalit i de la
premire variable et la modalit j de la seconde variable. Si l'on divise chaque
valeur de ce tableau par le cardinal de la population, on obtient le tableau de
frquences relatives que l'on appellera plus simplement tableau de frquence.

Consommation/sexe Garon Fille


Nulle

48

55

<1 fois par semaine> 24

31

1 fois par semaine

14

10

>1 fois par semaine

Ce tableau de contingence permet d'tudier la frquence de consommation


dalcool selon le sexe dune population de lycens franais. On notera I et J deux
variables qualitatives ayant respectivement n et p modalits I= {1,..,n} et J =
{1,..,p}. nij reprsente le nombre dindividus possdant la fois la modalit i et
la modalit j. Le tableau de contingence est l'ensemble {n ij, i I, j J} . On pose
avec s reprsentant le cardinal de la population sur laquelle sont
dfinies les deux variables qualitatives.
Le tableau F des frquences est l'ensemble
est une estimation
de la probabilit qu'un individu prsente simultanment la modalit i et la
modalit j. On dfinit aussi les frquences marginales

Les vecteurs (f1., fi.,.. fn.) et (f.1, f.j, .. f.p) sont nots fI et fJ . Ce sont les lois
marginales dfinies sur I et J.
On dfinit les frquences conditionnelles

.
Les vecteurs
sont nots
.
Ce sont les lois conditionnelles. Elles sont aussi appeles profils.
Toutes les quantits
a:

sont positives et infrieures un, en plus on

2.2.3 Tableau de contingence multiple


Un tableau de contingence multiple est construit partir de deux variables
qualitatives dfinies sur une mme population. Ceci peut tre gnralis en
croisant non plus deux variables qualitatives mais deux familles de variables
qualitatives dfinies sur une mme population. On parle alors de tableau de
contingence multiple. Si on note (I1,..,Ir) et (J1, ..,Jr) les deux familles de variables
qualitatives, le tableau de contingence multiple associ est form des tableaux de
contingence Tkl de tous les couples (Ik,Jl) avec 1 k r et 1 l t.
8

J1 ..Jl.. Jt
I1
Ik

Tkl

Ir
Les deux familles ne sont pas ncessairement disjointes.
Si les deux familles de variables sont identiques le tableau obtenu est appel tableau de Burt.
Lorsqu'une des familles est rduite une seule variable, la tableau obtenu est appel tableau de
contingence juxtapos.
2.2.4 Tableau de similarit
Ces tableaux recensent des similarits entre des variables. On considre souvent les tableaux de
corrlation et de covariance3 dfinis par les corrlations ou les covariances de tous les couples de
variables quantitatives comme tableaux de similarit.
2.2.5 Tableaux individus*individus
Lorsqu'on value la similarit ou la dissimilarit entre chaque couple d'individus, on construit un
tableau de proximit. Par exemple si l'on considre des machines laver que l'on veut comparer les
unes aux autres, la case (i,j) contient une note de 1 10 mesurant la ressemblance des machines j et k.
M1 M2 M3 M4
M1 10 3.7 6.2 1.5
M2 3.7 10 8.7 5.3
M3 6.2 8.7 10 9.4
M4 1.5 5.3 9.4 10
Exercice
Soit le tableau de donnes suivant :
num
poid g taill tat

la covariance :

sex pays

la corrlation :
.
Le coefficient de corrlation est trs souvent not: r.
Cette corrlation sinterprte comme le cosinus de langle des deux vecteurs x j,xj' dans lespace
des variables. Au tableau X initial, on associe aussi la matrice V de variance-covariance :
V ={cov(xj, xj) ; j=1..p ; j= 1..p}
et R la matrice de corrlation

Deux variables sont fortement corrles linairement positivement (~1) si quand l'une
augmente, la deuxime augmente proportionnellement.
Deux variables sont fortement corrles linairement ngativement (~-1) si quand l'une
augmente, la deuxime diminue proportionnellement.
Lorsque r est proche de 0 on dit qu'il y a absence de corrlation linaire entre les deux variables.

tudiant

50

19

1.5
c
6

TUN

55.5 21

1.6
m
0

FR

66

1.6
c
5

GB

22

matrimonial e

4
79 .. ..
..
..
Quel est le type de ce tableau ?
tableau de contingence
tableau indiv*variab qualitatives
tableau indiv*variab quantitatives
tableau indiv*variab htrognes (Bonne rponse)

...

III Description lmentaire d'un tableau


3.1 Description de variables quantitatives
La ime ligne de la matrice X reprsente l'ensemble des p valeurs prises par le ime individu qui sera
considr comme un lment de Rp, appel espace des individus. A chaque individu w i de est associ
le vecteur xi:
xi1 xi2 . . . . xip
De mme, on introduit l'espace des variables Rn, chaque variable vj est associe une colonne de X
dfinie par le vecteur xj:
x1j
x2j
.
.
xnj
Les lments descriptifs de chaque variable sont :
le minimum mj = Min i xij
le maximum Mj = Max i xij
l'tendue Mj - mj

10

la moyenne4

o pi est le poids de l'individu i avec

, la formule de la moyenne devient:

. Le cas le plus classique est

la variance5 var (xj) =


L'cart type

l'cart type est la caractristique de dispersion autour de la moyenne.

La mdiane mej: la valeur de la variable telle que l'on ait autant de valeurs gauche de mej qu' droite.
Histogramme: soit I = [m, M], un intervalle de R qui contient l'ensemble des valeurs prises par la
variable v. On dcoupe I en intervalles Ii disjoints de longueur gales: I = I1 Ik
avec I1 = [m, y1[; Il= [ yl, yl+1[; Ik= [yk,M].
Soit ni le nombre d'individus ayant pris une valeur contenue dans l'intervalle Ii. On peut alors visualiser
l'chantillon l'aide d'un histogramme o chaque intervalle est reprsent par son effectif:

Exercice
Prenons l'exemple de la variable suivante:
4

Moyenne

On appelle moyenne arithmtique ou tout simplement moyenne :


xj= pixi j o pi est le poids de l'individu i avec pi = 1.
La moyenne est le paramtre de tendance centrale le plus utilis et le plus important.
Si on remplaait toutes les valeurs des individus par une valeur constante gale pour tous la
moyenne arithmtique, la somme des valeurs ne changerait pas.
La moyenne arithmtique est la valeur qui reprsente le mieux les individus par rapport la
variable.
5

La variance

var (xj) =
C'est la moyenne du carr de la distance entre les valeurs et leur moyenne. C'est aussi, un
facteur prs, le carr de la distance entre une variable et sa moyenne. C'est un indicateur de la
dispersion des valeurs autour de leur centre qui est la moyenne.
La racine carre de la variance de la variable constitue l'cart type.

11

Observation Variable
1

12

15

17

23

100

Quelle est la moyenne de cette variable?


32.500
33.100
33.400 (Bonne rponse)
3.2 Lien entre variables quantitatives
A un couple de variables correspondant aux vecteurs xj et xj on associe:
la covariance6

la corrlation7
.
Remarquons que le coefficient de corrlation est trs souvent not: .
Ce coefficient permet gnralement de dterminer la prsence d'une corrlation linaire positive (
entre 0.5 et 1) ou ngative ( entre -0.5 et -1) entre deux variables ou encore l'absence de corrlation
linaire ( entre -0.5 et 0.5).
Tous ces lments de statistiques descriptives ont une interprtation gomtrique dans lespace des
variables Rn muni du produit scalaire Dp : xj,xj Dp = txj Dp xj =in pi xij xij o Dp est la matrice
diagonale:
p1

0
.

0
6

et o tx dsigne le vecteur transpos du vecteur x.

pn
la covariance :

la corrlation :
.
Le coefficient de corrlation est trs souvent not: .
Cette corrlation sinterprte comme le cosinus de langle des deux vecteurs x j,xj' dans lespace des
variables. Au tableau X initial, on associe aussi la matrice V de variance-covariance :
V ={cov(xj, xj) ; j=1..p ; j= 1..p}
et R la matrice de corrlation

Deux variables sont fortement corrles linairement positivement (~1) si quand l'une
augmente, la deuxime augmente proportionnellement.
Deux variables sont fortement corrles linairement ngativement (~-1) si quand l'une
augmente, la deuxime diminue proportionnellement.
Lorsque est proche de 0 on dit qu'il y a absence de corrlation linaire entre les deux variables.

12

Soit

la variable centre associe xj, et

la matrice des variables centres, on a alors


.

Cette corrlation sinterprte comme le cosinus de langle des deux vecteurs


dans lespace des
variables. Au tableau X initial, on associe aussi la matrice V de variance-covariance :
et qui scrit aussi :

et la matrice de corrlation

3.2.1 Reprsentation graphique de deux variables


Un graphique reprsentant dans le plan un nuage de points caractriss par
deux variables permet de voir rapidement si une relation existe entre ces deux
variables. Si les points tracs semblent avoir t dissmins au hasard, alors il
ny a aucune relation entre les deux variables. Si les points tracs se regroupent
autour dune droite alors il y a une liaison linaire entre ces deux variables.
Cette liaison linaire peut tre quantifie par le coefficient de corrlation. Si les
points tracs se regroupent autour dune fonction linaire (par exemple fonction
polynomiale, log, ) alors une transformation de lune des variables par cette
fonction permet davoir une liaison linaire entre cette nouvelle variable et
lautre variable.
3.3 Description lmentaire de variables qualitatives
* Le mode est la modalit la plus frquente d'une variable
* Diagramme en bton ou tri plat. Comme lhistogramme, dans le cas
quantitatif, il sagit dune reprsentation classique et intressante pour visualiser
lensemble des valeurs prises par une seule variable. Soit n j, le nombre
dindividus ayant pris la modalit j. Pour une variable q , nous codons de 1 m q
ses modalits avec mq le nombre de modalit de cette variable. On peut alors
reprsenter lensemble des donnes sous forme dun diagramme en bton :

13

Liens entre variables qualitatives : A partir de deux variables qualitatives v1 et v2 on a dfini le tableau
de contingence croisant ces deux variables. A partir dun tel tableau, de nombreuses mesures de
ressemblance peuvent tre calcules, la plus classique est le de contingence qui permet de mesurer
lcart lindpendance des deux variables. Plus le est grand, plus les variables sont lies .
Exercice
Soit une partie d'une matrice de corrlation entre variables:
Correlation Matrix
cer

lem

leg

fru

via

poi

lai

cer 1.000 0.937 0.871 0.738 0.798 0.736 0.782


lem 0.937 1.000 0.926 0.839 0.904 0.840 0.891
leg 0.871 0.926 1.000 0.903 0.941 0.946 0.921
fru 0.738 0.839 0.903 1.000 0.974 0.981 0.990
via 0.798 0.904 0.941 0.974 1.000 0.972 0.988
poi 0.736 0.840 0.946 0.981 0.972 1.000 0.974
lai 0.782 0.891 0.921 0.990 0.988 0.974 1.000
Quelles sont les variables les plus fortement corrles positivement?

VALIDER

var 1 :

var 2 :

IV Changement de variables et codage


4.1 Intrt du changement de variable
Le changement de variable est important en analyse de donnes. Il est parfois impos par la mthode,
pour la clart des donnes... . Nous prsentons quelques exemples :
a)On a un tableau htrogne et lon dsire exprimer certains des paramtres descriptifs laide de
nouvelles variables pour que toutes les variables deviennent de mme type.
Exemple : soit le tableau htrogne suivant:
March\viande Prix Mode de trans Fragilit
W1

7.6 Avion

W2

10.9 Bateau

W3

3.5 Train

En dfinissant trois tranches de prix : ]0,5] ; ]5,10] ; [10,20] respectivement code 1,2,3 ; on peut alors
dfinir la variable v'1 : {1, 2, 3}sans structure, qui associe chaque individus le code
correspondant sa tranche de prix.
14

On a donc v1 (w3) =2 ; v1(w2) =3; v1(w3)=1.


Si on considre aussi que lespace associ la variable fragilit est sans structure on dfinit une
nouvelle variable v3 qui prend les mmes valeurs que v3 mais qui est qualitative nominale.
Le tableau de donnes dfini par les variables v1 , v2 , et v3 devient homogne puisque les variables
sont devenues nominales.
b)Certaines mthodes danalyse de donnes sont incompatibles avec le type des variables initiales, on
est alors parfois amen transformer un tableau de donnes quantitatives en un tableau de modalits
pour pouvoir utiliser par exemple une analyse factorielle des correspondances multiples .
c) Pour synthtiser linformation contenue dans un tableau de donnes, on rduira sa taille. On peut par
exemple, remplacer lensemble des variables par quelques combinaisons linaires de ces variables.
4.2 Formalisation de la notion de changement de variable
Il y a deux types de changement de variables :
le changement de variable par changement de structure et le changement de variable par codage.
* changement de structure :
Dfinition : Etant donne une variable V : O munie dune structure S, on dit que lon a fait un
changement de structure, lorsquon remplace V par une variable V : O munie dune structure S
S et que V(w) =V(w) pour tout w W.
Exemple : considrons la variable tranche dge qui prend les valeurs :
1 jeune;
2 adultes;
3 personnes ges.
Si lon associe cette variable la structure dordre usuelle, alors cest une variable qualitative ordinale.
Si maintenant, on ne dsire plus faire intervenir lordre entre les tranches dge, la variable devient
nominale. Dans une enqute sociologique il peut tre intressant de supprimer lordre entre les tranches
dge afin de faciliter lapparition dventuels liens entre les jeunes et les personnes ges.
*Changement de codage
Dfinition : Pour effectuer un changement de codage dune variable, il faut se donner un espace
darrive O muni dune structure S et une application c de O dans O. La nouvelle variable V est
obtenue en composant les fonctions v et c. On retrouve v=c o v
Exemple : reprenons la variable V prcdente. Si lon dsire mettre dans une mme classe, les jeunes et
les personnes ges, on dfini une variable V : O qui prend les valeurs 1 et 2. v est une variable
qualitative nominale qui sobtient par codage.
Ce codage est lapplication C : OO telle que c(1)=c(3)=1 et c(2)=2 et on a v=c o v
4.3 Diffrents types de changement de variables
* Transformation quantitatif-quantitatif
- Centrage rduction :
Quand les variables sont mesures avec des chelles diffrentes ou ont des dispersions htrognes, il
peut savrer utile de centrer et rduire ces variables.
- Centrer une variable v consiste en soustraire sa moyenne
15

- Rduire une variable v consiste la diviser par son cart-type.


Une variable centre-rduite satisfait aux deux proprits suivantes :
sa moyenne est nulle
son cart type est gal un
Cela permet dobtenir :
a) des donnes indpendantes de lchelle choisie
b) des variables ayant mme moyenne et mme dispersion.
Exercice
Soit le tableau individus-variables suivant:
V1 V2 V3
A 8

B 4

C 6

D 10 4

E 8

F 0 3 6
On attribue un poids gal pi= 1/6 chaque individu. La moyenne de chaque variable, selon l'ordre
est:6;4,5.
Comment devient ce tableau une fois ses variables centres?
V1 V2 V3

V1 V2 V3

A 4/3 1/6 0

A 2

A 4

1/2 0

B 2/3 1

B -2 2

B 2

5/2

4/3 7/6

C 0

C 3

7/2

D 5/3 2/3 7/6

D 4

D 5

7/2

E 4/3 1/3 5/6

E 2

-2 0

E 4

5/2

F 0

F -6 -1 1

F 0

3/2 3

C 1

5/6

1/2 1

-3 -5

V1 V2 V3

tableau1
tableau2
tableau3
- Combinaison de variables :
On peut crer une nouvelle variable quantitative en appliquant des fonctions numriques (combinaison
linaire, polynomiale, etc.). On peut aussi utiliser des fonctions utilisant des expressions logiques de
variables quantitatives ou qualitatives.
Exemple : v = (v1>v6)* (2v1 + v3 )6.
* Transformation quantitatif-qualitatif

16

Dcoupage par bornes choisies par lutilisateur :


On effectue un dcoupage de R laide de bornes dfinies par lutilisateur. On numrote ensuite les
classes associes ce dcoupage en respectant lordre. La nouvelle variable qualitative ordinale est
obtenue en affectant chaque individu le numro de la classe laquelle il appartient.
Remarquons quun dcoupage entrane gnralement une perte dinformation de deux sortes, on perd :
la distinction entre les objets dune mme classe
lamplitude de la diffrence entre les objets de deux classes diffrentes.
Exemple : si v est la variable ge, on peut lui associer une variable qualitative ordinale dfinie par trois
tranches dge :
* jeunes : 0 20 ans
* adultes : 20 60 ans
* personnes ges : plus de 60 ans.
On associe les codes 1, 2, 3 ces trois tranches, on a :
Si 0 v(wi) 20 alors v(wi)=1
Si 20 v(wi)60 alors v(wi)=2
Si 60 v(wi)
alors v(wi)=3
Dcoupage par intervalles gaux
En utilisant les intervalles gaux I1, .. Ik, on obtient directement k classes dobjets contigus. La longueur
de chaque intervalle tant bien sr gale
petite valeur prise par la variable.

o M et m sont respectivement la plus grande et la plus

Dcoupage par effectifs gaux


Ce type de dcoupage prsente lintrt dviter les classes vides et dcoupe finement les endroits
denses; contrairement au dcoupage par intervalles gaux, il tient compte de lchantillon. La
construction de la fonction de rpartition empirique F permet dobtenir ce dcoupage. Les parties
deffectifs gaux J1 , .. Jk sont dfinies par :
J1 = F-1([0,1/k])
Ji = F-1(]i-1/k, i/k])
Jk= F-1(]k-1/k,1]).
Cette technique permet de trouver des classes dindividus ayant sensiblement le mme effectif.
* Transformation qualitatif-qualitatif
Par changement de structure ou par changement de codage : le premier type de transformation consiste
ne plus tenir compte de lordre dune variable qualitative ordinale, qui devient ainsi une variable
qualitative nominale. Le deuxime type de transformation consiste regrouper des modalits :
codage initial :
0 20 ans code 1
20 60 ans code 2
60 ans et plus code 3
indiv age
1

1
17

codage final :
moins de 20 ans et plus de 60 ans code 1 ;
entre 20 et 60 ans code 2.
Par combinaison de variable :
cette transformation est analogue la combinaison de variables quantitatives.
Exemple : soit deux variables qualitatives v1 et v2 trois modalits codes 1,2,3. On cre une nouvelle
variable qualitative v3 deux modalits codes 1 et 2 : v3 = 1 si v1=1 et si v2 =1 ou 3 ; v3=2 sinon.
* Transformation qualitatif-quantitatif
codage disjonctif complet
Ce codage consiste transformer une variable qualitative r modalits en r variables binaires
indicatrices de chaque modalit.
Exemple : soit trois individus a, b, c rpondant aux questions suivantes :
couleur des yeux (Y), ge (A), sexe(S), leurs rponses tant codes de la manire suivante :
Yeux : vert 1 ; bleu 2 ; marron 3.
Age : 0 20 ans 1 ; 20 50 ans 2 ; plus de 50 ans 3.
Sexe : fminin 1 ; masculin 2 ;
YAS
A 1 2 2
B 2 1 1
C 3 3 2
Le codage disjonctif complet de ce tableau est:
Vert Bleu Marron 0-20 20-50 +50 F M
A1
0
0
0
1
0 01
B0
1
0
1
0
0 10
C0
0
1
0
0
1 01
V Similarit
5.1 Quelques dfinitions
- Une similarit ou dissimilarit est toute application valeurs numriques qui permet de mesurer le
lien entre les individus dun mme ensemble ou entre les variables. Pour une similarit le lien est
dautant plus fort que sa valeur est grande.
- Un indice de similarit (ou plus simplement une similarit) sur un ensemble est une application s de
dans R+ qui vrifie les deux conditions suivantes :
c1) s symtrique : (w,w) ; s(w,w) = s(w,w)
c2) (w,w) avec ww ; s(w,w) = s(w,w) s(w,w).
18

- Un indice de dissimilarit (ou plus simplement une dissimilarit) est une application d qui satisfait
la condition c1 et c2 qui suit :
c2) w d(w,w)=0;
Distance et Ultramtrique : une distance est un indice de dissimilarit qui vrifie en plus les deux
proprits suivantes :
- d1) d(w,w) =0 w=w
- d2) d(w,w) d(w,w) + d(w,w) (lingalit triangulaire) pour tout w,w,w .
- Un indice de dissimilarit, qui vrifie seulement la proprit (d1) est appel indice de
distance .
Sil vrifie seulement la proprit (d2) on dit que cest un cart .
Si au lieu de vrifier (d2), lindice de dissimilarit vrifie lingalit suivante :
d3) d(w,w) Max( d(w,w), d(w,w) ) w, w, w''.
On dit que cest un cart ultramtrique (ou une dissimilarit ultramtrique ). On voit facilement
que la condition (d3) entrane (d2). Un indice de dissimilarit, satisfait (d1) et (d3) est appel distance
ultramtrique .
5.2 Tableaux de variables quantitatives
* Distances entre individus
Distances euclidiennes gnrales : ce sont les distances les plus classiques, elles vrifient :
o M est une matrice symtrique dfinie positive. On les nomme galement distances quadratiques ou
mtriques dont voici quelques cas particuliers :
distance euclidienne simple : cest le cas o M=1 :

distance de Mahalanobis : elle se rencontre frquemment en analyse des donnes et surtout en


analyse discriminante :

o V est la matrice de variance-covariance.


distance du 2 : la distance du chi2 est importante en analyse des donnes. Elle est particulirement
bien adapte aux tableaux de contingence8. Elle est utilise en analyse factorielle des correspondances,
elle a comme formule:
8

Tableau de contingence
A partir de deux variables qualitatives on dfinit le tableau de contingence croisant les modalits
de deux variables. La case l'intersection de la ligne i et de la colonne j contient le nombre
d'individus ayant choisi la modalit i de la premire variable et la modalit j de la seconde
variable. Si l'on divise chaque valeur de ce tableau par le cardinal de la population, on obtient le
tableau de frquences relatives que l'on appellera plus simplement tableau de frquence.
Consommation/sexeGaronFilleNulle4855<1 fois par semaine>24311 fois par semaine1410>1
fois par semaine53Ce tableau de contingence permet d'tudier la frquence de consommation
dalcool selon le sexe dune population de lycens franais. On notera I et J deux variables
qualitatives ayant respectivement n et p modalits I= {1,..,n} et J = {1,..,p}. nij reprsente le
nombre dindividus possdant la fois la modalit i et la modalit j. Le tableau de contingence
est l'ensemble {nij, i I, j J} .

19

o
* Distances entre variables
Les similarits les plus classiques sont la covariance ou corrlation entre variables. La valeur absolue
de la corrlation est un indice de similarit.
Lensemble de ces distances peuvent aussi tre utilis sur des tableaux de
variables binaires. Dautres distances peuvent aussi tre dfinies.
5.4 Tableaux de variables qualitatives
Similarits entre individus
Le codage disjonctif complet permet de se ramener un tableau de variables
binaires. On peut utiliser les similarits et dissimilarits indiques
prcdemment et en particulier la distance du .
Similarits entre variables
A partir de deux variables qualitatives v1 et v2 , on peut considrer le tableau de
contingence associ. Ce tableau permet de dfinir une similarit entre les deux
variables. Par exemple, la valeur du
de contingence peut tre utilise comme
similarit entre les deux variables

:
o q est le nombre de modalits de la premire variable et r le nombre de modalits de la deuxime
variable.
5.5 Dissimilarits entre groupes dindividus
Etant donn deux groupes dindividus A1 et A2 de et une dissimilarit d : R+, on peut
imaginer de nombreuses dissimilarits entre groupes :
* Distance du lien minimum :
* Distance du lien maximum :
* Distance des centres de gravit : dans le cas o lespace darrive des p variables O=O 1* Op est
un espace vectoriel muni dune distance quadratique, on peut prendre comme distance entre deux
groupes, la distance de leur centre de gravit. Dans le cas de deux groupes A 1 et A2 disjoints, une
distance drive de la distance des centres de gravit et plus souvent utilise est :

20

o (A1) est le poids du groupe A1 et o g1 est le centre de gravit de A1. Cette distance reprsente la
perte dinertie9 rsultant de lagrgation de A1 et A2.

Inertie du nuage par rapport un point


L'espace Rp tant muni d'une mtrique euclidiennedM, on appelle inertie de N() par rapport un point a de Rp
la quantit Ia = pi d2M(xi,a).

21

CLASSIFICATION AUTOMATIQUE
Introduction
La nature offre un grand nombre de populations qu'il est souhaitable de rpartir en catgories. Plusieurs
disciplines demandent des classifications, comme par exemple en mdecine o on peut avoir besoin de
dcouvrir les principaux regroupements de malades ayant le mme comportement vis vis de certaines
maladies. On peut aussi vouloir rpartir une population de personnes suivant des critres tel que sexe,
activit, tat matrimonial .... La mme population peut aussi tre soumise, suivant le besoin, une autre
classification comme par exemple le sexe, la nature du travail... .

22

I Les lments d'une classification


Les problmes de classification automatique diffrent selon le type d'information recherch: une
hirarchie, une partition, ...
1.1 Les partitions
Une partition de l'ensemble des observations W est un ensemble de parties non vides P =(P 1,,Pk)
d'intersection vides deux deux et dont la runion forme W avec :

Ainsi avec les sept points suivants:

on peut, par exemple, construire une partition en trois classes:


P=(P1, P2, P3) reprsente par P1 ={ w7}, P2 = { w5 , w4, w6} et P3 = { w1 , w2, w3}.

1.2 Les recouvrements


Un recouvrement de est un ensemble de parties non vides P =(P1, ... ,Pk)dont la runion forme .

Avec les sept points prcdents, on peut aussi construire un recouvrement trois classes P=(P1, P2,P3):
P1 ={ w7 , w5,w4}; P2 ={ w5 , w4,w6}; et P3 ={ w1 , w2,w3} reprsent par:

23

Une partition est donc un cas particulier de recouvrement:


1.3 Les Hirarchies
On cherche reprsenter par un ensemble de partitions embotes. Soit un ensemble fini, H un
ensemble de parties (appeles paliers) non vides de . H est une hirarchie sur si :

Nous utilisons encore l'ensemble form des sept points prcdents; une hirarchie associe H
associe peut tre:

On a bien H=
avec hi={wi} pour i=1,7 ,...h11 = {w7} h10 et h12= h11h9.
On vrifie facilement que H satisfait bien aux trois axiomes de la dfinition d'une hirarchie.
Exercice
Que reprsente ce groupement de points :

24

Partition

Recouvrement

Hirarchie

Recouvrement (Bonne rponse)

II Notion d'inertie
En prsentant la construction d'un tableau10 nous avons dfini l'ensemble des
individus contenant n points de Rp par : ={ x1, xn} avec xi :
xi1
xi2
.
.
xip
Chaque point xi est muni de poids pi strictement positifs et dont le total est gal
1. On dispose d'un nuage N() de n points pondrs dans Rp; N() = {(xi,pi) ;
i=1,n}.
2.1 Inertie du nuage par rapport un point

10

Un tableau de donnes est un tableau rectangulaire qui se dduit de la dfinition de l'ensemble des
individus et des variables. Soit n le nombre d'individus et p le nombre de variables, notons { w 1, , wn}
l'ensemble des individus et { v1, ,vp} l'ensemble des variables. Le tableau de donnes associ est X= (x ij;
i=1..n; j=1..p) ou xij = vj(wi)
v1.vjvpw1.wixijwn

25

L'espace Rp tant muni d'une mtrique euclidienne11 dM, on appelle inertie de N() par rapport un
point a de Rp la quantit

2.2 Thorme de Huygens


Si

, est le centre de gravit du nuage N() on a :

Remarque: le centre de gravit est le point par rapport auquel l'inertie du nuage est au minimum. On
peut aussi dire que le centre de gravit est le meilleur reprsentant du nuage puisque Ia Ig.
2.2.1 Inertie par rapport un axe passant par l'origine
Quand il s'agit de reprsentation vectorielle, on considre trs souvent comme confondus l'origine O de
l'espace et le centre de gravit g.
Soit donc un axe passant par O. On appelle inertie par rapport la quantit:

Si nous appelons Proj(Xi) la projection orthogonale de Xi sur l'axe , l'inertie


pourra s'crire:

On appelle inertie explique par un axe passant par l'origine, la quantit :

D'aprs le thorme de Pythagore on peut dire que: I(o) = I() + IE(). L'inertie du nuage est la somme
de l'inertie par rapport et de l'inertie explique par .
2.2.2 Inertie par rapport un sous-espace
L'inertie par rapport un sous-espace P de dimension k peut aussi s'crire sous la forme:
11

Distances entre individus


Distances euclidiennes gnrales : ce sont les distances les plus classiques, elles vrifient :
dM2(wi,wi) =t(xi - xi)M (xi - xi) o M est une matrice symtrique dfinie positive. On les nomme galement distances
quadratiques ou mtriques. Nous listons quelques cas particuliers :
distance euclidienne simple : cest le cas o M=1 : d2(wi,wi) = pj=1(xij - xij)2
distance de Mahalanobis : elle se rencontre frquemment en analyse des donnes et surtout en analyse discriminante. Son
expression analytique est la suivante :
d2(wi,wi) =t(xi - xi)V -1 (xi - xi) o V est la matrice de variance-covariance.
distance du 2 : la distance du chi2 est importante en analyse des donnes. Elle est particulirement bien adapte aux
tableaux de contingence. Elle est utilise en analyse factorielle des correspondances. Rappelons quelle sexprime ainsi :
d2(wi,wi) = pj=1 1/x.j (xij/xi. - xij/xi'.)2 o x.j=ni=1 xij et xi.= pj=1xij.

26

Cette expression peut aussi tre crite de la forme suivante:

o ProjP(xi) est la projection de xi sur le sous-espace P.


Nous pouvons aussi dfinir l'inertie explique par le sous-espace P:

L'galit suivante reste vraie:


I(o) = I(P)+ IE(P).
2.3 Inertie associe une partition
Dfinitions
Soit P=(P1, Pk) une partition en k classes de . On note
On a bien sr
- l'inertie totale T,

le poids de la classe Pl.

. A cette partition P sont associes trois inerties :

- l'inertie interclasse B,

Il s'agit de l'inertie du nuage des centres de gravit gl munis des poids l.


- l'inertie intraclasse W,

o Il est l'inertie de la classe Pl par rapport son centre de gravit gl ;

Ces trois inerties sont relies par la relation fondamentale : T=B+W; qui peut se dduire du thorme
de Huygens. En effet, considrons l'ensemble des points d'une des classes Pl . D'aprs le thorme de
Huygens, on a :

27

En sommant cette galit pour l variant de 1 k, on retrouve T= W+B. Il rsulte de cette formule que
plus l'inertie intraclasse est faible plus l'inertie interclasse est grande.

III Formalisation de la notion d'espace de classification


Tous les ensembles de classes que nous venons de reprsenter (partition, recouvrements, hirarchie)
satisfont des proprits communes. Considrons un ensemble form de dix points, et des classes

qui leur sont associes :


A partir de ces 10 points, on peut dfinir plusieurs classifications " naturelles " :
* si l'on considre que tous les points forment une seule classe, on obtient la classification dfinie par
l'ensemble lui-mme
* l'ensemble des classes du schma ( P1, P2, P3, P4) dfinit une deuxime classification
* une troisime classification consiste considrer que les dix points nots wi forment 10 classes
rduites chacune un seul lment.
Considrons maintenant l'ensemble S form de ces trois classifications:
S = {{ }, {P1, P2, P3, P4}, { { w1},{w2},..{w10} } }. L'ensemble S satisfait aux quatre proprits
suivantes :
a) S est form de trois lments qui forment chacun une partie de l'ensemble des parties de .
b) Chacun de ces lments est form de classes dont la runion recouvre
c) L'un des lments de S contient
d) Un autre contient les singletons
Nous allons montrer que ces quatre proprits permettent de dfinir un espace de classification sur si
S est un ensemble qui englobe les diffrents types de classification.
3.1 Dfinition d'un espace de classification
On dit que S est un espace de classification sur si S est un ensemble satisfaisant
aux quatre proprits suivantes :
1) S P( P()) o P() est l'ensemble des parties de
2) s S, s = {P1,..Pk} Pl=
3) s S tel que s
4) s S tel que w , {w} s
Chaque lment s de S est une classification.
28

La premire condition signifie que chaque lment s S est un ensemble de parties


de .
La seconde signifie que tout lment de S recouvre .
La troisime indique qu'il existe au moins un lment de S contenant l'ensemble .
La quatrime signifie que S contient un lment s qui contient lui-mme tous les singletons. On a alors
le rsultat suivant :
Proposition :
Les partitions, les recouvrements, les hirarchies sont des espaces de classification. Appelons P
l'ensemble des partitions, on a bien :
1) PP(P())
2) PP, P = {P1, Pk} Pl =
3) P P, tel que P car il suffit de prendre le partition rduite
4) P P, tel que w, {w} P : en effet, il suffit de considrer la partition dont chaque partie est
un singleton.
L'ensemble des hirarchies est un espace de classification car les deux premires proprits ncessaires
sont satisfaites : chaque hirarchie est une partie de l'ensemble des parties de qui recouvre
(puisqu'elle le contient) : les deux premires proprits tant satisfaites puisqu'elles sont vraies pour
toutes les hirarchies.

29

CLASSIFICATION HIERARCHIQUE
Introduction
Certain groupements d'objets correspondent naturellement une hirarchie.
C'est un ensemble de parties hirarchiquement emboites comme par exemple
l'ensemble des points suivants qui peut tre reprsent par une telle hirarchie:

Dans cette hirarchie chaque palier sous-tend un groupe de points. La hauteur du palier est une mesure
du degr d'agrgation du groupe.
Ainsi le groupe ou la classe {w4, w5} est plus agrg que le groupe {w1, w2, w3}.
La commodit des hirarchie est leur interprtation visuelle et l'utilisateur est surtout intress par la
dtection de classes " bien significatives ", issues de la hirarchie. Ces classes forment alors une
partition obtenue par dcoupage de la hirarchie selon une ligne horizontale dpendant du problme

Chaque palier (non rduit un singleton) est la runion d'autres paliers. Par la suite nous utiliserons
souvent la notion de hirarchie binaire, on appelle ainsi une hirarchie dont chaque palier est la runion
de 2 paliers.
Afin de pouvoir visualiser une hirarchie par un graphique il faut " valuer " les paliers de la hirarchie,
c'est dire leur associer une hauteur, d'o la notion de hirarchie indice.
30

II Dfinition d'une hirarchie indice


Une hirarchie indice est un couple (H,f) o H est une hirarchie et f une application de H dans R+
telle que :
1) f(h) = 0 si et seulement si h ne contient qu'un seul lment
2) pour tout h et h' dans H, h h' et h h' f(h) f(h')
Cet indice permet de tracer l'arbre hirarchique associ et de dfinir un nouvel indice de dissimilarit12
sur de la manire suivante :
(k,l) = Min {f(h) / k, l h, h H}.
Plus les individus se regroupent bas dans l'arbre, plus ils se ressemblent au sens de cet indice.

12

- Une similarit ou dissimilarit est toute application valeurs numriques qui permet de mesurer le lien entre
les individus dun mme ensemble ou entre les variables. Pour une similarit le lien est dautant plus fort que sa
valeur est grande.
Un indice de similarit (ou plus simplement une similarit) sur un ensemble est une application s de dans
R+ qui vrifie les deux conditions suivantes :
c1) s symtrique : (w,w) ; s(w,w) = s(w,w)
c2) (w,w) avec ww ; s(w,w) = s(w,w) s(w,w).
- Un indice de dissimilarit (ou plus simplement une dissimilarit) est une application d qui satisfait la condition
c1 et c2 qui suit :
c2) w d(w,w)=0;
Distance et Ultramtrique : une distance est un indice de dissimilarit qui vrifie en plus les deux proprits
suivantes :
d1) d(w,w) =0 w=w
d2) d(w,w) d(w,w) + d(w,w) (lingalit triangulaire) pour tout w,w,w .

31

III Indice d'agrgation entre groupes d'individus


La construction d'une hirarchie ncessite la connaissance d'une " mesure de ressemblance " entre
groupes. Cette mesure est appele " indice d'agrgation ", c'est une application symtrique de P() *
P() dans R+.
Considrons une hirarchie binaire H et un indice d'agrgation . Soit f la fonction telle que:
Pour les indices d'agrgation courants, (H,f) est une hirarchie indice, on peut aussi utiliser la fonction
qui gnralise la premire et qui garantit que (H,f) est une
hirarchie indice.
Citons quelques indices d'agrgation parmi les plus classiques :
L'indice d'agrgation du lien maximum

L'indice d'agrgation du lien minimum

Indice de l'augmentation d'inertie

Exemple: Soit la matrice de distance suivante (symtrique):


a b c d e f g
a 0
b 1 0
c 3 2 0
d 6 5 3 0
e 7 6 4 1 0
f 11 10 8 5 4 0
g 16 15 13 10 9 5 0
Choisissons d'utiliser la stratgie "max". Les agrgations successives conduisent aux tableaux suivants:
ab c de f g
ab c d e f g
ab 0

ab 0

c 3 0

c 3 0

d 6 3 0

de 7 4 0

e 7 4 1 0

g 16 13 10 5 0

11 8 5 4 0

11 8 5 0

g 16 13 10 9 5 0
32

abc de f g
abc 0
de 7

abc de fg
abc 0

11 5 0

16 10 5 0

de 7
fg

abcde de
abcde 0

fg

16

10

16 10 5

En donnant chaque nud la distance entre les deux lments qu'il runit l'arbre se prsente comme
celui de gauche:

Si on a utilis une stratgie min


l'arbre serait

IV Construction de hirarchies indices


Ayant choisi un indice d'agrgation entre groupes d'individus, on peut imaginer de nombreux
algorithmes pour construire une hirarchie sur . Les algorithmes de classification descendante
hirarchique consistent dcouper de manire itrative la population en partitions de plus en plus
fines jusqu' la partition des singletons.
On peut par exemple partir de la meilleur partition 2 classes de : P = (P1,P2) au sens d'un critre
W donn dpendant de .
Si nous choisissons par exemple W(P) = d(P1,P2), il faut trouver P qui maximise W parmi les partitions
2 classes de W on recommence le procd sur chacune des deux classes ainsi obtenues jusqu' ce que
les classes soient rduites des singletons.
L'algorithme gnral de la classification ascendante hirarchique
L'algorithme de classification ascendante hirarchique (C.A.H) consiste construire l'aide de l'indice
d'agrgation choisi une suite de partitions de moins en moins fines dont les classes forment la
hirarchie H cherche. Il s'nonce de la faon suivante :
* A l'tape 0, il y a n lments (ou n objets) classer
33

* On cherche les deux lments les plus proches, que l'on agrge en un nouvel lment
* On calcule les distances entre le nouvel lment et les lments restants. On se trouve dans les mmes
conditions qu' l'tape 0, mais avec seulement (n-1) lments classer.
* On cherche de nouveau les deux lments les plus proches, que l'on agrge. On calcule les nouvelles
distances, et l'on ritre le processus jusqu' ce qu'il n'y ait plus qu'un seul lment.
Exemple: soient cinq points du plan classer, en prenant comme distance entre ces objets le carr de
leur distance. La matrice des distances entre ces diffrents points est:
(1) (2) (3) (4) (5)
(1) 0

16 1

(2) 16 0

10

17 25 2

(3) 1

17 0

(4) 9

25 4

13

(5) 10 2

13 0

Etape 1: les objets grouper sont 1 et 3. On va appeler 6 le nouvel lment obtenu et la nouvelle
matrice des distances sera:
(6) (2) (5) (4)
(6) 0

16 9

(2) 16 0

25

(5) 9

13

(4) 4

25 13 0

On a par exemple d(6,4) = Min {d(1,4), d(3,4) } =Min {9,4} = 4.


Etape 2: les objets grouper sont 2 et 5. On va appeler 7 le nouvel lment et la nouvelle matrice des
distances sera:
(6) (7) (4)
(6) 0

(7) 9

13

(4) 4

13 0

Etape 3: les objets grouper sont 6 et 4. On va appeler 8 le nouvel lment et la nouvelle matrice des
distances sera:
(8) (7)
(8) 0

(7) 9

Etape 2: les objets grouper sont 8 et 7. On va appeler 9 le nouvel lment et l'ensemble de ces
regroupements sont reprsents dans cette hirarchie (ou arbre):

34

Exemple: Soit un programme13 du logiciel SAS. Le code invoque une procdure de classification
hirarchique CLUSTER sur 29 observations. La premire partie des rsultats14 contient des valeurs
13

data un;
input v1-v3;
cards;
1
36.510 15.480
2
35.340 15.960
3
33.700 21.510
4
33.150 23.220
5
32.600 24.660
6
32.050 26.710
7
30.960 28.360
8
30.140 29.380
9
29.110 30.680
10
28.010 32.190
11
26.440 31.990
12
25.000 31.370
13
23.770 30.410
14
23.010 28.630
15
21.920 27.600
16
21.160 26.160
17
19.660 23.560
18
19.180 22.050
19
20.550 21.030
20
22.260 20.070
21
21.780 18.770
22
21.100 19.380
23
21.920 17.190
24
20.680 16.160
25
19.660 14.930
26
18.490 14.040
27
17.190 12.810
28
16.030 11.580
29
14.930 10.550
;
PROC CLUSTER METHOD=ave ;
var v2-v3;
id v1;
proc tree ;
id v1;
RUN
14

The CLUSTER Procedure


Average Linkage Cluster Analysis

35

numriques. Nous pouvons y distinguer le fait que les niveaux sont ordonnes:de la plus petite distance
(RMs distance) de 0.071 entre les observations 21 et 22 qui forment le noeud 28 la plus grande
distance entre noeud soit 1.2727. Ce noeud regroupe 29 observations et qui rassemble les noeuds cl27
et cl2. La seconde partie reprsente un arbre vertical.

Eigenvalues of the Covariance Matrix

1
2

Eigenvalue

Difference

Proportion

Cumulative

57.9571461
24.7181320

33.2390140

0.7010
0.2990

0.7010
1.0000

Root-Mean-Square Total-Sample Standard Deviation = 6.429435


Root-Mean-Square Distance Between Observations
= 12.85887
Cluster History
NCL
28
27
26
25
24
23
22
21
20
19
18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1

------Clusters Joined------21
1
7
20
25
14
28
4
12
10
17
23
19

22
2
8
CL28
26
15
29
5
13
11
18
24
CL25

CL26
CL23

9
16
27
3

CL19
CL17
6
CL18
CL8
CL11
CL12
CL7
CL5
CL3
CL27

CL22
CL21
CL20
CL24
CL15
CL16
CL10
CL14
CL9
CL13
CL6
CL4
CL2

FREQ

Norm
RMS
Dist

2
2
2
3
2
2
2
2
2
2
2
2
4
3
3
3
3
4
4
4
6
10
7
7
13
14
27
29

0.071
0.0983
0.1018
0.1064
0.1143
0.1166
0.1172
0.1199
0.1213
0.1231
0.1232
0.1254
0.1649
0.1869
0.1919
0.1988
0.2084
0.2549
0.2572
0.2807
0.2984
0.4571
0.4605
0.5145
0.7039
0.7362
1.2052
1.2727

T
i
e

36

ANALYSE DE COMPOSANTE PRINCIPALE


Sous-espace inertie minimum
Si on vous demande de reprsenter une bouteille que dessinerez-vous ?
Il est vrai que c'est le cas A auquel on pense automatiquement,
mais remarquons aussi que les deux autres cas reprsentent
aussi notre bouteille.
En ralit notre bouteille est en dimension 3, et en choisissant
le cas A nous ne faisons qu'une projection sur un espace qui
reprsente le mieux notre bouteille.
Si nous considrons que notre bouteille est un nuage de points,
le dessin A correspond une projection sur un espace
particulier de dimension 2.
La reprsentation A correspond l'espace qui dforme le
moins notre nuage initial.
La diffrence entre le nuage initial et sa projection est donc son minimum sur cet espace.
Prenons un autre nuage form des points A et B que nous
cherchons projeter sur un espace de dimension 1 tout
en ayant le minimum de dformation.
L'espace adquat est celui port par une droite parallle
l'axe AB et passant par l'origine.
La projection est (A'B') et la dformation sera alors
nulle .
Maintenant si notre nuage est form de trois points
(ABC) composant un triangle la projection provoquera
certainement une dformation de ce nuage.
Un critre de slection d'un espace de projection pour ce
triangle sera la minimisation des diffrences entres les
couples forms par un point et sa projection.
Dformation d'un nuage de points
Soit un couple de points Xi et Xj avec pi et pj leurs
masses respectives. Soient Projp(Xi) et Projp(Xj) les
projections orthogonales sur un sous-espace P de
dimension rduite. On a alors:
Une mesure de la dformation lie au couple de points
peut tre la diffrence entre les distances dans le nuage
initial et dans le nuage de projection:
ou encore la quantit:

37

Les poids sont introduits pour attacher plus d'importance la restauration de la distance entre deux
points que ceux-ci sont plus pesants.
Pour gnraliser ce critre sur tout le nuage on crit:

Cette diffrence comprend un terme fix savoir la quantit


du problme.
Minimiser la dformation revient augmenter le deuxime terme savoir:

qui est une donne

Cette quantit est gale


; correspond deux fois l'inertie explique15 par le sousespace considr.
Le problme de minimisation de la diffrence revient alors la maximisation de l'inertie explique du
sous-espace. Le sous-espace qui offre le maximum d'inertie explique sera donc choisi pour la
projection du nuage initial.

15

Inertie par rapport un axe passant par l'origine


Quand il s'agit de reprsentation vectorielle, on considre trs souvent comme confondus l'orgine O de l'espace et le centre
de gravit g.
Soit donc un axe passant par O. On appelle inertie par rapport la quantit:

Si nous appelons Proj(Xi) la projection orthogonale de Xi sur l'axe , l'inertie pourra s'crire:

On appelle inertie explique par un axe passant par l'origine, la quantit :

D'aprs le thorme de Pythagore on peut dire que: I(o) = I() + IE(). L'inertie du nuage est la somme de
l'inertie par rapport et de l'inertie explique par .

38

Analyse factorielle dun nuage de points


L'analyse en composantes principales (ACP) peut tre prsente comme une mthode numrique
laquelle on prsente un tableau X (xij; i=1..n; j=1..p) form de n points Xi munis de masses pi positives,
dcrits chacun par p variables :
X1
.
Xi ..xij...
Xn
le but de cette mthode est de :
- dcrire et reprsenter les ressemblances entre les individus par rapport l'ensemble des variables
- dcrire et reprsenter les corrlations linaires entre variables.
L'ACP cherche donc dterminer un sous-espace vectoriel de dimension kp; qui sera utilis pour
projeter ce nuage de points de Rp. Ce sous-espace est celui qui offre le maximum d'inertie explique.
Remarquons qu'on travaille gnralement avec des variables centres rduites16.
Sous-espace inertie explique maximale
Inertie explique par un axe
soit un axe passant par l'origine, c'est donc un sous-espace de
dimension 1. Il est dtermin par un vecteur unitaire u, dont les
composantes vrifient:
.
L'inertie explique par est :

La quantit || Proj(Xi) correspond au produit scalaire de Xi et u qu'on peut noter par


donc

. On a

16

Centrage rduction :
Quand les variables sont mesures avec des chelles diffrentes ou ont des dispersions htrognes, il peut savrer utile de
centrer et rduire ces variables.
- Centrer une variable v consiste en soustraire sa moyenne
- Rduire une variable v consiste la diviser par son cart-type.
Une variable centre-rduite satisfait aux deux proprits suivantes :
sa moyenne est nulle
son cart type est gal un
Cela permet dobtenir :
a) des donnes indpendantes de lchelle choisie
b) des variables ayant mme moyenne et mme dispersion.

39

D'autre part le produit scalaire entre deux vecteur A et B est par dfinition gal A'B (le vecteur
transpos de A produit avec B aussi not tAB) aussi gal B'A (aussi not tBA) . D'aprs ces deux
galits on peut crire que:
L'inertie explique peut donc s'crire sous la forme:

Posons la matrice
o X est la matrice n lignes et p colonnes. Les lignes
de X sont les vecteurs Xi, M est la matrice carre diagonale d'ordre n des poids pi (gnralement pi =
1/n).
V peut aussi s'crire V=ZZ' avec Z= X'M1/2. V s'appelle matrice des moments centrs d'ordre 2 ou
matrice d'inertie. V a les proprits suivantes:
* V est symtrique et a le rang de X.
* V est diagonalisable et ses valeurs et vecteurs propres sont rels.
* Les vecteurs propres associs des valeurs propres diffrentes sont orthogonaux.
* V est semi dfinie positive et donc pour tout vecteur U de Rn on a U'VU positif, toute valeur propre
de V est donc suprieur ou gale zro.
* La trace de V,qui est la somme de toutes les valeurs propres, est gale

Dfinitions:
1) Les axes engendrs par les vecteurs u1, ..uk sont appels axes principaux d'inertie.
2 On appelle k ime composante principale, ou k ime facteur, le vecteur yk, dont les composantes sont les
coordonnes des points du nuage sur le k ime axe principal d'inertie uk.
Comme on a n individus, le vecteur yk a n composantes, c'est donc un lment de l'espace R n des
variables

40

Analyse du nuage des points individus


Les axes factoriels
Pour dterminer l'espace de projection inertie explique maximale il faut dterminer ses k axes. Le
premier est l'axe inertie explique maximum et pour le dterminer il suffit de chercher l'axe associ
au premier vecteur propre de la matrice V.
On dsignera par U1 le vecteur associ la plus grande valeur propre 1. L'inertie explique par cet axe
est gale sa valeur propre.

Nous pouvons aussi dire que: la proportion de l'inertie explique par U1 est gale
.
Remarquons que l'inertie qui n'est pas explique par un sous-espace vectoriel donn l'est totalement par
le sous-espace supplmentaire (ensemble des axes qui lui sont orthogonaux).
Connatre le reste de l'inertie explique revient donc dterminer les axes associs aux autres vecteurs
propres.
Si nous nous intressons ce stade aux rsultats fournis par les logiciels d'analyse de donnes nous
remarquerons que dans les sorties de l'ACP la liste des p valeurs propres est trie selon l'ordre
dcroissant.
Le tableau suivant montre une partie des rsultats d'un exemple et si on val propre pourcentage cumul
cherche un axe qui reprsente, parmi tous les axes orthogonaux au
87.6
87.6
premier facteur, le maximum d'inertie explique il doit tre port par le 12.27
vecteur propre associ la deuxime valeur propre, ....
1.00
7.2
94.8
0.35
2.5
97.3
Sur ce tableau on remarque aussi que pour chaque valeur propre on a le
1.3
98.6
pourcentage d'inertie explique par l'axe associ et qui correspond 0.18
aussi sa contribution l'inertie explique. La dernire colonne reprsente les cumuls d'inertie qui
permettent de dterminer la dimension de l'espace de projection.
En prsentant l'ACP nous l'avons dfini comme tant une mthode qui cherche reprsenter un nuage
de point sur un espace de dimension k, tout en remarquant que k doit tre infrieur p, dimension
initiale du nuage.
Dterminer k revient aussi fixer le nombre d'axes parmi ceux correspondant aux vecteurs propres.
Si, pour l'exemple du tableau, on prend les deux premiers axes, et tant donn que l'inertie est
cumulative on aura un taux d'explication de presque 95%(94.8).
Autrement la projection du nuage initial sur les deux premiers axes factoriel restituera 95% de la forme
initiale du nuage.
Si on prend le troisime axe, la reprsentation sera de 97%....
L'ide est donc de se fixer un taux de reprsentation ce qui dterminera la dimension de l'espace
cherch.
Projection et aide l'interprtation
L'ACP du nuage des points X i revient donc diagonaliser la matrice V d'ordre p. Les axes factoriels
constituent une nouvelle base de l'espace R p, et on sera amen calculer les coordonnes des points sur
ces axes pour les reprsenter dans la nouvelle base et plus prcisment sur uniquement k axes.
La coordonne d'un point Xi sur un axe u correspond la projection du point sur l'axe, qui est aussi
gal au produit scalaire entre Xi et le vecteur u de l'axe:
41

Pour interprter les rsultats d'une analyse en composantes principales nous avons aussi besoin de
connatre:
* pour chaque point Xi, la contribution du point l'inertie du nuage: c'est la part avec laquelle il
participe l'inertie totale du nuage:

Elle indique quels sont les points qui ont jou un rle important dans l'analyse.
* pour chaque axe u et chaque point Xi, la contribution du point l'inertie explique par l'axe:

Les CTR permettent d'interprter le contenu d'un axe en identifiant les points qui ont le plus contribu
son positionnement. Notons que nous avons toujours:

* pour chaque point Xi et pour chaque axe u on calcule la part de l'inertie du point restitue par l'axe et
gale :

C'est en fait le carr du cosinus de l'angle form par l'axe U et le point Xi. Il indique la qualit de la
reprsentation du point sur l'axe, nous avons d'ailleurs la relation:
Pour chaque point et pour le sous-espace form des k premiers axes on calcule la qualit de la
reprsentation du point Xi sur ce sous-espace:
Analyse duale: analyse des points variables
Nous avons dj mentionn qu'on travaille gnralement avec des variables centres, notre nuage des
individus est donc centr, son centre de gravit est situ l'origine, ce qui n'est pas le cas pour le nuage
des variables.
Chaque variable X correspond une colonne du tableau X munie d'une masse unitaire. On utilisera
comme reprsentation des variables la notation Z:

42

puisque M est une matrice diagonale dont tous les termes sont gaux 1/n. Toutes les variables Z sont
normes (norme gale 1:
) et les points variables se situent une distance gale 1 de
l'origine. Elles sont donc sur la sphre de rayon 1.
D'autre part la distance entre deux variables est:
avec Z, Z dsignant le produit scalaire de deux variables.
Par ailleurs, et si nous faisons appels nos connaissances en gomtrie, on sait que le produit scalaire
deux vecteurs A et B est gal au produit des normes et du cosinus de l'angle entre les des deux vecteurs,
donc
car les variables sont normes.
Nous avons aussi
coefficient de corrlation puisqu'on travaille
avec des variables centres rduites. On peut donc dire que
= cos( Z, Z).
On a donc:
* deux points variables confondus ont un coefficient de corrlation gal 1.
* deux points variables formant un angle de 90 ont un coefficient de corrlation linaire gal zro.
* deux points variables formant un angle de 180 ont un coefficient de corrlation linaire gal -1.
Ces remarques seront utilises pour donner un sens aux diffrents axes en fonction de la position des
variables.

43

Interprtation des rsultats


Exemple 1
Nous allons voir les dtails d'une ACP sur un petit tableau travers une srie
d'exercices. Le tableau X de donnes est:
V1 V2 V3
A 8

B 4

C 6

D 10 4

E 8

F 0

Exercice1
Soit le tableau individus-variables suivant:
V1 V2 V3
A 8

B 4

C 6

D 10 4

E 8

F 0 3 6
On attribue un poids gal pi= 1/6 chaque individu. La moyenne de chaque
variable, selon l'ordre est:6;4,5.
Comment devient ce tableau une fois ses variables centres?
V1 V2 V3

V1 V2 V3

A 4/3 1/6 0

A 2

A 4

1/2 0

B 2/3 1

B -2 2

B 2

5/2

4/3 7/6

C 0

C 3

7/2

D 5/3 2/3 7/6

D 4

D 5

7/2

E 4/3 1/3 5/6

E 2

-2 0

E 4

5/2

F 0

F -6 -1 1

F 0

3/2 3

C 1

5/6

1/2 1

-3 -5

V1 V2 V3

tableau1
tableau2
tableau3
Une fois les variables centres, on choisit comme mtrique M=I6 (matrice diagonale dont les termes en
diagonales sont gaux 1/6, les autres zro).
Considrons la matrice V d'inertie (matrice diagonaliser) qui a pour expression:
44

la transpos de X est aussi not X' ou tX; vous pouvez obtenir la valeur de V partir de ce calcul
matriciel:

Le rsultat est la matrice d'inertie V suivante:


64 -8 -8
V = 1/6 -8 34 22
-8 22 34
Les deux plus grandes valeurs propres de V sont:

Les vecteurs propres norms associs ces valeurs propres sont:

Exercice2
Soit le tableau individus-variables suivant:
V1 V2 V3
A 8

B 4

C 6

D 10 4

E 8

F 0

Si la matrice d'inertie V associe est:


64 -8 -8
V = 1/6 -8 34 22
-8 22 34
Si les deux plus grandes valeurs propres de V sont:

Si les vecteurs propres norms associs ces valeurs propres sont:

45

Quelles sont les valeurs des deux premires composantes principales ?

forme1

forme2

forme3

Si l'on dsire reprsenter les individus dans le plan form par les deux premiers axes factoriels on aura:

Les parts d'inertie explique par les deux premiers axes factoriels sont:

Le dernier terme correspondant la part d'inertie explique par le plan form de ces deux vecteurs.
Si l'on cherche la part de l'inertie du point A restitue par l'axe 1 (ou encore le cosinus carr) on a:

Exemple 2
Nous pressentions un exemple de rsultat de l'analyse de l'ACP fourni par le logiciel SAS. Nous allons
baser le travail sur un tableau correspondant diffrentes dpenses alimentaires par catgorie
socioprofessionnelle.
Les individus sont 12 catgorie socio-professionnelle (CSP), les variables sont 14 dpenses
alimentaires.
Les abrviations des lignes et des colonnes utilises dans le tableau de donnes, le programme et les
rsultats sont les suivantes :
46

csup

cadre suprieur

cadmoy cadre moyen


expag

exploitant agricole

ouvag

ouvrier agricole

ouvind ouvrier industriel

ident identifiant (n'est pas inclus dans l'analyse)

salser

salari de service

cer

saltr

salari tertiaire

crales

lem lgumineuses

artisan artisan

leg
ouvmin ouvrier de mine fru
ouvcha ouvrier de chantiervia

lgumes

poi

poissons

lai

lait et produits laitiers

oef

oeuf

suc

sucre et produits sucrs

hui

huile

ber

beurre et corps gras

sel

sel et condiments

boi

boissons

ext

repas pris l'extrieur

inactif inactif/td>

fruits
viandes

Les rsultats17 gnrs se prsentent sous forme de plusieurs tableaux.


17

The PRINCOMP Procedure


Observations
Variables

12
14

Simple Statistics
cer
Mean
StD

13.30733333
1.73364762

lem
1.687166667
0.418812137

leg
10.76283333
2.93081797

fru
4.114750000
2.860612208

via
12.99733333
8.03105318

Simple Statistics
poi

lai

oef

suc

hui

47

Le premier donne pour chaque variable sa moyenne (Mean) et son cart-type (STD).
Le second groupe de rsultat correspond la matrice symtrique des corrlations. C'est une matrice
dont la diagonale est 1, puisque chaque variable est fortement corrle avec elle-mme (1). D'autre
part si la corrlation entre la variable V1 et V2 est la mme que la corrlation entre V2 et V1.
Le groupe de rsultat suivant correspond aux valeurs propres (eignenvalue).
Gnralement on a autant de lignes que de variables. Ainsi au niveau de chaque ligne on trouve:
une valeur propre (i)
la diffrence entre la valeur propre (i) et (i+1)
la proportion de l'inertie explique par l'axe (i) correspondant cette valeur propre
Mean
StD

2.156500000
1.813351217

3.618833333
2.641277853

1.127250000
1.037824747

3.198750000
0.559648286

6.563583333
1.460259781

Simple Statistics

Mean
StD

ber

sel

boi

0.5310000000
0.6995016408

0.6051666667
0.0891126288

5.584500000
3.145973169

ext
2.581750000
4.743518413

Correlation Matrix
cer
cer
lem
leg
fru
via
poi
lai
oef
suc
hui
ber
sel
boi
ext

1.0000
0.9354
0.8600
0.7961
0.7974
0.7366
0.7804
0.7396
0.8553
0.8610
0.6722
0.9227
0.7493
0.6311

lem

0.9354
1.0000
0.9017
0.8905
0.9040
0.8386
0.8917
0.8498
0.9080
0.7497
0.7833
0.9069
0.8666
0.7499

leg

0.8600
0.9017
1.0000
0.9150
0.9194
0.9338
0.8953
0.9214
0.8671
0.6736
0.8460
0.9590
0.8999
0.7974

fru
0.7961
0.8905
0.9150
1.0000
0.9970
0.9720
0.9875
0.9864
0.9221
0.6843
0.9679
0.8654
0.9776
0.9488

via

poi

0.7974
0.9040
0.9194
0.9970
1.0000
0.9708
0.9888
0.9852
0.9275
0.6769
0.9648
0.8673
0.9814
0.9492

0.7366
0.8386
0.9338
0.9720
0.9708
1.0000
0.9723
0.9944
0.8418
0.5989
0.9632
0.8866
0.9461
0.9234

lai
0.7804
0.8917
0.8953
0.9875
0.9888
0.9723
1.0000
0.9834
0.8768
0.6380
0.9616
0.8575
0.9543
0.9348

The PRINCOMP Procedure


Correlation Matrix

cer
lem
leg
fru
via
poi
lai
oef
suc
hui
ber
sel
boi
ext

oef

suc

hui

ber

sel

boi

0.7396
0.8498
0.9214
0.9864
0.9852
0.9944
0.9834
1.0000
0.8739
0.5991
0.9789
0.8665
0.9696
0.9489

0.8553
0.9080
0.8671
0.9221
0.9275
0.8418
0.8768
0.8739
1.0000
0.7601
0.8704
0.8372
0.9405
0.8787

0.8610
0.7497
0.6736
0.6843
0.6769
0.5989
0.6380
0.5991
0.7601
1.0000
0.5774
0.7591
0.6347
0.5777

0.6722
0.7833
0.8460
0.9679
0.9648
0.9632
0.9616
0.9789
0.8704
0.5774
1.0000
0.7989
0.9603
0.9859

0.9227
0.9069
0.9590
0.8654
0.8673
0.8866
0.8575
0.8665
0.8372
0.7591
0.7989
1.0000
0.8262
0.7326

0.7493
0.8666
0.8999
0.9776
0.9814
0.9461
0.9543
0.9696
0.9405
0.6347
0.9603
0.8262
1.0000
0.9597

ext
0.6311
0.7499
0.7974
0.9488
0.9492
0.9234
0.9348
0.9489
0.8787
0.5777
0.9859
0.7326
0.9597
1.0000

Eigenvalues of the Correlation Matrix

48

Le taux d'inertie explique par l'espace form par les vecteurs propres (1) .. (i). Pour notre cas on peut
se limiter aux deux premiers axes qui reprsentent 95% prs l'allure du nuage initial.
Le rsultats suivants reprsentent les coordonnes des variables dans le nouveau repre. On donne
gnralement sur tous les nouveaux axes.
Une fois l'espace de projection choisi (pour notre cas les deux premiers) nous avons une reprsentation
du nuage dans ce nouveau repre.
Dans le processus d'interprtation des rsultats, une fois l'espace de projection choisi, on commence
gnralement par l'interprtation des points-variables. Les coordonnes des variables sur les nouveaux
axes montre que leur valeurs sont toutes infrieures 1 en valeur absolue.

Eigenvalue

Difference

Proportion

Cumulative

1 12.2669557 11.2632316
0.8762
0.8762
2 1.0037241 0.6528315
0.0717
0.9479
3 0.3508925 0.1631041
0.0251
0.9730
4 0.1877884 0.0838148
0.0134
0.9864
5 0.1039736 0.0550889
0.0074
0.9938
6 0.0488848 0.0300359
0.0035
0.9973
7 0.0188488 0.0090156
0.0013
0.9986
8 0.0098333 0.0026694
0.0007
0.9994
9 0.0071639 0.0055532
0.0005
0.9999
10 0.0016107 0.0012865
0.0001
1.0000
11 0.0003242 0.0003242
0.0000
1.0000
12 0.0000000 0.0000000
0.0000
1.0000
13 0.0000000 0.0000000
0.0000
1.0000
14 0.0000000
0.0000
1.0000
The PRINCOMP Procedure
Eigenvectors
Prin1

Prin2

cer 0.245625 0.485527


lem 0.265149 0.247670
leg 0.270514 0.088633
fru 0.282370 -.111268
via 0.282819 -.109520
poi 0.275549 -.183671
lai 0.278464 -.140435
oef 0.278195 -.203730
suc 0.269403 0.092946
hui 0.210819 0.543003
ber 0.270330 -.287230
sel 0.263067 0.252508
boi 0.277274 -.164041
ext 0.263473 -.314748

Prin3

Prin4

Prin5

Prin6

Prin7

-.098934
-.159693
-.424204
0.061568
0.041702
-.215221
-.043351
-.111523
0.306682
0.562670
0.131560
-.400112
0.120010
0.340800

-.145467
-.493604
0.076513
0.004159
-.071418
0.297193
0.010137
0.131963
-.481525
0.480529
0.159678
0.285175
-.214983
0.050679

-.120868
-.384194
0.434881
-.155038
-.153246
-.039365
-.515830
-.053451
0.454077
-.051874
0.015951
0.219303
0.249634
0.105424

0.394909
-.124929
-.407193
-.166673
-.197501
-.115405
0.028479
-.049262
0.140286
-.277556
0.422864
0.398292
-.283562
0.254392

-.566795
0.520670
-.242281
-.357588
-.043077
0.128929
-.121917
-.058672
0.015321
0.134844
0.087049
0.383838
0.096292
0.041156

Prin12

Prin13

Prin14

Eigenvectors
Prin8

Prin9

cer 0.254212 -.054064


lem -.008069 0.107109
leg 0.035647 0.398448
fru -.351680 -.290471
via -.161486 0.249275
poi -.195793 -.036972
lai 0.124178 0.134446
oef -.050022 -.293023
suc -.455073 -.011371
hui -.001253 -.003517
ber -.125141 -.137442
sel 0.014296 -.111927
boi 0.630384 -.482070
ext 0.328154 0.557742

Prin10
-.145844
0.064224
0.330432
0.030199
0.028432
-.482819
0.153349
-.275846
-.135375
0.065665
0.650729
-.039559
0.044015
-.285288

Prin11
-.099947
0.071526
0.058137
0.468280
-.585082
0.217787
0.205855
-.535645
0.030601
-.023833
-.088730
0.069787
0.052501
0.161808

0.176298 0.225760 0.017573


0.291445 -.027634 0.241698
-.005134 -.003067 0.216570
0.317347 -.408958 -.167891
0.093862 0.031912 -.629014
0.080012 0.630519 0.000000
-.720840 0.000000 0.000000
-.072972 -.331214 0.525477
-.361811 0.081582 0.052118
-.041789 0.013220 0.092040
0.211193 0.283650 0.155040
-.132512 -.344001 -.341315
-.034256 0.104732 -.192305
0.217041 -.236946 0.075475

49

Les points variables sont situes sur la sphre de rayon 1 dans R 12 et une distance 1 de l'origine des
axes. La projection d'une variable sur un axe ne peut donc avoir qu'une valeur infrieure 1.
En examinant les coordonnes des variables sur les axes choisis, on remarque que toutes les valeurs
sont positives sur le premier axe.
C'est essentiellement d au fait que les variables soient fortement corrles positivement entre elles.
En regardant la matrice des corrlation, on remarque en effet que presque toutes les valeurs sont
suprieures 0.5.
Nous pouvons donner, en fonction de la position des variables, une premire tiquette au premier axe
factoriel:
le premier facteur est celui de la taille, car si, pour une CSP, la valeur d'une dpense alimentaire
augmente (une variable), celle des autres variables a aussi tendance augmenter (le contraire est vrai).
Plus gnralement on interprte un axe en slectionnant les variables ayant les plus fortes coordonnes
en valeur absolue, et on dira que, l'axe oppose les variables qui ont des coordonnes ngatives celles
qui ont des coordonnes positives.
Dans certains logiciels on peut trouver les carres des coordonnes sur les axes. Comme les points
variables sont munis de masses gales, la contribution d'une point-variable l'inertie explique par
l'axe est proportionnelle au carr de la coordonne. Ce carr peut alors s'interprter comme le
coefficient de corrlation linaire avec l'axe considr comme une nouvelle variable.
Pour revenir notre exemple et en nous intressant l'axe 2, on remarque que les variables ayant les
plus grandes valeurs (en valeur absolue) sont:
Huies, Crales et Lgumineuses du cot positif, et les variables Repas l'extrieur, Beurre et uf du
cot ngatif. On peut lui donner comme tiquette: le facteur de la qualit de l'alimentation.
Les relations de dualit permettent d'interprter les positions des points individus sur les axes
conformment au sens que nous lui avons donn partir des points variables.
Nous avons interprt le premier facteur comme tant celui de la taille, et sur ce facteur nous
constatons une disposition ordonnes des catgories dpenses faibles du cot ngatif, par rapport aux
catgories dpenses leves du cot positif de cet axe. Le point cadre suprieur occupe la position la
plus loigne sur cet axe.
Sur le deuxime facteur, nous constatons que les points ayant les plus grandes valeurs (en valeur
absolue) sont cadre suprieur et ouvrier de chantier. On peut interprter cela par la valeur leve des
repas pris l'extrieur pour ces deux catgories
Test
Soit un programme18 d'ACP sur un tableau de donnes reprsentant 28 catgories de personne:
Plot of Principal Components
ident

Prin1

Prin2

csup
9.68012 -1.15091
cadmoy
2.35059 0.58172
expag
-1.08346 1.23926
ouvag
-3.19212 -0.65924
ouvind -0.56995 -0.04118
commer -0.12318 0.00781
saltr
-0.00192 0.10055
salser -0.11776 0.04037
artisan -0.32294 0.62559
ouvcha -4.69343 -2.26350
ouvmin -0.93308 1.36178
inactif -0.99288 0.15775
18

data hom_fem;
input ident $ prof tran mena enfa cour toil repa somm tele lois;
cards;

50

HAUS hommes actifs des USA

Haus 610 140


60
10 120
95 115 760 175 315
Faus 475
90 250
30 140 120 100 775 115 305
Fnau
10
0 495 110 170 110 130 785 160 430
Hmus 615 141
65
10 115
90 115 765 180 305
Fmus 179
29 421
87 161 112 119 776 143 373
Hcus 585 115
50
0 150 105 100 760 150 385
Fcus 482
94 196
18 141 130
96 775 132 336
Hawe 652 100
95
7
57
85 150 807 115 330
Fawe 510
70 307
30
80
95 142 815
87 262
Fnaw
20
7 567
87 112
90 180 842 125 367
Hmwe 655
97
97
10
52
85 152 807 122 320
Fmwe 168
22 529
69 102
83 174 825 119 392
Hcwe 642 105
72
0
62
77 140 812 100 387
Fcwe 389
34 262
10
92
97 147 848
84 392
Hayo 650 140 120
15
85
90 105 760
70 365
Fayo 560 105 375
45
90
90
95 745
60 235
Fnay
10
10 710
55 145
85 130 815
60 380
Hmyo 650 145 112
15
85
90 105 760
40 475
Fmyo 260
52 576
59 116
85 117 775
65 295
Hcyo 615 125
95
0 115
90
85 760
40 475
Fcyo 413
89 318
23 112
96 102 774
45 409
Haes 650 142 122
22
76
94 100 764
96 334
Faes 578 106 338
42 106
94
52 752
64 228
Fnae
24
8 594
72 158
92 128 840
86 398
Hmes 652 133 134
22
68
94 102 762 122 310
Fmes 434
77 431
60 117
88 105 770
73 229
Hces 627 148
68
0
88
92
86 770
58 463
Fces 433
86 296
21 128 102
94 798
58 379
;
proc princomp out=Prin;
title2;
var PROF TRAN MENA ENFA COUR TOIL REPA SOMM TELE LOIS;
run;
title2 'Plot of Principal Components';
%plotit(data=Prin, labelvar=ident,
plotvars=Prin2 Prin1, color=black, colors=blue);
run;

51

FAUS femmes actives des USA


FNAU femmes non actives des USA
HMUS hommes maris des USA
FMUS femmes maries des USA
HCUS hommes clibataires des USA
FCUS

femmes clibataires des USA

HAWE

hommes actifs des pays de


l'ouest

FAWE

femmes actives des pays de


l'ouest

FNAW femmes non actives des pays


E
de l'ouest
HMWE

hommes maris des pays de


l'ouest

FMWE

femmes maries des pays de


l'ouest

HCWE

hommes clibataires des pays


de l'ouest

FCWE

femmes clibataires des pays


de l'ouest

HAES

hommes actifs des pays de


l'est

FAES

femmes actives des pays de


l'est

FNAE

femmes non actives des pays


de l'est

HMES

hommes maris des pays de


l'est

FMES

femmes maris des pays de


l'est

HCES

hommes clibataires des pays


de l'est

FCES

hommes clibataires des pays


de l'est

HAYO

hommes actifs de Yougoslavie

FAYO

femmes actives de Yougoslavie

HMYO

hommes maris de
Yougoslavie

FMYO femmes maris de Yougoslavie


FCYO

femmes clibataires de
Yougoslavie

HCYO

hommes clibataires de
Yougoslavie

52

Les variables sont:


PROF

travail professionnel

TRAN occupations dues ou lies au travail professionnel(transport)


MENA travail mnager
ENFA

occupation lies aux enfants

COUR les courses


REPA

les repas

SOMM sommeil

53

TELE

tlvision

LOIS

les autres loisirs

Une case du tableau contient le nombre d'heures que les sujets d'une catgorie
ont consacr en moyenne l'activit j pendant la dure de l'enqute.
Ce tableau a t soumis une analyse en composantes principales qui a gnr
des rsultats19 numriques et d'autres graphiques.
Interprtation
19

The PRINCOMP Procedure


Observations
Variables

28
10

Simple Statistics
prof
Mean
StD

tran

448.1428571
227.0595801

86.07142857
48.09552884

mena

enfa

cour

276.9642857
198.6067177

33.17857143
30.56026659

108.6785714
32.5144453

somm

tele

lois

Simple Statistics
toil
Mean
StD

repa

94.85714286
11.55570818

116.6428571
28.1966826

785.6071429
98.00000000
29.5864575
40.83843506

352.6428571
68.5998673

Correlation Matrix
prof

tran

mena

enfa

cour

toil

repa

somm

tele

lois

prof 1.0000 0.9386 -.9067 -.8592 -.6541 -.1124 -.4487 -.5570 -.0818 -.1810
tran 0.9386 1.0000 -.8704 -.8021 -.5031 -.0773 -.5780 -.7047 -.0842 -.0761
mena -.9067 -.8704 1.0000 0.8587 0.4997 -.0400 0.3105 0.4378 -.1684 -.1027
enfa -.8592 -.8021 0.8587 1.0000 0.5424 0.1166 0.3107 0.2696 0.1404 -.0919
cour -.6541 -.5031 0.4997 0.5424 1.0000 0.5906 -.1624 -.0220 0.2373 0.1691
toil -.1124 -.0773 -.0400 0.1166 0.5906 1.0000 -.3183 -.2111 0.3288 0.0091
repa -.4487 -.5780 0.3105 0.3107 -.1624 -.3183 1.0000 0.8055 0.3402 0.1220
somm -.5570 -.7047 0.4378 0.2696 -.0220 -.2111 0.8055 1.0000 0.0504 0.2005
tele -.0818 -.0842 -.1684 0.1404 0.2373 0.3288 0.3402 0.0504 1.0000 -.1598
lois -.1810 -.0761 -.1027 -.0919 0.1691 0.0091 0.1220 0.2005 -.1598 1.0000

Eigenvalues of the Correlation Matrix


Eigenvalue
1
2
3
4
5
6
7
8
9

Difference

Proportion

Cumulative

4.56672318 2.48711428
0.4567
2.07960890 0.73218394
0.2080
1.34742496 0.18217576
0.1347
1.16524919 0.68722577
0.1165
0.47802342 0.25306622
0.0478
0.22495720 0.15379632
0.0225
0.07116088 0.03588927
0.0071
0.03527161 0.00660556
0.0035
0.02866606 0.02575146
0.0029
The PRINCOMP Procedure

0.4567
0.6646
0.7994
0.9159
0.9637
0.9862
0.9933
0.9968
0.9997

Eigenvalues of the Correlation Matrix

54

Le premier axe oppose le travail professionnel et les occupations qui lui sont
lies au travail mnager et aux occupations lies aux enfants.
Sur le plan (1,2) on trouve toutes les catgories masculines gauche et la
plupart des catgories fminines droite. Les seules catgories fminines
situes gauche du graphique sont des catgories actives.
Le deuxime axe oppose les soins personnels et les courses aux repas et au
sommeil.
On remarque que toutes les catgories relatives aux Etats-Unis sont en haut du
graphique, celle des pays de l'est occupent une position moyenne, celles des
payas de l'ouest sont en bas du graphique.

Eigenvalue
10

Difference

0.00291460

Proportion

Cumulative

0.0003

1.0000

Eigenvectors
Prin1

Prin2

prof
-.458996
-.063299
tran
-.457632
0.044658
mena
0.418386
0.032332
enfa
0.403718
0.146508
cour
0.268467
0.506408
toil
0.042124
0.554107
repa
0.263872
-.458558
somm
0.302964
-.414675
tele
0.066573
0.142481
lois
0.046507
-.073987

Prin3

Prin4

Prin5

0.079912
-.074542
-.096969
0.012656
0.002631
0.176519
-.322957
-.192478
-.009137
-.104710
-.227793
0.339204
0.013311
0.197341
0.104296
0.282601
0.163356
-.593516
0.384949
0.001643
0.048196
0.171817
0.160219
-.499175
0.786899
-.159988
0.359331
-.035075
0.888033
0.317079

Eigenvectors
Prin6
prof
0.073029
tran
0.003888
mena
-.050549
enfa
0.537284
cour
-.582504
toil
0.444744
repa
0.204701
somm
-.252992
tele
-.142575
lois
0.200197

Prin7
-.018274
0.072265
0.230621
-.367240
0.214187
0.128121
0.674156
-.480319
-.231350
-.073397

Prin8
-.441952
0.605350
0.479734
-.190522
-.285272
0.133241
-.118602
0.119425
0.198705
0.069573

Prin9

Prin10

0.095335
0.744240
0.620442
0.024857
-.202229
0.596399
0.416486
0.065843
0.384445
0.084337
0.005087
0.019769
0.242627
-.016195
0.327099
0.126188
-.251115
0.157951
-.121906
0.191897

55

NUEES DYNAMIQUES
Les principales tapes
Cette technique de classification a pour but de fournir une partition en k classes (k donn priori) bien
agrges et bien spares entre elles.
Droulement de l'algorithme
Ayant un ensemble d'observations (ou objets), on part d'un choix de k (ici 2) noyaux estim ou tirs au
hasard pris parmi une famille de noyaux appel espace de reprsentation L:
Chaque point de la population est ensuite
affect au noyau dont il est le plus proche.
On a une partition en k classes dont on
calcule les noyaux.
On recommence le procd avec les
nouveaux noyaux. On associe alors chaque point au noyau le plus proche:
Cet algorithme fait gnralement dcrotre
un critre W qui mesure l'adquation entre
les classes et leur noyau respectif. On peut
formellement reprsenter ce critre par:
W:Lk * Pk R+
avec :
Lk = k l'ensemble des k-uples L =(L1, ...,Lk) avec Li .
Pk est l'ensemble des partitions P=(P1,..., Pk) k classes de .
avec D une mesure d'adquation du noyau L i la classe Pi (une petite valeur de D
exprime une bonne adquation entre Li et Pi).
A chaque itration de l'algorithme, la dcroissance du critre exprime une augmentation globale de
l'adquation entre les classes et leurs noyaux.
L'algorithme s'arrte soit lorsque deux itrations successives conduisent la mme partition, soit
lorsqu'un critre convenablement choisi (par exemple la variance intra-classe) cesse de dcrotre de
faon sensible, soit encore parce qu'un nombre maximal d'itration a t fix priori. Dans tous les cas,
la partition obtenue dpendra du choix initial des centres (noyaux) l'tape 0.
Utilisation des centres de gravit
Nous nous intressons particulirement au cas o le noyau est le centre de gravit. Nous prendrons
comme espace des individus l'espace Rp muni dun mtrique euclidien dM.
L'espace de reprsentation L d'une classe est aussi Rp. La mesure d'adquation D est une application de
P() *L dans R+ dfinie par:

o pa est le poids de a et Ix(A) l'inertie de la partie A par rapport x.


56

La fonction de reprsentation
Nous cherchons optimiser D(A,x) = Ix(A) pour x Rp. D'aprs le thorme de Hygens, on a une
solution qui correspond au centre de gravit de la partie A. La fonction de reprsentation g, qui toute
partition P= (P1, ...Pk) associe sa reprsentation L = (L1,..Lk) est dfinie par:
g(P1, ...Pk)= (L1, ...Lk) o Li est le centre de gravit de Pi
.
Le problme d'optimisation revient chercher le meilleur couple (P,L) Pk*Lk minimisant le critre
d'adquation W entre la partition P = (P1, ...Pk) et sa reprsentation L= (L1, ...Lk). On peut donc crire:

Comme le reprsentant Ll d'une classe Pl est son centre de gravit gl, le critre s'crit:

avec Tl l'inertie de la classe Pl par rapport son centre de gravit gl.


Le critre W(P,L) est donc l'inertie intraclasse de la partition P. Cette mthode minimise l'inertie
intraclasse et maximise l'inertie interclasse en vertu de la relation T=W+B.
Exemple
Nous allons utiliser le tableau de donnes dcrit dans la partie test de l'analyse en composantes
principales. Sur ce tableau nous effectuons une classification hirarchique donne par la procdure
CLUSTER, et une mthode de nues dynamique donne par la procdure FASTCLUS. Remarquons
que nous avons demand quatre classes. Nous rcuprons des rsultats numriques ainsi qu'une
hirarchie des observations.
Donnes
data hom_fem;
input ident $ prof tran mena enfa cour toil repa somm tele lois;
cards;
Haus 610 140 60 10 120 95 115 760 175 315
Faus 475 90 250 30 140 120 100 775 115 305
Fnau 10 0 495 110 170 110 130 785 160 430
Hmus 615 141 65 10 115 90 115 765 180 305
Fmus 179 29 421 87 161 112 119 776 143 373
Hcus 585 115 50 0 150 105 100 760 150 385
Fcus 482 94 196 18 141 130 96 775 132 336
Hawe 652 100 95 7 57 85 150 807 115 330
Fawe 510 70 307 30 80 95 142 815 87 262
Fnaw 20 7 567 87 112 90 180 842 125 367
Hmwe 655 97 97 10 52 85 152 807 122 320
Fmwe 168 22 529 69 102 83 174 825 119 392
Hcwe 642 105 72 0 62 77 140 812 100 387
Fcwe 389 34 262 10 92 97 147 848 84 392
Hayo 650 140 120 15 85 90 105 760 70 365
Fayo 560 105 375 45 90 90 95 745 60 235
Fnay 10 10 710 55 145 85 130 815 60 380
Hmyo 650 145 112 15 85 90 105 760 40 475
Fmyo 260 52 576 59 116 85 117 775 65 295
Hcyo 615 125 95 0 115 90 85 760 40 475
Fcyo 413 89 318 23 112 96 102 774 45 409
Haes 650 142 122 22 76 94 100 764 96 334
Faes 578 106 338 42 106 94 52 752 64 228
Fnae 24 8 594 72 158 92 128 840 86 398
Hmes 652 133 134 22 68 94 102 762 122 310
Fmes 434 77 431 60 117 88 105 770 73 229

57

Hces 627 148 68 0 88 92 86 770 58 463


Fces 433 86 296 21 128 102 94 798 58 379
;
PROC CLUSTER METHOD=ave ;
var prof tran mena enfa cour toil repa somm tele lois;
id ident;
proc tree ;
id ident;
proc fastclus data= hom_fem maxclusters=4;
var prof tran mena enfa cour toil repa somm tele lois;
id ident;
run;

Rsultats
The CLUSTER Procedure
Plot of Principal Components
The CLUSTER Procedure
Average Linkage Cluster Analysis
Eigenvalues of the Covariance Matrix
Eigenvalue
1 90342.3547
2 7634.1240
3 3151.2106
4 1596.0893
5
384.9016
6
161.9852
7
94.6394
8
46.4312
9
43.0977
10
27.8118

Difference

Proportion

82708.2307
4482.9134
1555.1214
1211.1877
222.9164
67.3458
48.2081
3.3336
15.2858

Cumulative

0.8730
0.0738
0.0305
0.0154
0.0037
0.0016
0.0009
0.0004
0.0004
0.0003

0.8730
0.9468
0.9772
0.9927
0.9964
0.9980
0.9989
0.9993
0.9997
1.0000

Root-Mean-Square Total-Sample Standard Deviation = 101.7264


Root-Mean-Square Distance Between Observations = 454.9344
Cluster History
NCL
27
26
25
24
23
22
21
20
19
18
17
16
15
14
13
12
11
10
9
8
7
6
5

Norm T
RMS i
--Clusters Joined--FREQ
Hawe
Haus
Haes
Hcyo
Fcyo
Hmyo
Fayo
Hayo
Faus
CL27
Fnaw
CL26
CL18
Fcwe
CL16
Fawe
Fnau
Fmus
CL19
CL12
CL13
CL11
CL10

Hmwe
Hmus
Hmes
Hces
Fces
CL24
Faes
CL25
Fcus
Hcwe
Fnae
Hcus
CL20
CL23
CL15
CL21
CL17
Fmwe
CL14
Fmes
CL22
Fnay
Fmyo

Dist

2 0.0318
2 0.0348
2 0.0866
2 0.1143
2 0.1183
3 0.1308
2 0.1379
3 0.1406
2 0.1473
3 0.1604
2 0.2
3 0.2148
6 0.2235
3 0.2693
9 0.3018
3 0.3059
3 0.3188
2 0.3322
5 0.3575
4 0.3674
12 0.3933
4 0.4211
3 0.4307

58

Plot of Principal Components


The CLUSTER Procedure
Average Linkage Cluster Analysis
Cluster History
NCL
4
3
2
1

Norm T
RMS i
--Clusters Joined--FREQ
CL9
CL8
9
CL6
CL5
7
CL7
CL4
21
CL2
CL3
28
Plot of Principal Components

Dist

0.4936
0.5665
0.7161
1.4394

The FASTCLUS Procedure


Replace=FULL Radius=0 Maxclusters=4 Maxiter=1

Initial Seeds
Cluster
prof
tran
mena
enfa
cour

1
179.0000000
29.0000000
421.0000000
87.0000000
161.0000000
2
560.0000000
105.0000000
375.0000000
45.0000000
90.0000000
3
10.0000000
10.0000000
710.0000000
55.0000000
145.0000000
4
627.0000000
148.0000000
68.0000000
0.0000000
88.0000000
Initial Seeds
Cluster
toil
repa
somm
tele
lois

1
112.0000000
119.0000000 776.0000000
143.0000000
373.0000000
2
90.0000000
95.0000000
745.0000000
60.0000000
235.0000000
3
85.0000000
130.0000000
815.0000000
60.0000000
380.0000000
4
92.0000000
86.0000000
770.0000000
58.0000000
463.0000000
Criterion Based on Final Seeds = 35.3248
Cluster Summary
Maximum Distance
RMS Std
from Seed Radius Nearest Distance Between
Cluster Frequency Deviation to Observation Exceeded Cluster Cluster Centroids

1
4
48.6975
168.7
3
189.8
2
9
42.9990
160.8
4
283.4
3
3
30.1087
96.5752
1
189.8
4
12
31.9386
130.4
2
283.4
Statistics for Variables
Variable Total STD Within STD
R-Square RSQ/(1-RSQ)

prof
227.05958
54.90771
0.948020 18.238249
tran
48.09553
19.39776
0.855409
5.916059
mena 198.60672
54.57104
0.932890
13.901015
enfa
30.56027
13.98163
0.813942
4.374659
cour
32.51445
27.46353
0.365827
0.576858
toil
11.55571
10.95049
0.201782
0.252791
repa
28.19668
25.69932
0.261595
0.354270
somm 29.58646
25.26572
0.351776
0.542678
tele
40.83844
40.26146
0.136051
0.157475
lois
68.59987
64.80409
0.206758
0.260649
Plot of Principal Components

59

The FASTCLUS Procedure


Replace=FULL Radius=0 Maxclusters=4 Maxiter=1
Statistics for Variables
Variable
Total STD Within STD
R-Square RSQ/(1-RSQ)

OVER-ALL 101.72642
38.15513
0.874949
6.996762
Pseudo F Statistic =

55.97

Approximate Expected Over-All R-Squared = 0.72964


Cubic Clustering Criterion =

5.946

WARNING: The two values above are invalid for correlated variables.
Cluster Means
Cluster
prof
tran
mena
enfa
cour

1
154.2500000
25.7500000
505.2500000
81.2500000
137.2500000
2
474.8888889
83.4444444
308.1111111
31.0000000
111.7777778
3
18.0000000
8.3333333
623.6666667
71.3333333
138.3333333
4
633.5833333
127.5833333
90.8333333
9.2500000
89.4166667
Cluster Means
Cluster
toil
repa
somm
tele
lois

1
97.5000000
135.0000000
790.2500000
121.7500000
372.5000000
2
101.3333333
103.6666667
783.5555556
79.7777778
308.3333333
3
89.0000000
146.0000000
832.3333333
90.3333333
381.6666667
4
90.5833333
112.9166667
773.9166667
105.6666667
372.0000000
Cluster Standard Deviations
Cluster
prof
tran
mena
enfa
cour

1
104.5510242
21.4223404
65.2501596
22.3960562
33.3204142
2
64.9931620
21.8867032
69.6301739
15.5483118
21.9361447
3
7.2111026
1.5275252
75.9758734
16.0104133
23.7135685
4
22.6974501
18.6277327
27.5807355
8.2033807
29.8434044
Plot of Principal Components
The FASTCLUS Procedure
Replace=FULL Radius=0 Maxclusters=4 Maxiter=1
Cluster Standard Deviations
Cluster
toil
repa
somm
tele
lois

1
15.6311655
26.6207939
23.5990819
41.4035023
56.8418860
2
14.2214627
27.9776697
32.1212979
28.3009619
73.4642770
3
3.6055513
29.4618397
15.0443788
32.7159492 15.5670592
4
6.7481760
22.8172914
21.1980202
47.8754698
65.6685894

60

[Celeux 89] G.Celeux, E. Diday ; G. Govaert ; Y. Lechevallier H.Ralambondrainy. Classification


automatique des donnes. Dunod informatique 1989.
[Diday 79] E. Diday et collaborateurs; Optimisation en classification automatique. INRIA
[Diday 82] E. Diday, J. Lemaire, J. Pouget, F. Testu. Elments d'analyse de donnes. Dunod 82.
[Hubert 85] L. Hubert, P. Arabie. Comparing Partitions. Journal of Classification. Springer Verlag.
1985.
[Jambu 99] M. Jambu, Mthodes de base de l'analyse des donnes. Eyrolles; (Coll. technique et
scientifique des tlcommunications)
[Johnson 98] D.E. Johnson, Applied Multivariate Methods for Data Analysts. Kansas State University.
Duxbury Press. ITP. 1998.
[Lebart 77] L. Lebart, A. Morineau, N. Tabard; Techniques de la description statistique. Dunod
[Lebart 82] L. Lebart, A. Morineau, J.P Fnelon; Traitement des donnes statistiques. Dunod
[Saporta 78] G. Saporta; Thories et mthodes de la statistique. Socit des ditions Technip
[Volle 81] M. Volle; Analyse des donnes. Collection "Economie et statistique avances" 1981
[Volle 97] M. Volle; Analyse des donnes. Collection "Economica"
[Zaiem 88] M.H Zaiem; Les mthodes exploratoires de l'analyse des donnes. Fond des Nations Unies
pour la population.

61