Analyse Donnees - Ps

ANALYSE DE DONNEES
Johann PAVIS (selon source :)

Table des matieres
1 INTRODUCTION A LANALYSE DE DONNEES 4

1.1 Retapes preliminaires . . . . . . . . . . . . . . . . . . . . . . . 4
1.1.1 Construction du tableau de donnees . . . . . . . . . . . 4
1.1.2 Notion dindividu et de variable . . . . . . . . . . . . . 5
1.1.2.1 Typologie de Diday . . . . . . . . . . . . . . . 5
1.1.2.2 Typologie de Lerman . . . . . . . . . . . . . . 5
1.1.3 Tableaux de donnees . . . . . . . . . . . . . . . . . . . 6
1.1.3.1 Tableau de donnees quantitatives . . . . . . . 6
1.1.3.2 Tableau de contingence . . . . . . . . . . . . 6
1.1.3.3 Tableau dincidence . . . . . . . . . . . . . . 7
1.1.3.4 Tableau de preferences . . . . . . . . . . . . . 7
1.1.3.5 Tableau de modalites . . . . . . . . . . . . . . 7
1.1.3.6 Tableau de proximite . . . . . . . . . . . . . . 7
1.2 Elements descriptifs dun tableau de donnees . . . . . . . . . . 7
1.2.1 Les notions . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2.2 Elements descriptifs . . . . . . . . . . . . . . . . . . . . 8
1.2.2.1 Au niveau des variables . . . . . . . . . . . . 8
1.2.2.2 Au niveau des individus . . . . . . . . . . . . 9
1.3 Choix dune mesure de ressemblance . . . . . . . . . . . . . . 9
1.3.0.3 Quelques definitions . . . . . . . . . . . . . . 9
1.3.0.4 Calcul de distance . . . . . . . . . . . . . . . 10
1.3.1 Mesures de ressemblance entre groupes dobjets . . . . 10
2 ANALYSE EN COMPOSANTES PRINCIPALES 12

2.1 Probleme a traiter . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2 Formulation mathematique . . . . . . . . . . . . . . . . . . . . 12
2.3 Resolution du probleme . . . . . . . . . . . . . . . . . . . . . 13
2.3.1 Choix de a . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.3.2 Choix des vecteurs generateurs . . . . . . . . . . . . . 13
2.4 Resultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.4.1 Axes principaux dinertie . . . . . . . . . . . . . . . . . 14
2
2.4.2 Les composantes principales . . . . . . . . . . . . . . . 14
2.4.3 La valeur du critere IW . . . . . . . . . . . . . . . . . . 14
2.4.4 Interpretation des resultats : les individus . . . . . . . 14
2.4.4.1 Coordonnees . . . . . . . . . . . . . . . . . . 14
2.4.4.2 Qualite globale de la representation . . . . . . 15
2.4.4.3 Qualite ponctuelle de representation . . . . . 15
2.4.4.4 Contribution absolue dun individu a laxe . . 15
2.4.5 Interpretation des resultats : les variables . . . . . . . . 15
2.5 Methodologie . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3 ANALYSE FACTORIELLE DES CORRESPONDANCES 17

3.1 Le but de la methode . . . . . . . . . . . . . . . . . . . . . . . 17
3.2 La methode . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.2.1 Transformation des donnees initiales : passage aux ma-
trices de profil . . . . . . . . . . . . . . . . . . . . . . . 17
3.2.2 Les nuages NI et NJ . . . . . . . . . . . . . . . . . . . 18
3.2.3 Choix des metriques : matrices MI et MJ . . . . . . . . 18
3.2.4 Calcul de X bI et de X bJ . . . . . . . . . . . . . . . . . . 18
3.2.5 Calcul de VI et de VJ . . . . . . . . . . . . . . . . . . . 18
3.2.6 Recherche des axes principaux dinertie . . . . . . . . . 19
3.3 Les resultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.3.1 Les composantes principales . . . . . . . . . . . . . . . 21
3.3.2 Contributions absolue et relative . . . . . . . . . . . . 21
3.3.3 Representation graphique . . . . . . . . . . . . . . . . 22
4 CLASSIFICATION AUTOMATIQUE 23
4.1 But . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4.2 Classification par hierarchie et par arbre . . . . . . . . . . . . 23
4.2.1 Principe de la methode . . . . . . . . . . . . . . . . . . 23
4.2.2 Definition dune hierarchie . . . . . . . . . . . . . . . . 24
4.2.3 Construction de hierarchies indicees . . . . . . . . . . . 26
4.2.4 Classification hierarchique ascendante de saut minimal
et arbre des poids minimaux . . . . . . . . . . . . . . . 27
3
Chapitre 1
INTRODUCTION A
LANALYSE DE DONNEES
Lanalyse de donnees traite des donnees statistiques, souvent triees sous

forme de tableaux, de dimension n p.
Il existe deux grandes methodes pour reduire la taille des donnees a ana-
lyser :
- lanalyse factorielle (analyse en composantes principales, analyse facto-
rielle des correspondances)
- la classification automatique (classification ascendante hierarchique)
x
Obtention dun x x
x x x x
x
x x x x
x x
x x
x x x x x x
x Plan x
ANALYSE FACTORIELLE
Pour la classification, on mesure toutes les distances, puis on trace un
arbre. Plus les individus sont eloignes, plus les pallies sont importants.
1.1 Retapes preliminaires

1.1.1 Construction du tableau de donnees
Il se fabrique en general a partir dun questionnaire. Pour pouvoir le
traiter en analyse de donnees, il faut que ce tableau soit homogene, cest a
dire quil ne doit contenir quun seul type de donnees.
4
1.1.2 Notion dindividu et de variable
Notion dindividu Un individu est un element de la population etudiee
(cette population est supposee finie). Il correspond a une ligne du tableau.
Notion de variable A chaque parametre choisi par lutilisateur pour decrire

les individus, on associe une ou plusieurs variables. Une variable est definie
par les donnees suivantes :
- un ensemble O, appele espace dobservation ;
- une structure S sur O ;
- une application v de sur (O,S)
1.1.2.1 Typologie de Diday

O continu O fini/denombrable
O est sous CSP, yeux, nominales
structure = 6= departement
O sous Age, temperature rang ordonnables
structure dordre
O corps Revenu (mensuel, . . .) mesurables
ordonnable
quantitatives qualitatives
1.1.2.2 Typologie de Lerman

Variables dincidence
Attributs descriptifs

1, si x verifie v
x : v(x) =
0, sinon
Ceci permet parfois dhomogeneiser un tableau, en eclatantles indivi-
dus.
Variables numeriques
x v(x) R
Elles peuvent servir pour la description des proprietes agricoles (surface

agricole utile, ...), par exemple.
Variables relationnelles
5
Ensemble de modalites totalement ordonne
x v(x) = Ck
Ck {C0 , C1 , C2 , ..., Cp } ou (i, j) [1, p]2 , i j Ci Cj
Ensemble de modalites sans relation dordre
x Ck = v(x) {C0 , C1 , ..., Cp }
Variable rang
Note, sur une echelle suffisamment fine pour que 2 individus naient pas
la meme note.
Variable mesure sur

Elle peut etre utile pour les exportations vers dautres pays, par exemple.
1.1.3 Tableaux de donnees

Ils doivent etre homogenes.
1.1.3.1 Tableau de donnees quantitatives

Profondeur
5m 10 m 15 m
Sondage S1
Sondage S2
Sondage S3 x32
1.1.3.2 Tableau de contingence

Il sagit dun tableau deffectifs (sans unite donc...).
En voici un exemple :
Alezan Corsaire Directoire Orly

distingue 14 12
mievre
ridicule
pour 1 femme
Pour ce genre de tableaux, on utilise la methode danalyse factorielle des

correspondances.
6
1.1.3.3 Tableau dincidence
Ce sont des tableaux de variables attributs descriptifs (departement, de

rersidence, entre autres). Les tableaux etant en general tres volumineux, on
tente de les reduire (classe dage, region, etc...)
1.1.3.4 Tableau de preferences
Voici un exemple, un echantillon de vins :
V1 V2 V3 V4 V5 V6 V7 V8 V9
n1 1 3 2 7 9 4 6 5 8
1.1.3.5 Tableau de modalites
Ils peuvent servir pour les enquetes sur la frequence de lecture de revues
ou de journaux par exemple. Il peut, dans ces tableaux, y avoir plusieurs fois
la meme reponse sur une ligne.
1.1.3.6 Tableau de proximite
Ils servent a traiter les mesures sur . Par exemple, pour les echnges
internationnaux :
M1 M2 M3 M4
M1 20 3 5 10
M2 20
M3 20
1.2 Elements descriptifs dun tableau de donnees

1.2.1 Les notions
n est le nombre dindividus, soit celui de lignes. p est le nombre de va-
riables, soit le nombre de colonnes.
Le tableau est souvent note X, les valeurs pour lindividu i pour la variable
j est note xji .
7

x1i
..
.

On note xji lindividu correspondant a la ligne i. Cest le vecteur : xji
.
..
xpi
Rp
De meme, on note xj la variable correspondant a la ligne j. Cest le
j
x1
..
.

vecteur : xji Rn
.
..
xjn
Rp est lespace des individus, Rn celui des variables.
1.2.2 Elements descriptifs

1.2.2.1 Au niveau des variables
On peut considerer chaque variable comme une serie statistique
Pn de n
observations. On peut donc calculer sa moyenne, notee x = i=1 pi .xji ou
j
pi est le poids de lindividu i (en general, on a : pi = n1 ).
On peut egalement calculer :

- la variance :
n
X
j
V ar(x ) = pi .(xji xj )2
i=1
- lecart-type :
p
xj = V ar(xj )
Pour deux variables, on peut calculer la covariance :

n
X
pi .(xji xj ).(xji xj )

Cov(xj , xj ) =
i=1
De meme, on calcule la correlation :

Cov(xj , xj )
Coor(xj , xj ) =
xj xj
8
1.2.2.2 Au niveau des individus
On peut considerer chaque individu comme une serie statistiques de p
observations. On peut donc en calculer la moyenne, lecart-type, etc. Il y a
cependant ici un probleme de signification.
En revanche, on represente souvent le nuage des individus (NI ) comme un
solide auquel il est assimile. On peut donc en calculer le centre de gravite :
n
X
x= pi .xi
i=1
Les coordonnees de ce centre de gravite (en developpant) sont les moyennes

des variables. On calcule egalement linertie de ce solide :
X
I= npi .d2 (xi , x
i=1
ou d est une distance. En analyse de donnees, la distance depend du nombre

de variables.
1.3 Choix dune mesure de ressemblance

1.3.0.3 Quelques definitions
2 +
de similarite Il sagit dune application s de dans R telle que :
Indice
s est symetrique
et

(, ) 2 , 6= s(, ) = s( , ) s(, )
Indice de dissimilarite Il sagit dune application de 2 dans R+ telle

que :
, s(, ) = 0
Distance Il sagit dun indice de dissimilarite verifiant de plus :

3 s(, ) = 0 = (a)
(, , ) ,
s(, ) s(, ) + s( , ) (b)
Ultrametrique Il sagit dune distance verifiant (a) et :

(, , ) 3 , s(, max(s(, ), s( , )
9
1.3.0.4 Calcul de distance
Le choix de la distance depend du type de variables etudiees.
Variables quantitatives - distance euclidienne

- distance du 2 (tableau de contingence) :
p
X 1 xji xji 2
d2 (xi , xi ) = (
j x
)
j=1
x i xi
n
X n
X
avec : xj = xji et xi = xji
i=1 j=1
Tableaux de contingence
1 0
1 a b
0 c d
a est le nombre de fois ou xji = xji = 1 (xi est la ligne du haut, xi la

colonne de gauche).
Distance de Sokal et Michener

a+b
d(xi , xi ) =
a+b+c+d
Distance de Russel et Rao

a
d(xi , xi ) =
a+b+c+d
Tableaux de variables qualitatives ordinales

Coefficient de correlation sur rang de Sperman.
1.3.1 Mesures de ressemblance entre groupes dobjets

Distance du lien maximum
d(A, B) = max{d(a, b)/a A, b B}
Distance du lien maximum
10
Distance des centres de gravite
Distance faisant intervenir linertie

- d2 (A, B) = I(A B) I(A) I(B)
X
(I(A) = p()d2 (, gA))
A
I(AB) I(A) I(B)

- d2 (A, B) = p(AB)
p(A)
p(B)
11
Chapitre 2
ANALYSE EN
COMPOSANTES
PRINCIPALES
2.1 Probleme a traiter

Il sagit de reduire un tableau de n lignes et p colonnes a un tableau de
n lignes et q colonnes, avec q < p. On souhaite donc reduire le nombre de
variables decrivant les n individus en perdant un minimum dinformation.
La technique la plus utilisee est la projection du nuage des individus sur un
espace de dimension q, en minimisant la deformation.
2.2 Formulation mathematique

On note W lespace de projection.
Dans le cas ou p et q sont quelconques, determiner un sous-espace de
W revient a determiner une origine a Rp et un systeme generateur libre
(u1 , ..., uq ).
On choisit W tel que la deformation lors de la projection soit minimale.
Les q nouvelles variables sont les composantes des projections orthogonales
des points du nuage dans W .
On note : xbi le vecteur projete sur W . Les nouvelles variables sont notees
yij . On a donc la relation suivante :
q
X
x
bi = yik .uk + a
k=1
12
Deformation
La deformation est linertie autour de laxe z, soit :
Xn
IW = pi d2 (xi , x
bi )
i=1
2.3 Resolution du probleme

2.3.1 Choix de a
Proposition 1 Toute solution W du probleme passe par g, centre de gravite
du nuage des individus.
On prend donc g comme origine pour W . On centre alors les donnees. On
xi .
note alors les nouvelles variables :e
2.3.2 Choix des vecteurs generateurs

Proposition 2 Soit (u1 , ..., uq ) un systeme orthonorme relativement a une
metrique M. Alors : M Dp (R).
- Si les variables sont dans une meme identite, alors M = Ip
- Si les variables sont dans des unites differentes, alors M = V ar(xj )Ip
Soit W = V ect(u1 , ..., uq ) tel que t uk Muk = kk . Alors on a :
n q
X X
2 t
IW = pi ||xi || uk MV Muk
i=1 k=1
M etant la metrique et V la matrice de variance / covariance.

Si on veut minimiser IW , ilfaut maximiser la seconde somme. On effectue
v k = M 1/2 uk
un changement de variable :
S = M 1/2 V M 1/2
Minimiser la deformation globale revient donc ainsi a maximiser :
q
X
t
vk Sv k
k=1
S est diagonalisable dans R. On note 1 , . . . , q ses valeurs propres. Soit

(w1 , ..., wp ) une base de vecteurs propres (de S).
On montre alors que le probleme admet pour solution :
v1 = w 1
..
.
vq = wq
13
2.4 Resultats
2.4.1 Axes principaux dinertie
On a : uk = n1/2 v k
Les vecteurs ui sont donc les vecteurs propres de VM, associes aux valeurs
propres i qui sont egalement valeur propre de S = M 1/2 .V.M 1/2 .
Definition 3 On appelle k-eme axe principal dinertie laxe engendre par

uk .
Linertie expliquee est maximale pour le plan [u1 , u2 ] (ensuite, elle dimi-
nue).
2.4.2 Les composantes principales

Proposition 4 On appelle k-eme composante principale le vecteur y k dont
les composantes sont les projections du nuage des n individus sur laxe [uk ].
Les y k (k [1, q]) sont les nouvelles variables a interpreter a laide des p
premieres variables.
2.4.3 La valeur du critere IW

On a :
n q
X X
IW = pi ||xi ||2 k
i=1 k=1
On suppose que lon recherche un espace de projection W0 de dimension

p. On a alors : IW = 0. Donc :
n q
X X
i 2
pi ||x || = k
i=1 k=1
Plus linertie expliquee est proche de 1, meilleure sera la representation.
2.4.4 Interpretation des resultats : les individus

2.4.4.1 Coordonnees
On represente en general les individus dans les plans dinertie.
Les coordonnees de lindividu xi , projete en xbi sont : y ki =t xi Muk (sur
[uk ]).
14
2.4.4.2 Qualite globale de la representation
1 + 2
IE[u1 ,u2 ] =
tr(V M)
2.4.4.3 Qualite ponctuelle de representation

Indique si un point es bien represente sur le graphique. Si cette qualite
est voisine de 0, il ne faut pas interpreter ces points.
On peut mesurer la qualite ponctuelle de la representation de lindividu
xi , sur le plan [uk , uk ],
en considerant le cosinus carre de langle quil fait avec ce plan.
Cette valeur est egalement appelee contribution relative du plan a lindi-
vidu xi et est notee :

xi ||2
||b (yik )2 +(yik )2
i = cos2 = ||xi ||2
= ||xi ||2
.
Plus lindividu est proche du plan, plus langle sera faible et donc le
cosinus carre proche de 1.
(y k )2
La contribution relative de laxe [uk ] a lindividu xi est : ki = ||xi ||2
i
2.4.4.4 Contribution absolue dun individu a laxe

Elle sert a interpreter les nouvelles variables (y k )
On note ik la contribution absolue de lindividu xi a la determination de
laxe [uk ] et on a :
pi (y k )2
ik = Pn i k 2
i=1 pi (yi )
Cest la part dinertie dun individu a linertie totale du nuage. Cest

aussi linfluence prise par un individu pour lorientation de laxe. On ne re-
tient que les individus ayant une contribution importante par rapport a laxe
[uk ].
Plus ik est proche de 1, plus lindividu contribue a la determination de
laxe.
2.4.5 Interpretation des resultats : les variables

Proposition 5 Les composantes principales sont des vecteurs orthogonaux
de lespace Rn
15
Les variables initiales sont projetees dans lespace des composantes prin-
cipales. Si on retient comme plan de projection des individus le plan [uk ,

uk ], on projettera les p variables initiales dans lespace [y k , y k ].
La coordonnee de xj sur laxe [y k ] est le coefficient de correlation entre xj
et y k . On interpretera la nouvelle variable y k a laide des variables initiales
qui lui sont le plus correlees.
Lensemble des p variables initiales se projettent dans une cercle de rayon
1 appele cercle des correlations. On a la relation suivante :

k .ujk
rxj ,yk =
j
2.5 Methodologie
1. Calcul de la matrice S.
2. Calcul des valeurs propres de S.
3. On projette.
4. On regarde le graphique de projection des individus.
5. On regarde le 1er axe de projection.
6. Pour chaque individu, on regarde le cos2 .
16
Chapitre 3
ANALYSE FACTORIELLE
DES CORRESPONDANCES
Methode danalyse factorielle, traitant de tableaux de contingence. Le but

est dempecher le biais occasionne par les colonnes / lignes de poids trop fort.
3.1 Le but de la methode

Comme en ACP (Analyse en Composantes Principales), on cherche a
decrire les proximites entre points ligne dune part, et point colonne dautre
part. La technique utilisee est similaire a celle employee en ACP. On fera
cependant simultanement :
une ACP des profils ligne
une ACP des profils colonne
On aura donc deux matrices de donnees au depart.
3.2 La methode
3.2.1 Transformation des donnees initiales : passage
aux matrices de profil
On part de la matrice Z = (ni,j Mn,p (R).
On a pose :
p n
X X
ni. = nij et n.j = nij
j=1 i=1
17
p
n X
X
n.. = nij
i=1 j=1

nij
Le tableau des profils ligne est note : XI = ni.
= xIi
(i,j)[1,n]x[1,p]

nij
Le tableau des profils colonne est note : XJ = n.j
= xJj
(i,j)[1,n]x[1,p]
3.2.2 Les nuages NI et NJ

On dispose de deux tableaux a analyser : XI et XJ . Aux n lignes du
tableau XI on associe le nuage : NI = {xIi , nni... /i [1, n]} Rp . Aux p lignes
n
du tableau XJ , on associe le nuage : NI = {xJj , n.j.. /j [1, p]} Rn .
On va calculer XeI et XeJ
3.2.3 Choix des metriques : matrices MI et MJ

Comme en ACP, onfaitintervenir les matrices MI et MJ . Pour les indi-
vidus NI , on a : MI = nn.j.. Dp (R)
La distance entre 2 points xIi et xIi est donnee par :
Xn
2 n.. nij ni j
d = . (distance dte du 2 )
j=1
n.j ni. n i.

n..
De la meme facon on calcule MJ = ni.
Dn (R)
3.2.4 bI et de X
Calcul de X bJ
On calcule les deux centres de gravite g I et g J , pour NI puis pour NJ :
n.1
n1.

n.. n..

g I = ... g J = ...
n.p nn.
n.. n..
3.2.5 Calcul de VI et de VJ
t e e
En ACP, on avait : V = n1 X X

ni.
Pour NI , on pose : DI = n.. Dn (R)
On a donc :
18
e I DI X
V I =t X eI Mp (R) = (vij )
Xn
ni. nij n.j nij n.j
ou : vjj =
i=1
n.. ni. n.. ni. n..
3.2.6 Recherche des axes principaux dinertie

De la meme facon quen ACP, on cherche les valeurs propres et les vecteurs
1 1
propres de CI = MI2 .VI .MI2 pour le nuage N(I) (idem pour le nuage N(J)).
On a les relations suivantes :
(
cj,j = n.jn...n .vj,j
Pn .j nij .nij n .n
.j .j
=
i=1 ni. . n.j .n n..
.j
(analogue pour ci,i )

Proposition 6 On note H = (hi,j ) la matrice definie par :

nij ni. .n.j
hi,j =
ni. .n.j n..
Alors, on a : CI = t H.H et CJ = H.t H.
Proposition 7 CI et CJ ont les memes valeurs propres.
De
plus, si est valeur propre simple positive et verifiant
CI .vI = .vI avec t vI .vI = 1
CJ .vJ = .vJ avec t vJ .vJ = 1
(
vI = 1 t H.vI
Alors on a :
vJ = 1 t H.vJ
On peut donc ecrire les vecteurs propres de CJ a laide de ceux de CI .
Consequences pratiques On ne fera les calculs que sur la matrice CI .

Par des formules de transpositions, on obtiendra les resultats de lACP sur
N(J) (les vecteurs propres de CJ etant dduits de ceux de CI ).
q
n.1
Proposition 8 Le vecteur de composantes n.p
est vecteur propre de CI
q
n.1
relativement a la valeur propre 0. Le vecteur de composantes nn.
lest
de meme pour CJ .
19
Consequence On ne retient pas la valeur propre 0, car linertie expliquee
(IE) par laxe correspond est nulle.
Corollaire 9 Soient les matrices AI et TI definies par : CI = AI TI , cest

a dire :
n
X
nij .nij n.j .n.j
aj,j = et tj,j =
i=1
ni. . n.j .nn.j n..
20
Alors :
1. Tout vecteur propre de CI associe a la valeur propre > 0 est vecteur
propre de AI pour la valeur propre .

2. Le vecteur propre ( ni. )i[1,p] de CI (relativement a = 0) est vecteur
propre de AI relativement a 1.
Proposition 10 Formules de passage entre vI et vJ .

Si CI .vI = .vI , avec 6= 0, alors :
p
1 X nij
i j
i , vJ = . .vI
.ni. j=1 n.j
3.3 Les resultats

3.3.1 Les composantes principales
La k-ieme composante principale de N(I) sur le k-ieme axe dinertie est :
k
yIi = t xIi .MI .uIk (projection du i-eme individu de N(I) sur [uIk ]).
k
De meme, pour N(J), on a : yJj = t xJj .MI .uJk .
Remarque : Contrairement aux resultats de lACP, en analyse facto-

rielle des correspondances (AFC) on calcule les projections des points variable
et des point individus (sur WI = Vect[uIk , uIk ]).
Remarque : Entre yIk et yJk , il existe une formule de passage. On peut

montrer que les yIk sont barycentres des yjk (k [1, p]0. On peut alors faire
concider les plans de projections.
3.3.2 Contributions absolue et relative

+
IE[uIk ,uIk ] = P
k k
i
Contribution absolue de lelement xIi a laxe [uIk ]
ni.
k 2 1
Ik = . yIk .
n.. k
On peut donc determiner laxe soit en cherchant les points individus
ayant une forte contribution absolue, soit en cherchant les points va-
riables (de forte contribution absolue).
21
Contribution relative de laxe au point : cos2
k 2

yIi
ik = (pour xIi , a laxe [uIk ])
||xI ||22
De meme pour les variables.
3.3.3 Representation graphique

On a lhabitude de representer les individus et les variables. On peut
cependant ne representer que les individus ou que les variables. On essaiera
dinterpreter les relations entre ces variables.
Si on determine les axes a laide des individus, on doit accrocher les
variables (ou reciproquement).
22
Chapitre 4
CLASSIFICATION
AUTOMATIQUE
4.1 But
Il sagit ici de repartir une population en categories :
soit on obtient les categories attendues
soit les categories attendues napparaissent pas
Dans le second cas, les variables choisies sot dites a faible pouvoir separateur.
Si les categories attendues apparaissent, il faut verifier les hypotheses par
dautre(s) methode(s).
4.2 Classification par hierarchie et par arbre

4.2.1 Principe de la methode
On cherche a representer des points w1 , . . . , wN N par un ensemble
de parties hierarchiquement embotees.
h11
w1
w3
h10
w4 h9 h8
w2
w5
w1 w2 w3 w4 w5 w6 w7
Linterpretation de la hierarchie est la suivante :

chaque palier sous-tend un groupe de points
23
la hauteur des paliers est une mesure du degre dagregation de la classe
sous-tendue
4.2.2 Definition dune hierarchie

Definition 11 Soit un ensemble fini. Soit H un ensemble de parties de
appelees paliers.
Alors, H est une hierarchie ssi
1. H : le palier le plus haut sous-tend lensemble de la population
2. , {} H : les points terminaux de la hierarchie contiennent
des paliers
T
3. (h, h ) H 2 , h h 6= (h h ) (h h)
Dans la representation precedente, on a les paliers suivants :

hi = {i } , i [1, 7]
h8 = {5 , 6 , 7 }
h9 = {1 , 2 , 3 } S
h10 = {1 , 2 , 3, 4 } = h9 h4
h11 = {1 , 2 , 3, 4 , 5 , 6 , 7 } =
Dans ce cas, on a : H = {hi /i [1, 11]}.
Une hierarchie est dte bianire si chaque palier est la reunion des deux
autres paliers de niveau(x) inferieur(s).
Une hierarchie indicee est notee (H, f ) ou f est une application telle
que :
1. f : H R+
2. f (H) = 0 Card(H) = 1
3. (h, h ) H 2 , h h f (h) f (h )
Definition 12 Indice de dissimilarite a partir dune hierarchie in-

dicee
Un
indice de dissimilarite est une application s verifiant :
s : 2 R+ et s symetrique
, s(, ) = 0
On peut associer a une hierarchie indicee (H, f ) un indice de dissimila-
rite:
: 2 R+
(k, l) = min{f (h)/(k, l) h2 }
24
Pour construire une hierarchie, on calcule la dissimilarite entre les points.
On calcule ensuite les distances entre groupes de points, par lintermediare
de lindice dagregation.
25
Definition 13 On appelle indice dagregation une application qui verifie :
1. : P2 R+
2 (h, h ) = (h , h)
2. (h, h ) P ,
(h, h ) 0
Principaux indices dagregation utilises

indice dagregation du lien maximum
(a, b) = max{(d(a, b))/(a, b) A B}
indice dagregation du lien minimum
(a, b) = min{(d(a, b))/(a, b) A B}
indice dagregation des centres de gravites
(a, b) = d(G(A), G(B)) , avec G(X) centre de gravite de X
indice dagregation pour le couplage ACH et AFC (ou ACP)

indice dagregation de linertie de la reunion de 2 classes (Jambu, 1978)
p(A).p(B) 2
(A, B) = I (A B) = I(A) + I(B) + .d (G(A), G(B))
p(A) + p(B)
(cette agregation utilise la distance du -deux)
indice dagregation de la variance de la reunion de 2 classes
I (A B)
(a, b) = V ar (A B) =
p (A B)
4.2.3 Construction de hierarchies indicees

Il existe deux grands types de classification hierarchique :
classification hierarchique descendante (non utilisee) On part de la
population entiere, que lon coupe de maniere a obtenir des classes de
plus en plus petites, jusqua obtenir des classes reduites a un point.
classification hierarchique ascendante
Algorithme
1. On part de la partition P dont les classes sont reduites a un
element
2. On construit une nouvelle partition en regroupant les classes de
partition precedentes, de maniere a minimiser
26
3. On reitere le procede jusqua obtention dune unique classe, conte-
nant toute la population
On emploie principalement deux classifications hierarchiques ascendantes :

lagregation de saut minimal (utilisation de lindice dagregation du
line minimum)
lagregation selon la variance (lors du couplage avec une AFC)
4.2.4 Classification hierarchique ascendante de saut mi-

nimal et arbre des poids minimaux
Rappel : Un arbre est un graphe connexe sans arc.
Lorsque lon construit une hierarchie de saut minimum a partir de la

table des distances, on ne connat plus ces distances a la fin. On ne possede
dailleurs plus dinformation a ce sujet, i.e. on ne peut pas retrouver les
distances inter points a partir de larbre.
On utilise alors une nouvelle distance : la distance ultrametrique.
Definition 14 d est une ultrametrique si :

d verifie les 2 premieres proprietes des distances
(x, y, z) 3 , d(x, z) max(d(y, z), d(x, y))
Lultrametrique ici obtenue est la plus grande ultrametrique inferieure a

la distance. Elle est appele sous-dominante.
Propriete 15 Soient d1 et d2 deux ultrametriques.

Alors : d1 d2 (x, y) 2 , d1 (x, y) d2 (x, y)
Construction de larbre des poids minimaux par lalgorithme de KRU-

CKAL
Soient une population et A un ensemble (vide au depart)
1. Ranger par croissant les arretes selon leur valeur
2. Mettre dans A la premiere arrete de la liste
3. Mettre dans A larrete suivante, sauf si un cycle est ferme
4. Si (, A) est connexe, on sarrete. Sinon, on revient en 3
27

Analyse Donnees - Ps

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Analyse Donnees - Ps

Transféré par

Droits d'auteur :

Formats disponibles

ANALYSE DE DONNEES

Johann PAVIS (selon source :)

1 INTRODUCTION A LANALYSE DE DONNEES 4

2 ANALYSE EN COMPOSANTES PRINCIPALES 12

3 ANALYSE FACTORIELLE DES CORRESPONDANCES 17

Lanalyse de donnees traite des donnees statistiques, souvent triees sous

1.1 Retapes preliminaires

Notion de variable A chaque parametre choisi par lutilisateur pour decrire

1.1.2.1 Typologie de Diday

1.1.2.2 Typologie de Lerman

Elles peuvent servir pour la description des proprietes agricoles (surface

Ck {C0 , C1 , C2 , ..., Cp } ou (i, j) [1, p]2 , i j Ci Cj

Ensemble de modalites sans relation dordre

x Ck = v(x) {C0 , C1 , ..., Cp }

Variable mesure sur

1.1.3 Tableaux de donnees

1.1.3.1 Tableau de donnees quantitatives

1.1.3.2 Tableau de contingence

Alezan Corsaire Directoire Orly

Pour ce genre de tableaux, on utilise la methode danalyse factorielle des

Ce sont des tableaux de variables attributs descriptifs (departement, de

1.1.3.4 Tableau de preferences

Voici un exemple, un echantillon de vins :

1.1.3.5 Tableau de modalites

1.1.3.6 Tableau de proximite

1.2 Elements descriptifs dun tableau de donnees

Rp est lespace des individus, Rn celui des variables.

1.2.2 Elements descriptifs

pi est le poids de lindividu i (en general, on a : pi = n1 ).

On peut egalement calculer :

Pour deux variables, on peut calculer la covariance :

De meme, on calcule la correlation :

Les coordonnees de ce centre de gravite (en developpant) sont les moyennes

ou d est une distance. En analyse de donnees, la distance depend du nombre

1.3 Choix dune mesure de ressemblance

Indice de dissimilarite Il sagit dune application de 2 dans R+ telle

Distance Il sagit dun indice de dissimilarite verifiant de plus :

Ultrametrique Il sagit dune distance verifiant (a) et :

Variables quantitatives - distance euclidienne

a est le nombre de fois ou xji = xji = 1 (xi est la ligne du haut, xi la

Distance de Sokal et Michener

Distance de Russel et Rao

Tableaux de variables qualitatives ordinales

1.3.1 Mesures de ressemblance entre groupes dobjets

d(A, B) = max{d(a, b)/a A, b B}

Distance du lien maximum

Distance faisant intervenir linertie

I(AB) I(A) I(B)

2.1 Probleme a traiter

2.2 Formulation mathematique

2.3 Resolution du probleme

2.3.2 Choix des vecteurs generateurs

M etant la metrique et V la matrice de variance / covariance.

S est diagonalisable dans R. On note 1 , . . . , q ses valeurs propres. Soit

Definition 3 On appelle k-eme axe principal dinertie laxe engendre par

2.4.2 Les composantes principales

2.4.3 La valeur du critere IW

On suppose que lon recherche un espace de projection W0 de dimension

Plus linertie expliquee est proche de 1, meilleure sera la representation.

2.4.4 Interpretation des resultats : les individus

2.4.4.3 Qualite ponctuelle de representation

2.4.4.4 Contribution absolue dun individu a laxe

Cest la part dinertie dun individu a linertie totale du nuage. Cest