Vous êtes sur la page 1sur 22

Lanalyse des donnes peut tre dfinie comme une

extension de la statistique descriptive


unidimensionnel (vecteur de donnes) au cas
multidimensionnel ( matrice de donnes).
A) Les mthodes de classification
1) mthodes hirarchiques
2) mthodes non-hirarchiques
B) Les mthodes factorielles
1) Analyse en Composantes Principales (ACP)
2) Analyse Factorielle des Correspondances(AFC)
3) Analyse des Correspondances Multiples(ACM )
LANALYSE DES DONNEES
Chapitre I
Classification automatique


I) INTRODUCTION
GENERALE


Objective de la Classification
Soit E un ensemble de n individus (objets) et
partir dune matrice de donnes on cherche une
partition de E en groupes homognes de telle
manire que :

- Deux individus appartenant au mme groupe
sont proches (distance) ou se ressembles
(similarit).
- Deux individus appartenant des groupes
diffrents sont loigns ou se ressembles peut.

EXEMPLE
Identifier des groupes dindividus ou de mnages
ayant un comportement homogne vis--vis de :

1) La consommation de certains produits
2) La consommation de certaines marques
3) Lattitude par rapport un produit


Tableaux des donnes
Soit E un ensemble de n individus sur lequel on
a soit:

Une matrice X(n,p) des observations de p
variables quantitatives (et/ou qualitatives) sur
n individus
ou
Une matrice X(n,n) carre symtrique de
similarits ou de dissimilarit (distances, par
exemple)




Transformation X(n,p) X(n,n)
Variables quantitatives
La distance euclidienne est une mesure possible de la
ressemblance, mais aussi indices de dissimilarit et
similarit. Dans le cas de variables htrognes, il
faut travailler sur les donnes centres rduites.

Variables qualitatives
De nombreux indices de ressemblance existent en
literature (indice de Jaccard, indice de Russel, la
distance du qui 2. )
Mesure de proximit entre deux individus
Distance :
1) d(i,j) = d(j,i)
2) d(i,j) 0 et d(i,j) =0 i = j
3) d(i,j) d(i,k) + d(k,j)
Dissimilarit : Distance sans (3)
Similarit
1) s(i,j) = s(j,i)
2) s(i,j) 0 et s(i,i) s(i,j)

En pratique on trouve dans la littrature plusieurs
types de distances, de dissimilarits et de similarits
Etapes de classification
1) Choisir les variables pour dcrire les
individus et determiner la matrice X(n,p) .
2) Calculer le tableau X(n,n) de proximites
entre les n individus partir du tableau initial.
3) Choisir un algorithme de classification et
excution.
4) Interprter les rsultats
II)Classification ascendante hirarchique
La classification procde squentiellement en regroupant
les observations les plus `semblables' en premier lieu

L'algorithme des mthodes hirarchiques ascendantes
consiste crer, chaque tape, une partition obtenue en
agrgeant deux deux les lments les plus proches. Il y a
diffrentes manires de considrer (reprsenter) le
nouveau couple d'lments agrgs (choix du critre
dagrgation), d'o un nombre important de variantes de
cette technique.

L'algorithme ne fournit pas une partition en k classes
d'un ensemble E de n objets mais une hirarchie (arbre)
de partitions dite Dendrogramme.



(1) (3) (4) (2) (5)
Individu dorigine
Hararchie
indice
Dendrogramme
Algorithme de classification
tape 1 : il y a n lments classer (qui sont les n individus);
tape 2 : on construit la matrice (symtrique) de distances (avec
une distance ou une dissimilarit) entre les n lments et l'on
cherche les deux plus proches, que l'on agrge en un nouvel
lment (classe) E
1
. On obtient une premire partition n-1
classes;
tape 3 : on construit une nouvelle matrice des distances qui
rsultent de l'agrgation, en calculant les distances (ayant choisi
un critre d'agrgation) entre le nouvel lment et les lments
restants (les autres distances sont inchanges). On cherche de
nouveau les deux lments (parties) les plus proches, que l'on
agrge dans un ensemble E
k
.
tape m : si E
k
= E on arrte lalgorithme, sinon on revient
ltape 3..

Critres dagrgation
Soit A et B deux parties de E, on donnera dans la suite cinq exemples de critre
dagrgations.

Critre saut minimal : o(A,B) = min{d(i,j), ieA, ieB}

Critre saut maximal : o(A,B) = max{d(i,j), ieA, ieB}

Critre de distance des centres de gravit : o(A,B) = d(g
A
, g
B
)

O g
A
=
A
n
1

eA i
x
i
e IR
n
avec x
i
= (x
i1
, x
i2
,,x
ip
) et n
A
= CardA
Critre de distance moyenne : o(A,B) =
B A
n n
1

e e B j A i
d(i,j)
Critre ou distance de Ward : o(A,B) =
) (
B A
B A
n n n
n n
+
d(g
A
, g
B
)

Exemple ( suivant le critre de saut maximal)
Les individus : 6 hommes =E={H
1
, H
2
, H
3
, H
4
H
5
,, H
6.
}

Variable: X=(mesure des paules, poitrine, ceinture, masse, tille)
x
5
x
4
x
3
x
2
x
1
174 65.6 71.5 89.5 106.5 H
1
175.3 71.8 79 97 110.5 H
2
193.5 80.7 83.2 97.5 115.1 H
3
185.3 72.6 77.8 97 104.5 H
4
187.2 78.8 80 97.5 107.5 H
5
181.5 74.8 82.5 99.9 119.8 H
6
Distance : Euclidienne

=
=
5
1
) ( ) , (
k
jk ik j i
x x H H d


d(H
1
,H
2
)= 175,3) - (174 71,8) - (65,5 97) - (71,5 97) - (89,5 110,5) - (106,2 + + + + = 13,08


H
6
H
5
H
4
H
3
H
2
H
1
23.56 22.05 17.44 29.81 13.08 H
1
12.43 14.17 12.79 21.2 H
2
14.39 10.55 16.01 H
3
17.16 7.28 H
4
14.55 H
5

H
6
On a : d(H
4
,H
5
)= 7,28 E
1
={ H
4
,H
5
}
tape 3 : On calcule les distances (suivant le critre de saut
maximal) entre E
1
et les lments restants (les autres distances
sont inchanges).
o(H
i
, E
1
)= max{ d(H
i
,H
4
), d(H
i
,H
5
)







H
6
E
1
H
3
H
2
H
1
23.56 22.05 29.81 13.08 H
1
12.43 14.17 21.2 H
2
14.39 16.01 H
3
17,16 E
1

H
6
On a : d(H
2
,H
6
)= 12,43 E
2
={ H
2
,H
6
}








On a : d(H
3
,H
6
)= 14,39 E
3
={ H
3
,H
6
}






On a : d(E
3
,E
1
)= 16,01 E
4
={ E
3
,E
1
}
H
6
E
1
H
3
E
2
23.56 22.05 29.81 E
2
14.39 16.01 H
3
14.55 E
1

H
6
E
1
E
3
E
2
22.05 29.81 E
2
16.01 E
3

E
1
E
3
E
2
29.81 E
2

E
3
(1) (2) (4)
(5) (3)
Individu dorigine
Hararchie
indice
Dendrogramme
(6)
Classification non-hirarchique

Les mthodes non hirarchiques consistent
regrouper, en optimisant un critre donn, en
k groupes toutes les observations
simultanment. Autrement dit, l'algorithme
s'arrte une fois qu'il y a k classes.
On s'intressera ici seulement une mthode
qui est largement utilise en pratique.
Algorithme kmeans
Chaque individu i est reprsent par une
observation x
i
=(x
1i
, x
2i
,,x
pi
). Donc les n
objets seront reprsents par un nuage
dans IR
p
. Dsignant par E
k
une partie
d'individus de E, n
k
son effectif, g
k
son
centre de gravit et g celui de l'ensemble
des individus E.
On dfinie :

L'inertie d'un groupe E
k
: I
k
=
e
k
E i
d( x
i
, g
k
)
L'inertie intra- groupe: I
W
=
=
K
k 1
I
k

L'inertie inter- groupe: I
B
=
=
K
k 1
n
k
d( g
k
, g)
L'inertie totale: I
tot
=
=
n
i 1
d( x
i
, g) = I
W
+ I
B


Bonne partition I
W
minimum (groupes homognes)
I
B
maximum (sparation inter-groupe)

Algorithme kmeans
1
er
tape: (Initialisation)
On choisie une mtrique pour calculer la distance entre
individus.
On dfinie priori un nombre de classes (K).
On choisie de faon arbitraire K centres (C
k
, k=1,2,,K)
de classes. C'est souvent K individus tirs au hasard
2
eme
tape: On calcule la distance de chaque individu aux K
centres de classes.
3
eme
tape: On affecte chaque individu i la classe dont le
centre est le plus proche, puis on calcule pour chaque
groupe E
k
le nouveau centre de classe C
k
(qui n'est autre
que le centre de gravit g
k
de ce groupe).
4
eme
tape: On calcule pour chaque individu i la distance au
centre de chaque groupe et on calcule le critre d'inertie I
W

prsent. Si la dispersion (I
W
) dcrot, on revient l'tape 2,
sinon on arrte lalgorithme.

Vous aimerez peut-être aussi