Vous êtes sur la page 1sur 6

Algoritmi de clasificare

Algorimii de clasificare urmresc sintetizarea datelor, prin gruparea n clase a


indivizilor, n aa fel nct indivizii aparinnd aceleiai clase s fie ct mai asemntori ntre
ei (similari) din punctul de vedere al caracteristicilor studiate, iar indivizii din clase diferite s
fie ct mai deosebii.
Din perspectiva utilizatorului, procedurile de segmentare pot fi clasificate n
urmtoarele familii de metode de clasificare: metode ierarhice, metode iterative neierarhice de
partiionare, metode factoriale. n practic, n cazul volumelor de date reduse, sunt aplicate
adesea, nti metode de clasificare ierarhice, pentru determinarea numrului de clase n care
pot fi mprii indivizii, iar pentru descrierea claselor sunt folosite metode neierarhice sau
metode factoriale. Metodele ierarhice de clasificare nu sunt eficiente n cazul bazelor de date
mari.

1. Metode ierarhice de clasificare

O mulime H_P(E) se numete ierarhie, unde E reprezint mulimea unitilor
statistice studiate, dac i numai dac ndeplinete condiiile:
1. P
i
eP(E) a card(P
i
)=1 E i P
i
e H
2. A,BeH AB{A,B,C}
3. AeH a A = C
i
, C
i
eH C
i
_A

De exemplu, dac E={a,b,c,d,e}, o ierarhie H este:
H = {C,
{{a},{b},{c},{d},{e}},
{{a,b},{c},{d},{e}},
{{a,b},{c,d},{e}},
{{a,b},{c,d,e}},
{a,b,c,d,e}}
Fiecare linie formeaz un nivel al arborelui din figura 3.2.

Fig. 3.2. Arbore de clasificare

O ierarhie este indexat dac exist o funcie i:HR
+
astfel nct: A,BeH astfel
nct A_B i(A)si(B). Indicii se numesc nivel de agregare.
i(A) = nivelul pentru care pentru prima oar se gsesc agregate toate elementele lui A.
Se observ c, cu ct nivelul de agregare este mai mare cu att mulimea este mai
eterogen.
Dac se tie arborele de clasificare este uor a se determina partiii cu un numr mai
mic sau mai mare de clase, tind arborele la un nivel de agregare fixat, n funcie de ct de
omogene trebuie s fie clasele.

Metodele ascendente de clasificare ierarhic constau n costruirea unui ir de partiii
cu n clase, n-1 clase,..... care au proprietatea c sunt incluse unele n altele. Partiia cu k clase
este obinut din partiia cu k+1 clase prin contopirea a dou clase. Partiia cu n clase este cea
n care fiecare individ este izolat, iar partiia cu o clas este cea n care toi indivizii sunt ntr-o
clas.

Algoritm:
PAS 1. Se pornete de la partiia cu n clase n care fiecare individ formeaz o clas.
PAS 2. La fiecare nivel cu k clase, k = n, n-1,...,2, cele dou clase gsite cele mai apropiate
sunt contopite, restul rmnnd la fel, obinndu-se astfel partiia cu k-1 clase.
PAS 3. Se reia pasul 2 pn se obine partiia cu o singur clas.

Problema principal a metodelor de clasificare ierarhic const n definirea unui
criteriu de contopire a 2 clase, ceea ce revine la a defini o distan ntre clase.

a b c d e
a,b c d e
a,b c,d e
a,b c,d,e
a,b,c,d,e
Nivel
i
1
i
2
i
3
i
4

n cazul n care pe spaiul E_R
p
este definit o distan euclidian, o metod de
contopire a dou clase este metoda WARD.
Cnd indivizii sunt puncte ale unui spaiu euclidian, calitatea unei partiii este definit
prin ineria intraclase sau cea interclase. O partiie bun are ineria interclase mare sau ineria
intraclase mic. Cnd se trece de la o partiie cu k+1 clase la una cu k clase, se observ c
ineria interclase scade, pentru c cea intraclase crete prin creterea heterogenitii claselor
partiiei.
Criteriul de grupare: Vor fuziona acele dou clase pentru care pierderea de inerie
interclase este minim.

Metoda WARD introduce ca distan ntre 2 clase pierderea de inerie interclase ce s-
ar obine prin contopirea celor dou clase.
Dac A i B sunt dou clase ale unei partiii a mulimii E, g
A
i g
B
sunt centrele lor de
greutate, p
A
i p
B
sunt ponderile claselor, atunci centrul de greutate al mulimii AB, g
AB
se
afl pe segmentul de dreapt g
A
g
B
i este dat de formula mediei aritmetice ponderate:

B A
B B A A
AB
p p
g p g p
g
+
+
=
Distana dintre dou clase dup metoda WARD este pierderea de inerie ce se obine
prin contopirea celor dou clase deci: ) , ( ) , (
2 2
AB B B AB A A
g g d p g g d p +
Dar ) , (
) (
) , (
2
2
2
2
B A
B A
B
AB A
g g d
p p
p
g g d
+
= i ) , (
) (
) , (
2
2
2
2
B A
B A
A
AB B
g g d
p p
p
g g d
+
=
deci rezult distana dintre dou clase dup metoda Ward va fi:
) , ( ) , (
2
B A
B A
B A
g g d
p p
p p
B A
+
= o
Partiia generat de algoritmul WARD este o partiie ierarhic, deoarece clasele
fuzioneaz rnd pe rnd, genernd un arbore cu baza format din clase cu cte o singur
unitate statistic, iar n varful arborelui se afl clasa cu toate unitile.
Algoritmul WARD genereaz o ierarhie indexat cu i(AB)= o(A,B)
1
.


1
deoarece orice mulime McAB poate fi scris ca o reuniune de dou mulimi P i Q, PcA i QcB i rezult
imediat c o(P,Q)s o(A,B).
n cazul n care pe spaiul E_R
p
nu este definit o distan euclidian, nu mai poate fi
folosit metoda WARD pentru definirea distanei ntre dou clase.
2

n acest caz se folosete formula lui Lance&Williams
3
cu particularizrile ei:
o((a,b),c)=o
1
d(a,c)+ o
2
d(b,c) +o
3
d(a,b) +o
4
i(a) +o
5
i(b) +o
6
i(c) +o
7
, d(a,c)-d(b,c) ,
cu: o
1
+o
2
+o
3
>1; o
i
>0 pentru i=1,..,6; o
7
>-min(o
1
,o
2
)

1. Dac o
1
=o
2
=1/2, o
3
=o
4
=o
5
=o
6
=0 i o
7
=1/2 se obine:
o
inf
(A,B)=inf {d(e
i
,e
j
) ,e
i
eA, e
j
eB } numit distana saltului minimal (Single Linkage).
Aceast metod este recomandat atunci cnd datele sunt relativ omogene deoarece se
iau n considerare distanele ntre puncte, indiferent ct de mari sunt acestea.
2. Dac o
1
=o
2
=1/2, o
3
=o
4
=o
5
=o
6
=0 i o
7
=-1/2 se obine
o
inf
(A,B)=sup {d(e
i
,e
j
) ,e
i
eA, e
j
eB} numit distana saltului maximal (Complete
Linkage).
Cnd metoda anterioar nu funcioneaz, se poate aplica aceast metod.
3. Dac o
1
=o
2
=1/2, o
3
=o
4
=o
5
=o
6
=o
7
=0 se obine
o
med
(A,B)=

i j
j i
B A
e e d
p p
) , (
1
numit distana medie.
Aceasta este un compromis ntre cele dou distane anterioare.

Observaie:
Deoarece ierarhiile generate prin aceste metode pot fi foarte diferite, se recomand
folosirea mai multor metode. Dac partiiile cu un numr mic de clase sunt foarte diferite ntre
ele, atunci este posibil ca mulimea indivizilor s nu poat fi mprit n clase.

2. Metode iterative neierarhice de partiionare

Metodele de clasificare neierarhice se folosesc atunci cnd se cunoate numrul de
clase n care se dorete mprirea indivizilor (de exemplu atunci cnd din experien se
cunosc numrul de clase n care se mpart consumatorii).

2
Pierderea de inerie interclase nu mai este ) , (
2
B A
B A
B A
g g d
p p
p p
+
.
3
G.N. Lance and W.T. Williams - A general theory of classificatory sorting strategies. I. Hierarchical systems,
Comput. J., vol. 9, pp. 373--380, 1966.
Se presupune c cei n indivizi sunt puncte ntr-un spaiu euclidian inclus n R
p
. Pentru
diferenierea acestora, n general se folosete distana euclidian, ns nu este obligatoriu. Se
dorete mprirea indivizilor n k clase astfel nct clasele obinute s fie ct mai omogene.
Deoarece, din punct de vedere statistic, omogenitatea este caracterizat de dispersie, o clas
va fi cu att mai omogen cu ct variabilitatea norului de puncte, n interiorul unei clase, este
mai mic.
Ideea metodei este urmtoarea: se pornete cu k clase aleatoare i se permut indivizii
ntre clase astfel nct s se minimizeze variabilitatea n interiorul claselor (dispersia
intraclase) i s se maximizeze variabilitatea dintre clase (dispersia interclase).
Dac g
1
, ..., g
k
sunt centrele de greutate ale claselor C
1
, ..., C
k
atunci:
- ineria intraclas este:

=
= =
j
n
j
i j i
g j d p I
1
2
k 1, i ) , ( , unde p
j
este ponderea
individului j;
- ineria intraclase este:

=
=
k
i
i W
I I
1
i
, unde I
i
este ponderea clasei i;
- ineria interclase este

=
=
k
i
i i B
g g d I
1
2
) , ( , unde g este centrul de greutate al
ntregului nor de puncte;
- ineria total a norului de puncte: I = I
W
+ I
B
.

Pentru a obine n medie clase omogene, un criteriu de clasificare ar consta n cutarea
acelei partiii n k clase, pentru care ineria intraclase este minim iar cea interclase este
maxim. Acest criteriu presupune cunoaterea apriori a numrului de clase. Compararea a
dou partiii cu numr de clase diferit, nu este posibil, deoarece cea mai bun partiie n k
clase va avea o inerie intraclase superioar oricrei partiii de k+1 clase, iar la limit, cea mai
bun partiie este cea trivial, n care fiecare individ formeaz o clas (n acest caz I
W
= 0
pentru c fiecare individ este propriul su centru de greutate).
Un algoritm foarte des folosit pentru clasificarea neierarhic este metoda centrelor
mobile (a lui Forgy) care presupune parcurgerea urmtoarelor etape:
Se aleg k puncte distincte din mulimea X, notate cu c
1
, c
2
, ..., c
k
i se mparte
mulimea X n k clase astfel:
{ } 1,k i i l , 1,n l c x d c x d X x X
l i c
i
= = = < e = , ), , ( ) , (
n cazul n care ) , ( ) , (
2 1
i i
c x d c x d = , punctul x este repartizat aleator uneia dintre
clasele pentru care s-a obinut egalitatea.
Se determin centele de greutate ale partiiei { }
k i
c
i
X
, 1 =
, notate cu { }
k i i
g
, 1 =
;
Pentru aceast partiie se determin ineria intraclase. n cazul n care aceasta nu se
micoreaz semnificativ comparativ cu ineria partiiei obinute n iteraia anterioar (se d c
un prag sub care ameliorarea ineriei intraclase este considerat nesemnificativ), sau n cazul
n care numrul de iteraii a depit un prag admis N algoritmul se oprete, iar clasele obinute
sunt partiia { }
k i
c
i
X
, 1 =
. n caz contrar, algoritmul se reia, considernd punctele c
1
, c
2
, ..., c
k
,
centrele de greutate

{ }
k i i
g
, 1 =
.
Acest algoritm se demonstreaz c este convergent ntr-un numr finit de pai.
4
Mai
mult chiar, s-a observat c el converge rapid, acesta fiind unul din avantajele majore ale
metodei.
Un alt avantaj al metodei este faptul c la fiecare pas este necesar calculul a n k
distane, dintre cei n indivizi i cele k centre de greutate, nefiind necesar memorarea
tabelului cu cele n(n-1)/2 distane dintre cei n indivizi.
Printre dezavantajele majore ale metodei sunt i urmtoarele: trebuie cunoscut apriori
numrul de clase; soluia final depinde de alegerea iniial a punctelor; datele trebuie s fie
msurate pe o scal numeric.
Pentru nlturarea acestor dezavantaje, algoritmul centrelor mobile a fost adaptat
acestor situaii. Spre exemplu, n cazul n care datele sunt cardinale, n locul distenei
euclidiene se pot folosi diverse msuri de disimilaritate, cea mai utilizat fiind distana _
2
.
5

Pentru a nltura dependena metodei centrelor mobile de alegerea punctelor iniiale,
Diday a propus utilizarea n locul centrelor de greutate, pentru descrierea claselor, a unor nori
de puncte (o ax principal, un nor n jurul centrului de greutate etc.).
6



4
E. Forgy - Cluster analysis of multivariate data: Eciency vs. interpretability of classi cations. Biometrics,
21(3):768, 1965
5
Zhexue Huang and colab.- An Interactive Approach to Building Classification Models by Clustering and
Cluster Validation. IDEAL 2000: 23-28
6
E. Diday, J. Lemaire, J. Pouget, F. Testu - Elements danalyse de donnes, Dunod, Paris, 1983