Vous êtes sur la page 1sur 7

Disciplina: Arbori de decizie

Algoritmul QUEST

Studenți:
Hulparu Ramona-Iuliana
Iftimie Raluca
Sîrbu Alexandra-Cristina
Algoritmul QUEST

Data mining-ul („mineritul de date”) este folosit pentru a extrage informații utile din seturi
mari de date, pentru a le afișa mai apoi într-o formă mai ușor de vizualizat și interpretat. Prima
dată introduși în anii 1960, arborii de decizie sunt una dintre cele mai eficiente metode folosite
în exploatarea datelor; aceștia au fost folosiți pe scară largă în mai multe discipline, întrucât sunt
ușor de utilizat, fără ambiguități și robuști, chiar și în prezența unor valori lipsă. Atât variabilele
discrete, cât și cele continue pot fi utilizate fie ca variabile țintă, fie ca variabile independente.

De asemenea, trebuie precizat că metodologia arborilor de decizie este o metodă de


extragere a datelor folosită în mod obișnuit pentru stabilirea sistemelor de clasificare bazate pe
mai multe variabile (independente) (engl. „covariates”) sau pentru dezvoltarea algoritmilor de
predicție pentru o variabilă țintă. Această metodă clasifică o populație în segmente asemănătoare
ramurilor care construiesc un arbore inversat cu un nod rădăcină, noduri interne și noduri de
frunze.

Una dintre metodele frecvent utilizate pentru a dezvolta un arbore de decizie este cea
denumită QUEST— sau Quick, Unbiased, Efficient Statistical Tree (arbore statistic rapid,
nedeplasat și eficient), care este o metodă de clasificare binară pentru construirea arborilor de
decizie. O motivație majoră în dezvoltarea sa a fost reducerea timpului de procesare necesar
pentru analizele mari de C & R Tree, fie cu multe variabile, fie cu multe cazuri. Un al doilea
obiectiv al algoritmului QUEST a fost acela de a reduce tendința (engl. „tendency”) găsită în
metodele arborelui de clasificare pentru a favoriza intrările care permit mai multe împărțiri, adică
câmpurile de intrare continuă (intervalul numeric) sau cele cu mai multe categorii.

Algoritmul Quick, Unbiased, Efficient, Statistical Tree (QUEST) (Loh and Shih 1997; Lim
et al. 2000) a fost creat ca și o îmbunătățire semnificativă a algoritmului FACT. Ideea generală
și organizarea algoritmului rămân aceleași: metoda realizează algoritmul 2.3 care separă
selectarea caracteristicilor de determinarea divizării, apoi transformă caracteristicile simbolice în
cele numerice într-un mod similar, și utilizează teste statistice pentru a lua unele decizii.

Principalele modificări se referă la modul în care se obțin obiectivele specifice:


1
• Funcția de separare este selectată pe baza altei abordări pentru a estima importanța
caracteristicilor, vizând selecția imparțială;

• Împărțirea se face cu discriminare pătratică în loc de liniară;

• Arborele rezultat este binar, clasele sunt grupate înainte de divizare;

• Generalizarea se obține prin minimizarea complexității costurilor, precum în cazul CART

Loh și Shih (1997) susțin că modul în care convertesc trăsăturile simbolice la cele
continue este de asemenea diferit în algoritmul QUEST decât în FACT, totuși ei menționează că
metoda FACT convertește mai întai simbolurile caracteristice în vectori binari ’’dummy’’, și
apoi le transformă în numere reale cu o metodă care poate împărți nodul în mai mult de două
subnoduri, ceea ce nu este acceptat în QUEST. În mod evident se referă la altă versiune a
metodei FACT decât cea a lui Loh și Vanichsetakul (1988), deoarece, așa cum este descris mai
sus, acesta din urmă utilizează transformarea crimCoord pentru a converti simbolurile la valori
numerice, și același lucru se face și în QUEST. În mod natural , există o diferență între cele două
metode și ține de modul în care au fost împărțite caractersticile (engl. „split the features”) după
divizare. Ca și în metoda FACT, după ce divizarea este determinată pentru corespondența
continuă (engl. „continous counterpart”) a unei trăsături simbolice, ea poate fi reprodusă cu
ușurință în limbajul simbolurilor originale, astfel încât în arborele rezultat, caracteristica continuă
generată în timpul analizei nu este deloc vizibilă.

2
QUEST utilizează o serie de reguli, bazate pe teste de semnificație, pentru a evalua
câmpurile de intrare de la un nod. În scopul selecției, poate fi necesar să se efectueze un singur
test pentru fiecare intrare dintr-un nod. Spre deosebire de C & R Tree, nu sunt examinate toate
divizările și, spre deosebire de C & R Tree și CHAID, combinațiile de categorii nu sunt testate la
evaluarea unui câmp de introducere pentru selecție. Aceasta accelerează analiza.

Divizările sunt determinate prin rularea analizei discriminante pătratică (engl. „quadratic
discriminant analysis”) utilizând intrarea selectată pe grupurile formate din categoriile țintă.
Această metodă are drept rezultat o îmbunătățire a vitezei față de o căutare exhaustivă (C & R
Tree) pentru a determina împărțirea optimă a arborelui de decizie.

Cerințe:

Variabilele de intrare pot fi continue (intervale numerice), dar variabila țintă trebuie să fie
categorică (categorială). Toate divizările sunt binare. Orice câmp ordinal (set ordonat) utilizat în
model trebuie să aibă stocare numerică (nu string). Dacă este necesar, nodul de reclasificare
poate fi folosit pentru a le converti.

Puncte forte:

La fel ca CHAID, QUEST utilizează teste statistice pentru a decide dacă este sau nu
folosit un câmp de intrare (engl. “input field”). Se separă, de asemenea, problemele de selecție și
divizare a intrărilor, aplicând diferite criterii fiecăruia. Aceasta contrastează cu CHAID, în care
rezultatul testului statistic care determină selecția variabilei (engl. „variable selection”) produce,
de asemenea, împărțirea.

Fiind rapid, nedeplasat și eficient, algoritmul QUEST al arborelui de decizie suportă


divizări/ramificații liniare și univariate.

3
Pentru fiecare diviziune/ramificație, asocierea dintre fiecare atribut de intrare și atribut
țintă se calculează utilizând testul F (din) ANOVA sau testul Levene (pentru atributele ordinale
și continue) sau testul Chi-square Pearson (pentru atributele nominale).

Se calculează o statistică F ANOVA pentru fiecare atribut. Dacă valoarea calculată a


testului F depășește o valoare prag predefinită, atributul cu valoarea calculată a testului F mai
mare este selectată pentru a împărți nodul. În caz contrar, testul Levene pentru varianțe inegale
este calculat pentru fiecare atribut. Dacă valoarea calculată a testului Levene este mai mare
decât o valoare prag predefinită, atributul cu valoarea calculată a testului Levene mai mare este
folosită pentru a împărți nodul. Dacă niciun atribut nu depășește niciun prag, nodul este împărțit
folosind atributul cu cea mai mare valoare a testului F ANOVA.

Dacă atributul țintă este multinomial, gruparea cu două metode (engl.”two-means


clustering”) este utilizată pentru a crea două super-clase.

Atributul care obține cel mai mare grad de asociere cu atributul țintă este selectat pentru
divizare. Analiza discriminantă pătratică (QDA) (Quadratic Discriminant Analysis) este aplicată
pentru a găsi punctul optim de divizare pentru atributul de intrare. QUEST are o interfață
neglijabilă (engl. „bias”) și produce un arbore de decizie binar. Se folosește de 10 ori validarea
încrucișată pentru a tăia (engl. „ prune”) arborii.

4
*** Estimarea „jackknife” ( pentru exemplul din prezentarea ppt):

The Jackknife was proposed by M.H. Quenouille in 1949 and later refined and given its current
name by John Tukey in 1956. Quenouille originally developed the method as a procedure for
correcting bias. Later, Tukey described its use in constructing confidence limits for a large class
of estimators. It is similar to the bootstrap in that it involves resampling, but instead of sampling
with replacement, the method samples without replacement.
Many situations arise where it is impractical or even impossible to calculate good estimators or
find those estimators’ standard errors. The situation may be one where there is no theoretical
basis to fall back on, or it may be that in estimating the variance of a difficult function of a
statistic, say g (X¯) for some function with no closed-form integral, making use of the usual
route of estimation—the delta method theorem—is impossible. In these situations the Jackknife
method can be used to derive an estimate of bias and standard error. Keith Knight has noted, in
his book Mathematical Statistics, that the Jackknife estimate of the standard error is roughly
equivalent to the delta method for large samples.

Sursa: http://people.bu.edu/aimcinto/jackknife.pdf

5
Bibliografie:

 Cărți:

1. Lior Rokach ,Oded Maimon- Data Mining With Decision Trees Theory and Applications,
2nd Edition, pag. 80

2.Grabczewski.K., Meta-Learning in Decision Tree Induction, Chapter 2 Techniques of


Decision Tree Induction, pag. 23 – 26.

https://www.springer.com/cda/content/document/cda_downloaddocument/9783319009599-
c2.pdf?SGWID=0-0-45-1431236-p175268307

 Articole:
1. SPLIT SELECTION METHODS FOR CLASSIFICATION TREES, Wei-Yin Loh
and Yu-Shan Shih , pag. 4-5

http://www3.stat.sinica.edu.tw/statistica/oldpdf/A7n41.pdf

2. Decision tree methods:applications for classification and prediction, Yan-yan Song


and Ying Lu

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4466856/

3. Using Kaplan–Meier analysis together with decision tree methods (C&RT, CHAID,
QUEST, C4.5 and ID3) in determining recurrence-free survival of breast cancer
patients Mevlut Ture , Fusun Tokatli , Imran Kurt , pag.4

https://pdfs.semanticscholar.org/e928/9b9478d2e6583914135aa875874afc80aa75.pdf

 Alte surse:
1. https://www.ibm.com/support/knowledgecenter/en/SS3RA7_15.0.0/com.ibm.spss.mo
deler.help/questnode_general.htm
2. ftp://ftp.boulder.ibm.com/software/analytics/spss/support/Stats/Docs/Statistics/Algori
thms/13.0/TREE-QUEST.pdf