Main

DEPARTAMENTO DE ARQUITECTURA Y TECNOLOGA DE SISTEMAS INFORMTICOS
Facultad de Informtica Universidad Politcnica de Madrid
TESIS DOCTORAL
Optimizacin de procesos de adquisicin de conocimiento en Biologa Computacional
Autor Santiago Gonzlez Tortosa Ingeniero Superior en Informtica
PhD Directors Victor Robles Forcada - Doctor de Informtica Fazel Famili - PhD Mechanical Engineering
2010
Tribunal de la Tesis
Presidente: Ernestina Menasalvas Ruiz
Vocal: Luis Pastor Prez
Vocal: Cristobal Belda Iniesta
Vocal: Endika Bengoetxea Castro
Secretario: Jos Mara Pea Sanchez
Suplente: Iaki Inza
Suplente: Alberto Snchez Campos
Sin duda hay que perderse para hallar destinos inalcanzables o de lo contrario todo el mundo sabra donde estn. Jack Sparrow Todo gran camino comienza por un paso. Proverbio chino
A mis padres Emilio y Mariluz y a Carol, la mujer de mi vida. Os quiero
Agradecimientos
Por n, despus de muchos aos de esfuerzo y dedicacin, hemos llegado al nal del camino. Y una vez que se ve el nal, se comienza a recapitular y a hacer balance acerca de lo ocurrido. He de admitir que no ha sido fcil, se han vivido momentos buenos y malos, con alegras y tristezas, con situaciones lmite de abandono que se realzaron con momentos de nimo, etc.. Pero, sin duda, no hubiera conseguido llegar al nal si no fuera por toda la gente que me ha apoyado. A todos ellos, por su apoyo, van dirigidas las siguientes lineas.
Primero de todo, quiero dar las gracias de todo corazn a la mujer de mi vida, Carol. Sin t, jams hubiera llegado a conseguir este sueo. Gracias por tu cario, apoyo, comprensin y paciencia en todos estos aos. Siempre has estado apoyndome y querindome, en los buenos y malos momentos. Ya sabes que en muchas ocasiones he perdido la esperanza, pero gracias a t hemos continuado sacando fuerzas para seguir adelante entre los dos. Por tanto, si hemos llegado a esta meta, es tambin por t. Por todo ello y por ms, mil gracias por todo mi amor!
Por otro lado, quiero agradecer a toda mi familia (padres, hermanos, tios, primos, etc.) el apoyo recibido en estos aos, en especial a mis padres Emilio y Mariluz. Sin ellos, nada de esto hubiera sido posible. Por desgracia, ellos no van a poder estar fsicamente con nosotros el da de la lectura, pero estoy muy seguro de que estarn presentes en nuestros corazones, viendo como su hijo hace realidad uno de sus sueos. Pap y mam, gracias por todo, sobre todo por el apoyo incondicional que siempre me habeis dado. Tambin quiero dar, de forma especial, las gracias a mis hermanos, que han estado ah cuando les necesit, preocupndose y animndome en todo momento.
Sin duda, quiero agradecer tambin a mi otra familia, Sanz Lopez, todo el apoyo y cario recibido desde que han entrado en mi vida. Por todos esos buenos consejos, por todo ese apoyo y por todo el cario incondicional recibido, os doy las gracias de todo corazn.
No debo olvidarme de mis compaeros de trabajo, que han estado a mi lado en este largo camino, aguantndome y dndome animos: Vctor, Chema, Oscar, Jorge, equipo del CeSViMa, del Cajal Blue Brain y grupo de Sistemas Operativos del DATSI (becario/as y profesores). Gracias a vosotros, a vuestro apoyo y nimo he conseguido llegar al nal de este arduo camino.
A lo largo del desarrollo de la Tesis, me han estado apoyando y ayudando en la investigacin mis dos directores de tesis, Victor y Fazel, junto a Chema. A ellos les escribo en ingles las siguientes lineas: My friends, thanks so much for this opportunity you gave me! I learned a lot, I am proud to have contributed my breadcrumb in a very interesting eld of bioinformatics as the diagnosis of diseases such as cancer. I had the opportunity to travel to Canada, Denmark, France, etc. , and to collaborate with medicals and biologists
from different countries. And all these is thanks to you. You have bet for me, and I hope that you are proud of the contribution we have made in this eld of research. Tambin quiero dar las gracias a Luis G., Belen C. y Antonio O. por haber realizado sus proyectos n de carrera conmigo.
Por ltimo, quiero agradecer el apoyo que me han dado todos mis amigos, a los que prometo dedicar un poco ms de tiempo a partir de ahora. Tambien quiero animar a Oscar a que termine su tesis lo antes posible, y espero que cuentes conmigo para lo que necesites ;)
Me gustara nalizar con una frase mtica de los Looney Tunes: Esto es todo amigos!!
Santiago Gonzlez Tortosa 13 de septiembre de 2010
Resumen
Tradicionalmente, los datos clnicos han sido la nica fuente de informacin para el diagnstico de enfermedades. Hoy en da, existen otros tipos de informacin, como Microarrays de ADN, que permiten mejorar el diagnstico y pronstico en muchas enfermedades. Esta tesis propone un nuevo enfoque, denominado CliDaPa, para combinar ecientemente ambas fuentes de informacin (datos clnicos y genticos), de forma que se mejoren las estimaciones. Para ello, en primer lugar, los pacientes se segmentan utilizando una representacin en rbol a travs de sus datos clnicos (rbol clnico). Por tanto, se identican distintas agrupaciones de pacientes segn comportamientos similares. A continuacin, se analiza cada agrupacin independientemente con la informacin gentica asociada, mediante tcnicas de minera de datos. Para demostrar su validez, el mtodo se aplica a distintos conjuntos de datos reales (sobre cncer de mama y de cerebro). La validacin de los resultados se basa en dos mtodos de validacin, interna y externa, utilizando para ello el Centro de Supercomputacin y Visualizacin de Madrid (CeSViMa), en donde se ejecutaron los tres enfoques paralelizados del algoritmo. Los resultados obtenidos se comparan con distintos estudios de la literatura, as como con las tcnicas de anlisis tradicionales, demostrando una mejora signicativa en los resultados existentes. Traditionally, clinical data have been the only source of information for disease diagnosis. Today, there are other types of information such as DNA microarrays, which are taken into account to improve diagnosis and prognosis of many diseases. This thesis proposes a new approach, called CliDaPa, to efciently combine both sources of information (clinical and genetic data), in order to further improve estimations. In this approach, patients are rstly segmented using a tree representation through their clinical data (clinical tree). Therefore, different groups of patients are identied according to similar behavior. Then each individual group is studied with data mining techniques, using the genetic information. To demonstrate its validity, the method is applied to different real data sets (breast and brain cancer). The validation of the results is based on two methods of validation, internal and external, using the Supercomputing and Visualization Centre of Madrid (CeSViMa), where the three approaches of the algorithm were implemented in parallel. The results are compared with other literature studies, as well as traditional analysis techniques, demonstrating a signicant improvement over existing results. Keywords: Cancer, DNA microarray, clinical, data mining, clinical tree, validation .
Declaracin
Declaro que esta Tesis Doctoral ha sido escrita por m mismo y que el trabajo descrito es original, execptuando all donde se arme explcitamente lo contrario.
(Santiago Gonzlez Tortosa)
ndice general
ndice general ndice de guras ndice de tablas
VII
XI
INTRODUCCIN
1
3 3 4 5
Captulo 1. Introduccin 1.1. Motivacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3. Estructura del documento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
II
ESTADO DE LA CUESTIN
7
9 9 12 12 14 15 16 19 20 20 22 23 24 25 27
Captulo 2. Minera de Datos 2.1. Orgenes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2. Clasicacin supervisada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.1. Deniciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.2. Algoritmos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.3. Nave Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.4. Algoritmo C4.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.5. Regresin logstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.6. K-NN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3. Clasicacin no supervisada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.1. K-Medias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.2. QT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.3. Clustering con restricciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4. Conjuntos de Clasicadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4.1. Boosting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
I
2.4.2. Bagging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5. Validacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5.1. Validacin supervisada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5.1.1. 2.5.1.2. 2.5.1.3. Holdout . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Cross-Validation, leave-one-out y stratication . . . . . . . . . . . . . . . . Bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
27 28 28 29 30 31 31 33 35 36 37 37 38 39 42 44 45 45 46 47 47 48 48 49 49 52 54 55 57 57 58 59 60 61 61
2.5.2. Validacin no supervisada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6. Herramientas de minera de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Captulo 3. Computacin evolutiva 3.1. Tcnicas evolutivas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2. Algoritmos evolutivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.1. Programacin evolutiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.2. Algoritmos Genticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.2.1. 3.2.2.2. 3.2.2.3. Esquemas de Seleccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . Operador de Cruce . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Operador de Mutacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.3. Parmetros de entrada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.4. Programacin gentica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3. Algoritmos de Estimacin de Distribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.1. Aprendizaje con Heursticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.1.1. 3.3.1.2. 3.3.1.3. Modelo de independencias . . . . . . . . . . . . . . . . . . . . . . . . . . Modelo de dependencias de dos variables . . . . . . . . . . . . . . . . . . . Modelo de dependencias entre mltiples variables . . . . . . . . . . . . . .
Captulo 4. Bioinformtica 4.1. Computacin biolgica y tecnologa de Microarray de ADN . . . . . . . . . . . . . . . . . . 4.2. Metodologa computacional de anlisis de Microarrays de ADN . . . . . . . . . . . . . . . . 4.3. Tratamiento de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.1. Normalizacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.2. Preprocesado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4. Seleccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4.1. Reduccin de dimensionalidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4.2. Seleccin de atributos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5. Aprendizaje Multiestrategia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5.1. Aprendizaje no supervisado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5.2. Aprendizaje supervisado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.6. Validacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
61
III
PLANTEAMIENTO DEL PROBLEMA Y SOLUCIN
63
65 66 66 67 68 69 70 71 73 75 75 76 79 79 80 80 81 82 84 84 87 87 89 89 91 92 94 96 96 96 97 98
Captulo 5. CliDaPa: Clinical Data Partitioning 5.1. Anlisis tradicionales de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2. CliDaPa: Nuevo enfoque del uso de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.1. Fase 1: Preprocesado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.2. Fase 2: Construccin del rbol clnico . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.2.1. 5.2.2.2. 5.2.2.3. 5.2.2.4. 5.2.2.5. 5.2.2.6. Enfoque Filter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Enfoque wrapper: Algoritmo Voraz . . . . . . . . . . . . . . . . . . . . . . Enfoque wrapper: Algoritmo Gentico . . . . . . . . . . . . . . . . . . . . Representacin del cromosoma . . . . . . . . . . . . . . . . . . . . . . . . Poblacin inicial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Operadores y criterios de Aceptacin . . . . . . . . . . . . . . . . . . . . .
5.3. Validacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.4. Umbral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.5. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.5.1. Datasets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.5.1.1. 5.5.1.2. 5.5.1.3. Dataset de Vant Veer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Dataset de Van de Vijver . . . . . . . . . . . . . . . . . . . . . . . . . . . Dataset de Brain Cancer . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.5.2. Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.5.2.1. 5.5.2.2. Estudio del Umbral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Descripcin de experimentos . . . . . . . . . . . . . . . . . . . . . . . . .
5.5.3. Rendimiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.5.4. Resultados y Discusin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.5.4.1. 5.5.4.2. 5.5.4.3. 5.5.4.4. Vant Veer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Van der Vivjer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Brain Cancer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Conclusiones generales . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.6. Mecanismos de mejora . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.6.1. Seleccin del mejor clasicador . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.6.2. Votacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.6.3. Resultados y Discusin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.6.3.1. Vant Veer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.6.3.2. 5.6.3.3.
Van der Vivjer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
99
Brain Cancer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
5.6.4. Conclusiones generales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 Captulo 6. Aprendizaje no supervisado para enriquecimiento de datos clnicos 103
6.1. Enriquecimiento de datos clnicos a travs de tcnicas clustering . . . . . . . . . . . . . . . . 104 6.1.1. Uso del algoritmo QT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 6.1.2. Medidas de distancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 6.1.2.1. 6.1.2.2. 6.1.2.3. 6.1.2.4. Distancia Euclidea . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 Distancia Manhattan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 Correlacin de Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 Correlacin Biweight . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
6.2. Ejecucin y resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 6.2.1. Conjuntos de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 6.2.2. Obtencin de conocimiento no supervisado . . . . . . . . . . . . . . . . . . . . . . . 110 6.2.3. Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 6.2.3.1. 6.2.3.2. 6.2.3.3. Estudio del Umbral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 Descripcin de experimentos . . . . . . . . . . . . . . . . . . . . . . . . . 114 Rendimiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
6.2.4. Resultados y Discusin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 6.2.4.1. 6.2.4.2. 6.2.4.3. Dataset de Vant Veer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 Dataset de Van der Vivjer . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 Dataset de Brain Cancer . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
6.2.5. Conclusiones generales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
IV
CONCLUSIONES Y LINEAS FUTURAS
123
125
Captulo 7. Conclusiones
7.1. Aportaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 7.1.1. Denicin de metodologa computacional de anlisis de Microarrays de ADN . . . . . 126 7.1.2. Denicin del algoritmo CliDaPa . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 7.1.3. Realizacin de nuevos mtodos de aprendizaje en CliDaPa . . . . . . . . . . . . . . . 127 7.1.4. Uso de clasicacin no supervisada para enriquecimiento de clasicacin supervisada 127
7.2. Publicaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 7.2.1. Revistas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 7.2.2. Congresos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 7.3. Lneas Futuras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
7.3.1. Funcionalidades para mejorar el rendimiento de CliDaPa . . . . . . . . . . . . . . . . 129 7.3.2. Nuevas lneas de investigacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 7.3.3. Aplicacin a otros campos de estudio . . . . . . . . . . . . . . . . . . . . . . . . . . 133
APNDICES
135
137
Apndice A. Conjuntos de datos y experimentos
A.1. Vant Veer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 A.2. Van de Vijver . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 A.3. Brain Cancer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142 A.4. Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 Apndice B. Informacin sobre el uso de QT 155
B.1. Codigo de Correlacin Biweight . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155 B.2. Datos obtenidos con QT en BWC en Brain Cancer . . . . . . . . . . . . . . . . . . . . . . . 159 B.3. Estudio comparativo de clusteres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160 B.3.1. Vant Veer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161 B.3.2. Van der Vivjer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161 B.3.3. Brain Cancer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162 Bibliografa 165
ndice de guras
2.1. Modelo de procesos CRISP-DM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2. Taxonoma de algoritmos de clasicacin supervisada . . . . . . . . . . . . . . . . . . . . . . 2.3. Taxonoma de algoritmos de clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1. Probabilidades de individuos segn el selector de Ruleta . . . . . . . . . . . . . . . . . . . . 3.2. Ruleta vs. Ranking . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3. Cruce en un punto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4. Cruce en dos puntos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.5. Cruce uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6. Cruce aritmtico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.7. Cruce BLX . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.8. Inversin Simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.9. Mutacin uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.10. Ejemplo de un modelo grco para x = (A, B,C, D) . . . . . . . . . . . . . . . . . . . . . . . 4.1. Proceso biolgico de anlisis de Microarrays de ADN. Imagen de Gibson & Muse 2002 . . . . 4.2. Proceso de Hibridacin. Imagen de http://universe-review.ca/ . . . . . . . . . . . . . . . . . . 4.3. Aplicaciones de Microarrays de ADN [LMV02]. . . . . . . . . . . . . . . . . . . . . . . . . 4.4. Proceso Computacional de anlisis de Microarrays de ADN . . . . . . . . . . . . . . . . . . . 4.5. Representacin esquemtica de la normalizacin respecto a una posible variacin sistemtica . 4.6. Normalizacin global usando media o mediana . . . . . . . . . . . . . . . . . . . . . . . . . 4.7. Normalizacin Lowess . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.8. Representacin esquemtica de atributos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1. Anlisis tradicionales de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2. Ejemplo de CliDaPa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3. Fase I de CliDaPa: Preprocesado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.4. Generacin de rbol clnico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.5. Algoritmo voraz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.6. Ejemplo de modelo de rbol con GAs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
VII
10 15 21 41 42 43 43 43 44 44 44 44 47 51 52 53 54 55 56 56 58 66 67 68 69 71 72
5.7. Ejemplo de cromosoma de modelo de rbol . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.8. Validacin externa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.9. Validacin externa de CliDaPa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.10. Estudio del umbral con el dataset de Vant Veer . . . . . . . . . . . . . . . . . . . . . . . . . 5.11. Estudio del umbral con el dataset de Van der Vivjer . . . . . . . . . . . . . . . . . . . . . . . 5.12. Estudio del umbral con el dataset de Brain Cancer . . . . . . . . . . . . . . . . . . . . . . . . 5.13. Comparacin entre Clinical+Genes y CliDaPa en Vant Veer . . . . . . . . . . . . . . . . . . 5.14. Comparacin entre Clinical+Genes y CliDaPa en Van der Vivjer . . . . . . . . . . . . . . . . 5.15. Comparacin entre Clinical+Genes y CliDaPa en Brain . . . . . . . . . . . . . . . . . . . . . 5.16. Comparacin de resultados de CliDaPa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.17. Comparacin de tiempos de CliDaPa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.18. Comparacin de resultados de CliDaPa con mejoras en Vant Veer . . . . . . . . . . . . . . . 5.19. Comparacin de resultados de CliDaPa con mejoras en Van der Vivjer . . . . . . . . . . . . .
74 76 78 85 86 86 90 92 94 95 95 98 99
5.20. Comparacin de resultados de CliDaPa con mejoras en Brain . . . . . . . . . . . . . . . . . . 100 6.1. Algoritmo CliDaPa Multi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 6.2. Distancia Manhattan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 6.3. Pearson vs Biweight . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 6.4. Clculo de umbral y ejecucin de QT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 6.5. Estudio del umbral con el dataset de Vant Veer en CliDaPa Multi . . . . . . . . . . . . . . . 112 6.6. Estudio del umbral con el dataset de Van der Vivjer en CliDaPa Multi . . . . . . . . . . . . . 113 6.7. Estudio del umbral con el dataset de Brain Cancer . . . . . . . . . . . . . . . . . . . . . . . . 114 6.8. Comparacin de resultados entre CliDaPa y CliDaPa Multi en Vant Veer . . . . . . . . . . . 116 6.9. Comparacin entre CliDaPa simple, CliDaPa Multi y CliDaPa Multi2 en Vant Veer . . . . . . 117 6.10. Comparacin entre CliDaPa y CliDaPa Multi2 en Vant Veer . . . . . . . . . . . . . . . . . . 118 6.11. Comparacin de resultados entre CliDaPa y CliDaPa Multi en Van der Vivjer . . . . . . . . . 119 6.12. Comparacin de resultados entre CliDaPa y CliDaPa Multi en Brain . . . . . . . . . . . . . . 120 6.13. Comparacin de resultados entre CliDaPa y CliDaPa Multi . . . . . . . . . . . . . . . . . . . 121 7.1. Desarrollo del 0.632 Bootstrap en paralelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 7.2. Ejemplo de clasicacin de QT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132 7.3. Ejemplo de Reclasicacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 A.1. Modelo de rbol CliDaPa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146 B.1. Porcentaje de individuos no clasicados segn QT . . . . . . . . . . . . . . . . . . . . . . . . 161 B.2. Comparacin de nmero de clusteres en Vant Veer . . . . . . . . . . . . . . . . . . . . . . . 162 B.3. Comparacin de nmero de clusteres en Van der Vivjer . . . . . . . . . . . . . . . . . . . . . 163
B.4. Comparacin de nmero de clusteres en Brain Cancer . . . . . . . . . . . . . . . . . . . . . . 163
ndice de tablas
2.1. Conjunto de datos en el dominio de enfermedades del corazn . . . . . . . . . . . . . . . . . 3.1. Ejemplo de seleccin por Ruleta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2. Ejemplo de selector por ranking . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1. Tiempo medio de ejecucin de experimentos en CeSViMa . . . . . . . . . . . . . . . . . . . 5.2. Tcnicas de anlisis tradicionales con Vant Veer . . . . . . . . . . . . . . . . . . . . . . . . 5.3. Tcnicas de uso de CliDaPa con Vant Veer . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.4. Tcnicas de anlisis tradicionales con Van der Vivjer . . . . . . . . . . . . . . . . . . . . . . 5.5. Tcnicas de uso de CliDaPa con Van der Vivjer . . . . . . . . . . . . . . . . . . . . . . . . . 5.6. Tcnicas de anlisis tradicionales con Brain Cancer . . . . . . . . . . . . . . . . . . . . . . . 5.7. Tcnicas de uso de CliDaPa con Brain Cancer . . . . . . . . . . . . . . . . . . . . . . . . . . 5.8. Ejemplo de mecanismo de votacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.9. Mecanismos de mejora aplicados a Vant Veer . . . . . . . . . . . . . . . . . . . . . . . . . .
13 40 41 88 89 90 91 91 93 93 97 99
5.10. Mecanismos de mejora aplicados a Van der Vivjer . . . . . . . . . . . . . . . . . . . . . . . . 100 5.11. Mecanismos de mejora aplicados a Brain Cancer . . . . . . . . . . . . . . . . . . . . . . . . 101 6.1. Caractersticas de algoritmos de clasicacin no supervisada . . . . . . . . . . . . . . . . . . 104 6.2. Ejemplo de resultados obtenidos con QT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 6.3. Comparacin de tiempos de ejecucion en CliDaPa . . . . . . . . . . . . . . . . . . . . . . . . 115 6.4. Tcnicas de uso de CliDaPa Multi con Vant Veer . . . . . . . . . . . . . . . . . . . . . . . . 116 6.5. CliDaPa Multi con Vant Veer, utilizando solo los datos no supervisados . . . . . . . . . . . . 117 6.6. Tcnicas de uso de CliDaPa Multi con Van der Vivjer . . . . . . . . . . . . . . . . . . . . . . 118 6.7. Tcnicas de uso de CliDaPa Multi con Brain Cancer . . . . . . . . . . . . . . . . . . . . . . . 120 6.8. Participacin de variables clnicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 A.1. Informacin de un experimento CliDaPa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 B.1. Segmentacin de QT con BWC y Brain Cancer . . . . . . . . . . . . . . . . . . . . . . . . . 159 B.2. Segmentacin de QT con BWC y Brain Cancer . . . . . . . . . . . . . . . . . . . . . . . . . 160
XI
Listado de algoritmos
1. 2. 3. 4. 5. 6.
Pseudo-cdigo del algoritmo C4.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Algoritmo Gentico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Algoritmos de Estimacin de Distribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . Enfoque Filter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Enfoque Wrapper: Algoritmo Voraz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Enfoque Wrapper: Funcion DivideYValida . . . . . . . . . . . . . . . . . . . . . . . . . . . .
17 39 46 70 72 72
XIII
Parte I
INTRODUCCIN
Captulo 1
Introduccin
1.1
Motivacin
El cncer es la primera causa de mortalidad por enfermedad a nivel mundial [Org09]. Se le atribuyen 10,9 millones de defunciones (o aproximadamente el 13 % de las defunciones mundiales) en el ao 2009. Se conoce como cncer a aquella enfermedad que posee uno o mas tumores malignos. Dichos tumores se caracterizan por una multiplicacin anormal y desordenada de clulas, las cuales tienen la caracterstica de invadir los tejidos adyacentes. A este hecho se le conoce como metstasis. Existen variedad de cnceres, como por ejemplo pulmn, estmago, hgado, colon-recto, esfago, prstata, mama, cerebro, cuello uterino, etc. Toda esta variedad nos hace ver que este tipo de enfermedad se transforma en un problema de una gran repercusin social al que se le debe buscar una solucin lo antes posible. En el estudio de nuevos tratamientos contra este tipo de enfermedades se encuentran los expertos bilogos y mdicos. A menudo dichos expertos necesitan el uso de recursos informticos para poder realizar estudios adecuadamente. Es por ello por lo que se dene una nueva ciencia denominada Bioinformtica. La Bioinformtica se dene [LGG01, Joy08], pues, como la aplicacin del almacenamiento digital, desarrollo de la computacin y las matemticas para permitir el estudio, anlisis y comprensin de datos para resolver preguntas dentro del campo de la biologa. Actualmente en la Bioinformtica colaboran distintos grupos expertos de biologa, medicina y ciencias de la computacin (o, dicho menos tcnicamente, informtica). Entre todos surge una sinergia que permite llegar a la mejor solucin posible. Uno de los tpicos estudios dentro de la Bioinformtica son los estudios de los conjuntos de expresiones genticas o, dicho de otra manera, microarrays de ADN. Estos son representaciones expresadas como secuenSantiago Gonzlez Tortosa Optimizacin de procesos de adquisicin de conocimiento en Biologa Computacional
CAPTULO 1. INTRODUCCIN
cias de nmeros reales, obtenidos a partir de anlisis bioqumicos del ADN humano, que representan la cantidad de protenas que se transcriben a partir de una serie de genes. En la actualidad, este tipo de estudios se han usado (y siguen usndose) para poseer ms conocimiento sobre la actuacin y activacin de los distintos genes en las enfermedades como cncer. Por otro lado, se ha obtenido mucha informacin sobre las relaciones y dependencias entre genes (antes desconocida), lo que se suele representar mediante Pathways genticos [Hoh06, Knu02]. Las conclusiones obtenidas en estos estudios permiten, por ejemplo, saber si es necesario generar ciertas protenas para que no se produzca recidiva de cncer de mama y, por tanto, modicar el comportamiento de ciertos genes (mediante el uso de medicacin) que generan estas protenas. La literatura acerca de este tipo de estudios propone el uso Microarrays de ADN para el diagnostico de enfermedades. Incluso, ciertos estudios han presentado la posibilidad de utilizar y mezclar informacin gentica y clnica para enriquecer el conocimiento y mejorar en el diagnostico [FTBS+ 04, GST+ 06, DGDM07]. Si es cierto que el uso combinado de ambas fuentes de informacin no suele ser efectiva y, por ello, no suele usarse en la literatura. Sin embargo, el historial clnico, as como toda la experiencia mdica previa, puede aportar gran conocimiento a los estudios. Es en este punto donde aparece la principal motivacin de este trabajo, la cual plantea dar la importancia merecida a los datos clnicos, y combinarla, de alguna manera, con los datos genticos con el n de estudiar el diagnostico de enfermedades. Basndose en estudios previos en el campo, y sabiendo que las tcnicas de obtencin de conocimiento a travs de informacin gentica obtienen, en la mayora de los casos, mejores resultados que con datos clnicos, se pretende que la combinacin eciente de ambas fuentes de informacin permitan obtener informacin ms completa o complementaria sobre el propio estudio, antes desconocido para el experto mdico o bilogo.
1.2
Objetivos
Este trabajo de Tesis Doctoral se enmarca dentro del campo descrito anteriormente: Bioinformtica. En concreto, se centra en el desarrollo de diversos algoritmos que permitan el uso de dos fuentes de informacin completamente diferentes, como son los datos clnicos y genticos, con el n de optimizar los resultados hasta ahora obtenidos con tcnicas de anlisis tradicionales de los datos. Una vez denido el objetivo principal del trabajo, a continuacin se describen cada uno de los objetivos a conseguir en el desarrollo del mismo: Estudio del Estado de la cuestin. Se requiere un amplio estudio acerca del estado de la cuestin sobre Bioinformtica, especicndose en anlisis de microarrays de ADN. Como ocurre en todos los estudios doctorales, existe una innidad de referencias bibliogrcas sobre el campo genrico de estudio (en este caso Bioinformtica) pero, sin embargo, existen pocas referencias que puedan tratarse sobre el mismo estudio sobre el que se va a desarrollar la tesis doctoral, el cual es el anlisis de datos genticos y clnicos para el
Optimizacin de procesos de adquisicin de conocimiento en Biologa Computacional Santiago Gonzlez Tortosa
1.3. ESTRUCTURA DEL DOCUMENTO
diagnstico de enfermedades como cncer. Se requiere, pues, el estudio del estado de la cuestin acerca del tema a tratar en la tesis doctoral. Desarrollo de una metodologa estndar. Hoy en da no existe ninguna metodologa que englobe todos los estudios de Bioinformtica en el anlisis de microarrays de ADN. Por tanto, el objetivo es, una vez que se realice el estudio del estado de la cuestin, el desarrollo de una metodologa estndar, que se apoye en otra metodologa de anlisis de datos existente. Dicha metodologa debe ser tan exible que pueda ser aplicado a cualquier investigacin, a pesar de la innidad de investigaciones existentes. Anlisis de ambas fuentes de informacin. Se plantea el desarrollo de una serie de algoritmos, siguiendo la metodologa expuesta anteriormente, que combine el uso de las dos fuentes de informacin: clnica y gentica. Dicha plataforma debe mejorar los resultados que se obtienen al usar tcnicas de anlisis hasta ahora existentes con las mismas fuentes. Estudio de validacin de los resultados. El campo en el que se esta trabajando es sobre diagnstico de enfermedades. Es tan serio e importante, que es necesario realizar una estricta validacin. sta puede tratarse desde dos puntos de vista: validacin biolgica y validacin computacional. La primera requiere el conocimiento y experiencia de un experto bilogo o mdico, el cual debe validar las conclusiones obtenidas. La segunda se encuentra dentro del campo de estudio de este trabajo. Por tanto, se requiere realizar un mecanismo de validacin lo sucientemente robusto y negativista, que permita demostrar que los resultados obtenidos son vlidos y correctos. Uso de mecanismos multiestrategia. Investigaciones actuales utilizan mecanismos de clasicacin no supervisada para agrupar las expresiones genticas. Sin embargo, no se suele utilizarlos para agrupar pacientes por comportamientos clnicos o genticos. Adems, se ha demostrado [Cla08] que dicha informacin (comportamiento de pacientes) est relacionada de alguna manera con el diagnstico de una determinada enfermedad y con sus genes. Se propone, por tanto, un mecanismo multiestrategia, que combine clasicaciones supervisada y no supervisada usando ambos conjuntos de datos.
1.3
Estructura del documento
El contenido del resto de trabajo de esta Tesis se encuentra organizado de la siguiente manera: El primer captulo, donde se encuentra este apartado, corresponde a la Introduccin de este trabajo, donde se presentan las motivaciones y objetivos que cubre el mismo. El segundo captulo recorre y analiza el estado de la cuestin acerca del campo de Minera de Datos: orgenes, tipos de clasicacin, algoritmos ms usados, validaciones, herramientas, etc. El tercer captulo analiza el estado de la cuestin acerca de la computacin evolutiva, algoritmos genticos, EDAs, hbridos, etc.
Santiago Gonzlez Tortosa Optimizacin de procesos de adquisicin de conocimiento en Biologa Computacional
CAPTULO 1. INTRODUCCIN
El cuarto captulo presenta un estado de la cuestin acerca de la Bioinformtica referida al anlisis de microarrays de ADN, tanto a nivel biolgico (proceso biolgico) como computacional. Adems, se presenta la metodologa computacional de anlisis de expresiones genticas, as como los mtodos y tcnicas que ms comnmente se usan. El captulo cinco presenta un nuevo algoritmo de anlisis de datos clnicos y genticos. En l, se presenta el algoritmo original, ciertas mejoras, su aplicacin a datos reales, presentacin de resultados y discusin de los mismos. El captulo sexto presenta un nuevo algoritmo de combinacin de aprendizaje no supervisado con el algoritmo anteriormente expuesto. En l, se presenta la idea de dicha combinacin, las modicaciones sobre el algoritmo original, su aplicacin a datos reales, presentacin de resultados y discusin de los mismos. El sptimo y ltimo captulo de la Tesis corresponde a las conclusiones y lneas futuras del trabajo de investigacin presentado.
Santiago Gonzlez Tortosa
Parte II
ESTADO DE LA CUESTIN
Captulo 2
Minera de Datos
2.1
Orgenes
Comparando la capacidad de los dispositivos de almacenamiento de hace una dcada con la de los dispositivos de hoy en da, se puede apreciar un aumento realmente considerable. Este crecimiento ha sido constante a lo largo de todo este tiempo y parece no tener n. Sirva como ejemplo la estimacin de Ian Witten y Eibe Frank [WF05], la cual comenta que la cantidad de datos almacenada en el mundo se duplica cada 20 meses. Ante esta magnitud de informacin tan elevada, surge el problema de poder trabajar con dicha informacin y lograr extraer conclusiones de la misma. En este punto es donde cobra sentido el trmino KDD. Del ingls, Knowledge Discovery from Databases, fue acuado a principios de la dcada de los 90 para referenciar al proceso no trivial para descubrir informacin vlida, novedosa, potencialmente til e interesante procedente y oculta en grandes conjuntos de datos [HK00]. Dentro de las distintas fase de KDD, una de las ms importantes se denomina data mining o minera de datos. De hecho, este nombre es utilizado en la actualidad para referirse al proceso completo de KDD. Se trata, pues, de un campo multidisciplinar en el que conuyen reas tan diversas como la inteligencia articial, el reconocimiento de patrones, el aprendizaje automtico, la estadstica, la teora de bases de datos, la visualizacin de datos, etc. Los procesos de KDD han sido aplicados exitosamente en distintos mbitos, y ha tomado especial importancia en el mundo empresarial que las utiliza para mejorar el rendimiento de su negocio como base de las estrategias de Bussiness Intelligence. El resultado que se obtiene son modelos de soporte a la decisin, que permiten la toma de decisiones de acuerdo a los datos recogidos de los usuarios y sus actividades en cualquier mbito. Desde la misma denicin de los trminos KDD y minera de datos, se denieron distintos modelos de
10
CAPTULO 2. MINERA DE DATOS
Figura 2.1: Modelo de procesos CRISP-DM
proceso [HK00] que especican los pasos y etapas de desarrollo. En el ao 1997, con el propsito de establecer un estndar en el modelo de proceso de desarrollo de proyectos de data mining, se propuso CRISP-DM [HK06, CCK+ 00] (The Cross-Industry Standard Process for Data Mining). Desde entonces se le ha considerado como el estndar de facto, el cual est compuesto por las siguientes fases (gura 2.1): Business Understanding. Se centra en el entendimiento de los objetivos del proyecto desde una perspectiva del negocio para transformar dicho conocimiento al mbito del data mining y establecer los problemas que se desea solucionar, con un plan preliminar. Data Understanding. Supone las actividades pertinentes para comprender la naturaleza de los datos, identicar los criterios de calidad que se van a establecer, realizar los primeros acercamientos a los datos o detectar subconjuntos de datos interesantes sobre los que proponer las primeras hiptesis de trabajo. Data Preparation. Construye la estructura nal del conjunto de datos sobre el que se van a aplicar los algoritmos de data mining. Se trata de una tarea que puede constar de mltiples pasos y ser realizada mltiples veces, no necesariamente en un orden predeterminado. Entre otros, incluye la seleccin de tablas, instancias y atributos, as como su transformacin y limpieza (su conjunto suele ser denominado procesos ETL o Extract, Transform and Load). Modelling techniques. Fase habitualmente conocida como data mining en la que se selecciona y aplica una tcnica y algoritmo concreto despus de un proceso de seleccin entre todas las posibilidades. Evaluation. Es el proceso de evaluacin y revisin del modelo y los resultados obtenidos en el proceso anterior bajo los criterios de xito denidos en los objetivos de negocio.
2.1. ORGENES
11
Deployment. Presenta el conocimiento de tal manera que el usuario puede usarlo de manera til y ecaz. Normalmente implica el desarrollo de algn sistema de toma de decisiones para la organizacin en la que se aplica el modelo y el conocimiento obtenido. Una vez vistos los procesos data mining denidos por CRISP-DM, basados en la experiencia prctica de muchos investigadores, podemos apreciar una serie de ventajas [WF05] frente al tratamiento de datos: Proporciona un procedimiento automatizado para identicar informacin clave desde volmenes de datos generados por procesos tradicionales y de e-Business. Permite dar prioridad a decisiones y acciones. Proporciona criterios que facilitan la toma de decisiones a los usuarios del negocio para que entiendan mejor el problema y el entorno. Habitualmente, genera modelos descriptivos, esto quiere decir, comprensibles para cualquier persona. Permite que relaciones ocultas e identicadas a travs del proceso de la minera de datos sean expresadas como reglas de negocio o modelos predictivos. Permite analizar factores de inuencia en determinados procesos, predecir o estimar variables o comportamientos futuros, segmentar o agrupar tems similares, adems de obtener secuencias de eventos que provocan comportamientos especcos. Pero, a pesar de estas ventajas y del auge actual, es necesario tener en cuenta ciertos factores que pueden crear cierta desilusin alrededor del data mining [WF05]: Es necesaria una cierta experiencia para utilizar herramientas de la tecnologa, o bien es fcil hallar patrones espurios, triviales o no interesantes. Es posible que no se pueda hallar patrones con recursos limitados. Es necesaria una adecuada comunicacin en los equipos multidisciplinares para elegir la herramienta adecuada. Es posible que, por razones organizativas, ticas o de otro carcter no se permita el uso de toda la informacin necesaria para la aplicacin de estas herramientas. Una vez claras las ventajas e incovenientes del uso del data mining, es interesante detallar los distintos problemas con los que se afronta el data mining. Dichos problemas, se dividen generalmente en dos grandes categoras [TSK05], las cuales son:
12
Los problemas predictivos cuyo objetivo es predecir el valor de un atributo en particular basado en los valores de otros atributos. El atributo que se predice se denomina comnmente como atributo objetivo (o variable dependiente), mientras que los atributos que se utilizan para la prediccin son conocidos como atributos explicatorios (o variables independientes). Los problemas descriptivos cuyo objetivo es derivar patrones (correlaciones, tendencias, agrupaciones o clusters, trayectorias y anomalas) que resuman las caractersticas inherentes a los datos. Este tipo de tcnicas son de naturaleza exploratoria y requieren un post-procesado de los datos para validar y explicar los resultados. Dentro de estos dos grupos de problemas, la literatura ha denido los distintos mtodos que se pueden aplicar. [FPSSU96] resume aquellos mtodos ms usados por cada uno de los dos tipos de problemas: mtodos de clasicacin, regresin, asociacin, clustering, etc. Sin embargo en [WF05] se comentan una serie de mtodos de deteccin de anomalas en las tareas predictivas. Cabe destacar que los mtodos predictivos tambin reciben el nombre de supervisados debido a que disponen de una fase de entrenamiento para la obtencin del modelo de conocimiento, mientras que los mtodos descriptivos reciben el nombre de no supervisados debido a que no disponen de dicha fase. Los mtodos descriptivos tambin son conocidos por el nombre de no supervisados o clustering puesto que su nalidad es el descubrimiento de grupos, identicando distribuciones interesantes y patrones en los datos [VHG03]. A continuacin, se comentan ambas tipologas de clasicacin, junto con una serie de algoritmos de cada una.
2.2
Clasicacin supervisada
Esta seccin presenta una introduccin general al aprendizaje con clasicacin supervisada. La organizacin de la seccin es la siguiente: En el apartado 2.2.1 se dene formalmente el aprendizaje con clasicacin supervisada. En el apartado 2.2.2 se describen los principales algoritmos de clasicacin supervisada. Por ltimo, en el apartado 2.5.1 se analizan las diferentes tcnicas de validacin (estimacin de la exactitud) de estos algoritmos.
2.2.1
Deniciones
Bsicamente, la tarea de un algoritmo de clasicacin supervisada es generar un buen modelo clasicador que aprenda a partir de un conjunto de ejemplos etiquetados. A partir de ah, una vez obtenido el conocimiento, el clasicador puede ser utilizado para identicar casos no etiquetados, con el objetivo de estimar la etiqueta
2.2. CLASIFICACIN SUPERVISADA
13
correcta. Un clasicador puede ser evaluado por su exactitud, comprensibilidad u otras propiedades deseables que determinen cmo de bueno es para la tarea a realizar. Una instancia, tambin llamada caso o ejemplo, es una lista ja de valores de atributos. Una instancia describe las entidades bsicas con las que se trabajar, tales como una persona, una transaccin econmica o una secuencia de ADN. Un atributo, a veces llamado variable, describe alguna propiedad de una instancia. Se utilizan dos tipos de atributos: discretos, que a su vez pueden ser nominales u ordinales (por ejemplo, un atributo discreto nominal puede ser color {ro jo, verde, azul} y uno atributo discreto ordinal puede ser titulo {bachiller, grado, postgrado}) y continuos (por ejemplo, peso R+ )). Cada instancia tiene un atributo especial que se denomina clase, que describe el fenmeno que se quiere aprender o sobre el que se desea hacer estimaciones. Se denomina instancia no clasicada a aquella instancia que no posee clase, es decir, solamente la lista de los valores de las caractersticas o atributos. En clasicacin supervisada, un conjunto de datos o dataset es un conjunto de instancias clasicadas o no. La tabla ?? muestra un conjunto de datos con nueve instancias en el dominio de enfermedades del corazn. La ltima columna, Enfermo, es la clase, es decir, la que se intenta estimar a partir del resto de los atributos. Edad (cont.) 53 60 40 46 62 43 76 62 57 Sexo {M,F} M M M F F M F M M Colesterol (cont.) 203 185 199 243 294 177 197 267 274 ECG restante {norm,abn,hyp} hyp hyp norm norm norm hyp abn norm norm Max. num. latidos (cont.) 155 155 178 144 162 120 116 99 88 Enfermo {si,no} si si no no no si no si si
Tabla 2.1: Conjunto de datos en el dominio de enfermedades del corazn Un clasicador es una funcin que obtiene la clase de una instancia sin clasicar. Todos los clasicadores tienen una estructura de datos almacenada, que se denomina modelo, el cual debe ser aplicado a la hora de generar la clase para una instancia sin clasicar. Por ejemplo, los rboles de decisin tienen almacenado como modelo un rbol que proyecta una instancia no clasicada a una determinada categora siguiendo el camino desde la raz hasta las hojas del rbol y devolviendo la categora de la correspondiente hoja. Un algoritmo de clasicacin construye un clasicador a partir de un conjunto de datos dado. Por ejemplo, CART [BFOS84] y C4.5 [Qui93] son algoritmos de aprendizaje que construyen clasicadores basados en rboles de decisin a partir de conjuntos de datos. Existen gran variedad de medidas que indican la calidad de un clasicador [GH07]. Una de las mas conocidas y mas sencillas de interpretar es el hit ratio o Porcentaje de Bien Clasicados (PBC). Dicha medida nos indica la probabilidad de clasicar correctamente una instancia seleccionada al azar utilizando un clasicador
14
determinado. La tarea de un algoritmo de clasicacin es generar un clasicador con las siguientes caractersticas deseables: Que sea exacto. Este requisito es normalmente la caracterstica ms importante, y ser la principal consideracin a lo largo de la tesis. Que sea comprensible. Dados dos clasicadores con aproximadamente la misma exactitud, se preferir el ms comprensible. Para algunos dominios, como los dominios mdicos, la comprensibilidad es crucial. Para otros dominios, como el reconocimiento de caracteres pticos, este aspecto no es muy importante. Que sea compacto. Aunque est relacionada con la comprensibilidad, una caracterstica no implica la otra. Un perceptrn puede ser un clasicador compacto, pero dada una instancia, entender el proceso de clasicacin es muy complicado. En el otro extremo, un rbol de decisin puede ser muy grande, pero el proceso de la clasicacin de las instancias es trivial. A continuacin se describe formalmente la notacin que ser utilizada a lo largo de toda la tesis. Al conjunto de posibles valores (dominio) de un atributo Xi se le denota por Dom(Xi ). Se supone que la cardinalidad de Dom(Xi ) es ri . Cada instancia no etiquetada es un elemento del espacio de instancias no clasicadas X = Dom(X1 ) Dom(X2 ) . . . Dom(Xn ), donde n es el nmero de atributos. A una instancia no clasicada la denotamos por x. Al valor de un atributo especco Xi se le denotar como xi . Sea C el conjunto de los posibles valores de la clase C, es decir, C = Dom(C). Cada posible valor de la clase se denota por c. Sea X C el espacio de las instancias clasicadas y D un conjunto de datos con N instancias clasicadas donde D = {(x(1) , c(1) ), . . . , (x(N) , c(N) )} Un clasicador genera una clase c C para cada instancia no clasicada x X y un algoritmo de aprendizaje I genera un clasicador dado un conjunto de datos D. La notacin I (D, x) denotar la clase asignada a una instancia no etiquetada x por el clasicador construido por el algoritmo de aprendizaje I sobre el conjunto de datos D.
2.2.2
Algoritmos
Segn [HK06], se pueden clasicar los distintos algoritmos de clasicacin supervisada en cinco grandes bloques (gura 2.2), las cuales son: Modelos grcos de dependencias probabilsticas . Son los algoritmos basados en el teorema de bayes o en redes bayesianas. Ejemplos de estos tipos de algoritmos son Nave Bayes, NBTree, etc. rboles de decisin. Son estructuras en forma de rbol que representan conjuntos de decisiones. Estas decisiones generan reglas para la clasicacin de un conjunto de datos. Mtodos pertenecientes a este tipo pueden ser ID3, C4.5, etc.
15
Modelos de Regresin. Son modelos matemticos que se basan en teoras de regresin, tanto lineal como logstica, teniendo en cuenta sus distintas variaciones. Lazzy learning. Tambin llamado aprendizaje vago, se basa en realizar el aprendizaje justo en el momento en que se se desea estimar clasicaciones de individuos no clasicados. El mtodo ms usado dentro de este conjunto es el KNN (K-nearest neighbour). Redes neuronales articiales. Son modelos predictivos no-lineales que aprenden a travs del entrenamiento y se asemejan a la estructura de una red neuronal biolgica. Ejemplos de este tipo de algoritmos pueden ser el perceptrn simple, perceptrn multicapa, etc. Vectorial. Tambien llamado SVM (Support Vector Machines), se basa en la creacin de hiperplanos de N dimensiones para la separacin de distintos grupos de individuos clasicados.
Figura 2.2: Taxonoma de algoritmos de clasicacin supervisada Sera imposible realizar una descripcin detallada de todos los algoritmos de clasicacin supervisada, debido a la gran cantidad de variedades. Por lo que, con el n de explicar ciertas caractersticas de cada tipo de algoritmo, y puesto que el presente trabajo hace uso de ellos, a continuacin se describen cuatro algoritmos, los cuales son: Nave Bayes, C4.5, regresin logstica y KNN.
2.2.3
Nave Bayes
En los ltimos aos ha habido un inters creciente en la utilizacin de mtodos probabilsticos para clasicacin. Estos han demostrado acomodarse a la naturaleza exible de numerosos conceptos, y, adems, gozan de una salida base en la teora de la probabilidad. El mtodo probabilstico para clasicacin ms ampliamente utilizado es Nave Bayes [Mit97, DFA06, LCS+ 06]. Este mtodo se basa en una aplicacin del teorema de Bayes, pero con unas restricciones y suposiciones de partida. Dada una instancia x representado por n valores, el clasicador Nave Bayes se basa en encontrar la hiptesis ms probable que describa a esa instancia. Si la descripcin de esa instancia viene dada por los valores < x1 , x2 , .., xn >, la hiptesis ms probable ser aquella que cumpla: Vmap = argmaxci C p(ci |x1 , ..., xn ), es decir, la probabilidad de que conocidos los valores que describen a esa instancia, sta pertenezcan a la clase ci (donde ci es el valor de la funcin de clasicacin f(x) en el conjunto nito V). Por el teorema de Bayes:
16
Vmap = argmaxci C p(c1 , ..., cn |ci )p(ci )/p(x1 , ..., xn ) = argmaxci C p(x1 , ..., xn |ci )p(ci ) Se puede estimar p(ci ) contando las veces que aparece la clase ci en el conjunto de datos de aprendizaje y dividindolo por el nmero total de instancias que forman este conjunto. Para estimar el trmino p(x1 , ...xn |ci ), es decir, las veces en que para cada categora aparecen los valores de la instancia x, se debe recorrer todo el conjunto de aprendizaje/entrenamiento. Este clculo resulta impracticable para un nmero sucientemente grande de individuos por lo que se hace necesario simplicar la expresin. Para ello se recurre a la hiptesis de independencia condicional, con el objetivo de poder factorizar la probabilidad. Esta hiptesis dice lo siguiente: Los valores x j que describen un atributo de un ejemplo cualquiera x son independientes entre s conocido el valor de la categora a la que pertenecen. As la probabilidad de observar la conjuncin de atributos x j dada una categora a la que pertenecen es justamente el producto de las probabilidades de cada valor por separado: P(x1 , ..., xn |ci ) = j P(x j |ci ). Dicho de otro modo, utilizando y partiendo del Teorema de Bayes se tiene que: p(C) p(X1 , ..., Xn |C) p(X1 , ..., Xn )
p(C|X1 , ..., Xn ) =
El numerador es equivalente a una probabilidad compuesta, por lo que: 1 p(C, X1 , ..., Xn ) Z
p(C|X1 , ..., Xn ) =
dnde Z es una constante de escala asociada a X1 , ..., Xn . Aplicando repetidas veces probabilidad condicionada y como se asume independencia condicional entre las variables X1 , ..., Xn , la distribucin condicional sobre la variable clasicatoria C puede expresarse de la siguiente manera:
n 1 p(C) p(Xi |C) Z i=1
p(C|X1 , ..., Xn )
2.2.4
Algoritmo C4.5
C4.5 [Qui93] es un algoritmo usado para generar rboles de decisin, desarrollado por Ross Quinlan en 1993. Este algoritmo es una extensin del predecesor algoritmo ID3, desarrollado en 1986. Los rboles de decisin generados por este tipo de algoritmos pueden ser usados para clasicacin, y por ese motivo, suelen ser referenciados como clasicadores supervisados. Dichos rboles, (denominados Top Down Induction Trees) se construyen a partir del mtodo de Hunt. El algoritmo C4.5 genera un rbol de decisin a partir de los datos mediante particiones realizadas recursivamente. El rbol se construye mediante la estrategia de profundidad-primero (depth-rst). El algoritmo considera todas las pruebas posibles que pueden dividir el conjunto de datos y selecciona la prueba que resulta en la mayor ganancia de informacin. La ganancia de informacin es simplemente la reduccin esperada en la entropa causada al particionar las instancias o individuos de acuerdo a una variable o atributo.
17
G(Cli ,C) = E(Cli ) E(Cli ,C) La entropa de una variable puede ser considerada como la cantidad de informacin contenida en dicha variable. Suponiendo que una variable Cli tiene k valores v1 , ..., vk , la entropa ser:
k
E(Cli ) = E(p(v1 ), ...p(vk )) =
s=1
p(vs ) log2 p(vs )
Para cada atributo discreto, se considera una prueba con k resultados, siendo k = Dom(Xi ) el nmero de valores posibles que puede tomar el atributo Xi . Para cada atributo continuo, se realiza una prueba binaria sobre cada uno de los valores que toma el atributo en los datos. En cada nodo, el sistema debe decidir cul prueba escoge para dividir los datos. A continuacin se presenta el pseudo-cdigo del algoritmo C4.5: Algoritmo 1 Pseudo-cdigo del algoritmo C4.5 // R: conjunto de atributos no clasicadores // C: atributo clasicador // S: conjunto de entrenamiento, devuelve un rbol de decisin Funcin C45(R,C, S) if S est vaco then Devolver un nico nodo con valor Falla end if if todos los registros de S tienen el mismo valor para el atributo clasicador then Devolver un nico nodo con dicho valor end if if Si R est vaco then Devolver un nico nodo con el valor ms frecuente del atributo Clasicador en los registros de S else D atributoconmayorProporcindeGanancia(D, S)entrelosatributosdeR Sean d j | j = 1, 2, ...., m los valores del atributo D Sean d j | j = 1, 2, ...., m los subconjuntos de S correspondientes a los valores de d j Devolver rbol con raz nombrada como D y con los arcos nombrados d1 , d2 , ...., dm , que van respectivamente a los rboles Llamar recursivamente a C45(R D,C, Sl),C4,5(R D,C, S2),C4,5(R D,C, Sm ) end if El esqueleto de este mtodo para construir rboles a partir de un conjunto de datos de entrenamiento D es muy simple: Sean las clases C1 ,C2 , ...,Cn , existen tres posibilidades: D contiene uno o ms casos, todos pertenecientes a una nica clase Ci : El rbol de decisin para D es una hoja identicando la clase Ci . D no contiene ningn caso. El rbol de decisin es una hoja, pero la clase asociada debe ser determinada por informacin que no pertenece a D. Por ejemplo, una hoja puede escogerse de acuerdo a conocimientos de base del dominio, como puede ser la clase mayoritaria.
18
D contiene casos pertenecientes a varias clases. En este caso, la idea es renar D en subconjuntos de casos que tiendan a pertenecer a una nica clase. A continuacin se presentan las caractersticas fundamentales del algoritmo C4.5, que lo diferencia del algoritmo ID3: A medida que se aaden niveles de rbol, las hiptesis se renan tanto que describen muy bien los ejemplos utilizados en el aprendizaje, pero el error de clasicacin puede aumentar al evaluar los ejemplos. Es decir, clasica muy bien los datos de entrenamiento pero luego no sabe generalizar al conjunto de validacin. Es debido a que aprende hasta el ruido del conjunto de entrenamiento. Este efecto es, por supuesto, indeseado. Hay varias causas posibles para que esto ocurra, las principales son: Exceso de ruido (lo que se traduce en nodos adicionales) y un conjunto de entrenamiento demasiado pequeo como para ser una muestra representativa de la verdadera funcin objetivo. Hay varias estrategias para evitar el sobre ajuste en los datos, que pueden ser agrupados en dos clases: Estrategias que frenan el crecimiento del rbol antes de que llegue a clasicar perfectamente los ejemplos del conjunto de entrenamiento y estrategias que permiten que el rbol crezca completamente, y despus realizan una poda. La poda consiste en una vez generado el rbol completo, se plantea qu es lo que se debe podar para mejorar el rendimiento y de paso obtener un rbol ms pequeo. C4.5 convierte el rbol a un conjunto de reglas antes de podarlo. Hay tres razones principales para hacer esto: Ayuda a distinguir entre los diferentes contextos en los que se usa un nodo de decisin (debido a que cada camino de la raz a una hoja se traduce en una regla distinta), deja de existir la distincin entre los nodos que estn cerca de la raz y los que estn lejos (as no hay problemas para reorganizar el rbol si se poda un nodo intermedio) y mejora la legibilidad puesto que las reglas suelen ser ms fciles de entender. Inicialmente el algoritmo ID3 se plante para atributos que presentaban un nmero discreto de valores. Se puede fcilmente incorporar atributos con valores continuos, simplemente dividiendo estos valores en intervalos discretos, de forma que el atributo tendr siempre valores comprendidos en uno de estos intervalos. sta es la tcnica que utiliza C4.5 con variables continuas. En ciertos casos existen atributos de los cuales se conoce su valor para algunas instancias, y para otros no. Por ejemplo una base de datos mdica en la que no a todos los pacientes se les ha practicado un anlisis de sangre. En estos casos lo ms comn es la estimacin el valor basndose en otros ejemplos de los que s conocemos el valor (imputacin de valores). Normalmente se ja la atencin en los dems ejemplos de ese mismo nodo. As, al ejemplo de valor desconocido se le da el valor que ms aparezca en los dems ejemplos. Esta tcnica ha sido incluida en el C4.5. El algoritmo C4.5 se basa en el uso del criterio ratio de ganancia normalizado (normalized Information Gain ratio) para la seleccin de que atributo va a ser escogido como divisor del rbol. De esta manera,
19
se consigue evitar que las variables con mayor nmero de posibles valores salgan beneciadas en la seleccin. El algoritmo examina la diferencia en la entropa que resulta de seleccionar un atributo para dividir el conjunto de datos. El atributo con mayor ganancia o entropa es el seleccionado para tomar la decisin de divisin.
2.2.5
Regresin logstica
La regresin logstica (LR) [HL00] es un mtodo estndar que permite describir la relacin entre la variable dependiente (o respuesta) que es discreta bivaluada (0 1) y las distintas variables predictoras (atributos independientes). Cuando el algoritmo es usado con propsito de clasicacin, la variable respuesta es la clase C, estimada a partir de los atributos X1 , ..., Xk . En este contexto, LR es un potente paradigma de clasicacin supervisada que proporciona probabilidades explcitas de clasicacin en cada posible valor de la clase. Este algoritmo se presenta como clasicador discriminante, en el sentido de que se obtiene la probabilidad de pertenencia a una clase a partir de los atributos, en contra de los clasicadores generativos, que obtienen clasicadores a partir de probabilidades conjuntas de la clase y atributos [NJ01]. Opuesto a otros mtodos de anlisis discriminante, no es necesario el supuesto de comportamiento de normalidad (distribucin gausiana) de los atributos. Es ms, dichos atributos pueden darse con escalas cuantitativas o cualitativas sin problema alguno. El clasicador LR es obtenido de un conjunto de datos de entrenamiento DN que contiene N individuos DN = (c j , x j 1, ..., x j k), j = 1, ..., N, y de una distribucin de probabilidad conjunta P(C, X1 , ..., Xk ). Normalmente la aplicacin de este mtodo es para clasicaciones de dos categoras, es decir, C j puede ser 0 1. Suponiendo que x representa P(C = 1|x) = P(C = 1|X1 = x1 , ..., Xk = xk ), entonces el modelo logit se dene como: x = 0 + 1 x1 + . . . + k xk 1 x
log o lo que es lo mismo,
x =
e(0 +1 x1 +...+k xk ) 1 = (0 +1 x1 +...+k xk ) (0 +1 x1 +...+k xk ) 1+e 1+e
donde = 0 + 1 x1 + . . . + k xk representa el vector de coecientes de regresin. Dichos coecientes son estimados a partir del mtodo de mxima verosimilitud (maximum likehood estimation). Dicho mtodo se basa en la siguiente funcin:
N c
L ( ) = x jj (1 x j )1c j
j=1
dnde x j se comenta ms arriba. Los M-estimadores (Maximum likelihood estimators o MLE) i son obtenidos a partir de maximizar L respecto a , o lo que es lo mismo, maximizar log L respecto a .
20
La funcin log L (L( )) gua la bsqueda de i s, intentando generar un modelo que obtenga los mejores resultados, es decir, que la distancia entre los individuos/variable respuesta y los valores estimados por el modelo sea la menor posible. Esta medida nos informa de lo efectivo que ha sido el modelo en describir la variable respuesta. Describiendo las ventajas e inconvenientes de LR, se debe comentar que se trata de un algoritmo muy potente y rpido, que obtiene resultados muy satisfactorios ante conjuntos de datos continuos con clase discreta. Sin embargo, este tipo de algoritmos no reacciona satisfactoriamente antes conjuntos de datos con gran cantidad de atributos y pequea de individuos (llamado curse of dimensionality), aunque derivados de este (como penalized LR) intentan paliar dicho problema.
2.2.6
K-NN
El algoritmo K-NN, llamado K vecinos ms cercanos (K nearest neighbour) [Mit97, CH67, LCS+ 06] es el mtodo inductivo ms usado en microarrays de ADN. Se trata de un mtodo lazy, es decir, no construyen un modelo, sino que todo el trabajo se pospone hasta el momento de clasicar una nueva instancia de validacin. En el entrenamiento simplemente se guardan todas las instancias. Cuando se realiza la clasicacin, se clasica una nueva instancia en funcin de la clase de las instancias ms cercanas. La distancia entre dos instancias se calcula a partir del valor de sus atributos. Dichas distancias pueden ser denidas con cualquier tipo de medida. Las ms usadas suelen ser distancia eucldea, Manhattan, Chebyshev, etc. El procedimiento para la clasicacin de un nuevo individuo es: 1. Se mide la distancia entre el individuo a clasicar y todos los individuos de entrenamiento almacenados. Las distancias se miden en el espacio de los atributos. Se utilizan tantas dimensiones como nmero de atributos se tenga. La distancia a calcular, depende del tipo de KNN se est usando. Por lo general, se utiliza la distancia eucldea, esto es, la raz de las diferencias de los cuadrados de sus dimensiones. 2. Se eligen las k instancias ms prximas. 3. Se asigna como clase la clase mayoritaria entre las k instancias. El coste computacional del algoritmo es alto, debido a que se realiza todo el clculo por cada una de las instancias que se desee estimar su clase. No obstante, se trata de un algoritmo sencillo, fcil de comprender, y que obtiene unos resultados medianamente aceptables. Sin embargo, al igual que otros algoritmos, es propenso a funcionar incorrectamente ante ruidos o gran cantidad de atributos.
2.3
Clasicacin no supervisada
Como se coment anteriormente, los mtodos de clasicacin no supervisada o clustering tienen como nalidad el descubrimiento de grupos, identicando distribuciones interesantes y patrones en los datos [VHG03].
2.3. CLASIFICACIN NO SUPERVISADA
21
No es fcil ofrecer una clasicacin de algoritmos de clustering cannica, debido a que las tcnicas que se utilizan para agrupar elementos en muchos casos se solapan [Ber02]. Sin embargo, la gura 2.3 muestra una posible taxonoma con los tipos de algoritmos de clustering que resume la visin hasta la fecha de los investigadores en este campo. De esta manera, los tipos de algoritmos que destacan son los siguientes:
Figura 2.3: Taxonoma de algoritmos de clustering
Basado en jerarquas. El clustering jerrquico o basado en jerarquas combina las instancias del conjunto de datos formando clusters sucesivos en forma de rbol, de tal manera, que en el nivel inferior se dispone de un nico cluster por instancia, y los niveles superiores son agrupaciones de dichos nodos. Este enfoque permite explorar los datos a distintos niveles de granularidad. El rbol que representa esta jerarqua de clusters se conoce como dendograma [TSK05]. Los algoritmos mas conocidos dentro de este tipo son los llamados algoritmos aglomerativos (Agglomerative) y divisivos (Divisive). Basado en particiones. Los mtodos de clustering basados en particiones dividen el conjunto de datos en distintos subconjuntos disjuntos. Sera imposible comprobar todos los posibles subconjuntos, por lo que los distintos mtodos utilizan heursticas para obtener los conjuntos de manera iterativa. El funcionamiento consiste en asignar los puntos a los distintos clusters, cuyo nmero es denido inicialmente, mejorando los clusters en cada iteracin hasta que la heurstica marque como ptimo el esquema. Los mtodos que destacan son K-Medias y K-Medoids. Basado en densidad. Las propuestas anteriores presuponen la forma esfrica de los clusters y el nmero de clusters (indicado previamente), lo que no se adeca a datos como los espaciales en los que la forma y nmero de los clusters es desconocido. Por este motivo a nales de la dcada de los 90 se propusieron varios algoritmos basados en el concepto de densidad, entre los que se puede incluir EM [CD02], DBSCAN [EKJX96], DENCLUE [HHK98] y OPTICS [ABKS99]. Basado en grid. Los algoritmos basados en grid intentan limitar la carga computacional y utilizan mtodos de particin, divisin o reduccin en el que el espacio de datos se compone de una rejilla. Cada uno de los elementos individuales de los que se compone la rejilla se denomina unidad. El uso de un grid para la divisin espacial aporta una serie de benecios, como es el estudio de los efectos de las agrupaciones
22
de manera local, lo que hace muy benecioso su uso junto con enfoques basados en particiones o en densidad. De hecho, este enfoque es usado como paso intermedio en muchos otros algoritmos (por ejemplo, CLIQUE o DESCRY). Entre los algoritmos ms destacados estn STING [WYM97], WaveCluster [SCZ98] y OptiGrid [HK99]. Basado en otros enfoques. Se incluyen: Basado en combinaciones de las anteriores. Entre otros destacan, CLIQUE [AGGR98] y DESCRY [APR04]. Graph partitioning [Ber02] donde los grafos presentan una tendencia a expresar similitud que puede ser utilizado para particionar un conjunto de datos. Coclustering techniques [Ber02] o tambin llamado clustering simultneo, clustering bi-dimensional (o bliclustering), clustering de bloques, clustering distribucional, etc. La idea principal consiste en realizar un doble clustering: realizar el clustering de individuos gracias a producir grupos de atributos al mismo tiempo. Este enfoque invierte parcialmente la problemtica habitual del clustering: para mejorar el clustering de puntos basados en sus atributos, trata de agrupar los atributos en base a los individuos. Una vez presentada la clasicacin de algoritmos de clasicacin no supervisada, a continuacin se procede a describir dos de los algoritmos ms usados en el campo de la Bioinformtica, y que han sido usados tambin en esta investigacin, los cuales son K-medias y QT.
2.3.1
K-Medias
El algoritmo K-Medias [KMN+ 02, LLF+ 04] es una herramienta diseada para asignar instancias a un nmero jo de grupos (clusters o conglomerados), cuyas caractersticas no se conocen a priori, pero que se basan en un conjunto de variables o atributos especicadas. Se considera que una clasicacin de K-Medias es correcta cuando es: Eciente, es decir, utiliza tan pocos conglomerados como sea posible. Efectiva, es decir, captura los conglomerados que estadstica y comercialmente son importantes. El procedimiento del anlisis cluster de K-medias empieza con la seleccin de los centroides de agrupaciones iniciales. Aunque se puede asignar manualmente estos centroides, lo aconsejable es poseer un procedimiento de seleccin de k observaciones bien situadas para los centros de agrupaciones. Despus de la obtencin de los centroides de las agrupaciones, el procedimiento es el siguiente: 1. Asignar instancias a las agrupaciones basndose en la distancia de los centroides de las agrupaciones.
2.3. CLASIFICACIN NO SUPERVISADA
23
2. Actualizar las posiciones de los centroides de las agrupaciones basndose en los valores medios de las instancias en cada agrupacin. Estos pasos se repiten hasta que cualquier re-asignacin de las instancias haga que las agrupaciones sean internamente ms variables o externamente similares. K-Medias se trata de un algoritmo sencillo y rpido aunque sus resultados no son todo lo bueno que se deseara. El primer inconveniente radica en el propio nmero de clusters a crear, que viene predenido como parmetro. Si es verdad que, dicho algoritmo es muy til para tcnicas de discretizacin de atributos y para realizar un primer estudio sobre clasicacin, puesto que nos proporciona posibles divisiones a partir de puntos clave o centroides.
2.3.2
QT
El algoritmo QT [HKY99] es un algoritmo de clustering de tipo jerrquico aglomerativo, que agrupa elementos en clusters de gran calidad comparando dos a dos los elementos disponibles mediante el uso de la funcin de distancia que se desee. Por ello, se crean clusters QT, que se denen porque la distancia que separa a los dos elementos ms diferentes de un mismo cluster es menor a una distancia umbral predenida como parmetro. Las propiedades congurables en el algoritmo QT son las siguientes: Distancia es la funcin utilizada para comparar dos elementos del conjunto de datos. Tamao mnimo de cluster que es el nmero mnimo de elementos que decidimos que debe haber en un cluster para poderlo formar. Dimetro umbral que es la distancia mxima que debe separar a dos elementos para poder meterlos en el mismo cluster. Una vez denidas las propiedades, comienza la ejecucin del algoritmo, cuyos pasos son: 1. Se escoge un elemento ei aleatoriamente de entre e1 . . . en . 2. El algoritmo determina el elemento e j ms parecido a ei . Si la distancia entre ellos no supera el dimetro umbral, ei y e j se incluyen en el mismo cluster. 3. Otros elementos ek que minimicen el dimetro del cluster son aadidos al mismo, hasta que no se permita aadir ninguno. 4. Se escoge otro candidato ey . 5. Se repiten los pasos 2 y 3 con respecto a este nuevo elemento ey . Todos los elementos del conjunto de datos son elementos candidatos a entrar en este segundo cluster asociado al nuevo elemento.
24
6. Se obtiene otro cluster para este elemento ey . 7. Se repite todo el proceso con todos los elementos de la lista, por lo que habr tantos clusters candidatos como elementos haya en la lista. Se eliminan los clusters que tengan un tamao menor al tamao mnimo de cluster permitido. 8. Se selecciona el cluster con mayor nmero de instancias como un cluster denitivo, y sus elementos se eliminan de la lista. Los elementos restantes pasan a la siguiente iteracin. 9. Se repite el proceso entero hasta que el cluster mayor de una ronda tenga un nmero de elementos inferior al requerido. Finalmente se ha obtenido el conjunto de clusters QT, en los que cada elemento pertenece a un solo cluster, y respetando los mnimos de nmero de elementos por cluster y dimetro. Los atributos que no estn en ningn cluster se denen como elementos no clasicados (unclassied cluster). Como medida de distancia entre los distintos elementos ei las referencias bibliogrcas nos aconsejan la distancia euclidea, manhattan, chevychev, correlacin lineal de Pearson, la correlacin Biweight, etc. dependiendo del problema. Una vez comentado el funcionamiento detallado del algoritmo, es conveniente hablar de algunos aspectos del mismo. Algunas de ellas proporcionan ciertas caractersticas que pueden hacer ventajoso su uso frente a otros algoritmos. El algoritmo genera clusters a medida del usuario, dado que solamente se consideran clusters que sobrepasen un umbral que puede denirse como parmetro de entrada. Las propiedades citadas anteriormente provocan que se generen unos resultados de salida que se cian a las caractersticas que interesen. Adems, no hay necesidad de que a priori se dena el nmero de clusters resultante que se quieren obtener, cosa que s sucede en otros algoritmos. Adems, QT puede optar por no insertar ciertos elementos en ningn cluster (por decisiones del propio diseo). Por otro lado, se consideran todos los clusters posibles, actuando el algoritmo de tal manera que se tienen en cuenta todas las combinaciones, lo que repercute en una mejora de los resultados. Sin embargo, como desventaja frente a otros algoritmos, el tiempo de computacin del QT es muy alto, debido a la complejidad del mismo. Cuanto ms se eleve el tamao mnimo de cluster o el tamao del conjunto de datos que se estudie, o se decremente el dimetro umbral, ms se disparar el tiempo de cmputo. Para concluir, el algoritmo QT obtiene resultados bastante aceptables frente a conjuntos de datos con ruido y grandes cantidades de atributos, como es el caso de microarrays de ADN.
2.3.3
Clustering con restricciones
Una vez descritos los algoritmos de clasicacin no supervisada, se procede a presentar el estudio de tcnicas de clustering orientadas a cierto conocimiento obtenido a travs de aprendizaje supervisado, lo que se
2.4. CONJUNTOS DE CLASIFICADORES
25
denomina clustering con restricciones o semisupervisado. La correcta evaluacin e interpretacin de un mtodo no supervisado depende del conocimiento del dominio y de las expectativas del usuario experto [HGK+ 05]. El clustering semisupervisado o clustering con restricciones trata de paliar los problemas que la interpretacin puede acarrear y permite al mtodo de clustering moverse de la generacin de soluciones no supervisadas a soluciones semisupervisadas [GH06] incluyendo informacin sobre el dominio durante el proceso. sto se consigue mediante el uso de las denominadas restricciones a nivel de individuo (instance-level constraints) denidas por [Wag02] en el ao 2000 y motivada por el hecho de que en la mayora de las aplicaciones existe una cantidad pequea de datos que est etiquetada y que puede ser utilizada para hacer clustering en el resto de los datos no etiquetados (y comparativamente inmensamente ms grande). Aunque fueron utilizadas implcitamente por primera vez en [DBE99], las restricciones a nivel de instancia fueron denidas y usadas con xito por primera vez en [WC00]. Su prctico enfoque, as como sus espectaculares resultados, hicieron que el inters de la comunidad cientca aumentara [Dav09] considerablemente produciendo una gran cantidad de literatura muy relevante [DBE99, WC00, BBM02, BBM04b, Dav09, HGK+ 05, RRS07]. Las restricciones a nivel de instancia se han mostrado como un mecanismo sencillo y ecaz para aumentar la pureza de los clusters [WC00], mejorar el rendimiento [Dav09], evitar soluciones parciales de baja calidad [WCRS01] y aportar el conocimiento del dominio del usuario [HGK+ 05]. Los ms recientes trabajos de investigacin [Dav09] demuestran que el grado de validez del conjunto de restricciones puede variar, y han denido medidas para establecer la coherencia y grado de informacin que aportan. Las distintas propuestas en clustering con restricciones han generado variaciones de algoritmos conocidos, como K-Medias [WCRS01], jerrquicos [Dav09], SVM [KBDM05], genticos [DBE99], pero tambin de enfoques ms tradicionalmente estadsticos [BBM04a] que hacen uso de restricciones a nivel de instancia. Todas estas soluciones pueden dividirse en dos grupos: Aqullas que modican la funcin objetivo para satisfacer las restricciones, denominados constraintbased, entre las que se encuentran [DBE99, WC00, BBM02, Dav09] Aqullas que entrenan la mtrica utilizada con la informacin etiquetada por las restricciones, denominadas distance-based, entre las que destacan [BBM04b, HGK+ 05].
2.4
Conjuntos de Clasicadores
Los conjuntos de clasicadores (ensembles of classiers) [Die97] son sistemas que clasican nuevas instancias combinando las decisiones individuales de los clasicadores de los que estn compuestos. Los conjuntos de clasicadores se construyen en dos fases: En una primera fase, la fase de entrenamiento, se genera una serie de clasicadores (a cada uno de ellos se
26
denomina clasicador individual o clasicador base) con un algoritmo concreto (denominado algoritmo base). En una segunda fase se combinan las distintas hiptesis generadas. La precisin del conjunto puede ser mucho mayor que la precisin de cada uno de los miembros en los que est compuesto como han demostrado multitud de estudios [BK99, Bre96, DF00, Qui96]. Esta mejora se podr obtener nicamente si los clasicadores individuales son sucientemente diversos, es decir, combinar siempre los mismos clasicadores no conlleva ninguna mejora. Se obtendr, por tanto, la misma respuesta que si se ejecutara cada clasicador base por separado. Para construir un conjunto de clasicadores (primera fase), es necesario elegir el algoritmo base y disear una metodologa que sea capaz de construir diferentes clasicadores. Las distintas metodologas o tcnicas existentes para la generacin de conjuntos de clasicadores se pueden agrupar en [Die97]: Remuestreo de datos de aprendizaje. Este tipo de mtodos se basan en la creacin de distintos conjuntos de datos de aprendizaje a partir del original (remuestreo) para ser usados en los distintos clasicadores. Dicho remuestreo permite inducir variaciones en los clasicadores. Algoritmos como Boosting [BK99] y Bagging [Qui96, Bre96] son un ejemplo de este tipo de tcnicas. Modicacin de atributos. Esta tcnica descarta selectivamente el uso de ciertos atributos para construir los clasicadores. De esta forma se construyen dichos clasicadores en distintos subespacios. El mtodo Attribute o Feature Bagging [?] es un ejemplo de uso de esta tcnica. Manipulacin de etiquetas de la clase. Cada clasicador individual es construido usando una recodicacin de las etiquetas de clase sobre los datos de aprendizaje. El mtodo ECOC (Error-Correcting Output Codes) [HW04] es un ejemplo de uso de este tipo de tcnicas. Aleatoriedad en el clasicador. Esta familia de tcnicas introduce un cierto grado de aleatoriedad en el algoritmo base de aprendizaje, de forma que dos ejecuciones distintas con los mismos datos resultan en dos clasicadores diferentes. En general, esta tcnica empeora la precisin del algoritmo de clasicacin a cambio de obtener una mayor variabilidad en los clasicadores obtenidos para poder combinarlos. Un ejemplo de este tipo de tcnicas es Forest-RI [Bre01], donde cada nodo selecciona la mejor pregunta dentro de un subconjunto aleatorio reducido de los atributos de entrada. Existe otra familia de algoritmos denominada bosques aleatorios (Random forests) [Bre01], el cual incorpora caractersticas de las diversas tcnicas previamente expuestas. Se trata de tcnicas de conjuntos de clasicadores que utilizan especcamente rboles de decisin como algoritmos base. En lo que se reere a la fase de combinacin de clasicadores, segn su arquitectura se pueden agrupar los algoritmos en [JDM00]:
2.4. CONJUNTOS DE CLASIFICADORES
27
Paralela. Todos los clasicadores base son invocados y sus decisiones son combinadas. La mayora de los conjuntos de clasicacin pertenecen a esta categora. En cascada. Los clasicadores del conjunto se invocan secuencialmente hasta que el patrn es clasicado [GB00]. Generalmente, los clasicadores base son incompatibles entre s en el sentido de que se entrenan sobre conjuntos de datos con distintos atributos. Jerrquica. Los clasicadores se organizan en una estructura de tipo rbol que determina el clasicador a invocar dependiendo del patrn a clasicar [JJ93]. Slo se invoca, por tanto, un clasicador. Esta es una arquitectura muy exible, puesto que utiliza clasicadores especializados en las distintas regiones del espacio de atributos. De todas las tcnicas presentadas, a continuacin se detallan solo aquellas que han sido usadas en el presente trabajo, las cuales son: Boosting y Bagging.
2.4.1
Boosting
La tcnica de Boosting [BK99] construye clasicadores mediante la asignacin de pesos a las instancias de forma adaptativa. En cada iteracin de boosting, se construye un clasicador que intenta compensar los errores cometidos previamente por otros clasicadores. Para lograr que cada nuevo clasicador mejore los resultados en regiones donde fallan los anteriores, se utiliza un conjunto de datos ponderado cuyos pesos son actualizados tras cada iteracin: se incrementan los pesos de los ejemplos mal clasicados por el ltimo clasicador y se reducen los pesos de los bien clasicados. Boosting puede, o bien utilizar todas las instancias ponderadas para construir cada clasicador (boosting con reweighting), o bien hacer un remuestreo ponderado (boosting con resampling), donde tengan ms probabilidad de aparecer en la muestra las instancias con mayor peso. En cualquier caso, el algoritmo de clasicacin base se encuentra con un conjunto de entrenamiento con instancias con distinta importancia relativa. De hecho, cada nuevo clasicador individual se centra en la clasicacin de las instancias ms difciles que han sido errneamente clasicados por los clasicadores previos. Boosting es uno de los mtodos ms ecientes para la construccin de conjuntos de clasicadores. Sin embargo, presenta dicultades de generalizacin en algunos problemas y cuando los datos poseen ruido en la asignacin de etiquetas de clase [Qui96].
2.4.2
Bagging
Otra tcnica ampliamente utilizada es Bagging (Bootstrap sampling and aggregation) [Qui96, Bre96]. Esta tcnica no utiliza ningn tipo de ponderacin de los datos. Cada clasicador del conjunto se obtiene utilizando una muestra aleatoria con repeticin del mismo nmero de ejemplos que el conjunto de datos de entrenamiento (muestra bootstrap). En media, cada muestra contiene el 63,2 % de los datos originales y el resto son instanSantiago Gonzlez Tortosa Optimizacin de procesos de adquisicin de conocimiento en Biologa Computacional
28
cias repetidas. Por tanto, en bagging, cada clasicador se genera con un conjunto reducido de los datos de entrenamiento. Esto signica que los clasicadores individuales son algo peores que los clasicadores construidos con todos los datos. Esta peor capacidad de generalizacin se compensa mediante la combinacin de los clasicadores. Bagging es generalmente ms robusto que Boosting frente a fallos en las asignaciones de etiquetas de clase y generalmente mejora el error del algoritmo base [Qui96, BK99].
2.5
Validacin
Todo proceso data mining (sea predictivo o descriptivo) debe ser validado de alguna manera para poder se evaluado y comparado, con el n de evitar la obtencin de conclusiones o conocimientos incorrectos. Esta necesidad la cubre el proceso de validacin [HK00], el cual se encarga de evaluar cul sera la calidad de los modelos data mining al contrastarlos con otros datos. Existen varios enfoques a la hora de evaluar la calidad y las caractersticas de un modelo de minera de datos: El primero incluye el uso de varias medidas de validacin estadstica para determinar si existen problemas en los datos o en el modelo. En segundo lugar, se podra separar los datos en conjuntos de entrenamiento y validacin, con el n de probar la precisin de predicciones. Por otro lado, los mecanismos de validacin permiten comparar resultados entre estudios del mismo area. Finalmente, los expertos del entorno del proyecto analizan los resultados de los modelos para determinar si los patrones detectados tienen sentido en un escenario concreto. Todos estos mtodos son tiles para la metodologa data mining y se utilizan de forma iterativa a la hora de crear, probar y renar modelos para responder a un problema concreto.
2.5.1
Validacin supervisada
La validacin supervisada se encarga de comprobar y evaluar los modelos de aprendizaje supervisados utilizados en distintos conjuntos de datos. Para ello se plantea, en primer lugar, las distintas medidas de validacin que se usan, y a continuacin se describen los mtodos de validacin supervisada existentes. Existen distintas medidas de validacin que miden diferentes caractersticas del modelo clasicador, como puedan ser la discriminacin y la calibracin [MOMR05, RBL+ 08a, BBC+ 00]. Dichas medidas son PBC, rea bajo la Curva ROC (AUC), Maximum Log Likehood, Hosmer-Lemershow, Brier Score, etc. Una de las
2.5. VALIDACIN
29
medidas ms fciles de interpretar es PBC (Porcentaje de Bien Clasicados) o Hit Ratio. Dicha medida nos indica hasta qu punto el modelo pone en correlacin un resultado obtenido con los resultados que se nos han proporcionado.
2.5.1.1 Holdout Cuando existe una cantidad limitada de datos de entrenamiento y prueba [BND04], puede aplicarse el Mtodo de Retencin (Holdout) para estimar la proporcin de error [WF05]. Este mtodo reserva una cierta cantidad de datos al azar para prueba y utiliza el resto para el entrenamiento. En general, se reserva un tercio para prueba y se utilizan dos tercios como datos de entrenamiento. Formalmente se tiene Dh como el conjunto de validacin, un subconjunto de D de tamao Nh , y Dt denido por D\Dh como el conjunto de aprendizaje siendo Nt = N Nh . La estimacin de la distribucin del mtodo holdout viene denida como,
acch =
1 Nh
(x(i) ,c(i) )Dh
(I (Dt , x(i) ), c(i) )
(2.1)
donde (l, k) = 1 si l = k y 0 en otro caso. Por supuesto, siempre cabe la posibilidad de que los datos utilizados para entrenamiento y prueba no sean representativos de los datos sobre los que se utilizara el modelo posteriormente. En general, no se puede armar si un conjunto es representativo o no, pero existe una prueba muy simple que vale la pena realizar: cada una de las clases del conjunto total de datos debera estar representada en la misma proporcin en los datos de entrenamiento y prueba. Esta proporcin debera ser similar a la que se presentara cuando se aplique el modelo generado al caso real. Si se supone que todos los ejemplos de una clase determinada no entran en el conjunto de entrenamiento, el clasicador generado ser incorrecto. Al trabajar con la hiptesis del Universo Cerrado [Wik10b], no se puede pretender que clasique correctamente los miembros de una clase que no saba que exista. Si en el conjunto de validacin hay datos de esa clase, la proporcin de error obtenida sera alta. Por tanto, al dividir al azar los datos pre-clasicados entre los conjuntos de entrenamiento y prueba, se debe garantizar que cada clase este correctamente representada tanto en los datos de prueba como en los de entrenamiento. Este procedimiento se conoce como estraticacin (stratication), y se puede hablar de una Retencin Estraticada (Stratied Holdhout). Una manera de evitar la tendencia introducida por los datos retenidos, es repetir el proceso completo (entrenamiento y prueba) varias veces con distintas divisiones de los datos. En cada iteracin, proporcionalmente, una parte de los datos se utilizan para la validacin, y el resto de los datos se utiliza para el aprendizaje. Las proporciones de error obtenidas en las mltiples iteraciones se promedian para obtener una proporcin de error general. Este mtodo se conoce como Retencin Repetida (Repeated Holdout).
30
2.5.1.2 Cross-Validation, leave-one-out y stratication En un procedimiento de retencin general se podra elegir cambiar los roles de los datos de entrenamiento y de prueba entre s. No obstante, esto es factible nicamente si se trabaja con una proporcin 50/50, lo cual no es ideal ya que conviene utilizar mas del 50 % de los datos para el entrenamiento. Para solucionar este problema se utiliza una variacin del mtodo estadstico de Validacin Cruzada (Cross-Validation). Formalmente, la estimacin de la prediccin del Cross-Validation es, 1 k N t=1
acccv =
(x(i) ,c(i) )Dt
(I (D\Dt , x(i) ), c(i) ).
(2.2)
En la validacin cruzada, se determina con anterioridad una cierta cantidad de particiones de los datos. Si se supone que los datos se dividen al azar en tres particiones de aproximadamente la misma cantidad, y cada una a su turno se utiliza para prueba mientras que las otras dos se utilizan para entrenamiento. Por lo tanto, se utiliza un tercio para prueba y dos tercios para entrenamiento, y se repite el procedimiento tres veces. Las tres proporciones de error obtenidas se promedian para llegar a una proporcin de error general. Este procedimiento conocido como validacin cruzada de tres divisiones (3 fold cross validation), puede trabajar con datos estraticados, en cuyo caso se tendra una validacin cruzada de tres divisiones estraticada. Se puede generalizar el mtodo para llegar a una validacin cruzada de K iteraciones, es decir, K Fold CrossValidation, estraticada o no. Un caso particular del Cross-Validation es elleave-one-out (LOOCV), en el cual el parmetro K viene a ser igual al nmero de instancias N que existen para inducir el modelo nal. De esta forma, los N subconjuntos de validacin estn formados por una nica instancia y los de entrenamiento por los de la cardinalidad del conjunto total menos esa nica instancia que ha sido llevada a la validacin. Por otro lado, el uso de la estraticacin ha mejorado los resultados del Cross-Validation levemente [WF05]. Utilizar una validacin cruzada puede no ser suciente para obtener un buen estimador de la proporcin de error. Distintas validaciones cruzadas dan distintos resultados dado que la divisin se realiza al azar. La estraticacin reduce la variacin entre los resultados pero no la elimina. Si se quiere obtener una estimacin de la proporcin de error muy precisa, generalmente, se repite la validacin cruzada de N divisiones M veces y se promedian los resultados. Esto implica invocar al algoritmo de aprendizaje N M veces con conjuntos de datos del tamao de 1/N del conjunto original. Obtener una buena medida de performance es un mtodo que consume grandes recursos computacionales. A partir de esta variacin de la validacin se llega a la MxN Fold Cross Validation. Estudios recientes [Koh95] determinan que sta validacin es muy buena a la hora de determinar, entre un conjunto de clasicadores seleccionados, cul de ellos resuelve mejor el problema en promedio. El conjunto de datos se divide en N partes. N 1 se dedican a entrenamiento y la parte restante de dedica a validar el modelo aprendido con el clasicador seleccionado. Este procedimiento se realiza M veces y posteriormente se hace un promedio entre los porcentajes obtenidos. 3x7 y 2x5 fold cross validation son las
2.5. VALIDACIN
31
validaciones ms usadas en referencias bibliogrcas.
2.5.1.3 Bootstrap Otro mtodo de validacin muy usado, y aun ms en conjuntos de datos pequeos o con maldicin de dimensionalidad (curse of dimensionality)1 es el 0.632 Bootstrap [ET97]. Este mtodo se basa en el procedimiento estadstico de obtener muestras con sustitucin. En los mtodos anteriores, cuando se tomaba una muestra de los datos de entrenamiento o de prueba, se haca sin reemplazo. Es decir, la misma instancia, una vez seleccionada, no poda seleccionarse nuevamente. La mayora de las tcnicas de aprendizaje pueden, no obstante, utilizar la misma instancia dos veces, y el hecho de repetirse genera una diferencia. La idea del Bootstrap es tomar muestras del conjunto de datos con remplazo para formar un conjunto de entrenamiento. Para ello, un conjunto de N instancias se muestrea n veces, con reemplazo, y se obtiene otro conjunto de datos de N instancias. Como algunas instancias del segundo conjunto estarn repetidas, deben existir algunas instancias del conjunto original que no fueron seleccionadas. Se utilizan estas instancias para el conjunto de prueba. La probabilidad de que una instancia particular sea elegida para el conjunto de entrenamiento es de 1 , y, por lo n
1 tanto, hay un 1 n de probabilidad de que no sea elegida. Si se multiplica esto segn las N oportunidades de
ser elegida, se obtiene la siguiente probabilidad de que no sea escogida: (1 1 )n = e 1 = 0,362 n Por tanto, un conjunto de datos lo sucientemente grande contendr un 36.8 % de instancias de prueba y un 63.2 % de entrenamiento. Esta es la razn por la cual este mtodo se conoce como el 0.632 Bootstrap. El error estimado sobre el conjunto de prueba ser pesimista porque el clasicador tiene en cuenta solo el 63 % de los datos del conjunto original, lo cual es poco frente al 90 % de la validacion cruzada de diez divisiones. Para compensar el error del conjunto de entrenamiento se combina con el error en el conjunto de prueba de la siguiente manera:
e = 0,632 E prueba + 0,368 Eentramiento Todo el proceso de Bootstrap se repite varias veces, y todos los estimadores de error se promedian. El mtodo de validacin Bootstrap es el idneo para el campo de la Biologa Computacional [BND04] puesto que los conjuntos de datos sufren lo que comnmente se denomina maldicin de dimensionalidad [Wik10c]. Adems se trata de un mtodo muy negativista, es decir, tiende a ser pesimista y obtiene los resultados ms reales de todos los mtodos de validacin. Es por ello por lo que se aconseja Bootstrap como mtodo de validacin por excelencia.
2.5.2
Validacin no supervisada
El proceso de clustering da lugar a diferentes resultados y depende de muchos factores, entre los cuales est el conjuntos de datos. Pero, incluso actuando sobre el mismo conjunto de datos, se formaran clusters
1 El
conjunto de datos tiene una gran diferencia entre el nmero de atributos frente al nmero de instancias
32
muy distintos si se varan aspectos como el tipo de distancia, el algoritmo, o el tipo de preprocesado elegidos. Por ello, que se sea capaz de realizar una validacin adecuada sobre la relevancia de los resultados es de gran importancia. Algunas de las tcnicas de validacin no supervisada que se utilizan tienen que ver con la comparacin de distintos algoritmos y/o resultados [SMS+ , JTZ04]. Dichas tcnicas son: Comprobacin de la coherencia de los clusters. Se basa en que el resultado del clustering puede ser considerado como able si, por ejemplo, la distancia entre los elementos de un mismo cluster es pequea o si la distancia media de cada cluster con los dems es signicante. Esta tcnica se suele basar normalmente en ciertas medidas o ndices, que ms adelante se comentarn. FOM (Figure of Merit). Es una metodologa que permite comparaciones entre resultados obtenidos con distintos algoritmos de clustering. Se basa en aplicar el algoritmo de clustering a todas las variables salvo a una. Si el algoritmo acta bien, supuestamente si cogemos los elementos de cierto cluster resultante, estos presentarn una alta coherencia en la variable que se dej fuera de las ejecuciones. Anlisis de sensibilidad. Es ampliamente utilizado para los casos en los que se trabaja con datos de microarrays. Se basan en el estudio de la abilidad con la que un elemento pertenece a cierto cluster. El proceso que se realiza es el de aadido articial de ruido a la muestra original, para ver si el elemento sigue perteneciendo al mismo cluster si se vuelve a ejecutar el algoritmo sobre la muestra con ruido. Si la respuesta es armativa el elemento estaba bien clasicado, ya que pequeas variaciones articiales en los datos no deberan afectar al comportamiento global del algoritmo. Uso de distintos algoritmos. Se basa en la comparacin de distintas ejecuciones de los mismos datos con distintos algoritmos de clustering y bajo parmetros distintos. Si los algoritmos estn correctamente implementados supuestamente se debera encontrar una distribucin no muy divergente en los resultados. Enriquecimiento mediante categoras funcionales. Tambin utilizado especialmente en el trabajo con datos de microarrays. La idea es comparar los resultados del clustering con esquemas que ya existen en los que se reeja informacin sobre la propiedades biolgicas o funcionales de los genes o elementos sobre los que se ha realizado la clasicacin, ya que si ciertos elementos se encuentran en el mismo cluster ser porque sus caractersticas biolgicas o funcionales sean similares. Tal y como se ha comentado previamente, la clasicacin no supervisada puede ser evaluada a travs de unas medidas o ndices de calidad objetivas [HGK+ 05] que comprueban como los patrones extrados se acomodan a los datos analizados. Dichas medidas se basan en el uso de propiedades estructurales (por ejemplo, la separacin de los grupos, su homogeneidad, . . . ) o estadsticas de los datos (por ejemplo, distribucin de la densidad, varianza, . . . ). De esta forma, se denen tres criterios de validez en las medidas de calidad en clustering [VHG03]: medidas externas, internas y relativas.
2.6. HERRAMIENTAS DE MINERA DE DATOS
33
Medidas externas. Estn basadas en comparar los resultados de clustering con una clasicacin referencia del conjunto de datos. Sin embargo, las medidas externas no son aplicables en situaciones del mundo real debido a que las clasicaciones referencia no se encuentran normalmente disponibles. Medidas como F-Measure, Rand Index o Jaccard Index son las ms usadas [VHG03] dentro de este tipo. Medidas internas. Estn basadas en evaluar los resultados del clustering usando solamente cantidades y caractersticas inherentes al conjunto de datos. Por ejemplo, en el caso de validar un nico esquema de clustering, el objetivo es encontrar el grado de relacin entre el esquema de clustering y su matriz de proximidad, para lo que se utiliza el estadstico de Hubert [VHG03]. Medidas relativas. Se basan en la comparacin de distintos esquemas del clustering. En este caso se ejecuta varias veces el mismo algoritmo sobre el conjunto de datos pero cambiando sus parmetros de entrada. Estas medidas comparativas se basan en caractersticas inherentes a los clustering obtenidos (por ejemplo, separacin u homogeneidad de los clusters). Por otro lado, se trata de medidas complejas computacionalmente, sensibles a la presencia de ruido y relativas a los modelos de clustering a comparar [VHG03]. Medidas como Dunn, Davies-Bouldin o SDbw son las mas usadas dentro de este tipo.
2.6
Herramientas de minera de datos
Una vez vista toda la taxonoma de las tcnicas de minera de datos existentes hasta el momento, se procede a comentar las herramientas que nos permiten disear, ejecutar y obtener modelos as como validarlos debidamente. En la actualidad existen gran cantidad herramientas para desarrollar minera de datos, algunas de uso restringido (mediante pago de licencias) y otras gratuitas. En el primer grupo se puede hablar de herramientas como SAS [Hel78], SPSS Clementine o PASW [HN09], las cuales permiten, previo pago de sus licencias, realizar todo el proceso completo de minera de datos: desde que se obtiene por primera vez el conjunto de datos hasta que se obtiene un informe de resultados obtenidos. En el segundo grupo existen muchos desarrollos a medida y especcos que ejecutan determinados algoritmos sobre conjuntos de datos de determinado formato. Sin embargo, existen herramientas como Weka, Knime o R-project que proporcionan un conjunto de aplicaciones muy completo, el cual nos permite realizar todo el proceso de minera de datos de forma gratuita. Puesto que el n de la investigacin propuesta es puramente docente, la solucin gratuita encaja perfectamente con la propuesta. WEKA [WF05] es una plataforma con licencia GPL que posee un conjunto de libreras JAVA, en las que se implementan diferentes algoritmos de aprendizaje y herramientas de preprocesado de datos. Hay dos maneras de utilizar la aplicacin: o bien mediante interfaz grca o bien realizando llamadas a los mtodos correspondientes a travs de JAVA. Fue desarrollado en la universidad de Waikato en Nueva Zelanda. Por otro lado R-project [R D08] es un sistema para anlisis estadsticos y grcos creado por Ross Ihaka y Robert Gentleman. R tiene una naturaleza doble de programa y lenguaje de programacin y es considerado
34
como un dialecto del lenguaje S creado por los Laboratorios AT&T Bell. R se distribuye gratuitamente con licencia GPL. Entre otras caractersticas, R contiene una amplia, coherente e integrada coleccin de herramientas para anlisis de datos, posibilidades grcas para anlisis de datos, que funcionan directamente sobre pantalla o impresora. Por ltimo, cabe mencionar la herramienta Knime [BCD+ 07], la cual es una plataforma que permite al usuario crear ujos de datos a travs de nodos. Cada nodo es independiente del resto, por lo que se puede ejecutar por pasos el conjunto total. Incorpora nodos de entrada/salida, preprocesado y limpieza de datos, visualizacin, anlisis y data mining, etc. Es una herramienta muy parecida a SAS Enterprise pero con licencia GPL. Knime fue desarrollado por la Universidad de Konstanz, en Alemania, y actualmente sigue en desarrollo. Est implementado en JAVA, y adems, permite la conexin directa con WEKA y R-project.
Captulo 3
Computacin evolutiva
La Computacin Evolutiva o EC es un campo dentro de la Inteligencia Articial o AI. Este campo cubre una serie de tcnicas de optimizacin que utilizan una serie de modelo evolutivos que se desarrollan de manera iterativa. En general, EC incluye aquellos mecanismos que permiten crear una o ms soluciones candidatas de un problema de evolucin, utilizando cualquier medio, con el objetivo de alcanzar una solucin tan buena como sea posible. El uso de los principios de Darwin para la resolucin de problemas fue introducida simultneamente por tres investigadores en los aos sesenta, cada uno con diferentes enfoques: EP o Programacin Evolutiva, de Lawrence J. Fogel; GA o Algoritmos Genticos, de John H. Holland; ESs o Estrategias de Evolucin, de Peter Bienert, Ingo Rechenberg y Hans-Paul Schwefel. Estas tres reas se desarrollaron por separado durante quince aos. En los aos noventa, la comunidad cientca tuvo en cuenta a los tres como representantes de la misma tecnologa: EC. Durante estos aos un cuarto campo, llamado GP o Programacin Gentica, se hizo popular gracias a John Koza. El principal objetivo de este nuevo paradigma era proporcionar a los computadores aquellas herramientas que permiten desarrollar programas capaces de resolver los diferentes problemas. Hoy en da, el campo de EC ha alcanzado un nivel de desarrollo que ninguno de los investigadores mencionados poda imaginar cuando se propuso por primera vez sus tcnicas de hace cuarenta aos. A continuacin se revisan los enfoques ms representativos entre las tcnicas actuales de evolucin.
36
CAPTULO 3. COMPUTACIN EVOLUTIVA
3.1
Tcnicas evolutivas
Han sido propuestas muchas tcnicas de optimizacin diferentes dentro del campo de EC. Sin embargo, no se ha llegado a proponer todava una clasicacin de las diferentes tcnicas evolutivas. Diferentes autores ofrecen clasicaciones de ciertos algoritmos, teniendo en cuenta diferentes criterios. Aunque otras taxonomas podran ser perfectamente vlidas, se presenta una que engloba las diferentes tcnicas ms usadas: Algoritmos Evolutivos (Evolutionary Algorithms) Programacin Evolutiva (Evolutionary Programming) Algoritmos Genticos (Genetic Algorithms) Estrategias de Evolucin (Evolution Strategies) Programacin Gentica (Genetic Programming) Sistemas clasicadores de aprendizaje (Learning Classier Systems) Algoritmos de Estimacin de Distribuciones (Estimation of Distribution Algorithms) Inteligencia de Enjambre (Swarm Intelligence) Optimizacin de Colonia de Hormigas (Ant Colony Optimization) Optimizacin de Enjambre de Partculas (Particle Swarm Optimization) Otras tcnicas Evolucin Diferencial (Differential Evolution) Algoritmos Culturales (Cultural Algorithms) Sistemas de Inmunidad Articial (Articial Immune Systems) Esta taxonoma pretende separar aquellas tcnicas que presentan un control central de todo el proceso, frente a aquellas que no lo tienen. Tambin intenta separar a aquellas tcnicas donde cada solucin candidata se construye a partir de un conjunto de otras soluciones candidatas, de aquellas cuyos nuevos individuos son creados a partir de modelos probabilsticos sobre soluciones previas. Por otro lado, han sido propuestas otras taxonomas validas por [Fos01], las cuales tienen en cuenta otras caractersticas para clasicar los algoritmos en otras categoras. En las siguientes secciones se van a estudiar en detalle los dos primeros puntos de la taxonoma, que son aquellos de ms inters para esta investigacin. Puesto que existen gran cantidad de algoritmos y modicaciones sobre los mismos, este captulo no tiene intencin de explicar detalladamente todos y cada uno de ellos. En caso de desearlo, se pueden ver en referencias como [Bc95, KES01, LL01].
3.2. ALGORITMOS EVOLUTIVOS
37
3.2
Algoritmos evolutivos
Los algoritmos evolutivos o EA son un subconjunto de EC. EA son meta-heursticas de optimizacin genricas basadas en poblacin que usan mecanismos inspirados en la evolucin natural. En general, EA genera una poblacin de soluciones candidatas para un problema evolucionando a travs de operadores de recombinacin. La calidad de las soluciones candidatas se mide a travs de una funcin tness que evala cmo de bueno es un individuo para este problema en particular. El individuo con mejor valor de tness ser el que mayor probabilidad tenga de ser seleccionado para continuar en la futura fase. Los algoritmos evolutivos basan parte de sus buenos resultados en el balance entre una eciente exploracin y una eciente explotacin cuando se resuelve un problema difcil. La exploracin se reere a la capacidad de alcanzar y analizar diferentes partes del espacio de bsqueda en la poblacin del algoritmo, mientras explotacin se reere a la capacidad de modicacin y combinacin de las soluciones subptimas. La exploracin es til para evitar alcanzar slo ptimos locales mientras que la explotacin se usa para obtener el ptimo global una vez que se ha aproximado a l lo suciente. En las etapas iniciales de la bsqueda, un algoritmo evolutivo debe mostrar una gran diversidad, mientras que al nal la diversidad debe disminuir para conseguir la mejor solucin posible. EA proporciona buenas soluciones a menudo para problemas complejos de diferentes campos. EA se ha aplicado satisfactoriamente a varios campos de ingeniera, fsica, biologa, gentica, etc. Se han propuesto diferentes algoritmos en estas ultimas dcadas. Esta seccin presenta los cuatro mtodos mas relevantes existentes en la literatura, prestando una especial atencin sobre los Algoritmos Genticos GA, vistos con ms detalle en el apartado 3.2.2.
3.2.1
Programacin evolutiva
La programacin evolutiva o EP fue el primero usado por Lawrence J. Fogel en los aos sesenta como parte de un experimento donde se generaba Inteligencia Articial a travs de mecanismos de evolucin simulada. En esta investigacin [Fog62, Fog64] Fogel us una Mquina de Estados Finitos o FSM como individuos para su poblacin. Para evaluar cada individuo FSM, ste era expuesto en una situacin y evaluado de acuerdo con su habilidad de predecir elementos. Los mejores individuos eran preservados para la siguiente generacin y modicados por medio de operadores de mutacin. Los experimentos preliminares fueron extendindose a otras reas como prediccin y clasicacin de series temporales [Wal67], modelando sistemas [Kau67] o juegos [Bur69]. En los aos setenta, las principales investigaciones llevaron su esfuerzo a sistemas de reconocimiento de patrones [Roo70, Cor72]. Fue en la dcada de los ochenta cuando el uso de EP fue extendido al uso de problemas de optimizacin en general [FF89, Fog91]. Fogel propuso nuevos mecanismos de seleccin [Fog88], al igual que tcnicas de propia adaptacin de parmetros [FFA91, FFAF92]. Hoy en da, las diferencias entre las tcnicas EP modernas, GA y GP son mnimas. Ya prcticamente todos
38
los investigadores de este tipo de campos adoptan el termino general EC para denir su trabajo.
3.2.2
Algoritmos Genticos
Los algoritmos genticos o GA son los EA ms tpicos. A pesar de que el primer trabajo de este tipo de algoritmos est fechado a nales de los cincuenta y principios de los sesenta [Bar54, Bar57, Fra57, FB70, Cro73], GA fueron famosos por el trabajo de John H. Holland y sus estudiantes de la Universidad de Michigan y, en particular, por su libro Adaptation in Natural and Articial Systems [Hol75]. Los GA fueron inspirados en el proceso observado en la evolucin natural de los seres vivos. Desde entonces, han sido utilizados y aplicados para resolver problemas complejos en diferentes dominios. Para tratar de mejorar la velocidad de convergencia del algoritmo gentico se puede utilizar la llamada Presin Selectiva, que es aquella que se ejerce cuando, bien en el proceso de seleccin o en el proceso de aceptacin, se utiliza un mtodo basado en el tness como puede ser el de la ruleta (probabilidad de seleccin dependiendo de la aptitud) o el torneo (de un conjunto aleatorio, se selecciona el de mayor aptitud). Es necesario ser cuidadoso con la presin ejercida, puesto que si se aplica tanto en la seleccin como en la aceptacin estamos hablando de Doble Presin Selectiva. Si la presin ejercida es excesiva puede derivar en Convergencia Prematura, el algoritmo converge a un ptimo local no pudiendo salir de l porque todos los individuos de la poblacin estn muy prximos a ste. Esencialmente, los elementos del algoritmo deben ser cuidadosamente elegidos para cumplir las caractersticas de la solucin del problema. Dichos elementos son: Una representacin de la solucin candidata al problema. Cada individuos de la poblacin representa una solucin candidata. Esta representacin es tambin conocida como genoma o cromosoma del individuo. Existen diferentes codicaciones para diferentes problemas. Desde bits, nmeros reales o cadenas de caracteres, hasta ms complejos como rboles, listas, etc. Una medida de calidad para los individuos. Esta medida es conocida como el tness del individuos en un problema especco. Matemticamente, la funcin tness se dene como: f itness : D R, donde D es el dominio en el que se representa el genoma. Por ejemplo, en el tpico problema de seleccin de variables (Feature Subset Selection [LPG+ 07]) la funcin tness se encarga de medir la calidad de un modelo segn las distintas variables seleccionadas. Un operador de cruce, el cual permite combinar la informacin gentica de ancestros para generar uno o ms hijos. Normalmente, se combinan dos padres para generar dos hijos, lo que es conocido como cruce sexual, y matemticamente se dene como: Crossover : D D D D. Un operador de mutacin, el cual modica la informacin gentica de un individuo de una determinada manera. Matemticamente se dene como: Mutation : D D.
39
Un esquema de seleccin que, dado el tness de los individuos, decida qu individuos formarn parte de proceso de reproduccin. La estructura bsica de un algoritmo gentico es la que se presenta en el algoritmo 2: Algoritmo 2 Algoritmo Gentico
1: 2: 3: 4: 5: 6: 7: 8: 9: 10: 11: 12:
Crear solucin inicial de candidatos solucin P0 Evaluar la poblacin inicial P0 while Criterio de parada no obtenido do // Pi convere o bien se realiza el nmero mximo de instancias while se seleccionen individuos de la poblacin Pi do Cruce, segn probabilidad, de los individuos seleccionados para generar otra poblacin nueva Mutar descendientes con cierta probabilidad Evaluar los nuevos individuos Aadir los nuevos individuos a la poblacin Pi end while Combinar las poblaciones Pi y Pi segn un criterio de generacin de Pi+1 Evaluar la poblacin Pi+1 end while La poblacin inicial suele generarse aleatoriamente. Sin embargo, ltimamente se estn utilizando mto-
dos heursticos para generar soluciones iniciales de buena calidad. De hecho, se suelen utilizar mecanismos hbridos, en el que se mezclan mtodos de bsqueda local, para seleccionar la poblacin inicial (o mejorar la solucin nal), con algoritmos genticos. La ventaja de los GA radica en su paralelismo. Un algoritmo gentico viaja por el espacio de bsqueda utilizando varios individuos, lo que hace que les resulte ms difcil quedarse estancados en ptimos locales que a otros mtodos. Adems, dichos algoritmos son bastante sencillos de implementar. Una vez que ya se ha implementado un algoritmo gentico bsico, tan slo es necesario implementar el nuevo cromosoma para resolver otro problema. Si se utiliza la misma codicacin, slo habr que programar la nueva funcin de tness. Sin embargo, para algunos problemas puede ser bastante complicado escoger e implementar la codicacin adecuada o la funcin de tness correcta. La desventaja que presentan los algoritmos genticos es el tiempo de computacin. Los algoritmos genticos pueden resultar ms lentos que otros mtodos, si se evoluciona hasta que alcancen la solucin ptima. No obstante, permitiendo detener la ejecucin en base a ciertos criterios y que hoy en da se puede ejecutar en Supercomputadores, esto no supone una gran desventaja. Es importante tener en cuenta que los algoritmos genticos no son mtodos completos, es decir, no es posible asegurar su convergencia a la mejor solucin.
3.2.2.1 Esquemas de Seleccin Como ya se ha visto los individuos se seleccionan para reproducirse, ahora bien el problema es cmo seleccionar. De acuerdo con la teora de la evolucin de Darwin, slo los mejores individuos se reproducen. Basndose en esto, en las prximas secciones se proponen los mecanismos de seleccin de individuos ms relevantes de la literatura.
40
Seleccion por ruleta Este tipo (The Roulette Wheel Selection method) fue propuesto por K.A. DeJong y es probablemente el mtodo de seleccin que ms frecuentemente se usa[BT95]. Los padres se seleccionan de acuerdo a su tness. Los individuos mejores (con mayor tness) son los que tienen mayores posibilidades de ser elegidos. Intuitivamente el proceso construye una ruleta o una tarta en la que cada una de las porciones representa a un individuo. La porcin de tarta que le toca a cada individuo es proporcional a su tness. As los individuos buenos se llevarn las mayores porciones y al revs ocurrir con los peores. Por tanto, dado un individuo i, si fi es el tness del individuo y N es el tamao de la poblacin, la probabilidad de que ese individuo se seleccione se dene por la ecuacin 3.1: fi N j=1 f j
pi =
(3.1)
La tabla 3.1 presenta un ejemplo de cmo esta probabilidades son calculadas para una poblacin de cinco individuos. Individuo 1 2 3 4 5 Total Fitness 6.82 1.11 8.48 2.57 3.08 22.05 Probabilidad 0.31 0.05 0.38 0.12 0.14 1
Tabla 3.1: Ejemplo de seleccin por Ruleta Comparando esta tcnica de seleccin con la ruleta de un casino, podra ser visto como una poblacin de individuos esparcidos a travs de la ruleta, donde a los individuos con mejor tness se les asigna ms espacio que a otros, de una manera proporcional a su tness. La gura 3.1 presenta grcamente las mismas probabilidades que fueron calculadas en la tabla 3.1. Existe un algoritmo para realizar este proceso: Calcular suma total acumulada de los tness de todos los individuos de la poblacin actual. Elegir un nmero aleatorio entre 0 y la Suma Total. Recorrer la poblacin acumulando nuevamente los tness. Cuando la suma que se lleve sea mayor o igual a r se selecciona el individuo. Seleccin por Ranking El anterior tipo de seleccin funciona mal cuando existan grandes diferencias entre
los tness de los individuos de la poblacin. Por ejemplo, si un cromosoma ocupa el 90 % de la ruleta el resto de los cromosomas tienen muy pocas posibilidades de ser elegidos. La seleccin por ranking da solucin a este problema.
41
Figura 3.1: Probabilidades de individuos segn el selector de Ruleta Los individuos son ordenados de acuerdo a su ranking de tness. De esta manera si tenemos n cromosomas el individuo con peor tness se le asignar un 1 y el que tenga el mejor tness se le asignar la N. Luego, la probabilidad de seleccin se distribuye proporcionalmente de acuerdo al ranking. La ecuacin 3.2 establece como se obtiene esta distribucin: rank( fi )
N(N+1) 2
pi =
(3.2)
La tabla 3.2 presenta un ejemplo de cmo las probabilidades de seleccin podran ser calculadas por los mecanismos de ruleta y ranking en una poblacin de cuatro individuos, donde cada uno tiene un valor tness mucho mayor que los anteriores individuos. La gura 3.2 muestra cmo cambian las distribuciones de probabilidades antes y despus del ranking. Individuo 1 2 3 4 Total Fitness 1 3 7 100 111 Probabilidad 0.01 0.03 0.06 0.9 1 Ranking 1 2 3 4 10 Probabilidad con Ranking 0.1 0.2 0.3 0.4 1
Tabla 3.2: Ejemplo de selector por ranking Ahora todos los cromosomas tienen la oportunidad de ser seleccionados. Sin embargo, este mtodo puede hacer que el gentico evolucione muy lentamente a la solucin, ya que los mejores individuos no se eligen para el cruce muchas ms veces que los peores, lo que ralentiza el proceso de mejora. Una variante de ste es el muestreado estocstico universal, que trata de evitar que los individuos con ms tness copen la poblacin; en vez de dar la vuelta a una ruleta con una ranura, da la vuelta a la ruleta con N ranuras, tantas como la poblacin; de esta forma, la distribucin estadstica de descendientes en la nueva poblacin es ms parecida a la real.
42
20% 6% 3% 1%
1 2 3 4
30%
10%
1 2 3 4
90%
40%
(a) Probabilidad de seleccin con ruleta
(b) Probabilidad de seleccin con ranking
Figura 3.2: Ruleta vs. Ranking
Seleccin por Torneo La idea principal de este mtodo se basa en la seleccin de individuos a travs de comparaciones entre ellos. Existen dos tipos de selecciones por torneo: determinista y probabilista. En la primera de ellas (Determinista), N individuos son seleccionados al azar de la poblacin. El tness de los individuos es comparado y aquel con mayor tness es seleccionado. Cuanto ms alto sea el valor N, mayor presin selectiva se aadir al mecanismo de seleccin, haciendo ms difcil que individuos con un valor tness medio-bajo sea seleccionado para su reproduccin. En el segundo tipo (Probabilista), la diferencia radica en cuantos individuos son seleccionados. En vez de seleccionar siempre al individuos con mejor tness, a cada individuos se le asigna una probabilidad de ser asignado. Normalmente, la probabilidad de seleccionar al mejor individuo en un torneo se encuentra dentro del intervalo (0,5, 1].
3.2.2.2 Operador de Cruce Tratan de crear una generacin de individuos nuevos (offspring) a partir de la informacin de sus ancestros. Aunque estos operadores parecen corresponderse con la representacin basada en precedencia, realizando un estudio ms minucioso se observa que su funcionamiento est inuenciado por otros factores. A continuacin se presenta los operadores de cruce clsicos que aparecen en la literatura.
Cruce en un punto Se copian los genes del primer padre hasta el punto de corte y se rellena con el resto con genes del segundo padre. De esta forma, se generan dos hijos, uno con cada parte (gura 3.3). En algunas codicaciones es necesario aplicar correcciones para comprobar la validez de la solucin.
Cruce en dos puntos Este tipo de cruce es muy similar al previo. Es resultado de la investigacin llevada a cabo por by K.A. DeJong presentado en [BT95] y consiste en copiar los genes del primer padre comprendidos
43
Figura 3.3: Cruce en un punto
entre los dos puntos de cruce y rellenar los que faltan con los del segundo padre considerando la cadena de genes como cclica (gura 3.4).
Figura 3.4: Cruce en dos puntos
Cruce Uniforme
El cruce uniforme fue denido en 1991 por Syswerda [SP91]. En este caso se escoge de
forma aleatoria si el gen i-simo del hijo se toma del primer o del segundo padre. Este cruce no se puede aplicar a representaciones basadas en permutaciones (gura 3.5).
Figura 3.5: Cruce uniforme
Cruce Aritmtico
Se realizan operaciones aritmticas con los genes de los padres para resultar la codi-
cacin gentica del hijo. Como en el caso anterior, no puede aplicarse a la representacin basada en permutaciones (gura 3.6).
Cruce BLX
Este operador fue propuesto por Eshelman y Schaffer en [ES93]. Trabaja dentro del dominio
continuo y su funcionamiento es el siguiente: Dados dos padres x = {x1 , x2 , . . . , xn } y y = {y1 , y2 , . . . , yn }, el

44
0 0 0 0 0 0
Figura 3.6: Cruce aritmtico operador genera una nueva poblacin z = {z1 , z2 , . . . , zn }, en el que cada zi es elegido uniformemente dentro del intervalo [mini I , maxi + I ]. En este contexto, maxi = max{xi , yi }, mini = min{xi , yi } y Ii = maxi mini . La gura 3.7 explica como se calcula cada zi .
I
ai xi
I
yi
I
bi
Figura 3.7: Cruce BLX
3.2.2.3 Operador de Mutacin El operador de mutacin consiste en crear nuevos individuos mediante modicaciones aleatorias a un individuo existente. De esta forma, estas modicaciones, en algunos casos, puede generar mejores individuos. Los prximos apartados presentan un resumen de los operadores de mutacin ms usados en la literatura:
Inversin Simple El operador de mutacin de inversin de genes o SIM, fue propuesto por John H. Holland en 1975 [Hol75]. Consiste en seleccionar uno o varios genes de forma aleatoria e invertir su valor. Se utiliza en representaciones de bits, cambiando 0s por 1s o viceversa. La gura 3.8 muestra un ejemplo de como funciona este operador.
Figura 3.8: Inversin Simple
Mutacin Uniforme Mutacin uniforme UM, o tambin llamado Modicacin de Genes, se suele utilizar con genomas de valores reales. En este operador, se realizan pequeas modicaciones en los genes. Por ejemplo, en una codicacin basada en nmeros reales se realizan sumas de pequeas diferencias positivas o negativas. La gura 3.9 presenta un ejemplo del funcionamiento de este operador.
Figura 3.9: Mutacin uniforme
45
Estos son solo algunos de los operadores de seleccin, cruce y mutacin que ms comnmente se utilizan en el rea de los GA!s. La literatura es bastante rica en este aspecto, es decir, existen muchos otros operadores en dominios tanto discretos como continuos.
3.2.3
Parmetros de entrada
Los parmetros de entrada que necesita un algoritmo gentico son los siguientes: Probabilidad de cruce Indica con qu frecuencia se cruzarn los individuos. Si ste es 0 %, los hijos sern como los padres y slo sern alterados por la mutacin. Si ste es 100 % todos los individuos nuevos sern creados mediante cruce de los padres de la generacin previa. Cuanto ms se crucen los individuos se supone que los hijos sern mejores. Sin embargo, es recomendable, por la naturaleza del algoritmo, que algunos individuos pasen sin modicar a la siguiente generacin. Probabilidad de mutacin Establece la probabilidad con la cual los individuos sern mutados. Si ste porcentaje es 0 % los individuos generados despus de aplicarse el cruce no sufrirn ningn cambio. Por el contrario, si es de 100 %, todos lo individuos de la poblacin sufrirn algn cambio o mutacin. La mutacin trata de impedir que la bsqueda del gentico caiga en ptimos locales por eso es conveniente que ocurra de vez en cuando. No es bueno, sin embargo, que la mutacin tenga una alta probabilidad de ocurrencia, ya que la bsqueda del gentico pasa de ser inteligente a bsqueda aleatoria Tamao de la poblacin Establece cuntos individuos habr en cada una de las generaciones. Si el tamao de la poblacin es muy bajo, el algoritmo gentico tiene poca diversidad y, por tanto, pocas posibilidades de evolucionar por el cruce (los individuos nuevos se parecern mucho a sus padres). Tampoco un tamao excesivo es adecuado porque se llega a un punto en el que los resultados no mejoran por mucho que se incremente el tamao de la poblacin. Lo ideal es, en funcin del problema y la codicacin, establecer un lmite adecuado del tamao de la poblacin. Condicin de nalizacin Se dene las condiciones por las cuales el algoritmo naliza, ya sea el nmero de generaciones o el nivel de convergencia, para conseguir el resultado deseado. Tamao del individuo Depender del nmero de elementos que constituyan una solucin.
3.2.4
Programacin gentica
La programacin gentica o GP es un tipo de EA muy parecido a GA. La principal diferencia entre ambos es la representacin usada para las soluciones de un problema. Mientras que GA suele usar estructuras de datos simples para codicar los individuos (enteros o reales, por ejemplo), GP utiliza representaciones algo mas complejas, rboles en la mayora de los casos, para codicar. Los primeros resultados obtenidos en GP fueron reportados por Stephen F. Smith en la dcada de los ochenta [Smi80]. En 1981, Richard Forsyth realiz pequeos programas evolutivos aplicados a la ciencia forense en
46
la polica de Inglaterra [For81]. Los primeros resultados modernos en GP, es decir, programas organizados en estructuras de rbol, fueron presentados por Nichael L. Cramer en 1985 [Cra85] y Jrgen Schmidhuber en 1987 [Sch87]. Sin embargo, fue John R. Koza quien realmente populariz este tipo de tcnicas en los noventa, aplicndolos a varios problemas de bsqueda y optimizacin [Koz92]. GP, por su diseo, es de computacin elevada. Por este motivo, en esta ltima dcada ha sido usado para problemas de tamao pequeo y/o mediano. En los ltimos aos, gracias a las mejoras realizadas en las tcnicas GP, junto a la mejora de computacin, GP esta siendo aplicada a problemas bastante ms complejos, como por ejemplo diseo electrnico [SBB98, KKS+ 03]. Como se ha comentado previamente, la principal diferencia entre GP y GA es la representacin en forma de rbol para individuos. Sin embargo, los operadores utilizados en GA son adaptados y usados para la recombinacin de individuos en GP. El operador de cruce, por ejemplo, cambia ramas entre padres, para generar nuevos individuos, mientras que el operador de mutacin puede cortar, duplicar, invertir o cambiar dichas ramas.
3.3
Algoritmos de Estimacin de Distribuciones
Los EDAs [LL01, RBL+ 08a] son una consecuencia de los GA. En vez de utilizar operadores de recombinacin para generar nuevas poblaciones, se aprende un modelo probabilstico sobre las soluciones exploradas, generando nuevas soluciones a partir de este modelo. Algoritmo 3 Algoritmos de Estimacin de Distribuciones
1: 2: 3: 4: 5: 6: 7:
Crear poblacin inicial P0 Evaluar poblacin inicial P0 while no acabe do Seleccionar subconjunto de la poblacin actual Pi Pi Estimar la distribucin de probabilidad del subconjunto Pi : pi+1 (x), siendo x Pi Muestrear la distribucin pi+1 (x) para generar Pi+1 end while El esquema general de un EDA puede verse observado en el algoritmo 3. En el paso 5 del algoritmo, es nece-
sario estimar la distribucin de probabilidad pi+1 (x), donde x es un individuos de la poblacin. En general, el genoma de un individuos contiene valores de un conjunto de variables. Por tanto, x = (x1 , x2 , x3 . . . ) y pi+1 (x) = pi+1 (x1 , x2 , x3 . . . ). La complejidad de clculo de la distribucin de probabilidad conjunta (x1 , x2 , x3 . . . ) aumenta, en el peor caso en el que haya dependencia entre todas las variables, exponencialmente dependiendo del nmero de variables de x. Para enviar este coste computacional tan alto, los EDA utilizan un modelo grco probabilstico (PGM). El uso de un PGM reduce el tiempo de cmputo de la distribucin de probabilidad conjunta, utilizando un modelo condicional causal entre las variables, basada en una grco de la causalidad y dependencia. Como resultado de esta suposicin, se calcula una distribucin simplicada como una aproximacin a la distribucin real conjunta. Visualmente, un PGM es un grafo acclico dirigido. Cada nodo del grafo representa una variable y cada
3.3. ALGORITMOS DE ESTIMACIN DE DISTRIBUCIONES
47
arista una dependencia condicional entre variables. La gura 3.10 muestra un ejemplo de un PGM.
Figura 3.10: Ejemplo de un modelo grco para x = (A, B,C, D) Por tanto, para calcular la distribucin de probabilidad conjunta de x = (A, B,C, D) se utiliza la ecuacin 3.3:
p(A, B,C, D) = p(A|B,C, D) p(B|C, D) p(C|D) p(D)
(3.3)
El uso de esta ecuacin involucrara el clculo de quince parmetros. Sin embargo, como indica gura 3.10, se pueden reducir variables por su independencia. Por tanto, el calculo de la distribucin de probabilidad conjunta podra ser simplicada hasta ocho parmetros, tal y como indica la ecuacin 3.4.
p(A, B,C, D) = p(A|C, D) p(B|D) p(C) p(D)
(3.4)
No siempre es posible el uso de PGM, depende del dominio del problema y, por tanto, en la codicacin de las variables de los individuos. Si las variables son discretas, entonces pueden usarse Redes Bayesianas [Pea88]. Sin embargo, si las variables son continuas, pueden usarse las Redes Gausianas [SK89]. Existen algunos problemas en el que se presentan ambos tipos de variables MIBOA [ELZ+ 08].
3.3.1
Aprendizaje con Heursticas
Un aspecto importante de los EDAs es la estructura del PGM, es decir, cmo se obtiene la dependencia entre variables. Sin ningn otro conocimiento del problema, la nica manera de denir estas dependencias es mediante anlisis estadsticos. Este proceso es conocido como aprendizaje de estructura, y existen una serie de mtodos para este propsito. Algunas de las heursticas ms usadas para la fase de aprendizaje de estructura sern presentadas en las siguientes secciones.
3.3.1.1 Modelo de independencias Este es el modelo ms simple, donde se supone independencia entre variables. Desde el mundo de vista del modelo grco, esto signica que el grafo no posee arcos. Por tanto, la distribucin de probabilidad conjunta
48
se dene como el producto de la probabilidad marginal de cada variable, tal y como se aprecia en la ecuacin 3.5.
n
p(x) = p(xi )
i=1
(3.5)
La principal ventaja de este modelo es el coste computacional bajo, pese a que la suposicin de independencia entre todas las variables pudiera generar una aproximacin demasiado simplista para algunos problemas. A continuacin se presentan algunos ejemplos que utilizan este tipo de modelos. En el algoritmo BSC, presentado en [Sys93], a cada valor posible de cada variable se le asigna una probabilidad proporcional al tness de cada individuo en esa generacin. En [Bal94] se propone PBIL. En este algoritmo, se obtiene un vector de probabilidades para cada variable. La probabilidad de cada posible valor de cada variables es actualizada segn la regla Hebbian (usada en Redes de Neuronas). En [HLG99] se presenta otra idea, donde se propone un GA para optimizacin binaria. Este algoritmo mantiene un vector de probabilidad que inicialmente toma el valor de 0,5 en cada variable. Luego, se generan dos individuos y se realiza una competicin entre ellos a nivel de variable. Por cada variable, si el valor de esa variable en el individuo ganador es diferente al del perdedor, el vector de probabilidad se actualiza por un valor constante (se incremente si el ganador tiene el valor uno en esa variable, y se decrementa en caso contrario). Finalmente, el metodo ms conocido es el modelo UMDA [Mh97], que tiene tambin una versin con valores continuos UMDAc [LELP00b]. En esta aproximacin, cada p(xi ) se estima a partir de las frecuencias marginales de cada variable i th de los individuos seleccionados (ecuacin 3.5).
3.3.1.2 Modelo de dependencias de dos variables Un enfoque un poco ms sosticado que el anterior consiste en considerar las dependencias existentes entre dos variables (en pares o de dos variables). Esto implica un buen negocio en trminos de complejidad y eciencia, a lo sumo, una variable puede depender de otra. En el modelo grco, esto signica que solo poda existir, a lo sumo, un arco a partir de cada nodo. Para construir estos modelos grcos, los enfoques Greedy suelen ser usados para aadir arcos que inicialmente no existan. Algunos de los algoritmos ms usados que siguen ese modelo son MIMIC [BIV97], COMIT [BD97] y BMDA [PM99]. Todos estos algoritmos pueden ser usados tanto para datos continuos como discretos.
3.3.1.3 Modelo de dependencias entre mltiples variables Este tipo de algoritmos tiende a generar modelos ms realistas, ya que son ms exibles puesto que permiten ms dependencias entre variables. Su principal inconvenientes es el alto coste computacional en el aprendizaje y obtencin de individuos de este tipo de modelos. Algunos ejemplos de algoritmos con datos discretos son EBNA [LELP00a] y BOA [PGCP99]. En el caso de datos continuos, los mas representativos son EMNA [LL01] y EGNA [LL01].
Captulo 4
Bioinformtica
En la actualidad, se han realizado un gran nmero de experimentos sobre anlisis de datos aplicados a la computacin biolgica, especcamente sobre Microarrays de ADN. Muchos, sino todos, de dichos experimentos tienen una estructura u organizacin en comn, con ms o menos procesos o pasos, dependiendo del enfoque y estudio propuesto. En esta seccin se desea presentar una metodologa genrica para la realizacin de experimentos de anlisis de datos en biologa computacional, que engloba la mayora de experimentos realizados por los investigadores hasta la fecha actual. Dicha metodologa se divide en dos partes, a saber, metodologa biolgica y computacional. Adems, en este captulo se presenta un resumen de los mtodos ms comnmente utilizados en estudios presentados. De esta forma, no solo sirve como revisin del estado actual de la investigaciones sino que tambin se justica cada unos de los procesos propuestos.
4.1
Computacin biolgica y tecnologa de Microarray de ADN
El campo de la Bioinformtica abarca muchos conocimientos acerca de la biologa y la informtica. Aunque la investigacin propuesta trata de Bioinformtica, se debe concretar en qu rea ms exactamente se enfoca dentro del mismo. Por tanto, deben ser aclarados dos conceptos [LCS+ 06] antes de continuar: Bioinformtica se dene como la aplicacin del almacenamiento digital y desarrollo de la computacin y las matemticas para permitir el estudio, anlisis y comprensin de datos para resolver preguntas dentro del
50
CAPTULO 4. BIOINFORMTICA
campo de la Biologa [LGG01, Joy08]. Computacin Biolgica rea dentro de la Bioinformtica donde se engloba el uso de tcnicas computacionales para generar nuevo conocimiento sobre los sistemas biolgicos. Dentro de las aportaciones de las tecnologas de la informacin a la computacin biolgica, la investigacin se centra en las tcnicas de anlisis automtico de los datos y, ms en concreto, en el uso de tcnicas de minera de datos combinadas con tcnicas de optimizacin (entre otras tcnicas) para la obtencin de conocimiento biolgico. La aplicacin de tcnicas data mining a la biologa computacional ha crecido signicativamente en los ltimos aos. La revisin presentada por Pedro Larraaga en 2006 [LCS+ 06] muestra un repaso exhaustivo de las principales aportaciones. Siguiendo la clasicacin sugerida por los autores, la aplicacin de tcnicas de minera de datos (o machine learning) a la Bioinformtica se puede realizar en 6 campos: Genmica o anlisis de secuencias de genes y sus funciones. Protemica o anlisis de secuencias de aminocidos, cidos nucleicos y protenas, as como de su estructura dimensional y funcin. Biologa de sistemas o anlisis de redes de interaccin y pathways metablicos. Evolucin o construccin de rboles lognicos (construidos a partir de ADN). Anlisis de textos, anotaciones y bibliografa biolgica. Anlisis de Microarrays, centrado en el estudio de los datos experimentales. Si se especica el enfoque llevado a cabo en la investigacin, aparece el concepto de anlisis de Microarrays de ADN, es decir, el sexto campo de estudio comentado anteriormente. Se entiende por Microarrays de ADN [Knu02, Qua01, SHT+ 98, HHV03] un conjunto grande de molculas de ADN ordenadas sobre un sustrato slido (denominado biochip), de manera que formen una matriz de secuencias en dos dimensiones. En la actualidad se realizan una serie de fases [Qua06, LW00] en el diseo e implementacin de un experimento de Microarrays de ADN (ver gura 4.1), en el que se han basado la gran mayora de estudios e investigaciones. Se describe, a continuacin, cada una de las fases, comentando tambin lo que realiza Affymetrix (cuyo producto es comnmente usado) en cada fase: Muestra (Probe) En primer lugar, se obtiene la muestra. Se selecciona el organismo, y ciertas partes de ADN del mismo (cADN/oligo con identidad conocida). Creacin del chip (Chip manufacture) Las muestras se colocan sobre una supercie porosa o no porosa. Porosa es aquella en la que las interacciones entre el material a inmovilizar y el soporte slido de inmovilizacin no tienen por lo general un carcter covalente [Hoh06]. El uso de supercies porosas como
4.1. COMPUTACIN BIOLGICA Y TECNOLOGA DE MICROARRAY DE ADN
51
Figura 4.1: Proceso biolgico de anlisis de Microarrays de ADN. Imagen de Gibson & Muse 2002
soporte para inmovilizar cidos nucleicos supone una gran ventaja al ofrecer mayor supercie de unin que los soportes lisos. Una supercie no porosos es aquella en la que el material se encuentra, por lo general, inmovilizado covalentemente a la supercie slida que le sirve de soporte. Dicha supercie puede ser de cristal, silicio, plstico u oro. Las tcnicas para colocar la muestra sobre la supercie son: Fotolitografa, pipeta, drop-touch, piezoelctrica (ink-jet), etc. Preparacin de la muestra (Sample preparation) En esta fase, se preparan las muestras. Los transcriptores de cADN son preparados y etiquetados con uorforos Cy3 y Cy5. Un uorforo es un componente que emite luz va uorescencia. Ensayo (Assay) Toda la informacin se hibridiza (gura 4.2). La hibridacin [Qua06] es el proceso de combinar cidos nucleicos de enlace simple con molculas sueltas del microarray. Marcado (Readout) Un lser de doble canal excita cada uorforo correspondiente, cuya uorescencia es proporcional al grado de hibridacin que se ha realizado. Cada expresin gentica es medida como el ratio de ambas uorescencias. La alta excitacin (up-regulation) del transcriptoma experimental se visualiza como el color rojo, la baja excitacin (down-regulation) se representa con color verde y la expresin neutral como color negro. La intensidad del color es proporcional al diferencial de expresin. Informtica (Informatics) En esta ltima fase se obtienen nuevos valores a partir de las intensidades de uorescencia, utilizando diferentes tcnicas computacionales como el control robtico, procesamiento y tratamientos de la imagen (para denir el tamao de cada expresin gentica) [OML03, Baj05], DBMS, etc. Como se puede comprobar, en esta fase no se incluye ninguna tcnica de anlisis de datos, tal como eliminacin de ruido, duplicacin de datos, etc.
52
Figura 4.2: Proceso de Hibridacin. Imagen de http://universe-review.ca/
Hoy en da, existen varias compaas que crean herramientas para analizar informacin gentica compleja como los Microarrays de ADN. Compaas como Affymetrix [DWWTM06], Celera, Gene Logic y Xenometric, han creado distintas plataformas comerciales para ejecutar experimentos de Microarrays. Cada plataforma obtiene diferentes resultados utilizando diferentes mtodos, no solo uorescencia, sino tambin espectrometra de masas, radioistopos, etc. Dependiendo del tipo de plataforma, se utilizan unos u otros diseos, tipos de normalizacin, mtodos, etc. En la actualidad, el proceso de creacin del biochip es un proceso costoso econmicamente hablando, aproximadamente unos 500 dolares por cada anlisis de este tipo [Cen10]. Es por ello por lo que normalmente se suele hacer el estudio en conjuntos reducidos de pacientes. Generalizando, el estudio de Microarrays de ADN suele moverse en un rango de [50,100] pacientes e informacin de unos [20000,60000] genes por paciente, con que genera un conjunto de datos donde el nmero de atributos supera al nmero de individuos (maldicin de dimensionalidad o curse of dimensionality). Con posterioridad al proceso de creacin de biochip, comienza el proceso informtico, donde las distintas herramientas informticas nos pueden permitir interpretar y analizar los datos obtenidos. Como se puede apreciar en la gura 4.3 [LMV02], existen distintas aplicaciones de Microarrays de ADN. En este caso de estudio, se propone aplicar el anlisis a la caracterizacin del perl gentico de enfermedades.
4.2
Metodologa computacional de anlisis de Microarrays de ADN
Una vez se tienen las intensidades de uorescencia del biochip, se almacena dicha informacin cuantitativamente hablando en formato de chero o base de datos. A partir de ah, se comienza con los procesos
4.2. METODOLOGA COMPUTACIONAL DE ANLISIS DE MICROARRAYS DE ADN
53
Figura 4.3: Aplicaciones de Microarrays de ADN [LMV02]. computacionales de la bioinformtica, esto es, la metodologa que a continuacin se describe. Dicha metodologa engloba, desde que se obtiene el conjunto de datos de la fuente hasta que se obtiene la solucin deseada al problema que plantean los expertos bilogos que trabajan con dicho conjunto de datos. La gura 4.4 representa esta metodologa, donde cada uno de los procesos se comentan a continuacin: Understanding. Es la primera etapa del proceso. Los bilogos expertos proporcionan el conjunto de datos y denen el estudio que estn llevando a cabo. A continuacin, se plantea el problema a intentar solucionar mediante minera de datos. Se comprende dicho problema y se solicita toda la informacin necesaria. Los bilogos proporcionan aquellos conjuntos de datos necesarios para realizar el estudio computacional, ya sea informacin complementaria de las expresiones genticas, informacin clnica de los pacientes o clasicacin del problema que plantean (como pueda ser una clasicacin de enfermedad o de medicamento). Data Survey. Tambin llamado Tratamiento de Daos, es el proceso en el que los conjuntos de datos se preparan para ser estudiados y analizados. Para ello, se utilizan una serie de tcnicas, como pueda ser la normalizacin o la limpieza de ruidos. Este proceso, aunque necesario, no suele ser presentado en las publicaciones de analisis de microarray, puesto que comienzan a partir de conjuntos de datos limpios y normalizados. En el apartado 4.3 se describe esta fase con ms detalle. Selection. Ss el proceso de seleccin y/o eliminacin de atributos o genes del conjunto de datos, una vez
54
Figura 4.4: Proceso Computacional de anlisis de Microarrays de ADN
estn limpios y preparados. En este proceso se eliminan aquellos genes innecesarios y se seleccionan aquellos que ms representen el problema, utilizando para ellos distintas tcnicas de minera de datos. En el apartado 4.4 se decribe esta fase con ms detalle.
Multiestategy Learning. Es el proceso en el cual se obtiene nuevos conocimientos y patrones, a partir de los algoritmos de anlisis de datos, una vez seleccionados (o no) una serie de atributos. En el apartado 4.5 se describe esta fase con ms detalle.
Interpretation. Puesto que el mbito de estudio se trata de un campo ajeno al mundo de las tecnologas de la informacin, y que los resultados a obtener en los procesos pueden llegar a ser de un fuerte impacto social, es necesaria la experiencia de un experto bilogo. Por tanto, en este proceso se intenta que, todas y cada una de las decisiones, pre-procesos, selecciones de variables y decisiones tomadas en el resto de los procesos deben ser aceptadas y seguidas por los expertos bilogos. De ah que en la gura, todos los procesos estn conectados con este proceso.
4.3
Tratamiento de datos
El proceso de tratamiento de datos se encarga de, a partir de los datos numricos obtenidos del biochip, preparar los datos para poder ser tratados y analizados posteriormente por los distintos procesos de seleccin, aprendizaje, etc. Esta tarea incluye (gura 4.4) limpieza de datos o pre-proceso y normalizacin de los mismos. Muchos investigadores no incluyen este proceso en el estudio puesto que es comn el uso de datos previamente pre-procesados a efectos de simplicar la comparacin entre diferentes tcnicas.
4.3. TRATAMIENTO DE DATOS
55
4.3.1
Normalizacin
En los experimentos de biologa computacional hay muchas fuentes de variacin sistemtica, que pueden afectar a las mediciones de los niveles de expresin gentica. Normalizacin [Qua02, SS03, YDL+ 02] es el trmino usado para describir el proceso de eliminar tal variacin. Es decir, se trata de eliminar el impacto del efecto de la tecnologa usada para generar el microarray de los datos obtenidos, como consecuencia de las variaciones biolgicas entre las muestras a comparar. Por lo que, si se desea comparar Microarrays, tambin es necesario eliminar las fuentes de variacin sistemtica en cada uno de ellos. Entre las fuentes de variacin sistemtica estn las siguientes: Diferencias en la eciencia de incorporacin de los dos uorforos. Mal funcionamiento del escner. Diferencias en la potencia de los dos lseres. Diferencias en la cantidad de RNA marcado entre los dos canales. Hibridizacin dispareja. La hibridizacin se produce cuando cuando cadenas complementarias de ADN se aparean para constituir la doble hlice del ADN. Fallos en la impresin. Sesgo en la distribucin de los uorforos a travs de la supercie del microarray. La mayora de los mtodos de normalizacin hacen uso de la siguiente suposicin: El promedio de las relaciones de Cy5/Cy3 para todos los genes es cercano a 1, por lo que el promedio del logaritmo de las relaciones es 0. Es decir, que el gen promedio no cambia su expresin bajo la condicin que est siendo estudiada. Esto es debido a que solo entre el 10 y 20 % de los genes se expresan al mismo tiempo.
Figura 4.5: Representacin esquemtica de la normalizacin respecto a una posible variacin sistemtica Si no hubiese necesidad de normalizar los datos del experimento, al representar en un grco los valores de intensidad de Cy5 contra los valores de intensidad de Cy3, los puntos deberan estar alrededor de una lnea con pendiente 1, tal y como se presenta en la gura 4.5.
56
Existen distintos mtodos para calcular la funcin de normalizacin en biologa computacional, los cuales se dividen en dos tipos:
Figura 4.6: Normalizacin global usando media o mediana
Normalizacin global usando media o mediana, [SS03] donde se supone que las intensidades de los genes muy expresados y muy poco expresados estn relacionadas por un factor constante k. Este factor de normalizacin k se calcula basndose en los genes seleccionados. Una eleccin comn es tomar a c = log2 k como la media o mediana de los logaritmos de las relaciones Cy5/Cy3 y luego se resta este valor c del logaritmo de cada una de las relaciones Cy5/Cy3 para todos los genes. Si se hace un histograma de los logaritmos de las relaciones Cy5/Cy3 se obtiene una distribucin aproximadamente normal. Lo que hace este mtodo es trasladar esta distribucin para que este centrada en cero. Ver gura 4.6. Normalizacin dependiente de la intensidad, donde en este caso se genera una funcin de normalizacin usando los genes seleccionados. Esta funcin depende de la intensidad y generalmente es obtenida ajustando el suavizador no paramtrico LOWESS (Locally Weighted Scatterplot Smoothing) [Qua02] a la grca del logaritmo de las relaciones Cy5/Cy3 frente al promedio de los logaritmos de las intensidades. Este mtodo se puede aplicar en forma global o en cada sector del array. Luego se aplica esta normalizacin a todo el microarray. Ver gura 4.7.
Figura 4.7: Normalizacin Lowess
4.4. SELECCIN
57
4.3.2
Preprocesado
Cuando se trabaja con datos reales, estos suelen tener incorrecciones como informacin redundante, informacin incorrecta o no rellenada, etc. Por tanto, es necesario el uso de algoritmos de preprocesado con el n de limpiar y preparar los datos. Una posible taxonoma sobre los algoritmos de preprocesado ms comnmente usados [Knu02, Dur08, TCS+ 01] es: Replicate handling expresiones genticas o individuos que estn replicados pueden ser descartados del estudio. Missing value handling individuos que poseen ms del 80 % de valores nulos o que no estan rellenados pueden ser descartados del estudio. Imputing expresiones genticas que no poseen valor, pueden ser estimados utilizando distintos algoritmos. El ms usado es el K-weighted nearest neighbor impute [TCS+ 01], el cual se basa en los k vecinos de alrededor (dndoles importancia segun su cercana) para calcular el valor.
4.4
Seleccin
Los conjuntos de datos de este mbito de estudio, una vez pre-procesados, suelen ser un conjunto pequeo de individuos (10-100) con un gran nmero de atributos (expresiones genticas) (20000-60000). Esta extrema asimetra, denominada maldicin de la dimensionalidad (curse of dimensionality), provoca que sea imprescindible el uso de tcnicas de seleccin para reducir la dimensionalidad, debido a que la gran mayora de los algoritmos de anlisis de datos no reaccionan satisfactoriamente con conjuntos de este tipo. El proceso de Seleccin, tambin llamado Feature Subset Selection (FSS) [FAD91, BL97, JKP94], es el encargado de seleccionar aquellos atributos que son signicativos para la clase, es decir, aquellos que mayor informacin aporten con respecto a la clase proporcionada. En un conjunto de datos se pueden apreciar 3 tipos de atributos (gura 4.8): los que son fuertemente relevantes para la clase, los que son dbilmente relevantes para la clase (pero relevantes para otros atributos, es decir, tienen relacin con otros atributos) y los irrelevantes y/o redundantes. La seleccin de atributos es un proceso tan importante en este rea, que a menudo el principal objetivo de los investigadores es obtener aquellos atributos que representen la clase. A estos atributos se les suele denominar Biomarcadores (Biomarkers), esto es, aquellas expresiones genticas que mejor explican el comportamiento de una enfermedad, diagnstico, tratamiento, etc. Saeys [SILn07] proporciona una revisin de FSS en Bioinformatica. Por otro lado, Inza [ILES00] nos comenta que existen dos alternativas a considerar en FSS, las cuales son: Mtodos lter son expresiones matemticas que evalan la calidad de un atributo. Se puede ordenar los atributos utilizando este tipo de mtodos, de tal forma que se puede obtener un ranking y poder quedarse con
58
Figura 4.8: Representacin esquemtica de atributos los N mejores atributos, segn se desee. El apartado 4.4.1 describe este tipo de mtodos. Mtodos wrapper usan algoritmos de aprendizaje para evaluar la calidad de cada atributo. Se aprende un modelo por cada conjunto de expresiones candidatas seleccionadas, utilizando la clase. A continuacin se obtiene una medida de calidad que evala la candidatura de dicha seleccin. El apartado 4.4.2 describe este tipo de mtodos. Comentando las diferencias entre ambos tipos de mtodos, los lter son ms rpidos que los wrapper, y obtienen resultados lo sucientemente buenos en la gran mayora de los casos. Los mtodos wrapper obtiene mejores resultados pero su coste computacional es mayor. Dependiendo del mtodo de optimizacin y de validacin seleccionados, el mtodo wrapper puede llegar a ser ms lento o no. Existen estudios previos [ILBC04, HCEE05] que han realizado una seleccin de atributos a partir de un enfoque hbrido, es decir, usando mtodos lter para reducir el nmero de atributos, y un wrapper para obtener la seleccin nal. De esta forma, el coste computacional del wrapper se ve reducido gracias al lter. No obstante, existen otras tcnicas que ayudan a la eliminacin de ruido y dimensionalidad y que no estn contempladas por Inza [ILBC04]. Dichas tcnicas (reduccin y transformacin) sern descritas en el siguiente apartado.
4.4.1
Reduccin de dimensionalidad
Este sub-proceso permite eliminar aquellos atributos que no proporcionan ninguna informacin. Estos atributos pueden ser de dos tipos: Irrelevantes que son aquellos que no poseen ninguna relacin con la clase. Redundantes que son aquellos atributos que pueden ser deducidos a partir de otros atributos del conjunto de datos. Dichos atributos, si se dejan en el conjunto, no proporcionarn ninguna mejora en modelado nal. Para eliminar estos atributos se pueden utilizar, adems de mtodos lter (ya explicados previamente), mtodos de reduccin y transformacin de dimensionalidad.
4.4. SELECCIN
59
Mtodos lter El clsico mtodo lter se encarga de ltrar atributos a partir de la medida de correlacin entre expresiones genticas y la clase. Otros mtodos lter usado en la literatura son los mtodos estadsticos (Fold Change, ANOVA, SAM, etc.). Cabe sealar que los mtodos lter se pueden usar, no solo para la reduccin de dimensionalidad sino tambin para seleccin de atributos [JHC06]. Mtodos de reduccin y transformacin Este tipo de mtodos se encargan de reducir la dimensionalidad del conjunto de datos, a partir de diferentes transformaciones. De entre todos los algoritmos de reduccin de dimensionalidad [Car97], los ms comnmente usados [LB03, DLR06, GHT07] son Principal Component Analysis (PCA), Partial Least Squares (PLS), Independent Component Analysis (ICA), Lineal Discriminant Analysis (LDA), o el descarte de variables con baja varianza o con baja correlacin de Pearson con la clase. Otros enfoques ms complejos plantean el uso de la Regresin Logstica Penalizada [ST05] o las Redes de Neuronas [HS06]. El principal inconveniente algunas de estas tcnicas es la falta de interpretabilidad por parte de los bilogos. Por ejemplo, usando PCA, se transforman distintas expresiones genticas en un nuevo atributo que es la combinacin lineal de ellas. No obstante, aunque se obtiene una considerable reduccin de la dimensionalidad, la posibilidad de poder interpretar ese nuevo atributo, biolgicamente hablando, se ve muy limitada y a veces es casi imposible. Por tanto, este tipo de mtodos no suelen ser muy recomendados y aceptados por los bilogos expertos.
4.4.2
Seleccin de atributos
Para la seleccin de atributos, podemos tener en cuenta el uso de tcnicas lter y wrapper. Si bien las tcnicas lter no estn diseadas para la propia seleccin, pueden obtener resultados satisfactorios. Los mecanismos wrapper usan algoritmos de aprendizaje para evaluar la calidad de cada atributo. Existen dos principales aspectos que inuyen en el coste computacional de este tipo de tcnicas, los cuales son: el algoritmo de optimizacin podra ser ms o menos exhaustivo. Por ejemplo forward selection, backward elimination, y variantes de estos algoritmos se utilizan como simples tcnicas de hill-climbing para la seleccin de atributos. la robustez del mtodo de validacin usado para evaluar la calidad de los resultados de cada seleccin de candidatos. Esto incluye la medida de validacin a usar, as como el mecanismo de validacin (leaveone-out, cross validation, bootstrap, . . . ). Estos tipos de validaciones se comportan de forma diferente, en trminos de varianza y complejidad. La gran mayora de las tcnicas wrapper se suelen basar en algoritmos greedy debido a su bajo coste computacional y sus buenos resultados por lo general. Especcamente, se pueden especicar cuatro tipos de greedy [Kit78, SPNP99]:
60
Sequential Forward Selection La bsqueda comienza con el conjunto vaco y va aadiendo el mejor atributos en cada iteracin hasta que se cumple una determinada condicin (no mejora, nmero mximo de atributos seleccionados,...).
Sequential Backward Elimination Este mtodo comienza con todos los atributos seleccionados y se va eliminando el peor atributo en cada iteracin. El borrado de atributos para cuando no se puede mejorar ms.
Sequential Floating Forward Selection El algoritmo empieza con un conjunto vaco y se va aadiendo el mejor atributo en cada iteracin (lo mismo que el SFS). Despus de aadir cada variable, se intenta eliminar algn atributo seleccionado previamente (backward step) por si esto mejora la solucin actual.
Sequential Floating Backward Elimination Comienza con todos los atributos seleccionados y se va borrando el peor. Despus de eliminar cada variable, el algoritmo intenta aadir algn atributo que previamente se ha borrado, por si mejora la solucin. Sin embargo, los mtodos wrapper permiten la posibilidad de utilizar mtodos de optimizacin como evolutivos [OT03], EDAs [RBL+ 08b] o incluso hbridos [LPG+ 07] para buscar el mejor conjunto de expresiones que representan a la clase (con un mtodo de aprendizaje especco).
4.5
Aprendizaje Multiestrategia
Una vez han sido tratados los datos y seleccionados los atributos se comienza con el proceso de aprendizaje, con el n de conseguir el objetivo de los bilogos. En l, cada grupo de investigadores ha seleccionado un mecanismo u otro de aprendizaje dependiendo del problema y del objetivo. De forma genrica, todos los mecanismos de aprendizaje se pueden dividir segn dos clases, a saber, descubrimiento de clases (class discovery) o aprendizaje no supervisado y prediccin de clases (class prediction) o aprendizaje supervisado. La gran mayora de las investigaciones se basan en una de los dos tipos de aprendizaje, o bien supervisado o bien no supervisado. Los mecanismos de aprendizaje pueden ser optimizados mediante tcnicas Bagging o Boosting [LH08, DF03, Det04]. Por otro lado, existen varias investigaciones que proponen el uso de aprendizaje semisupervisado, esto es, combinacin de clasicadores supervisados y no supervisados [GBT06]. Un ltimo enfoque, el cual se utiliza en esta investigacin, propone el uso de aprendizaje no supervisado para obtencin de nuevo conocimiento que puede ser utilizado en aprendizaje supervisado. Todos los mecanismos de aprendizaje (sean supervisados o no) han de ser validados debidamente con el n de no obtener resultados incorrectos o confusos (ver apartado 2.5). Por tanto, el compendio que forma el aprendizaje (supervisado y/o no supervisado) con la validacin oportuna es lo que se denomina mtodos multiestrategia.
4.6. VALIDACIN
61
4.5.1
Aprendizaje no supervisado
El primero de ellos, tambin llamado clustering 2.3 o descubrimiento de clases, proporciona la posibilidad de encontrar relaciones entre los distintos grupos de datos, ya sean instancias o atributos, sin tener en cuenta la clase presentada en el propio conjunto de datos (outcome). En la tecnologa de Microarrays de ADN, tanto la clasicacin de genes (atributos) como la clasicacin de pacientes suelen ser carcter de estudio de investigadores, siendo el primero el principal objetivo. La clasicacin suele realizarse utilizando cluster jerrquico, EM, K-Medias, QT, etc. [LCS+ 06, PWC06, SMS+ ] Un aporte que se presenta en esta investigacin es el uso de clasicacin de pacientes como informacin adicional para una posterior clasicacin supervisada, con el n de enriquecer el conocimiento y mejorar los resultados de los modelos de aprendizaje. Otros estudios [DB04, KS02] han utilizado mtodos de aprendizaje no supervisado, como EM o K-Medias, con mecanismos wrapper para realizar una seleccin de atributos (FSS) e identicar relaciones entre diferentes genes. Otras investigaciones [SMDM03] han propuesto el uso de biclustering (genes e individuos simultneamente) para obtener nuevo conocimiento antes desconocido.
4.5.2
Aprendizaje supervisado
El segundo de ellos 2.2, tambin llamado prediccin de clases, trata de estudiar la relacin existente entre los atributos y una clase proporcionada previamente (outcome), como pudiera ser la clasicacin de una enfermedad o de una medicacin. En este caso, se proporciona la clase y se debe intentar generar un modelo que aprenda a partir de los datos iniciales junto con una clase determinada, y que dicho modelo sea capaz de estimar la clases de otros conjuntos de datos. Se trata, pues, de un aprendizaje a partir de datos a priori. Normalmente en este proceso se suele usar mtodos de aprendizaje supervisado. Larraaga [LCS+ 06] nos comenta aquellos mtodos de clasicacin ms usados en Bioinformtica, como SVM, KNN, C4.5, Regresin Logstica, Nive Bayes, etc. Sin embargo, a veces este proceso puede ser ms complicado que un simple mtodo de aprendizaje supervisado. Al igual que en el proceso de Aprendizaje no supervisado, varios investigadores han utilizando mecanismos wrapper con mtodos de clasicacin supervisada [CCL08], como Regresin Logstica [WVOM04, SK03], KNN, C4.5 y Nive Bayes [ILBC04], para realizar seleccin de atributos (FSS). Incluso, es ms, varios autores han utilizado tcnicas de optimizacin, como algoritmos genticos [OT03], EDAs [RBL+ 08b], o algoritmos hibridos (genticos + EDAs) [LPG+ 07], como mecanismos wrapper junto a clasicadores supervisados.
4.6
Validacin
La validacin [HK00] (seccin 2.5) es el proceso de evaluar cul sera el rendimiento de los modelos de minera de datos con informacin real. Es importante validar los modelos de minera sobre su calidad y sus
62
caractersticas antes de atribuirle a un modelo en cuestin propiedades que en realidad puede no tener. Toda tarea supervisada o no supervisada debe estar validada externamente. En el caso de Biologa Computacional, la validacin se basa en los siguientes aspectos: Data mining Uso de tcnicas de validacin y conjuntos de datos ajenos al aprendizaje. Para clasicacin supervisada, las tcnicas 10-fold cross validation y 0.632 Bootstrap son los ms usados [BND]. Para la clasicacin no supervisada, la literatura no presenta claramente un uso de tcnicas de minera de datos. Por lo que, para validarlo utilizan tcnicas de comparacin bibliogrca o a los propios bilogos. Biolgica Por un lado, los expertos bilogos y mdicos han de interpretar y validar los resultados obtenidos en el proceso completo. Puesto que se trata de investigaciones sobre diagnostico de enfermedades, estudios de nuevos frmacos, etc, es de vital importancia poseer una validacin a este nivel. Por otro lado, estos expertos se pueden basar en la literatura, ya sea para comparar los resultados obtenidos con los publicados en las mismas areas, o bien para obtener informacin gentica a traves de bases de datos genmicas, como por ejemplo GO (Gene Ontology), GeneCards, KEGG (Kyoto Encyclopedia of Genes and Genomes), etc. Es importante destacar que, en reas de investigacin con alto impacto social (como diagnstico de enfermedades), es necesario poseer un mecanismo de validacin lo sucientemente robusto como para que se acepten los resultados obtenidos en el anlisis de microarrays de ADN. Es por ello por lo que el proceso de validacin es el proceso ms importante de toda la metodologa computacional.
Parte III
PLANTEAMIENTO DEL PROBLEMA Y SOLUCIN
Captulo 5
CliDaPa: Clinical Data Partitioning
El uso de datos clnicos como mtodo de diagnstico de enfermedades, tratamientos, etc. ha sido histricamente la tcnica empleada en medicina desde siempre. Sin embargo, con la aparicin de nuevos tipos de informacin, como las expresiones genticas, los estudios fueron reenfocados hacia esa nueva informacin [Wil08, Dow04], llegando a obtener nuevo conocimiento desconocido hasta ese momento. En la actualidad, la literatura ocasionalmente se basa en la combinacin de ambas fuentes de informacin [FTBS+ 04, GST+ 06, DGDM07] pero, por lo general, se basa en el uso de una de ellas solamente. La combinacin de dos fuentes de informacin (clnica y gentica) puede proporcionar ventajas signicativas: Por un lado, se posee el conocimiento sobre el comportamiento del cuerpo humano ante enfermedades (historial clnico). Cada cuerpo humano puede reaccionar de manera diferente ante una enfermedad, o bien, un enfermedad especca puede atacar a una serie de pacientes con una serie de caractersticas comunes. Por otro lado, se posee informacin sobre la generacin de proteinas segn la afectacin de los distintos genes en el momento de actuacin de las distintas enfermedades. Ambas ventajas no se han explotado a la vez a da de hoy, puesto que no exista un mecanismo de combinacin lo sucientemente potente. Por tanto, el estudio presente propone combinar la informacin clnica de pacientes junto con su informacin gentica, con el n de explotar ambas ventajas al maximo, optimizando los resultados frente a la literatura. Dicho enfoque se presenta en este captulo, y se denomina CliDaPa. En primer lugar se realiza una presentacin sobre los anlisis tradicionales que se realizan hoy en da. A continuacin, se presenta la idea original del algoritmo CliDaPa, dividindolo en dos fases. Despues, se preSantiago Gonzlez Tortosa Optimizacin de procesos de adquisicin de conocimiento en Biologa Computacional
66
CAPTULO 5. CLIDAPA: CLINICAL DATA PARTITIONING
sentan las aproximaciones realizadas para la creacin del rbol clnico y se explica el mecanismo de validacin aplicadas a las aproximaciones. Por ltimo, se presenta una aplicacin de dichas aproximaciones a conjuntos de datos reales, se analizan los resultados y el rendimiento de los mismos.
5.1
Anlisis tradicionales de los datos
Actualmente, para el diagnstico de enfermedades, tratamientos, etc. se suelen usar tcnicas de minera de datos aplicadas a informacin gentica. Solo en los casos en los que se disponen de datos clnicos, el estudio se suele enfocar utilizando la combinacin de ambos de forma fusionada (gura 5.1).
Figura 5.1: Anlisis tradicionales de los datos Algunos artculos de investigacin que se basan en ambas fuentes de informacin, demuestran [FTBS+ 04, GST+ 06] que los datos clnicos permiten obtener una mejora frente al uso de microarrays. Por lo tanto, se podra decir que el uso de la unin de ambos conjuntos de datos permite mejorar signicativamente los resultados obtenidos con solo un conjunto de datos [FTBS+ 04, GST+ 06].
5.2
CliDaPa: Nuevo enfoque del uso de los datos
Frente a los anlisis tradicionales que realizan la gran mayora de los investigadores, se propone un mtodo diferente denominado CliDaPa (Clinical Data Partitioning). Dicho mtodo propone la combinacin eciente de dos fuentes de informacin, clnica y gentica con el n de obtener nuevo conocimiento, y as optimizar aun ms los resultados obtenidos en la literatura. La nalidad de CliDaPa es, pues, la de dividir el conjunto de datos de expresiones genticas a partir de una serie de datos clnicos. De esta forma, se obtendrn nuevos subconjuntos de datos, que representarn a distintos tipos de pacientes (segn sus datos clnicos), que podrn ser estudiados de forma separada y especca. El resultado de CliDaPa es la obtencin de una representacin de los datos en forma de rbol (gura 5.2), con el n poder realizar un estudio especco y separado de cada rama del mismo. Cada rama del rbol representar a un subconjunto de los datos que diere del resto por los datos clnicos. Por tanto, el objetivo nal de CliDaPa es dividir los distintos pacientes por comportamiento ante tratamientos, enfermedades, etc. segn sus datos clnicos y as optimizar el estudio al realizar estudios por separado.
5.2. CLIDAPA: NUEVO ENFOQUE DEL USO DE LOS DATOS
67
Figura 5.2: Ejemplo de CliDaPa
Los algoritmos de clasicacin que utiliza CliDaPa son independientes del propio algoritmo, es decir, se puede utilizar cualquier mtodo de clasicacin. El algoritmo se dene en dos fases, a saber: Preprocesado y Construccin del rbol Clnico.
5.2.1
Fase 1: Preprocesado
La primera fase de CliDaPa se denomina Preprocesado (gura 5.3), donde se pre-procesan los datos clnicos, para luego ser utilizados de manera correcta en la generacin del rbol clnico. Esta fase es necesaria debido a que se usan dichos datos clinicos para la divisin del conjunto de datos genticos. Por tanto, se requiere que los datos estn limpios (sin valores nulos) y discretizados correctamente para, a continuacin, realizar la divisin de los datos (fase 2). Por tanto, en primer lugar, es necesario realizar una imputacin de los valores nulos o vacos. A continuacin, se realiza una discretizacin de aquellas variables clnicas que sean continuas, como pueda ser la edad del paciente. Para solucionar la imputacin de valores, se utilizan algoritmos como KNNImpute [TCS+ 01], utilizando para ello los 15 vecinos ms cercanos. Por otro lado, para realizar la discretizacin de datos continuos se utiliza el algoritmo K-Medias 2.2. Como ya se sabe, las discretizaciones, al igual que las clasicaciones no supervisadas, deben ser validadas y respaldadas por un experto en el campo. Sin embargo, normalmente suele ser muy complicado validar las discretizaciones de datos clnicos como la edad, tiempo de medicacin, etc. Por ello, como solucin ptima se utiliza un mecanismo mltiple de discretizacin: se realizan una serie de 5 discretizaciones por cada dato clnico continuo, desde k = 2 hasta k = 6 (gura 5.3). Ser en la siguiente fase del algoritmo donde se decida cual de estas discretizaciones es la correcta.
o o Formamente, sea X1 , .., Xn = G1 , .., Gt ,Clt+1 , ...,Cln el conjunto de atributos, donde n es el nmero de atrib-
utos, Gi una expresin gentica y Clio una variable clnica inicial (continua o discreta). Por otro lado, sea Cli una variable clnica discreta, sin necesidad de discretizar y Cli (k) una variable clinica discretizada donde k = 2.,6, se presenta formalmente el mecanismo de preproceso (gura 5.3:
68
Figura 5.3: Fase I de CliDaPa: Preprocesado
5.2.2
Fase 2: Construccin del rbol clnico
Una vez preprocesados los datos, se procede a realizar la construccin del rbol clnico. De esta forma, se proponen tres enfoques, uno de ellos lter y las otros dos wrapper. La primera de ellas, se basa en la seleccin de variables a a partir de clculos de ganancia de informacin. Las otras dos se basan, correspondientemente, en un algoritmo voraz y un algoritmo gentico. Se debe tener en cuenta que, independientemente del enfoque usado, el mecanismo de construccin del rbol divide el conjunto de datos en subconjuntos ms pequeos. Por tanto, se debe tener especial cuidado en el desarrollo del mismo, deniendo un criterio de parada de construccin del rbol, el cual est basado en el uso de un umbral.
69
El umbral es el mnimo nmero de instancias o individuos que debe haber en un subconjunto para que la divisin sea considerada. Dicha medida se considera punto de parada debido a que, si se aplican tcnicas de anlisis de datos a conjuntos muy pequeos (muy pocos individuos), se puede generar overtting. El sobreajuste u overtting [Wik10f], es un problema que se presenta cuando se clasican muy bien los datos de entrenamiento por su especicidad y luego no se puede generalizar al conjunto de validacin. Es decir, clasica muy bien los datos de entrenamiento (se genera un clasicador muy especco) pero luego no puede ser aplicado a un conjunto de datos externo (por ser demasiado especco). El mecanismo de obtencin del umbral se detalla ms adelante. Otra caracterstica interesante del algoritmo CliDaPa es la posibilidad de dividir el conjunto de datos en subconjuntos, aunque el dato clnico seleccionado no cumpla en todos sus casos con el umbral mnimo. Para explicar esta peculiaridad, se pone un ejemplo: Dado un conjunto de datos D de 30 instancias y un dato clnico Cli con 3 posibles valores 1, 2, 3. Al dividir el conjunto de datos en sus tres posibles valores, obtenemos dos subconjuntos D[Cli = 1] y D[Cli = 2] de 13 instancias cada uno, y otro D[Cli = 3] de 4 instancias. Suponiendo que el umbral sea 5, el subconjunto D[Cli = 3] no cumple la propiedad, por lo que no podra ser dividido. Sin embargo, el resto de subconjuntos podran ser obtenidos sin problema alguno. Por lo que, nalmente se decide dividir el conjunto de datos D por el dato clnico Cli (gura 5.4). Sin embargo, si en el ejemplo ninguno de los subconjuntos creados cumpliera el mnimo umbral, la divisin por el dato clnico se desestimara.
Figura 5.4: Generacin de rbol clnico A continuacin se presentan cada una de las aproximaciones.
5.2.2.1 Enfoque Filter El enfoque lter para la creacin de un rbol se basa en la seleccin de variables a partir de su ganancia de informacin, tal y como se basan otros algoritmos como C4.5. La ganancia de informacin es simplemente la reduccin esperada en la entropa causada al particionar las instancias o individuos de acuerdo a una variable o atributo.
G(Cli ,C) = E(Cli ) E(Cli ,C) La entropa de una variable puede ser considerada como la cantidad de informacin contenida en dicha variable. Suponiendo que una variable Cli tiene k valores v1 , ..., vk , la entropa ser:
70
E(Cli ) = E(p(v1 ), ...p(vk )) =
s=1
p(vs ) log2 p(vs )
Por tanto, para la seleccin de una variable clnica u otra, se tienen en cuenta aquel con mayor ganancia de informacin. El algoritmo ir seleccionando atributos segn el criterio de ganancia para ir dividiendo el conjunto y los sucesivos subconjuntos de datos hasta llegar al criterio de parada. A continuacin se presenta el pseudo-cdigo del enfoque lter: Algoritmo 4 Enfoque Filter
1: 2: 3: 4: 5: 6: 7: 8: 9: 10: 11: 12: 13: 14: 15:
Function Filter(listaCl,Dataset) if listaCl == [] then return Dataset end if listaGananciaCl = sort(obtenerGanancias(listaCl)) clseleccionado = seleccionarMe jorGanancia(listaGananciaCl) if clseleccionado < umbral then return Dataset end if D[clseleccionado = 1], .., D[clseleccionado = k] = dividir(Dataset, clseleccionado ) for all D[clseleccionado = 1], .., D[clseleccionado = k] do res = res Filter(listaCl clseleccionado , D[clseleccionado = j]) end for return res EndFunction
5.2.2.2 Enfoque wrapper: Algoritmo Voraz Este enfoque wrapper consiste en el uso de un Algoritmo Voraz o Greedy [HK00]. Se trata de un algoritmo que procede por pasos. En cada paso del algoritmo, se toma una decisin de la que se est seguro, por lo que las decisiones tomadas nunca se reconsideran y se termina cuando se considera que ha llegado el criterio de parada. En este caso particular, se plantea un algoritmo voraz simple que se encarga de explorar las soluciones obtenidas por todos los posibles datos clnicos, se selecciona el mejor dato clinico y sobre sus divisiones se continua el estudio. La gura 5.5 describe de forma sencilla los pasos del enfoque. A continuacin, se procede a presentar el algoritmo de manera mas detallada, con el n de aclarar la gura anterior: 1. Se aplica un mecanismo de aprendizaje/validacin (Bootstrap) sobre el conjunto de datos D y se obtiene una medida de validacin PBC. 2. Por cada dato clnico Cli usable dentro del conjunto de datos Clinical, se divide el conjunto de datos D en subconjuntos de datos D[Cli = 1], ..., D[Cli = k], cumpliendo el mnimo umbral .
71
Figura 5.5: Algoritmo voraz
3. Se realiza un mecanismo de aprendizaje/validacin (Bootstrap) por cada subconjunto, y se obtiene una medida de validacin promedio PBCi . 4. Se selecciona aquel dato clinico Cli que mejor PBCi posea. 5. Si el valor PBCi es mayor al inicial PBC, se toma la decisin de dividir por dicho dato clnico. En caso negativo, se toma la decisin de no dividir. 6. El dato clinico se divide del conjunto Clinical. Si se trata de un dato clnico discretizado, se eliminan todos los datos clnicos discretizados a partir del original del conjunto Clinical. 7. Por cada subconjunto obtenido D[Cli = j], se repiten los pasos anteriores hasta nalizar por criterio de parada, o bien no haya ms datos clnicos o bien no se pueda dividir por no cumplir el mnimo umbral . Una vez enunciado el algoritmo por pasos, a continuacin se dene formalmente: El umbral es el mismo que el comentado en el apartado anterior, es decir, el mnimo nmero de instancias o individuos permitido para aceptar la divisin.
5.2.2.3 Enfoque wrapper: Algoritmo Gentico Otro enfoque wrapper que se presenta para la creacin del rbol clnico es un algoritmo gentico. Dicha tcnica proporciona una exploracin del espacio ms exhaustiva, a pesar de que su implementacin pueda ser mucho ms costosa en esfuerzo y tiempo. Adems, este algoritmo proporciona ms opciones de creacin de arboles CliDaPa, puesto que permitira retroceder ante un decisin previamente tomada.
72
Algoritmo 5 Enfoque Wrapper: Algoritmo Voraz

1: 2: 3: 4: 5: 6: 7: 8: 9: 10: 11: 12: 13: 14:
PBC = Bootstrap(D) Clinical = Cl1 , ...,Cln for all Cl1 , ...,Cln do PBCi = DivideYValida(D,Cli ) // La funcin DivideYValida se encuentra en 6 listaPBCs = listaPBCs PBCi end for PBCbest = seleccionarMe jorPBC(listaPBCs) if PBCbest > PBC then Dividir D por Clbest = D[Clbest = 1], ..., D[Clbest = t] Clinical = Clinical Clbest Por cada D[Clbest = j], repetir algoritmo else Fin end if
Algoritmo 6 Enfoque Wrapper: Funcion DivideYValida

1: 2: 3: 4: 5: 6: 7: 8: 9:
Function DivideYValida(D,Cli ) D[Cli = 1], ..., D[Cli = t] = divisiones(D,Cli ) // Una divisin no se realiza si numIteraciones < PBCi = 0 for all D[Cli = 1], ..., D[Cli = t] do PBCi + = (Bootstrap(D[Cli = j]) numIteraciones(D[Cli = j])) end for PBCi = PBCi /numIteraciones(D) return PBCi EndFunction
Por otro lado, sera concebible pensar que ciertas divisiones generadas por datos clnicos, no tienen por qu ser interesantes con vista a los clasicadores. Un ejemplo claricar esta idea: Se tienen los datos clinicos discretizados age(2) y age(3), que dividen el conjunto de datos en dos (0 y 1) y tres partes (0, 1 y 2) correspondientemente. Hasta ahora, el analisis se realiza con las 2 y 3 divisiones, segn dato clnico. Pues bien, si se incluyera la posibilidad de analizar casos como age(3) = 0, age(3) = 2 (sin dividir con el valor 1), quizs dicha solucin optimice el resultado, frente al resto de posibles soluciones (gura 5.6).
Figura 5.6: Ejemplo de modelo de rbol con GAs Estos motivos fueron los desencadenantes para plantearse una nueva tcnica de optimizacin que permitiera la creacin de ms modelos de rbol. Lo primero que se debe analizar, pues, es el espacio existente de posibles modelos de rbol que pueden ser soluciones ptimas. Se puede apreciar que, tal y como se plantea el problema,
73
el espacio de posibles soluciones es inmensamente grande. Por lo tanto, se requiere de un algoritmo de optimizacin que, sin recorrerse todo el espacio, sea capaz de obtener un buen resultado en un tiempo ptimo. Es entonces, cuando se plantea el uso de Algoritmos Genticos (GAs) 3.2.2 como algoritmo de optimizacin. Para poder ser aplicado este tipo de algoritmos, es necesarios denir una serie de caractersticas:
5.2.2.4 Representacin del cromosoma En este caso, el cromosoma debe representar el modelo de rbol de CliDaPa, por lo que es necesario representar un arbol. Existen referencias sobre representacin de rboles en GAs [hC09], aunque tambin se recomienda el uso de la programacin gentica [PLM08]. Sin embargo, dada la especicidad del rbol, y las caractersticas del mismo, se propone otra representacin basada en 3 listas, las cuales son:
Una lista de elementos que representan las variables clnicas. Posee tantos valores como variables clnicas pre-procesadas existan. Se debe tener en cuenta que nicamente se incluyen en el estudio las variables clnicas pre-procesadas con K-Medias cuando K = 6, puesto que el propio algoritmo decide si las divisiones se pueden juntar o no. Cada elemento de la lista puede tomar dos valores 0 1 donde 1 signica que la variable clnica que representa esa posicin se usa para dividir el conjunto de datos, y 0 lo contrario.
Una lista de elementos que representan las divisiones. Esta lista contiene tantos valores como posibles divisiones puede crear las distintas variables clnicas. Por lo que, si hay 2 variables clnicas obtenidas a travs de K-Medias, esta lista contiene 2 6divisiones = 12 valores. Cada elemento indica en qu agrupacin va incluida cada divisin de cada dato clnico. As, por ejemplo, dos elementos de la lista que posean el mismo valor signica que estn agrupados formando el mismo subconjunto de divisin.
Una lista de elementos que representan las posiciones. Esta lista contiene tantos elementos como posibles divisiones puede crear las distintas variables clnicas. Como en la lista anterior, si hay 2 variables clnicas obtenidas a travs de K-medias, esta lista contiene 12 elementos. Las posiciones de los elementos de un rbol se pueden representar mediante una lista, tal y como se indica en la gura 5.7. As pues, cada posicin de la lista indica el nmero de la variable clnica que se va a utilizar en ese lugar. Un valor 0 implica que dicha posicin no se va a utilizar.
A continuacin se presenta un ejemplo de un cromosoma de modelo de rbol segn la representacin denida anteriormente (gura 5.7).
74
Figura 5.7: Ejemplo de cromosoma de modelo de rbol
En el ejemplo se presenta gracamente un rbol, donde se realizan una serie de divisiones. Existen cinco variables clinicas pre-procesadas Cl1 , ...Cl5 . En primer lugar, el conjunto de datos D se divide segn el dato clnico Cl3 en dos partes, D1 , D2 . A continuacin se analiza el subconjunto D1 , donde se divide segn el dato clnico Cl1 en tres partes. Despues se analiza el subconjunto D2 , donde se divide segn el dato clnico Cl5 en dos partes, D21 , D22 . Luego se analiza los subconjuntos obtenidos al dividir por Cl1 , los cuales no poseen ms divisiones. El arbol de ejemplo representado es muy sencillo, pues que las divisiones de sus datos clnicos generan subconjuntos diferentes. Para terminar, se analizan los subconjuntos obtenidos al dividir por Cl5 , donde solamente el subconjunto D22 se divide por el dato clnico Cl2 en dos partes. Una vez analizado el rbol, se procede a denir las listas que representan al cromosoma: En primer lugar, la lista de variables clnicas indica las variables que van a ser usadas en el arbol. En este ejemplo, todas las variables salvo Cl4 son usadas para dividir. A continuacin, la lista de divisiones indica como se van a proceder las divisiones. Este ejemplo es muy sencillo, puesto que todas las divisiones de los datos clinicos generan subconjuntos independientes. As,
75
por ejemplo, el dato clnico Cl1 en sus tres divisiones posee 3 valores diferentes, lo que signica que se van a generar divisiones independientes. Para nalizar, la lista de posiciones indica como se va a dividir el arbol. En este ejemplo, se indica que, como se ha comentado anteriormente, primero se dividr por Cl3 , a continuacion cada parte se divide por Cl1 y Cl5 correspondientemente, y luego no se divide ms, salvo el ltimo subconjunto, que se divide por Cl2 .
5.2.2.5 Poblacin inicial Como poblacin inicial, se obtienen una serie de 500 representaciones en rbol a partir de 500 ejecuciones del algoritmo CliDaPa con cualquiera de las otras aproximaciones. Dichas representaciones de rbol fueron transformadas al formato de cromosoma anteriormente citado con el n de comenzar con ellos como poblacin de origen. Se ha seleccionado 500 como tamao inicial de poblacin, as como tamao de poblacin del GA con el n de obtener una gran variedad de representaciones de rbol sin que perjudique demasiado a la eciencia del algoritmo en tiempo.
5.2.2.6 Operadores y criterios de Aceptacin Los operadores de cruce y mutacin han sido desarrollados para el algoritmo. En primer lugar, se decide qu tipo de evolucin va a seguir un cromosoma en particular. La evolucin puede ser de tres tipos, a saber, clnica, de divisiones o de posiciones. La probabilidad de que se ejecuten en cada iteracin uno de estos tres tipos de evoluciones es la misma. Una vez seleccionado el tipo de evolucin, a continuacin se selecciona la evolucin en s, es decir, cruce o mutacin. El operador de cruce [], tal y como se conoce, tratan de crear una generacin de individuos nuevos (offspring) a partir de la informacin de sus ancestros. El tipo de operador de cruce seleccionado para la ocasin es cruce de corte en un punto, en el cual se copian los genes del primer padre hasta el punto de corte y se rellena con el resto con genes del segundo padre. De esta forma, se generan dos hijos, uno con cada parte. En este caso, el cruce se realiza dependiendo del tipo de evolucin (clnica, divisin o posicin). El operador de mutacin [] consiste en crear nuevos individuos mediante modicaciones aleatorias a un individuo existente. En el caso prctico presentado, el operador de mutacin seleccionado es por modicacin gentica, es decir, se realizan pequeas modicaciones en los genes. Al igual que en el caso anterior, la mutacin se realiza en un sitio u otro dependiendo del tipo de evolucin (clnica, divisin o posicin). Como es de esperar, los operadores de cruce y mutacin pueden generar individuos que no sean correctos para la representacin del modelo de rbol. Por este motivo, es necesario una serie de correctores que redenan y corrijan aquellos defectos que se hayan ocasionado en la creacin de dicho individuos. Por tanto, tres correctores han sido desarrollados, uno por cada tipo de evolucin, a saber, corrector clnico, de posicin
76
y de divisin. No obstante, un posible punto dbil es que si se generan muchos individuos invlidos, realmente se estn buscando individuos mediante las correcciones, y no mediante el GA. El problema, pues, se aborda a travs de la correccin aleatoria, lo que permite eliminar el sesgo de generacin de individuos.
5.3
Validacin
En este tipo de investigaciones, donde se trabaja en el diagnostico de enfermedades, se requiere de un proceso robusto de validacin, puesto que sus resultados van a ser aplicados a seres humanos (y es, por tanto, de gran impacto social). Analizando la literatura, el proceso de validacin que se suele aplicar es 10-fold o un Bootstrap. Sin embargo, se desea realizar especial incapie en el proceso de validacin para asegurar que los resultados son correctos. Por tanto, para validar el algoritmo CliDaPa, en sus tres enfoques, y poderlo comparar ecientemente entre s, con los anlisis tradicionales de datos y con otros anlisis, se aplican dos procesos de validacin: interna y externa. Validacin interna se usa para validar internamente el modelo de rbol generado y as poderse comparar con otros modelos de rbol. Esta tcnica se usa en los dos enfoques wrapper (voraz y GA), con el n de optimizar el rbol. No es necesario realizar una validacin interna en el enfoque lter, puesto que no es necesario comparar soluciones entre s, sino que automaticamente se selecciona una solucin por su ganancia de informacin. La validacin interna se basa en una tcnica de validacin 0.632 Bootstrap 2.5.1.3. Como es obvio, esta tcnica solo se utiliza en las ejecuciones del algoritmo CliDaPa. Validacin externa se basa en una validacin MxN Fold Cross Validation, donde se permite cambiar el nmero de divisiones del conjunto de datos N, y el nmero de repeticiones M. Dichos valores se ajustan dependiendo del conjunto de datos. La tcnica de validacin se utiliza en todas las ejecuciones, tanto en tcnicas tradicionales como en CliDaPa. El funcionamiento de la tcnica se describe a continuacin (gura 5.8):
Figura 5.8: Validacin externa
5.3. VALIDACIN
77
PHASE 1 Divisin del conjunto de datos en N folds y obtencin de subconjuntos de aprendizaje y validacin sobre cada divisin. PHASE 2 Aprendizaje, obtencin de modelo y validacin de dicho modelo, de cada parte correspondiente entre aprendizaje y validacin. PHASE 3 Obtencin de medidas de validacin Acci . PHASE 4 Clculo del promedio nal sobre los resultados obtenidos a partir de cada fold realizado. El mecanismo presentado es vlido para cualquier mtodo de aprendizaje. Sin embargo, para poder ser aplicado el algoritmo CliDaPa en sus tres enfoques, es necesario modicar el mecanismo de validacin externo, ampliando el nmero de fases a 5. A continuacin se describe el mecanismo modicado (gura 5.9): PHASE 1 Divisin del conjunto de datos en N folds y obtencin de subconjuntos de aprendizaje y validacin sobre cada divisin. PHASE 2 Ejecucin del algoritmo CliDaPa sobre el subconjunto de aprendizaje y obtencin del modelo de representacin del rbol. PHASE 3 Aplicacin del modelo de rbol obtenido con CliDaPa sobre el subconjunto de datos de aprendizaje y validacin. Divisin de los subconjuntos en tantas partes como indique el rbol. PHASE 4 Aprendizaje, obtencin de modelo y validacin de dicho modelo, de cada parte correspondiente entre aprendizaje y validacin. Obtencin de medidas de validacin Acci j . PHASE 5 Clculo del promedio de la medida de validacin a partir de cada parte. Tambin se realiza el clculo del promedio nal sobre los resultados obtenidos a partir de cada fold realizado. Formalmente se denen Learni y Vali como subconjuntos de datos utilizados para el aprendizaje y validacin respectivamente. Se dene Learni j como subconjunto obtenido al dividir el subconjunto de aprendizaje en las divisiones que indican los datos clnicos. De igual manera ocurre con Vali j en la validacin. Por ultimo, PBCi j representa la medida de validacin obtenida al aplicar el clasicador Modeli j sobre el subconjunto Vali j . Al aplicar el modelo del rbol clnico sobre el conjunto de validacin y realizar las divisiones correspondientes, pueden ocurrir tres posibilidades: Se permite divisin del subconjunto tanto en aprendizaje como en validacin: ste es el caso ms normal, donde se puede obtener un modelo de clasicacin a partir del subconjunto de aprendizaje y ser aplicado al subconjunto de validacin. Se permite divisin del subconjunto en validacin pero no en aprendizaje: Este caso es el ms atpico. No se permite hacer la divisin en aprendizaje (porque no cumpla el mnimo umbral), pero si se produce divisin en la validacin. En estos casos, se realiza un aprendizaje ms generalista: se obtiene un modelo
78
Figura 5.9: Validacin externa de CliDaPa
de aprendizaje sobre el conjunto de datos de aprendizaje padre, y se aplica dicho modelo al subconjunto de validacin. No se permite divisin en el subconjunto de validacin: Este caso a su vez se divide en dos posibilidades, que se permita divisin en aprendizaje o que no se permita. En ambos casos, no se posee divisin en el conjunto de validacin, por lo que no es necesario realizar ninguna operacin. Se debe tener en cuenta que, cuando se obtienen las medidas PBCi j de cada subconjunto de datos de validacin Vali j , la forma de obtener el promedio de dichas medidas tiene en cuenta el nmero de instancias de cada subconjunto de datos de validacin y por lo tanto el nmero de instancias totales de validacin. Es necesario realizar un promedio, utilizando el nmero de instancias, puesto que el tamao de los subconjuntos es pequeo. Por lo que cualquier pequea variacin en el nmero de instancias de los subconjuntos puede generar variaciones. A continuacin se muestra la ecuacin que se utiliza para el clculo: (PBC1 numInst1 ) + (PBC2 numInst2 ) + . . . + (PBCn numInstn ) numInst1 + numInst2 + . . . + numInstn
PBC ponderado =
Estas cinco fases se reiteran M veces, obtenindose un valor promedio y una desviacin estndar sobre todas las ejecuciones. Este mecanismo de validacin presentado es lo sucientemente potente y vlido para poder armar que, si los resultados que se obtienen son positivos, el algoritmo CliDaPa obtiene mejoras sobre las tcnicas de uso tradicionales.
5.4. UMBRAL
79
5.4
Umbral
El umbral (threshold) permite controlar la divisin del conjunto de datos mediante datos clnicos. Si al dividir, un subconjunto generado no cumple el mnimo nmero de individuos indicado por , dicho subconjunto no se realiza. Llegado a este punto, la pregunta que se plantea es: cal es el valor de umbral que se debe seleccionar para la ejecucin de CliDaPa? Queda claro que el valor del umbral depende directamente del conjunto de datos a trabajar, el nmero de instancias y el conjunto de datos clnicos con los que se va a dividir el conjunto. Por otro lado, es lgico que el nmero de instancias de aprendizaje debera ser, al menos, de un valor proporcional al nmero de instancias de validacin para que el modelo de aprendizaje obtenido tenga un mnimo de calidad, por ejemplo el doble del nmero de instancias. Por tanto, puesto que depende del conjunto de datos, lo razonable es realizar un estudio del umbral por cada conjunto de datos a aplicar. Dicho estudio se basa en realizar una serie de ejecuciones del algoritmo CliDaPa utilizando el enfoque wrapper, que es el enfoque que ms overtting puede generar. Se realizan, de esta forma, T ejecuciones de CliDaPa variando el umbral entre X e Y (de 10 en 10), teniendo en cuenta que T =
Y X 10
+ 1.
La eleccin de los valores X e Y , aunque dependen directamente de las caractersticas propias del conjunto de datos, debe generar un rango de posibles valores de umbral que:
deben ser lo sucientemente altos para intentar evitar, en lo posible, el overtting. deben permitir utilizar al menos una variable clnica al principio de la creacin del rbol para dividir el conjunto de datos.
En cuanto al mtodo de clasicacin de CliDaPa, se ha optado por Nave Bayes. La eleccin de este mtodo es debido a que, con pocos individuos en el conjunto de datos, parece ser el mtodo que ms sobreajusta los resultados [Fer06], frente a otros algoritmos como KNN, C4.5, etc. Como conclusiones al valor de umbral a seleccionar, se debe indicar que valores pequeos de puede generar overtting, mientras que valores altos de puede obtener resultados demasiado simples y de poca calidad (puesto que no se realizan divisiones sobre el conjunto de datos), lo que es equivalente al anlisis de datos tradicional.
5.5
Resultados
Una vez denido el algoritmo CliDaPa en sus tres enfoques, se procede a presentar una aplicacin a conjuntos de datos biolgico-mdicos reales. Para ello, primeramente se describen los conjuntos de datos a utilizar. A continuacin, se describen los experimentos a realizar sobre estos datos, para despues presentar los resultados de dichos experimentos y su anlisis.
80
5.5.1
Datasets
Uno de los elementos de trabajo que ms hay que tener en cuenta en este tipo de estudio son los conjuntos de datos que se van a utilizar (datasets). Estos conjuntos de datos tienen dos partes diferenciadas, por un lado la informacin gentica obtenida de los microarrays de ADN, y por otro, la informacin referida a los datos clnicos de los individuos sobre los que se est haciendo el estudio. Los datos clnicos pueden ser aportados a partir de la experiencia de un mdico con preguntas u observaciones simples del individuo y con el anlisis de los resultados de pruebas mdicas diagnsticas. Cabe sealar que es muy complicado conseguir informacin gentica y clnica de un nmero importante de individuos a nivel acadmico. Por lo que, en este caso, se ha tenido el privilegio de poder tratar con tres fuentes de informacin diferentes, es decir, se han manejado tres conjuntos de datos de investigaciones distintas. Dos conjuntos de datos contienen informacin sobre pacientes con cncer de mama y otro sobre pacientes con cncer de cerebro.
5.5.1.1 Dataset de Vant Veer Este conjunto de datos [vtVDvdV+ 02] est compuesto de la informacin sobre 96 pacientes a los que se les ha diagnosticado cncer de mama. Hay informacin gentica y clnica sobre ellos, as como el conocimiento de si han recado en el cncer en el plazo de 5 aos, una vez extirpado el tumor o no (recidiva). Inicialmente, en su origen, esta informacin se encuentra dividida en dos conjuntos de datos. Uno con 77 pacientes, que es el que se usa para el aprendizaje, y otro con 19, que es el que se usa posteriormente para la validacin externa. En este caso se usarn de forma conjunta porque, para una validacin MxN Fold Cross Validation, no es necesario tener un dataset externo para validar. De esta forma, se contar con 98 instancias en total. En cuanto a la informacin gentica, cabe sealar que en el conjunto de datos original exista informacin sobre 25000 genes aproximadamente, pero tras un anlisis estadstico supervisado [vtVDvdV+ 02], los autores identicaron un grupo de 70 genes cuya expresin, en el tumor, tiene una relevancia mucho mayor que el resto. Esta seleccin de 70 genes ha sido aceptada por la FDA (Food and Drug Administration, divisin del Departamento de Salud y Servicios Humanos de los Estados Unidos) [oHHS10b]. Por otro lado, hay siete datos clnicos disponibles en los conjuntos de datos, a saber: Grado La determinacin del grado [INC] de un tumor es un sistema que se usa para clasicar las clulas cancerosas en cuanto a su diferencia de las clulas normales cuando se ven al microscopio y a la rapidez probable de crecimiento y diseminacin del tumor. Se consideran muchos factores al determinar el grado de un tumor, incluyendo la estructura y el patrn de crecimiento de las clulas. Los factores especcos que se usan para determinar el grado de un tumor varan con cada tipo de cncer. El grado de un tumor no debe confundirse con la etapa o fase del cncer. La etapa del cncer se reere a la extensin o gravedad del cncer, basndose en factores como el sitio del tumor primario, el tamao
5.5. RESULTADOS
81
del tumor, el nmero de tumores, etc. En el caso del cncer de mama, el grado histolgico se determina por el mtodo de Scarff-BloomRichardson [HW57] y se clasica en: Grado 1 (bien diferenciado), Grado 2 (moderadamente diferenciado), Grado 3 (pobremente diferenciado) Angioinvasin Si existen sntomas de que el cncer ha invadido los vasos sanguneos, quiere decir que existe Angioinvasin. De esta forma puede propagarse a travs de la circulacin sangunea, y despus crecer en un nuevo foco (metstasis) en tejidos normales de otra parte del cuerpo. Es un dato nominal, ser 1 cuando exista invasin y 0 cuando no. Invasin linfoctica El cncer tambin puede esparcirse a travs del sistema linftico. La circulacin linftica es un sistema de circulacin completa en el cuerpo (algo parecido al sistema circulatorio de la sangre) que drena en varios ganglios linfticos. Cuando la clulas cancerosas entran en esta circulacin linftica, stas pueden viajar a los ganglios linfticos y comenzar nuevos sitios de cncer. Es un dato nominal, ser 1 cuando exista invasin y 0 cuando no. Edad Es la edad del paciente en aos. Es un dato continuo cuyo valor mnimo es 28 y el mximo 54. Dimetro Es el largo de una lnea recta, medido en centmetros, que se extiende desde un extremo de un tumor hasta el otro extremo, pasando por su centro. Es un valor continuo, con un rango desde 9 hasta 45 cm. ERp o Receptores estrognicos son las protenas que se encuentran en el interior de las clulas del tejido reproductor femenino, en algunos otros tipos de tejidos y en algunas clulas cancerosas. El estrgeno hormonal se unir a los receptores dentro de las clulas y puede hacer que las clulas crezcan [INC] es decir, es un potenciador de las clulas cancergenas. Es un dato continuo de 0 a 100. PRp o Receptores progesternicos son las protenas que se encuentran en el interior de las clulas del tejido reproductor femenino, algunos otros tipos de tejidos y algunas clulas cancerosas. La hormona progesterona se une a los receptores del interior de las clulas y puede hacer que las clulas crezcan [INC], de la misma forma que el ERp, puede llegar a potenciar el cncer. Es un dato continuo de 0 a 100. En el apndice A puede verse la lista de los genes seleccionados y los datos clnicos de este conjunto de datos.
5.5.1.2 Dataset de Van de Vijver En este caso, el conjunto de datos [vdVHvV+ 02], contiene la informacin de 295 pacientes a los que se les ha diagnosticado cncer de mama. Dispone de informacin gentica y clnica. Tener un conjunto de datos con un nmero tal de instancias es algo novedoso ya que resulta extrao conseguir la informacin requerida de tantos pacientes fuera de lo que son entornos de empresas farmaceticas.
82
La informacin correspondiente a los genes es la misma que en el conjunto de datos anterior, es decir, son los mismos 70 genes anteriores seleccionados por los investigadores [vdVHvV+ 02] y aprobados por la FDA [oHHS10b]. Sin embargo la informacin de los datos clnicos es diferente. Se tienen tambin siete datos clnicos, que son los siguientes: ESR1 Es el gen asociado con la medicin de los receptores de estrgeno alpha [dC09] en los microarrays de ADN. Nos indica que si hay una pequea mutacin gentica o no, por tanto, toma valor 1 si existe la mutacin y valor 0 en otro caso. NIH Indica el riesgo de los pacientes de cncer segn el criterio de los Institutos Nacionales de la Salud (National Institutes of Health) [oHHS10a], que es un organismo federal de los Estados Unidos que realiza investigacin biomdica en sus propios laboratorios, apoya las investigaciones de cientcos que no forman parte del Gobierno Federal, en universidades, escuelas de medicina, hospitales e instituciones de investigacin de todo el pas y el exterior; ayuda en la capacitacin de los investigadores y promueve la comunicacin de informacin mdica. Toma valor 1 cuando el riesgo es alto y valor 0 cuando es bajo. StGallen En la VI Conferencia de Consenso Internacional sobre el tratamiento primario del Cncer de Mama, en Saint Gallen, Suiza, se deni otro criterio sobre el riesgo de los pacientes a los que se les ha diagnosticado cncer de mama. Esta clasicacin se divide entre, riesgo alto (el atributo toma valor 1), riesgo intermedio (el atributo toma valor 0) y riesgo bajo (el atributo tambin toma valor 0). Posicin de los ndulos Este atributo indica el estado de los ndulos linfocticos del paciente extrado de un informe de patologa. Es exactamente el mismo dato que invasin linfoctica. Toma valor 1 si los ndulos han sido invadidos 0 en otro caso. Intervalo de supervivencia Periodo de tiempo medido en aos que abarca desde la primera fecha de tratamiento hasta la fecha del ltimo seguimiento. Se representa con un nmero real, se tiene en cuenta no solo los aos, si no tambin los meses y los das. El valor mnimo es 0.054757 y el mximo es 18.340862. Es un dato continuo y por tanto tiene que pasar por la etapa de preprocesado antes de la validacin. Intervalo de recidiva Intervalo de tiempo medido en aos que va desde la primera fecha de tratamiento hasta la fecha del ltimo seguimiento, en caso de que todas las caractersticas sean normales, o hasta la fecha en la que se ha vuelto a detectar algn sntoma de recidiva. Es un valor continuo cuyo rango va desde 0.024641 hasta 18.340862 aos. En el apndice A puede verse la lista de los genes y los datos clnicos del conjunto de datos.
5.5.1.3 Dataset de Brain Cancer Los tumores embrionarios del sistema nervioso central [PTG+ 02] conforman un grupo heterogneo de tumores de los que biolgicamente se sabe muy poco, y cuyo diagnstico es bastante controvertido, dado que se basa tan solo en la apariencia morfolgica.
5.5. RESULTADOS
83
Los meduloblastomas (un tipo de tumores embrionarios), son los tumores cerebrales malignos ms comunes en la niez, pero su patogenia (conjunto de mecanismos biolgicos, fsicos y/o qumicos que llevan a la produccin de una enfermedad) es desconocida, y su relacin con otros tumores embrionarios del sistema nervioso central es confusa, por lo que la respuesta de los pacientes a la terapia es difcil de predecir. Debido a estos problemas se decidi desarrollar un sistema de clasicacin que tena por objetivo encontrar patrones en los datos de pacientes de esta enfermedad. El sistema de clasicacin estaba basado en microarrays de ADN. Para el estudio [PTG+ 02] se tomaron muestras a un total de 60 pacientes del Boston Childrens Hospital, 39 supervivientes al meduloblastoma y 21 no supervivientes. Seguidamente se enumeran algunos de los principales datos clnicos del dataset, y en el apndice A podrn observarse la totalidad de los atributos del mismo. Subtipo Indica de qu subtipo de meduloblastoma se est tratando al paciente. Pueden ser de varios tipos: clsico o desmoplstico. El primer de ellos es la variante de meduloblastoma ms corriente y se caracteriza por componerse de clulas redondas con ncleo oval o redondo e hipercromtico. El segundo de ellos, es una variante de Meduloblastoma de consistencia rme, que tiende a encontrarse en zonas superciales y es frecuente en los hemisferios cerebelares y en pacientes de avanzada edad. Sexo Indica de qu sexo es el paciente, si masculino (M - Male), o femenino (F - Female). Edad de diagnstico Indica en aos y meses a qu edad fue diagnosticada la enfermedad. El valor mnimo es 7 meses y el valor mximo es 38 aos y 2 meses. Seguimiento Indica el nmero de meses que lleva en seguimiento el paciente. El valor mnimo es 5 meses y el valor mximo es 130 meses. Quimioterapia Indica qu tipo de quimioterapia se ha usado con el paciente. Existen en el estudio los siguientes tipos de quimioterapia: Vincristina: Conocido anteriormente como leurocristina, es un alcaloide de la planta oreciente de nombre vincapervinca (Catharanthus roseus anteriormente Vinca rosea L.) [Wik10g]. Cisplatino: Es un frmaco que contiene platino (II) en su estructura. Acta inhibiendo la multiplicacin de las clulas tumorales. Forma uniones entre las cadenas de la doble hlice de DNA, provocando interferencias importantes en los procesos de divisin del DNA [dN10]. Cytoxan: Es un medicamento que contiene ciclofosfamida, sustancia que tiene como objetivo destruir las clulas del cncer en todas las fases de la vida de la clula. Tambin se utiliza para tratar enfermedades inamatorias como la artritis reumatoide, la hepatitis (enfermedad del hgado) y otros problemas mdicos [hcoM10a]. Etoposide: Es un inhibidor de la enzima topoisomerasa II. Se suele utilizar en combinacin con otras sustancias [Wik10d].
84
CCNU: Es un medicamento que contiene lomustina, sustancia que tiene como objetivo destruir las clulas del cncer en todas las fases de la vida de la clula [hcoM10b]. Carboplatino: Medicamento introducido en la dcada de 1980 que fue ganando fuerza debido a sus menores efectos secundarios en comparacin con el Cisplatino [Wik10a]. Procarbazine: Es un medicamento contra el que interere con el crecimiento de las clulas del cncer y retrasa su crecimiento y distribucin por el cuerpo [Dru10]. Methotrexate: Es un antimetablico que acta inhibiendo el metabolismo del cido flico de una manera menos agresiva y txica de la que lo hacan sustancias usadas anteriormente [Wik10e]. Thiotepa: Es un miembro de la familia de las drogas de la quimioterapia de agentes alquilantes. La droga trabaja daando el ADN de las clulas, dejando a la clula incapaz de dividirse [Vac10].
5.5.2
Experimentos
En primer lugar, se presenta el estudio del umbral por cada conjunto de datos. Una vez presentado el estudio, se procede a describir cada uno de los experimentos realizados con validacin externa.
5.5.2.1 Estudio del Umbral El estudio del umbral, como se ha comentario anteriormente, utiliza el enfoque wrapper voraz y el algoritmo de clasicacin Nave Bayes. Se denen los lmites del umbral, poniendo como umbral mximo el valor 90, y como valor mnimo el 10, moviendo cada valor umbral de diez en diez. Se considera 90 un valor vlido, puesto que un tamao mayor no es posible para dos de los tres conjuntos de datos. El valor 10 permite dividir el conjunto de datos por el dato clnico discretizado con mayor numero de divisiones. Por tanto, se realizan 90-10/10 + 1 = 10 ejecuciones del algoritmo CliDaPa con 10x10 Fold Cross Validation como mecanismo de validacin. Se debe tener en cuenta que en las 10 ejecuciones, las divisiones de los folds deben ser las mismas, por lo que habr que modicar el algoritmo CliDaPa para contemplar este aspecto. A continuacin, se presentan los resultados obtenidos, en forma de grca, para cada conjunto de datos: Vant Veer. Propio de un conjunto de datos pequeo (96 instancias) nos plantea el tpico problema de overtting. Por lo que el estudio del umbral es realmente necesario. Los resultados obtenidos en la ejecucin se muestran en la gura 5.10. Se puede observar, por un lado, que a partir del umbral 70 en adelante, el valor del Porcentaje de Bien Clasicados (PBC) no vara en sus 10 ejecuciones. Esto nos indica que el resultado siempre es el mismo, lo que supone que de acuerdo al valor del umbral, no se realiza ninguna divisin en el conjunto de datos de inicio. Por otro lado, se observa cierta estabilidad a partir del umbral 40 en adelante. Tambin se observa un mal resultado en el umbral 10 (lo que supone overtting), y poco a poco mejor hasta llegar al umbral 40, donde la variacin es menor. Resumiendo, el valor con menor variacin y mejor resultado es utilizando el umbral 40, por lo que ste es el umbral seleccionado para las ejecuciones.
5.5. RESULTADOS
85
Figura 5.10: Estudio del umbral con el dataset de Vant Veer
Van der Vivjer. Se trata de un conjunto de datos bastante ms grande (295 instancias). Aunque el overtting sea algo ms complicado de que aparezca, puesto que no se conoce el grado de divisin necesaria para obtener un buen resultado, es necesario realizar el estudio igualmente. Los resultados obtenidos en la ejecucin se muestran en la gura 5.11. Se puede observar, en primer lugar, que la grca es totalmente diferente a la anterior. Los resultados son peores a medida que se va aumentando el umbral, cosa que no ocurre en el anterior caso. Adems, los mejores resultados se obtienen con umbrales pequeos. Estos resultados pueden tener sentido al analizar los logs de las ejecuciones. Se observa que existe una serie de datos clnicos que permiten obtener muy buenos resultados al dividir con ellos. El problema es que las divisiones que generan son muy pequeas (menores a 30), por lo que no son aptas si el valor umbral es mayor a 30. De esta forma, a partir del umbral 30 divide con otros datos clnicos, lo cual implica empeorar los resultados. A medida que se amplia el umbral, se utilizan peores datos clnicos a dividir, de ah que los resultados sean peores. Resumiendo, los mejores resultados se obtienen con el umbral 20, por lo que ste es el seleccionado para las ejecuciones. Brain Cancer , al igual que Vant Veer, se trata de un conjunto de datos pequeo (60 instancias), por lo que puede aparecer fcilmente overtting si el valor de umbral no es el correcto. Los resultados obtenidos en la ejecucin del estudio se muestran en la gura 5.12. Dicha gura se parece bastante a la de Vant Veer en comportamiento. Comienza con muy malos resultados (debido al overtting), mejorando poco a poco hasta que se estabiliza en un umbral determinado. Tambin se aprecia que a partir del umbral 60, no es posible realizar ninguna divisin en el conjunto de datos, por ello el resultado siempre es el mismo. Cabe destacar que en el umbral 50 se obtiene peores resultados que el 40, debido a que el dato clnico usado en
86
Figura 5.11: Estudio del umbral con el dataset de Van der Vivjer
el umbral 40 no puede ser aplicado en el umbral 50, y en el 50 se usa otro que obtiene peores resultados. Concluyendo, en este caso se selecciona el umbral 40 para ser usado en las ejecuciones.
Figura 5.12: Estudio del umbral con el dataset de Brain Cancer
5.5. RESULTADOS
87
5.5.2.2 Descripcin de experimentos El objetivo en estos experimentos es poder comparar, con datos reales, el uso de tcnicas de anlisis de datos tradicionales con el algoritmo CliDaPa en sus tres enfoques, y poder comprobar cual es el mejor resultado. As pues, los experimentos se basan en: Anlisis tradicionales sobre tres estudios de conjuntos de datos, a saber, expresiones genticas, datos clnicos, y la combinacin de ambas. Por cada experimento, cada fold es modelado y validado utilizando cada uno de los siguientes clasicadores supervisados: K-NN (K=1), Nave Bayes, C4.5 y Regresin Logstica. Se descart redes de neuronas como clasicador por su lentitud y la complejidad a la hora de comprender su modelado por los bilogos. En total, por tanto, se realizaron 3 (estudios) x 4 (algoritmos de aprendizaje) = 12 experimentos por cada conjunto de datos. Teniendo en cuenta el nmero de conjuntos de datos y las repeticiones, se realizaron un total de 12 x 3 datasets x 10 repeticiones = 360 experimentos. CliDaPa utilizando los tres enfoques: lter, voraz y GA. En estos tres tipos de experimentos, se realizan ejecuciones utilizando los clasicadores K-NN (K=1), Nave Bayes, C4.5 y Regresin Logstica. Por tanto, se denen 3 (aproximaciones) x 4 (algoritmos de aprendizaje) = 12 experimentos por cada conjunto de datos. Teniendo en cuenta el nmero de conjuntos de datos y las repeticiones, se realizaron un total de 12 x 3 datasets x 10 repeticiones = 360 experimentos. En ambos tipos de experimentos se realiza un mecanismo de validacin externa 10x10 fold cross validation. Se debe tener en cuenta que la generacin de dichos folds se ha realizado utilizando mecanismos de estraticacin. Es decir, cada fold contiene, de forma proporcional, el mismo nmero de casos positivos y negativos en la clase con respecto al conjunto original. Esto se ha realizado con el n de que cada fold fuera modelado de una forma parecida. El desarrollo realizado para la posibilidad de ejecutar estos experimentos se ha basado en las siguientes partes: Desarrollo de tcnicas de anlisis de datos tradicionales Orientado a objetos en Java 1.5 con libreras de RProject y WEKA. Desarrollo de CliDaPa En sus tres enfoques. Orientado a objetos en Java 1.5 con libreras de R-Project y WEKA.
5.5.3
Rendimiento
Para la ejecucin de los experimentos se ha utilizado los recursos de Centro de Supercomputacin y Visualizacin de Madrid (CeSViMa). El centro posee el segundo nodo ms importante de la Red Espaola de Supercomputacin, denominado Magerit. Est compuesto por 1.036 nodos eServer BladeCenter JS20, cada uno de los cuales dispone de 2 procesadores PowerPC de 22 GHz (8.8 GFlops) con 4 GB de RAM, as como
88
168 nodos eServer BladeCenter JS21 con 4 procesadores PowerPC 23GHz (9.2 GFlops) con 8GB de RAM y 15 nodos eServer BladeCenter HS22 con 16 procesadores Intel Xeon 2,53GHz con 96GB de RAM. Para su interconexin, se utiliza una red Myrinet de bra ptica de altas prestaciones junto con redes auxiliares Gigabit Ethernet para su control y gestin. El sistema dispone de una capacidad de almacenamiento local de unos 192 TB, proporcionado por 256 discos de 750 GB, que utiliza un sistema distribuido y tolerante a fallos (GPFS). Por otro lado, tambin cuenta con un sistema IBM TS3500 de almacenamiento basado en cintas magnticas con capacidad de 500 TeraBytes. La conexin exterior se realiza a travs de RedIRIS mediante un enlace de 1Gb, estando prevista su ampliacin a 10 Gb segn lo aconseje la demanda. Para optimizar el tiempo de ejecucion de experimentos se opt por utilizar estos recursos. Debido a que ya de por s el las 500 iteraciones del Bootstrap ralentiza la ejecucin de cada experimento, no interesa ejecutarlos secuencialmente. As pues, la ejecucin de los experimentos se realiz en paralelo, a nivel de repeticin de M dentro del MxN fold cross validation. Teniendo en cuenta que se han realizado 24 experimentos (12 de anlisis tradicionales y 12 de CliDaPa) por cada conjunto de datos, y que son tres conjuntos de datos, el nmero de experimentos total asciende a 24x3 = 72 experimentos. Sabiendo que cada experimento internamente se repite 10 veces (M = 10), en total, se realizaron 720 ejecuciones. Por tanto, fue necesario solicitar una tarea de 721 procesadores, uno por cada ejecucin y otro extra para el control de resultados. Los tiempos de cmputo de cada tipo de experimento vari considerablemente dependiendo del tipo. La tabla 5.1 muestra los tiempos medios de cada ejecucin. Experimento Tradicional CliDaPa - Filter CliDaPa - Voraz CliDaPa - GA T. Medio 2,32 min. 43,02 min. 202,66 min. 1839,46 min.
Tabla 5.1: Tiempo medio de ejecucin de experimentos en CeSViMa En una situacin ideal (uso exclusivo del Supercomputador) se podran ejecutar en paralelo las 720 ejecuciones, obteniendo todos los resultados en aproximadamente 2 das. Sin embargo, en la realidad, el equipo es un sistema compartido por mltiples proyectos de investigacin, lo que induce tiempos de espera por recursos. En trmino medio, los resultados se obtuvieron en 3 das, con lo que el uso del sistema introduce una penalizacin de un da de espera. A pesar de la espera, sin lugar a dudas mereci la pena el uso de Magerit puesto que si se hubiera ejecutado en una mquina corriente, en secuencial, los resultados se hubieran obtenido en: ej = 3 datasets 10 ejecuciones 4 algoritmos = 120 ejecuciones (5.1) (5.2) t po = (2, 32 e j 3 estudios) + (43, 02 e j) + (202, 66 e j) + (1839, 46 e j) = 835, 2 + 5162, 4 + 24319, 2 + 220735, 2 = 251052 minutos = 174, 341 das (5.3) (5.4)
5.5. RESULTADOS
89
5.5.4
Resultados y Discusin
A continuacin se presentan los resultados obtenidos en los distintos experimentos que se han realizado. Para dar mayor detalle sobre la ejecucin de los mismos, se presenta en el apndice A la traza de ejecucin de un experimento de CliDaPa.
5.5.4.1 Vant Veer Utilizando el conjunto de datos de Vant Veer, en primer lugar se realizan los experimentos de uso de tcnicas tradicionales, obteniendo los resultados que aparecen en la tabla 5.2. Analizando los resultados, se aprecia que los datos genticos en este caso obtienen mejores resultado que los datos clnicos, por lo que se puede deducir que son ms tiles. Tambin se puede ver que el mejor resultado se ha obtenido con el clasicador Nive Bayes utilizando el conjunto datos gentico, con un valor de 79,68 %, siguindolo de cerca el conjunto comn de ambos, con un valor de 79,16 %. DATOS GENES ALGORITMO NB C4.5 KNN LR NB C4.5 KNN LR NB C4.5 KNN LR MEDIA 79,68 70,83 69,16 69,96 71,87 68,75 57,29 63,54 79,16 69,79 62,5 66,04 DESV 0,71 4,28 1,98 4,07 1,21 2,57 2,51 1,79 0,61 3,88 1,47 3,82
CLINICAL
CLINICAL + GENES
Tabla 5.2: Tcnicas de anlisis tradicionales con Vant Veer Se puede apreciar como, al incorporar la informacin clnica sobre la informacin gentica, se empeoran los resultados levemente frente al uso de Microarrays. Eso quiere decir que, en principio, se descartara el uso de ambas fuenes de informacin. A continuacin, se presentan los resultados obtenidos al ejecutar CliDaPa en sus tres enfoques (tabla 5.3). Al observar los valores de PBC, se puede apreciar que los mejores resultados se obtienen con el enfoque lter, mientras que los otros dos enfoques (parecidos entre s), son algo peores. El mejor resultado se obtiene con el enfoque lter y el mtodo de aprendizaje Nave Bayes, con un valor de 83,96. Al comparar los resultados del enfoque lter con las tcnicas de uso tradicionales, se puede observar una cierta mejora por lo general en todos los algoritmos de aprendizaje (salvo C4.5). Al comparar el estudio Clinical + Genes con los enfoques de CliDaPa, se observa (gura 5.13) como el uso de CliDaPa mejora los resultados frente a la combinacin simple de ambas fuentes de informacin. Por otro lado, cabe destacar que se consigue optimizar el mejor resultado de las tcnicas tradicionales en un
90
ENFOQUE CliDaPa Filter
CliDaPa Voraz
CliDaPa GA
ALGORITMO NB C4.5 KNN LR NB C4.5 KNN LR NB C4.5 KNN LR
MEDIA 83,96 64,06 71,35 68,75 80,73 63,12 67,4 62,6 78,79 62,37 66,78 64,32
DESV 1,57 2,03 2,79 1,96 1,12 4,14 3,47 2,88 2,92 3,01 3,67 4,02
Tabla 5.3: Tcnicas de uso de CliDaPa con Vant Veer
Figura 5.13: Comparacin entre Clinical+Genes y CliDaPa en Vant Veer
4,28 % ms (de 79,68 % a 83,96 %), es decir, estimamos la enfermedad de cuatro pacientes ms de cada 100. Estadsticamente, supone una mejora signicativa segn el contraste de hiptesis de Wilcox [Bau72, HW99], obteniendo un valor menor a 0,01. Por ltimo, si se analizan los resultados obtenidos en el estudio de Vant Veer [vtVDvdV+ 02] (PBC de 83 %), se puede observar que CliDaPa obtiene una mejora de casi un 1 %. Se ha de tener en cuenta que la validacin del estudio no es el mismo. Si se comparan utilizando el mismo mtodo de validacin, se obtiene una mejora de un 14,8 %.
5.5. RESULTADOS
91
5.5.4.2 Van der Vivjer Utilizando el conjunto de datos de Van der Vivjer, en primer lugar se realizan los experimentos de uso de tcnicas tradicionales, obteniendo los resultados que aparecen en la tabla 5.4. Analizando los resultados, se aprecia que en este caso, a diferencia del caso anterior, son los datos clnicos los que obtienen mejores resultados que los datos genticos. Los algoritmos de aprendizaje que mejores resultados se obtiene son KNN y C4.5, con valores de 84,46 % y 84,19 % respectivamente. DATOS GENES ALGORITMO NB C4.5 KNN LR NB C4.5 KNN LR NB C4.5 KNN LR MEDIA 66,78 61,69 64,41 68,13 73,89 84,19 84,46 80,72 70,50 75,93 83,72 82,06 DESV 0,59 3,18 2,34 3,52 0,96 1,28 1,19 1,28 1,17 2,27 1,63 2,11
CLINICAL
CLINICAL + GENES
Tabla 5.4: Tcnicas de anlisis tradicionales con Van der Vivjer Se puede apreciar como, al incorporar la informacin gentica sobre la informacin clnica, se empeoran levemente todos los resultados menos LR frente al uso de solo de informacin clnica. Eso quiere decir que, en principio, se descartara el uso de ambas fuenes de informacin, utilizndose solo la informacin clnica. A continuacin, se presentan los resultados obtenidos al ejecutar el algoritmo CliDaPa en sus tres enfoques (tabla 5.5). Analizando los resultados, se puede observar que en este caso el enfoque voraz es el mejor, seguido por el enfoque lter y, por ultimo, GA. El mejor resultado obtenido es con el algoritmo C4.5 en su enfoque voraz, con un valor de 85,81. ENFOQUE CliDaPa Filter ALGORITMO NB C4.5 KNN LR NB C4.5 KNN LR NB C4.5 KNN LR MEDIA 80,85 85,76 83,22 75,18 82,54 85,81 84,37 82,74 75,97 74,25 84,01 73,25 DESV 0,97 1,12 0,58 0,97 1,03 1,26 0,81 1,97 2,16 2,56 2,14 2,39
CliDaPa Voraz
CliDaPa GA
Tabla 5.5: Tcnicas de uso de CliDaPa con Van der Vivjer
92
Al igual que antes, al comparar los resultados de CliDaPa en su enfoque voraz con las tcnicas de uso tradiciones, se puede apreciar una cierta mejora por lo general en todos los algoritmos de aprendizaje. Al comparar el estudio Clinical + Genes con los enfoques de CliDaPa, se observa (gura 5.14) como el uso de CliDaPa mejora los resultados frente a la combinacin simple de ambas fuentes de informacin.
Figura 5.14: Comparacin entre Clinical+Genes y CliDaPa en Van der Vivjer Por otro lado, se aprecia una mejora de casi 1,5 % sobre el mejor resultado de tcnicas de uso tradicionales (de 84,46 % a 85,81 %), lo que supone que casi dos personas ms de cada 100 se estiman su enfermedad correctamente. Estadsticamente, supone una mejora signicativa segn el contraste de hiptesis de Wilcox [Bau72, HW99], obteniendo un valor menor a 0,01.
5.5.4.3 Brain Cancer Utilizando el conjunto de datos de Brain Cancer, en primer lugar se realizan los experimentos de uso de tcnicas tradicionales, obteniendo los resultados que aparecen en la tabla 5.6. Analizando los resultados, se aprecia que en este caso los datos genticos obtienen mejores resultados que los datos clnicos. El algoritmo que mejores resultados obtiene es KNN con los datos genticos, con un valor de 80,34 %. Se puede apreciar como, al incorporar la informacin clnica sobre la informacin gentica, se empeoran los resultados levemente frente al uso de Microarrays. Eso quiere decir que, en principio, se descartara el uso de ambas fuenes de informacin. Los resultados obtenidos al ejecutar el algoritmo CliDaPa en sus tres enfoques se presenta en la tabla 5.7. En ella se puede apreciar que el mejor enfoque es lter, seguido por los otros dos enfoques (que poseen resultados
5.5. RESULTADOS
93
DATOS GENES
CLINICAL
CLINICAL + GENES
MEDIA 78,33 76,66 80,34 80,03 58,33 69,23 65,32 76,44 65,32 71,7 61,66 75,45
DESV 1,25 3,25 1,19 3,86 1,70 1,30 3,40 2,24 0,82 2,08 2,79 3,51
Tabla 5.6: Tcnicas de anlisis tradicionales con Brain Cancer
parecidos). El mejor resultado se obtiene al ejecutar el algoritmo Nave Bayes en enfoque lter, con un valor de 83,5.
CliDaPa Voraz
CliDaPa GA
MEDIA 83,5 74,16 82,66 81,83 77,33 70,33 80,33 79,16 78,22 73,56 81,34 75,25
DESV 1,79 4,98 2,96 2,66 1,65 3,49 1,72 3,44 2,76 4,12 3,67 3,45
Tabla 5.7: Tcnicas de uso de CliDaPa con Brain Cancer
Al comparar los resultados de CliDaPa en su enfoque lter con las tcnicas de uso tradicionales, se observa una considerable mejora en todos los algoritmos de aprendizaje (salvo C4.5). Al comparar el estudio Clinical + Genes con los enfoques de CliDaPa, se observa (gura 5.15) como el uso de CliDaPa mejora los resultados frente a la combinacin simple de ambas fuentes de informacin. Por otro lado, comparando el mejor resultado de CliDaPa con el mejor resultado de las tcnicas tradicionales, se optimiza en un 3 % (de 80,34 % a 83,5 %), lo que quiere decir que se estima la enfermedad de tres personas mas de cada 100. Estadsticamente, supone una mejora signicativa segn el contraste de hiptesis de Wilcox [Bau72, HW99], obteniendo un valor menor a 0,01.
94
Figura 5.15: Comparacin entre Clinical+Genes y CliDaPa en Brain 5.5.4.4 Conclusiones generales A raz de la presentacin de los resultados obtenidos, tanto en las tcnicas de anlisis tradicionales como en el algoritmo CliDaPa, se pueden extraer las siguientes conclusiones: En trminos generales, queda demostrado que el algoritmo CliDaPa optimiza los resultados y obtiene mejoras signicativas al comparar con las tcnicas de anlisis tradicionales de los datos. Al comparar los mejores resultados (a nivel de conjunto de datos) (gura 5.16) y los tiempos de ejecucin de los tres enfoques de CliDaPa (gura 5.17), se puede apreciar que el enfoque GA no aporta mejoras en los resultados, apreciando un incremento enorme de tiempo al ejecutar este enfoque. Adems, [IR92] nos conrma este comportamiento, donde se reeja que los algoritmos genticos se degradan bajo la maldicin de la dimensionalidad y proporcionan resultados equiparables al Greedy. Por tanto, en adelante se descarta este enfoque debido al coste de tiempo y relevancia de resultados. Aunque no es concluyente, puesto que el nmero de conjuntos de datos con los que se ha aplicado CliDaPa es pequeo, el algoritmo parece tener la tendencia de obtener mejores resultados en el enfoque lter cuando el conjunto de datos es pequeo y peores resultados cuando el conjunto de datos es grande. De forma contraria sucede con el enfoque wrapper, que obtiene mejores resultados cuando el conjunto de datos es grande. A simple vista, parece que el mecanismo de aprendizaje de cada uno de los subconjuntos es demasiado
5.5. RESULTADOS
95
Figura 5.16: Comparacin de resultados de CliDaPa
simple y puede ser mejorado con el n de mejorar aun ms los resultados. Por lo tanto, en las siguientes secciones se propone realizar ciertas mejoras.
Figura 5.17: Comparacin de tiempos de CliDaPa
96
5.6
Mecanismos de mejora
Una vez desarrollado CliDaPa, se plante la mejora del mismo a nivel de aprendizaje. El algoritmo original peca de sencillo cuando se selecciona inicialmente un algoritmo de clasicacin, y se utiliza ste para toda la ejecucin. Las mejoras que se presentan a continuacin, tienen el objetivo de mejorar ese defecto.
5.6.1
Seleccin del mejor clasicador
Existe una dependencia directa entre un algoritmo de clasicacin y el conjunto de datos al que se le aplica. Dependiendo del conjunto de datos, un algoritmo puede realizar mejor clasicacin que otro. Por tanto, aplicndolo a CliDaPa, dependiendo de un subconjunto creado por divisin, un algoritmo de clasicacin puede funcionar mejor que otro. Esta idea es el origen de esta mejora, la cual se basa sencillamente en proponer el mejor mtodo de clasicacin para cada subconjunto de datos creado en CliDaPa. La modicacin de CliDaPa se basa en que, cada vez que se realiza una divisin por un dato clnico, es decir, cuando se crea un subconjunto de datos, se ejecutan todos los mtodos de clasicacin disponibles en la implementacin de CliDaPa. A continuacin, se selecciona aquel algoritmo que mejores resultados obtenga en la validacin interna Bootstrap (mejor PBC). De esta forma, el modelo del rbol es generado de tal forma que, cada rama pueda tener asociado un mtodo de clasicacin diferente. El modelo del rbol obtenido en CliDaPa ser el mismo que antes de la modicacin. Sin embargo, en cada rama del rbol (es decir, en cada subconjunto de datos) se tendr informacin sobre el mtodo de clasicacin usado y el modelo obtenido. De esta manera, a la hora de validar dicho rbol, basta con utilizar el mismo mecanismo validacin con ese mtodo. Los resultados obtenidos empricamente, y presentados en la seccin de Resultados, demuestran que dicho mecanismo aumenta la ecacia del algoritmo CliDaPa, frente al original.
5.6.2
Votacin
Basndose en la anterior mejora, y conociendo el comportamiento del algoritmo CliDaPa, se plantean dos cuestiones: Al dividir el conjunto de datos en subconjuntos, se reducen el nmero de casos y se especica el problema. No siempre especicar un problema puede ser positivo. A veces, reducir el nmero de instancias puede producir overtting sobre las mismas, lo cual produce que el algoritmo de clasicacin se especique demasiado y no sea capaz de obtener buenos resultados en el futuro. Seleccionar el mejor clasicador puede especicar demasiado: Si se elige aquel mtodo de clasicacin que mejores resultados obtenga en una validacin Bootstrap, en cierto modo se est eligiendo aquel que mejor especica y aprende el conjunto de datos de aprendizaje. Sin embargo, esto puede producir overtting por lo comentado en el punto anterior.
5.6. MECANISMOS DE MEJORA
97
Para solventar estas cuestiones, se propone la siguiente mejora: Para tomar una decisin, se debe tener en cuenta la decisin de todos los clasicadores, atendiendo por la calidad de cada uno de ellos. Mediante un mecanismo de votacin simple, se decide cual es la decisin nal. Se trata, pues, de un metaclasicador basado en el uso de distintos clasicadores base, los cuales son los usados anteriormente en el algoritmo CliDaPa. A esta tcnica se le aade un concepto usado en las tcnicas Boosting, el cual es el peso pero no de las instancias, sino de los clasicadores: La importancia de decisin de un clasicador se basa en el peso PBC obtenido al validar internamente dicho clasicador, por medio del Bootstrap. Nive Bayes 1 (0,85) 1 (0,85) 1 (0,85) C4.5 1 (0,70) 0 (0,70) 1 (0,70) Logistic Regression 1 (0,21) 0 (0,21) 0 (0,21) KNN 0 (0,78) 0 (0,78) 0 (0,78) FINAL 1 0 1
Tabla 5.8: Ejemplo de mecanismo de votacin Por cada subconjunto de datos, se realizan tantos modelos de clasicacin como algoritmos de clasicacin estn implementados en el propio algoritmo CliDaPa. Una vez generados esos modelos, se aplican al subconjunto de datos de validacin. A diferencia de antes, en vez de aplicar un modelo de clasicacin sobre un individuo, se realiza un mecanismo de votacin utilizando todos los modelos. De esta manera, se tienen en cuenta las decisiones tomadas de todos los modelos. Obviamente, gana la mayora en votacin (teniendo en cuenta los pesos) y se presenta como resultado nal aquel por el que hayan optado la mayora de los modelos de clasicacin. En caso de empate (puesto que el nmero de clasicadores sea par) se toma la decisin que indique aquel modelo que mejor PBC tenga. La tabla 5.8 se muestra un ejemplo de mecanismo de votacin para CliDaPa. Los resultados obtenidos empricamente, y presentados en la siguiente seccin, demuestran que el mecanismo de votacin mejora notablemente el resultado frente al algoritmo CliDaPa original.
5.6.3
En el presente apartado se presentan los resultados obtenidos al ejecutar el algoritmo CliDaPa con sus dos mejoras sobre los tres conjuntos de datos presentados. Es notable destacar que las ejecuciones realizadas no han supuesto prcticamente ninguna modicacin sobre los tiempos de ejecucin, por lo que no es necesario incidir sobre este tema. A continuacin se presentan los resultados, divididos por conjunto de datos. Cabe mencionar que el algoritmo de la primera mejora (mejor seleccionado) se denomina Best, y el algoritmo de votacin se denomina Voting. Por otro lado, se debe advertir que estas dos mejoras no han sido implementadas en las tcnicas tradicionales debido a: En las tcnicas tradicionales, la mejora Best no se diferencia de ver cual de los cuatro clasicadores funciona mejor.
98
En las tcnicas tradicionales, la mejora Voting se basa en mejorar la media de los PBCs a partir de la desviacin tipica obtenida. Es decir, el mayor valor que se puede conseguir en la mejora Voting con tcnicas tradicionales es la media + desviacin, y esto no en la gran mayoria de los casos al mejor valor de CliDaPa sin mejoras.
5.6.3.1 Vant Veer La tabla 5.9 muestras los resultados obtenidos al ejecutar ambas mejoras con los enfoques lter y voraz. Sobre ella, y comparndolo con anteriores ejecuciones de CliDaPa (gura 5.18), se pueden extraer las siguientes conclusiones:
Figura 5.18: Comparacin de resultados de CliDaPa con mejoras en Vant Veer
El enfoque lter obtiene mejores resultados que el enfoque voraz. Esta conclusin coincide con las ejecuciones realizadas con el algoritmo sin mejoras. Si se comparan los resultados frente a los resultados con CliDaPa lter, se observa que Best obtiene mejora sobre todos los algoritmos de aprendizaje salvo Nave Bayes. Por otro lado, se observa que la mejora Voting supera a los resultados de todos los algoritmos de aprendizaje. Al comparar el mejor resultado (Filter Voting) sobre el mejor resultado obtenido con CliDaPa original (Filter NB), se obtiene una mejora de practicamente un 2 % (85,31 % frente a 83,96 %). Si se compara sobre las tcnicas de uso tradicionales, supone una mejora de 6 %, lo que supone que se estima correctamente la enfermedad de 6 pacientes ms de cada 100.
99
ENFOQUE Filter Voraz
ALGORITMO BEST VOTING BEST VOTING
MEDIA 81,98 85,31 78,85 82,71
DESV 2,09 1,86 2,6 2,7
Tabla 5.9: Mecanismos de mejora aplicados a Vant Veer
5.6.3.2 Van der Vivjer La tabla 5.10 muestra los resultados obtenidos al ejecutar ambas mejoras con los enfoques lter y voraz. Sobre ella, y comparndolo con anteriores ejecuciones de CliDaPa (gura 5.19), se pueden extraer las siguientes conclusiones:
Figura 5.19: Comparacin de resultados de CliDaPa con mejoras en Van der Vivjer
El enfoque voraz obtiene mejores resultados que el enfoque lter. Esta conclusin coincide con las ejecuciones realizadas con el algoritmo sin mejoras. Si se comparan los resultados frente a los resultados con CliDaPa voraz, se observa que Best obtiene mejora sobre todos los algoritmos de aprendizaje. Por otro lado, se observa que la mejora Voting supera ampliamente a los resultados de todos los algoritmos de aprendizaje. Al comparar el mejor resultado (Voraz Voting) sobre el mejor resultado obtenido con CliDaPa original (Voraz C4.5), se obtiene una mejora de prcticamente un 5 % (90,03 % frente a 85,81 %). Si se comSantiago Gonzlez Tortosa Optimizacin de procesos de adquisicin de conocimiento en Biologa Computacional
100
para sobre las tcnicas de uso tradicionales, supone una mejora de 6 %, lo que supone que se estima correctamente la enfermedad de 6 pacientes ms de cada 100.
ENFOQUE Filter Voraz
ALGORITMO BEST VOTING BEST VOTING
MEDIA 83,52 88,67 86,4 90,03
DESV 0,97 0,84 1,01 1,02
Tabla 5.10: Mecanismos de mejora aplicados a Van der Vivjer
5.6.3.3 Brain Cancer La tabla 5.11 muestras los resultados obtenidos al ejecutar ambas mejoras con los enfoques lter y voraz. Sobre ella, y comprandolo con anteriores ejecuciones de CliDaPa (gura 5.20), se pueden extraer las siguientes conclusiones:
Figura 5.20: Comparacin de resultados de CliDaPa con mejoras en Brain
El enfoque voraz obtiene mejores resultados que el enfoque lter. Esta conclusin curiosamente no coincide con las ejecuciones realizadas con el algoritmo original, puesto que era lter el mejor enfoque. Si se comparan los resultados de el enfoque voraz frente a los resultados con CliDaPa lter, se observa que Best obtiene mejora sobre todos los algoritmos de aprendizaje. Por otro lado, se observa que Voting supera con creces a los resultados de todos los algoritmos de aprendizaje.
101
Al comparar el mejor resultado (Voraz Voting) sobre el mejor resultado obtenido con CliDaPa original (Filter NB), se obtiene una mejora de prcticamente un 8 % (91,66 % frente a 83,5). Si se compara sobre las tcnicas de uso tradicionales, se observa una mejora de 11 %, lo que supone que se estima correctamente la enfermedad de 11 pacientes ms de cada 100. ENFOQUE Filter Wrapper ALGORITMO BEST VOTING BEST VOTING MEDIA 82,33 89,66 84,5 91,66 DESV 2,63 2,19 1,95 2,61
Tabla 5.11: Mecanismos de mejora aplicados a Brain Cancer
5.6.4
Conclusiones generales
De las ejecuciones presentadas anteriormente, se pueden extraer las siguientes conclusiones: La mejora Best no optimiza los resultados obtenidos previamente por las ejecuciones de CliDaPa. Esta conclusin puede parecer extraa, sin embargo tiene sentido, puesto que la propia losia de la mejora recae en un problema de overtting. Cuando se divide cada rama, se decide que clasicador es mejor. Puesto que se trata de seleccionar aquel clasicador que mejor clasique un pequeo subconjunto de datos, en realidad se esta ayudando a que el propio algoritmo caiga en un problema de overtting, puesto que se especializa mucho en ese subconjunto y poco en el resto de los datos. La mejora Voting optimiza signicativamente los resultados obtenidos con el resto de ejecuciones de CliDaPa, segn el test de hiptesis Wilcox (con un valor menor a 0,01). Si se comparan los resultados obtenidos en estas mejoras con los mejores anlisis tradicionales de datos (apartados anteriores), se obtienen unas mejoras de 6 % para el conjunto de Vant Veer, 6 % para el conjunto de Van der Vivjer y 11 % para Brain Cancer.
102
Captulo 6
Aprendizaje no supervisado para enriquecimiento de datos clnicos
Un campo que, hasta ahora, ha sido poco explorado en el mundo mdico es la posible clasicacin de los pacientes ante las distintas enfermedades, tratamientos, etc. segn ciertos comportamientos observados a partir de ciertos datos. Cada paciente se comporta de una manera determinada ante una enfermedad o, lo que se dice coloquialmente por los mdicos, cada paciente es un mundo. Sin embargo, pueden existir ciertos patrones comunes entre pacientes, que permita agruparlos por dicho comportamiento comn. Dicha agrupacin puede proporcionar una nueva informacin, que hasta entonces no se tena, para utilizarlo en un estudio de anlisis de datos. El uso de datos clnicos permite a los expertos realizar una clasicacin de los distintos pacientes segn determinadas caractersticas. Sin embargo, con la informacin gentica la clasicacin de pacientes no es tan sencilla. En la literatura existe innidad de estudios sobre clasicacin gentica [SMS+ ], pero pocos sobre clasicacin de pacientes [GTSZ03]. Es sta la motivacin del presente estudio, el cual es la obtencin de una nueva clasicacin de pacientes a partir de informacin gentica, para el enriquecimiento y mejora de una posible clasicacin o estimacin de enfermedades. Un estudio enunciado en la web The Medical News desarrollado por [Cla08] a nales del 2008 demuestra que existe interaccin entre los genes y el comportamiento del cuerpo humano. Por tanto, basndose en esta idea, se plantea el estudio de obtencin de una clasicacin de pacientes a partir de expresiones genticas.
104
CAPTULO 6. APRENDIZAJE NO SUPERVISADO PARA ENRIQUECIMIENTO DE DATOS CLNICOS
6.1
Enriquecimiento de datos clnicos a travs de tcnicas clustering
Puesto que existe relacin entre el comportamiento del cuerpo humano y los genes, esto quiere decir que se puede obtener una segmentacin de pacientes a partir de la informacin gentica. Dicha segmentacin es una nueva infomacin que antes no se dispona. Es, por tanto, una nueva informacin que se puede usar para el enriquecimiento de un aprendizaje supervisado. Se trata, por tanto, de una tcnica multiestrategia, puesto que se combinan ambos aprendizajes, no supervisado y supervisado. En este estudio, la informacin generada se va a tomar como informacin clnica. De esta forma, se enriquecen los datos clnicos de los estudios y, aplicndolos sobre el Algoritmo CliDaPa, mejorar signicativamente los resultados obtenidos previamente en el anterior captulo. Para la obtencin de esa nueva informacin (clasicacin de pacientes) se va a utilizar conjuntos de datos de expresiones genticas. Por tanto, es necesario basarse en la literatura, y realizar un estudio sobre aquellos algoritmos de clasicacin no supervisada que mejores resultados obtengan con datos genticos. De entre todos los algoritmos propuestos en literatura, destacan K-Medias y familia, algoritmos jerrquicos, QT, y Adaptive Quality. A continuacin se presenta la tabla 6.1, donde se resumen las ventajas y desventajas de cada uno de los algoritmos comentados anteriormente, con el n de seleccionar el algoritmo adecuado: Caracteristicas Num. clusters denido Acepta ruido Interpretacin Biolgica Clasicacin de pacientes Coste computacional Coste implementacin K-Medias Jerrquico QT No se suele usar Alto Medio Adaptive quality No se suele usar Muy alto Muy alto
Bajo Nada (Weka)
No se suele usar Bajo Nada (Weka)
Tabla 6.1: Caractersticas de algoritmos de clasicacin no supervisada Cabe mencionar que, para este caso prctico, se necesita un algoritmo donde no se le indique el numero de clusters a priori (puesto que se desconoce). Tambin es necesario que el algoritmo permita trabajar con ruido, es decir, instancias o pacientes que no cumplan los requisitos de ningn cluster y, por tanto, queden fuera de toda clasicacin. Por ltimo, se desea que los clusters puedan ser interpretables biolgicamente hablando. De esta manera, teniendo en cuenta lo anterior, se ha de descartar la opcin de usar K-Medias y Jerrquico. Entre las otras dos opciones (QT y Adaptive quality), se descarta la segunda puesto que se trata de un algoritmo complejo, lento y de alto coste en implementacin. La opcin QT, avalado por muchos investigadores por su ecacia en clustering gentico, no fue diseado para hacer clasicacin de instancias. No obstante, se propone el uso de QT como algoritmo de clasicacin del tipo Sample-based clustering, o dicho de otra forma, clasicacin de instancias. Los conjuntos de datos a utilizar, tal y como se coment previamente, son expresiones genticas. Se trata,
6.1. ENRIQUECIMIENTO DE DATOS CLNICOS A TRAVS DE TCNICAS CLUSTERING
105
pues, de un conjunto grande de datos, con miles de atributos, donde ser necesario realizar una reduccin sobre los mismos con el n de eliminar a aquellos atributos que generen ruido o sean redundantes (utilizando para ello algn algoritmo). Para solventar este problema, se ha optado por utilizar la seleccin gentica que indicaba la literatura, en cada caso. Resumiendo, se propone realizar una segmentacin de pacientes a partir de datos genticos (previamente ltrados), utilizando para ello el algoritmo QT. Por cada ejecucin de QT, se obtendr una segmentacin, la cual ser tratada como un nuevo dato clnico, que se incluir en el estudio de CliDaPa. A todo este mecanismo de obtencin de nuevos datos clnicos a partir de clasicacin no supervisada para optimizar los resultados de CliDaPa se le denomina CliDaPa Multi (Multistrategy). A continuacin se presenta el algoritmo QT y su aplicacin dentro del algoritmo CliDaPa Multi. Seguidamente, se presentan cada una de las medidas utilizadas en el estudio, para asi concluir con la ejecucin, obtencin y comparacin de resultados entre CliDaPa y CliDaPa Multi.
6.1.1
Uso del algoritmo QT
Tal y como se ha explicado en el apartado 2.3.2, el algoritmo QT posee una serie de caractersticas que pueden hacer ventajoso su uso frente a otros algoritmos. Dichas caractersticas son: Genera clusters a medida, dado que solamente se consideran clusters que sobrepasen un umbral que puede denir el propio usuario. Los parmetros citados en el apartado 2.3.2 provocan que se generen unos resultados de salida que se cian a las caractersticas que interesen. Adems, el nmero de clusters resultante no se dene a priori. No hay necesidad, por tanto, de que el usuario deba denir el nmero de clusters resultante que quiera obtener, cosa que s sucede en otros algoritmos. Es posible que algunos elementos no pertenezcan a ningun cluster debido a la gran diferencia entre ellos. QT permite que dichos elementos no pertenezcan a ningun cluster. Por otro lado, se consideran todos los clusters posibles, actuando el algoritmo de tal manera que se tienen en cuenta todas las combinaciones (recorre todo el espacio de bsqueda), lo que repercute en una mejora de la calidad de los resultados. Como punto dbil, el tiempo de computacin del algoritmo es alto, debido a la complejidad del mismo. Cuanto ms se incremente el tamao mnimo de cluster o el tamao del dataset que se estudie, o se decremente el dimetro umbral, ms se disparar el tiempo de cmputo. El algoritmo QT parte de un conjunto de datos provisto de instancias y como resultado devuelve una relacion de a qu cluster pertenece cada uno de las instancias. Aplicndolo al campo de la Bioinformtica, dado un conjunto de expresiones genticas por paciente, el algoritmo proporciona la segmentacin por pacientes.
106
Paciente 1 Paciente 2 Paciente 3 ... Paciente N
Distancia 1 Cluster 1 Cluster 2 Cluster 1 ... Cluster 4
Distancia 2 Cluster 2 Cluster 1 Cluster 0 ... Cluster 1
...
...
Distancia M Cluster 1 Cluster 1 Cluster 3 ... Cluster 2
Tabla 6.2: Ejemplo de resultados obtenidos con QT
Una de las caractersticas a denir en el algoritmo QT es la distancia. En el apartado 6.1.2 se denen una serie de distancias a utilizar con este algoritmo. Por cada distancia, se obtendr una clasicacin de pacientes. Si hay M distancias, habr M clasicaciones de cada instancia o paciente. Por tanto, a CliDaPa se le aadir una tabla nueva de datos clinicos, como la que se muestra de ejemplo en 6.2. Se debe indicar, como novedad incluida en el desarrollo de QT, que aquellos pacientes que no pertenecen a ningn cluster se les ha catalogado como ruido, pero no se han descartado del estudio, sino que se les ha agrupado juntos. Resumiendo sobre el funcionamiento del nuevo algoritmo CliDaPa Multi, a partir de la informacin clnica debidamente pre-procesada, y del conocimiento adquirido a travs de las distintas ejecuciones de QT, se realiza el modelo del rbol CliDaPa (en los enfoques citados en el anterior capitulo), utilizando los datos genticos como conjunto de datos inicial. La gura 6.1 describe el funcionamiento del algoritmo CliDaPa Multi
Figura 6.1: Algoritmo CliDaPa Multi
6.1. ENRIQUECIMIENTO DE DATOS CLNICOS A TRAVS DE TCNICAS CLUSTERING
107
6.1.2
Medidas de distancia
Despus de realizar un estudio sobre las distintas medidas de distancia utilizadas en la literatura (especializndose en microarrays) [SMS+ ], se han seleccionado cuatro medidas diferentes, a saber: Eucldea, Manhattan, correlacin lineal de Pearson y correlacin Biweight. A continuacin se describe brevemente cada una de ellas.
6.1.2.1 Distancia Euclidea La distancia eucldea [MGB74] es la que se utiliza comnmente y se deduce a partir del teorema de Pitgoras. La distancia eucldea entre dos variables X e Y multidimensionales es:
d(X,Y ) =
i=1
(Xi Yi )2
Se trata de una medida de distancia fcilmente comprensible y representable en un espacio eucldeo.
6.1.2.2 Distancia Manhattan La distancia de Manhattan [MGB74] se dene como la distancia entre dos puntos medida a lo largo de los ejes en ngulo recto. Su nombre est inspirado en la morfologa urbanstica de dicha zona de Nueva York. Si se visualiza un plano de Manhattan (gura 6.2) y se selecciona dos puntos, se puede observar que las distancia ms corta no es la linea recta (imposible por los edicios), sino una serie de distancias obtenidas a partir de ngulos rectos.
Figura 6.2: Distancia Manhattan
La distancia Manhattan entre dos variables X e Y multidimensionales es:

108
d(X,Y ) = Xi Yi
i=1
6.1.2.3 Correlacin de Pearson Un ndice que mide la relacin entre dos variables cuantitativas es la covariancia. Pero este ndice tiene el inconveniente de que su valor depende de las unidades de medida de las dos variables, de manera que cuando una de ellas vara en su escala de medida esto origina un cambio en el valor de la covariancia. Karl Pearson propuso un ndice que era independiente de la escala de medida de ambas variables: el coeciente de correlacin lineal [MGB74], cuyo clculo se realiza dividiendo la covariancia por el producto de las desviaciones estndar de ambas variables: Sx y Sx Sy
rx y =
La caracterstica fundamental de este ndice es que mide la existencia de una relacin lineal entre dos variables. El valor del ndice de correlacin vara en el intervalo [1, +1]. Un coeciente de correlacin igual a cero indica una independencia total entre las dos variables, de manera que cuando una de ellas vara esto no inuye en absoluto en el valor que pueda tomar la segunda variable. Un coeciente de correlacin igual a -1 indica una dependencia total entre las dos variables, denominada relacin inversa, de manera que cuando una de ellas aumenta la otra disminuye. Un coeciente de correlacin igual a +1 indica una dependencia total entre las dos variables, denominada relacin directa, de manera que cuando una de ellas aumenta la otra tambin aumenta. La frmula prctica de clculo de un coeciente de correlacin entre dos variables X e Y viene dada por: XY X2
( X)2 n X Y n
rx y =
Y 2
( Y )2 n
n( XY ) ( X) ( Y ) n( X 2 ) ( X)2 n( Y 2 ) ( Y )2
6.1.2.4 Correlacin Biweight Uno de los principales objetivos de los experimentos relacionados con el campo de Biologa Computacional es encontrar elementos que sean de algn modo similares en cuanto a ciertas condiciones. Para medir la similitud entre elementos se usan frecuentemente medidas de distancia como las anteriormente comentadas (correlacin de Pearson, distancia eucldea, etc) [MGB74]. Los resultados de los algoritmos de clustering son muchas veces muy dependientes del dimetro umbral (mayor distancia permitida para que dos elementos se metan en el mismo cluster). Esto ocurre sobre todo si se decide este valor a partir de un dataset pequeo, ya que se va a utilizar por ejemplo un umbral basado en la media de las distancias entre un conjunto de elementos reducido. En este caso, en cuanto existan uno o dos valores que se salgan de lo normal se puede alterar mucho dicha media y realizarse el algoritmo sobre un valor
6.2. EJECUCIN Y RESULTADOS
109
Figura 6.3: Pearson vs Biweight que no es cercano a la media real del conjunto. La causa de esto es que no se sabe si estos valores anormales son reales o se deben a la existencia de ruido u otras alteraciones. En los datos genticos, debido a las condiciones del experimento u otros factores, dichas anomalas son muy comunes, y no se han conseguido solucionar ni mediante tcnicas como el ltrado o la normalizacin. En el caso de que provengan de ruido, esta alteracin de la media que se elige como umbral producir que elementos, que no deberan nunca ser considerados como similares, se metan en el mismo cluster o viceversa. Con el uso de la correlacin Biweight (BWC) [HMHV07] se intenta mejorar en estos aspectos dando una estimacin mucho ms resistente al ruido de la similitud entre cada par de elementos, y que funciona bien en gran variedad de distribuciones de datos. La complejidad de este tipo de correlacin es muy grande, siendo el tiempo de computacin 43 veces superior al de la correlacin de Pearson. Puesto que el clculo de BWC no se basa en una simple frmula, se optar por presentar el codigo fuente que implementa dicho clculo en lenguaje R-Project. Dicho cdigo se muestra en el apndice B.
6.2
Ejecucin y resultados
Para nalizar el captulo, se presentan los distintos experimentos realizados con el algoritmo CliDaPa Multi, as como un breve estudio comparativo entre este y el enfoque CliDaPa original (descrito en el anterior captulo). En primer lugar, se presentan los conjuntos de datos utilizados. A continuacin, se describe la obtencin del conocimiento no supervisado, as como cada uno de los experimentos realizados con cada conjunto de datos. Por ltimo, se presentan los resultados obtenidos y las conclusiones apreciadas al comparar dichos resultados entre s. El desarrollo de estos experimentos se ha basado en: Desarrollo de QT Orientado a objetos en Java 1.5
110
Desarrollo del calculo de BWC Basado en una implementacin obtenida de [HMHV07], y modicada para ser vlida para este caso. El cdigo fuente se encuentra en el apndice B. Desarrollo del calculo del resto de distancias Orientado a objetos en Java 1.5 Desarrollo de CliDaPa Tal y como se coment previamente, se realiz orientado a objetos en Java 1.5 con libreras de R-Project y WEKA.
6.2.1
Conjuntos de datos
Los conjuntos de datos utilizados para la realizacin de los distintos experimentos son los mismos que los utilizados en el captulo 5.5.1, es decir, Vant Veer, Van der Vivjer y Brain Cancer.
6.2.2
Obtencin de conocimiento no supervisado
Una vez explicado el funcionamiento de QT, su aplicacin dentro del algoritmo CliDaPa Multi, las medidas de distancia a utilizar y los conjuntos de datos, a continuacin se procede a explicar la obtencin del nuevo conocimiento para ser aplicado junto con los datos clnicos. El problema que se plante en primer lugar fue el clculo de las distancias por instancia. Para reducir el tiempo de ejecucin del algoritmo QT, se propuso obtener las medidas de distancia a priori, es decir, obtener las matrices de distancia. De esta forma, cada vez que se desee realizar un calculo de distancia entre dos individuos, simplemente se consulta la matriz de distancias. La decisin tomada fue la adecuada en este caso, debido, entre otros motivos, a que el calculo de las distancias BWC se realiza en R-Project, y el algoritmo QT fue desarrollado en Java, lo que supondra saltar de plataforma cada vez que se necesitara calcular una distancia. Con vistas a la ejecucin del algoritmo QT, se plante otro gran problema: la decisin de cul es el valor umbral para decidir si un elemento pertenece a un cluster o no. Este valor depende de diferentes factores externos, a saber: distancia a utilizar, conjunto de datos, elitismo del cluster, etc. Resulta, pues, complicado dar un valor a dicho umbral. Sin embargo, aplicando una idea similar a la discretizacin de los datos clnicos, se plante la siguiente solucin (gura 6.4): Por cada conjunto de datos y medida de distancia, se calcula la media aritmtica y desviacin estndar de todas las distancias de los individuos. A partir de ah, se realizan 10 clculos de umbral segn el intervalo [media 2 desv, .., media + 2 desv], y por cada umbral, se realiza una clasicacin QT. As pues, por cada conjunto de datos y medida de distancia, se realizan 10 ejecuciones de QT y se obtienen 10 clasicaciones (que se unir a los datos clnicos). Como se van a utilizar cuatro medidas de distancia, en total por cada conjunto de datos se poseen 40 nuevos datos clnicos. De esta forma, tanto la decisin de cual es el mejor umbral, as como cual es la mejor medida de distancia, pasa a tomarla el propio algoritmo CliDaPa, en cualquiera de sus enfoques. Es decir, es el propio algoritmo el que se encarga de elegir el mejor dato clnico para dividir el conjunto de datos, por lo que es lgico que decida
111
Figura 6.4: Clculo de umbral y ejecucin de QT
la mejor medida de distancia y el mejor valor umbral. Como dato de inters sobre rendimiento, la obtencin de conocimiento no supervisado se ejecut en paralelo a nivel de umbral de QT, en los recursos del CeSViMa. Se utilizaron 120 procesos del sistema para la ejecucin (3 datasets x 4 medidas de distancia x 10 valores de umbral por cada distancia). Previo a la ejecucin se realiz una estimacin de tiempo, basado en coste computacional de una simple ejecucin de QT. La estimacin realizada (20 minutos por ejecucin) coincidi aproximadamente con el tiempo de espera para la obtencin de todos los resultados. Una vez se obtuvieron los resultados de todas las ejecuciones, se realiz un pequeo estudio comparativo sobre ellos (ver apndice B) y se us como nuevo conjunto de datos clnicos para el estudio que se presenta a continuacin.
6.2.3
Experimentos
En esta seccin se presentan los experimentos a realizar. En primer lugar, se presentan los resultados obtenidos al realizar el estudio del umbral. A continuacin, se describen cada uno de los experimentos, para, por ltimo, comentar el rendimiento obtenido al ejecutar dichos experimentos.
6.2.3.1 Estudio del Umbral Cabe recordar que el estudio del umbral es necesario realizarlo por cada conjunto de datos nuevo, puesto que inuye directamente el valor del umbral sobre el conjunto de datos clnicos y sus posibles divisiones. Puesto que, aunque el conjunto inicial de datos es el mismo, se aumentan en datos clnicos (con los obtenidos por QT), es necesario realizar el estudio del umbral de nuevo. Como se ha comentado en el anterior captulo, el estudio utiliza el enfoque voraz y el algoritmo de clasicacin Nave Bayes. Se denen los limites del umbral, poniendo como umbral mximo el valor 90, y como
112
valor mnimo el 10, moviendo cada valor umbral de diez en diez. Por tanto, realizamos de
9010 10
+ 1 = 9 ejecu-
ciones del algoritmo CliDaPa con 10x10 fold cross-validation como mecanismo de validacin. Se debe tener en cuenta que, al igual que siempre, en las 10 ejecuciones, las divisiones de los folds deben ser las mismas, por lo que habr que modicar el algoritmo CliDaPa para contemplar este aspecto. A continuacin, se presentan los resultados obtenidos, en forma de grca, por cada conjunto de datos: Vant Veer Los resultados obtenidos en la ejecucin se muestran en la gura 6.5. Se puede observar, por un lado, que a partir del umbral 60 en adelante, el valor del Porcentaje de Bien Clasicados (PBC) no varia en sus ejecuciones. Esto nos hace suponer que, de acuerdo al valor del umbral, no se realiza ninguna divisin en el conjunto de datos. Por otro, lado se observa cierta inestabilidad en el umbral 40, debido a la seleccin de un dato clnico que empeora los resultados considerable. Tambin se observa un mal resultado en el umbral 10 (lo que supone overtting), y poco a poco mejor hasta llegar al umbral 30, donde la variacin es menor. Resumiendo, el valor con menor variacin y mejor resultado es utilizando el umbral 30, por lo que ste es el umbral seleccionado para las ejecuciones.
Figura 6.5: Estudio del umbral con el dataset de Vant Veer en CliDaPa Multi
Van der Vivjer Como bien se sabe, se trata de un conjunto de datos bastante ms grande (295 instancias). Los resultados obtenidos en la ejecucin se muestran en la gura 6.6. Se puede observar, en primer lugar, que la grca es totalmente diferente a la anterior. Los resultados son peores a medida que se va aumentando el umbral, cosa que no ocurre en el anterior caso. Adems, los mejores resultados se obtienen con umbrales pequeos. Estos resultados pueden tener sentido al analizar los logs de las ejecuciones. Se
113
observa que existe una serie de datos clnicos que permiten obtener muy buenos resultados al dividir con ellos. El problema es que las divisiones que generan son muy pequeas (menores a 10), por lo que no son aptas si el valor umbral es mayor a 10. De esta forma, a partir del umbral 20 divide con otros datos clnicos, lo cual implica empeorar los resultados. A medida que se amplia el umbral, se utilizan peores datos clnicos a dividir, de ah que los resultados sean peores. Resumiendo, los mejores resultados se obtienen con el umbral 10, por lo que ste es el seleccionado para las ejecuciones.
Figura 6.6: Estudio del umbral con el dataset de Van der Vivjer en CliDaPa Multi
Brain Cancer , y sus resultados en la ejecucin del estudio se muestran en la gura 6.7. Dicha gura se parece bastante a la de Vant Veer en comportamiento. Comienza con resultados malos y mucha varianza (debido al overtting), mejorando poco a poco hasta que se estabiliza a partir del umbral 40. Por lo que se suponer que a partir del umbral 40, no es posible realizar ninguna divisin en el conjunto de datos, ya que el resultado siempre es el mismo. Si se observa el umbral 10, se obtiene una media parecida a la mejor media de la grca, pero con mucha desviacin (debido al enfoque voraz), donde el mejor valor con desviacin supera en casi 2 % al valor medio mejor. Si en vez de utilizar el enfoque voraz se utiliza el mecanismo lter, se obtendran resultados mejores, con menos desviacin. Por tanto, intuyendo un poco como puede comportarse el algoritmo en la ejecucin, se decide optar por el umbral 10.
114
Figura 6.7: Estudio del umbral con el dataset de Brain Cancer
6.2.3.2 Descripcin de experimentos El objetivo en estos experimentos es poder comparar el uso del algoritmo CliDaPa con el uso del algoritmo CliDaPa Multi. Para ello, es necesario denir un mecanismo de aprendizaje y validacin comn para ambos porque, de lo contrario, no se podran comparar. De esta forma, el mecanismo de validacin de ambas tcnicas es el mismo al presentado en el anterior captulo. Dicho mecanismo (gura 5.8) se basa en un MxN fold cross validation, donde se realiza un N fold cross validation y se reitera M veces, obteniendo as la media y desviacin estndar de la medida de validacin, que en este caso es el Porcentaje de Bien Clasicados (PBC). Como se hizo anteriormente, se realiza un 10x10 fold cross validation, es decir, se realizan 10 repeticiones de cada experimento (M=10) y con 10 folds. Tambin, del mismo modo, la generacin de folds se realiza de forma balanceada. Internamente, al igual que con CliDaPa, en CliDaPa Multi cada fold es modelado segn se dene en el capitulo anterior. Es decir, cada fold genera y valida un modelo de arbol CliDaPa con divisiones, para nalmente obtener un PBC que debe ser ponderado con el resto de folds. Al igual que en el captulo anterior, se presentan dos enfoques: lter y voraz. En ambos tipos, se realizan ejecuciones utilizando los clasicadores K-NN (K=1), Nave Bayes, C4.5 y Regresin Logstica. Adems, se realiza el uso de las mejoras de CliDaPa del mejor mtodo (Best) y votacin (Voting) como dos experimentos ms de CliDaPa Multi. Resumiendo, los experimentos a realizar en CliDaPa Multi se calculan de la siguiente manera:
115
Filter Voraz
CliDaPa 43,02 min. 202,66 min.
CliDaPa Multi 45,13 min. 243,45 min.
Tabla 6.3: Comparacin de tiempos de ejecucion en CliDaPa
Exp
= 3 datasets 10 repeticiones 6 algoritmos 2enfoques = 360 experimentos
(6.1)
6.2.3.3 Rendimiento Para la ejecucin de los experimentos se ha utilizado de nuevo los recursos de CeSViMa. La ejecucin de los experimentos se realiz en paralelo, a nivel de repeticin de M dentro del MxN fold cross validation, en total 360 experimentos. Por tanto, fue necesario solicitar una tarea de 361 procesadores, uno por cada experimento y otro extra para el control de resultados. Los tiempos de computo obtenidos en CeSViMa se presentan en la tabla 6.3. Se puede apreciar en la tabla 6.3 que, a pesar de incrementar en 40 datos clnicos nuevos (en este caso casi 5 veces mas), el incremento de tiempo en comparacin no es proporcional, gracias al propio diseo del algoritmo. El empo nal de ejecucin desde que comienza el algoritmo CliDaPa Multi, con el clculo de los umbrales, hasta la obtencin, teniendo en cuenta que hubieron dos fases de tiempo de espera para entrar a ejecutar en CeSViMa, fue de aproximadamente 1 da.
6.2.4
En este apartado se presentan los resultados obtenidos al ejecutar los experimentos propuestos en anteriores apartados, as como las conclusiones obtenidas al compararlos con los resultados de CliDaPa.
6.2.4.1 Dataset de Vant Veer La tabla 6.4 presenta los resultados del algoritmo CliDaPa Multi con el conjunto de datos de Vant Veer. Se puede observar, de nuevo, que los mejores resultados se obtienen, en general, utilizando el enfoque lter, y el algoritmo que mejor responde es la mejora Voting. Si se comparan los resultados obtenidos por el algoritmo CliDaPa Multi con los obtenidos por el algoritmo simple CliDaPa (gura 6.8), se deducen las siguientes conclusiones: El enfoque lter de ambos algoritmos obtienen ms o menos los mismos resultados, teniendo en cuenta posibles modicaciones sobre los valores segn la desviacin. El enfoque voraz presenta una mejora substancial en tres de los seis metodos, utilizando CliDaPa Multi.
116
ENFOQUE Multi Filter
Multi Voraz
ALGORITMO NB C4.5 KNN LR BEST VOTING NB C4.5 KNN LR BEST VOTING
MEDIA 82,19 67,92 70,42 58,44 80,42 85,17 78,33 67,40 70,1 67,40 76,77 81,04
DESV 0,91 2,39 1,98 2,22 1,95 1,42 1,54 2,6 1,84 2,86 1,56 2,01
Tabla 6.4: Tcnicas de uso de CliDaPa Multi con Vant Veer
Figura 6.8: Comparacin de resultados entre CliDaPa y CliDaPa Multi en Vant Veer
El mejor resultado obtenido sigue obtenindose al usar CliDaPa simple en enfoque lter con la mejora de votacin, cuyo valor es 85,31. Por tanto, en este caso, el algoritmo CliDaPa Multi no permite mejorar el mejor resultado que se obtuvo previamente. Basndose en las anteriores conclusiones, se puede deducir una nueva conclusion: Probablemente, el mecanismo lter de CliDaPa Multi selecciona las mismas variables clnicas, puesto que su ganancia de informacin es superior, a pesar de insertar nuevas variables. Al permitir evaluar todas las variables clinicas (mecanismo voraz), se han obtenido mejoras signicativas. Lo que supone que los nuevos datos clnicos permiten mejorar los resultados. Vista la conclusin anterior, la pregunta que se plantea es si el hecho de usar solamente los datos clnicos
117
del aprendizaje no supervisado, eliminando el resto de datos clnicos, se pudieran obtener mejores resultados. Para comprobarlo, se ha realizado de nuevo todas las ejecuciones con este planteamiento y se han obtenido los resultados pertinentes, presentados en la tabla 6.5. ENFOQUE Multi Filter ALGORITMO NB C4.5 KNN LR BEST VOTING NB C4.5 KNN LR BEST VOTING MEDIA 84,56 68,64 71,35 62,71 80,83 85,73 82,54 68,64 72,08 69,79 81,09 88,85 DESV 1,5 2,32 2,37 3,5 1,85 1,39 1,7 2,84 2,85 2,35 0,97 2,14
Multi Voraz
Tabla 6.5: CliDaPa Multi con Vant Veer, utilizando solo los datos no supervisados
Figura 6.9: Comparacin entre CliDaPa simple, CliDaPa Multi y CliDaPa Multi2 en Vant Veer Comparando estos resultados con los anteriores (gura 6.9), se puede apreciar que el comportamiento en el enfoque lter es similar, pero que se produce una mejora signicativa, segn el test de hiptesis Wilcox, en el mecanismo voraz. El mejor resultado obtenido (mtodo de votacin, con valor de 88,85 %) mejora en un 3 % al mejor resultado obtenido tanto en el algoritmo CliDaPa simple (gura 6.10) como en el algoritmo CliDaPa Multi. Dicho valor mejora al mejor resultado obtenido en las tcnicas de uso tradicionales (79 %) en practicamente un 10 %. De esta forma, se demuestra que, el uso de datos de clasicacin no supervisados como
118
datos clnicos mejora la clasicacin nal.
Figura 6.10: Comparacin entre CliDaPa y CliDaPa Multi2 en Vant Veer
6.2.4.2 Dataset de Van der Vivjer La tabla 6.6 presenta los resultados del algoritmo CliDaPa Multi con el conjunto de datos de Van der Vivjer. Se puede observar que los mejores resultados se obtienen utilizando el enfoque voraz (como en el algoritmo CliDaPa simple), y el algoritmo que mejor responde es la mejora Voting. ENFOQUE CliDaPa Filter ALGORITMO NB C4.5 KNN LR BEST VOTING NB C4.5 KNN LR BEST VOTING MEDIA 78,03 85,08 83,19 75,79 83,08 90,86 84,78 84,83 83,66 80,85 86,64 91,62 DESV 1,73 1,66 1,43 1,27 0,91 1,29 2,11 0,91 1,63 1,93 1,46 0,93
CliDaPa Voraz
Tabla 6.6: Tcnicas de uso de CliDaPa Multi con Van der Vivjer Si se comparan los resultados obtenidos por el algoritmo CliDaPa Multi con los obtenidos por el algoritmo simple CliDaPa (gura 6.11), se deducen las siguientes conclusiones:
119
El enfoque lter de ambas tcnicas obtienen ms o menos los mismos resultados en todos los clasicadores, teniendo en cuenta posibles modicaciones sobre los valores segn la desviacin. Sin embargo, se obtiene una mejora de un 2 % sobre el valor obtenido con el mtodo Voting. El mejor resultado obtenido es utilizando el enfoque voraz en el algoritmo CliDaPa Multi, utilizando el mtodo de votacin, cuyo valor es 91,62. Comparando el mejor resultado obtenido (91,62 %) con el mejor resultado obtenido en las tcnicas de uso tradicionales de los datos (84,4 %), se obtiene una mejora nal de un 7 %.
Figura 6.11: Comparacin de resultados entre CliDaPa y CliDaPa Multi en Van der Vivjer Basndose en estas conclusiones, se puede extraer fcilmente la siguiente conclusin: El uso de informacin no supervisada como datos clnicos mejora los resultados obtenidos frente al algoritmo CliDaPa tradicional.
6.2.4.3 Dataset de Brain Cancer La tabla 6.7 presenta los resultados del algoritmo CliDaPa Multi con el conjunto de datos de Brain Cancer. Se puede observar que los mejores resultados se obtienen utilizando el enfoque voraz, y que, de nuevo, el algoritmo que mejor responde es la mejora Voting. Si se comparan los resultados obtenidos por el algoritmo CliDaPa Multi con los obtenidos por el algoritmo simple CliDaPa (gura 6.12), se extraen las siguientes conclusiones: Tanto en el enfoque lter como en el voraz, el algoritmo CliDaPa Multi obtiene mejoras signicativas en
120
CliDaPa Voraz
ALGORITMO NB C4.5 KNN LR BEST VOTING NB C4.5 KNN LR BEST VOTING
MEDIA 81,17 71,73 86,2 84,17 82,83 93,17 85,33 72,5 81,67 82,33 81,67 94
DESV 1,93 2,81 1,34 2,75 1,76 1,83 1,31 2,75 2,36 1,79 2,48 2,11
Tabla 6.7: Tcnicas de uso de CliDaPa Multi con Brain Cancer la gran mayoria de los clasicadores, frente al algoritmo CliDaPa simple. Se obtiene una mejora de un 2 % sobre el valor obtenido con el mtodo Voting. El mejor resultado obtenido es utilizando el enfoque voraz en el algoritmo CliDaPa Multi, utilizando el mtodo de votacin, cuyo valor es 94 %. Comparando el mejor resultado obtenido (94 %) con el mejor resultado obtenido en las tcnicas de uso tradicionales de los datos (80,34 %), se obtiene una mejora nal de un 14 %.
Figura 6.12: Comparacin de resultados entre CliDaPa y CliDaPa Multi en Brain Por tanto, segn lo anterior, el uso de informacin no supervisada como datos clnicos mejora los resultados
121
obtenidos frente al algoritmo CliDaPa tradicional.
Figura 6.13: Comparacin de resultados entre CliDaPa y CliDaPa Multi
6.2.5
Conclusiones generales
Una vez presentados los resultados, se procede a extraer las siguientes conclusiones: La participacin de las nuevas variables clnicas en el algoritmo CliDaPa se rigen segn la tabla 6.8. Segn la gura 6.13 y de acuerdo con el test de hiptesis Wilcox (con valores menores a 0,05), el algoritmo CliDaPa Multi mejora los resultados signicativamente en 12 de las 18 ejecuciones (en un 66 % de los casos). Los mejores resultados, en todos los conjuntos de datos, se han obtenido con CliDaPa Multi Voraz utilizando la mejora Voting. Comparando los resultados con los mejores resultados de tcnicas tradicionales de anlisis de datos, se obtiene una mejora signicativa de 10 % con el conjunto de Vant Veer, 7 % con el conjunto de Van der Vivjer y 14 % con el de Brain Cancer. CliDaPa Multi 0% 19,75 % 14,13 % CliDaPa Multi2 100 % -
Vant Veer Van der Vivjer Brain
Tabla 6.8: Participacin de variables clnicas
122
Parte IV
CONCLUSIONES Y LINEAS FUTURAS
Captulo 7
Conclusiones
La realizacin del presente trabajo ha alcanzado de forma satisfactoria los objetivos jados al inicio. En este captulo se hace una revisin de todas las aportaciones realizadas, que ya han sido presentadas en diversas secciones de la tesis. Por otro lado, se presentan las principales lneas de trabajo futuras que se podran realizar. El ndice del captulo es el siguiente:
En la seccin 7.1 se detallan las aportaciones realizadas en la presente tesis.
En la seccin 7.2 se detallan las publicaciones realizadas a lo largo del desarrollo de la investigacin.
En la seccin 7.3 se presentan las lineas de trabajo futuras, que permiten extender el trabajo realizado.
7.1
Aportaciones
En la presente tesis se ha realizado una importante apuesta, que ha resultado muy acertada, la cual se trata de anlisis de datos complejos (basados en la generacin de modelos de rbol y divisin de datos) con datos de dos fuentes de informacin diferentes. El estudio se ha aplicado al campo de bioinformtica con datos acerca de enfermedades, como cncer de pecho y de cerebro. A continuacin se detallan las aportaciones realizadas.
126
CAPTULO 7. CONCLUSIONES
7.1.1
Denicin de metodologa computacional de anlisis de Microarrays de ADN
En la actualidad, se han realizado un gran nmero de experimentos sobre anlisis de datos aplicados a la computacin biolgica, especcamente sobre microarrays de ADN. Muchos, sino todos, de dichos experimentos tienen una estructura u organizacin en comn, con ms o menos procesos o pasos, dependiendo del enfoque y estudio propuesto. Por tanto, en el captulo de estado del arte se ha propuesto una metodologa genrica para la realizacin de experimentos de anlisis de datos en biologa computacional, basada en las distintas referencias bibliogrcas estudiadas (artculos, libros, revisiones, etc.) y en un estndar de minera de datos como CRISP-DM. Esta metodologa aanza y engloba los conocimientos de dos campos de estudio, que aparentemente son diferentes, como son la Biologa y la minera de datos. Al igual que CRISP-DM, esta metodologa se divide en una serie de etapas en las que se realizan una serie de tareas, y comienza, desde que se obtiene el conjunto de datos origen hasta que se obtiene la solucin deseada al problema que plantean los expertos bilogos que trabajan con dicho conjunto de datos. Se considera, pues, que esta metodologa es un avance dentro del campo de la Bioinformtica, que ayudar a los investigadores a enfocar adecuadamente un problema de este tipo. Una de las etapas de la nueva metodologa propone un nuevo concepto en el anlisis de datos, denominado Aprendizaje Multiestrategia, el cual presenta la combinacin de las tcnicas de aprendizaje supervisado y no supervisado simultaneamente. En este trabajo se presenta un mecanismo de aprendizaje multiestrategia (ver la seccion de Uso de clasicacin no supervisada para enriquecimiento de clasicacin supervisada para ms informacin).
7.1.2
Denicin del algoritmo CliDaPa
Frente a los anlisis tradicionales de datos genticos y/o clnicos, se ha propuesto un mtodo diferente denominado CliDaPa (Clinical Data Partition). En ella, la nalidad es la de generar un modelo de rbol que representa la divisin del conjunto de datos a partir de una serie de datos clnicos. De esta forma, se obtendrn nuevos subconjuntos de datos, que representarn a distintos tipos de pacientes (segn datos clnicos) y stos sern estudiados de forma separada y especca mediante tcnicas de minera de datos. Para el desarrollo del algoritmo CliDaPa, se propusieron tres enfoques, uno de ellos lter y otros dos wrapper (voraz y GA). El enfoque lter presenta una idea sencilla y parecida al algoritmo C4.5, es decir, la seleccin de variables a dividir depende de la ganancia de informacin. Por otro lado, el enfoque voraz presenta la generacin del modelo del rbol, estudiando todas las posibilidades de divisin por dato clnico, y seleccionando aquel que mejor resultado obtenga.
7.1. APORTACIONES
127
Por ltimo, el enfoque GA presenta la evolucin de modelos de rbol denidos en CliDaPa, mediante un algoritmo gentico. Dicho enfoque fue el ms complejo de realizar (puesto que la representacin, mutacin y correccin del cromosoma era difcil de disear) y a la vez el que menor mejora ha producido. El objetivo de CliDaPa, denido anteriormente, se ha logrado satisfactoriamente, segn los resultados presentados en anteriores captulos.
7.1.3
Realizacin de nuevos mtodos de aprendizaje en CliDaPa
En el desarrollo del presente trabajo, se propusieron dos nuevos mtodos de aprendizaje, los cuales fueron: Por un lado, se ha propuesto un mtodo de clasicacin inteligente, capaz de seleccionar el mejor clasicador a partir de una validacin interna 0,632 Bootstrap. Por otro lado, se ha desarrollado un multiclasicador, basado en una tcnica Bagging, que permite tener en cuenta la decisin de todos los clasicadores, para la prediccin de la clase. Al desarrollarse, se cumplieron dos importantes objetivos respecto al algoritmo CliDaPa, los cuales son: Integrar nuevo mtodos de aprendizaje en CliDaPa, con el n de optimizar los resultados obtenidos con un simple mtodo de clasicacin Tener en cuenta la opinin de todos los clasicadores internamente, con el n de especicar o generalizar el problema, dependiendo del caso. El mtodo de votacin ha demostrado un excelente resultado puesto que, en todos los conjuntos de datos utilizados, se ha conseguido mejorar los resultados de clasicacin en un porcentaje elevado, al comparar con el mejor de los clasicadores simples. Se considera, por tanto, que los resultados que se han obtenido con este aporte proporcionan un gran avance dentro de este campo de estudio.
7.1.4
Uso de clasicacin no supervisada para enriquecimiento de clasicacin supervisada
Se ha propuesto, como tcnica de aprendizaje multiestrategia el uso de clasicacin no supervisada para la obtencin de nuevo conocimiento, con el n de usar dicho conocimiento como dato de entrada en la clasicacin supervisada. Ms especcamente, usando el algoritmo QT como mtodo de clasicacin no supervisada, se obtiene nuevo conocimiento, que es aplicado como nueva informacin clnica para tenerse en cuenta en ejecuciones del algoritmo CliDaPa. Con el desarrollo de este aporte, se pretendan obtener dos objetivos, los cuales son: Demostrar que la obtencin de informacin no supervisada ayuda a mejorar resultados en la clasicacin.
128
Estudio de la posible clasicacin de pacientes segn la informacin gentica. Este objetivo requiere conocimiento experto medico o biolgico, por lo que no ha podido ser validada del todo. Una vez desarrollado y presentados los resultados, se puede armar que el objetivo se ha logrado satisfactoriamente, es decir, los resultados obtenidos en este aporte proporcionan un gran avance dentro del campo de la Bioinformtica.
7.2
Publicaciones
Las publicaciones realizadas y presentadas a lo largo del desarrollo de la tesis doctoral complementan los estudios realizados de forma satisfactoria. A continuacin se presentan dichas publicaciones, divididas por revistas y congresos.
7.2.1
Revistas
Robles et al. 06 Optimizing logistic regression coefcients for discrimination and calibration using estimation of distribution algorithms. R. Forcada, B. Lozoya, L. Mgica, G. Tortosa, L Ohno. Journal of Statistical Computation & Simulation. 2008. Factor Impacto 0.04 Gonzalez et al. 09a CliDaPa: A new approach for combining clinical data DNA microarrays. S. Gonzlez, L. Guerra, V. Robles, JM. Pea, F. Famili. IDA Journal. 2009. Factor Impacto 0.04
7.2.2
Congresos
Gonzalez et al. 06 Mining DNA Microarrays Data using Logistic Regression. S. Gonzlez, V. Robles. 8th International Bioinformatics 2006 Conference. Arhus, Denmark. June 2006 LaTorre et al. 07 Breast Cancer Biomarker Selection Using Multiple Offspring Sampling. A. LaTorre, J.M. Pea, S. Gonzlez, O. Cubo, F. Famili. ECML/PKDD 2007, Poland, September 2007 Guerra et al. 08 CliDaPa: A new approach for combining clinical data with genes expressions. L.Guerra, S. Gonzlez, V. Robles, J.M.Pea and F.Famili. BGRS 2008 Moscow, Russia. July 2008 Gonzalez et al. 09b EDA-based Logistic Regression Applied to Biomarkers Selection in Breast Cancer. S. Gonzlez, V. Robles, A. LaTorre, O. Cubo and C. Bielza. IWPACBB2009, Salamanca, Spain, June 2009. Gonzalez et al. 10 Mechanism of obtaining unsupervised knowledge to enrich CliDaPa approach. S. Gonzlez, V. Robles, J. M. Pea and F. Famili. BGRS 2010 Moscow, Russia. June 2010 Gonzalez et al. 11 Bioinfomatic Mining Process: The biological and computational process of microarray data analysis. S. Gonzlez, V. Robles, J. M. Pea and F. Famili. IWPACBB11, Salamanca, Spain, April 2011 (en proceso).
7.3. LNEAS FUTURAS
129
7.3
Lneas Futuras
A pesar de alcanzar los objetivos que se han planteado en este trabajo de Tesis Doctoral, la profundizacin en las distintas reas implicadas permite identicar claramente una serie de lneas de investigacin que quedan abiertas a partir de las soluciones aportadas en este trabajo. stas son presentadas y agrupadas en las siguientes secciones: Funcionalidades que mejoraran el rendimiento de CliDaPa , donde se presentan nuevas las funcionalidades que permitan mejorar u optimizar el rendimiento de la implementacin actual del algoritmo CliDaPa. Otras nuevas lneas de investigacin , donde se muestran nuevas lneas de trabajo y funcionalidades que han quedado patente una vez que se dispone del algoritmo CliDaPa.
7.3.1
Funcionalidades para mejorar el rendimiento de CliDaPa
A continuacin se presentan las posibles mejoras que se podran realizar al algoritmo para mejorar el rendimiento del mismo. Paralelizacin del enfoque Voraz y GA Debido a la complejidad de los enfoques Voraz y GA (sobre todo este ltimo), los tiempos de ejecucin aumentaron de forma exponencial. Se plante realizar el desarrollo en paralelo a nivel de creacin de cada uno de los modelos de rbol, con el n de optimizar el tiempo de ejecucin. Sin embargo, por varios motivos no se realiz, los cuales fueron: El desarrollo de CliDaPa fue implementado en Java para poder hacer uso de la librera Weka. Por desgracia, a dia de hoy, no existe ninguna librera que implemente MPI en Java. Existen dos librerias (JavaMPI y JMPI), cuyo desarrollo se comenz hace unos aos, pero hoy en da se encuentran abandonadas puesto que, por las particularidades de la red de comunicacin, no pueden ser utilizadas en Magerit. Puesto que la nalidad de la tesis no es la de optimizar en tiempo y paralelismo, el desarrollo de una propia interfaz Java/C para desarrollo en MPI fue descartada. Sin embargo, dichos motivos no implican realizar dicho desarrollo. Existen, pues, varias posibilidades para desarrollar la aplicacin con MPI: Desarrollo de CliDaPa en C++ y desarrollo de una interfaz C++/Java para comunicarse con la librera Weka Desarrollo de una interfaz Java/C++ para comunicarse con la librera MPI de C++. Esperar a que algun otro grupo de desarrolladores implementen la nueva libreria JavaMPI.
130
Paralelizacin de la validacin 0,632 Bootstrap Al igual que se puede desarrollar en paralelo la generacin de cada modelo de rbol, se puede realizar el desarrollo en paralelo del algoritmo de validacin Bootstrap. Para ello, utilizando un modelo maestro/esclavo, cada esclavo calculara cada una de las iteraciones bootstrap y el maestro realizara el clculo 0,632 de la validacin a partir de los esclavos (ver gura 7.1).
Figura 7.1: Desarrollo del 0.632 Bootstrap en paralelo De igual manera que en la mejora anterior, el desarrollo no se realiz por los motivos antes mencionados. Y tambin, de igual manera, se podra hacer dicho desarrollo mediante las tres posibilidades antes comentadas, siendo este desarrollo mucho ms fcil. Seleccin automtica de umbral de CliDaPa Actualmente para la realizacin del clculo del umbral, es necesario realizar un estudio previo, donde se ejecutan una serie de experimentos con distintos valores de umbral, con el n de seleccionar aquel que mejores resultados obtenga. Pues bien, este proceso podra automatizarse dentro de la ejecucin de CliDaPa, con el n de calcular un umbral dependiendo de todos los factores o propiedades de ejecutar (no solo los datos clnicos). Mediante un mecanismo de optimizacin, tal como un greedy, algoritmo gentico, etc., se puede llegar a optimizar el valor del umbral, jando el resto de parmetros. Se debe tener en cuenta, para el clculo del umbral, que la divisin de los folds debe ser siempre la misma, puesto que sino, el resultado puede verse modicado por esta divisin. De esta forma, al ser la misma divisin, sta inuir exactamente lo mismo en todos los valores de umbral.
7.3.2
Nuevas lneas de investigacin
Otras lineas de investigacin, utilizando el algoritmo CliDaPa, han quedado sin explorar. A continuacin se presentan dichas lineas con el objetivo de poder ser exploradas en un futuro. Seleccin de datos genticos Hasta ahora, el aprendizaje supervisado se basa en el uso de mtodos de aprendizaje simples y aplicarlos sobre un subconjunto de datos genticos. Sin embargo, es posible que dichos
7.3. LNEAS FUTURAS
131
datos genticos no obtengan el mejor resultado, puesto que pueda existir ruido, replicacin de informacin, etc. Por tanto, la forma de optimizar este aprendizaje es utilizando una seleccin de atributos (o lo que tcnicamente se denomina Feature Subset Selection o FSS). De esta forma se logra, no solo eliminar atributos poco importantes para la clasicacin, sino que se reduce el problema de maldicin de dimensionalidad, anteriormente citado. Las tcnicas FSS suelen ser desarrolladas mediante un mecanismo wrapper de optimizacin. No obstante, teniendo en cuenta que se trata de un subconjunto pequeo de datos en la gran mayora de los casos, el mecanismo debe ser capaz de no caer en un problema de overtting. Por tanto, de alguna manera debe ser validada dicha seleccin. Por otro lado, el hecho de seleccionar un subconjunto gentico u otro, a pesar de haber sido validado mediante tcnicas de minera de datos, debe ser tambin validado y aceptado por expertos bilogos o mdicos en el rea. Este aspecto suele ocasionar bastantes problemas y retrasos a la hora de aplicarlo. Enfoques en CliDaPa En el presente trabajo se han propuesto tres enfoques de CliDaPa, uno lter y dos wrapper. No obstante, es posible aplicar otros mecanismos lter o wrapper al algoritmo CliDaPa. Como ejemplo, se plantea el uso de un mecanismo de optimizacin multiobjetivo con restricciones, capaz de optimizar ms de un objetivo a la vez siempre que cumpla una serie de restricciones mnimas. Hasta ahora, el principal objetivo del algoritmo CliDaPa en un enfoque wrapper era optimizar el valor del PBC, cumpliendo el mnimo umbral en cada divisin. Si bien eso era antes, en el futuro se podra tener en cuenta el hecho de optimizar el valor de umbral y el valor del PBC, e incluir alguna otra restriccin, como por ejemplo una mnima ganancia de informacin para poder seleccionarse un dato clnico. Si bien esto puede ocasionar mejoras, tambin puede provocar que el tiempo de ejecucin aumente exponencialmente. Por ello, ser necesario tener en cuenta una posible paralelizacin en procesos. Un posible ejemplo de como paralelizar un mecanismo multiobjetivo paralelo puede ser mediante el uso de tcnicas de paralelismo basadas en modelo de islas. El modelo de islas se basa en que, cada isla se representa como un proceso donde se optimiza un solo objetivo y donde se obtienen una serie de individuos optimizados (que en este caso especco, son representaciones de modelos de rbol CliDaPa). Luego, entre las distintas islas (que son procesos) se envian los mejores individuos con el n de seguir optimizando por otros objetivos. Finalmente se obtienen aquellos individuos que mejor han optimizados los objetivos. El proceso de optimizacin de cada isla puede ser tan complejo como se desee. Adaptive Quality o clustering probabilstico El algoritmo CliDaPa Multi utiliza el algoritmo QT para obtener el conocimiento no supervisado. Sin embargo, se sabe que el algoritmo Adaptive Quality obtiene mejores resultados. No obstante no se utiliz en este caso debido, tanto a la complejidad de implementar
132
dicho algoritmo como al tiempo de cmputo del mismo. Sin embargo, si se consiguiera el desarrollo de este algoritmo y se pudiera paralelizar fcilmente, sera interesante realizar el estudio con este algoritmo de clasicacin no supervisada. Por otro lado, la posibilidad de usar clustering probabilstico nueva informacin que puede ser interesante para el algoritmo CliDaPa Multi. Dicho tipo de algoritmos proporciona informacin acerca de la probabilidad de pertenencia de un paciente a un cluster o a otro. Teniendo en cuenta dichas probabilidades, se puede aumentar aun ms la informacin no supervisada, con vistas a mejorar la clasicacin de CliDaPa. Multi-label classication La clasicacion multi-etiqueta ha sido una investigacin muy poco explorada en el campo del anlisis de microarrays de ADN. Sin embargo, es fcilmente aplicable si se piensa, por ejemplo, en posibles distintos tratamientos de una enfermedad, utilizando distintos medicamentos. Esta clasicacin multi-etiqueta puede ser aplicada igualmente al algoritmo CliDaPa con pequeos cambios. Ser necesario, pues, realizar modicaciones sobre el algoritmo para poderse aplicar la idea de muticlasicacin. Medidas de distancia y parmetros de QT En la presente tesis se han utilizado 4 medidas de distancia para el algoritmo QT (dentro del algoritmo CliDaPa Multi), a saber: distancia eucldea, Manhattan, correlacin lineal de Pearson y BWC. Sin embargo, puede aplicarse cualquier otra medida de distancia, siempre que cumpla ciertas propiedades necesarias para ser aplicadas a expresiones genticas (que es el caso prctico en el que se est aplicando). Estudio y tratamiento de elementos no clasicados Hasta ahora el algoritmo CliDaPa Multi clasica como agrupacin 0 a los pacientes que no han sido clasicados de ninguna manera por QT. Dicha agrupacin es tratada como cualquier otra pero, sin embargo, no debera ser as. Se puede observar en la gura 7.2 de ejemplo, como los pacientes que no han sido agrupados en ningn cluster, se asignan todos en la misma agrupacin.
Figura 7.2: Ejemplo de clasicacin de QT Esto puede provocar que muchas veces que los elementos no clasicados que se agrupan en un mismo cluster dieran entre s. Por ello, se plantea la posibilidad de hacer una re-agrupacin de estos elementos
7.3. LNEAS FUTURAS
133
(mediante otro mtodo diferente a QT) para obtener una nueva clasicacin dentro de estos elementos. El resultado a obtener, segn el ejemplo anterior, podra ser el que se aprecia en la gura 7.3.
Figura 7.3: Ejemplo de Reclasicacin
Algoritmos de clasicacin El hecho de haber usado los cuatro algoritmos de clasicacin mas representativos, no supone el uso de otros algoritmos de clasicacin. En su momento se descartaron SVM y NBTree por ser demasiado lentos de ejecutar, y no obtener mejores resultados. Sin embargo, otros algoritmos de clasicacin pueden ser aplicados perfectamente dentro del algoritmo CliDaPa.
7.3.3
Aplicacin a otros campos de estudio
Esta tesis ha sido aplicada al campo de la Bioinformtica, especcamente al uso de datos clnicos y genticos para el diagnostico y pronstico de enfermedades como el cncer. Sin embargo, el algoritmo CliDaPa, as como todas sus variantes, puede ser aplicado a cualquier otro tipo de estudio, o incluso cualquier otro campo de aplicacin, siempre que dicho campo posea dos o ms fuentes de informacin diferentes y que sean de gran relevancia en el problema. Dentro del campo de la Bioinformtica, se plantean nuevos estudios como, por ejemplo, el estudio de distintos frmacos para una enfermdad (estudio que se est realizando en colaboracin con el Hospital de la Paz), clasicacin de tipos de enfermedades, estudios temporales de enfermedades como el Alzheimer, etc. Por otro lado, gracias al proyecto Cajal Blue Brain, se abre un nuevo mundo de exploracin en Neurociencia, en el que se puede aplicar el algoritmo CliDaPa. Por ejemplo, ste puede ser aplicado en el anlisis fMRI, utilizando la informacin electrosiolgica. Por ltimo, el algoritmo CliDaPa puede ser utilizado en otros campos de aplicacin (como Geo-Marketing, Publicidad, etc), siempre que el hecho de combinar dos fuentes de informacin, hasta ahora no combinadas, permita solucionar problemas de manera ms ptima.
134
Parte V
APNDICES
Apndice A
Conjuntos de datos y experimentos
En este captulo se muestra la relacin de atributos utilizados en los tres conjuntos de datos empleados en la investigacin.
A.1
Vant Veer
Aqu se exponen los atributos del conjunto de datos de Vant Veer: @RELATION DataTable
@ATTRIBUTE class {0 ,1} @ATTRIBUTE AF201951 REAL @ATTRIBUTE NM_003239 REAL @ATTRIBUTE NM_001809 REAL @ATTRIBUTE Contig32185_RC REAL @ATTRIBUTE X05610 REAL @ATTRIBUTE NM_020188 REAL @ATTRIBUTE NM_003607 REAL @ATTRIBUTE NM_020386 REAL @ATTRIBUTE NM_002916 REAL @ATTRIBUTE AF052162 REAL @ATTRIBUTE NM_003748 REAL
138
APNDICE A. CONJUNTOS DE DATOS Y EXPERIMENTOS
@ATTRIBUTE NM_003862 REAL @ATTRIBUTE NM_003875 REAL @ATTRIBUTE NM_003882 REAL @ATTRIBUTE NM_003981 REAL @ATTRIBUTE NM_006101 REAL @ATTRIBUTE NM_006117 REAL @ATTRIBUTE NM_004702 REAL @ATTRIBUTE AF257175 REAL @ATTRIBUTE Contig48328_RC REAL @ATTRIBUTE AA555029_RC REAL @ATTRIBUTE NM_014321 REAL @ATTRIBUTE NM_007036 REAL @ATTRIBUTE NM_020974 REAL @ATTRIBUTE Contig51464_RC REAL @ATTRIBUTE NM_004994 REAL @ATTRIBUTE AL080059 REAL @ATTRIBUTE AL080079 REAL @ATTRIBUTE NM_007203 REAL @ATTRIBUTE Contig55377_RC REAL @ATTRIBUTE AF055033 REAL @ATTRIBUTE U82987 REAL @ATTRIBUTE NM_005915 REAL @ATTRIBUTE NM_006681 REAL @ATTRIBUTE NM_014791 REAL @ATTRIBUTE Contig38288_RC REAL @ATTRIBUTE NM_014889 REAL @ATTRIBUTE Contig55725_RC REAL @ATTRIBUTE NM_016359 REAL @ATTRIBUTE NM_006931 REAL @ATTRIBUTE Contig46223_RC REAL @ATTRIBUTE NM_016448 REAL @ATTRIBUTE AK000745 REAL @ATTRIBUTE Contig20217_RC REAL @ATTRIBUTE AB037863 REAL @ATTRIBUTE NM_016577 REAL @ATTRIBUTE Contig28552_RC REAL
A.2. VAN DE VIJVER
139
@ATTRIBUTE Contig40831_RC REAL @ATTRIBUTE AL137718 REAL @ATTRIBUTE NM_015984 REAL @ATTRIBUTE Contig63102_RC REAL @ATTRIBUTE NM_000127 REAL @ATTRIBUTE Contig63649_RC REAL @ATTRIBUTE NM_018354 REAL @ATTRIBUTE NM_018401 REAL @ATTRIBUTE Contig2399_RC REAL @ATTRIBUTE Contig24252_RC REAL @ATTRIBUTE AF073519 REAL @ATTRIBUTE NM_000436 REAL @ATTRIBUTE Contig35251_RC REAL @ATTRIBUTE Contig56457_RC REAL @ATTRIBUTE NM_001282 REAL @ATTRIBUTE NM_000599 REAL @ATTRIBUTE NM_002019 REAL @ATTRIBUTE Contig46218_RC REAL @ATTRIBUTE NM_002073 REAL @ATTRIBUTE Contig32125_RC REAL @ATTRIBUTE Contig25991 REAL @ATTRIBUTE NM_000788 REAL @ATTRIBUTE NM_000849 REAL @ATTRIBUTE age REAL @ATTRIBUTE diameter REAL @ATTRIBUTE grade REAL @ATTRIBUTE angioinvasion REAL @ATTRIBUTE erp REAL @ATTRIBUTE prp REAL @ATTRIBUTE lymphocytic REAL
A.2
Van de Vijver
Aqu se exponen los atributos del conjunto de datos de Van de Vijver: @RELATION DataTable
140
@ATTRIBUTE class {0 ,1} @ATTRIBUTE ESR1 INTEGER @ATTRIBUTE NIH INTEGER @ATTRIBUTE StGallen INTEGER @ATTRIBUTE Posnodes {n,y} @ATTRIBUTE TIMEsurvival REAL @ATTRIBUTE TIMErecurrence REAL @ATTRIBUTE AL080059 REAL @ATTRIBUTE Contig63649_RC REAL @ATTRIBUTE Contig46218_RC REAL @ATTRIBUTE NM_016359 REAL @ATTRIBUTE AA555029_RC REAL @ATTRIBUTE NM_003748 REAL @ATTRIBUTE Contig38288_RC REAL @ATTRIBUTE NM_003862 REAL @ATTRIBUTE Contig28552_RC REAL @ATTRIBUTE Contig32125_RC REAL @ATTRIBUTE U82987 REAL @ATTRIBUTE AL137718 REAL @ATTRIBUTE AB037863 REAL @ATTRIBUTE NM_020188 REAL @ATTRIBUTE NM_020974 REAL @ATTRIBUTE NM_000127 REAL @ATTRIBUTE NM_002019 REAL @ATTRIBUTE NM_002073 REAL @ATTRIBUTE NM_000436 REAL @ATTRIBUTE NM_004994 REAL @ATTRIBUTE Contig55377_RC REAL @ATTRIBUTE Contig35251_RC REAL @ATTRIBUTE Contig25991 REAL @ATTRIBUTE NM_003875 REAL @ATTRIBUTE NM_006101 REAL @ATTRIBUTE NM_003882 REAL @ATTRIBUTE NM_003607 REAL @ATTRIBUTE AF073519 REAL @ATTRIBUTE AF052162 REAL
A.2. VAN DE VIJVER
141
@ATTRIBUTE NM_000849 REAL @ATTRIBUTE Contig32185_RC REAL @ATTRIBUTE NM_016577 REAL @ATTRIBUTE Contig48328_RC REAL @ATTRIBUTE Contig46223_RC REAL @ATTRIBUTE NM_015984 REAL @ATTRIBUTE NM_006117 REAL @ATTRIBUTE AK000745 REAL @ATTRIBUTE Contig40831_RC REAL @ATTRIBUTE NM_003239 REAL @ATTRIBUTE NM_014791 REAL @ATTRIBUTE X05610 REAL @ATTRIBUTE NM_016448 REAL @ATTRIBUTE NM_018401 REAL @ATTRIBUTE NM_000788 REAL @ATTRIBUTE Contig51464_RC REAL @ATTRIBUTE AL080079 REAL @ATTRIBUTE NM_006931 REAL @ATTRIBUTE AF257175 REAL @ATTRIBUTE NM_014321 REAL @ATTRIBUTE NM_002916 REAL @ATTRIBUTE Contig55725_RC REAL @ATTRIBUTE Contig24252_RC REAL @ATTRIBUTE AF201951 REAL @ATTRIBUTE NM_005915 REAL @ATTRIBUTE NM_001282 REAL @ATTRIBUTE Contig56457_RC REAL @ATTRIBUTE NM_000599 REAL @ATTRIBUTE NM_020386 REAL @ATTRIBUTE NM_014889 REAL @ATTRIBUTE AF055033 REAL @ATTRIBUTE NM_006681 REAL @ATTRIBUTE NM_007203 REAL @ATTRIBUTE Contig63102_RC REAL @ATTRIBUTE NM_003981 REAL @ATTRIBUTE Contig20217_RC REAL
142
@ATTRIBUTE NM_001809 REAL @ATTRIBUTE Contig2399_RC REAL @ATTRIBUTE NM_004702 REAL @ATTRIBUTE NM_007036 REAL @ATTRIBUTE NM_018354 REAL
A.3
Brain Cancer
Aqu se exponen los atributos del conjunto de datos de Brain Cancer: @RELATION DataTable
@ATTRIBUTE class {1,0} @ATTRIBUTE Subtype {1,0} @ATTRIBUTE ChangState REAL @ATTRIBUTE Sex {1,0} @ATTRIBUTE vincristine {1,0} @ATTRIBUTE cisplatin {1,0} @ATTRIBUTE cytoxan {1,0} @ATTRIBUTE etoposide {1,0} @ATTRIBUTE CCNU {1,0} @ATTRIBUTE carboplatin {1,0} @ATTRIBUTE procarbazine {1,0} @ATTRIBUTE methotrexate {1,0} @ATTRIBUTE thiotepa {1,0} @ATTRIBUTE Age REAL @ATTRIBUTE Followup REAL @ATTRIBUTE AFFX-CreX-5_at REAL @ATTRIBUTE AF002700_at REAL @ATTRIBUTE D14686_at REAL @ATTRIBUTE D26561_cds3_at REAL @ATTRIBUTE D28124_at REAL @ATTRIBUTE D29956_at REAL @ATTRIBUTE D42108_at REAL @ATTRIBUTE D78012_at REAL @ATTRIBUTE D80004_at REAL @ATTRIBUTE D83018_at REAL
A.3. BRAIN CANCER
143
@ATTRIBUTE D86479_at REAL @ATTRIBUTE D86977_at REAL @ATTRIBUTE HG2059-HT2114_at REAL @ATTRIBUTE HG2417-HT2513_at REAL @ATTRIBUTE HG2525-HT2621_at REAL @ATTRIBUTE J02611_at REAL @ATTRIBUTE L13923_at REAL @ATTRIBUTE L17131_rna1_at REAL @ATTRIBUTE L18983_at REAL @ATTRIBUTE L33799_at REAL @ATTRIBUTE M12625_at REAL @ATTRIBUTE M13194_at REAL @ATTRIBUTE M18728_at REAL @ATTRIBUTE M55593_at REAL @ATTRIBUTE M73547_at REAL @ATTRIBUTE M79462_at REAL @ATTRIBUTE M92303_at REAL @ATTRIBUTE M96739_at REAL @ATTRIBUTE M97287_at REAL @ATTRIBUTE S71824_at REAL @ATTRIBUTE S76475_at REAL @ATTRIBUTE S78296_at REAL @ATTRIBUTE U07563_cds1_at REAL @ATTRIBUTE U08998_at REAL @ATTRIBUTE U09607_at REAL @ATTRIBUTE U20657_at REAL @ATTRIBUTE U21936_at REAL @ATTRIBUTE U28811_at REAL @ATTRIBUTE U28963_at REAL @ATTRIBUTE U31201_cds1_at REAL @ATTRIBUTE U37673_at REAL @ATTRIBUTE U41737_at REAL @ATTRIBUTE U43959_at REAL @ATTRIBUTE U50136_rna1_at REAL @ATTRIBUTE U57092_at REAL @ATTRIBUTE U60269_cds3_at REAL
144
@ATTRIBUTE U60519_at REAL @ATTRIBUTE U61166_at REAL @ATTRIBUTE U63455_at REAL @ATTRIBUTE U66619_at REAL @ATTRIBUTE U70867_at REAL @ATTRIBUTE U77604_at REAL @ATTRIBUTE U78180_at REAL @ATTRIBUTE U78556_at REAL @ATTRIBUTE U82010_rna1_at REAL @ATTRIBUTE U90912_at REAL @ATTRIBUTE U95740_rna2_at REAL @ATTRIBUTE X05360_at REAL @ATTRIBUTE X13293_at REAL @ATTRIBUTE X14787_at REAL @ATTRIBUTE X15880_at REAL @ATTRIBUTE X15882_at REAL @ATTRIBUTE X57766_at REAL @ATTRIBUTE X59798_at REAL @ATTRIBUTE X62573_at REAL @ATTRIBUTE X63657_at REAL @ATTRIBUTE X69398_at REAL @ATTRIBUTE X69636_at REAL @ATTRIBUTE X74801_at REAL @ATTRIBUTE X76302_at REAL @ATTRIBUTE Y07604_at REAL @ATTRIBUTE Y09616_at REAL @ATTRIBUTE Y10615_at REAL @ATTRIBUTE U22816_at REAL @ATTRIBUTE Z18956_at REAL @ATTRIBUTE HG2157-HT2227_at REAL @ATTRIBUTE AB006781_s_at REAL @ATTRIBUTE L09229_s_at REAL @ATTRIBUTE D43682_s_at REAL @ATTRIBUTE HG2994-HT4850_s_at REAL @ATTRIBUTE HG4011-HT4804_s_at REAL @ATTRIBUTE HG4318-HT4588_s_at REAL
A.4. EXPERIMENTOS
145
@ATTRIBUTE HG884-HT884_s_at REAL @ATTRIBUTE L10333_s_at REAL @ATTRIBUTE L14848_s_at REAL @ATTRIBUTE S66541_s_at REAL @ATTRIBUTE M30257_s_at REAL @ATTRIBUTE M64269_s_at REAL @ATTRIBUTE M74715_s_at REAL @ATTRIBUTE X03794_s_at REAL @ATTRIBUTE U75276_s_at REAL @ATTRIBUTE U33448_s_at REAL @ATTRIBUTE D17793_at REAL @ATTRIBUTE X90530_at REAL @ATTRIBUTE L35594_at REAL @ATTRIBUTE M25667_at REAL
A.4
Experimentos
En esta seccin se presenta la traza de ejecucin de un experimento del algoritmo CliDaPa con las siguientes caractersticas: Conjunto de Datos Aproximacin Clasicador Umbral Folds Vant Veer Filter Nive Bayes 40 10
Tabla A.1: Informacin de un experimento CliDaPa A continuacin, se muestra y se describe la traza de ejecucin de un solo fold: [CliDaPa] Divided dataset into 10 Folds. [CliDaPa] FOLD 0 [CliDaPa] Reading ./data/Balance001/Train_0_0.arff ... (86 inst.) [CliDaPa] Reading ./data/Balance001/Test_0_0.arff ... (10 inst.) [CliDaPa] Generating Tree with train file... [Leaf] Clinical Data selected: grade [Leafs] Division grade=1 not DONE! [Leafs] Division grade=2 not DONE! [Leafs] grade=3 DIVIDED! (55 inst.) [Leaf] LEAF grade=3
146
[Leaf] Clinical Data selected: diameter(6) [Leafs] Division diameter(6)=0 not DONE! [Leafs] Division diameter(6)=1 not DONE! [Leafs] Division diameter(6)=2 not DONE! [Leafs] Division diameter(6)=3 not DONE! [Leafs] Division diameter(6)=4 not DONE! [Leafs] Division diameter(6)=5 not DONE! [Leaf] Finally NOT divided by diameter(6) [CliDaPa] TREE: [ [grade=3] (55 inst) ] [CliDaPa] INTERNAL VALIDATION: 80.6116497631664 [CliDaPa] TEST TREE: [ [grade=1] (2 inst) [grade=2] (3 inst) [grade=3] (5 inst) ] [CliDaPa] EXTERNAL VALIDATION Fold 0: 90.0 Como se puede observar, se ha dividido el rbol segn el dato clnico grade, donde solo una de sus tres divisiones se ha realizado en el aprendizaje (grade = 3). Una vez obtenida la divisin, se ha intentado dividir el subconjunto de grade = 3 con el dato clnico diameter(6), pero sin xito debido a que ningn subconjunto cumpla el mnimo umbral. Por tanto, el modelo de rbol es el que se muestra en la gura ??. Segn la validacin interna (Bootstrap), el modelo del rbol tiene un valor de clasicacin correcta de 80.61 %.
Figura A.1: Modelo de rbol CliDaPa Seguidamente, se aplica el modelo del rbol al conjunto de validacin, es decir, se divide por el dato clnico grade. El resultado obtenido se muestra en la gura ??. Al hacer la validacin, se aplica el modelo de
A.4. EXPERIMENTOS
147
aprendizaje Mgrade=3 al subconjunto de validacin grade = 3. Para los otros dos subconjuntos de validacin, se aplica el modelo clasicador M. El resultado de la validacin tiene un valor de clasicacin del 90 %. Una vez comentada la traza de ejecucin de un fold, se muestra el resto de la traza. [CliDaPa] FOLD 1 [CliDaPa] Reading ./data/Balance001/Train_0_1.arff ... (86 inst.) [CliDaPa] Reading ./data/Balance001/Test_0_1.arff ... (10 inst.) [CliDaPa] Generating Tree with train file... [Leaf] Clinical Data selected: grade [Leafs] Division grade=1 not DONE! [Leafs] Division grade=2 not DONE! [Leafs] grade=3 DIVIDED! (53 inst.) [Leaf] LEAF grade=3 [Leaf] Clinical Data selected: diameter(6) [Leafs] Division diameter(6)=0 not DONE! [Leafs] Division diameter(6)=1 not DONE! [Leafs] Division diameter(6)=2 not DONE! [Leafs] Division diameter(6)=3 not DONE! [Leafs] Division diameter(6)=4 not DONE! [Leafs] Division diameter(6)=5 not DONE! [Leaf] Finally NOT divided by diameter(6) [CliDaPa] TREE: [ [grade=3] (53 inst) ] [CliDaPa] INTERNAL VALIDATION: 79.31930030436047 [CliDaPa] TEST TREE: [ [grade=2] (3 inst) [grade=3] (7 inst) ] [CliDaPa] EXTERNAL VALIDATION Fold 1: 100.0 [CliDaPa] FOLD 2 [CliDaPa] Reading ./data/Balance001/Train_0_2.arff ... (86 inst.) [CliDaPa] Reading ./data/Balance001/Test_0_2.arff ... (10 inst.) [CliDaPa] Generating Tree with train file... [Leaf] Clinical Data selected: diameter(6) [Leafs] Division diameter(6)=0 not DONE! [Leafs] Division diameter(6)=1 not DONE!
148
[Leafs] Division diameter(6)=2 not DONE! [Leafs] Division diameter(6)=3 not DONE! [Leafs] Division diameter(6)=4 not DONE! [Leafs] Division diameter(6)=5 not DONE! [Leaf] Finally NOT divided by diameter(6) [CliDaPa] TREE: [
] [CliDaPa] INTERNAL VALIDATION: 82.32953964391919 [CliDaPa] TEST TREE: [
] [CliDaPa] EXTERNAL VALIDATION Fold 2: 80.0 [CliDaPa] FOLD 3 [CliDaPa] Reading ./data/Balance001/Train_0_3.arff ... (86 inst.) [CliDaPa] Reading ./data/Balance001/Test_0_3.arff ... (10 inst.) [CliDaPa] Generating Tree with train file... [Leaf] Clinical Data selected: grade [Leafs] Division grade=1 not DONE! [Leafs] Division grade=2 not DONE! [Leafs] grade=3 DIVIDED! (53 inst.) [Leaf] LEAF grade=3 [Leaf] Clinical Data selected: age(6) [Leafs] Division age(6)=0 not DONE! [Leafs] Division age(6)=1 not DONE! [Leafs] Division age(6)=2 not DONE! [Leafs] Division age(6)=3 not DONE! [Leafs] Division age(6)=4 not DONE! [Leafs] Division age(6)=5 not DONE! [Leaf] Finally NOT divided by age(6) [CliDaPa] TREE: [ [grade=3] (53 inst) ] [CliDaPa] INTERNAL VALIDATION: 79.83861032943099 [CliDaPa] TEST TREE: [ [grade=2] (3 inst)
A.4. EXPERIMENTOS
149
[grade=3] (7 inst) ] [CliDaPa] EXTERNAL VALIDATION Fold 3: 100.0 [CliDaPa] FOLD 4 [CliDaPa] Reading ./data/Balance001/Train_0_4.arff ... (86 inst.) [CliDaPa] Reading ./data/Balance001/Test_0_4.arff ... (10 inst.) [CliDaPa] Generating Tree with train file... [Leaf] Clinical Data selected: grade [Leafs] Division grade=1 not DONE! [Leafs] Division grade=2 not DONE! [Leafs] grade=3 DIVIDED! (55 inst.) [Leaf] LEAF grade=3 [Leaf] Clinical Data selected: diameter(6) [Leafs] Division diameter(6)=0 not DONE! [Leafs] Division diameter(6)=1 not DONE! [Leafs] Division diameter(6)=2 not DONE! [Leafs] Division diameter(6)=3 not DONE! [Leafs] Division diameter(6)=4 not DONE! [Leafs] Division diameter(6)=5 not DONE! [Leaf] Finally NOT divided by diameter(6) [CliDaPa] TREE: [ [grade=3] (55 inst) ] [CliDaPa] INTERNAL VALIDATION: 81.77062670720498 [CliDaPa] TEST TREE: [ [grade=1] (2 inst) [grade=2] (3 inst) [grade=3] (5 inst) ] [CliDaPa] EXTERNAL VALIDATION Fold 4: 80.0 [CliDaPa] FOLD 5 [CliDaPa] Reading ./data/Balance001/Train_0_5.arff ... (86 inst.) [CliDaPa] Reading ./data/Balance001/Test_0_5.arff ... (10 inst.) [CliDaPa] Generating Tree with train file... [Leaf] Clinical Data selected: grade [Leafs] Division grade=1 not DONE!
150
[Leafs] Division grade=2 not DONE! [Leafs] grade=3 DIVIDED! (54 inst.) [Leaf] LEAF grade=3 [Leaf] Clinical Data selected: erp(5) [Leafs] Division erp(5)=0 not DONE! [Leafs] Division erp(5)=1 not DONE! [Leafs] Division erp(5)=2 not DONE! [Leafs] Division erp(5)=3 not DONE! [Leafs] Division erp(5)=4 not DONE! [Leaf] Finally NOT divided by erp(5) [CliDaPa] TREE: [ [grade=3] (54 inst) ] [CliDaPa] INTERNAL VALIDATION: 82.01023437369028 [CliDaPa] TEST TREE: [ [grade=1] (1 inst) [grade=2] (3 inst) [grade=3] (6 inst) ] [CliDaPa] EXTERNAL VALIDATION Fold 5: 80.0 [CliDaPa] FOLD 6 [CliDaPa] Reading ./data/Balance001/Train_0_6.arff ... (87 inst.) [CliDaPa] Reading ./data/Balance001/Test_0_6.arff ... (9 inst.) [CliDaPa] Generating Tree with train file... [Leaf] Clinical Data selected: grade [Leafs] Division grade=1 not DONE! [Leafs] Division grade=2 not DONE! [Leafs] grade=3 DIVIDED! (53 inst.) [Leaf] LEAF grade=3 [Leaf] Clinical Data selected: diameter(5) [Leafs] Division diameter(5)=0 not DONE! [Leafs] Division diameter(5)=1 not DONE! [Leafs] Division diameter(5)=2 not DONE! [Leafs] Division diameter(5)=3 not DONE! [Leafs] Division diameter(5)=4 not DONE! [CliDaPa] TREE: [
A.4. EXPERIMENTOS
151
[grade=3] (53 inst) ] [CliDaPa] INTERNAL VALIDATION: 81.30527658252207 [CliDaPa] TEST TREE: [ [grade=1] (1 inst) [grade=2] (1 inst) [grade=3] (7 inst) ] [CliDaPa] EXTERNAL VALIDATION Fold 6: 88.88888888888889 [CliDaPa] FOLD 7 [CliDaPa] Reading ./data/Balance001/Train_0_7.arff ... (87 inst.) [CliDaPa] Reading ./data/Balance001/Test_0_7.arff ... (9 inst.) [CliDaPa] Generating Tree with train file... [Leaf] Clinical Data selected: age(6) [Leafs] Division age(6)=0 not DONE! [Leafs] Division age(6)=1 not DONE! [Leafs] Division age(6)=2 not DONE! [Leafs] Division age(6)=3 not DONE! [Leafs] Division age(6)=4 not DONE! [Leafs] Division age(6)=5 not DONE! [CliDaPa] TREE: [
] [CliDaPa] INTERNAL VALIDATION: 82.8659358768652 [CliDaPa] TEST TREE: [
] [CliDaPa] EXTERNAL VALIDATION Fold 7: 88.88888888888889 [CliDaPa] FOLD 8 [CliDaPa] Reading ./data/Balance001/Train_0_8.arff ... (87 inst.) [CliDaPa] Reading ./data/Balance001/Test_0_8.arff ... (9 inst.) [CliDaPa] Generating Tree with train file... [Leaf] Clinical Data selected: grade [Leafs] Division grade=1 not DONE! [Leafs] Division grade=2 not DONE! [Leafs] grade=3 DIVIDED! (52 inst.)
152
[Leaf] LEAF grade=3 [Leaf] Clinical Data selected: diameter(6) [Leafs] Division diameter(6)=0 not DONE! [Leafs] Division diameter(6)=1 not DONE! [Leafs] Division diameter(6)=2 not DONE! [Leafs] Division diameter(6)=3 not DONE! [Leafs] Division diameter(6)=4 not DONE! [Leafs] Division diameter(6)=5 not DONE! [Leaf] Finally NOT divided by diameter(6) [CliDaPa] TREE: [ [grade=3] (52 inst) ] [CliDaPa] INTERNAL VALIDATION: 82.74152099325785 [CliDaPa] TEST TREE: [ [grade=1] (1 inst) [grade=3] (8 inst) ] [CliDaPa] EXTERNAL VALIDATION Fold 8: 66.66666666666667 [CliDaPa] FOLD 9 [CliDaPa] Reading ./data/Balance001/Train_0_9.arff ... (87 inst.) [CliDaPa] Reading ./data/Balance001/Test_0_9.arff ... (9 inst.) [CliDaPa] Generating Tree with train file... [Leaf] Clinical Data selected: grade [Leafs] Division grade=1 not DONE! [Leafs] Division grade=2 not DONE! [Leafs] grade=3 DIVIDED! (55 inst.) [Leaf] LEAF grade=3 [Leaf] Clinical Data selected: diameter(6) [Leafs] Division diameter(6)=0 not DONE! [Leafs] Division diameter(6)=1 not DONE! [Leafs] Division diameter(6)=2 not DONE! [Leafs] Division diameter(6)=3 not DONE! [Leafs] Division diameter(6)=4 not DONE! [Leafs] Division diameter(6)=5 not DONE! [Leaf] Finally NOT divided by diameter(6) [CliDaPa] TREE: [
A.4. EXPERIMENTOS
153
[grade=3] (55 inst) ] [CliDaPa] INTERNAL VALIDATION: 81.6152993568464 [CliDaPa] TEST TREE: [ [grade=1] (1 inst) [grade=2] (3 inst) [grade=3] (5 inst) ] [CliDaPa] EXTERNAL VALIDATION Fold 9: 77.77777777777777 [CliDaPa] MEAN EXTERNAL VALIDATION: 85.41666666666667
154
Apndice B
Informacin sobre el uso de QT
En este captulo se motrarn datos de ejemplo de uso del algoritmo QT para obtener conocimiento nuevo para el algoritmo CliDaPa Semi.
B.1
Codigo de Correlacin Biweight
A continuacin se presenta el codigo fuente en R-project obtenido de [] y modicado para el estudio presentado: library(rrcov)
ksolve <- function(d,p,c1,b0){ k <- 1 iter <- 1 crit <- 100 eps <- 1e-10 while ((crit > eps)&(iter<100)){ k.old <- k fk <- mean(rhobw(d/k,c1),na.rm=T)-b0 fkp <- -mean(psibw(d/k,c1)*d/k^2,na.rm=T) if (fkp==0) {k<-NA return(k)
156
APNDICE B. INFORMACIN SOBRE EL USO DE QT
stop("no values close enough")} k <- k - fk/fkp if (k < 0) k <- k.old/2
crit <- abs(k-k.old) iter <- iter+1 return(k) } }
rhobw <- function(x,c1){ ivec <- (abs(x)>c1) return((c1^2/6)*ivec +(1-ivec)*(x^2/2-x^4/(2*c1^2)+x^6/(6*c1^4)))}
psibw <- function(x,c1){ ivec <- (abs(x)>c1) return((1-ivec)*(x*(1-(x/c1)^2)^2))}
wtbw <- function(x,c1){ ivec <- (abs(x)>c1) return((1-ivec)*(1-(x/c1)^2)^2)}
vbw <- function(x,c1) return(psibw(x,c1)*x)
erho.bw <- function(p,c1) return(chi.int(p,2,c1)/2-chi.int(p,4,c1)/(2*c1^2)+ chi.int(p,6,c1)/(6*c1^4)+c1^2*chi.int2(p,0,c1)/6)
erho.bw.p <- function(p,c1) return(chi.int.p(p,2,c1)/2-chi.int.p(p,4,c1)/(2*c1^2)+ 2*chi.int(p,4,c1)/(2*c1^3)+chi.int.p(p,6,c1)/(6*c1^4)4*chi.int(p,6,c1)/(6*c1^5)+c1^2*chi.int2.p(p,0,c1)/6 +2*c1*chi.int2(p,0,c1)/6)
chi.int <- function(p,a,c1) return( exp(lgamma((p+a)/2)-lgamma(p/2))*2^{a/2}*pchisq(c1^2,p+a) ) chi.int2 <- function(p,a,c1)
B.1. CODIGO DE CORRELACIN BIWEIGHT
157
return( exp(lgamma((p+a)/2)-lgamma(p/2))*2^{a/2}*(1-pchisq(c1^2,p+a)) ) chi.int.p <- function(p,a,c1) return( exp(lgamma((p+a)/2)-lgamma(p/2))*2^{a/2}*dchisq(c1^2,p+a)*2*c1 ) chi.int2.p <- function(p,a,c1) return( -exp(lgamma((p+a)/2)-lgamma(p/2))*2^{a/2}*dchisq(c1^2,p+a)*2*c1 )
rejpt.bw <- function(p,r){ c1 <- 2*p iter <- 1 crit <- 100 eps <- 1e-5 while ((crit > eps)&(iter<100)){ c1.old <- c1 fc <- erho.bw(p,c1) - c1^2*r/6 fcp <- erho.bw.p(p,c1) - c1*r/3 c1 <- c1 - fc/fcp if (c1 < 0) c1 <- c1.old/2
crit <- abs(fc) iter <- iter+1 }
return(c(c1,pchisq(c1^2,p),log10(1-pchisq(c1^2,p))))}
biwt.est <- function(x,n,p=2,r,c1,b0,med.init){ NAid<-FALSE d <- sqrt(mahalanobis(x,med.init$center,med.init$cov)) k <- ksolve(d,p,c1,b0)
if(is.na(k)) { NAid<-TRUE med.init <- covMcd(x) d <- sqrt(mahalanobis(x,med.init$center,med.init$cov)) k <- ksolve(d,p,c1,b0) } eps <- 1e-5
158
crit <- 100 iter <- 1 while (crit > eps & iter < 100) { d <- d/k biwt.mu <- apply(wtbw(d,c1)*x,2,sum,na.rm=T) / sum (wtbw(d,c1),na.rm=T) cent <- array(dim=c(n,p,p)) for (i in 1:n){ cent[i,,] <- (x[i,] - biwt.mu)%*%t(x[i,]-biwt.mu) } biwt.sig <- apply(cent*wtbw(d,c1),c(2,3),sum,na.rm=T) / sum(vbw(d,c1),na.rm=T)
d2 <- sqrt(mahalanobis(x,biwt.mu,biwt.sig)) k <- ksolve(d2,p,c1,b0) crit <- max(abs(d-(d2/k)),na.rm=T) d <- d2 iter <iter+1}
return(list(biwt.mu=biwt.mu,biwt.sig=biwt.sig))}
bwc <- function(ds, r=0.1) { n1 <- nrow(ds)
c1<-rejpt.bw(p=2,r)[1] b0<-erho.bw(p=2,c1)[1]
samp.init <- list() samp.init$cov <- diag(apply(ds,2,mad,na.rm=T)) samp.init$center <- apply(ds,2,median,na.rm=T) samp.bw <- biwt.est(ds,n1,p=2,r,c1,b0,samp.init)
samp.bw.corr <- samp.bw$biwt.sig[1,2] / sqrt(samp.bw$biwt.sig[1,1]*samp.bw$biwt.sig[2,2 return (samp.bw.corr) }
bwc.matrix <- function(ds) { names(ds) <- 1:ncol(ds) correlation <- matrix(data=0,nrow=nrow(ds),ncol=nrow(ds))
B.2. DATOS OBTENIDOS CON QT EN BWC EN BRAIN CANCER
159
for (idx.i in 1:(nrow(ds)-1)) { for (idx.j in (idx.i+1):nrow(ds)) {
correlation[idx.i,idx.j] <- bwc(t(matrix(as.matrix(ds[c(idx.i, idx.j),]), 2, ncol(ds)))) } } return (correlation) }
B.2
Datos obtenidos con QT en BWC en Brain Cancer
Pa 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
s0 0 1 0 0 0 0 3 5 0 0 0 0 0 0 3 3 5 0 0 2 2 0 1 4 0 0 0 0 2 1
s1 0 1 4 0 0 0 0 4 6 0 6 0 0 0 1 5 4 0 0 2 1 0 1 3 5 0 7 0 2 1
s2 0 1 4 4 0 5 1 4 6 0 6 0 4 0 1 5 4 0 0 3 1 0 2 2 0 0 3 0 3 2
s3 0 1 4 4 0 6 1 3 8 0 4 0 3 5 1 6 3 6 0 3 1 0 2 2 0 3 1 7 7 2
s4 0 1 5 5 0 0 1 2 4 0 4 0 3 1 1 1 3 0 4 3 1 0 2 2 1 3 2 0 0 2
s5 6 1 2 2 0 0 1 2 1 3 2 6 2 4 1 1 2 1 7 2 1 0 1 3 4 3 1 5 5 3
s6 0 1 2 5 0 6 1 1 1 2 3 0 5 2 1 1 2 1 3 2 1 5 1 1 4 2 1 0 3 1
s7 4 1 2 4 0 0 1 1 1 2 4 4 2 2 1 3 2 1 3 2 1 5 1 1 3 2 1 5 2 1
s8 5 1 3 5 0 2 1 1 1 3 1 5 3 2 1 1 1 1 4 1 1 0 1 2 2 2 1 4 3 1
s9 0 1 2 2 0 0 1 2 3 2 2 0 2 1 1 1 2 1 3 1 1 2 1 1 1 1 1 3 1 1
Tabla B.1: Segmentacin de QT con BWC y Brain Cancer
160
La tabla B.2 muestra los resultados obtenidos al ejecutar el algoritmo QT con 10 medidas de umbral diferentes, dentro del rango [media 2 desv, ..., media, ..., media + 2 desv] con el conjunto de datos de Brain Cancer. Pa 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 s0 2 0 0 4 0 0 0 0 0 1 2 0 0 4 3 1 4 2 0 1 4 1 3 5 0 1 1 0 0 1 s1 2 1 0 3 0 0 7 7 2 1 2 6 2 3 5 1 3 2 0 1 3 1 5 4 0 1 1 0 0 1 s2 3 1 1 2 0 0 7 7 3 1 7 6 3 2 1 1 2 3 0 1 2 1 5 4 0 0 1 0 0 1 s3 3 1 1 2 8 0 7 1 5 1 0 5 3 2 1 1 2 1 0 1 2 2 5 4 8 2 1 0 1 1 s4 3 1 4 2 0 5 3 1 0 1 1 4 3 6 1 2 2 2 4 1 2 6 1 5 2 2 6 5 0 1 s5 5 1 1 3 0 6 5 1 4 1 4 7 5 0 1 1 3 1 7 1 3 1 4 2 1 1 1 2 4 1 s6 2 1 3 0 0 2 0 1 4 1 4 3 2 6 1 1 6 1 3 1 1 1 4 2 1 1 1 2 4 1 s7 2 1 3 1 5 2 0 1 3 1 0 2 2 1 3 1 1 1 0 1 1 1 3 2 1 1 1 2 3 1 s8 3 1 1 2 0 3 3 1 4 1 2 1 3 2 1 1 2 1 0 1 1 4 2 1 1 1 4 3 0 1 s9 1 1 1 1 3 2 0 1 3 1 1 1 2 0 1 3 1 1 3 1 1 3 1 1 1 1 3 2 0 1
Tabla B.2: Segmentacin de QT con BWC y Brain Cancer
B.3
Estudio comparativo de clusteres
A continuacin se presenta un estudio comparativo entre los distintos clusteres obtenidos en los experimentos. En primer lugar, se calcula un promedio de todos aquellos individuos que no han sido clasicados en los clusters segn QT (es decir, valor 0). Representados a nivel de medida de distancia, la gura B.1 representa el porcentaje de individuos no clasicados. Se puede observar que, por un lado, las ejecuciones de QT con la correlacin de Pearson dejan muchos individuos sin clasicar (17 %), mientras que QT con las distancias euclidea y manhattan obtienen un valor
B.3. ESTUDIO COMPARATIVO DE CLUSTERES
161
Figura B.1: Porcentaje de individuos no clasicados segn QT parecido (5-6 %) y la correlacin BWC obtiene escasamente un 1-2 %. Se observa, pues, que BWC estudia la similaridad de una forma muy diferente a Pearson. Tal es asi, que los individuos que Pearson considera ajenos a cualquier cluster, no lo son para BWC. A continuacin, se realiza un estudio de clusteres generados por cada conjunto de datos, divididos segn las distintas distancias.
B.3.1
Vant Veer
La gura B.2 representa los clusteres obtenidos en las distintas ejecuciones realizadas con cada medida de distancia en el conjunto de datos de Vant Veer. La linea azul indica el numero minimo de clusteres, mientras que la linea roja indica el promedio de los clusteres y la linea verde indica el numero maximo de clusteres obtenidos en las 10 ejecuciones realizadas de cada distancia. Se observa que los clusteres generados en las distancias euclidea y manhattan son muy parecidas. Por otro lado, se obtienen muchos mas clusteres en las correlaciones de pearson y BWC. Se puede, sin embargo, apreciar por la gura B.1 como BWC, a persar de crear un numero parecido de clusteres, los realiza con mas individuos si se comparan con Pearson.
B.3.2
Van der Vivjer
La gura B.3 representa los clusteres obtenidos en las distintas ejecuciones realizadas con cada medida de distancia en el conjunto de datos de Van der Vivjer. La linea azul indica el numero minimo de clusteres, mientras que la linea roja indica el promedio de los clusteres y la linea verde indica el numero maximo de clusteres obtenidos en las 10 ejecuciones realizadas de cada distancia. Se observa que el nmero de clusteres generados en este conjunto de datos puede llegar a ser muy grande
162
Figura B.2: Comparacin de nmero de clusteres en Vant Veer (desde 10 hasta 38 clusteres). Esto es debido a la cantidad de individuos (295), a la distancia y al valor umbral utilizados. Dependiendo de como sean estos, el cluster es mas o menos elitista. Por otro lado, como en Vant Veer, se aprecia como los clusteres generados en las distancias euclidea y manhattan son muy parecidas. Por ultimo, BWC genera mas numero de clusteres que Pearson (su media es mayor). Ademas, tal y como indica B.1, es probable que se generen clusteres con individuos que no son incluidos en ningun cluster con Pearson, de ahi que probablemente el numero de clusteres se incremente.
B.3.3
Brain Cancer
La gura B.4 representa los clusteres obtenidos en las distintas ejecuciones realizadas con cada medida de distancia en el conjunto de datos de Brain Cancer. La linea azul indica el numero minimo de clusteres, mientras que la linea roja indica el promedio de los clusteres y la linea verde indica el numero maximo de clusteres obtenidos en las 10 ejecuciones realizadas de cada distancia. Se observa que el nmero de clusteres generados en este conjunto de datos es de tamao proporcional al numero de individuos (60). En este caso tambien se aprecia como los clusteres generados en las distancias euclidea y manhattan son parecidas. En este caso, sin embargo, es Pearson quien genera mas clusteres, a pesar de dejar mas individuos sin segmentar.
B.3. ESTUDIO COMPARATIVO DE CLUSTERES
163
Figura B.3: Comparacin de nmero de clusteres en Van der Vivjer
Figura B.4: Comparacin de nmero de clusteres en Brain Cancer
164
Bibliografa
[ABKS99]
Mihael Ankerst, Markus M. Breunig, Hans-Peter Kriegel, and Jrg Sander. Optics: ordering points to identify the clustering structure. SIGMOD Rec., 28(2):4960, June 1999.
[AGGR98]
Rakesh Agrawal, Johannes Gehrke, Dimitrios Gunopulos, and Prabhakar Raghavan. Automatic subspace clustering of high dimensional data for data mining applications. SIGMOD Rec., 27(2):94105, 1998.
[APR04]
Fabrizio Angiulli, Clara Pizzuti, and Massimo Ruffolo. Descry: A density based clustering algorithm for very large data sets. In IDEAL, pages 203210, 2004.
[Bc95]
T. Bck. Evolutionary Algorithms in Theory and Practice: Evolution Strategies, Evolutionary Programming, Genetic Algorithms. Oxford University Press, December 1995.
[Baj05]
P. Bajcsy. An overview of dna microarray image requirements for automated processing. In CVPR 05, page 147, Washington, DC, USA, 2005. IEEE Computer Society.
[Bal94]
S. Baluja. Population-based incremental learning: A method for integrating genetic search based function optimization and competitive learning. Technical report, Carnegie Mellon University, Pittsburgh, PA, USA, 1994.
[Bar54] [Bar57]
N.A. Barricelli. Esempi numerici di processi di evoluzione. Methodos, pages 4568, 1954. N.A. Barricelli. Symbiogenetic evolution processes realized by articial methods. Methodos, pages 143182, 1957.
[Bau72] [BBC+ 00]
David F. Bauer. Constructing condence sets using rank statistics. pages 687690, 1972. P. Baldi, S. Brunak, Y. Chauvin, C. A. Andersen, and H. Nielsen. Assessing the accuracy of prediction algorithms for classication: an overview. Bioinformatics, 16(5):41224, 2000.
[BBM02]
Sugato Basu, Arindam Banerjee, and R. Mooney. Semi-supervised clustering by seeding. In In Proceedings of 19th International Conference on Machine Learning (ICML-2002, 2002.
[BBM04a]
Sugato Basu, Mikhail Bilenko, and Raymond J. Mooney. A probabilistic framework for semisupervised clustering. In KDD 04: Proceedings of the tenth ACM SIGKDD international
166
BIBLIOGRAFA
conference on Knowledge discovery and data mining, pages 5968, New York, NY, USA, 2004. ACM. [BBM04b] Mikhail Bilenko, Sugato Basu, and Raymond J. Mooney. Integrating constraints and metric learning in semi-supervised clustering. In ICML 04: Proceedings of the twenty-rst international conference on Machine learning, pages 11+, New York, NY, USA, 2004. ACM. [BCD+ 07] Michael R. Berthold, Nicolas Cebron, Fabian Dill, Thomas R. Gabriel, Tobias Ktter, Thorsten Meinl, Peter Ohl, Christoph Sieb, Kilian Thiel, and Bernd Wiswedel. Knime: The konstanz information miner. In GfKl, pages 319326, 2007. [BD97] S. Baluja and S. Davies. Combining multiple optimization runs with optimal dependency trees. Technical Report TR: CMU-CS-97-157, Justsystem Pittsburgh Research Center & Carnegie Mellon University, 1997. [Ber02] Pavel Berkhin. Survey of clustering data mining techniques. Technical report, Accrue Software, San Jose, CA, 2002. [BFOS84] L. Breiman, J. Friedman, R. Olshen, and C. Stone. Classication and Regression Trees.
Wadsworth and Brooks, Monterey, CA, 1984. new edition [?]? [BIV97] J.S. De Bonet, C.L. Isbell, and P. Viola. Structure driven image database retrieval. In M.C. Mozer, M.I. Jordan, and T. Petsche, editors, Advances in Neural Information Processing, volume 9, page 424. MIT Press, 1997. [BK99] Eric Bauer and Ron Kohavi. An empirical comparison of voting classication algorithms: Bagging, boosting, and variants. Mach. Learn., 36(1-2):105139, 1999. [BL97] Avrim Blum and Pat Langley. Selection of relevant features and examples in machine learning. Articial Intelligence, 97(1-2):245271, 1997. [BND] U. M. Braga-Neto and E. R. Dougherty. Is cross-validation valid for small-sample microarray classication? [BND04] Ulisses M. Braga-Neto and Edward R. Dougherty. Is cross-validation valid for small-sample microarray classication? Bioinformatics, 20(3):374380, 2004. [Bre96] [Bre01] Leo Breiman. Bagging predictors. Mach. Learn., 24(2):123140, 1996. Leo Breiman. Random forests. Machine Learning, 45:532, 2001.
10.1023/A:1010933404324.
BIBLIOGRAFA
167
[BT95]
T. Blickle and L. Thiele. A comparison of selection schemes used in genetic algorithms. Technical report, Swiss Federal Institute of Technology (ETH) Zurich, Computer Engineering and Communications Networks Lab (TIK), Gloriastrasse 35, CH-8092 Zurich, 1995.
[Bur69]
G.H. Burgin. On playing two-person zero-sum games against nonminimax players. IEEE Transactions on Systems Science and Cybernetics, 5(4):369370, October 1969.
[Car97]
Miguel Carreira. A review of dimension reduction techniques. Technical Report CS9609, Dept. of Computer Science, University of Shefeld, January 1997.
[CCK+ 00]
Pete Chapman, Julian Clinton, Randy Kerber, Thomas Khabaza, Thomas Reinartz, Colin Shearer, and Rudiger Wirth. Crisp-dm 1.0 step-by-step data mining guide. Technical report, The CRISP-DM consortium, August 2000.
[CCL08]
K. Chrysostomou, S. Y. Chen, and X. Liu. Combining multiple classiers for wrapper feature selection. IJDMMM, 1(1):91102, 2008.
[CD02]
Frank Dellaert College and Frank Dellaert. The expectation maximization algorithm. Technical report, 2002.
[Cen10] [CH67]
Life Sciences Core Laboratories Center. Microarray price schedule, 2010. T. Cover and P. Hart. Nearest neighbor pattern classication. Information Theory, IEEE Transactions on, 13(1):2127, 1967.
[Cla08]
David Clayton.
The interaction between genes and behavior.
The Medical News -
Medical.Net, 2008. [Cor72] F.N. Cornett. An application of evolutionary programming to pattern recognition. Masters thesis, New Mexico State University, Las Cruces, NM, 1972. [Cra85] N.L. Cramer. A representation for the adaptive generation of simple sequential programs. In J.J. Grefenstette, editor, Proceedings of the 1985 International Conference on Genetic Algorithms and the Applications, ICGA 1985, pages 183187, Carnegie Mellon University, July 1985. [Cro73] [Dav09] J.L. Crosby. Computer Simulation in Genetics. John-Wiley and Sons, Ltd., 1973. Ian Davidson. Clustering with constraints. In Encyclopedia of Database Systems, pages 393 396. 2009. [DB04] Jennifer G. Dy and Carla E. Brodley. Feature selection for unsupervised learning. J. Mach. Learn. Res., 5:845889, 2004.
168
BIBLIOGRAFA
[DBE99]
Ayhan Demiriz, Kristin Bennett, and Mark J. Embrechts. Semi-supervised clustering using genetic algorithms. In In Articial Neural Networks in Engineering (ANNIE-99, pages 809 814. ASME Press, 1999.
[dC09] [Det04]
Instituto Nacional del Cncer. Diccionario de cncer, 2009. M. Dettling. Bagboosting for tumor classication with gene expression data. Bioinformatics (Oxford, England), 20(18):35833593, December 2004.
[DF00]
Thomas G. Dietterich and Doug Fisher. An experimental comparison of three methods for constructing ensembles of decision trees. In Bagging, boosting, and randomization. Machine Learning, pages 139157, 2000.
[DF03]
Sandrine Dudoit and Jane Fridlyand. Bagging to improve the accuracy of a clustering procedure. Bioinformatics (Oxford, England), 19(9):10901099, June 2003.
[DFA06]
L. De Ferrari and S. Aitken. Mining housekeeping genes with a naive bayes classier. BMC genomics, 7:277+, October 2006.
[DGDM07]
A. Daemen, O. Gevaert, and B. De Moor. Integration of clinical and microarray data with kernel methods. Conference proceedings : ... Annual International Conference of the IEEE Engineering in Medicine and Biology Society. IEEE Engineering in Medicine and Biology Society. Conference, 2007:54115415, 2007.
[Die97]
Thomas G. Dietterich. Machine-learning research four current directions. AI MAGAZINE, 18:97136, 1997.
[DLR06]
J. J. Dai, L. Lieu, and D. Rocke. Dimension reduction for classication with gene expression microarray data. Statistical applications in genetics and molecular biology, 5, 2006.
[dN10] [Dow04]
Clnica Universidad de Navarra. Medicamentos contra el cncer, 2010. James R. Downing. Gene proles could improve leukemia diagnosis and provide insights leading to better treatments. St. Jude Children Research Journal, 2004.
[Dru10] [Dur08]
Drugs.com. Procarbazine, 2010. S. Durinck. Pre-processing of microarray data and analysis of differential expression. Methods in molecular biology, 452:89110, 2008.
[DWWTM06] D. D. Dalma-Weiszhausz, J. Warrington, E. Y. Tanimoto, and C. G. Miyada. The affymetrix genechip platform: an overview. Methods in enzymology, 410:328, 2006. [EKJX96] Martin Ester, Hans-peter Kriegel, S. Jrg, and Xiaowei Xu. A density-based algorithm for discovering clusters in large spatial databases with noise, 1996.
BIBLIOGRAFA
169
[ELZ+ 08]
M.T.M. Emmerich, R. Li, A. Zhang, I. Flesch, and P. Lucas. Mixed-integer bayesian optimization utilizing a-priori knowledge on parameter dependences. In Proceedings of the 20th Belgian-Netherlands Conference on Articial Intelligence, BNAIC 2008, Enschede, The Netherlands, 2008.
[ES93]
L.J. Eshelman and J.D. Schaffer. Real-coded genetic algorithms and interval-schemata. In L.D. Whitley, editor, Proceedings of the 2nd Workshop on Foundations of Genetic Algorithms, FOGA 1993. Morgan Kaufmann, July 1993.
[ET97]
Bradley Efron and Robert Tibshirani. Improvements on cross-validation: The .632+ bootstrap method. Journal of the American Statistical Association, 92(438):548560, 1997.
[FAD91]
Tony Fountain, Hussein Almuallim, and Thomas G. Dietterich. Learning with many irrelevant features. Technical report, Corvallis, OR, USA, 1991.
[FB70] [Fer06]
A.S. Fraser and D. Burnell. Computer Models in Genetics. McGraw Hill, 1970. Cesar Fernndez. Mtodos de aprendizaje inductivo. Aprendizaje automtico y Data Mining. Universidad Miguer Hernndez de Elche., 2006.
[FF89]
D.B. Fogel and L.J. Fogel.
Evolutionary programming for voice feature analysis.
In
Proceedings of the 23rd Asilomar Conference on Signals, Systems and Computers, pages 381383. IEEE Press, 1989. [FFA91] D.B. Fogel, L.J. Fogel, and W. Atmar. Meta-evolutionary programming. In 1991 Conference Record of the 25th Asilomar Conference on Signals, Systems and Computers, volume 1, pages 540545. IEEE Press, November 1991. [FFAF92] D.B. Fogel, L.J. Fogel, W. Atmar, and G.B. Fogel. Hierarchic methods of evolutionary programming. In D.B. Fogel and W. Atmar, editors, Proceedings of the 1st Conference on Evolutionary Programming, pages 175182, La Jolla, CA, 1992. [Fog62] [Fog64] [Fog88] L.J. Fogel. Autonomous automata. Industrial Research Magazine, 4(2):1419, February 1962. L.J. Fogel. On the Organization of Intellect. PhD thesis, UCLA, 1964. D.B. Fogel. An evolutionary approach to the traveling salesman problem. Biological
Cybernetics, 60(2):139144, December 1988. [Fog91] D.B. Fogel. System Identication through Simulated Evolution: A Machine Learning
Approach to Modeling. Ginn Press, 1991. [For81] R. Forsyth. Beagle: A darwinian approach to pattern recognition. Kybernetes, 10:159166, 1981.
170
BIBLIOGRAFA
[Fos01]
J.A. Foster. Computational genetics: Evolutionary computation. Nature Reviews Genetics, 2:428436, June 2001.
[FPSSU96]
Usama M. Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth, and Ramasamy Uthurusamy, editors. Advances in Knowledge Discovery and Data Mining. AAAI/MIT Press, 1996.
[Fra57]
A.S. Fraser. Simulation of genetic systems by automatic digital computers. I. Introduction. Australian Journal of Biological Science, 10:484491, 1957.
[FTBS+ 04]
Ana Fernandez-Teijeiro, Rebecca A Betensky, Lisa M Sturla, John Y H Kim, Pablo Tamayo, and Scott L Pomeroy. Combining gene expression proles and clinical parameters for risk stratication in medulloblastomas. Journal of Clinical Oncology: Ofcial Journal of the American Society of Clinical Oncology, 22:994 8, 2004/03/15/ 2004.
[GB00] [GBT06]
ao Gama, Jo and Pavel Brazdil. Cascade generalization. Mach. Learn., 41(3):315343, 2000. Survival From Gene, Eric Bair, and Robert Tibshirani. Semi-supervised methods to predict patient, 2006.
[GH06]
M. Gunopulos, D. ab Vazirgiannis and M. Halkidi. From unsupervised to semi-supervised learning: Algorithms and evaluation approaches. In SIAM06: Tutorial at Society for
Industrial and Applied Mathematics International Conference on Data Mining, 2006. [GH07] Fabrice Guillet and Howard J. Hamilton, editors. Quality Measures in Data Mining, volume 43 of Studies in Computational Intelligence. Springer, 2007. [GHT07] Yaqian Guo, Trevor Hastie, and Robert Tibshirani. Regularized linear discriminant analysis and its application in microarrays. Biostat, 8(1):86100, January 2007. [GST+ 06] O. Gevaert, F. D. Smet, D. Timmerman, Y. Moreau, and B. D. Moor. Predicting the prognosis of breast cancer by integrating clinical and microarray data with bayesian networks. Bioinformatics, 22(14), July 2006. [GTSZ03] Ciprian Doru Giurcaneanu, Ioan Tabus, Ilya Shmulevich, and Wei Zhang. Clustering genes and samples from glioma microarray data, 2003. [hC09] [HCEE05] Sung hyuk Cha. A genetic algorithm for constructing compact binary decision trees, 2009. Eduardo R. Hruschka, Thiago F. Covoes, Estevam, and Nelson F. F. Ebecken. Feature selection for clustering problems: a hybrid algorithm that iterates between k-means and a bayesian lter. Hybrid Intelligent Systems, International Conference on, 0:405410, November 2005. [hcoM10a] Childrens hospitals and clinics of Minnesota. Ciclofosfamida, 2010.
BIBLIOGRAFA
171
[hcoM10b] [Hel78] [HGK+ 05]
Childrens hospitals and clinics of Minnesota. Lomustina, 2010. Jane T. Helwig. SAS introductory guide. 1978. Includes index. M. Halkidi, D. Gunopulos, N. Kumar, M. Vazirgiannis, and C. Domeniconi. A framework for semi-supervised learning based on subjective and objective clustering criteria. In ICDM 05: Proceedings of the Fifth IEEE International Conference on Data Mining, pages 637640, Washington, DC, USA, 2005. IEEE Computer Society.
[HHK98]
Alexander Hinneburg, Er Hinneburg, and Daniel A. Keim. An efcient approach to clustering in large multimedia databases with noise. pages 5865. AAAI Press, 1998.
[HHV03]
Wolfgang Huber, Anja Von Heydebreck, and Martin Vingron. Analysis of microarray gene expression data. In in Handbook of Statistical Genetics, 2nd edn. Wiley, 2003.
[HK99]
Alexander Hinneburg and Daniel A. Keim. Optimal grid-clustering: Towards breaking the curse of dimensionality in high-dimensional clustering. pages 506517. Morgan Kaufmann, 1999.
[HK00]
Jiawei Han and Micheline Kamber. Data Mining: Concepts and Techniques (The Morgan Kaufmann Series in Data Management Systems). Morgan Kaufmann, 1st edition, September 2000.
[HK06]
Jiawei Han and Micheline Kamber. Data Mining: Concepts and Techniques. Morgan Kaufmann, 2 edition, January 2006.
[HKY99]
Laurie J. Heyer, Semyon Kruglyak, and Shibu Yooseph. Exploring expression data: Identication and analysis of coexpressed genes. Genome Research, 9(11):11061115, November 1999.
[HL00]
D. W. Hosmer and S. Lemeshow. Applied Logistic Regression. 2nd edition, John Wiley and Sons, New York, 2000.
[HLG99]
G.R. Harik, F.G. Lobo, and D.E. Goldberg. The compact genetic algorithm. IEEE Transactions on Evolutionary Computation, 3(3):287297, November 1999.
[HMHV07]
Johanna Hardin, Aya Mitani, Leanne Hicks, and Brian VanKoten. A robust measure of correlation between two genes on a microarray. BMC Bioinformatics, 8(1):220+, June 2007.
[HN09]
Reinhold Hatzinger and Herbert Nagel.
PASW Statistics. Statistische Methoden und
Fallbeispiele. Pearson Studium, Mchen AND Boston AND San Francisco AND Harlow, England AND Don Mills, Ontario AND Syndney, AND Mexico City AND Madrid AND Amsterdam, 2009.
172
BIBLIOGRAFA
[Hoh06]
Jrg D. Hoheisel. Microarray technology: beyond transcript proling and genotype analysis. Nature reviews. Genetics, 7(3):200210, March 2006.
[Hol75] [HS06]
J.H. Holland. Adaptation in natural and articial systems. University of Michigan Press, 1975. G. E. Hinton and R. R. Salakhutdinov. Reducing the dimensionality of data with neural networks. Science, 313(5786):504507, July 2006.
[HW57]
Bloom HJG and Richardson WW. Histological grading and prognosis in breast cancer. a study of 1409 cases of which 359 have been followed for 15 years. Br J Cancer, II:359377, 1957.
[HW99]
Myles Hollander and Douglas A. Wolfe. Nonparametric Statistical Methods, 2nd Edition. Wiley-Interscience, 2 edition, January 1999.
[HW04]
Simon Hauger and Terry Windeatt. Ecoc and boosting with multi-layer perceptrons. Pattern Recognition, International Conference on, 3:458461, 2004.
[ILBC04]
I. Inza, P. Larranaga, R. Blanco, and A. J. Cerrolaza. Filter versus wrapper gene selection approaches in dna microarray domains. Artif Intell Med, 31(2):91103, June 2004.
[ILES00]
Inaki Inza, Pedro Larranaga, R. Etxeberria, and Basilio Sierra. Feature subset selection by bayesian network-based optimization. Articial Intelligence, 123(1-2):157184, 2000.
[INC] [IR92]
Diccionario de cncer. Available Enero 2008. Lester Ingber and Bruce Rosen. Genetic algorithms and very fast simulated reannealing: A comparison, 1992.
[JDM00]
Anil K. Jain, Robert P.W. Duin, and Jianchang Mao. Statistical pattern recognition: A review. IEEE Transactions on Pattern Analysis and Machine Intelligence, 22:437, 2000.
[JHC06]
Ian B. Jeffery, Desmond G. Higgins, and Aedin C. Culhane. Comparison and evaluation of methods for generating differentially expressed gene lists from microarray data. BMC Bioinformatics, 7:359+, July 2006.
[JJ93]
Michael I. Jordan and Robert A. Jacobs. Hierarchical mixtures of experts and the em algorithm. Technical report, Cambridge, MA, USA, 1993.
[JKP94]
George H. John, Ron Kohavi, and Karl Peger. Irrelevant features and the subset selection problem. In International Conference on Machine Learning, pages 121129, 1994. Journal version in AIJ, available at http://citeseer.nj.nec.com/13663.html.
[Joy08]
L. Joyanes. Bioinformtica y salud. un nuevo paradigma de la sociedad. 2008.

BIBLIOGRAFA
173
[JTZ04]
Daxin Jiang, Chun Tang, and Aidong Zhang. Cluster analysis for gene expression data: A survey. IEEE Transactions on Knowledge and Data Engineering, 16:13701386, 2004.
[Kau67]
H. Kaufman. An experimental investigation of process identication by competitive evolution. IEEE Transactions on Systems Science and Cybernetics, 3(1):1116, 1967.
[KBDM05]
Brian Kulis, Sugato Basu, Inderjit Dhillon, and Raymond Mooney. Semi-supervised graph clustering: a kernel approach. In ICML 05: Proceedings of the 22nd international conference on Machine learning, pages 457464, New York, NY, USA, 2005. ACM.
[KES01] [Kit78]
J. Kennedy, R.C. Eberhart, and Y. Shi. Swarm Intelligence. Morgan Kaufmann, 2001. J. Kittler. Feature set search algorithms. Pattern Recognition and Signal Processing, pages 4160, 1978.
[KKS+ 03]
J.R. Koza, M.A. Keane, M.J. Streeter, W. Mydlowec, J. Yu, and G. Lanza.
Genetic
Programming IV: Routine Human-Competitive Machine Intelligence. Kluwer Academic Publishers, 2003. [KMN+ 02] Tapas Kanungo, David M. Mount, Nathan S. Netanyahu, Christine D. Piatko, Ruth Silverman, and Angela Y. Wu. An efcient k-means clustering algorithm: Analysis and implementation. IEEE Trans. Pattern Anal. Mach. Intell., 24(7):881892, July 2002. [Knu02] S. Knudsen. A biologists guide to Analysis of DNA microarray data. John Willey and Sons, 2002. [Koh95] Ron Kohavi. A study of cross-validation and bootstrap for accuracy estimation and model selection. In IJCAI95: Proceedings of the 14th international joint conference on Articial intelligence, pages 11371143, San Francisco, CA, USA, 1995. Morgan Kaufmann Publishers Inc. [Koz92] J.R. Koza. Genetic Programming: On the Programming of Computers by Means of Natural Selection. MIT Press, December 1992. [KS02] Yongseog Kim and W. Nick Street. Evolutionary model selection in unsupervised learning. Intelligent Data Analysis, 6, 2002. [LB03] Su-In Lee and Seram Batzoglou. Application of independent component analysis to microarrays. Genome Biology, 4(11):R76, 2003. [LCS+ 06] Pedro Larranaga, Borja Calvo, Roberto Santana, Concha Bielza, Josu Galdiano, Inaki Inza, Jose A. Lozano, Ruben Armananzas, Guzman Santafe, Aritz Perez, and Victor Robles. Machine learning in bioinformatics. Brief Bioinform, 7(1):86112, March 2006.
174
BIBLIOGRAFA
[LELP00a]
P. Larraaga, R. Etxeberria, J.A. Lozano, and J.M. Pea. Combinatorial optimization by learning and simulation of bayesian networks. In Proceedings of the 16th Conference on Uncertainty in Articial Intelligence, UAI 2000, pages 343352. Morgan Kaufmann, 2000.
[LELP00b]
P. Larraaga, R. Etxeberria, J.A. Lozano, and J.M. Pea. Optimization in continuous domains by learning and simulation of gaussian networks. In Proceedings of the 2th Genetic and Evolutionary Computation Conference, GECCO 2000, pages 201204. Morgan Kaufmann, 2000.
[LGG01]
N. M. Luscombe, D. Greenbaum, and M. Gerstein. What is bioinformatics? a proposed denition and overview of the eld. Methods of information in medicine, 40(4):346358, 2001.
[LH08]
Kun-Hong H. Liu and De-Shuang S. Huang. Cancer classication using rotation forest. Computers in biology and medicine, 38(5):601610, May 2008.
[LL01]
P. Larraaga and J.A. Lozano. Estimation of Distribution Algorithms: A New Tool for Evolutionary Computation, volume 2 of Genetic Algorithms and Evolutionary Computation. Kluwer Academic Publishers, 2001.
[LLF+ 04]
Yi Lu, Shiyong Lu, Farshad Fotouhi, Youping Deng, and Susan J. Brown. Incremental genetic k-means algorithm and its application in gene expression data analysis. BMC Bioinformatics, 5:172, 2004.
[LMV02]
M. Lopez, P. Mallorquin, and M. Vega. Microarrays y biochips de adn: informe de vigilancia tecnolgica. 2002.
[LPG+ 07]
A. LaTorre, J.M. Pea, S. Gonzlez, O. Cubo, and F. Famili. Breast cancer biomarker selection using multiple offspring sampling. Current Trends and Future Directions in ECML/PKDD 07, 2007.
[LW00]
D. J. Lockhart and E. A. Winzeler. Genomics, gene expression and dna arrays. Nature, 405(6788):827836, June 2000.
[MGB74]
Alexander M. Mood, Franklin A. Graybill, and Duane C. Boes. Introduction to the Theory of Statistics. McGraw-Hill Companies, 3 edition, April 1974.
[Mit97]
T. Mitchell. Machine Learning (Mcgraw-Hill International Edit). McGraw-Hill Education (ISE Editions), 1st edition, October 1997.
[MOMR05]
Michael E. Matheny, Lucila Ohno-Machado, and Frederic S. Resnic. Discrimination and calibration of mortality risk prediction models in interventional cardiology. Journal of Biomedical Informatics, 38(5):367375, 2005.
BIBLIOGRAFA
175
[Mh97]
H. Mhlenbein. The equation for response to selection and its use for prediction. Evolutionary Computation, 5(3):303346, 1997.
[NJ01]
A. Ng and M. Jordan. On discriminative versus generative classiers: A comparison of logistic regression and naive bayes. In Proceedings of NIPS, number 14, pages 605610, 2001.
[oHHS10a] [oHHS10b] [OML03]
U.S. Department of Health & Human Services. National institutes of health, 2010. U.S. Department of Health & Human Services. U.s. food and drug administration, 2010. Paul ONeill, George Magoulas, and Xiaohui Liu. Obtaining quality microarray data via image reconstruction. In Michael Berthold, Hans-Joachim Lenz, Elizabeth Bradley, Rudolf Kruse, and Christian Borgelt, editors, Advances in Intelligent Data Analysis V, volume 2811 of Lecture Notes in Computer Science, pages 364375. Springer Berlin / Heidelberg, 2003.
[Org09] [OT03]
World Health Organization. Cancer, 2009. C. H. Ooi and Patrick Tan. Genetic algorithms applied to multi-class prediction for the analysis of gene expression data. Bioinformatics, 19(1):3744, 2003.
[Pea88]
J. Pearl. Probabilistic Reasoning in Intelligent Systems: Networks of Plausible Inference. Morgan Kaufmann, San Francisco, CA, USA, 1988.
[PGCP99]
M. Pelikan, D.E. Goldberg, and E. Cant-Paz. BOA: The bayesian optimization algorithms. In W. Banzhaf, J. Daida, A.E. Eiben, M.H. Garzon, V. Honavar, M. Jakiela, and R.E. Smith, editors, Proceedings of the 1st Genetic and Evolutionary Computation Conference, GECCO 1999, volume 1, pages 525532, Orlando, FL, 1999. Morgan Kaufmann.
[PLM08]
Riccardo Poli, William B. Langdon, and Nicholas Freitag McPhee. to genetic programming.
A eld guide
Published via http://lulu.com and freely available at
http://www.gp-field-guide.org.uk, 2008. (With contributions by J. R. Koza). [PM99] M. Pelikan and H. Mhlenbein. The bivariate marginal distribution algorithm. In R. Roy, T. Furuhashi, and P.K. Chawdhry, editors, Proceedings of Advances in Soft Computing - Engineering Design and Manufacturing, pages 521535, London, 1999. Springer-Verlag GmbH. [PTG+ 02] S.L. Pomeroy, P. Tamayo, M. Gaasenbeek, L.M. Sturla, M. Angelo, M.E. McLaughlin, J.Y.H. Kim, L.C. Goumnerova, P.M. Black, C. Lau, J.C. Allen, D. Zagzag, J.M. Olson, T. Curran, C. Wetmore, J.A. Biegel, T. Poggio, S. Mukherjee, R. Rifkin, A. Califano, G. Stolovitzky, D.N. Louis, J.P. Mesirov, E.S. Lander, and T.R. Golub. Prediction of central nervous system embryonal tumour outcome based on gene expression. Nature, 415(6870):43642, 2002.
176
BIBLIOGRAFA
[PWC06]
Tuan D. Pham, Christine Wells, and Denis I. Crane. Analysis of microarray gene expression data. Current Bioinformatics, 1:3753, 2006.
[Qua01]
J. Quackenbush. Computational analysis of microarray data. Nat Rev Genet, 6(2):418427, June 2001.
[Qua02] [Qua06]
J. Quackenbush. 2002. J. Quackenbush. Computational approaches to analysis of dna microarray data. Methods Inf Med, 45 Suppl 1:91103, 2006.
[Qui93]
J. Ross Quinlan. C4.5: Programs for Machine Learning (Morgan Kaufmann Series in Machine Learning). Morgan Kaufmann, 1 edition, January 1993.
[Qui96]
J. R. Quinlan. Bagging, boosting, and c4.5. In In Proceedings of the Thirteenth National Conference on Articial Intelligence, pages 725730. AAAI Press, 1996.
[R D08]
R Development Core Team. R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria, 2008. ISBN 3-900051-07-0.
[RBL+ 08a]
V. Robles, C. Bielza, P. Larraaga, S. Gonzlez, and L. Ohno-Machado. Optimizing logistic regression coefcients for discrimination and calibration using estimation of distribution algorithms. TOP: An Ofcial Journal of the Spanish Society of Statistics and Operations Research, 16(2):345366, December 2008.
[RBL+ 08b]
V. Robles, C. Bielza, P. Larraaga, S. Gonzlez, and L. Ohno-Machado. Optimizing logistic regression coefcients for discrimination and calibration using estimation of distribution algorithms. TOP, 16(2):345366, December 2008.
[Roo70]
R. Root. An investigation of evolutionary programming. Masters thesis, New Mexico State University, Las Cruces, NM, 1970.
[RRS07]
Carlos Ruiz, Ernestina Menasalvas Ruiz, and Myra Spiliopoulou. Constraint-based query clustering. In AWIC, pages 304309, 2007.
[SBB98]
L. Spector, H. Barnum, and J.H. Bernstein. Genetic programming for quantum computers. In J.R. Koza, W. Banzhaf, K. Chellapilla, K. Deb, M. Dorigo, D.B. Fogel, M.H. Garzon, D.E. Goldberg, H. Iba, and R. Riolo, editors, Proceedings of the 3rd Conference on Genetic Programming, pages 365373, San Francisco, CA, 1998. Morgan Kaufmann.
[Sch87]
J. Schmidhuber. Evolutionary principles in self-referential learning, or on learning how to learn: The meta-meta-... hook. Masters thesis, Institut fr Informatik, Technische Universitt Mnchen, 1987.
BIBLIOGRAFA
177
[SCZ98]
Gholamhosein Sheikholeslami, Surojit Chatterjee, and Aidong Zhang. Wavecluster: A multiresolution clustering approach for very large spatial databases. pages 428439, 1998.
[SHT+ 98]
M. Schena, R. A. Heller, T.P. Theriault, K. Konrad, E. Lachenmeier, and R.W. Davis. Microarrays: biotechnologys discovery platform for functional genomics. Trends Biotechnol, 7(16):301306, July 1998.
[SILn07]
Y. Saeys, I. Inza, and P. Larraaga. A review of feature selection techniques in bioinformatics. Bioinformatics, August 2007.
[SK89]
R.D. Shachter and C.R. Kenley. 35(5):527550, 1989.
Gaussian inuence diagrams.
Management Science,
[SK03]
S. K. Shevade and S. S. Keerthi. A simple and efcient algorithm for gene selection using sparse logistic regression. Bioinformatics, 19(17):22462253, 2003.
[SMDM03]
Q. Sheng, Y. Moreau, and B. De Moor. Biclustering microarray data by gibbs sampling. Bioinformatics, 19:196205, 2003.
[Smi80]
S.F. Smith. A Learning System Based on Genetic Adaptive Algorithms. PhD thesis, University of Pittsburgh, Pittsburgh, PA, USA, 1980.
[SMS+ ]
Qizheng Sheng, Yves Moreau, Frank De Smet, Kathleen Marchal, and Bart De Moor. Advances in cluster analysis of microarray data.
[SP91]
S. Syswerda and J. Palmucci. The application of genetic algorithms to resource scheduling. In Proceedings of the 4th International Conference on Genetic Algorithms, ICGA 1991, pages 502508, 1991.
[SPNP99]
Petr Somol, Pavel Pudil, Jana Novovicov, and Pavel Paclk. Adaptive oating search methods in feature selection. Pattern Recognition Letters, 20(11-13):11571163, 1999.
[SS03]
G. K. Smyth and T. Speed. Normalization of cdna microarray data. Methods, 31(4):265273, December 2003.
[ST05]
Li Shen and Eng C. Tan. Dimension reduction-based penalized logistic regression for cancer classication using microarray data. IEEE/ACM Trans. Comput. Biol. Bioinformatics, 2(2):166175, April 2005.
[Sys93]
G. Syswerda. Simulated crossover in genetic algorithms. In L.D. Whitley, editor, Proceedings of the 2nd Workshop on Foundations of Genetic Algorithms, FOGA 1993. Morgan Kaufmann, July 1993.
178
BIBLIOGRAFA
[TCS+ 01]
O. Troyanskaya, M. Cantor, G. Sherlock, P. Brown, T. Hastie, R. Tibshirani, D. Botstein, and R. B. Altman. Missing value estimation methods for dna microarrays. Bioinformatics, 17(6):520525, June 2001.
[TSK05]
Pang-Ning Tan, Michael Steinbach, and Vipin Kumar. Introduction to Data Mining. Addison Wesley, us ed edition, May 2005.
[Vac10]
Carolyn Vachan. Thiotepa, 2010.
[vdVHvV+ 02] M. J. van de Vijver, Y. D. He, L. J. vant Veer, H. Dai, A. A. Hart, D. W. Voskuil, G. J. Schreiber, J. L. Peterse, C. Roberts, M. J. Marton, M. Parrish, D. Atsma, A. Witteveen, A. Glas, L. Delahaye, T. van der Velde, H. Bartelink, S. Rodenhuis, E. T. Rutgers, S. H. Friend, and R. Bernards. A gene-expression signature as a predictor of survival in breast cancer. N Engl J Med, 347(25):19992009, December 2002. [VHG03] Michalis Vazirgiannis, Maria Halkidi, and Dimitrios Gunopulos. Uncertainty Handling and Quality Assesment in Data Mining. Springer-Verlag New York, Inc., Secaucus, NJ, USA, 2003. [vtVDvdV+ 02] L. J. van t Veer, H. Dai, M. J. van de Vijver, Y. D. He, A. A. Hart, M. Mao, H. L. Peterse, K. van der Kooy, M. J. Marton, A. T. Witteveen, G. J. Schreiber, R. M. Kerkhoven, C. Roberts, P. S. Linsley, R. Bernards, and S. H. Friend. Gene expression proling predicts clinical outcome of breast cancer. Nature, 415(6871):530536, January 2002. [Wag02] Kiri Lou Wagstaff. Intelligent clustering with instance-level constraints. PhD thesis, Ithaca, NY, USA, 2002. Chair-Cardie, Claire. [Wal67] M.J. Walsh. Evolution of nite automata for prediction. Final Report RADC-TR-67-555, Rome Air Development Center, Griss AFB, NY, 1967. [WC00] Kiri Wagstaff and Claire Cardie. Clustering with instance-level constraints. In Proceedings of the Seventeenth International Conference on Machine Learning, pages 11031110, 2000. [WCRS01] Kiri Wagstaff, Claire Cardie, Seth Rogers, and Stefan Schroedl. Constrained K-means clustering with background knowledge. In Proc. 18th International Conf. on Machine Learning, pages 577584. Morgan Kaufmann, San Francisco, CA, 2001. [WF05] Ian H. Witten and Eibe Frank. Data Mining: Practical Machine Learning Tools and
Techniques. Morgan Kaufmann Series in Data Management Systems. Morgan Kaufmann, second edition, June 2005. [Wik10a] Wikipedia. Carboplatin, 2010.
BIBLIOGRAFA
179
[Wik10b] [Wik10c] [Wik10d] [Wik10e] [Wik10f] [Wik10g] [Wil08]
Wikipedia. Closed world assumption, 2010. Wikipedia. Curse of dimensionality, 2010. Wikipedia. Etoposide, 2010. Wikipedia. Methotrexate, 2010. Wikipedia. Overtting, 2010. Wikipedia. Vincristina, 2010. Cheryl L Willman. Has gene expression proling improved diagnosis, classication, and outcome prediction in aml? Best Pract Res Clin Haematol, 21(1):218, 2008.
[WVOM04]
G. Weber, S. A. Vinterbo, and L. Ohno-Machado. Multivariate selection of genetic markers in diagnostic classication. Articial Intelligence in Medicine, 31(2):155167, 2004.
[WYM97]
Wei Wang, Jiong Yang, and Richard Muntz. Sting: A statistical information grid approach to spatial data mining, 1997.
[YDL+ 02]
Y. H. Yang, S. Dudoit, P. Luu, D. M. Lin, V. Peng, J. Ngai, and T. P. Speed. Normalization for cdna microarray data: a robust composite method addressing single and multiple slide systematic variation. Nucleic Acids Res, 30(4), February 2002.
180
BIBLIOGRAFA

Main

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Main

Transféré par

Droits d'auteur :

Formats disponibles

DEPARTAMENTO DE ARQUITECTURA Y TECNOLOGA DE SISTEMAS INFORMTICOS

Facultad de Informtica Universidad Politcnica de Madrid

Optimizacin de procesos de adquisicin de conocimiento en Biologa Computacional

Autor Santiago Gonzlez Tortosa Ingeniero Superior en Informtica

Presidente: Ernestina Menasalvas Ruiz

Vocal: Luis Pastor Prez

Vocal: Cristobal Belda Iniesta

Vocal: Endika Bengoetxea Castro

Secretario: Jos Mara Pea Sanchez

Suplente: Iaki Inza

Suplente: Alberto Snchez Campos

A mis padres Emilio y Mariluz y a Carol, la mujer de mi vida. Os quiero

Santiago Gonzlez Tortosa 13 de septiembre de 2010

(Santiago Gonzlez Tortosa)

ndice general ndice de guras ndice de tablas

PLANTEAMIENTO DEL PROBLEMA Y SOLUCIN

5.5.2. Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.5.2.1. 5.5.2.2. Estudio del Umbral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Descripcin de experimentos . . . . . . . . . . . . . . . . . . . . . . . . .

Van der Vivjer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Brain Cancer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

6.2.5. Conclusiones generales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

CONCLUSIONES Y LINEAS FUTURAS

Apndice A. Conjuntos de datos y experimentos

B.4. Comparacin de nmero de clusteres en Brain Cancer . . . . . . . . . . . . . . . . . . . . . . 163

1.3. ESTRUCTURA DEL DOCUMENTO

Estructura del documento

Optimizacin de procesos de adquisicin de conocimiento en Biologa Computacional

Santiago Gonzlez Tortosa

CAPTULO 2. MINERA DE DATOS

Figura 2.1: Modelo de procesos CRISP-DM

CAPTULO 2. MINERA DE DATOS

2.2. CLASIFICACIN SUPERVISADA

CAPTULO 2. MINERA DE DATOS

2.2. CLASIFICACIN SUPERVISADA

CAPTULO 2. MINERA DE DATOS

El numerador es equivalente a una probabilidad compuesta, por lo que: 1 p(C, X1 , ..., Xn ) Z

2.2. CLASIFICACIN SUPERVISADA

E(Cli ) = E(p(v1 ), ...p(vk )) =

p(vs ) log2 p(vs )

CAPTULO 2. MINERA DE DATOS

2.2. CLASIFICACIN SUPERVISADA

log o lo que es lo mismo,

e(0 +1 x1 +...+k xk ) 1 = (0 +1 x1 +...+k xk ) (0 +1 x1 +...+k xk ) 1+e 1+e

CAPTULO 2. MINERA DE DATOS

2.3. CLASIFICACIN NO SUPERVISADA

Figura 2.3: Taxonoma de algoritmos de clustering

CAPTULO 2. MINERA DE DATOS

2.3. CLASIFICACIN NO SUPERVISADA

CAPTULO 2. MINERA DE DATOS

Clustering con restricciones

2.4. CONJUNTOS DE CLASIFICADORES

CAPTULO 2. MINERA DE DATOS

2.4. CONJUNTOS DE CLASIFICADORES

CAPTULO 2. MINERA DE DATOS

(x(i) ,c(i) )Dh

(I (Dt , x(i) ), c(i) )

CAPTULO 2. MINERA DE DATOS

(x(i) ,c(i) )Dt

(I (D\Dt , x(i) ), c(i) ).

validaciones ms usadas en referencias bibliogrcas.

Santiago Gonzlez Tortosa

Optimizacin de procesos de adquisicin de conocimiento en Biologa Computacional

CAPTULO 2. MINERA DE DATOS

2.6. HERRAMIENTAS DE MINERA DE DATOS

Herramientas de minera de datos