Vous êtes sur la page 1sur 9

Minera de Datos aplicada a la Gestin Hospitalaria

Ing. Yaneisis Aznielles Quesada1, Ing. Daymi Wong Prez1, Dr. Alejandro Rosete Surez2

Resumen: El crecimiento desmedido del volumen de datos generado por los sistemas de gestin empresariales y la inadecuada exploracin de los mismos, ha hecho necesario hace algunos aos la creacin de tecnologas que permitan su organizacin y procesamiento. Esta necesidad ha motivado el empleo de tcnicas y herramientas de minera de datos, que posibiliten extraer conocimiento til de la informacin almacenada. El Instituto Superior de Medicina Militar Dr. Lus Daz Soto cuenta con el sistema de gestin hospitalaria Galen, que registra la informacin relacionada con los datos del paciente, resultados de los anlisis que se le realizan, as como la informacin relacionada con el movimiento hospitalario. Sin embargo, no se aprovecha el conocimiento oculto en estos datos, que pueda sustentar determinadas acciones estratgicas trazadas por los directivos de las diferentes reas del hospital. En el presente trabajo se describen aspectos relacionados con la minera de datos y su aplicacin en el sector de salud. Palabras clave: Minera de datos, Gestin hospitalaria, Informtica mdica, Gestin del conocimiento, Sistemas de informacin hospitalaria.

que las empresas e instituciones en el mundo se han visto en ocasiones abarrotadas de datos histricos que
no aprovechan al mximo. Esta informacin, bien tratada y analizada, puede reportar grandes beneficios a las organizaciones al explicar problemticas aparentemente aleatorias y abrir nuevos horizontes y frentes de trabajo. Para dar respuesta a este tipo de problemas es empleado el proceso de KDD (Knowledge Discovery in Databases), que posibilita la extraccin de conocimiento oculto en los datos.

II. EL PROCESO DE DESCUBRIR CONOCIMIENTO EN BASES DE DATOS (KDD) KDD se denomina al descubrimiento de conocimiento en bases de datos; bsqueda de a partir de datos histricos. Este es un proceso iterativo e interactivo, iterativo ya que la salida de alguna de las fases puede hacer volver a pasos anteriores. [Zamarrn, 2006] KDD es la convergencia del aprendizaje automtico, la estadstica, el reconocimiento de patrones, la inteligencia artificial, las bases de datos, la visualizacin de datos, los sistemas para el apoyo a la toma de decisiones, la recuperacin de informacin y otros muchos campos [Febles, 2001]. Este proceso consta de cinco fases:

1. Integracin y Recopilacin.
I. INTRODUCCIN

El volumen y variedad de informacin que se encuentra informatizada en bases de datos digitales ha crecido exponencialmente en las ltimas dcadas, de tal forma

2. Seleccin, Limpieza y Transformacin. 3. Minera de Datos. 4. Evaluacin e Interpretacin.

1 Instituto Superior de Medicina Militar Dr. Luis Daz Soto 2 Instituto Superior Politcnico Jos A. Echeverra. (CUJAE). http://www.cujae.edu.cu

5. Difusin y Uso.

con ellos. En cambio no son siempre necesarios, sobre todo en los casos en que la informacin a minar se encuentra en una nica fuente.

Seleccin, Limpieza y Transformacin Debido a que los datos provienen en muchos casos de diferentes fuentes, pueden contener valores errados o faltantes. En esta fase se eliminan o corrigen los datos que se detecten con errores o faltantes. Adems, se proyectan los datos para conseguir nicamente las variables o atributos que van a ser relevantes, con el objetivo de hacer ms fcil la tarea propia de minera. Es en esta fase donde el tipo de los datos puede tambin modificarse para facilitar el uso de tcnicas que requieren tipos de datos especficos. [Hernndez, 2004] La calidad del conocimiento descubierto depende no Fig. 1 Fases del proceso de KDD [Hernndez, 2004] slo del algoritmo de minera utilizado, sino tambin de la calidad de los datos minados. Resulta Integracin y Recopilacin En esta fase se determinan las fuentes de informacin que pueden ser tiles y dnde conseguirlas. Adems, se transforman todos los datos a un formato comn con el fin de unificar toda la informacin recuperada, proceso que generalmente se realiza a travs de los almacenes de datos (datawarehouse). [Hernndez, 2004] Los almacenes de datos son muy tiles si se trabaja con grandes volmenes de datos, que varan con el tiempo y adems se desea realizar tareas de minera Minera de Datos La fase de minera de datos constituye el centro del proceso de KDD, ya que se concentra en la bsqueda de patrones, que tendrn una o varias formas de prcticamente imposible pasar por alto el preprocesamiento de los datos, pues una mala preparacin y calidad de la informacin, trae como consecuencia que los patrones descubiertos no coincidan con la realidad, y por consiguiente el significado de la realizacin del proceso no sea til. [Colomina, 2004]

1 Instituto Superior de Medicina Militar Dr. Luis Daz Soto 2 Instituto Superior Politcnico Jos A. Echeverra. (CUJAE). http://www.cujae.edu.cu

representacin en dependencia del tipo de modelo obtenido. [Hernndez, 2004]. Antes de construir el modelo es necesario en esta etapa: Determinar la tarea ms apropiada de minera que se aplicar. Elegir el tipo de modelo a utilizar, a partir de la seleccin de la tcnica de minera que inferir el mismo, en dependencia de la tarea escogida anteriormente, y de la forma en que se desee representar el conocimiento obtenido. Elegir el algoritmo de minera a utilizar en dependencia de la tcnica seleccionada. En la construccin del modelo donde se evidencia el carcter iterativo del proceso de KDD, pues hasta encontrar hay que llegar a obtener aquel que resulte ms til. En la bsqueda del mejor es posible retroceder hasta fases anteriores del proceso KDD. [Molina, 2006]

En esta fase se hace uso del nuevo conocimiento y se comunica a todos los posibles usuarios. Por tanto, es necesaria la comunicacin y distribucin por distintos medios de los resultados, ya que debe integrar el know-how de la organizacin. Adems se aconseja medir que el modelo evoluciona bien, aunque su desempeo sea ptimo. La

monitorizacin de los patrones debe realizarse, pues resulta necesaria la reevaluacin del modelo en ocasiones, su re-entrenamiento o incluso su

reconstruccin total. [Hernndez, 2004] En conclusin, KDD puede emplearse como un medio de recuperacin de informacin, de la misma manera que los agentes inteligentes realizan la recuperacin de informacin en el Web. Nuevos modelos o tendencias en los datos podrn descubrirse usando estas tcnicas. KDD tambin puede utilizarse como una base para las interfaces inteligentes del maana, agregando un componente del descubrimiento del conocimiento a una mquina de bases de datos o integrando KDD con

Evaluacin e Interpretacin Durante esta fase los expertos analizan y valoran los patrones, y de ser necesario se regresa a las fases anteriores para una nueva iteracin. Para la aprobacin del conocimiento obtenido, existen diferentes medidas de evaluacin de los modelos dependiendo de la tarea de minera de datos seleccionada. [Hernndez, 2004]. En muchos casos hay que evaluar tambin el contexto donde el modelo se va a utilizar.

las hojas de clculo y visualizaciones. [Bressn, 2003]

III. MINERA DE DATOS EN EL ENTORNO DE SALUD

En el mbito mdico la aplicacin de la minera de datos tiene inters en varios campos: 1. En el mbito clnico resulta de ayuda para la identificacin y diagnstico de patologas. Asimismo tiene importancia para el descubrimiento de posibles interrelaciones entre diversas enfermedades. 2. Al nivel de medicina preventiva, resulta de inters

Difusin y Uso

para la deteccin de pacientes con factores de riesgo para sufrir una patologa.

1 Instituto Superior de Medicina Militar Dr. Luis Daz Soto 2 Instituto Superior Politcnico Jos A. Echeverra. (CUJAE). http://www.cujae.edu.cu

3. Al nivel de gestin hospitalaria, se puede usar para obtener predicciones temporales que permitiesen optimizar los recursos disponibles y priorizar el uso de los diversos tratamientos para una misma patologa. [Zamarrn, 2006] En general se pueden emplear tcnicas de minera de datos en la medicina para: Identificacin de terapias mdicas

El trabajo tena como objetivo: definir modelos predictivos para responder a problemas clnicos de diagnstico, y problemas de gestin sanitaria

utilizando minera de datos. Desarrollaron modelos que permitieron obtener

predicciones y brindaron una explicacin de los factores que conducen a las mismas. Emplearon el rbol de decisin, tcnica con gran potencial de prediccin y que explica las decisiones que conducen a las mismas. Se utilizan todas las variables disponibles como predictoras. Eligieron un crecimiento automtico del rbol parametrizado. El rbol de decisin necesitaron validarlo para evaluar el desempeo del rbol para clasificar nuevas instancias de datos. Utilizaron dos tcnicas diferentes de validacin. En la primera, la

satisfactorias para diferentes enfermedades. Asociacin de sntomas y clasificacin

diferencial de patologas. Estudio de factores (genticos, precedentes, hbitos, alimenticios) de riesgo para la salud en distintas patologas. Segmentacin de pacientes para una atencin ms inteligente segn su grupo. Estudios epidemiolgicos, anlisis de

base completa de datos puede dividirse en dos subconjuntos. Un subconjunto se destina al

rendimientos de campaas de informacin, prevencin, sustitucin de frmacos, entre otros. Identificacin tratamientos de terapias para mdicas y

entrenamiento del rbol (muestra de entrenamiento) y el otro se utiliza para la validacin. Adems, utilizamos la tcnica de cross-validation que permite utilizar todos los datos para construir el modelo y no reservar un porcentaje para la validacin. La aplicacin de este modelo sobre los datos recolectados en el periodo 1996-2005 por el Programa de Control de la Tuberculosis de Regin Sanitaria I

errneos

determinadas

enfermedades. [Molina, 2006] Pueden citarse trabajos concretos relacionados con la aplicacin de la minera en el entorno de salud.

Tratamiento de la Tuberculosis (TBC) El Tratamiento Acortado Estrictamente Supervisado constituye el protocolo implementado en la Repblica Argentina, definido por la Organizacin Mundial de la Salud. La finalidad: dar mxima prioridad al aumento de la curacin de enfermos de tuberculosis.

posibilit plantear nuevas estrategias de gestin y mejorar la calidad de produccin de datos. [Snchez, 2005]

Diagnstico de accidentes cerebrovasculares agudos (ACVAs)

1 Instituto Superior de Medicina Militar Dr. Luis Daz Soto 2 Instituto Superior Politcnico Jos A. Echeverra. (CUJAE). http://www.cujae.edu.cu

Para la obtencin del proyecto que se describe a continuacin, el objetivo principal era la construccin de un sistema de soporte a la decisin para el diagnstico de las causas de accidentes

en la dificultad y consiguiente grado de innovacin planteado: en una etapa inicial se pueden aplicar tcnicas convencionales tcnicas de de minera minera de de datos, datos

posteriormente

cerebrovasculares agudos. El sistema de soporte a la decisin desarrollado en este proyecto consiste bsicamente en un clasificador que divide los ataques en una serie de clases, en funcin de sus causas. En este caso, se definen cinco categoras, asociadas a las causas ms comunes de un ACVA, en concreto arteriosclerosis, embolia, trombosis y

supervisada, de modo que el mdico gua la bsqueda de hallazgos de inters mediante su asociacin con eventos fisiopatolgicos conocidos; por ltimo, se pueden utilizar tcnicas de Minera de Datos no supervisada, de modo que se busca una agregacin en la identificacin de manifestaciones a partir de la definicin de ndices de similitud. En todas las enfermedades anteriormente referidas, sndrome de apnea del sueo, enfermedades

derrame cerebral, agrupndose en una quinta clase los de causa desconocida o que no responden a ninguna de las anteriores. Este sistema ha sido desarrollado por la Technical University of Crete y la Unit of Acute Stroke, Therapeutic Clinic, Alexandra General Hospital. El departamento de Ingeniera de DAEDALUS Data, Decisions and Language, S.A. [Daedalus, 2006]

respiratorias obstructivas, enfermedades respiratorias restrictivas e insuficiencia cardiaca, se producen alteraciones respiratorias durante el sueo que tienen un origen mulifactorial y son, por tanto, el resultado de diferentes mecanismos fisiopatolgicos. La monitorizacin nocturna de estos pacientes muestra la presencia de eventos comunes (apneas,

Estudio de las alteraciones respiratorias durante el sueo Se trata fundamentalmente de involucrar un mayor nmero de variables fisiolgicas en el estudio de los procesos fisiopatolgicos que subyacen en las alteraciones cardiopulmonares del sueo, con el fin de encontrar nuevas relaciones causa/efecto que

desaturaciones, arritmias cardiacas, etc.); sin embargo, su asociacin y caractersticas (duracin, intensidad, etc.) muestra patrones diferentes que pueden ser especficos de cada entidad. El anlisis de estos patrones puede mostrarnos datos de inters de cada una de los trastornos mencionados, desconocidos hasta ahora mediante la aplicacin de la mera inspeccin visual del neumlogo. Podemos conocer la asociacin de diferentes patrones de distribucin de eventos a diferentes trastornos, facilitando un diagnstico precoz y un tratamiento ms especfico, y por tanto, ms eficaz, permitiendo mejorar el pronstico de un amplio conjunto de pacientes.

simplifiquen la generacin de nuevo conocimiento a partir de la ingente cantidad de datos disponibles. La aplicacin de tcnicas de minera de datos para el estudio de las alteraciones respiratorias durante el sueo puede plantearse en tres etapas bien

diferenciadas, que se corresponden con un incremento

1 Instituto Superior de Medicina Militar Dr. Luis Daz Soto 2 Instituto Superior Politcnico Jos A. Echeverra. (CUJAE). http://www.cujae.edu.cu

Dicho estudio ha sido realizado por el Servicio de Neumologa del Hospital Universitario en Santiago de Compostela. [Zamarrn, 2006]

IV. MINERA DE DATOS APLICADA A LA GESTIN HOSPITALARIA

La continua mejora de los servicios prestados por las instituciones hospitalarias y la creciente preocupacin de los ciudadanos por la salud, incrementan la

Sistema IMPIVA)

de

Informacin

hospitalaria

(Proyecto

necesidad de contar con soluciones que den soporte a la gestin administrativa de los pacientes y a las actividades clnicas de los distintos departamentos y servicios del centro hospitalario. El Instituto Superior de Medicina Militar Dr. Lus Daz Soto cuenta con el sistema de gestin hospitalaria Galen, que registra la informacin procedente de los departamentos de: Registros Mdicos, Laboratorio y Banco de Sangre. Para ello cuenta con mdulos especficos mediante los cuales se insertan datos del paciente, resultados de los anlisis que se le realizan, as como la informacin relacionada con el movimiento hospitalario (ingresos, traslados de sala o cama, egresos, entre otros).

IMPIVA fue desarrollado por el grupo MIP de la Universidad Politcnica de Valencia en el hospital Clnico Universitario de esa ciudad. Para ello se cont con gran cantidad de datos histricos queriendo optimizar la planificacin de los recursos (personal, quirfanos, material); adems del ahorro de costos y reduccin de tiempo de espera de los pacientes. Fueron utilizadas como herramientas para la consulta de informacin KUBE y WEKA obteniendo datos interesantes en el rea seleccionada: Urgencias. [Bella, 2005]

La Historia Clnica Electrnica Un ejemplo importante de aplicacin de minera de datos lo constituye la aplicacin de metodologas y herramientas sobre la Historia Clnica Electrnica de pacientes adultos sometidos a procedimientos

En dicho instituto la conduccin de los procesos que incluye la gestin hospitalaria se realiza de acuerdo a la experiencia de los directivos y la manera en que estos entienden el funcionamiento de los mismos; no aprovechando el conocimiento oculto en los datos que mantienen almacenados, que pudieran apoyar

quirrgicos en una Institucin de Salud, especializada en enfermedades cardiovasculares, ubicada en la ciudad de Bucaramanga, (Santander- Colombia). Se aplicaron distintos algoritmos de minera (rboles de decisin, redes neuronales), obteniendo como resultado varios modelos de comportamiento respecto a los pacientes. Finalmente, se procedi a la evaluacin de resultados y derivacin de conclusiones. [Colomina, 2004]

determinadas lneas estratgicas trazadas para la direccin. Las valoraciones de los directivos son en la mayora de las ocasiones acertadas, pero estn sujetas a apreciaciones subjetivas. La poca informacin brindada por los reportes generados del sistema de gestin que se emplea, desde el punto de vista administrativo, y la incapacidad general de las personas para procesar grandes

1 Instituto Superior de Medicina Militar Dr. Luis Daz Soto 2 Instituto Superior Politcnico Jos A. Echeverra. (CUJAE). http://www.cujae.edu.cu

volmenes de informacin e identificar ciertos patrones de comportamiento tiles para apoyar sus decisiones, motiv la realizacin de esta investigacin en torno a un proceso de KDD, que posibilite la extraccin de conocimiento oculto en los datos almacenados, a travs de tcnicas de minera, que sirva de apoyo a la toma de decisiones conociendo datos reales del funcionamiento del hospital. El sistema Galen actualmente se encuentra instalado en varios hospitales del pas en apoyo al

Perodos de mayor cantidad de ingresos y egresos. Causas de ingreso ms frecuentes. Pacientes ms atendidos en el hospital. Enfermedades localidades. Rangos de edades en los que los pacientes son ms propensos a presentar cierto tipo de enfermedad. de mayor incidencia por

Correspondencia

de

los

resultados

de

funcionamiento del servicio de salud pblica, por decisin del Ministerio de Salud Publica (MINSAP). A partir del ao 2002 comenz su explotacin en el Instituto Superior de Medicina Militar Dr. Lus Daz Soto, con lo cual se ha generado el gran volumen de informacin que constituye la base de la investigacin. La base de datos del sistema est diseada sobre el gestor de Microsoft SQL Server. Entre los datos que se almacenan y resultan de mayor inters para el estudio, pueden citarse: Datos personales (pacientes, trabajadores) Informacin de los Ingresos (fecha de ingreso, sala, diagnstico, tipo de ingreso, mdico que realiza el ingreso) Informacin de los Egresos (fecha de

laboratorio con las operaciones programadas.

V. CONCLUSIONES

La minera de datos constituye la fase fundamental del proceso de KDD. Su aplicacin mediante el empleo de las tcnicas y herramientas existentes, garantiza obtener resultados relevantes en diversos entornos. En los ltimos tiempos su utilizacin se ha incrementado debido al creciente volumen de datos generado por diversas fuentes. Los logros alcanzados en los diferentes mbitos del sector de salud constituyen ejemplos palpables del empleo de la minera. Con la realizacin de este trabajo se define que la informacin almacenada a travs del sistema de gestin hospitalaria Galen es valiosa para aplicar minera. Con la continuidad de esta investigacin se esperan resultados en vistas a obtener conocimiento que ayude a los directivos en la conduccin de los procesos, con

liberacin de la cama) Informacin de las operaciones realizadas (tipo de operacin, calificacin, fecha) Informacin de los exmenes

complementarios (resultados del laboratorio). Con esta informacin se pretende determinar:

1 Instituto Superior de Medicina Militar Dr. Luis Daz Soto 2 Instituto Superior Politcnico Jos A. Echeverra. (CUJAE). http://www.cujae.edu.cu

el fin de mejorar la calidad asistencial, as como la eficiencia en el empleo de los recursos.

La Arboleda, DAEDALUS - Data, Decisions and Language, SA. 2002. <http://www.daedalus.es/fileadmin/daedalus/doc/Mine riaDeDatos/DAEDALUS-WP-Mineria_Datos.pdf>.

VI. REFERENCIAS BIBLIOGRFICAS

[Bella, 2005] Bella Sanjun, Antonio. Minera de datos en un sistema de Informacin Hospitalario. Espaa, Grupo MIP - Universidad Politcnica de

[Consulta: 15 de junio de 2008]. [Daedalus, 2006] Daedalus SA. Minera de Datos para diagnstico de Accidentes Cerebro-vasculares. DAEDALUS - Data, Decisions and Language, SA. 2006. <http://www.daedalus.es/fileadmin/daedalus/doc/Mine riaDeDatos/DAEDALUS-MD19Accidentes_Cardiovasculares.pdf>. 2006. [Consulta: 15 de junio del 2008]. [Febles, 2001] de Febles la Rodrguez, de Juan datos Pedro. en la

Valencia, Hospital Clnico Universitario de Valencia, Dimensin Informtica, Departamento de Sistemas Informticos y Computacin. 2005.

<http://www.dsic.upv.es/~abella/papers/UCLM2005.pdf >. [Consulta: 12 de agosto de 2008]. [Bressn, 2003] Bressn, Giselda E. Almacenes de datos y minera de datos. Julio,

2003.<http://exa.unne.edu.ar/depar/areas/informatica/S istemasOperativos/MineriaDatosBre-ssan.htm> [Consulta: 23 de julio de 2008]. [Colomina, 2004] Colomina Climent, Evaristo; Vich Clavel, Ignacio; Cantoral Justo Fco. Javier; Monsalve Torra, Ana Eddy. Minera de datos sobre la historia clnica de una institucin Universidad de de salud Alicante,

Aplicacin

minera

bioinformtica. Centro Nacional de Bioinformtica. 13 de noviembre del 2001.

<http://bvs.sld.cu/revistas/aci/vol10_2_02/aci02202.ht m>. [Consulta: 23 de junio de 2008]. [Hernndez, 2004] Hernndez Orallo, Jos; Ramrez Quintana, Jos; Ferri Ramrez, Csar. Introduccin a la Minera de Datos. Departamento de Sistemas

colombiana.Alicante,

Campus de San Vicente del Raspeig, Dpto. de Ciencia de la Computacin e Inteligencia Artificial. 2004.

Informticos y Computacin. Universidad Politcnica de Valencia. Madrid, 2004. [Molina, 2006] Molina Lpez, Jos Manuel. M.;

<http://www.veterinaria.org/revistas/redvet/n010107/i nformaticaensalud2007.pdf>. [Consulta: 13 de junio de 2008]. [Daedalus, 2002] Daedalus SA. Minera de Datos, Documento bsico DAEDALUS, Data Mining,

Garca Herrero, Jess. Tcnicas de Anlisis de Datos, Aplicaciones prcticas usando Microsoft Excel y WEKA. Madrid, Universidad Carlos III. 2006 <http://www.utpl.edu.ec/webutplanterior/oacademica/ carreras_ects/areatecnica/pensuns/sistemas/Inteligenci a_Negocios.pdf>. [Consulta: 3 de junio del 2008]. [Snchez, 2005] Snchez, Marisa; Uremovich, Sonia; Acrogliano, Pablo. Aplicacin de la Minera de datos

Daedalus White Paper. Espaa, Madrid, Empresa

1 Instituto Superior de Medicina Militar Dr. Luis Daz Soto 2 Instituto Superior Politcnico Jos A. Echeverra. (CUJAE). http://www.cujae.edu.cu

al

Tratamiento

de

tuberculosis.

Argentina,

de la Minera de Datos al estudio de las alteraciones respiratorias durante el sueo. Hospital Clnico Universitario de Santiago de Compostela, Servicio de Neumologa. 2006.

Universidad Nacional del Sur, Baha Blanca, Dpto. de Ciencias de la Administracin. 2005. <http://www.bibliociencias.cu/gsdl/collect/eventos/ind ex/assoc/HASH0196.dir/doc.pdf>. [Consulta: 24 de junio de 2008]. [Zamarrn, 2006] Zamarrn Sanz, Carlos; Garca Paz, Vanesa; Calvo lvarez, Uxo; Pichel Guerrero, Fernanda; Rodrguez Surez, Jos Ramn. Aplicacin

<http://www.sogapar.org/pneuma/pneuma6/pneuma-n6-5c.pdf>. [Consulta: 13 de junio de 2008].

1 Instituto Superior de Medicina Militar Dr. Luis Daz Soto 2 Instituto Superior Politcnico Jos A. Echeverra. (CUJAE). http://www.cujae.edu.cu