Académique Documents
Professionnel Documents
Culture Documents
2010
II. ASPECTOS TEÓRICOS
2.1 KDD
En las últimas dos décadas la cantidad de información almacenada en las
organizaciones está experimentando un aumento nunca antes observado. A nivel global, esta
información se duplica cada 20 días y las bases de datos que las contienen aumentan a un
ritmo aún mayor [Erdo05]. No es por ello raro encontrar bases con terabytes de información
[Tang05] que requieren ser analizadas por especialistas que en cantidad no han aumentado al
ritmo requerido por la coyuntura![Díaz04].
La penetración y evolución de las tecnologías de la información han facilitado a
las empresas el uso de estos registros para generar valor a toda escala motivadas por el anhelo
de mejorar los métodos de toma de decisiones. El método manual de análisis e interpretación
es sumamente lento, caro y subjetivo [Fayy96], así, como respuesta, surge el Descubrimiento
de Conocimiento en Bases de Datos (o KDD de sus siglas en inglés). Esta actividad implica el
preprocesamiento o preparación de la base, el descubrimiento de información relevante
mediante el uso de técnicas de minería de datos y el post procesamiento, para dar sentido a
información que en un comienzo puede ser confusa debido a su tamaño y ordenamiento.
La principal preocupación del KDD es el procesamiento de las bases de datos
originales a una forma más compacta, manejable y comprensible como puede ser un reporte o
de mayor utilidad como puede ser un modelo predictivo, a partir de bases que dado el vértigo
del paradigma actual están en constante crecimiento tanto vertical, aumentando el número de
registros (más filas), como horizontal, incrementando el número de atributos (más columnas).
[Fayy96]!
Diversos autores han definido KDD como el proceso no trivial de extracción de
información implícita y previamente desconocida identificando patrones válidos y novedosos
del que finalmente se obtiene conocimiento potencialmente útil y comprensible. [Ohrn99]
[Buch00] [Carb97].!
KKD describe la unión de las siguientes etapas que se conjugan para el
descubrimiento de conocimiento:
a) (Opcional) Evaluación y Mejora de los métodos empleados para almacenar y acceder a la
información o bases de datos.
Ésta etapa incluye el uso de almacenes de datos (data warehousing) para el
almacenamiento de la información transaccional y operacional para facilitar el análisis,
reporte y toma de decisiones. Permite unificar las bases de datos que se registran en distintos
formatos y favorece el acceso a esta información en un patrón entendible por toda la
organización. Un problema común en compañías medianas y grandes, estáticas, donde sus
divisiones tomaron decisiones divergentes sobre el uso del lenguaje para sus propósitos
individuales.
b) Familiarización del dominio formado por los datos y definición del objetivo buscado por
parte del modelador y el cliente.
La primera parte implica el entendimiento con los responsables del ingreso de la
información, conocer sus necesidades y los métodos empleados para solucionarlas. La
utilidad de cada una de las variables en el proceso, sus restricciones, escalas, ámbito y
profundidad.
La segunda parte cumple su objetivo al conocer la necesidad del cliente, su
paradigma, la escala de valor cliente-base y detectar el potencial de su información.
c) Pre-procesamiento.
Implica estandarizar los datos ingresados en la base, limpieza de entradas mal
ingresadas, reescritura a datos binarios, actualización de datos si es pertinente y manejo de
datos no registrados. También se incluye la creación de nuevos atributos, la eliminación de
outliers y reducción de dimensión.
d) Estrategia de reducción de variables.
Se buscan los atributos de entrada que mejor describan la variable a predecir.
Tanto aspectos cualitativos como cuantitativos (estadísticos) son utilizados en esta etapa para
definir las variables importantes. En complemento al enfoque numérico-restrictivo es
necesario el arte para la obtención de resultados apropiados a la necesidad evitando
apropiadamente modelos robustos que pueden ser poco prácticos e intuitivos.
e) Selección del método y algoritmo de minería de datos que mejor se ajuste al objetivo
definido para el KDD.
f) Minería de datos.
Es el proceso mediante el cual, en ayuda de una serie de técnicas estadísticas, se
descubre información no trivial de la información contenida en las bases de datos y permite
potenciar la toma de decisiones. Más adelante en este informe se profundizará sobre su
descripción y relevancia.
g) Análisis del resultado.
Se puede volver a cualquier punto anterior en busca de alguna mejora en el
proceso y resultados. Etapa en la que no sólo impera el nivel de acierto sino también
características blandas como comprensión y uso.
h) Utilización de los resultados ya sea vía reportes, directa o almacenamiento.
[Buch00] Buchheit,&R.B.;&Garrett,&J.H.&JR;&Lee,&S.R.;&Brahme,&R..&A&Knowledge&Discovery&
Framework&for&City&Civil&Infrastructure:&A&Case&Study&of&the&Intelligent&Workplace.&
Engineering&with&Computers,&Number&16,&2000.
[Carb97] Carbone,&P.&Data&Mining&or&"Knowledge&Discovery&in&Databases"&An&Overview.&
Mitre&Corporation.&1997.&
[Corp07] Corporación Municipalidad de Puente Alto. Memoria Corporación de Puente Alto
Año 2007. Santiago, 2007. 75 p.
[Luan02] Luan, Jing. Data Mining and Knowledge Management in Higher Education.
Cabrillo College. Presentation at AIR Forum, Toronto, Canada, 2002. 20 p.
[Juna] Junaeb.cl [homepage on the Internet]. Santiago: Junaeb: Red de Protección Social del
Estudiante. Available from: http://www.junaeb.cl.
[Mine] Mineduc.cl [homepage on the Internet]. Santiago: Ministerio de Educación, Gobierno
de Chile. Available from: http://www.mineduc.cl.