Vous êtes sur la page 1sur 9

DETECCIÓN DE PATRONES DE FUGA EN LA

ENSEÑANZA PÚBLICA MUNICIPALIZADA,


MEDIANTE EL USO DE TÉCNICAS DE MINERÍA DE
DATOS

Extracto de Memoria de Título de Ingeniero Civil de Industrias,


con Diploma en Ingeniería de Minería, de la Pontificia
Universidad Católica de Chile, de Arturo Andrés Montenegro
Sotomayor.

2010
II. ASPECTOS TEÓRICOS
2.1 KDD
En las últimas dos décadas la cantidad de información almacenada en las
organizaciones está experimentando un aumento nunca antes observado. A nivel global, esta
información se duplica cada 20 días y las bases de datos que las contienen aumentan a un
ritmo aún mayor [Erdo05]. No es por ello raro encontrar bases con terabytes de información
[Tang05] que requieren ser analizadas por especialistas que en cantidad no han aumentado al
ritmo requerido por la coyuntura![Díaz04].
La penetración y evolución de las tecnologías de la información han facilitado a
las empresas el uso de estos registros para generar valor a toda escala motivadas por el anhelo
de mejorar los métodos de toma de decisiones. El método manual de análisis e interpretación
es sumamente lento, caro y subjetivo [Fayy96], así, como respuesta, surge el Descubrimiento
de Conocimiento en Bases de Datos (o KDD de sus siglas en inglés). Esta actividad implica el
preprocesamiento o preparación de la base, el descubrimiento de información relevante
mediante el uso de técnicas de minería de datos y el post procesamiento, para dar sentido a
información que en un comienzo puede ser confusa debido a su tamaño y ordenamiento.
La principal preocupación del KDD es el procesamiento de las bases de datos
originales a una forma más compacta, manejable y comprensible como puede ser un reporte o
de mayor utilidad como puede ser un modelo predictivo, a partir de bases que dado el vértigo
del paradigma actual están en constante crecimiento tanto vertical, aumentando el número de
registros (más filas), como horizontal, incrementando el número de atributos (más columnas).
[Fayy96]!
Diversos autores han definido KDD como el proceso no trivial de extracción de
información implícita y previamente desconocida identificando patrones válidos y novedosos
del que finalmente se obtiene conocimiento potencialmente útil y comprensible. [Ohrn99]
[Buch00] [Carb97].!
KKD describe la unión de las siguientes etapas que se conjugan para el
descubrimiento de conocimiento:
a) (Opcional) Evaluación y Mejora de los métodos empleados para almacenar y acceder a la
información o bases de datos.
Ésta etapa incluye el uso de almacenes de datos (data warehousing) para el
almacenamiento de la información transaccional y operacional para facilitar el análisis,
reporte y toma de decisiones. Permite unificar las bases de datos que se registran en distintos
formatos y favorece el acceso a esta información en un patrón entendible por toda la
organización. Un problema común en compañías medianas y grandes, estáticas, donde sus
divisiones tomaron decisiones divergentes sobre el uso del lenguaje para sus propósitos
individuales.
b) Familiarización del dominio formado por los datos y definición del objetivo buscado por
parte del modelador y el cliente.
La primera parte implica el entendimiento con los responsables del ingreso de la
información, conocer sus necesidades y los métodos empleados para solucionarlas. La
utilidad de cada una de las variables en el proceso, sus restricciones, escalas, ámbito y
profundidad.
La segunda parte cumple su objetivo al conocer la necesidad del cliente, su
paradigma, la escala de valor cliente-base y detectar el potencial de su información.
c) Pre-procesamiento.
Implica estandarizar los datos ingresados en la base, limpieza de entradas mal
ingresadas, reescritura a datos binarios, actualización de datos si es pertinente y manejo de
datos no registrados. También se incluye la creación de nuevos atributos, la eliminación de
outliers y reducción de dimensión.
d) Estrategia de reducción de variables.
Se buscan los atributos de entrada que mejor describan la variable a predecir.
Tanto aspectos cualitativos como cuantitativos (estadísticos) son utilizados en esta etapa para
definir las variables importantes. En complemento al enfoque numérico-restrictivo es
necesario el arte para la obtención de resultados apropiados a la necesidad evitando
apropiadamente modelos robustos que pueden ser poco prácticos e intuitivos.
e) Selección del método y algoritmo de minería de datos que mejor se ajuste al objetivo
definido para el KDD.
f) Minería de datos.
Es el proceso mediante el cual, en ayuda de una serie de técnicas estadísticas, se
descubre información no trivial de la información contenida en las bases de datos y permite
potenciar la toma de decisiones. Más adelante en este informe se profundizará sobre su
descripción y relevancia.
g) Análisis del resultado.
Se puede volver a cualquier punto anterior en busca de alguna mejora en el
proceso y resultados. Etapa en la que no sólo impera el nivel de acierto sino también
características blandas como comprensión y uso.
h) Utilización de los resultados ya sea vía reportes, directa o almacenamiento.

2.1.1 Aplicaciones del KDD


Diversos son los campos de aplicación de las técnicas asociadas al KDD,
marketing, finanzas, detección de fraude, manufactura y telecomunicaciones son algunas de
las actividades en las que se utilizan. En marketing se emplea para detectar grupos de clientes
y predecir su comportamiento, en finanzas principalmente en el área de inversiones, en
detección de fraudes se emplea para monitorear el lavado de dinero y transacciones bancarias,
en manufactura, para detección de fallas en producción y en telecomunicaciones para la
detección de patrones según comportamiento. [Fayy96]
Pero las posibilidades de aplicación trascienden esta lista y las aplicaciones
aumentan día a día.
2.1.2 Etapas en la Evolución del KDD
En la década de los 60 se inicia con los computadores la recolección de
información. Esto permite una visión retrospectiva, pero estática de la información
acumulada. Es el primer paso a la digitalización en las organizaciones que permite obtener
información sencilla como los costos asociados a la producción de los últimos cinco años,
total de ingresos, etc.
En la década de los 80 con el surgimiento de las bases de datos relacionales
(Relational Databases) y el lenguaje SQL surge la posibilidad de acceder a las bases y
mediante preguntas (queries) obtener información retrospectiva, pero dinámica, generando la
capacidad de responder preguntas más precisas como las materias primas más usadas en una
fábrica en particular.
En la década de los 90 con el surgimiento de OLAP (On-line Analytic
Processing), data warehouses y bases de datos multidimensionales se pavimenta el data
warehousing y Soporte de Decisiones, los que en conjunto permiten integrar información
horizontalmente lo que antes debido a la diversa estructuración de las bases era imposible,
este acceso a la información de manera retrospectiva y dinámica a múltiples niveles permite
responder preguntas como cuales fueron las ventas de la operación en Santiago en
comparación a la de Viña del Mar.
Todo lo anterior y el surgimiento de computadores con mayor capacidad de
procesamiento, algoritmos matemáticos avanzados y el incremento de las bases de datos
facilitaron el surgimiento de la minería de datos, que del nivel retrospectivo evolucionó al
predictivo, permitiendo responder preguntas como cuales de nuestros clientes son los más
importantes, como son, como se comportan y porqué.
2.2 Minería de Datos
Minería de datos es el conjunto de técnicas empleadas para descubrir patrones
desconocidos y no obvios a priori. Nace como necesidad de algoritmos que pudiesen
profundizar en el conocimiento de las bases de datos más allá de los alcances de las preguntas
o queries cuyo nivel de profundidad no bastó para bases en aumento tanto en cantidad y
tamaño, y es considerado una etapa del proceso KDD al que se hizo referencia con
anterioridad. Nace y evoluciona de la mano con el reconocimiento de patrones, aprendizaje
automático y la estadística. Está orientado a dos requerimientos básicos, por un lado la
descripción, es decir, el descubrimiento de patrones, reglas, asociaciones, agrupamientos, etc,
y por otro la predicción, que utilizando regresiones, series de tiempo y clasificaciones,
permite la utilización de patrones para predecir el comportamiento futuro y tendencias.
Ambos de gran importancia para las organizaciones actuales, les permite ahondar el
conocimiento de la interacción entre la empresa y sus clientes, descubriendo información
como la relación entre productos que pueden ser vendidos juntos, detección de fraudes,
grupos de clientes con características de compra similares, distribución eficiente de espacios
de compra, predicción del comportamiento de los clientes, etc, logrando respaldo a la toma de
decisiones de manera simple y rápida a partir de montañas de información complejas a
primera vista.
Las distintas técnicas de minería de datos se utilizan para obtener una solución
tanto a la predicción como a la detección de patrones, para la predicción los métodos más
usados son la clasificación, regresiones y series de tiempo, mientras que para la detección de
patrones es común la utilización de asociaciones, agrupamiento y descubrimiento de
secuencias.
La clasificación es un método de aprendizaje supervisado, es decir, que
proporciona al modelo las entradas y salidas y busca converger la salida del modelo a la salida
proporcionada por el modelador mediante iteraciones. La información de salida es del tipo
discreta y permite el aprendizaje o feedback del usuario al aprender de las características de
los elementos de cada clase propiciando la predicción. Es ampliamente utilizado en la
detección de spam.
Las regresiones también son métodos de aprendizaje supervisado utilizadas para
predecir un atributo mediante la construcción de modelos que combinan el resto de los
atributos. Entregan un valor o vector de salida continuo. Algunas regresiones utilizan como
atributo adicional el tiempo y son conocidas como series de tiempo.
Las asociaciones son reglas que se establecen en los datos donde un grupo de
ítems implica la presencia de otro grupo. Muy útil en supermercados donde es utilizado para
analizar los patrones de compra y posicionar en anaqueles productos complementarios.
Por otro lado se encuentra el agrupamiento como un problema de aprendizaje no
supervisado que reúne a los individuos según atributos similares. Cada grupo tendrá
características homogéneas entre si y heterogéneas con respecto al resto. Es un problema de
dispersión de datos, utiliza métodos de distancia o entropía de acuerdo al paradigma del
modelador.
2.2.1 Técnicas de Minería de Datos
Alguna de las técnicas empleadas en Minería de Datos son las siguientes:
a) Algoritmo de Bayes
En el paper publicado en 1763, Thomas Bayes escribe sobre un niño recién nacido
que no sabe si el sol saldrá la mañana siguiente. El niño, como no conoce el proceso diario,
asigna la misma probabilidad a que el sol salga o que no lo haga a la mañana siguiente. El
niño deposita una bola blanca en un bolso, representando el nuevo amanecer, y una negra
representando el evento que el sol no salga al siguiente día. En cada nueva mañana deposita
una nueva bola blanca las que después de un tiempo sobrepasan en número a la bola negra
puesta en un comienzo. Esto le permite al niño asegurar, con cierto grado de certeza, que el
sol saldrá el próximo día. [Tang05]
El método utiliza los registros históricos para predecir y facilitar la comprensión
de los datos según las relaciones que se crean entre la variable a predecir y las restantes,
utilizando las correlaciones que entre ellas se generan. Por ejemplo si uno quiere saber el sexo
de una persona en base a una estadística de su comportamiento el algoritmo predecirá el sexo
en base a las probabilidades condicionales de dicho evento dada las variables independientes
considerando estas últimas como independientes entre sí. Se utiliza el teorema de bayes:
Si la Hipótesis es el sexo, y la experiencia es si compra o no en supermercados, si
practica o no un deporte y si es fanático del fútbol o no y se pretende predecir al sujeto con
variables independientes cuyo valor es por ejemplo sí, no, no para cada una de las variables
exógenas, se calculará para ello la probabilidad de ser hombre dado que sí compra en
supermercados, no practica deporte y no es fanático del fútbol. Aquello entregará la
probabilidad determinada para el sexo del sujeto y permitirá predecir su valor.
Esta manera de predecir también entrega una buena manera de conocer las
relaciones entre los datos, facilitando la comprensión de la base y otorgando al modelador una
herramienta fácil para ello, beneficio que no entregan muchos algoritmos.
b) Árboles de Decisión
Es la técnica más utilizada gracias a su rápida ejecución y fácil interpretación. Su
principio es dividir los datos en subgrupos según el efecto sobre la variable a predecir de
manera que cada subgrupo tenga atributos homogéneos con respecto a la variable objetivo. El
árbol está conformado por ramas. Desde la raíz hasta las hojas cada camino se conoce como
regla. Al predecir, el método utiliza el input y lo analiza según sus características asociándolo
a una rama, así cada evento decantará en alguna ramificación en la que será ubicada según sus
atributos. Cada ramificación tendrá una probabilidad de ocurrencia dada por los datos
almacenados. Los paradigmas utilizados en la creación pueden variar. Se pueden utilizar
diversos métodos para hacer crecer el árbol, tanto en profundidad como en forma.
c) Series de Tiempo
Se basa en el almacenamiento de datos históricos ordenados según una estructura
temporal discreta o continua (minutos, horas, trimestres, semestres, etc) en el que los datos
están correlacionados con los antecesores y estos pueden ser también continuos o discretos.
En el caso que los datos son continuos generalmente se habla de series de tiempo y cuando las
observaciones son discretas se habla de secuencia.
Series de tiempo son muy útiles y se utilizan para predicción. Muchos ERP los
utilizan y son muy importantes para el retail ya que son muy útiles para predecir demanda y
determinar inventarios, especialmente, cuando el factor estacional es relevante.
En series de tiempo cada valor para X en un instante t depende de los valores
previos de x en tes anteriores.
d) Clustering
Esta técnica automatiza el raciocinio humano con el fin de ampliar su espectro de
aplicación y favorecer la profundidad de su análisis.
Divide la información en grupos que de acuerdo a sus atributos sean heterogéneos
entre ellos pero homogéneos en su composición.
Un ejemplo práctico es los métodos de “selección natural” que día a día gobierna
nuestras decisiones. Es el método que nos permite discriminar entre los diversos elementos
que pueden conformar un grupo para tomar una decisión determinada, por ejemplo, cuando
queremos seleccionar un dulce dentro de mucho, la selección natural separa aquellos duros de
los blandos, separa por colores y sabores, hasta lograr identificar los diversos grupos que
conforman el universo.
El análisis de clustering perfeccionó y automatizó esta simple metodología para
tecnificar el método y lograr su uso por ejemplo en el reconocimiento de los clientes para la
detección de sus atributos más relevante para la organización.
e) Reglas de Asociación
Las reglas de asociación son ampliamente usadas en marketing para tomar
decisiones en base al patrón de compra de los clientes.
Se conoce como el análisis de la canasta de supermercado al método que permite
asociar las decisiones de compras de los individuos debido a que estas siguen ciertos patrones
identificables. Permite a los supermercados detectar que productos son comprados juntos o
son más probables de hacerlo de acuerdo a la canasta seleccionada por el consumidor,
entregando importante información para la selección de productos en oferta, distribución de
productos por pasillos, manejo de inventario, promociones por cliente, atención
personalizada, utilización de promotores, etc.
Las reglas de asociación tiene dos etapas. La primera identifica los grupos de
ítems con mayor frecuencia y la segunda identifica reglas de asociación entre ellos.
Un ítem corresponde a un atributo en la base de datos, así por ejemplo, si se
analiza una canasta de compra, un ítem corresponde a uno de los posibles productos que
puede comprar un cliente en el supermercado. Su valoración dependerá del número de
unidades comprada de cada producto.
Un grupo de ítems corresponde a la consolidación de un cierto número de esos
atributos, y el valor de este grupo será la suma de los valores individuales, así si se compra 1
bebida, 1 pan y 2 jamones, el valor para el grupo de ítems {bebida, pan, jamón}, será igual a
3.
El soporte es el número de veces en que se transó en conjunto los ítems
pertenecientes a los distintos grupos de ítems definidos. Como dato previo a la modelación se
requiere que el modelador ingrese el valor mínimo de soporte que acote el número de grupos
de ítems que se considere como relevante.
El modelador también deberá incluir el valor mínimo de probabilidad, bajo el
mismo concepto de elección del mínimo valor de soporte.
Esta probabilidad es calculada la razón entre soportes como sigue:
! !"#"$%& !, !
! = !
! !"#"$%& !
Después se determina la importancia del grupo de ítems de acuerdo a:
!"#$%&'()*' !, ! = !(!, !)/(! ! ∗ !(!))!
Si el valor que se obtiene es 1, los ítems serán independientes, en caso de ser
menor a 1, la relación de compra será inversa, y en caso de ser mayor a 1, la correlación entre
ambos productos indica que si se compra uno será probable que compre el otro.
Para las reglas este valor se calcula así:
!
! !
!"#$%&'()*' ! → ! = log!( )!
!
! !"#
Donde los valores 0 indica independencia, menor a cero, correlación negativa y
sobre cero correlación positiva.!
2.2.2 Minería de Datos aplicada a la Educación
El Data Mining y todas sus técnicas asociadas son aplicables a todo ámbito que
cuente con información y requiera toma de decisiones soportada en argumentos sólidos. Es
así posible en preguntas que se realizan en las aéreas de aplicación típicas de estas técnicas
como puede ser por ejemplo el marketing, finanzas o el mundo de negocios en general
encontrar un paralelo en temas educacionales [Luan02]. Una típica pregunta es ¿Cuál de mis
clientes son más rentables? La que encuentra su símil en ¿Cuál de mis alumnos toma mayor
cantidad de créditos?, ¿Cuál de mis clientes visita de manera más recurrente el website?
Encuentra su equivalencia al encontrar los alumnos que asisten frecuentemente a clases. Cuál
de los consumidores es leal, o cual de ellos es propenso a aumentar sus compras, es
equivalente en educación a cuestionarse cuál de los alumnos que asisten a la universidad o
colegio son más responsables, tienen mayor asistencia o donarán dinero cuando sean ex
alumnos, también preguntas estratégicas para descubrir clientes fáciles de atraer o evitar que
deriven en la competencia pueden encontrar su símil en por ejemplo, que cursos es posible
ofrecer para atraer más alumnos o cuales puedo perfeccionar para fidelizarlos.
Desde sus comienzos, el Data Mining Educacional ha soportado la toma de
decisiones en instituciones que han optado por utilizarlo. Se ha usado ampliamente en
universidades que administran bases de datos de ex alumnos en busca de recursos
provenientes de donaciones para sus fondos de desarrollo, así el data mining ha entregado
herramientas para detectar aquellos ex alumnos con mayores probabilidades de donar dinero o
participar de actividades relacionadas con las agrupaciones que los acogen. También se utiliza
para apoyar y robustecer la eficiencia institucional. Se ha utilizado ampliamente en la
educación escolar como universitaria, apoyando la gestión y estructura de mallas curriculares
o métodos de enseñanza eficientes logrando resultados ampliamente apreciados. También, el
marketing educacional se ha visto fortalecido por el data mining en momentos que la
competencia es grande descubriendo campañas eficaces, logrando discriminar el público
objetivo y promoviendo campañas de adopción enfocadas en necesidades particulares,
cooperando no sólo en la creación sino también en el desarrollo de la relación con el
alumnado ayudando a detectar a tiempo necesidades y motivaciones.
En las aplicaciones de Data Mining en Educación destaca el análisis de clustering
y la predicción, y junto a todas las técnicas empleadas y los análisis llevados a cabo, buscan
soportar la toma de decisiones plasmando una tendencia del mundo de los negocios a la
gestión educacional persiguiendo soportar acciones en pro del desarrollo de las instituciones y
sus fines.
BIBLIOGRAFIA
[Erdo05] Erdogan, Senol Zafer y Timor,Mahpare. A Data Minning Aplication in a Student
Database. 1era ed. Estambul, Journal of Aeronautics and Space Technologies, 2005. 5 p.
[Tang05] Tang, ZhaoHui y MacLennan, Jamie. Data Mining with SQL Server 2005. 1era ed.
Indianapolis, Wiley Publishing Inc, 2005.483 p.
[Díaz04] Díaz Arévalo, José Luis y Pérez García, Rafael. Estado del Arte en la utilización de
técnicas avanzadas para la búsqueda de información no trivial a partir de datos en los sistemas
de abastecimiento de agua potable. 1era ed. Valencia, 2004. 10 p.
[Fayy96] Fayyad, Usama y Piatetsky-Shapiro, Gregory y Smyth, Padhraic. From Data Mining
to Knowledge Discovery in Databases. 1era ed. American Association for Artificial
Intelligence, 1996. 18 p.
[Ohrn99] OHRN,&A.&Discernibility&and&Rough&Sets&in&Medicine:&Tools&and&Applications.&
Department&of&Computer&and&Information&Science,&Norwegian&University&of&Science&and&
Technology,&Norway,&1999.&

[Buch00] Buchheit,&R.B.;&Garrett,&J.H.&JR;&Lee,&S.R.;&Brahme,&R..&A&Knowledge&Discovery&
Framework&for&City&Civil&Infrastructure:&A&Case&Study&of&the&Intelligent&Workplace.&
Engineering&with&Computers,&Number&16,&2000.

[Carb97] Carbone,&P.&Data&Mining&or&"Knowledge&Discovery&in&Databases"&An&Overview.&
Mitre&Corporation.&1997.&
[Corp07] Corporación Municipalidad de Puente Alto. Memoria Corporación de Puente Alto
Año 2007. Santiago, 2007. 75 p.
[Luan02] Luan, Jing. Data Mining and Knowledge Management in Higher Education.
Cabrillo College. Presentation at AIR Forum, Toronto, Canada, 2002. 20 p.
[Juna] Junaeb.cl [homepage on the Internet]. Santiago: Junaeb: Red de Protección Social del
Estudiante. Available from: http://www.junaeb.cl.
[Mine] Mineduc.cl [homepage on the Internet]. Santiago: Ministerio de Educación, Gobierno
de Chile. Available from: http://www.mineduc.cl.

Vous aimerez peut-être aussi