Proyecto de Final

UNIVERSIDAD NACIONAL SAN ANTONIO ABAB DEL CUSCO FACULTAD DE CIENCIAS QUIMICAS, FISICAS, MATEMATICAS
CARRERA PROFESIONAL DE INGENIERIA INFORMATICA Y DE SISTEMAS
SISTEMAS EXPERTOS DETECCION DE FRAUDE EN TELEFONIA CELULAR UTILIZANDO REDES NEURONALES
ALUMNO:
HUAMANTTICA SALAS, ERIC RODRIGO

CUSCO
083196
Profesor: Mgt. Lino P. Flores Pacheco
CUSCO, JULIO DEL 2013
Contenido
Introduccin...............................................................................................................................................4 1. Planteamiento del problema .......................................................................................................5 1.1. 1.2. 1.3. 1.4. 1.5. mbito de influencia de la tesis........................................................................................5 Descripcin de la situacin actual ....................................................................................5 Justificacin ............................................................................................................................5 Formulacin del problema ..................................................................................................5 Objetivos ..................................................................................................................................6 Objetivo general .............................................................................................................6 Objetivos especficos ...................................................................................................6
1.5.1. 1.5.2. 2.
Marco terico ..................................................................................................................................6 2.1. 2.2. Antecedentes de la tesis ......................................................................................................6 Bases tericas cientficas....................................................................................................7 Definicin de fraude en telefona celular .................................................................7 Clasificacin de tipos de fraude ................................................................................7 Deteccin de fraude en telefona celular .................................................................9 Enfoques en la deteccin de fraude ...................................................................... 11 Redes neuronales............................................................................................................ 12 Elementos de una red neuronal artificial..................................................................... 12 Topologa de las redes neuronales ........................................................................ 14 Mecanismos de aprendizaje..................................................................................... 15 SELF ORGANIZING MAPS (SOM) ........................................................................... 16 Anlisis de informacin para la deteccin de fraude .................................... 19 Enfoques de deteccin de fraude ....................................................................... 20
2.2.1. 2.2.2. 2.2.3. 2.2.4. 2.2.5. 2.2.6. 2.2.7. 2.2.8. 2.2.9. 2.2.10. 2.2.11. 3.
Modelos de solucin .................................................................................................................. 20 3.1. 3.2. 3.3. Modelo de solucin por reglas ........................................................................................ 20 Limitaciones de la solucin por reglas ......................................................................... 21 Enfoque basado en redes neuronales .......................................................................... 22 Modelo utilizando redes neuronales supervisadas ........................................... 22 Limitaciones del enfoque basado en redes neuronales supervisadas ........ 23
3.3.1. 3.3.2. 3.4.
Enfoque basado en redes neuronales no supervisadas .......................................... 24
4.
Descripcin del problema......................................................................................................... 24 4.1. 4.2. 4.3. 4.4. El problema de la construccin y mantenimiento del perfiles de usuario ...... 24 El problema de deteccin de cambios de funcionamiento ..................................... 24 El problema de la performance ....................................................................................... 24 Representacin grfica del problema a resolver ....................................................... 25
5.
Solucin propuesta .................................................................................................................... 25 5.1. 5.2. 5.3. 5.4. 5.5. Procesamiento previo de la informacin-Mediacin ................................................. 25 Solucin a la construccin y mantenimiento de perfil de usuario .................... 26 Solucin a la deteccin de cambios de comportamiento ........................................ 26 Solucin a la cuestin de performance ........................................................................ 27 Restricciones de la solucin propuesta ....................................................................... 27
6. 7.
Conclusiones ............................................................................................................................... 27 Sugerencias.................................................................................................................................. 28
Introduccin
Las formas de realizar fraude estn constantemente evolucionando y cambiando; esto se debe a que la tecnologa en telecomunicaciones avanza y restringe cada vez ms las posibilidades de cometer actos fraudulentos. Cuando las primeras redes mviles de comunicaciones analgicas fueron lanzadas al mercado, su debilidad principal resida en la seguridad, particularmente en la falta de encriptacin de los datos en los canales de comunicacin que permita la clonacin de telfonos celulares (dos aparatos diferentes usando la misma cuenta). A medida que la tecnologa evolucion de analgica a digital, la naturaleza del fraude ha cambiado hacindose ms difcil la clonacin, y llevando estas actividades hacia otros tipos de fraude; sin embargo, tampoco las redes digitales estn libradas completamente del fraude de clonacin. Los fraudes que se producen en el sector de las telecomunicaciones causan cuantiosas prdidas econmicas a las empresas telefnicas en nuestro pas y, de similar forma en el resto del mundo. Pese a las importantes medidas adoptadas por los Organismos competentes en nuestro pas, aun no se logra la aprobacin de una legislacin penal apropiada que permita desestimular y penalizar adecuadamente estos hechos. Existen muchos factores que facilitan el cometimiento de fraudes en telecomunicaciones, entre ellos, la evolucin tecnolgica que se ha logrado mediante la aparicin de la telefona mvil y el internet con sus innovadoras aplicaciones, el uso de estos medios de transmisin ha provocado que se incrementen las posibilidades, la frecuencia y la magnitud de los delitos que a diario se cometen. Adems se debe considerar el hecho de que los costos de la telefona internacional son bastante elevados en comparacin a los de la telefona local, por lo cual una medida importante pero no del todo eficaz, consiste en disminuir los costos de las llamadas internacionales.
DETECCIN DE FRAUDE EN TELEFONA CELULAR USANDO REDES NEURONALES 1. Planteamiento del problema 1.1. mbito de influencia de la tesis El mercado de telefona mvil en Per creci 11.5 por ciento el ao pasado a 32.5 millones de suscripciones, reportando un avance ms alto que el promedio de Amrica Latina ubicado en 10.5 por ciento. El crecimiento de la telefona mvil en Per tambin fue tres veces mayor que en pases vecinos como Colombia (3.9 por ciento) y Venezuela (3.2 por ciento). Igualmente, la tasa de penetracin mvil en Per pas de 100.1 a 110.4 por ciento entre los aos 2010 y 2011. El trabajo de investigacin va dirigido a la deteccin del fraude que se puede cometer al usar la telefona mvil en el pas ya que mientras ms avanza la tecnologa es ms difcil detectar un fraude que se realiza al usar esta tecnologa. 1.2. Descripcin de la situacin actual La telefona mvil en el pas ha crecido de manera extraordinaria as como tambin la manera de prevenir los robos o fraude que se realiza por este medio, pero as como la tecnologa avanza los delincuentes informticos tambin estn desarrollando nuevas formas de realizar sus actos delictivos que no puedan ser detectados por los usuarios ni tampoco por las compaas prestadoras de este servicio. Para lo cual es necesario implementar un sistema que sea capaz de detectar los fraudes que se pueden realizar por este medio y que mejor si podemos aprovechar las redes neuronales tecnologa ms eficiente en el desarrollo este tipo de sistemas. 1.3. Justificacin Implementar una herramienta capaz de detectar un fraude que se realiza en la telefona celular utilizando redes neuronales artificiales ser ms eficiente puesto que una red neuronal artificial puede ser entrenada para que pueda ser capaz de detectar cualquier tipo de fraude. 1.4. Formulacin del problema A medida que se implementa la herramienta se podr solucionar o crear nuevas aplicaciones capaces de evitar los distintos tipos de fraude.
1.5.
Objetivos
1.5.1. Objetivo general En este contexto, el objetivo de este trabajo es encontrar una herramienta capaz de detectar cambios de comportamiento susceptibles de describirse como fraudulentos utilizando redes neuronales artificiales para construir perfiles de usuario que puedan ser comparables con patrones histricos del mismo. Esta herramienta debe ser eficaz y eficiente en su funcionamiento demostrando que es una forma exitosa de detectar fraude. Se estudiar la mejor forma de construir estos perfiles y adaptarlos a medida que ms informacin se incorpora a los mismos utilizando redes neuronales no supervisadas en el marco de un anlisis diferencial de la informacin dentro del enfoque de deteccin de fraude por aprendizaje. 1.5.2. Objetivos especficos Reducir las prdidas econmicas que ocasionan los fraudes en la telefona celular. Obtener los posibles tipos de fraude nuevos que aparecen, para poder investigar y buscar soluciones.
2. Marco terico 2.1. Antecedentes de la tesis Los casos de fraude telefnico tienen lugar en forma de llamadas de alto coste (internacionales) de forma gratuita o menor importe, etc. Por su naturaleza, la deteccin del fraude encaja perfectamente con la deteccin de anomalas, donde el objetivo es detectar operaciones clasificadas como fraudulentas, preferentemente en tiempo real, para poder actuar en consecuencia. Para ello, es posible utilizar diferentes algoritmos relacionados con la minera de datos y la inteligencia artificial. De hecho, hace tiempo que se trabaja en el sector financiero en este tipo de aproximaciones, y las soluciones podran ser vlidas para detectar otros casos de fraude. Se han estado desarrollando aplicaciones de redes neuronales y Modelos de Markov en la deteccin del fraude. Una de las primeras referencias que menciona el uso de redes neuronales para la deteccin de fraude tiene que ver con el uso de tarjetas de crdito, publicada en 1994. Desde entonces, se viene investigando en el uso de este tipo de algoritmos.
En el caso de tarjetas de crdito, para determinar si una transaccin es fraudulenta, se evalan las diferentes propiedades analgicas de una transaccin por separado (cliente, cantidad, tiempo, etc.) para decidir, tomando el conjunto de resultados, si una transaccin es o no fraudulenta. El entrenamiento de estos sistemas es crtico, de forma que puedan medir posteriormente la normalidad o no de las caractersticas de las transacciones. Para ello, son necesarias grandes cantidades de datos de operaciones, tanto legtimas como fraudulentas, que deben estar debidamente etiquetadas. Igualmente lo es el procesamiento de los datos y la optimizacin del sistema de deteccin, pues sta debe producirse en tiempo real, con la intencin de evitar el fraude. Como respuesta a estos problemas se ha trabajado en la normalizacin de los datos, as como en sistemas distribuidos y colaborativos, desde finales de los 90. Esto coincide con la perspectiva actual alrededor de la computacin en la nube y modelos colaborativos, por la que estn apostando grandes organizaciones. Este hecho puede suponer, en consecuencia, un catalizador para el avance en la deteccin del fraude. 2.2. Bases tericas cientficas
2.2.1. Definicin de fraude en telefona celular Qu es el fraude? Se puede describir de una manera simple como cualquier actividad por la cual un servicio es obtenido sin la intencin de pagarlo. Muchas veces las organizaciones calculan cunto dinero pierden debido al fraude definindolo como el dinero que se pierde en clientes/cuentas por los cuales no se recibe ningn pago. Sin embargo, para los fines de deteccin, tal definicin no es apropiada debido que el fraude solo sera detectado una vez que ha ocurrido. De hecho, especificar qu es el fraude puede ser muy difcil, debido a que la diferencia entre un comportamiento fraudulento y uno que no lo es puede ser muy pequea; por lo tanto lo ms prudente es clasificar al fraude en diferentes tipos y describir cada uno de ellos. 2.2.2. Clasificacin de tipos de fraude A continuacin se presentan diferentes tipos de fraude que deben ser tomados en cuenta cuando se estudia este problema. 2.2.2.1. Fraude contractual Todos los fraudes en esta categora generan a priori ganancia para la empresa a travs del uso normal de los telfonos celulares, pero finalmente el usuario no tiene intenciones de pagar por el servicio que se le brind. Un ejemplo de este tipo de fraude es el denominado por suscripcin. El mismo puede tomar varios matices,
pero puede ser dividido principalmente en dos casos: 1) aquel donde el usuario contrata el servicio sin la intencin de pagarlo nunca; 2) luego de varias facturaciones el usuario toma la decisin de no pagar por el uso del mismo. Este ltimo caso usualmente resulta en un cambio dramtico de su comportamiento en el uso del servicio y ser el caso modelo que utilizaremos para nuestro trabajo. De todas maneras, el primer caso no puede ser detectado a travs de informacin de uso, ya que la misma no existe cuando comienza a utilizar el servicio y es necesaria informacin adicional tal como su condicin crediticia para analizar el riesgo que implique darle el servicio a un determinado usuario. 2.2.2.2. Fraude por violacin de seguridad Todos los fraudes en esta categora le permiten, a quin logra ingresar en sistemas inseguros, brindar de manera ilegal servicios a terceros. Es decir, utilizar recursos de la compaa de manera desleal. Ejemplos de tales fraudes son el fraude hacia una PABX (Private Automatic Branch Exchange Central telefnica que provee acceso a diferentes servicios de comunicaciones como conexin a otras redes de telecomunicaciones) y el ataque a la red. En el fraude hacia una PABX el atacante llama repetidamente a la misma, tratando de tener acceso a una lnea externa; una vez que se tiene acceso, pueden realizar llamadas salientes de alto valor (nacionales o internacionales de larga duracin) simplemente pagando un precio de acceso a la PABX. Usualmente, tales ataques estn asociados con el uso de telfonos clonados, de manera que ni siquiera pagan los precios de acceso. En los ataques a la red, se intenta ingresar a las redes de computadoras a travs de mdems que se configuran en las mismas para poder realizar tareas remotas de administracin y soporte. Una vez que se accede por uno de ellos, el atacante intenta ingresar a la red y configurar ciertos equipos para su propio beneficio. Estos fraudes se caracterizan por llamadas cortas y continuas al mismo nmero en el caso de fraude a una PABX o llamadas cortas a nmeros secuenciales en el caso de fraude de red, por lo cual es este el comportamiento que debe ser detectado. 2.2.2.3. Fraude tcnico Todos los fraudes en esta categora involucran ataques contra las debilidades de la tecnologa de los sistemas de telefona celular (mvil). Tales fraudes tpicamente necesitan habilidad y algn conocimiento tcnico inicial, aunque una vez que se encontr una
debilidad esta informacin se distribuye rpidamente de manera que gente sin los conocimientos necesarios pueda usarla. Ejemplos de este tipo de fraude son la clonacin de telfonos y el fraude interno tcnico. En una clonacin, los parmetros de autenticacin de un mvil son copiados a otro equipo, de modo que la red crea que es el telfono original quien est intentando validarse.
En un fraude interno tcnico, empleados de la compaa pueden alterar cierta informacin en los equipos de comunicaciones para permitir a ciertos usuarios reducir el costo de acceso a los diferentes servicios. El comportamiento de uso de estos clientes depende de cunto tiempo desean permanecer sin ser detectados. En la situacin en la que el atacante cree que puede esconderse por un largo tiempo, deber no salirse del comportamiento normal de uso para no ser detectado. Si cambiara su estilo de uso (promedio de llamadas locales, nacionales, internacionales) la solucin que propondremos en este trabajo lo encontrara rpidamente. En general, este tipo de fraude es de corta duracin ya que se intenta hacer uso del servicio lo mximo posible hasta ser detectado y cortado el servicio.
2.2.2.4. Fraude de procedimiento Todos los fraudes que se describen en esta seccin implican la intencin de evitar los procedimientos implementados para detener el fraude. A menudo estos ataques se enfocan en las debilidades de los procedimientos de negocio usados para dar acceso a los sistemas. Un ejemplo tpico de este fraude es el de Roaming (utilizar el telfono en otra red, ejemplo otro pas, para luego cobrarse el uso en el pas de origen). En este caso, el procedimiento de facturacin generalmente se realiza unos das despus que las llamadas fueron realizadas, cuando el suscriptor puede ya no existir. Sin embargo este tipo de acciones son previstas por casi todos los sistemas de facturacin en telefona celular. Otro ejemplo es el de intentar registrarse en la compaa con datos falsos para lo cual los procesos administrativos deben ser controlados y revisados constantemente para evitar el ingreso de falsos clientes a la red.
2.2.3. Deteccin de fraude en telefona celular Cuando se inicia una llamada de celular, las celdas o switches registran que la misma se est realizando y producen informacin referida a este
evento. Estos registros de datos son comnmente llamados CDRs (Call Detail Records). Los CDRs contienen importante informacin sobre la llamada para que luego sta pueda ser cobrada a quien corresponda.
Estos registros tambin pueden ser usados para detectar actividad fraudulenta considerando indicadores de fraude bien estudiados. Es decir, procesando una cantidad de CDRs recientes y comparando una funcin de los diferentes campos tales como IMSI (International Mobile Subscriber Identity, que identifica unvocamente un usuario en una red de telefona celular), fecha de la llamada, hora de la llamada, duracin, tipo de llamada con un cierto criterio determinado. Si esta funcin devuelve un valor que se considera fuera de los lmites normales, se activa una alarma, que debe ser tomada en cuenta por los analistas de fraude para constatar si realmente hubo o no actividad de mala fe. Para poder procesar estos CDRs es necesario realizar previamente un proceso conocido en telecomunicaciones como mediacin, en el cual se lee la informacin con el formato de registro en el que vienen los CDRs (el mismo puede ser de longitud variable dependiendo del tipo de llamada y del proveedor del switch) y se codifica en un nuevo formato de registro entendible por el sistema de fraude en este caso. La figura 1.1, que se presenta a continuacin, muestra las diferencias entre el anlisis absoluto y el anlisis diferencial.
2.2.4. Enfoques en la deteccin de fraude 2.2.4.1. Enfoque por enseanza En este enfoque, es necesario tener ejemplos reales de fraude. Estos ejemplos son usados para ensear a la herramienta qu es lo que debe buscar. En el caso de un sistema basado en reglas, los ejemplos son analizados por sus componentes de fraude que luego se traducen en reglas que utilizan umbrales o medidas relativas. En el caso de las redes neuronales supervisadas se usan los ejemplos de fraude y los ejemplos de usuarios no fraudulentos para ensearle a la herramienta cules comportamientos son buenos y cules no lo son. Ambos tipos de herramientas deberan identificar comportamientos de alguna manera similar a los ejemplos de fraude usados o a los ejemplos de buen comportamiento; si identifican algn comportamiento como parecido al de un ejemplo de fraude, deben emitir una alarma. 2.2.4.2. Enfoque por aprendizaje En este enfoque, la herramienta aprender el comportamiento tpico de un usuario y emitir una alarma cuando este comportamiento haya cambiado sensiblemente. La habilidad de la herramienta para monitorear el comportamiento de los usuarios la hace muy til para detectar fraudes de los que no se sabe nada como as todos los casos de fraude por suscripcin, que resultan en cambios de comportamiento. Si se sabe poco acerca del fraude existente en el sistema, esta es una buena forma de trabajar y obtener buenos ejemplos de comportamiento fraudulento; sin embargo, hay algunos puntos importantes a tener en cuenta cuando se utiliza este enfoque entre los cuales se puede destacar que no es posible ensearle a esta herramienta qu buscar y si los parmetros de evolucin no se
configuran correctamente, puede llegar a fallar y no detectar cambios de comportamiento que lancen las alarmas correspondientes. Con las redes neuronales no supervisadas se pueden crear perfiles de usuario basados en su comportamiento reciente y compararlo con su consumo histrico que evoluciona a travs del tiempo con las llamadas realizadas. Nuestro trabajo se centrar en la construccin de una herramienta que utilice este enfoque ya que es muy difcil encontrar a priori un escenario en el cual se conozcan muchos casos de fraude para utilizar el enfoque por enseanza. En los captulos posteriores se presentarn
todos los problemas que surgen al disear una herramienta de este tipo, su resolucin y posterior prueba.
2.2.5. Redes neuronales Las Redes Neuronales Artificiales son redes de elementos simples interconectadas masivamente en paralelo y con organizacin jerrquica, las cuales intentan interactuar con los objetos del mundo real del mismo modo que lo hace el sistema nervioso. La compleja operacin de las redes neuronales es el resultado de abundantes lazos de realimentacin junto con no linealidades de los elementos de proceso y cambios adaptativos de sus parmetros, que pueden definir incluso fenmenos dinmicos muy complicados. Debido a su constitucin y a sus fundamentos, las redes neuronales artificiales presentan un gran nmero de caractersticas semejantes a las del cerebro. Por ejemplo, son capaces de aprender de la experiencia, de generalizar de casos anteriores a nuevos casos, de abstraer caractersticas esenciales a partir de entradas que representan informacin irrelevante. Las principales ventajas ofrecidas por las mismas son:
Aprendizaje adaptativo: Capacidad de aprender a realizar tareas basadas en un entrenamiento o una experiencia inicial. Auto organizacin: Una red neuronal puede crear su propia organizacin o representacin de la informacin que recibe mediante una etapa de aprendizaje. Tolerancia a fallos. La destruccin parcial de una red conduce a una degradacin de su estructura; sin embargo algunas capacidades de la red se pueden retener, incluso sufriendo un gran dao. Operacin en tiempo real: Los computadores neuronales pueden ser realizados en paralelo, y se disean y fabrican mquinas con hardware especial para obtener esta capacidad. Basados en esta definicin las redes neuronales son capaces de agrupar las llamadas y clasificarlas de una manera acorde y construir, basados en esta clasificacin, perfiles de usuario que representen su consumo y as luego detectar los cambios de comportamiento. 2.2.6. Elementos de una red neuronal artificial Cualquier modelo de red neuronal consta de dispositivos elementales de proceso: las neuronas. A partir de ellas, se puede generar representaciones especficas de tal forma que un estado conjunto de ellas pueda significar una letra, un nmero o cualquier otro objeto. La neurona artificial pretende mimetizar las caractersticas ms importantes de las neuronas biolgicas. Cada neurona i-sima est caracterizada en cualquier instante por un valor numrico denominado valor o estado de activacin ; asociado a cada unidad existe una funcin de salida, , que transforma el estado actual de activacin en una seal de salida yi. Dicha
seal es enviada a travs de los canales de comunicacin unidireccionales a otras unidades de la red; en estos canales la seal se modifica de acuerdo con la sinapsis (el peso, ) asociada a cada uno de ellos segn una determinada regla. Las seales moduladas que han llegado a la unidad j-sima se combinan entre ellas generando as la entrada total, :
Una funcin de activacin, F, determina el nuevo estado de activacin de la neurona, teniendo en cuenta la entrada total calculada y el anterior estado de activacin . Si se tienen N unidades (neuronas), se puede ordenarlas arbitrariamente y designar la j-sima unidad como . Su trabajo es simple y nico, y consiste en recibir las entradas de las clulas vecinas y calcular un valor de salida, el cual es enviado a todas las clulas restantes. En cualquier sistema de redes neuronales que se est modelando, es til caracterizar tres tipos de unidades: Entradas: estas unidades reciben desde el entorno. Salidas: estas unidades envan la seal fuera del sistema (salidas de la red). Ocultas: son aquellas cuyas entradas y salidas se encuentran dentro del sistema; es decir que no tienen contacto con el exterior. Se conoce como capa o nivel a un conjunto de neuronas cuyas entradas provienen de la misma fuente y cuyas salidas se dirigen al mismo destino.
2.2.7. Topologa de las redes neuronales La topologa o arquitectura de las redes neuronales consiste en la organizacin y disposicin de las neuronas en la red formando capas o agrupaciones de neuronas ms o menos alejadas de la entrada y salida de la red. En este sentido, los parmetros fundamentales de la red son: el nmero de capas, el nmero de neuronas por capa, el grado de conectividad y el tipo de conexiones entre neuronas. En las redes mono capa (1 capa) se establecen conexiones laterales entre las neuronas que pertenecen a la nica capa que constituye la red. Tambin pueden existir conexiones autorrecurrrentes (salida de una neurona conectada a su propia entrada). Las redes multicapa son aquellas que disponen de conjuntos de neuronas agrupadas en varios niveles o capas. Normalmente, todas las neuronas de una capa reciben seales de entrada de otra capa anterior, ms cercana a las entradas de la red, y envan seales de salida a una capa posterior, ms cercana a la salida de la red; a estas conexiones se les denomina conexiones hacia adelante o feedforward. Sin embargo, en un gran nmero de estas redes tambin existe la posibilidad de conectar las salidas de las neuronas de capas posteriores a las entradas de las capas anteriores, a estas conexiones se las denomina conexiones hacia atrs o feedback.
En la figura 2.2 podemos visualizar 5 topologas de redes diferentes: (a) Un Perceptrn de una capa (SLP) conectado completamente. (b) Un Perceptrn multicapa (MLP) conectado completamente. (c) Un MLP modular. (d) Una red recurrente conectada completamente. (e) Una red recurrente conectada parcialmente. 2.2.8. Mecanismos de aprendizaje El aprendizaje es el proceso por el cual una red neuronal modifica sus pesos en respuesta a una informacin de entrada. Los cambios que se producen durante el proceso de aprendizaje se reducen a la destruccin, modificacin y creacin de conexiones. En los modelos de redes neuronales artificiales, la creacin de una nueva conexin implica que el peso de la misma pasa a tener un valor distinto de cero.
2.2.8.1.
Redes con aprendizaje supervisado La tcnica mayormente utilizada para realizar un aprendizaje supervisado consiste en ajustar los pesos de la red en funcin de la diferencia entre los valores deseados y los obtenidos en la salida de la red; es decir, una funcin de error cometido en la salida. Existen varias formas de calcular el error y luego adaptar los pesos con la correccin correspondiente. Una de las ms implementadas utiliza una funcin que permite cuantificar el error global cometido
en cualquier momento durante el proceso de entrenamiento de la red, lo cual es importante, ya que cuanto ms informacin se tenga del error cometido, ms rpido se puede aprender. El error medio se expresa por la ecuacin:
Dnde: N = Nmero de neuronas de salida. P = Nmero de informaciones que debe aprender la red. = Valor de salida deseado para la neurona j. = Valor de salida obtenido para la neurona j. k = patrn k-simo presentado a la red. Por lo tanto, de lo que se trata es de encontrar unos pesos para las conexiones de la red que minimicen esta funcin de error. Para ello, el ajuste de los pesos de las conexiones de la red se puede hacer de forma proporcional a la variacin relativa del error que se obtiene al variar el peso correspondiente:
Dnde: = Variacin en el peso de la conexin entre las neuronas i y j. Mediante este procedimiento, se llegan a obtener un conjunto de pesos con los que se consigue minimizar el error medio, con la presentacin de cada nuevo patrn de entrenamiento a la red. 2.2.8.2. Redes con aprendizaje no supervisado Las redes con aprendizaje no supervisado no requieren influencia externa para ajustar los pesos de las conexiones entre sus neuronas. La red no recibe ninguna informacin por parte del entorno que le indique si la salida generada en respuesta a una determinada entrada es o no es correcta; por ello, suele decirse que estas redes son capaces de autoorganizarse. Estas redes deben encontrar las caractersticas, regularidades, correlaciones o categoras que se puedan establecer entre los datos que se presentan en su entrada. En algunos casos, la salida representa el grado de familiaridad o similitud entre la informacin que se le est presentando en la entrada y las informaciones que se le han mostrado hasta entonces (en el pasado). En otro caso podra realizar una clusterizacin o establecimiento de patrones o categoras, indicando la red a la salida a qu categora pertenece la informacin presentada a la entrada, siendo la propia red quien debe encontrar las categoras apropiadas a partir de las correlaciones entre las informaciones presentadas. Una variacin de esta categorizacin es el prototipado. En este caso, la red obtiene ejemplares o prototipos representantes de las clases a las que pertenecen las informaciones de entrada. Finalmente, algunas redes con aprendizaje no supervisado lo que realizan es un mapeo de caractersticas, obtenindose en las neuronas de salida una disposicin geomtrica que representa un mapa topogrfico de las caractersticas de los datos de entrada, de tal forma que si se presentan a la red informaciones similares, siempre sean afectadas neuronas de salida prximas entre s, en la misma zona del mapa. 2.2.9. SELF ORGANIZING MAPS (SOM) Existen evidencias que demuestran que en el cerebro hay neuronas que se organizan en muchas zonas, de forma que las informaciones captadas del entorno a travs de los rganos sensoriales se representan internamente en forma de mapas bidimensionales. Por ejemplo, en el sistema visual se han detectado mapas del espacio visual en zonas del crtex (capa externa del cerebro); tambin en el sistema auditivo se detecta una organizacin segn la frecuencia a la que cada neurona alcanza mayor respuesta. 2.2.9.1. Algoritmo del SOM El algoritmo de aprendizaje del SOM est basado en el aprendizaje no supervisado y competitivo, lo cual quiere decir que no se necesita intervencin humana durante el mismo y que se necesita
saber muy poco sobre las caractersticas de la informacin de entrada. Podramos, por ejemplo, usar un SOM para clasificar datos sin saber a qu clase pertenecen los mismos. El mismo provee un mapa topolgico de datos que se representan en varias dimensiones utilizando unidades de mapa (las neuronas) simplificando el problema. Las neuronas usualmente forman un mapa bidimensional por lo que el mapeo ocurre de un problema con muchas dimensiones en el espacio a un plano. La propiedad de preservar la topologa significa que el mapeo preserva las distancias relativas entre puntos. Los puntos que estn cerca unos de los otros en el espacio original de entrada son mapeados a neuronas cercanas en el SOM; por lo tanto, el SOM sirve como herramienta de anlisis de clases de datos de muchas dimensiones; adems tiene la capacidad de generalizar, lo que implica que la red puede reconocer o caracterizar entradas que nunca antes ha encontrado; una nueva entrada es asimilada por la neurona a la cual queda mapeada. 2.2.9.2. Pre-procesamiento de datos Los datos que alimentan al SOM incluyen toda la informacin que toma la red. Si se le presenta informacin errnea, el resultado es errneo o de mala calidad. Entonces, el SOM, tanto como los otros modelos de redes neuronales, deben eliminar la informacin basura para que no ingrese al sistema. Por lo cual se debe trabajar con un subconjunto de los datos; estos deben ser relevantes para el modelo a analizar. Tambin se deben eliminar los errores en los datos; si los mismos se obtienen a travs de una consulta a una base de datos, el resultado puede incluir datos errneos debido a la falta de integridad de la base; entonces estos deben ser filtrados usando conocimientos previos del dominio del problema y el sentido comn. Comnmente los componentes de los datos de entrada se normalizan para tener una escala de 0 a 1. Esto asegura que por cada componente, la diferencia entre dos muestras contribuye un valor igual a la distancia medida calculada entre una muestra de entrada y un patrn. Es decir que los datos deben previamente codificarse (normalizarse). De lo contrario no ser posible usar la distancia como una medida de similitud. Esta medida debe ser cuantificable por lo que la codificacin debe ser armnica con la medida de similitud utilizada. La medida mayormente utilizada es la distancia Eucldea. Los datos simblicos no pueden ser procesados por un SOM como tales, por lo que deben ser transformados a una codificacin adecuada. 2.2.9.3. Inicializacin
Existen varios tipos de inicializaciones para los valores de las neuronas (patrones): entre ellos se pueden nombrar la inicializacin al azar y la inicializacin utilizando usando las primeras muestras. En la inicializacin al azar se asignan valores aleatorios a los
patrones; se utiliza cuando se sabe muy poco o nada sobre los datos de entrada en el momento de comenzar el entrenamiento. La inicializacin utilizando las primeras muestras utiliza los primeros datos de entrada asignndolos a los patrones; tiene la ventaja que los automticamente se ubican en la parte correspondiente del espacio de entrada. 2.2.9.4. Entrenamiento El entrenamiento es un proceso iterativo a travs del tiempo. Requiere un esfuerzo computacional importante, y por lo tanto, consume mucho tiempo. Este consiste de muestras del conjunto de datos de entrada que van ingresando a la red para que la misma las aprenda. El aprendizaje consiste en elegir una neurona ganadora por medio de una medida de similitud y actualizar los valores de los patrones en el vecindario del ganador; este proceso se repite varias veces para poder ir refinando (acotando) el error y acercar las neuronas a una representacin ms adecuada de los datos de entrada. 2.2.9.5. Visualizacin El SOM es una aproximacin de la funcin de densidad de probabilidad de los datos de entrada y puede representarse de una manera visual. La representacin U-Matrix (unified distance Matrix) del SOM visualiza la distancia entre neuronas adyacentes. La misma se calcula y se presenta con diferentes colores entre los nodos adyacentes. Un color oscuro entre neuronas corresponde a una distancia grande que representa un espacio importante entre los valores de los patrones en el espacio de entrada. Un color claro, en cambio, significa que los patrones estn cerca unos de otros. Las reas claras pueden pensarse como clases y las oscuras como separadores. Esta puede ser una representacin muy til de los datos de entrada sin tener informacin a priori sobre las clases.
En la figura 2.8 podemos observar las neuronas indicadas por un punto negro. La representacin revela que existe una clase separada en la esquina superior derecha de la red. Las clases estn separadas por una zona negra. Este resultado se logra con aprendizaje no supervisado, es decir, sin intervencin humana. Ensear a un SOM y representarla con la U-Matrix ofrece una forma rpida de analizar la distribucin de los datos. 2.2.9.6. Validacin Se pueden crear la cantidad de modelos que se quiera, pero antes de utilizar alguno de ellos, deben ser validados. La validacin significa que el modelo debe ser probado para asegurar que devuelve valores razonables y certeros. La misma debe realizarse usando un conjunto independiente de datos; este es similar al utilizado para el entrenamiento pero no parte de l; puede verse a este conjunto de prueba como un caso representativo del caso general.
2.2.10. Anlisis de informacin para la deteccin de fraude La seleccin de informacin que debe ser analizada y luego procesada es la base de un buen sistema de deteccin de fraude. Una vez que se definieron los escenarios posibles de fraude, se identifican los indicadores tpicos para detectarlos. Estos indicadores pueden ser clasificados en dos grupos diferentes: Por tipo: Indicadores de uso: basados en la forma que se usa un telfono celular. - Indicadores de movilidad: basados en la informacin referente a la ubicacin del telfono celular. - Indicadores deductivos, tales como solapamiento de llamadas y velocity checks. El solapamiento consiste en detectar dos llamadas realizadas en un mismo lapso de tiempo por el mismo telfono, lo que seguramente resulta de una clonacin. Los velocity checks tambin son indicadores de una posible clonacin ya que detectan dos llamadas realizadas por el mismo telfono en dos lugares alejados con horarios muy parecidos. Por uso: Indicadores primarios: son aquellos que por s solos pueden ser empleados en la deteccin de fraude. Ejemplo: total de minutos de llamadas internacionales realizadas. Indicadores secundarios: son aquellos que proveen informacin muy til, pero no son suficientes para detectar fraude por s solos. Ejemplo: frecuencia de llamadas a un determinado destino. -
Indicadores terciarios: proveen informacin adicional que combinada con los indicadores anteriores pueden ser muy tiles. Ejemplo: duracin promedio de las llamadas que realiza un determinado usuario.
2.2.11. Enfoques de deteccin de fraude 2.2.11.1. Enfoque basado en reglas Este enfoque utiliza mtodos automticos de construccin y clasificacin de perfiles de usuario con el propsito de encontrar fraude utilizando algunas tcnicas de data mining que permiten construir las correspondientes reglas. Especficamente se usan programas de aprendizajes de reglas para descubrir indicadores de fraude de una gran base de datos de clientes y sus correspondientes llamadas. Estos indicadores son utilizados luego para crear monitores, que clasifican el comportamiento legtimo y tambin las anomalas. Finalmente, la salidas de los monitores se usan como informacin para un sistema que aprende a combinar la evidencia para generar alarmas altamente confiable. Este sistema se pens para poder detectar, especialmente, fraude de clonacin. Este fraude es un ejemplo de fraude de superimposicin, en el cual el uso fraudulento se agrega (se superimpone) al uso legtimo de la cuenta. Naturaleza adaptativa de la solucin Para poder construir los perfiles de usuario y que luego se pueda detectar fraude es necesario que los analistas ajusten los parmetros o ingresen valores especficos de umbrales que puedan emitir alarmas cuando son superados. Pero si estas reglas son estticas o deben ser determinadas manualmente, esto resulta totalmente improductivo; adems, los tipos de fraude evolucionan constantemente y por lo tanto son dinmicos. Debido a esta realidad, es necesario que el sistema de fraude se adapte fcilmente a las nuevas condiciones que se presentan constantemente. Utilizando tcnicas de minera de datos es posible conseguir la adaptabilidad necesaria. 3. Modelos de solucin 3.1. Modelo de solucin por reglas A continuacin se presenta en la figura 2.9 un grfico que describe el enfoque por reglas que han implementado Fawcett y Provost.
2.2.11.2.
En este enfoque, el sistema aprende primero las reglas que le servirn como indicadores de fraude. Luego utiliza estas reglas, a travs de unas plantillas para crear los perfiles de monitores ( a ). Estos monitores clasifican el comportamiento tpico de cada usuario con respecto a una de las reglas definidas, que en realidad significa cun lejos estn cada uno los usuarios de su comportamiento usual. Finalmente, el sistema aprende a ponderar las salidas de los monitores para maximizar la efectividad del detector de fraude. 3.2. Limitaciones de la solucin por reglas Este enfoque tiene una gran ventaja en su capacidad constante de aprender diferentes escenarios de fraude por clonacin basado en la informacin de cada uno de los usuarios y no generalizando reglas para todos ellos. Sin embrago, segn lo que se describi, esta es una solucin bastante compleja que requiere mucho procesamiento y una cantidad muy grande de informacin previa para que pueda comenzar a funcionar. Esta informacin incluye todo el consumo de los usuarios, (por lo menos de un da) y lo que hace que sea ms difcil de implementar, una serie de casos fraudulentos para que los monitores se puedan construir con un grado de certeza tal que sirvan luego para la deteccin del uso fraudulento. Adems, es una herramienta que se enfoca principalmente en el fraude por clonacin, dejando de lado otros tipos de fraude tan importantes como ste.
3.3.
Enfoque basado en redes neuronales Las redes neuronales usualmente proveen las mejores soluciones en situaciones donde es difcil establecer reglas definidas y rpidas y en las cuales los datos a analizar son complejos. Mientras ms complejos son los datos, mayor es la ventaja de utilizar redes neuronales. Tambin debido a su naturaleza aritmtica, las redes neuronales son buenas procesando grandes volmenes de informacin.
3.3.1. Modelo utilizando redes neuronales supervisadas El motor de deteccin de fraude en esta arquitectura asocia a cada usuario (IMSI), un CUP y un UPH. Aqu tambin se utiliza un CUR (Current User Record) que acumula informacin sobre los CDRs de un determinado lapso de tiempo, por ejemplo 1 da. Una vez que el CUR tiene la informacin necesaria de las llamadas de un da, se actualiza el CUP a travs de la siguiente ecuacin:
Dnde: : Es la tasa de adaptabilidad aplicada cuando el CUR se incorpora al CUP. : Estado del CUP en el instante i. Esta tcnica evita tener que almacenar todos CDRs del correspondiente usuario, almacenando solamente en el CUP una proporcin de la informacin del CUR y quitando parte de la informacin ms vieja del mismo a travs del factor de adaptabilidad . De la misma manera, luego se actualiza el UPH con el CUP, obteniendo en dicho perfil informacin sobre el consumo histrico del usuario. La informacin que contienen el CUP y el UPH es la siguiente: - Media de la duracin de las llamadas nacionales. - Media de la duracin de las llamadas internacionales. - Varianza de la duracin de las llamadas nacionales. - Varianza de la duracin de las llamadas internacionales. - Tiempo promedio (media) entre dos llamadas nacionales. - Tiempo promedio (media) entre dos llamadas internacionales. - Varianza del tiempo entre dos llamadas nacionales. - Varianza del tiempo entre dos llamadas internacionales. La red neuronal supervisada, un Perceptrn multicapa es entrenada con CURs, CUPs y UPHs de usuarios que hayan cometido fraude y usuarios normales para que la misma pueda clasificarlos luego en fraudulentos o no fraudulentos. A continuacin se presenta en la figura 2.10 un grfico donde se esquematiza el funcionamiento del sistema en la etapa de entrenamiento:
El usuario realiza las llamadas y se generan los CDRs; luego se construye el CUR con la informacin de los mismos y se adapta el CUP y el UPH; con esta informacin se entrena a la red neuronal para que devuelva los resultados esperados para dicha combinacin de CUR, CUP y UPH. En la etapa de rgimen permanente (funcionamiento del motor de deteccin de fraude), a medida que ingresan los CDRs se van actualizando el CUR y CUP del usuario; luego ingresan para ser analizados junto con el UPH y si la red no lanza ninguna alarma, se actualiza el UPH. La informacin de los CUP y UPH se almacenan en una base de datos para ser recuperadas cada vez que ingresan al sistema CDRs con informacin de los usuarios correspondientes. 3.3.2. Limitaciones del enfoque basado en redes neuronales supervisadas Este enfoque presenta una gran limitacin en la necesidad de tener que ser constantemente entrenado con nuevos casos de fraude que van apareciendo debido a que tiene dos etapas definidas: una de entrenamiento y una de funcionamiento. En el caso de aparecer nuevos tipos de fraude ser necesario sacar de lnea el sistema para que incorpore los nuevos casos; es decir que no aprovecha el potencial de la naturaleza adaptativa del problema. Esta necesidad de tener casos de fraude a priori tambin obliga a quienes lo quieran implementar que posean informacin previa de casos existentes, cuando muchas veces no es posible obtenerla o no se conoce.
3.4.
Enfoque basado en redes neuronales no supervisadas La solucin que se propone en este trabajo utiliza redes neuronales no supervisadas para construir los perfiles de usuario; en nuestro caso se utilizan redes SOM que como resultado logran clasificar las millones de llamadas que se procesan en una cantidad determinadas de prototipos que representan todo el espacio de las mismas. La frecuencia con la cual un usuario realiza llamadas de cada prototipo corresponde a la representacin de los perfiles CUP y UPH. Una vez que ambos se actualizan, se comparan y se decide si la diferencia entre el consumo reciente y el histrico es lo suficientemente grande como para emitir una alarma. En los prximos captulos se tratarn en detalle los problemas que surgen al tratar de disear e implementar una solucin de este tipo. Y luego se propone una solucin a cada uno de los problemas.
4. Descripcin del problema Para poder construir un sistema de deteccin de fraude basado en un anlisis diferencial es necesario tener en cuenta varias problemticas que se presentan que deben ser cuidadosamente trabajadas. 4.1. El problema de la construccin y mantenimiento del perfiles de usuario La mayora de los indicadores de fraude no se analizan utilizando un nico CDR; gran parte de los fraudes pueden ser solo detectados utilizando una secuencia de los mismos. En un sistema de deteccin de fraude diferencial se necesita informacin acerca de la historia sumado a muestras de su actividad ms reciente; es decir un conjunto de CDRs con suficientes llamadas que puedan describir a un usuario. Un intento inicial podra ser extractar y codificar la informacin de los CDRs y almacenarla en un formato de registro determinado. Se necesitaran dos tipos de registro inicialmente: uno que almacene la informacin ms reciente, al que llamaremos CUP (Current User Profile) y otro con la informacin histrica al que llamaremos UPH (User Profile History). Cada vez que un nuevo CDR de un determinado usuario llega para ser procesado, la entrada ms vieja del registro UPH debera ser descartada y la ms vieja del CUP debera ingresar al UPH. Entonces este nuevo registro codificado, debera ingresar al CUP. 4.2. El problema de deteccin de cambios de funcionamiento Una vez que se ha logrado construir una imagen codificada del consumo reciente e histrico de cada usuario, es necesario, entonces encontrar la forma de analizar esta informacin para que detecte alguna anomala en el consumo y emita la alarma correspondiente. 4.3. El problema de la performance La performance en este tipo de sistemas es crtica [Seymour, 2000]; se debe tener en cuenta que se procesarn millones de llamadas por da y que las mismas sern utilizadas para construir los perfiles de cada uno de los usuarios de la compaa, que dependiendo del tamao de la misma, puede variar de cientos de miles a un par de millones. Es decir que la cantidad de informacin
a almacenar y la forma de acceder a la misma son puntos tan importantes como el sistema de deteccin de fraude en s. Tambin lo es la velocidad de procesamiento, por la cantidad de informacin que debe analizarse. Un sistema de deteccin de fraude que tarde das en analizar una poca cantidad de llamadas es totalmente obsoleto y no cumple con los objetivos y tiempos de las compaas. Nuestro problema se enfoca entonces, en la deteccin de cambios de consumo fuera de lo normal, en la construccin de estructuras de datos que representen el comportamiento reciente e histrico de cada uno de los usuarios, teniendo en cuenta la gran cantidad de informacin que contiene una llamada y la complejidad de la construccin de la aproximacin a una funcin con tantas variables de entrada y desconocidas. 4.4. Representacin grfica del problema a resolver Habiendo analizado todos los problemas que se nos plantean, podemos hacer un resumen grfico de lo que debera ser el sistema de deteccin de fraude.
5. Solucin propuesta 5.1. Procesamiento previo de la informacin-Mediacin Para poder comenzar a procesar los CDRs se debe crear un formato de registro (salida de la mediacin) con informacin que identifique al usuario (el IMSI es el dato acorde para dicho fin); fecha de la llamada en un formato fijo que incluya cuatro dgitos para el ao, dos dgitos para el mes y dos dgitos para el da al que definiremos con la sigla AAAAMMDD; hora de la llamada en otro formato fijo con 2 dgitos para la hora (00 a 23), 2 dgitos para los minutos y otros dos para los segundos al que definiremos con la sigla HH24MISS; duracin de la llamada en segundos en un formato que utilice cinco dgitos con ceros a la izquierda si corresponde y tipo de llamada clasificada en LOC (llamada local), NAT (llamada DDN o nacional) e INT (llamada DDI o internacional); este formato de registro ser el resultado del proceso de mediacin. Con esta informacin ya acotada a los datos necesarios, se pueden
5.2.
comenzar a resolver las siguientes y ms importantes cuestiones utilizando como datos de entrada la salida de la mediacin. Solucin a la construccin y mantenimiento de perfil de usuario
La primera cuestin a resolver es determinar cmo construir los perfiles CUP y UPH; es decir, que se debe determinar los patrones que compondrn cada uno de estos perfiles. Los patrones debern tener informacin del consumo del usuario, separando el consumo LOC, NAT e INT respectivamente. Una forma de construir estos patrones es utilizando redes neuronales para discretizar el espacio de todas las llamadas de los usuarios, generando un espacio de n patrones que representen el consumo de todos los usuarios y luego generando una distribucin de frecuencias por cada usuario en la cul se represente qu probabilidad de hacer llamadas de ese patrn tiene un usuario. En resumen, cuando se construya el perfil de usuario se estar representando la distribucin de frecuencia en la cul un determinado usuario realiza un tipo de llamada determinado, mostrando esta estructura de datos el patrn de consumo del mismo. Las redes neuronales, entre otras ventajas, tienen la capacidad de clasificar la informacin en determinados patrones; en especial, las redes SOM (Self Organizing Map) pueden tomar esta informacin y construir estos patrones de manera no supervisada por criterios de semejanza. En nuestro caso, se pueden procesar todas las llamadas realizadas por todos los usuarios para que las redes, segn la cantidad que hay de cada tipo genere los patrones que representen a todas ellas. Para evitar ruidos en los datos, se utilizan 3 redes neuronales que generen patrones para representar a las llamadas LOC, NAT e INT respectivamente; el perfil de usuario se construye utilizando todos los patrones generados por las 3 redes. Los datos que se utilizan para representar un patrn son la hora de la llamada y la duracin de la misma; sabemos que si representamos en un eje cartesiano la hora de todas las llamadas y la duracin correspondiente, obtendremos un rectngulo prcticamente lleno de puntos. La idea es obtener un grfico en el que slo aparezcan los puntos ms representativos de todo el espacio en cuestin; esa es la tarea de las redes neuronales. Este diseo de 3 redes neuronales permite, no solamente detectar cambios de comportamiento sino que tambin representa de manera general el comportamiento de todos los usuarios de la compaa; es decir, que visualizando los patrones generados por cada una de las redes neuronales en un grfico, podemos fcilmente obtener conclusiones de cmo se comportan en general los usuarios de la compaa y basado en ello, tomar decisiones del tipo comercial, agregando una funcionalidad ms a la solucin disea. 5.3. Solucin a la deteccin de cambios de comportamiento Para determinar si hubo o no cambios en el patrn de comportamiento, es necesario comparar los perfiles CUP y UPH y decidir si la diferencia entre los mismos es lo suficientemente grande como para lanzar una alarma. Debido a que el CUP y el UPH son dos vectores que representan distribuciones de frecuencia, se puede utilizar una distancia vectorial para comparar qu tan diferentes son. Para ello se puede utilizar la distancia Hellinger (H) cuyo valor indica la diferencia entre dos distribuciones de frecuencia. La distancia siempre ser un valor entre cero y dos donde cero es para distribuciones iguales y dos representa ortogonalidad. El valor de H determinar qu tan diferentes deben
ser las distribuciones de frecuencia CUP y UPH para lanzar una alarma. Variando este valor, habr ms o menos alarmas.
5.4.
Solucin a la cuestin de performance La performance depender directamente del Hardware donde corra el sistema de deteccin de fraude y cambios de comportamiento. Desde el punto de vista del software se trabaja lo menos posible con bases de datos relacionales y se trata de hacer todo el procesamiento utilizando archivos planos de datos, con la mnima cantidad de escrituras y lecturas de disco. Es importante la compresin de los mismos ya que el espacio es otra restriccin que se debe tener prevista. Por lo tanto, en la solucin propuesta solo se trabaja con archivos planos y se almacena un archivo por usuario con la informacin de las distribuciones CUP y UPH, as como tambin la ltima llamada procesada y la cantidad total de llamadas procesadas por el sistema.
5.5.
Restricciones de la solucin propuesta La solucin propuesta se enfoca, tal cual se describe, en el anlisis diferencial del consumo del usuario. Un caso que no sera detectado es aquel en el cual el usuario siempre realiza muchas llamadas del mismo tipo con un alto consumo, ya que su patrn de comportamiento nunca cambiara. Es por eso que siempre se deben combinar varias soluciones para tener un sistema de deteccin de fraude que explore los diferentes tipos de fraude. En este caso, debe considerarse el anlisis absoluto como una solucin posible. La otra restriccin se centra en que los patrones son estticos, con lo que si la forma de consumo de los usuarios de la empresa cambia completamente, ser necesario re-entrenar a las redes neuronales para que determinen nuevos patrones que representen el espacio total de llamadas y volver a construir los perfiles CUP y UPH a partir de las nuevas distribuciones.
6. Conclusiones Este trabajo propone la construccin de una herramienta de deteccin de fraude basada en la hiptesis que un cambio de comportamiento es susceptible de fraude, utilizando redes neuronales artificiales no supervisadas para la construccin de perfiles de usuario, en el marco de un anlisis diferencial con enfoque de aprendizaje. La solucin propuesta, no solo ha demostrado ser viable y posible sino que adems tiene aplicaciones adicionales no planteadas a priori, tales como la deteccin de cambios de comportamiento en los usuarios hacia modalidades que pueden hacer replantear los planes de tarifa definidos en la empresa u ofrecerle algn otro tipo de servicio al cliente.
Si bien esta solucin tiene las restricciones descritas, se debe destacar que no hay otra opcin viable en una empresa que desea comenzar a detectar fraude por suscripcin y no tiene informacin adicional previa con ejemplos reales de fraude. Dicho escenario fue el que se tom como punto de partida en este trabajo.
7. Sugerencias Se puede mejorar o ampliar el presente trabajo para poder solucionar las restricciones, para lo cual se debera manejar estadsticas del consumo de cada cliente, as se podra ver el cambio de comportamiento que puede estar dentro del promedio o no. Este trabajo podra ser un avance a la deteccin de fraude en la web (correos electrnicos) ya que hoy en da est de moda este tipo de fraude.
Bibliografa Alander J., Frisk M., 1991. Process error detection using self-organizing feature maps. Artificial Neural Networks, volume II, pp 1229-1232. Amsterdam, Netherlands. Grosser, Hernan, 2004. Deteccin de fraude en telefona celular utilizando redes neuronales. Tesis de grado en ingeniera Informatica. Argentina. Meza Ayala, Maria Jose, Fraudes en telecomunicaciones,2005, Ecuador. URLs Digital desarrolla un sistema para la deteccin de fraude en telefona, desarrollo de sistemas para los distintos tipos de fraude en la telefona celular, 14/07/13, http://www.computerworld.es/archive/digital-desarrolla-un-sistemade-deteccion-del-fraude-en-la-telefonia-celular Fraudes en telefona celular, descripcin de algunos tipos de fraude en telefona celular, 14/07/13, http://transition.fcc.gov/cgb/consumerfacts/spanish/CellPhoneFraud.html

Proyecto de Final

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Proyecto de Final

Transféré par

Droits d'auteur :

Formats disponibles

UNIVERSIDAD NACIONAL SAN ANTONIO ABAB DEL CUSCO FACULTAD DE CIENCIAS QUIMICAS, FISICAS, MATEMATICAS

CARRERA PROFESIONAL DE INGENIERIA INFORMATICA Y DE SISTEMAS

SISTEMAS EXPERTOS DETECCION DE FRAUDE EN TELEFONIA CELULAR UTILIZANDO REDES NEURONALES

HUAMANTTICA SALAS, ERIC RODRIGO

Profesor: Mgt. Lino P. Flores Pacheco

CUSCO, JULIO DEL 2013

3.3.1. 3.3.2. 3.4.

Enfoque basado en redes neuronales no supervisadas .......................................... 24

Conclusiones ............................................................................................................................... 27 Sugerencias.................................................................................................................................. 28

Vous aimerez peut-être aussi