Vous êtes sur la page 1sur 5

Gestin de Conocimiento

El Proceso de Descubrimiento del Conocimiento en Base de Datos (DCDB) resulta


complejo ya que no slo incluye la obtencin de los modelos o patrones, sino tambin la
evaluacin e interpretacin de los mismos. El DCDB es definido como el proceso no
trivial de identificar patrones vlidos, novedosos, potencialmente tiles y, en ltima
instancia, compresibles a partir de los datos. Entre tanto, las principales tareas del
proceso de DCDB son, a grandes rasgos, las siguientes: pre-procesar los datos, hacer
minera de datos, evaluar los resultados [Wanumen, 2010]. Uno de los Algoritmos
mejor empleados es el algoritmo J48 funciona bien con atributos nominales y
numricos. Un paso importante en la construccin del rbol de decisin es la poda, la
cual elimina las ramas no necesarias, resultando en una clasificacin ms rpida y una
mejora en la precisin de la clasificacin de datos. Existen en la actualidad varias
herramientas de libre distribucin que permiten aplicar las tcnicas antes mencionadas,
entre ellas se encuentra Weka La cuan fue desarrollada originalmente en la universidad
de Waikato y hoy da es accesible fcilmente desde Internet [Valenga, 2007].
Adems los perfiles de carga tambin sirven como una herramienta para que las
empresas de distribucin puedan mejorar sus estrategias de mercado y ofrecer nuevos
servicios, as como para desarrollar nuevas tarifas en el mercado regulado. Muchas
tcnicas diferentes, que van desde mtodos convencionales a mtodos ms sofisticados,
se han utilizado para el modelado de perfiles de carga [Ros, 2013]. Los perfiles de
carga se identifican a travs de las siguientes caractersticas: Debe ser capaz de analizar
y entregar indicadores sobre los siguientes datos: Consumo de servicios entregados,
Tiempo, Ubicacin, donde se entrega el servicio y las Caractersticas del servicio; Debe
proveer capacidad de anlisis visual, matemtico, y entrega de reportes [Cravero, 2009].
El uso de la MD para la deteccin de anomalas con el fin de detectar fraudes puede ser
muy variado, encontrndose distintos tipos de aplicaciones en la literatura, definiendo
los tipos y subtipos, mtodos y tcnicas para la deteccin de fraudes, as como las
limitaciones de stos, se depura el conjunto de datos respecto a valores atpicos,
faltantes y errneos (eliminacin de ruido e inconsistencias) [Cravero, 2009]. El fraude
es una de las principales causas de la prdida de ingresos en muchas reas de negocio.
Entre ellos, tarjeta de crdito, telfono celular y el seguro, son los ms destacados. Por
lo tanto, una gran cantidad de trabajos de investigacin han hecho frente al problema de
la identificacin del fraude. Al igual que en otras reas de negocios [Ros, 2013]. Los
datos dentro de las tcnicas y herramientas de la minera de base de datos en la
deteccin de anomalas o fraudes se basan en el hecho de que muchos eventos que
podran considerarse anormales para un conjunto de datos pueden agruparse en
pequeos cluster (Agrupamiento de Datos) de anomalas [Cravero, 2009].
La tcnica de agrupamiento tambin se conoce, como aprendizaje no supervisado
porque no hay ninguna clase de ser predicha [Ros, 2013]. La Seleccin/extraccin de
atributos: Se realiza un proceso de identificacin y seleccin de variables relevantes
[Surez, 2014]. La agrupacin o el clusteringconsisten en agrupar un conjunto de datos,
sin tener clases predefinidas, basndose en la similitud de los valores de los atributos de
los distintos datos. Esta agrupacin, a diferencia de la clasificacin, se realiza de forma
no supervisada, ya que no se conoce de antemano las clases del conjunto de datos de
entrenamiento [Valenga, 2007].

El Clustering se basa en maximizar la similitud de las instancias en cada cluster y


minimizar la similitud entre clusters. Dentro del anlisis de Clustering existen,
bsicamente, los siguientes tipos de mtodos: los jerrquicos, los de particin, los
basados en densidad, los mtodos basados en cuadrculas, los basados en restricciones y
los escalabres [Cravero, 2009]. Los modelos predictivos de MD buscan obtener los
valores adquiridos por una variable de inters en situaciones no observadas en funcin
de los valores que toman otras series relacionadas [Surez, 2014]. Clementine Client1
es una herramienta lder y conocida mundialmente, que posee potentes herramientas de
visualizacin y una gran variedad de tcnicas de aprendizaje automtico para
clasificacin, regresin, Clustering y discretizacin entre otras, entregando apoyo
completo para el ciclo de MD a travs de la metodologa CRISP-DM (CRoss-Industry
Standard Processfor Data Mining), lo que reduce el tiempo de entrega de la solucin
final [Cravero, 2009].
La Preparacin de los Datos en la Minera de Datos y la Deteccin de Fraudes en cuanto
a los datos de anlisis, debi disearse un Almacn de Datos que se alimente de las
bases de datos transaccionales a travs de un proceso de extraccin de datos
previamente definido llamado ETL. El proceso ms importante en minera de datos es
el proceso de limpieza de los datos y definicin de las variables. Si los datos no son
correctos el modelo creado no servir. Del mismo modo, la validez de los patrones
descubiertos depende de cmo se apliquen al mundo real o a las circunstancias [Surez,
2014]. El fraude es el engao, la informacin que se facilita o la que se omite induce a
la vctima [CNUDMI, 2013] toda astucia, falacia o maquinacin empleada para engaar
burlar ilusionar a otros, podra ser perseguida por un medio de [Zamora, 2000].
Un acto intencional llevado a cabo por una o ms personas de la gerencia del ente, sus
empleados o terceras partes, el cual resulta en una afirmacin errnea en los estados
financieros, el fraude puede involucrar entre otros: la manipulacin, falsificacin o
alteracin de registros contables o documentos, la malversacin o distraccin de activos
o aplicar mal intencionalmente las normas contables [Horwaht, 2002], La deteccin de
fraude son los procedimientos orientados a la identificacin de fraudes una vez que
ocurrieron, por ejemplo: auditora interna, monitoreo de actividades, lneas ticas y
auditora forense proactiva [Gamiz, 2013]. Un patrn es un conjunto de caractersticas.
Una clase de patrones es un conjunto de patrones similares. El objetivo del
reconocimiento de patrones es la ciencia que se ocupa de los procesos sobre ingeniera,
computacin y matemticas relacionados con objetos fsicos y/o abstractos, con el
propsito de extraer informacin que permita establecer propiedades de o entre
conjuntos de dichos objetos [Carrasco, 2015].
Clasificar (o reconocer) significa asociar a clases (o prototipos) una serie de elementos
(u objetos). Esta asociacin se realiza en base a las caractersticas o propiedades de los
objetos [Gonzlez, 2002]. Asignar un patrn a la clase a la que pertenece (lo ms
automticamente posible),modo de compatibilidad] para procesar la informacin
disponible sobre el comportamiento de usuarios para la identificacin de accesos
fraudulentos en sistemas informticos [BYRON, 2012]. La modelacin de los datos en
defensa de proteccin contra las anomalas le entrega como resultado grupos de datos
con caractersticas similares, los cuales son llamados grupos homlogos del modelo
[Cravero, 2009]. Estn definidos por un grafo donde existen nodos que representan
variables aleatorias junto con sus enlaces, los cuales hacen referencia a dependencias
entre las mismas [Wanumen, 2010].

El Descubrimiento de Conocimiento a partir de Bases de Datos, (KDD, del ingls


Knowledge Discovery fromDatabases), nombre tcnico con que se denomina al proceso
global de extraccin de conocimiento de bases de datos [Villena, 2000], es un modelo
grfico que usa directamente los arcos para formar una grfica a cclica, se usa muy
frecuentemente las redes de Bayesian cuando la incertidumbre se asocia con un
resultado que puede expresarse en trminos de una probabilidad [FACENA, 2003],
cuyo proceso es un proceso no trivial de identificar patrones vlidos, novedosos,
potencialmente tiles y en ltima instancia comprensibles a partir de los datos [Fayyad,
1996].
Un Data WereHouse es una tecnologa para el manejo de la informacin construido
sobre la base de optimizar el uso y anlisis de la misma utilizado por las organizaciones
para adaptarse a los vertiginosos cambios en los mercados [Mndez, 2010], Es una
coleccin de datos orientada a un determinado mbito (empresa, organizacin, etc.),
integrado, no voltil y variable en el tiempo, que ayuda a la toma de decisiones en la
entidad en la que se utiliza [Rojas, 2009]. El Objetivo de Data WerHouse es consolidar
la informacin proveniente de diferentes bases de datos operacionales y hacerla
disponible para la realizacin de anlisis de datos de tipo gerencial. As mismo los datos
del DW son el resultado de transformaciones, chequeos de control de calidad e
integracin de los datos operacionales. Se incluyen tambin totalizaciones y datos precalculados en base a datos operaciones [Mndez, 2010], tambinse puede producir el
cambio de los sistemas OLTP a las Bases de Datos OLAP. Consolidan datos de
aplicaciones no integradas, sumarizan datos disgregados y los transforman [Rojas,
2009].
El sistema procesamiento analtico en lnea Procesan las transacciones de tiempo real
de un negocio. Contienen estructuras optimizadas para la introduccin y a la adicin de
los datos. Se podra decir que estos sistemas definen el comportamiento operacional de
un entorno operacional de gestin [Ibarra, 2006], es una tecnologa que utiliza
estructuras multidimensionales para proporcionar un acceso rpido a los datos con el fin
de analizarlos. Los datos de origen de OLAP se almacenan habitualmente en almacenes
de datos en una base de datos relacional [Harreguy, 2000], OLAP es un tipo de
procesamiento de datos que se caracteriza, entre otras cosas, por permitir el anlisis
multidimensional, Es una solucin utilizada en el campo de la llamada Inteligencia
empresarial (o Business Intelligence) [Flores, 2012], Realizan operaciones de
procesamiento analtico en lnea cuya operacin consiste principalmente de consultas
sobre grandes volmenes de datos y de proveer una interfaz en lnea que ofrece reportes
y grficos Las diferentes estructuras contienen datos resumidos de grandes Bases de
datos o Sistemas Transaccionales (OLTP) son multidimensionales y se usa en informes
de negocios de ventas, marketing, informes de direccin, minera de datos y reas
similares [Flores, 2012],

Referencias bibliogrficas
[Brachman, 1996]
[BYRON, 2012]

CRISP-DM (Cross Industry Standard Process for Data Mining).


http://www.oldemarrodriguez.com/yahoo_site_admin/assets/docs/Documento_C
RISP-DM.2385037.pdf
Mster en investigacin en informtica, facultad de informtica, universidad
complutense de madridreconocimiento de patrones para identificacin de usuarios
en
accesos
informticos
csar
byron
guevara
maldonado
http://eprints.ucm.es/16711/1/tfm_cesar_byron_guevara_maldonado.pdf

[Carrasco, 2015]
[Chapman, 1994]
[Cravero, 2009]

[Collada, 2010]
[CNUDM, 2013]
[Cueva, 2010]
[Facena, 2003]
[Fayyad, 1996]
[ Flores, 2012]
[FORENSIC, 2007]

[Frank, 2000]
[Gamiz, 2013]
[Garcia, 2010]
[Gonzlez, 2002]
[Horwaht, 2002]
[Harreguy, 2000]
[Ibarra, 2006]

[Ibm, 2012]
[Mansilla, 2013]
[Mndez, 2010]
[Procesamiento Analitico]
[ Modo de compatibilidad]
[Quinlan, 1983]
[Rojas, 2009]

Reconocimiento de patrones jess ariel carrasco ochoa instituto nacional de


astrofsica ptica y electrnica
https://ccc.inaoep.mx/~ariel/recpat.pdf
Manual
CRISP-DM
de
IBM
SPSS
Modeler
ftp://public.dhe.ibm.com/software/analytics/spss/documentation/modeler/15.0/es/
CRISP-DM.pdf
Aplicacin de minera de datos para la deteccin de anomalas: un caso de estudio
workshop internacional eig2009 departamento de ingeniera de sistemas
universidad de la frontera chile diciembre 3 y 4, 2009 aniacravero leal, samuel
seplveda cuevas depto. ingeniera de sistemas universidad de la frontera, temuco,
chile
Collada prez, sonia y glvez carranza, rubn. clasificacin de e-mails: deteccin
de spam. 2010.
Deteccin y prevencin del fraude comercial indicadores de fraude comercial
documento preparado por la secretara de la cnudmi
https://www.uncitral.org/pdf/spanish/texts/fraud/recognizing-and-preventingcommercial-fraud-s.pdf
https://wegols.files.wordpress.com/2010/06/estado-del-arte.pdf
Minera de datos teleprocesos y sistemas distribuidos licenciatura en sistemas de
informacin facena unne http://exa.unne.edu.ar/informatica/so/sdatamining.pdf
Extraccin automtica de conocimiento en bases de datos e ingeniera del
software
http://users.dsic.upv.es/~jorallo/docent/doctorat/t2a.pdf
Olap (onlineanalyticalprocessing) i.s.c. zoraya catalina flores jurez bases de
datos otoo, 2012. http://www.fing.edu.uy/~asabigue/prgrado/2010dw.pdf
Gestin de riesgos de fraude desarrollo de una estrategia de prevencin, deteccin
y respuesta al fraude, 2007 kpmg asesores s.l., sociedad espaola de
responsabilidad limitada, miembro de la red kpmg de firmas independientes,
miembros de la red kpmg, afiliadas a kpmg international, sociedad suiza. todos
los derechos reservados. kpmg y el logotipo de kpmg son marcas registradas de
kpmg international, sociedad suiza.
https://www.kpmg.com/es/es/actualidadynovedades/articulosypublicaciones/docu
ments/gestionriesgosfraude.pdf
http://www.it.uc3m.es/jvillena/irc/practicas/03-04/18.mem.pdf
Kpmg prevencin y deteccin de fraudes por: fernando gmiz, director de
riskconsulting, advisory, kpmg en per junio 2013
https://www.kpmg.com/pe/es/issuesandinsights/sala-de-prensa/articulosopinion/documents/06-06-2013-prevencion-y-deteccion-de-fraude-fgamiz.pdf
Garca jimnez, mara y lvarez sierra, arnzazu. anlisis de datos en weka
pruebas de selectividad. 2010.
r.c. Gonzlez y r.e. woods, digital imageprocessing, addison wesley, 2 edicin,
2002. http://www.escet.urjc.es/~visiona/tema5.pdf
consideraciones de fraude en una auditoria de estados financieros
https://www.crowehorwath.net/uploadedfiles/cl/insights/sas_99[1].pdf
Proyecto taller v toolkit para migracin de datos y metadata de estructuras
multidimensionales migrador olap
gonzalo harreguy lvaro morales
supervisores gustavo larriera (infocorp) ral ruggia (inco) facultad de ingeniera,
diciembre de 2000 universidad de la repblica oriental del uruguay
Universidad nacional de nordeste, facultad de ciencias exactas, naturales y
agrimensura
trabajo de adscripcin procesamiento analtico en lnea (olap). adscripta: mara de
los ngeles ibarra l.u.: 30.505
licenciatura en sistemas de informacin corrientes argentina 2006
http://exa.unne.edu.ar/informatica/so/olapmonog.pdf
ftp://public.dhe.ibm.com/software/analytics/spss/documentation/modeler/15.0/es/
CRISP-DM.pdf
Fraude a la ley: frauslegisfacta
http://www.derecho.unam.mx/investigacion/publicaciones/revistacultura/pdf/cj(art_7).pdf
Fundamentos de data warehouse mndez, a., mrtire, a., britos, p. y garcamartnez, r. centro de actualizacin permanente en ingeniera del software escuela
de postgrado instituto tecnolgico de buenos aires av. eduardo madero 399
(c1106acd) buenos aires argentina 2010
http://catarina.udlap.mx/u_dl_a/tales/documentos/msp/gonzalez_r_l/apendiceb.pd
f
tema 7. introduccin al reconocimiento de objetos modo de compatibilidad
http://alojamientos.us.es/gtocoma/pid/tema7.pdf
http://www.itnuevolaredo.edu.mx/takeyas/apuntes/Inteligencia%20Artificial/Apu
ntes/IA/ID3.pdf
Universidad nacional del nordeste facultad de ciencias exactas y naturales y
agrimensura monografa de adscripcin: data warehouse rojas, mariana isabel lu:
38382 prof. director: mgter. david luis la red martnez licenciatura en sistemas de

[Ros, 2013]

[Sierra, 2006]
[Soberanis, 2013]

[spss, 2000]
[Surez, 2014]

informacin corrientes-argentina 2009


http://exa.unne.edu.ar/informatica/so/monoadsdiseno.pdf
Minera de datos aplicada a la deteccin de clientes con alta probabilidad de
fraudes en sistemas de distribucin andrs felipe rios villegas kevin alejandro
uribe aguirre
director: ing.gustavo andrs betancourt orozco
Universidad tecnolgica de pereira facultad de ingenieras
programa de ingeniera elctrica pereira 2013
Sierra araujo, basilio. Aprendizaje automtico: conceptos bsicos y avanzados.
aspectos pirticos utilizando el software weka. s.l. : pearson, prentice hal, 2006.
La auditora interna en la deteccin y prevencin de fraudes area tcnica: rea 2
normas y prcticas de auditora tema 2.4: la auditora interna en la deteccin y
prevencin de fraudes. autores mara de los ngeles soberanis aguirre de rueda
francisco ernesto herrera soria
http://www.cpcecba.org.ar/media/img/paginas/la%20auditor%c3%ada%20interna
%20en%20la%20detecci%c3%b3n%20y%20prevenci%c3%b3n%20de%20fraud
es.pdf
https://www.the-modeling-agency.com/crisp-dm.pdf
Tcnicas de minera de datos para la deteccin y prevencindel lavado de activos
y la financiacindel terrorismo (la/ft)

[Valenga, 2007]

Minera de datos aplicada a la deteccin de patrones delictivos en argentina


f. valenga1, e. fernndez2, 3, h. merlino2, 3, d. rodrguez2, c. procopio2, p.
britos2,3y r. garca-martnez2,3 1licenciatura en informtica.
universidad de morn. 02centro de ingeniera de software e ingeniera del
conocimiento. escuela de postgrado. itba.
3laboratorio de sistemas inteligentes. facultad de ingeniera. universidad de
buenos aires. argentina
vii jornadas iberoamericanas de ingeniera del software e ingeniera del
conocimiento

[Villena, 2000]

Inteligencia en redes de comunicaciones minera de datos julio villena romn,


raquel
m.
crespo
garca,
jos
jess
garca
rueda
2000
http://ocw.uc3m.es/ingenieria-telematica/inteligencia-en-redes-decomunicaciones/material-de-clase-1/07-mineria-de-datos
Minera de datos para la prediccin de fraudes en tarjetas de crdito
luis felipe wanumensilvaz* fecha de recepcin: octubre 15 de 2010 fecha de
aceptacin: noviembre 5 de 2010 ingeniero de sistemas, especialista en ingeniera
de software de la universidad distrital francisco jos de caldas. docente de la
facultad tecnolgica.

[Wanumen, 2010]

[Weka, 1993]
[Vizcaino, 2008]
[Zamora, 2000]

http://isa.umh.es/asignaturas/crss/turorialWEKA.pdf
http://www.konradlorenz.edu.co/images/stories/suma_digital_sistemas/2009_01/fi
nal_paula_andrea.pdf
Fraude a la ley: frauslegisfacta - facultad de derecho
http://www.juridicas.unam.mx/publica/librev/rev/facdermx/cont/178/dtr/dtr10.pdf

Vous aimerez peut-être aussi