Académique Documents
Professionnel Documents
Culture Documents
NJFNDJFNJD
SAMANIEGO
RICHARD
J
INDIC DE CONTENIDOS
INTRODUCCIN
1. PROBLEMA
2. CONCEPTUALIZACION
10
11
3 APLICACIN PRCTICA
13
4 CONCLUCIONES
18
6 BIBLIOGRAFIA
19
INDICE DE FIGURAS
Figura 1. Relacion entre dato, informacion y .6
conocimiento (molina 1998)
Figura2. Ventana inicial de Weka 13
Figura3. Interfaz explorer . 13
Figura4. Interfaz explorer con archivo Jugartenis.arff13
Figura 5. Visualizacin de caractersticas atributo.14
Figura6. Visualizacion de seleccin de algoritmo j4814
Figura 7. Visualizacin de pantalla al generar el rbol ADTree ..15
Figura 8. Visualizacin de pantalla Confusion Matrix....15
Figura 9. Visualizacin de pantalla Cluster. 16
Figura 10. Ventana al generar el modelo Clster...16
Figura 11. Ventana al seleccionar el modelo Associate...17
Figura 12. Ventana al generar el modelo Clster...17
INTRODUCCIN
Desde dcadas atrs el hombre se ha preocupado en producir bienes con mnimos
recursos, incluso exista pueblos que realizaban la planificacin, organizacin es decir
aplicaban la administracin a sus recursos y tambin empezaban a realizar transacciones
para bienes o servicios mediante monedas con sus propias insignias y descripciones. Es
aqu donde el hombre convierte la administracin en una ciencia. Se puede apreciar que
en dcadas atrs el hombre ha puesto en prctica habilidades, tcnicas con el uso de
herramientas para llevar a cabo una solucin. Desde ese entonces hasta la actualidad, el
mundo est experimentando cambios fundamentales, continuos avances en tecnologa de
informacin y comunicaciones por ende tiene un fuerte impacto en la forma de trabajar de
las personas.
Y desenrollado la prctica de la estadstica es la primera ciencia que histricamente
extrae informacin de los datos bsicamente mediante metodologas procedentes de las
matemticas. Cuando se empez a usar los ordenadores como apoyo para esta tarea
surgi el concepto de Machine learning traducido como aprendizaje automtico.
Posteriormente con el incremento de tamao y la estructuracin de los datos es cuando
se empieza a hablar de minera de datos. La idea de data mining no es nueva. Ya desde
los aos sesenta los estadsticos manejaban trminos como data shing, data mining o
data archaeology con la idea de encontrar correlaciones y a principios de los aos
ochenta, Rakesh Agrawal, Gio Wiederhold, Robert Blum y Gregory Piatetsky-Shapiro,
entre otros, empezaron a consolidar los trminos de data mining, nales de los aos
ochenta
En muchas reas del saber, el conocimiento se ha venido obteniendo por el clsico
mtodo hipottico-deductivo, l cual es fundamental el paso inductivo inicial: a partir de un
conjunto de observaciones y de unos conocimientos previos, la intuicin del investigador
le conduce a formular la hiptesis. Esta "intuicin" resulta inoperante cuando no se trata
de observaciones aisladas y casuales, sino de millones de datos almacenados en soporte
informtico. En el fondo de todas las investigaciones sobre induccin en bases de datos
subyace la idea de automatizar ese paso inductivo
Con la llegada de la era de la computacin, el mundo moderno ha experimentado un
crecimiento en la cantidad de informacin disponible sin precedentes en la historia.
3
desconocemos.
Nos
damos
cuenta
de que generamos
informacin
cuando
nuestro
correo, cuando
pagamos
con
una
tarjeta
de
crdito
cuando
informacin,
como
cuando
conducimos
por
una
va donde
estn
pasado
retener a sus clientes a partir del buen uso de la informacin en las empresas.
Ya que dcadas anteriores slo existan un par de empresas dedicadas a esta tecnologa;
actualmente existen ms de 200 empresas en el mundo que ofrecen alrededor de 300
soluciones.
2. PROBLEMA
Teniendo en cuenta el gran avance en los sistemas de minera de datos desde el ltimo
siglo, las entidades educativas y empresariales han buscado maneras de explotar al
mximo la informacin existente en sus sistemas de informacin, esto basndose en
tcnicas y software especializados que permiten interpretacin fcil y real de los
resultados.
El xito de una organizacin en un entorno globalizado depende en gran medida del
conocimiento de sus miembros y de sus habilidades para hacer negocios. Sin embargo,
las organizaciones no solo necesitan de conocimiento, sino tambin necesitan tener la
capacidad de actualizar dinmicamente el conocimiento y ponerlo en prctica.
En esencia, deben ser capaces de resolver problemas, aprender de experiencias propias
y tambin de experiencias de otros, transfiriendo el conocimiento y la informacin de
forma rpida y eficiente a toda la organizacin.
En nuestros das, la gran mayora de las organizaciones tienen la capacidad de generar
grandes volmenes de datos, esto de una forma rpida y creciente como resultado de sus
operaciones diarias, no obstante, pocas son las organizaciones que producen informacin
de verdadero valor.
Es as como para dar apoyo en la toma de decisiones a niveles administrativos o
gerenciales, se crean metodologas especializadas y tcnicas de extraccin adecuada de
la informacin, haciendo que el usuario final pueda ver los resultados en un solo clic o con
pocos pasos, por tanto y teniendo en cuenta lo anterior.
Lo que se pretende con esta tecnologa es descubrir conocimiento oculto a partir de
grandes volmenes de datos. Desde la dcada pasada, debido a los grandes avances
computacionales, se ha ido incorporando a las organizaciones para constituirse en un
apoyo esencial al momento de tomar decisiones. Organizaciones tales como empresas,
clubes profesionales deportivos, universidades y gobiernos, entre otros, hacen uso de
esta tecnologa como ayuda en la toma de sus decisiones. Algunos de estos ejemplos
sern citados en el presente trabajo.
El data mining surge como una tecnologa que intenta ayudar a comprender el contenido
de una base de datos. De forma general, los datos son la materia prima bruta. En el
momento que el usuario les atribuye algn significado especial pasan a convertirse en
5
superior
buscando
patrones,
comportamientos,
agrupaciones,
secuencias,
tendencias o asociaciones que puedan generar algn modelo que nos permita
comprender mejor el dominio para ayudar en una posible toma de decisin.
2. CONCEPTUALIZACION
6
necesaria
para
la
toma
de
decisiones.
datos"
(Fayyad
otros,
1996).
en
el
Aprendizaje
Automtico
la
Estadstica.
anlisis de
verificacin
nos permite
obtener
conclusiones
basadas
en el
comportamiento pasado.
La minera de datos con enfoque en el descubrimiento, puede ayudar a descubrir nuevas
oportunidades de negocio.
El anlisis de verificacin nos ayuda a confirmar o rechazar los "descubrimientos"
obtenidos con el nuevo enfoque. La minera es un tema para grandes bases de datos,
ayuda a descubrir a estas bases informacin rpida. Es una herramienta relacionada
directamente al negocio.
Se empieza a hablar de minera de datos cuando en el mercado se pone atencin en el
producto y el cliente. Esta herramienta existe hace varios aos, el problema es que
trabaja con grandes bases de datos.
7
2.4
Mtodos
especficos
de
rboles
de
decisin
incluyen:
La tcnica usada para realizar estas hazaas en Data Mining se llama Modelado: es
simplemente el acto de construir un modelo en una situacin donde usted conoce la
respuesta y luego la aplica en otra situacin de la cual desconoce la respuesta.
La minera de datos, es un proceso que invierte la dinmica del mtodo cientfico, dado
que se generan hiptesis a partir de los datos colectados.
La Minera de Datos es una herramienta explorativa y no explicativa. Es decir, explora los
datos para sugerir hiptesis. Es incorrecto aceptar dichas hiptesis como explicaciones o
relaciones causa-efecto. Es necesario coleccionar nuevos datos y validar las hiptesis
generadas ante los nuevos datos, y despus descartar aquellas que no son confirmadas
por los nuevos datos.
10
11
Trabajar con esta tecnologa implica cuidar un sin nmero de detalles debido a que el
producto final involucra "toma de decisiones".
Contribuye a la toma de decisiones tcticas y estratgicas proporcionando un sentido
automatizado para identificar informacin clave desde volmenes de datos generados por
procesos tradicionales y de e-Business.
Proporciona poderes de decisin a los usuarios del negocio que mejor entienden el
problema y el entorno y es capaz de medir la acciones y los resultados de la mejor forma.
Genera Modelos descriptivos: en un contexto de objetivos definidos en los negocios
permite a empresas, sin tener en cuenta la industria o el tamao, explorar
automticamente, visualizar y comprender los datos e identificar patrones, relaciones y
dependencias que impactan en los resultados finales de la cuenta de resultados (tales
como el aumento de los ingresos, incremento de los beneficios, contencin de costes y
gestin de riesgos).
Genera Modelos predictivos: permite que relaciones no descubiertas e identificadas a
travs del proceso del Data Mining sean expresadas como reglas de negocio o modelos
predictivos. Estos outputs pueden comunicarse en formatos tradicionales (presentaciones,
informes, informacin electrnica compartida, embebidos en aplicaciones, etc.) para guiar
la estrategia y planificacin de la empresa
3. APLICACIN:
Se realizar una aplicacin con los datos acerca de los das que se ha podido jugar al
tenis,
dependiendo
de
diversos
aspectos
climticos.
12
el
archivo
con
la
extensin
arff
2) Nos
muestra
los
atributos
de
nuestros
datos.
13
4)
Seleccionar
Clasificar
seleccionar
el
algoritmo
rbol y
utilizar J48
14
5) Seleccionar use trining, porque nos permite utilizar todos los registros
cargados.
6)
Interpretar
la matriz
de
confusin
15
8) Interpretacin
Figura 8. Visualizacin de pantalla Confusion
Matrix
16
Interpretacin
En la primera iteracin analizados con todos los registros, nos dice que lo que
ms predomin fue el clima lluvioso con temperatura baja y humedad alta y
Figura 11. Ventana al aire
seleccionar
el personas
modelo tendieron a jugar.
fuerte las
Associate
EN el clster 0, lo que ms predomin fue el clima lluvioso con baja
temperatura y humedad normal y hubo un aire fuerte y las personas no
jugaron
En el clster 1, el clima que predomino es nublado con temperatura baja,
humedad alta, aire dbil y las personas si tendieron a jugar.
17
4. CONCLUCIONES
El desarrollo de la tecnologa de Minera de Datos est en un momento crtico. Existe una
serie de elementos que la hacen operable, sin embargo, existen algunos factores que
pueden crear un descrdito a la Minera de Datos, como ser:
Que no sea posible resolver los aspectos tcnicos de hallar patrones en tiempo o
en espacio,
18
BILIOGRAFIA
[1]
KNIME
IEDE.
Manual
Bsico
Knime;
http://www.slideshare.net/itapia/manual-bsico-knime
[2]
Construyendo
el
modelo.
Minera
de
Datos;
2005;
http://www.gravitar.biz/index.php/bi/construyendo-el-modelo-mineria-de-datos/
[3] Minera de Reglas de Asociacin sobre datos Mezclados, Ansel Yoan
Rodrguez Gonzlez, Jos Francisco Martnez Trinidad, Jess Ariel, Carrasco
Ochoa, Jos Ruiz Shulcloper, Reporte Tcnico No. CCC-09-001,31 de Marzo
de 2009. http://ccc.inaoep.mx/portalfiles/file/CCC-09-001.pdf
[4] Minera de Datos con Weka;
http://www.locualo.net/programacion/mineria-datos-weka-ficherosarff/00000019.aspx
[5] Espaa.
rboles y reglasde decisin. Disponible:
http://supervisadaextraccionrecuperacioninformacion.iespana.es/a
rboles.html[citado
en
23
de
Febrero
de
2008]
[6] S. Vallejos, Trabajo de adscripcin minera de datos,
Corrientes
Argentina,
2006,
pp.
11
14.
[7] Cursos, investigacin y recursos en inteligencia artificial.
19
20
21