Vous êtes sur la page 1sur 17

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA

CURSO BASES DE DATOS AVANZADAS


- TRABAJO PRACTICO 2

Presentado a:
ANVAR CHAVES TORRES
Tutor

Presentado por:
NILSON JAIRO ARIAS COD 91285823
PEDRO JAVIER BAYTER- COD 85272898

GRUPO 301125_16

GIRARDOT, OCTUBRE DE 2014

INTRODUCCIN
El fin del presente trabajo corresponde a la prctica nmero dos del mdulo de
Bases de datos avanzadas busca asimilar y comprender cada tema visto con
anterioridad en la unidad correspondiente a esta tarea, as como tambin conocer y
aplicar los concepto de bases de datos distribuidas y bodegas de datos por medio
de la minera de datos.
Como bien sabemos el anlisis de los datos en un tiempo finito, ha trado consigo
estudios sobre la mejor forma de almacenar y representar estos datos para que
puedan ser consultados de una forma ms rpida. Por ende tenemos una serie de
fundamentos tericos que nos presenta el modulo en la temtica correspondiente a
Bodegas de datos y minera de datos.
Partiendo de un precepto simple y sencillo una Bodega de Datos (Data Warehouse)
es un repositorio integrado por datos que pueden ser generados internamente o
recibidos de fuentes externas, organizados de tal manera que facilitan el proceso
de toma de decisiones.
La Minera de datos es el proceso analtico diseado para explorar grandes
volmenes de datos con el objeto de descubrir patrones y modelos de
comportamiento o relaciones entre diferentes variables. Es decir, descubrir
conocimiento que ayuda a mejorar la toma de decisiones en las organizaciones.

OBJETIVOS

Apropiar y asimilar los conceptos de minera de datos y data wharehouse

Poner en prctica la unidad 2 del mdulo bases de datos avanzada.

Aplicar bodegas de datos sobre un ejemplo real y crear una minera de datos

DESCRIPCIN DE LA ACTIVIDAD

En la prctica 1 se dise la base de datos distribuida para la Empresa Prometeus,


la cual es diferentes electrodomsticos, como: estufas, lavadoras, neveras,
nevecones, equipos de sonido, televisores, etc., y el servicio de mantenimiento
preventivo y correctivo.
Prometeus tiene agencias en las principales ciudades del pas. Esta empresa
requiere mejorar la gestin de la informacin de manera que pueda acceder a los
datos de todas sus agencias de forma oportuna y con facilidad. una empresa de
comercializacin de electrodomsticos y servicio de mantenimiento y reparacin en
general.
Ahora en la unidad dos se solicita que se ponga en prctica los conocimientos
adquiridos en la unidad dos y se prepare una propuesta detallada de
implementacin de una bodega de datos en la que se aplicar minera de datos para
extraer informacin importante para la toma de decisiones.
La propuesta debe presentar informacin suficiente sobre la bodega de datos,
como: ventajas para la organizacin, proceso de implementacin, costos, riesgos;
de igual manera una descripcin detallada de la aplicacin de algoritmos de minera
de datos en dnde se resalte qu informacin especfica se podra obtener mediante
esta tcnica que no podra obtenerse de manera convencional.
PROPUESTA BODEGA DE DATOS PARA PROMETEUS.

La propuesta para la empresa Prometeus consiste en una bodega de datos, como


conjunto de datos integrados u orientados a dar o proporcionar datos que ayudan a
la toma de decisiones especficas para la organizacion, los datos varan con el
tiempo y que no son transitorios, los cuales soportan el proceso de toma de
decisiones de la administracin y est orientada al manejo de grandes volmenes
de datos provenientes de diversas fuentes o diversos tipos.
Estos datos cubren largos perodos de tiempo lo que trae consigo que se tengan
diferentes esquemas de los datos fuentes, La concentracin de esta informacin
est orientada a su anlisis para apoyar la toma de decisiones oportunas y
fundamentadas, Previo a su utilizacin se debe aplicar procesos de anlisis,
seleccin y transferencia de datos seleccionados desde las fuentes.

IMPLEMENTACIN DE LA BODEGA DE DATOS


La bodega de datos del almacn estar ubicada en la principal de Prometeus por lo
tanto se dispondr de toda la informacin de las sedes de la empresa actualizndola
mediante las herramientas especficas como son:

Herramientas de Almacenamiento (bases de datos, multidimensionales):


esta ser un servidor para el almacenamiento y manejo de la base de datos
corporativa,
Herramientas de Extraccin y Coleccin: sern desarrolladas por el personal
interno de la compaa dado el gran conocimiento que tienen de los sistemas
transaccionales.
Herramientas para Reportes de Usuario Final: es la interface vista por el
usuario entre estas puede ser seleccionada entre Cognos Powerplay,
Business Objects, SAS, ShowCase Strategy.
Herramientas para Anlisis Inteligentes: Entre ellas estn las de empresas
como IBM, SAS, Arbor, Cognos, Business Objects, entre otras. Estas
herramientas han sido construidas utilizando inteligencia artificial que buscan
alrededor de la Bodega de Datos modelos y relaciones en los datos. Estas
herramientas utilizan una tcnica conocida como Minera de datos.

Para la implementacin de nuestra bodega de datos les planteamos algunas


ventajas que tendramos con la anterior.

VENTAJAS DE NUESTRA BODEGA DE DATOS

Proporciona informacin clave para la toma de decisiones en la


empresa y mejora la calidad de las decisiones tomadas.
Especialmente til para el medio y largo plazo.
Muy tiles para el almacenamiento de anlisis y consultas de
histricos.
Proporciona un gran poder de procesamiento de informacin.
Permite una mayor flexibilidad y rapidez en el acceso a la
informacin.
Facilita la toma de decisiones en los negocios Y la empresa obtiene
un aumento de la productividad.
Proporciona una comunicacin fiable entre todos los departamentos
de la empresa y Mejora las relaciones con los proveedores y los
clientes.

DISEO DE LA BODEGA DE DATOS

El propsito primordial de optimizar las consultas relacionadas con los aspectos de


Prometeus (Centros, clientes, electrodomsticos, Programas, etc.).
Por cuanto esta organizacin y diseo nos conduce a una estructura en estrella en
la que el centro es la tabla fact o hecho que representa al factor principal por el
que se desea analizar la base de datos.
Alrededor de esta tabla aparecen las tablas dimensin, que representan los
diferentes aspectos relacionados con el principal y que influyen en el estudio.
Consideraciones tenidas al momento del diseo:
Identificar las tablas de hechos, ya que es posible tener ms de una. Por
cada aspecto del negocio que interese estudiar debe aparecer una tabla de
hechos.
Identificar las tablas de dimensin (esto es, decidir cules son los
parmetros por los que interesa realizar el estudio).
Comprobar que ninguna de las tablas de hechos oculta tablas de
dimensiones. Al heredar la estructura de las bases de datos operacionales,
esto ocurre muy a menudo al encontrarnos que no se han eliminado atributos
que ya no interesan.
Teniendo en cuenta algunas consideraciones como las anteriores
recomendaciones presentamos el modelo de nuestra bodega de datos.
Al disear nuestra bodega de datos para PROMETEUS, se toma informacin de las
anteriores bases de datos realizada en el Informe No 2, tales informaciones como:

Sucursales: En las Cuales se dividen los distintos programas.


Productos: para la identificacin de los programas acadmicos.
Marcas, Vendedores y Clientes: que almacenan la informacin relevante a
los actores de la base de datos.

BENEFICIOS DE LA IMPLEMENTACION DE LA BODEGA DE DATOS

Prometeus se ver beneficiada de usar una bodega de datos porque ser una forma
ms gil de obtener informacin especfica para tomar decisiones con el fin de
aumentar las ventas.
La bodega de datos no implica demasiado costo para la empresa, pues al tener una
base de datos distribuida la informacin se filtrar para tomar solo la especifica y
necesaria para almacenar en la bodega de datos, aunque s debera tener
presupuesto para alguna herramienta hardware y para el recurso humano.
Para la bodega de datos y minera se necesitaran herramientas como Herramientas
de Almacenamiento, Herramientas de Extraccin y Coleccin, Herramientas para
Reportes de Usuario Final y Herramientas para Anlisis Inteligentes.

PROCESO DE IMPLEMENTACIN
SOFTWARE:
Herramientas de Almacenamiento: corresponde a la herramienta en la cual
se irn a almacenar los datos. Existen muchas opciones dependiendo del
volumen de los datos, presupuesto y capacidad de su sistema. Cada uno de
los sistemas de administracin de bases de datos, como Oracle, DB2,
Informix, Tera Data, Sybase, etc, tienen una facilidad de Data Warehouse.
Herramientas de Extraccin y Coleccin: Ayudan a definir, acumular, totalizar
y filtrar los datos de sus sistemas transaccionales en el Data Warehouse. La
mayora de esas herramientas son desarrolladas por el personal interno de
la compaa dado el gran conocimiento que tienen de los sistemas
transaccionales.
Herramientas para Elaboracin de Reportes a Usuarios Finales: Es la
interface vista por el usuario. Al usuario se le debe proveer un mecanismo
para que vea los datos a un alto nivel y que entonces obtenga con ello la
solucin a preguntas especficas. Existen muchas herramientas, incluyendo
Cognos Powerplay, Business Objects, SAS, Show Case? Strategy etc.
HARDWARE:
Se requiere de un servidor para el almacenamiento y manejo de la base de
datos corporativa; este servidor se recomienda que sea altamente escalable,
pues algunas veces el proyecto de construccin de la bodega presenta
redimensionamiento a medida que se avanza en la implementacin.
La capacidad inicial de almacenamiento estar determinada por los
requerimientos de informacin histrica presentados por la empresa y por la
perspectiva de crecimiento que se tenga.

Debemos considerar que en todo proyecto de bases de datos e implementacin de


una bodega de datos tendremos y existen algunos riesgos para el sistema,
presentamos alguno de esos riesgos ms significativos.

RIESGOS DEL SISTEMA OPERATIVO.

La bodega de datos se encuentra sobre la plataforma del sistema operativo. La


seguridad representada en la disponibilidad, confidencialidad y controles de
accesos y privilegios sobre las reas de almacenamiento y procesamiento estn en
gran medida dependientes de esta plataforma.

El Sistema operativo no apoya las polticas de acceso establecidas desde la


administracin de la bodega de datos.
Los recursos requeridos por los procesos de actualizacin sean mal
atendidos por el sistema operativo.
El sistema operativo permite que programas o usuarios ejecuten y utilicen
recursos protegidos desde la bodega de datos.
El sistema operativo no otorga los recursos necesarios para la realizacin de
procesos de alto costo computacional.

RIESGOS DE LA RED.

Es la infraestructura de comunicacin que permite que los diferentes componentes


intercambien informacin. La cantidad de datos contenidos en la bodega de datos
incrementa su importancia.

Acceso al sistema desde elementos externos sin autorizacin (aplicaciones,


personas, etc.)
La red se convierta en un cuello de botella para lo operacin del sistema.
La inexistencia de elementos que respalden un componente que falle

OTROS RIESGOS
- Des actualizacin de esquemas a nuevas necesidades del negocio.
- Acceso no restringido a objetos de la bodega de datos.
- Respaldo de los datos almacenados.

DATA MINING

La definicin mas acertada sobre el data mining es una tecnologa compuesta por
etapas que integra varias reas y que no se debe confundir con un gran software.
Durante el desarrollo de un proyecto de este tipo se usan diferentes aplicaciones
software en cada etapa que pueden ser estadsticas, de visualizacin de datos o de
inteligencia artificial, principalmente.
Actualmente existen aplicaciones o herramientas comerciales de data mining muy
poderosas que contienen un sinfn de utileras que facilitan el desarrollo de un
proyecto. Sin embargo, casi siempre acaban complementndose con otra
herramienta.
Podemos decir que "en data mining cada caso es un caso". Sin embargo, en
trminos generales, el proceso se compone de cuatro etapas principales:
1. Determinacin de los objetivos. Trata de la delimitacin de los objetivos
que el cliente desea bajo la orientacin del especialista en data mining.
2. Preprocesamiento de los datos. Se refiere a la seleccin, la limpieza, el
enriquecimiento, la reduccin y la transformacin de las bases de datos.
Esta etapa consume generalmente alrededor del setenta por ciento del
tiempo total de un proyecto de data mining.
3. Determinacin del modelo. Se comienza realizando unos anlisis
estadsticos de los datos, y despus se lleva a cabo una visualizacin
grfica de los mismos para tener una primera aproximacin. Segn los
objetivos planteados y la tarea que debe llevarse a cabo, pueden utilizarse
algoritmos desarrollados en diferentes reas de la Inteligencia Artificial.
4. Anlisis de los resultados. Verifica si los resultados obtenidos son
coherentes y los coteja con los obtenidos por los anlisis estadsticos y de
visualizacin grfica. El cliente determina si son novedosos y si le aportan
un nuevo conocimiento que le permita considerar sus decisiones.

APLICACIN DEL DATA MINING EN EL ANALISIS DE POBLACION.

Uno de los campos de aplicacin tradicionales de la minera de datos es la


prediccin de la evolucin en el futuro de una variable (o conjunto de variables) a
partir de datos histricos sobre su comportamiento en el pasado.
Las tcnicas de minera de datos constituyen una alternativa til y eficaz a las
aproximaciones matemticas tradicionales, especialmente en el caso de
variaciones muy irregulares, complicadas de modelar con los mtodos clsicos.
Para mejorar la precisin del modelo y conseguir la exactitud necesaria en las
predicciones, se han aplicado tcnicas de minera de datos.
En conclusin los estudios preliminares sugieren la conveniencia de incluir en el
modelo informacin no slo de los valores de la poblacin en los meses previos sino
tambin sobre la tendencia de la serie y sobre la temporada en cuestin, datos todos
ellos contenidos en la propia serie.
El sistema desarrollado, basado en una red neuronal, permitira medir el nivel de las
ventas de Prometeus, clasificando variables como Electrodomsticos, ventas
promedio, rea de influencia.
TCNICAS DE MINERA DE DATOS
Las tcnicas de la minera de datos provienen de la Inteligencia artificial y de la
estadstica, a un modo ms especfico son algoritmos complejos a cierto punto
medianamente sofisticados que se aplican sobre un conjunto de datos para obtener
unos resultados.
Dentro de las tcnicas ms representativas Tenemos:

REDES NEURONALES: Las redes neuronales suponen un paradigma de


aprendizaje y procesamiento automtico inspirado en la forma en que funciona
el sistema nervioso de los animales.
Se trata de un sistema de interconexin de neuronas en una red que colabora
para producir un estmulo de salida.

Algunos ejemplos de red neuronal son:


o
o
o

El Perceptrn.
El Perceptrn multicapa.
Los Mapas Auto organizados, tambin conocidos como redes de Kohonen.

RBOLES DE DECISIN: los arboles de decisin suponen un modelo de


prediccin utilizado en el mbito de la inteligencia artificial, dada una base de
datos se construyen estos diagramas de construcciones lgicas, muy similares
a los sistemas de prediccin basados en reglas, que sirven para representar y
categorizar una serie de condiciones que suceden de forma sucesiva, para la
resolucin de un problema.
o Ejemplos:
Algoritmo ID3.
Algoritmo C4.5.

MODELOS ESTADSTICOS: Es una expresin simblica en forma de igualdad


o ecuacin que se emplea en todos los diseos experimentales y en la regresin
para indicar los diferentes factores que modifican la variable de respuesta.

AGRUPAMIENTO O CLUSTERING: Es un procedimiento de agrupacin de


una serie de vectores segn criterios habitualmente de distancia; se tratar de
disponer los vectores de entrada de forma que estn ms cercanos aquellos
que tengan caractersticas comunes.
o Ejemplos:
Algoritmo K-means.
Algoritmo K-medoids.

En trminos generales la totalidad de los modelos y algoritmos de uso general en


minera de datos, como redes neuronales, rboles de regresin y clasificacin,
modelos logsticos, anlisis de componentes principales, entre otros, gozan de una
tradicin relativamente larga en otros campos.
Para nuestro diseo y en general la minera de datos tiene orgenes y fundamentos
directos de la estadstica de la cual toma las siguientes tcnicas:
Anlisis de varianza, mediante el cual se evala la existencia de diferencias
significativas entre las medias de una o ms variables continas en
poblaciones distintas.
Regresin: define la relacin entre una o ms variables y un conjunto de
variables predictoras de las primeras.

Prueba chi-cuadrado: por medio de la cual se realiza el contraste la


hiptesis de dependencia entre variables.
Anlisis de agrupamiento o clustering: permite la clasificacin de una
poblacin de individuos caracterizados por mltiples atributos (binarios,
cualitativos o cuantitativos) en un nmero determinado de grupos, con base
en las semejanzas o diferencias de los individuos.
Anlisis discriminante: permite la clasificacin de individuos en grupos que
previamente se han establecido, permite encontrar la regla de clasificacin
de los elementos de estos grupos, y por tanto una mejor identificacin de
cules son las variables que definan la pertenencia al grupo.

Series de tiempo: permite el estudio de la evolucin de una variable a travs


del tiempo para poder realizar predicciones, a partir de ese conocimiento y
bajo el supuesto de que no van a producirse cambios estructurales.
Y como finalmente es una ciencia dependiente de la informtica toma las siguientes
tcnicas:
Algoritmos genticos: Los algoritmos genticos son mtodos numricos
de optimizacin, en los que aquella variable o variables que se pretenden
optimizar junto con las variables de estudio constituyen un segmento de
informacin.
Aquellas configuraciones de las variables de anlisis que obtengan mejores
valores para la variable de respuesta, correspondern a segmentos con
mayor capacidad reproductiva. A travs de la reproduccin, los mejores
segmentos perduran y su proporcin crece de generacin en generacin.
Inteligencia Artificial: Mediante un sistema informtico que simula un
sistema inteligente, se procede al anlisis de los datos disponibles. Entre los
sistemas de Inteligencia Artificial se encuadraran los Sistemas Expertos y
las Redes Neuronales.

Sistemas Expertos: Son sistemas que han sido creados a partir de reglas
prcticas extradas del conocimiento de expertos. Principalmente a base de
inferencias o de causa-efecto.

Sistemas Inteligentes: Son similares a los sistemas expertos, pero con


mayor ventaja ante nuevas situaciones desconocidas para el experto.

Redes neuronales: Genricamente, son mtodos de proceso numrico en


paralelo, en el que las variables interactan mediante transformaciones
lineales o no lineales, hasta obtener unas salidas. Estas salidas se
contrastan con los que tenan que haber salido, basndose en unos datos
de prueba, dando lugar a un proceso de retroalimentacin mediante el cual
la red se reconfigura, hasta obtener un modelo adecuado.
En este proceso se busca calidad y rapidez en las respuestas dando as lugar a una
mejora de la productividad del experto. Se puede considerar como una rama de la
inteligencia artificial.
Estos sistemas copian o imitan las actividades de un humano para resolver
problemas de distinta ndole (no necesariamente tiene que ser de inteligencia
artificial). Tambin se dice que un Sistema experto se basa en el conocimiento
declarativo (hechos sobre objetos, situaciones) y el conocimiento de control
(informacin sobre el seguimiento de una accin).
Un sistema experto para que sea una herramienta efectiva, los usuarios deben
interactuar de una forma fcil, reuniendo dos capacidades para poder cumplirlo
como son:

Expresar sus razonamientos o base del conocimiento: los sistemas expertos


se deben realizar siguiendo ciertas reglas o pasos claros de manera que se
pueda generar la explicacin para cada una de estas reglas, que a la vez se
basan en hechos.

Adquisicin de nuevos conocimientos o integrador del sistema: son mtodos


de razonamiento que sirven para modificar los conocimientos anteriores.
Sobre la base de lo anterior se puede decir que los sistemas expertos son el
producto de investigaciones en el campo de la inteligencia artificial ya que
esta no intenta sustituir a los expertos humanos, sino que se desea ayudarlos
a realizar con ms rapidez y eficacia todas las tareas que realiza.

Debido a esto en la actualidad se estn mezclando diferentes tcnicas o


aplicaciones aprovechando las ventajas que cada una de estas ofrece para poder
tener empresas ms seguras.
Un ejemplo de estas tcnicas sera los agentes que tienen la capacidad de negociar
y navegar a travs de recursos en lnea; y es por eso que en la actualidad juega un
papel preponderante en los sistemas expertos. Unos ejemplos claros de sistemas
expertos son:

Dendral
XCon
Dipmeter Advisor
Mycin
CADUCEUS
R1
CLIPS, Jess
Prolog
ehsis.ikudetelemed.com

CONCLUSIONES
Este diseo de una bodega de datos para luego implementar el proceso de
minera de datos est dirigido a profesionales involucrados en el anlisis de los
sistemas de informacin o en la toma de decisiones de su organizacin o de sus
clientes, as como a estudiantes universitarios en titulaciones de ingeniera,
informtica o bien que quieran complementar su formacin estadstica con la
perspectiva del proceso de extraccin de conocimiento mediante la generacin
de modelos a partir de bases de datos.
Dicha minera de datos es utilizada actualmente para deducir y encontrar perfiles
de comportamiento de clientes, proveedores o ambientes, de acuerdo a los
parmetros emitidos en los modelos matemticos que se extraen en el anlisis
hecho para la implementacin de esta tecnologa.

REFERENCIAS BIBLIOGRFICAS

Modulo de Bases de Datos Avanzadas (UNAD)


Contenido en lnea:
http://campus03.unadvirtual.org/moodle/file.php/160/moduloExe/index.html
Documento sobre la Bodega de datos:
http://ccp.ucr.ac.cr/bvp/pdf/desarrollohumano/bd_distribuidas-rca.pdf
http://www.monografias.com/trabajos24/bodega-de-datos/bodega-dedatos.shtml
Documentos sobre la Normalizacin de las BD:
http://www.eet2mdp.edu.ar/alumnos/MATERIAL/MATERIAL/info/infonorma.
pdf
http://es.wikipedia.org/wiki/Normalizaci%C3%B3n_de_bases_de_datos

Vous aimerez peut-être aussi