Vous êtes sur la page 1sur 13

INDICE

1. INTRODUCCIÓN...............................................................................2
1.1 OBJETIVOS GENERALES...........................................................3
1.2 OBJETIVOS ESPECIFICOS.........................................................4
3. MARCO TEORICO............................................................................5
3.1 LOS ELEMENTOS BÁSICOS DE UN DATA WAREHOUSE........7
4. DESARROLLO DEL PROYECTO.....................................................9
5. CONCLUSIONES............................................................................10
6. BIBLIOGRAFIA................................................................................11
7. ANEXOS..........................................................................................12
1. INTRODUCCIÓN

Muchas organizaciones que usan tecnología de base de datos estándar para


recopilar, almacenar y procesar grandes cantidades de sus datos operativos
comenzaron a ver más de cerca sus almacenes de datos actuales e históricos
como fuentes de información para ayudarse a tomar mejores decisiones
empresariales.

Las bases de datos operativas tradicionales soportan procesamiento de


transacción en línea (OLTP, por sus siglas en inglés), que de manera característica
involucran un número limitado de transacciones repetitivas, cada una de las cuales
afecta algunas tuplas en un momento en una base de datos relacional. A
diferencia de una base de datos operativa, para la cual se pueden especificar
requisitos por adelantado, un almacén de datos debe diseñarse para apoyar
consultas ad hoc y nuevos y no anticipados tipos de análisis.

Aunque los modelos en las fuentes de datos pueden variar, el almacén de datos
en sí debe usar un solo modelo consistente que aloje las necesidades de los
usuarios. Los almacenes de datos generalmente usan un modelo
multidimensional.

La cantidad de datos en un almacén puede ser tan grande que son importantes los
índices eficientes para que las consultas se ejecuten en una cantidad razonable de
tiempo. Dado que los datos en un almacén de datos no se actualizan mediante
transacciones ordinarias, es relativamente estático. Por tanto, una vez creados los
índices para los datos, el costo de mantenerlos no es un factor. Al entorno de
almacén de datos se aplican técnicas de indexado especiales, incluidos el
indexado de mapa de bits y el indexado combinado, que son eficientes para una
gran cantidad de datos estáticos.
1.1 OBJETIVOS GENERALES

Conocer cómo se originaron los almacenes de datos, para luego definir qué tipos
de procesamiento soportan los almacenes de datos y su procedimiento para ser
enviados al minado de datos.

LOS OBJETIVOS FUNDAMENTALES DE UN DATA WAREHOUSE SON:

Hace que la información de la organización sea accesible: los contenidos del Data
WareHouse son entendibles y navegables, y el acceso a ellos son caracterizado
por el rápido desempeño. Estos requerimientos no tienen fronteras y tampoco
limites fijos. Cuando hablamos de entendible significa, que los niveles de la
información sean correctos y obvios. Y Navegables significa el reconocer el
destino en la pantalla y llegar a donde queramos con solo un clic. Rápido
desempeño significa, cero tiempo de espera. Todo lo demás es un compromiso y
por consiguiente algo que queremos mejorar.

Hacer que la información de la organización sea consistente: la información de


una parte de la organización puede hacerse coincidir con la información de la otra
parte de la organización. Si dos medidas de la organización tienen el mismo
nombre, entonces deben significar la misma cosa. Y a la inversa, si dos medidas
no significan la misma cosa, entonces son etiquetados diferentes. Información
consistente significa, información de alta calidad. Significa que toda la información
es contabilizada y completada. Todo lo demás es un compromiso y por
consiguiente algo que queremos mejorar..

Es un seguro baluarte que protege los valores de la información: el Data


WareHouse no solamente controla el acceso efectivo a los datos, si no que da a
los dueños de la información gran visibilidad en el uso y abusos de los datos, aún
después de haber dejado el Data WareHouse. Todo lo demás es un compromiso y
por consiguiente algo que queremos mejorar.

Es la fundación de la toma de decisiones: el Data WareHouse tiene los datos


correctos para soportar la toma de decisiones. Solo hay una salida verdadera del
Data WareHouse: las decisiones que son hechas después de que el Data
WareHouse haya presentado las evidencias. La original etiqueta que preside el
Data WareHouse sigue siendo la mejor descripción de lo que queremos construir:
un sistema de soporte a las decisiones.
1.2 OBJETIVOS ESPECIFICOS

 Analizar cómo difiere OLAP de OLTP


 Estructurar la arquitectura básica de un almacén de datos
 Demostrar qué modelos de datos se usan para almacenes de datos
 Ver cómo se expresan en SQL las consultas de los almacenes de datos
 Ver cómo se pueden usar los índices de mapa de bits y los índices
combinados
 Analizar cómo se manejan la materialización de vistas y el mantenimiento
de vistas
 Saber más del propósito del minado de datos
 Responder a los tipos de conocimiento que puede producir el minado de
datos

Descripción de clases: provee una clasificación concisa y resumida de un


conjunto de datos y los distingue unos de otros. La clasificación de los datos se
conoce como caracterización, y la distinción entre ellos como comparación o
discriminación.

Asociación: es el descubrimiento de relaciones de asociación o correlación en


un conjunto de datos. Las asociaciones se expresan como condiciones
atributo- valor y deben estar presentes varias veces en los datos.

Clasificación: analiza un conjunto de datos de entrenamiento cuya clasificación


de clase se conoce y construye un modelo de objetos para cada clase. Dicho
modelo puede representarse con árboles de decisión o con reglas de
clasificación, que muestran las características de los datos. El modelo puede
ser utilizado para la mayor comprensión de los datos existentes y para la
clasificación de los datos futuros.

Predicción: esta función de la minería predice los valores posibles de datos


faltantes o la distribución de valores de ciertos atributos en un conjunto de
objetos.

agrupación: identifica clusters o grupos en el conjunto de datos, donde un


cluster es una colección de datos “similares”. La similitud puede medirse
mediante funciones de distancia.
Análisis de series a través del tiempo: analiza un gran conjunto de datos
obtenidos con el correr del tiempo para encontrar en él regularidades y
características interesantes, incluyendo la búsqueda de patrones secuenciales,
periódicos, modas y desviaciones.

3. MARCO TEORICO

Un Data Warehouse es nuestro seguro para proteger toda la información de la


organización, de forma que ésta quede accesible, entendible, estructurada y
completa.

Creamos modelos centralizados de información para la toma de decisiones,


partiendo de datos distribuidos en innumerables bases de datos, ficheros, fuentes
externas, etc… Nuestra experiencia en el manejo de enormes Bases de Datos
asegura la optimización de rendimientos y tiempos de acceso. La modelización de
toda la información dispersa en una organización en un Datawarehouse
centralizado, ofrece información consistente y homogénea para la toma de
decisiones. Algunos casos en los que hemos diseñado y creado DW son EOI,
CSIC, Catenon

Los almacenes de datos guardan grandes cantidades de datos tomados de las


bases de datos operativas utilizadas por una empresa, así como de otras fuentes
de datos. Se usan para sis- temas de apoyo de decisiones (DSS), procesamiento
analítico en línea (OLAP) y minado de datos. Los datos se toman de fuentes de
datos con el uso de herramientas externas del sistema. Los datos extraídos se
reformatean, limpian, ponen en el modelo adecuado y car- gan en el almacén.
También se pueden crear data marts que contienen datos especializados. Los
almacenes usan frecuentemente un modelo multidimensional. Los datos se
pueden representar con el uso de cubos de datos multidimensionales, que se
pueden pivotear o rotar para mostrar una dimensión diferente. Si la dimensión es
más que tres, se usa el tér- mino hipercubo. La exploración superficial (rollup) es
un proceso de agregado de datos a lo largo de dimensiones, mientras que su
inverso, la exploración minuciosa (drill-down), es un proceso que proporciona más
detalle para alguna dimensión. Una tabulación cruzada es un despliegue en forma
de hoja de cálculo con totales agregados a los datos.

La proyección dimensional (slicing) de un cubo de datos es equivalente a realizar


una selec- ción con igualdad de condiciones para una o más dimensiones,
mientras que la selección dimensional (dicing) es equivalente a una selección de
rango.
Los primeros sistemas OLAP multidimensionales almacenaban datos como
arreglos multi- dimensionales, llamados sistemas MOLAP. Los sistemas OLAP
relacionales, llamados ROLAP, usan tablas relacionales múltiples. Un esquema
estrella usa una tabla central de valores de datos llamada tabla de hechos, con
atributos que representan dimensiones. Cada dimensión tiene su propia tabla de
dimensión que se conecta a la tabla de hechos. En una variación llamada
esquema copo de nieve, las mismas tablas de dimensión tienen tablas de
dimensión porque están normalizadas.

Las consultas para un almacén de datos pueden usar las funciones de agregación
estándares de SQL, usualmente con opciones GROUP BY. SQL:1999 proporciona
funciones adiciona- les para las medidas estadísticas de desviación estándar,
varianza, correlación y regresión. También existe una función rank que regresa la
clasificación de una tupla con respecto a algún atributo. La cláusula GROUP BY
puede incluir la opción GROUP BY CUBE y GROUP BY ROLLUP para cubos de
datos.

Es posible usar técnicas de indexado especiales en un entorno de almacén de


datos para acelerar las consultas. Los índices de mapa de bits son útiles si el
dominio de valores para un atributo es pequeño. Para cada tupla se construye un
vector de bits, que muestra cuáles de los valores tiene la tupla al colocar un 1 en
la posición apropiada del vector. Es posible res- ponder algunas consultas
directamente del índice, sin acceder a los registros de datos. Un índice combinado
se construye al almacenar, para cada valor del atributo indexado en una tabla de
dimensión, las ID de tupla de todas las tuplas en la tabla de hechos que tengan
dicho valor para el atributo.

Por cuestiones de eficiencia, con frecuencia se crean vistas mediante


materialización de vista, y se precalculan y almacenan para uso futuro. Para vistas
materializadas también se pueden crear índices. Es necesaria una política de
mantenimiento de vista para vistas mate- rializadas. Puede ser inmediata o
diferida. Si es diferida, la política de regeneración puede ser lenta, periódica o
forzada.

Minado de datos significa descubrimiento de nueva información a partir de


conjuntos muy grandes de datos. El propósito es ganar una ventaja competitiva al
poder predecir compoRtamiento, clasificar ítems, identificar una actividad o
evento, u optimizar el uso de recursos. El conocimiento descubierto puede ser
como reglas de asociación, que tienen medidas de cobertura y precisión. El
conocimiento también puede expresarse como reglas de clasifica- ción, patrones
secuenciales o patrones de series de tiempo. El conjunto de datos que se utiliza
para enseñar al sistema se llama conjunto de formación. Los métodos de minado
de datos incluyen árboles de decisión, regresión, redes neuronales y clustering
(agrupamien- to). Las áreas de aplicación incluyen venta al por menor, banca y
finanzas, fabricación y medicina.

3.1 LOS ELEMENTOS BÁSICOS DE UN DATA WAREHOUSE

Sistema fuente: sistemas operacionales de registros donde sus funciones son


capturar las transacciones del negocio. A los sistemas fuentes también se le
conoce como Legacy System.

Área de trafico de datos: es un área de almacenamiento y grupo de procesos, que


limpian transforman, combinan, remover los duplicados, guardan, archivan y
preparan los datos fuente para ser usados en el Data WareHouse.

Servidor de presentación: la maquina física objetivo en donde los datos del Data
WareHouse son organizados y almacenados para queries directos por los usuarios
finales, reportes y otras aplicaciones.

Modelo dimensional: una disciplina especifica para el modelado de datos que es


una alternativa para los modelos de entidad – relación.

Procesos de negocios: un coherente grupo de actividades de negocio que hacen


sentido a los usuarios del negocio del Data WareHouse.

Data Mart: un subgrupo lógico del Data WareHouse completo.

Data WareHouse: búsquedas fuentes de datos de la empresa. Y es la unión de


todos los data marts que la constituyen.

Almacenamiento operacional de datos: es el punto de integración por los sistemas


operacionales. Es el acceso al soporte de decisiones por los ejecutivos.

OLAP: actividad general de búsquedas para presentación de texto y números del


Data WareHouse, también un estilo dimensional especifico de búsquedas y
presentación de información y que es ejemplificada por vendedores de OLAP.

ROLAP: un grupo de interfases de usuarios y aplicaciones que le dan a la base de


datos relacional un estilo dimensional.

MOLAP: un grupo de interfases de usuarios, aplicaciones y propietarios de


tecnología de bases de datos que tienen un fuerte estilo dimensional.
Aplicaciones para usuarios finales: una colección de herramientas que hacen los
queries, analizan y presentan la información objetivo para el soporte de las
necesidades del negocio.

Herramientas de acceso a datos por usuarios finales: un cliente de Data


WareHouse.

Ad Hoc Query Tool: un tipo especifico de herramientas de acceso a datos por


usuarios finales que invita al usuario a formas sus propios queries manipulando
directamente las tablas relacionales y sus uniones.

Modelado de aplicaciones: un sofisticado tipo de cliente de Data WareHouse con


capacidades analíticas que transforma o digiere las salidas del Data WareHouse.

DATA MINING

Meta Data: toda la información en el ambiente del Data WareHouse que no son así
mismo los datos actuales. Data Mining (DM), la extracción de información oculta y
predecible de grandes bases de datos, es una poderosa tecnología nueva con
gran potencial para ayudar a las compañías a concentrarse en la información más
importante de sus Bases de Información Sin embargo, no existe una única
definición del término Data Mining. Se puede decir que DM se refiere a un
conjunto de métodos estadísticos que proporcionan información (correlaciones o
patrones) cuando se dispone de muchos datos (de aquí viene el nombre Minería
de Datos). Esta idea de DM lleva a la siguiente estructura de conocimiento:

Datos + Estadística = Información El símbolo = tiene el siguiente sentido: los datos


están bien recogidos y la estadística bien aplicada.

Según algunos autores, el Data Mining es aquella parte de la estadística


(principalmente estadística no paramétrica) que se usa para problemas que se
presentan actualmente en Análisis de Datos. Los problemas actuales se
diferencian de los clásicos en que el número de datos a analizar es mucho mayor
y, como consecuencia, las técnicas estadísticas clásicas no pueden ser aplicadas.

Generalmente, el Data Mining es el proceso de analizar datos desde diferentes


perspectivas con el objetivo de resumir los datos en segmentos de información
útiles. Esta información que puede ser usada para incrementar réditos o
beneficios, reducir costos, etc. El DM permite a los usuarios analizar datos desde
diferentes dimensiones o ángulos, categorizándolos y resumiendo las relaciones
identificadas.
4. DESARROLLO DEL PROYECTO
5. CONCLUSIONES

Los negocios están cambiando constantemente debido a cambios económicos,


evoluciones tecnológicas, alteraciones en el mercado, impactados por diversos
cambios culturales y sociales e incluso por fenómenos meteorológicos.

Todo ello obliga a replantearse las estrategias actuales y debería provocar una
transformación en nuestro propio negocio. Así, un factor clave de éxito, e incluso
de supervivencia, viene derivado de la capacidad de las organizaciones de
gestionar de forma eficiente sus datos, y transformarlos en información útil y
disponible para acertar en las decisiones. Esto y solo esto, es Business
Intelligence.

Business Intelligence no es tecnología, es negocio y es estrategia. BI implica


muchas cosas, pasando por la vocación de medir para actuar en consecuencia,
gran problema pendiente en las organizaciones.

Actuar no es hacer un informe. Es la capacidad de controlar y gestionar las


organizaciones, basada en datos e informaciones veraces y no en hipótesis. Es la
capacidad de alinear la estrategia con las operaciones, es la capacidad de
orientarse realmente hacia el cliente, es la capacidad de entender, es comprender
y transmitir los objetivos empresariales y su desempeño, es la capacidad de crear
consenso en la organización, derivando todo ello en un cambio cultural.

Un Sistema Data Mining nos permite analizar factores de influencia en


determinados procesos, predecir o estimar variables o comportamientos futuros,
segmentar o agrupar ítems similares, además de obtener secuencias de eventos
que provocan comportamientos específicos.

La llegada del Data Mining se considera como la última etapa de la introducción de


métodos cuantitativos, científicos en el mundo del comercio, industria y negocios.
Desde ahora, todos los no-estadísticos -es decir el 99,5% de nosotros pueden
construir modelos exactos de algunas de sus actividades, para estudiarlas mejor,
comprenderlas y mejorarlas.

6. BIBLIOGRAFIA

United States Patent and Trademark Office. General Information Concerning


Patents. 2003. Valduriez, P. “Join Indices”, ACM Transactions on Database
Systems 12(2): 218-246 (1987). Warren S. y L. Brandeis. “The right to privacy”,
Harvard Law Review 4:193-220 (1890).

Westin, A. Privacy and Freedom. Atheneum, 1967. Wiederhold, G. Database


Design (2a. ed.). McGraw Hill, 1983.

Wong, E. y K. Youssefi. “Decomposition—A Strategy for Query Processing”, ACM


Transac- tions on Database Systems 1(3): 223-241 (1976).

World Intellectual Property Organization. WIPO Intellectual Property Handbook:


Policy, Law and Use. WIPO, 2001.

World Trade Organization. A Summary of the Final Act of the Uruguay Round.
1994.

World Trade Organization, Uruguay Round Agreement: TRIPS Part II—Standards


concern- ing the availability, scope and use of Intellectual Property Rights. 1994

Zaniolo, C. S. Ceri, C. Faloutsos, R. Snodgrass, V. Subrahmanian y R. Zicari.


Advanced Database Systems. Morgan Kaufmann, 1997.
7. ANEXOS

Vous aimerez peut-être aussi