INFORMATICA

INDICE
1. INTRODUCCIÓN...............................................................................2
1.1 OBJETIVOS GENERALES...........................................................3
1.2 OBJETIVOS ESPECIFICOS.........................................................4
3. MARCO TEORICO............................................................................5
3.1 LOS ELEMENTOS BÁSICOS DE UN DATA WAREHOUSE........7
4. DESARROLLO DEL PROYECTO.....................................................9
5. CONCLUSIONES............................................................................10
6. BIBLIOGRAFIA................................................................................11
7. ANEXOS..........................................................................................12
1. INTRODUCCIÓN
Muchas organizaciones que usan tecnología de base de datos estándar para

recopilar, almacenar y procesar grandes cantidades de sus datos operativos
comenzaron a ver más de cerca sus almacenes de datos actuales e históricos
como fuentes de información para ayudarse a tomar mejores decisiones
empresariales.
Las bases de datos operativas tradicionales soportan procesamiento de

transacción en línea (OLTP, por sus siglas en inglés), que de manera característica
involucran un número limitado de transacciones repetitivas, cada una de las cuales
afecta algunas tuplas en un momento en una base de datos relacional. A
diferencia de una base de datos operativa, para la cual se pueden especificar
requisitos por adelantado, un almacén de datos debe diseñarse para apoyar
consultas ad hoc y nuevos y no anticipados tipos de análisis.
Aunque los modelos en las fuentes de datos pueden variar, el almacén de datos
en sí debe usar un solo modelo consistente que aloje las necesidades de los
usuarios. Los almacenes de datos generalmente usan un modelo
multidimensional.
La cantidad de datos en un almacén puede ser tan grande que son importantes los
índices eficientes para que las consultas se ejecuten en una cantidad razonable de
tiempo. Dado que los datos en un almacén de datos no se actualizan mediante
transacciones ordinarias, es relativamente estático. Por tanto, una vez creados los
índices para los datos, el costo de mantenerlos no es un factor. Al entorno de
almacén de datos se aplican técnicas de indexado especiales, incluidos el
indexado de mapa de bits y el indexado combinado, que son eficientes para una
gran cantidad de datos estáticos.
1.1 OBJETIVOS GENERALES
Conocer cómo se originaron los almacenes de datos, para luego definir qué tipos
de procesamiento soportan los almacenes de datos y su procedimiento para ser
enviados al minado de datos.
LOS OBJETIVOS FUNDAMENTALES DE UN DATA WAREHOUSE SON:
Hace que la información de la organización sea accesible: los contenidos del Data
WareHouse son entendibles y navegables, y el acceso a ellos son caracterizado
por el rápido desempeño. Estos requerimientos no tienen fronteras y tampoco
limites fijos. Cuando hablamos de entendible significa, que los niveles de la
información sean correctos y obvios. Y Navegables significa el reconocer el
destino en la pantalla y llegar a donde queramos con solo un clic. Rápido
desempeño significa, cero tiempo de espera. Todo lo demás es un compromiso y
por consiguiente algo que queremos mejorar.
Hacer que la información de la organización sea consistente: la información de

una parte de la organización puede hacerse coincidir con la información de la otra
parte de la organización. Si dos medidas de la organización tienen el mismo
nombre, entonces deben significar la misma cosa. Y a la inversa, si dos medidas
no significan la misma cosa, entonces son etiquetados diferentes. Información
consistente significa, información de alta calidad. Significa que toda la información
es contabilizada y completada. Todo lo demás es un compromiso y por
consiguiente algo que queremos mejorar..
Es un seguro baluarte que protege los valores de la información: el Data

WareHouse no solamente controla el acceso efectivo a los datos, si no que da a
los dueños de la información gran visibilidad en el uso y abusos de los datos, aún
después de haber dejado el Data WareHouse. Todo lo demás es un compromiso y
por consiguiente algo que queremos mejorar.
Es la fundación de la toma de decisiones: el Data WareHouse tiene los datos

correctos para soportar la toma de decisiones. Solo hay una salida verdadera del
Data WareHouse: las decisiones que son hechas después de que el Data
WareHouse haya presentado las evidencias. La original etiqueta que preside el
Data WareHouse sigue siendo la mejor descripción de lo que queremos construir:
un sistema de soporte a las decisiones.
1.2 OBJETIVOS ESPECIFICOS
 Analizar cómo difiere OLAP de OLTP

 Estructurar la arquitectura básica de un almacén de datos
 Demostrar qué modelos de datos se usan para almacenes de datos
 Ver cómo se expresan en SQL las consultas de los almacenes de datos
 Ver cómo se pueden usar los índices de mapa de bits y los índices
combinados
 Analizar cómo se manejan la materialización de vistas y el mantenimiento
de vistas
 Saber más del propósito del minado de datos
 Responder a los tipos de conocimiento que puede producir el minado de
datos
Descripción de clases: provee una clasificación concisa y resumida de un

conjunto de datos y los distingue unos de otros. La clasificación de los datos se
conoce como caracterización, y la distinción entre ellos como comparación o
discriminación.
Asociación: es el descubrimiento de relaciones de asociación o correlación en

un conjunto de datos. Las asociaciones se expresan como condiciones
atributo- valor y deben estar presentes varias veces en los datos.
Clasificación: analiza un conjunto de datos de entrenamiento cuya clasificación

de clase se conoce y construye un modelo de objetos para cada clase. Dicho
modelo puede representarse con árboles de decisión o con reglas de
clasificación, que muestran las características de los datos. El modelo puede
ser utilizado para la mayor comprensión de los datos existentes y para la
clasificación de los datos futuros.
Predicción: esta función de la minería predice los valores posibles de datos

faltantes o la distribución de valores de ciertos atributos en un conjunto de
objetos.
agrupación: identifica clusters o grupos en el conjunto de datos, donde un

cluster es una colección de datos “similares”. La similitud puede medirse
mediante funciones de distancia.
Análisis de series a través del tiempo: analiza un gran conjunto de datos
obtenidos con el correr del tiempo para encontrar en él regularidades y
características interesantes, incluyendo la búsqueda de patrones secuenciales,
periódicos, modas y desviaciones.
3. MARCO TEORICO
Un Data Warehouse es nuestro seguro para proteger toda la información de la

organización, de forma que ésta quede accesible, entendible, estructurada y
completa.
Creamos modelos centralizados de información para la toma de decisiones,

partiendo de datos distribuidos en innumerables bases de datos, ficheros, fuentes
externas, etc… Nuestra experiencia en el manejo de enormes Bases de Datos
asegura la optimización de rendimientos y tiempos de acceso. La modelización de
toda la información dispersa en una organización en un Datawarehouse
centralizado, ofrece información consistente y homogénea para la toma de
decisiones. Algunos casos en los que hemos diseñado y creado DW son EOI,
CSIC, Catenon
Los almacenes de datos guardan grandes cantidades de datos tomados de las

bases de datos operativas utilizadas por una empresa, así como de otras fuentes
de datos. Se usan para sistemas de apoyo de decisiones (DSS), procesamiento
analítico en línea (OLAP) y minado de datos. Los datos se toman de fuentes de
datos con el uso de herramientas externas del sistema. Los datos extraídos se
reformatean, limpian, ponen en el modelo adecuado y car- gan en el almacén.
También se pueden crear data marts que contienen datos especializados. Los
almacenes usan frecuentemente un modelo multidimensional. Los datos se
pueden representar con el uso de cubos de datos multidimensionales, que se
pueden pivotear o rotar para mostrar una dimensión diferente. Si la dimensión es
más que tres, se usa el tér- mino hipercubo. La exploración superficial (rollup) es
un proceso de agregado de datos a lo largo de dimensiones, mientras que su
inverso, la exploración minuciosa (drill-down), es un proceso que proporciona más
detalle para alguna dimensión. Una tabulación cruzada es un despliegue en forma
de hoja de cálculo con totales agregados a los datos.
La proyección dimensional (slicing) de un cubo de datos es equivalente a realizar

una selec- ción con igualdad de condiciones para una o más dimensiones,
mientras que la selección dimensional (dicing) es equivalente a una selección de
rango.
Los primeros sistemas OLAP multidimensionales almacenaban datos como
arreglos multidimensionales, llamados sistemas MOLAP. Los sistemas OLAP
relacionales, llamados ROLAP, usan tablas relacionales múltiples. Un esquema
estrella usa una tabla central de valores de datos llamada tabla de hechos, con
atributos que representan dimensiones. Cada dimensión tiene su propia tabla de
dimensión que se conecta a la tabla de hechos. En una variación llamada
esquema copo de nieve, las mismas tablas de dimensión tienen tablas de
dimensión porque están normalizadas.
Las consultas para un almacén de datos pueden usar las funciones de agregación
estándares de SQL, usualmente con opciones GROUP BY. SQL:1999 proporciona
funciones adiciona- les para las medidas estadísticas de desviación estándar,
varianza, correlación y regresión. También existe una función rank que regresa la
clasificación de una tupla con respecto a algún atributo. La cláusula GROUP BY
puede incluir la opción GROUP BY CUBE y GROUP BY ROLLUP para cubos de
datos.
Es posible usar técnicas de indexado especiales en un entorno de almacén de

datos para acelerar las consultas. Los índices de mapa de bits son útiles si el
dominio de valores para un atributo es pequeño. Para cada tupla se construye un
vector de bits, que muestra cuáles de los valores tiene la tupla al colocar un 1 en
la posición apropiada del vector. Es posible responder algunas consultas
directamente del índice, sin acceder a los registros de datos. Un índice combinado
se construye al almacenar, para cada valor del atributo indexado en una tabla de
dimensión, las ID de tupla de todas las tuplas en la tabla de hechos que tengan
dicho valor para el atributo.
Por cuestiones de eficiencia, con frecuencia se crean vistas mediante

materialización de vista, y se precalculan y almacenan para uso futuro. Para vistas
materializadas también se pueden crear índices. Es necesaria una política de
mantenimiento de vista para vistas materializadas. Puede ser inmediata o
diferida. Si es diferida, la política de regeneración puede ser lenta, periódica o
forzada.
Minado de datos significa descubrimiento de nueva información a partir de

conjuntos muy grandes de datos. El propósito es ganar una ventaja competitiva al
poder predecir compoRtamiento, clasificar ítems, identificar una actividad o
evento, u optimizar el uso de recursos. El conocimiento descubierto puede ser
como reglas de asociación, que tienen medidas de cobertura y precisión. El
conocimiento también puede expresarse como reglas de clasifica- ción, patrones
secuenciales o patrones de series de tiempo. El conjunto de datos que se utiliza
para enseñar al sistema se llama conjunto de formación. Los métodos de minado
de datos incluyen árboles de decisión, regresión, redes neuronales y clustering
(agrupamien- to). Las áreas de aplicación incluyen venta al por menor, banca y
finanzas, fabricación y medicina.
3.1 LOS ELEMENTOS BÁSICOS DE UN DATA WAREHOUSE
Sistema fuente: sistemas operacionales de registros donde sus funciones son

capturar las transacciones del negocio. A los sistemas fuentes también se le
conoce como Legacy System.
Área de trafico de datos: es un área de almacenamiento y grupo de procesos, que

limpian transforman, combinan, remover los duplicados, guardan, archivan y
preparan los datos fuente para ser usados en el Data WareHouse.
Servidor de presentación: la maquina física objetivo en donde los datos del Data
WareHouse son organizados y almacenados para queries directos por los usuarios
finales, reportes y otras aplicaciones.
Modelo dimensional: una disciplina especifica para el modelado de datos que es

una alternativa para los modelos de entidad – relación.
Procesos de negocios: un coherente grupo de actividades de negocio que hacen

sentido a los usuarios del negocio del Data WareHouse.
Data Mart: un subgrupo lógico del Data WareHouse completo.
Data WareHouse: búsquedas fuentes de datos de la empresa. Y es la unión de

todos los data marts que la constituyen.
Almacenamiento operacional de datos: es el punto de integración por los sistemas

operacionales. Es el acceso al soporte de decisiones por los ejecutivos.
OLAP: actividad general de búsquedas para presentación de texto y números del

Data WareHouse, también un estilo dimensional especifico de búsquedas y
presentación de información y que es ejemplificada por vendedores de OLAP.
ROLAP: un grupo de interfases de usuarios y aplicaciones que le dan a la base de

datos relacional un estilo dimensional.
MOLAP: un grupo de interfases de usuarios, aplicaciones y propietarios de

tecnología de bases de datos que tienen un fuerte estilo dimensional.
Aplicaciones para usuarios finales: una colección de herramientas que hacen los
queries, analizan y presentan la información objetivo para el soporte de las
necesidades del negocio.
Herramientas de acceso a datos por usuarios finales: un cliente de Data

WareHouse.
Ad Hoc Query Tool: un tipo especifico de herramientas de acceso a datos por

usuarios finales que invita al usuario a formas sus propios queries manipulando
directamente las tablas relacionales y sus uniones.
Modelado de aplicaciones: un sofisticado tipo de cliente de Data WareHouse con

capacidades analíticas que transforma o digiere las salidas del Data WareHouse.
DATA MINING
Meta Data: toda la información en el ambiente del Data WareHouse que no son así
mismo los datos actuales. Data Mining (DM), la extracción de información oculta y
predecible de grandes bases de datos, es una poderosa tecnología nueva con
gran potencial para ayudar a las compañías a concentrarse en la información más
importante de sus Bases de Información Sin embargo, no existe una única
definición del término Data Mining. Se puede decir que DM se refiere a un
conjunto de métodos estadísticos que proporcionan información (correlaciones o
patrones) cuando se dispone de muchos datos (de aquí viene el nombre Minería
de Datos). Esta idea de DM lleva a la siguiente estructura de conocimiento:
Datos + Estadística = Información El símbolo = tiene el siguiente sentido: los datos

están bien recogidos y la estadística bien aplicada.
Según algunos autores, el Data Mining es aquella parte de la estadística

(principalmente estadística no paramétrica) que se usa para problemas que se
presentan actualmente en Análisis de Datos. Los problemas actuales se
diferencian de los clásicos en que el número de datos a analizar es mucho mayor
y, como consecuencia, las técnicas estadísticas clásicas no pueden ser aplicadas.
Generalmente, el Data Mining es el proceso de analizar datos desde diferentes

perspectivas con el objetivo de resumir los datos en segmentos de información
útiles. Esta información que puede ser usada para incrementar réditos o
beneficios, reducir costos, etc. El DM permite a los usuarios analizar datos desde
diferentes dimensiones o ángulos, categorizándolos y resumiendo las relaciones
identificadas.
4. DESARROLLO DEL PROYECTO
5. CONCLUSIONES
Los negocios están cambiando constantemente debido a cambios económicos,

evoluciones tecnológicas, alteraciones en el mercado, impactados por diversos
cambios culturales y sociales e incluso por fenómenos meteorológicos.
Todo ello obliga a replantearse las estrategias actuales y debería provocar una
transformación en nuestro propio negocio. Así, un factor clave de éxito, e incluso
de supervivencia, viene derivado de la capacidad de las organizaciones de
gestionar de forma eficiente sus datos, y transformarlos en información útil y
disponible para acertar en las decisiones. Esto y solo esto, es Business
Intelligence.
Business Intelligence no es tecnología, es negocio y es estrategia. BI implica

muchas cosas, pasando por la vocación de medir para actuar en consecuencia,
gran problema pendiente en las organizaciones.
Actuar no es hacer un informe. Es la capacidad de controlar y gestionar las

organizaciones, basada en datos e informaciones veraces y no en hipótesis. Es la
capacidad de alinear la estrategia con las operaciones, es la capacidad de
orientarse realmente hacia el cliente, es la capacidad de entender, es comprender
y transmitir los objetivos empresariales y su desempeño, es la capacidad de crear
consenso en la organización, derivando todo ello en un cambio cultural.
Un Sistema Data Mining nos permite analizar factores de influencia en

determinados procesos, predecir o estimar variables o comportamientos futuros,
segmentar o agrupar ítems similares, además de obtener secuencias de eventos
que provocan comportamientos específicos.
La llegada del Data Mining se considera como la última etapa de la introducción de

métodos cuantitativos, científicos en el mundo del comercio, industria y negocios.
Desde ahora, todos los no-estadísticos -es decir el 99,5% de nosotros pueden
construir modelos exactos de algunas de sus actividades, para estudiarlas mejor,
comprenderlas y mejorarlas.
6. BIBLIOGRAFIA
United States Patent and Trademark Office. General Information Concerning

Patents. 2003. Valduriez, P. “Join Indices”, ACM Transactions on Database
Systems 12(2): 218-246 (1987). Warren S. y L. Brandeis. “The right to privacy”,
Harvard Law Review 4:193-220 (1890).
Westin, A. Privacy and Freedom. Atheneum, 1967. Wiederhold, G. Database

Design (2a. ed.). McGraw Hill, 1983.
Wong, E. y K. Youssefi. “Decomposition—A Strategy for Query Processing”, ACM

Transac- tions on Database Systems 1(3): 223-241 (1976).
World Intellectual Property Organization. WIPO Intellectual Property Handbook:

Policy, Law and Use. WIPO, 2001.
World Trade Organization. A Summary of the Final Act of the Uruguay Round.
1994.
World Trade Organization, Uruguay Round Agreement: TRIPS Part II—Standards

concerning the availability, scope and use of Intellectual Property Rights. 1994
Zaniolo, C. S. Ceri, C. Faloutsos, R. Snodgrass, V. Subrahmanian y R. Zicari.

Advanced Database Systems. Morgan Kaufmann, 1997.
7. ANEXOS

INFORMATICA

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

INFORMATICA

Transféré par

Droits d'auteur :

Formats disponibles

INDICE

Muchas organizaciones que usan tecnología de base de datos estándar para

Las bases de datos operativas tradicionales soportan procesamiento de

LOS OBJETIVOS FUNDAMENTALES DE UN DATA WAREHOUSE SON:

Hacer que la información de la organización sea consistente: la información de

Es un seguro baluarte que protege los valores de la información: el Data

Es la fundación de la toma de decisiones: el Data WareHouse tiene los datos

 Analizar cómo difiere OLAP de OLTP

Descripción de clases: provee una clasificación concisa y resumida de un

Asociación: es el descubrimiento de relaciones de asociación o correlación en

Clasificación: analiza un conjunto de datos de entrenamiento cuya clasificación

Predicción: esta función de la minería predice los valores posibles de datos

agrupación: identifica clusters o grupos en el conjunto de datos, donde un

Un Data Warehouse es nuestro seguro para proteger toda la información de la

Creamos modelos centralizados de información para la toma de decisiones,

Los almacenes de datos guardan grandes cantidades de datos tomados de las

La proyección dimensional (slicing) de un cubo de datos es equivalente a realizar

Es posible usar técnicas de indexado especiales en un entorno de almacén de

Por cuestiones de eficiencia, con frecuencia se crean vistas mediante

Minado de datos significa descubrimiento de nueva información a partir de

3.1 LOS ELEMENTOS BÁSICOS DE UN DATA WAREHOUSE

Sistema fuente: sistemas operacionales de registros donde sus funciones son

Área de trafico de datos: es un área de almacenamiento y grupo de procesos, que

Modelo dimensional: una disciplina especifica para el modelado de datos que es

Procesos de negocios: un coherente grupo de actividades de negocio que hacen

Data Mart: un subgrupo lógico del Data WareHouse completo.

Data WareHouse: búsquedas fuentes de datos de la empresa. Y es la unión de

Almacenamiento operacional de datos: es el punto de integración por los sistemas

OLAP: actividad general de búsquedas para presentación de texto y números del

ROLAP: un grupo de interfases de usuarios y aplicaciones que le dan a la base de

MOLAP: un grupo de interfases de usuarios, aplicaciones y propietarios de

Herramientas de acceso a datos por usuarios finales: un cliente de Data

Ad Hoc Query Tool: un tipo especifico de herramientas de acceso a datos por

Modelado de aplicaciones: un sofisticado tipo de cliente de Data WareHouse con

Datos + Estadística = Información El símbolo = tiene el siguiente sentido: los datos

Según algunos autores, el Data Mining es aquella parte de la estadística

Generalmente, el Data Mining es el proceso de analizar datos desde diferentes

Los negocios están cambiando constantemente debido a cambios económicos,

Business Intelligence no es tecnología, es negocio y es estrategia. BI implica

Actuar no es hacer un informe. Es la capacidad de controlar y gestionar las

Un Sistema Data Mining nos permite analizar factores de influencia en

La llegada del Data Mining se considera como la última etapa de la introducción de

United States Patent and Trademark Office. General Information Concerning

Westin, A. Privacy and Freedom. Atheneum, 1967. Wiederhold, G. Database

Wong, E. y K. Youssefi. “Decomposition—A Strategy for Query Processing”, ACM

World Intellectual Property Organization. WIPO Intellectual Property Handbook:

World Trade Organization, Uruguay Round Agreement: TRIPS Part II—Standards

Zaniolo, C. S. Ceri, C. Faloutsos, R. Snodgrass, V. Subrahmanian y R. Zicari.

Vous aimerez peut-être aussi