Académique Documents
Professionnel Documents
Culture Documents
DATABASE?
La idoneidad de la tecnologa de Algebraix
datos de Cloud Computing
Robin Bloor, Ph D
LIBRO BLANCO
WHITE PAPER
Resumen Ejecutivo
Este documento tcnico fue encargado por Algebraix Datos. El objetivo del documento es
proporcionar una definicin de lo que es una base de datos de la nube es, ya la luz de esa
definicin, examinar la idoneidad de la tecnologa de Algebraix datos para cumplir la funcin
de una base de datos de la nube.
Aqu es un breve resumen de los contenidos de este documento:
Nosotros definir una nube dbms (CDBMS) para ser una base de datos distribuida que
puede ofrecer un servicio de consulta a travs de mltiples nodos de bases de datos
distribuidas ubicados en mltiples centros de datos, incluidos los centros de datos
cloud. Consulta de fuentes de datos distribuidas es precisamente el problema que las
empresas se encontrarn como la computacin en nube crece en popularidad. Dicha
base de datos tambin tiene que ofrecer alta disponibilidad y atender a la recuperacin
de desastres.
En nuestra opinin, una CDBMS slo tiene que proporcionar un servicio de consulta.
SOA ya ofrece conectividad e integracin de sistemas transaccionales, por lo que no
vemos ninguna necesidad de un CDBMS para atender el trfico transaccional - slo
consultar el trfico. Un CDBMS necesita escalar a travs de grandes redes informticas,
sino que tambin tiene que ser capaz de abarcar mltiples centros de datos y, en la
medida de lo posible, atender a las conexiones de red lentas.
Las mismas caractersticas de rendimiento pueden ser empleados para acelerar las
consultas que se unen informacin entre un nodo local y los nodos remotos, ya sea
en el mismo centro de datos o en un centro de datos remoto.
1
Adems la tecnologa puede ofrecer alta disponibilidad / operacin con tolerancia a fallos.
construido la mayora de los dominios de BI, alrededor de un almacn de datos grande con
subconjuntos de datos extrados a servir aplicaciones de BI individuales. Pero en ltima
instancia, que el enfoque no pasa la prueba de la escalabilidad. Una arquitectura centralizada
escalas mal sobre un gran nmero de nodos. Los cuellos de botella eventualmente surjan.
Usuario
CDBMS
Datos
Pregunta
Datos
Datos
Datos
Datos
CDBMS
Nodo - 7
CDBMS
Nodo - 1
Datos
Internet
CDBMS
Nodo - 2
Datos
CDBMS
Nodo - 3
CDBMS
Nodo - 4
Datos
Datos
CDBMS
Nodo - 5
DataData
Data Center 1
CDBMS
Nodo - 6
Datos
Datos
Data Center 2
Figura 1. Un CDBMS
alojado aplicaciones transaccionales web en algn centro de datos remoto ms aplicaciones
locales, incluyendo las aplicaciones de BI dividen entre dos centros de datos. Esta situacin se
ilustra en la Figura 1. Es la situacin tpica que las empresas tendrn que hacer frente a
medida que avanzamos.
En la prctica, una consulta puede originarse en cualquier parte; desde un PC dentro de la
corporacin, que est conectado por una lnea de rpido acceso al centro de datos local, desde
un PC en el hogar a travs de una lnea de VPN, desde un ordenador porttil a travs de una
conexin Wi-Fi, o desde un telfono inteligente a travs de una conexin 3G o 4G . Por eso
representamos una consulta aqu como viniendo "a travs de Internet" lo que implica que la
respuesta ser, posiblemente, viajar a travs de la red de Internet.
El CDBMS no se concentrar todo el trfico de bsqueda a travs de un solo nodo. Una
arquitectura peer-to-peer ser mucho ms escalable - con cualquier nodo nico capaz de
recibir cualquier consulta. En tales
una disposicin, cada nodo tiene que tener un mapa de los datos almacenados en cada nodo y
conocer las caractersticas de rendimiento de cada nodo. Cuando un nodo recibe una consulta
su primera tarea es determinar qu nodo es ms capaz de responder a la consulta. A
continuacin, pasa la responsabilidad para la consulta a ese nodo. Ese nodo ejecuta la
consulta y devuelve el resultado directamente al usuario.
Figura 1muestra ms de un nodo CDBMS en algunos de los centros de datos. En la prctica,
probablemente ser necesario configurar ms de un nodo por cada centro de datos para
distribuir la carga de trabajo dentro de la base de datos del centro de datos, as como entre los
centros de datos.
Considere la figura 2. Se ilustra
la estrategia probable que sera
utilizado por un nodo CDBMS
en el acceso a los datos
almacenados en bases de datos
o
archivos
transaccionales
locales. Si los datos se llev a
cabo en una base de datos, la
CDBMS puede obtener ya sea
en los datos directamente (a
travs de ODBC, por ejemplo) o
acceder a un almacn de datos
duplicado. Slo ser necesaria
la replicacin si el acceso de
lectura a los datos impone
demasiado grande un impacto
en el rendimiento. Los sistemas
crticos a menudo tienen un
stand- caliente por en su lugar
listo para ir si el
sistema principal falla, en el que
casethestand-bysystems
CDBMS
Nodo x
App
1
App
2
DBMS
Nodo
Dato
s
DBMS
Dato
s
Repl.
Dato
s
Exp
Exedie
ped
nte
base de datos podra ser utilizado como una fuente de datos. Los datos tambin podra ser
tomada de funcionamiento almacenes de datos o almacenes de datos, con el mismo tipo de
estrategia de replicacin que se emplea.
Donde los datos de aplicacin se mantiene en un archivo, el CDBMS probablemente ser
capaz de acceder directamente a los datos. Para los datos no de base de datos, la CDBMS
mantendra un mapa metadatos del archivo para que pudiera identificar a los elementos de
datos en los registros ledos en el archivo.
Por ltimo, el CDBMS mantendr su propia tienda de los datos que constan de datos que se
utilizan con frecuencia extrados de las fuentes de datos a los que accede. sta sera
probablemente la mayor parte de los datos del nodo CDBMS era responsable, con acceso
directo a los almacenes de datos que se utiliza principalmente para la actualizacin de datos.
Ex
pe
die
DBMS
A2
DBMS
A3
Dato
s
Dato
s
A2
A3
CDBMS
Nodo
La
CDBMS
Nodo A
'
Nodo
La
Dato
s
Nodo
A'
Dato
s
DBMS
A4
Dato
s
A4
Ex
pe
die
Consultas distribuidas
Considere las principales entidades que una empresa posee como datos: cliente, producto,
transaccin de venta, miembro del personal, proveedores, transaccin de compra y as
sucesivamente. Ellos surgen en muchas aplicaciones. En consecuencia, muchas consultas que
buscan informacin sobre estas importantes entidades inevitablemente abarcar varios nodos
de una CDBMS. Incluso si pudiramos encontrar una manera conveniente de distribuir y
agrupar las aplicaciones en torno a estas entidades, no habra muchas consultas que se
extendi por varios nodos.
La mayora de las bases de datos de consulta orientada, almacenar bases de columna o bases
de datos relacionales tradicionales, puede ser configurado para atender las consultas de nodo
nico. Tcnicamente, el reto fundamental para la CDBMS es manejar consultas distribuidas de
manera efectiva.
Una consulta distribuida que tiene acceso a mltiples nodos de la CDBMS puede ser pensado
como una fusin (unin) de varias consultas que acceden a diferentes estaciones de una
CDBMS. Esto se ilustra en la figura 4. Obsrvese que la resolucin de una consulta de esta
manera podra dar lugar a ms de un conjunto de resultados de cada nodo como se ilustra.
Una vez calculadas las respuestas, la CDBMS tiene que determinar qu nodo se unirn a ellos
juntos.
5
Pregunta
Unirse
Sub
Consult
a1
Sub
Consult
a2
CDBMS
Nodo - 2
Sub
Consult
a3
Sub
Consult
a4
CDBMS
Nodo - 5
CDBMS
Nodo - 8
Datos
Datos
Data Center 1
Data Center 2
Datos
Nube
Data Center 1
Respu
esta
SQ-1
Respu
esta
SQ-2
Respu
esta
SQ-3
Respue
sta
SQ-4
El costo de nodo ms
eficaz realiza la
combinacin.
Hay otras cuestiones que un CDBMS debe abordar. Una primaria es alta disponibilidad. Esta
es una necesidad ms que un agradable-a-tener. El CDBMS tiene que ser capaz de recuperarse
de la falla de cualquier nodo y, en el extremo, la falta de un centro de datos entero. Sin
embargo, es alcanzable por cualquier base de datos distribuida que es capaz de replicarse sus
nodos.
Hay Tambin los temas tradicionales de seguridad de base de datos y los temas ms amplios
de calidad de los datos y la gestin de datos. Sin embargo, estos no se muestran tapones. El
CDBMS tiene que ser capaz de ensamblar un mapa de metadatos completa de todos los
nodos. Por esa razn, los problemas de seguridad de datos, calidad de datos y de control de
datos pueden ser manejados como si los CDBMS eran una sola base de datos.
Ya Est es tambin la necesidad de proporcionar apoyo para una variedad de interfaces de
acceso de datos. En ltima instancia, estos incluirn las interfaces habituales de SQL (ODBC,
JDBC, ADO.NET), interfaces web de servicios (HTTP, REST, SOAP, XQuery, etc.) y cualquier
otra interfaz especializadas como MDX (para cubos de datos.)
Todas estas caractersticas son a la vez necesaria e importante, pero catering para ellos no es
ah donde radica el principal reto CDBMS. El mayor reto de ingeniera es en la optimizacin
Bases de datos surgieron hace ms de 40 aos a causa de las limitaciones de los sistemas de
archivos. Eran un mecanismo ms eficaz para el almacenamiento de datos, por muchas
razones. El principal fue que hicieron los metadatos (datos de definicin de datos) disponible,
por lo que muchos programas diferentes pueden utilizar el mismo almacn de datos. La
situacin mejor an ms con la aparicin de un lenguaje de acceso de datos estndar; SQL.
Esto significaba que, en su mayor parte, el programador ya no es necesario pensar en cmo se
almacenan los datos.
Naturalmente, cuando aparecieron por primera vez las bases de datos, una esperanza surgi
que con el tiempo ser posible almacenar todos los datos de una empresa en una sola base de
datos. Era una esperanza vana.
A pesar de que RDBMS se basaron en el uso de una estructura de dos dimensiones (la
mesa) nunca se ocuparon de estructuras de una dimensin superior. Esto significaba
que no atienden a los cubos de datos en 3D o cubos de datos de dimensiones
superiores. En consecuencia bases de datos especficas surgieron para hacer frente a
este tipo de estructuras (bases de datos OLAP.) Lo ms importante, RDBMS no
atienden directamente a la dimensin del tiempo y de datos de series de tiempo.
Mientras RDBMS podra servir tanto a las cargas de trabajo OLTP y de consulta, que
nunca tuvo la capacidad de rendimiento para atender a ambos tipos de carga de
trabajo al mismo tiempo. Desde una perspectiva de la ingeniera que hizo mucho ms
sentido tener dos instancias de base de datos, uno que fue configurado para OLTP y
otro, alimentado desde la primera, que fue configurado y ajustado para el trfico de
consultas.
significaba que no haba alternativa para ISVs pero inventar constantemente nuevos tipos de
archivos, e incluso nuevos tipos de datos, por los datos que almacenan.
Esto nos ha llevado a la situacin en la que la industria comenz a aceptar una realidad de facto:
Ya Est fueron los datos estructurados; los datos almacenados en bases de datos con sus metadatos
disponibles.
Ya Est Fue datos no estructurados; los datos contenidos en los archivos de varios
tipos donde estaba disponible o incompletos los metadatos.
Escala y Escalabilidad
A la luz de estas limitaciones, las bases de datos han evolucionado en dos direcciones. Por un
lado, las bases de datos alojados algunos datos no estructurados - por extensiones al modelo
relacional, la implementacin de alguna versin de un modelo objeto-relacional. Por otro lado,
el sueo de una nica base de datos de las empresas continu - pero slo para el trfico de
consultas - dando lugar a la idea del almacn de datos.
En la prctica, los almacenes de datos fueron un intento de ampliar mediante el
almacenamiento de todos los datos en una sola instancia de una base de datos. Pero en la
prctica nunca lo hicieron escalar. De los usuarios primer momento se vieron obligados a
subconjuntos de datos de tiendas en mercados de datos. Centrndose todas las cargas de
trabajo de consulta en el almacn de datos habra paralizado. Debido a las limitaciones del
modelo relacional, algunos de los mercados de datos eran las bases de datos OLAP que
sostienen los cubos de datos multidimensionales.
La impresionante marcha de la Ley de Moore, que vaporiza problemas de rendimiento en
muchas reas de TI, nunca estuvo cerca de solucionar este problema de escalabilidad - y
todava no lo ha hecho. Datos flua de los sistemas operativos, a travs de programas de ETL y
de calidad de datos en un almacn de datos para posterior extraccin en un mercado de datos
para su uso eventual. Este fue un proceso lento. En consecuencia, el software diseado para
atajo esa ruta peatonal surgi, llamada Enterprise Information Integration software (EII).
Herramientas EII crearon "Tiendas datos operativos", que no eran ms que "data marts
acelerados".
RDBMS no escalar y poco esfuerzo se puso en eso. As que cuando la talla de Yahoo y Google
se reunieron grandes centros de datos con miles de servidores, no haba la tecnologa de base
de datos en todo lo que poda escalar a travs de estas grandes redes informticas. Esto dio
lugar a un enfoque completamente diferente a la ampliacin hacia fuera para grandes
volmenes de datos, que fue por el nombre de MapReduce y que dio lugar a Hadoop, un
marco de programacin para la implementacin de MapReduce a travs de grandes redes de
servidores.
creciente rpidamente durante los aos, la velocidad del movimiento de la cabeza de lectura /
escritura a travs del disco no haba aumentado mucho. En consecuencia, a travs de ndices
de acceso a los datos en el disco se haba convertido en un pasivo. Caus movimiento de la
cabeza del disco y fren todo. Se haba convertido en mucho ms rpido para leer los datos en
serie desde el disco.
Pregunta
La consulta se
descompone en una
sub-query
para cada nodo
Base de
datos
Mesa
Sub
Consult
a1
Sub
Consult
a2
Server 1
Server 2
La base de datos
columnar escalas
arriba y hacia fuera
mediante la adicin de
ms servidores
Server 3
UPC
UPC
UPC
UPC
UPC
Como
Mucho
Como
Mucho
Memoria
posible
Memoria
posible
Data
D
Data
D ata
D
ata
Datos
ata
Data
D
DDD
ataata
Datos
ata
ata
UPC
Como
toda la
memoria
posible
Data
D ata
DDD
Datos
ataata
ata
entre los discos para "equilibrar la carga de trabajo promedio." Adems de esto, varios
procesos se ejecutan y que sern distribuidos entre mltiples ncleos en la CPU en cada
servidor.
Por desgracia, llegar a un lmite en algn momento. Es evidente que ese lmite depender de
la estructura de los datos y la variedad de consultas que se est procesando. A pesar de que se
escala a cabo de manera ms eficaz, todava es una arquitectura centralizada. A medida que la
carga de trabajo aumenta un cuello de botella de mensajera desarrollar de forma natural en
el nodo principal de la base de datos de almacn de la columna y en ltima instancia, lo que
limita el nmero de servidores que puede ampliar en.
datos
, por
lo
que
si un
nodo
falla,
los
mis
mos
datos
estar
disp
onibl
e a
Procesotravs
de
Asignacde otro
HDFS
BackUp
/ Recov
Nodo yo
Proceso
de
Asignaci
HDFS
Proceso
de
Reducci
Nodo j
Nodo k
BackUp
/ Recov
nodo. Cada servidor registra lo que est haciendo y se puede recuperar utilizando su archivo
de respaldo / recuperacin, si falla. Debido a eso, Hadoop / MapReduce es bastante lento en
cada nodo, pero compensa esta escalando a lo largo de miles de nodos. Se ha utilizado de
manera productiva en las redes de ms de 5.000 servidores. Fallo de nodo es un hecho
cotidiano cuando se tiene que muchos servidores bsicos trabajando juntos, por lo que a esa
escala, su recuperabilidad es una ventaja.
Con MapReduce, todos los registros de datos consiste en un sencillo par "clave y valor". Un
ejemplo podra ser un archivo de registro, que consiste en cdigos de mensajes (la clave) y los
detalles de la condicin que est siendo informado (el valor). En aras de ilustrar el proceso de
MapReduce, imaginemos que tenemos un archivo de registro de gran tamao de muchos
terabytes contienen mensajes y cdigos de mensaje y simplemente queremos contar cada tipo
de registro de mensaje. Se podra hacer de la siguiente manera:
El archivo de registro se carga en el sistema de archivos HDFS. Cada nodo mapeo leer algunos de los
registros. Los cartgrafos se ver en cada registro que leen y salida de un par de valores clave que
contiene el cdigo del mensaje como la clave y "1" como el valor (el recuento de citas). El reductor (s) se
ordenar por la llave y agregar los conteos. Con repetidas reducciones eventualmente llegar al
resultado; un mapa de teclas distintas con sus recuentos totales de todas las entradas.
Aunque este ejemplo es muy simple, si tuviramos una mesa muy grande hecho del tipo que
podra residir en un almacn de datos, podramos ejecutar consultas SQL de la misma
manera. El proceso de la hoja sera el SELECT de SQL y el proceso de reducir simplemente
podra ser la seleccin y combinacin de resultados. Usted puede agregar cualquier tipo de
lgica que sea el mapa o la de reducir el paso y usted tambin puede tener un mapa mltiple
y reducir los ciclos de una nica tarea.
Tambin, mediante el despliegue de HBase que es posible tener una gran base de datos de la
columna de la tienda masivamente paralelo que preside petabytes de datos y ms de lo que
pueden ser actualizados con regularidad.
La CDBMS
En ltima instancia, ni almacenar bases de datos de columna ni Hadoop (con Hbase)
actualmente tienen las capacidades necesarias para funcionar como un CDBMS.
Columna-tienda DBMS son (en la mayora de los casos) las bases de datos centralizadas que
se encontrar con lmites de escalabilidad como volmenes y cargas de trabajo de datos de
aumento. En ltima instancia, todas las arquitecturas centralizadas sufren ese destino no
importa cun esplndida la ingeniera subyacente. Por eso algunos de los vendedores
columna tiendas estn integrando con Hadoop y la mejora de varias maneras.
Debido Hadoop ofrece un entorno totalmente distribuida es poco proclive a encontrar un
lmite escalabilidad del tipo que hara piso una arquitectura centralizada. Hadoop fue
deliberadamente diseado para presidir mesas masivas y, en ese papel, puede ser til,
especialmente para aquellas organizaciones que se ejecutan en los lmites de escalabilidad con
bases de datos de almacn de columnas. Sin embargo, en su forma actual se procesa una sola
carga de trabajo a la vez - que no tiene capacidad de multiprocesamiento en absoluto.
Adems, no funciona bien con estructuras de datos complejas, incluso cuando slo contienen
datos estructurados. Grandes mesas, "s"; pero un montn de pequeas mesas de gran
cantidad de bases de datos de todos con diferentes estructuras de datos, decididamente "no".
Tampoco est equipado Hadoop para distribuir fcilmente las cargas de trabajo a travs de
redes complejas que funcionan a distintas velocidades. Hadoop espera un ambiente limpio de
servidores de tamao similar todos conectados en red a la misma velocidad de una manera
ordenada. Su ingrediente secreto es la homogeneidad en todo lo que hace.
11
A2DB de Algebraix de datos es, nicamente, una base de datos algebraico. Como tal, es capaz
de representar cualquier tipo de datos en una forma algebraica y gestionar en consecuencia.
Muchas bases de datos (RDBMS y productos derivados) estn limitadas por el modelo
relacional de datos, incapaz de manejar los datos que no encajan en ese entorno limitado.
A2DB no est limitado de ese modo. Su naturaleza algebraica le permite representar
jerarquas, listas ordenadas, estructuras de datos recursivas y objetos de datos compuesto de
ningn tipo. (Para una explicacin matemtica ms detallada de cmo se logra esto, lee el
libro blanco Bloor Grupo: Hacer las matemticas).
tipos de consulta. El
uso
12
Fuentes de
datos
Aplica
Aplica
Aplic
ciones
ciones
acio
nes
Expe
Expe
Expediente
dient
dient
ee
Arc
Arc
Arc
Arc
hivo
hivo
hivo
hivo
de
ssde
de
ssregi
de
regi
regi
regi
stro
Carg
Carg
Carg
Carg
ar
ar
ar
ar
archi
archi
archi
archi
vos
vos
vos
Universo
Gerente
XSN
Traductor
(Modelo
algebraic
o)
Administra
dor de
recursos
Optimizer
(CPU /
ncleos,
memoria,
disco)
LGICO
Acceso
Local
Conjunto
Procesad
or
Storage
Manager
Conjuntos de
FSICA
Respuest
as
Respue
stas
De
acceso
remoto
Mgt
datos
CDBMS
Nodo
yo
CDBMS
Nodo k
CDBMS
Nodo j
CDBMS
Nodo l
Aplica
Aplica
Aplica
Aplicaciones
ciones
ciones
ciones
DDBBM
MSS
DDBBM
MSS
DBMS
DBMS
DBMS
DBMS
Dato
Datos
Dato
Dato
s
ss
Local
Data Center
A
distancia
del Centro
de Datos
El XSN traductor traduce una consulta en una representacin algebraica que se corresponde
con los conjuntos algebraicos definidos a nivel lgico en el Administrador Universo. (XSN
significa Extended notacin Set.) El Gerente Universo tiene un modelo lgico de todos los
conjuntos de la base de datos y sus relaciones.
El Optimizador trabaja primero qu conjuntos almacenados podran participar en una
solucin. Se puede deducir que tiene que ir a la fuente de datos (archivos de carga) para la
totalidad o parte de los datos solicitados por la consulta.
13
La consulta distribuida
Ahora considere lo que ocurre si la consulta pide algunos datos que no est en este nodo de
base de datos. Cmo sabe qu hacer? Por su diseo, el Administrador Universo no slo
contiene un mapa de datos locales, sino que tambin tiene un mapa mundial que identifica a
todos los dems nodos de bases de datos y los datos que son responsables.
Cuando describimos cmo la base de datos maneja una consulta, omitimos para discutir la
forma en que maneja una consulta que se extiende por ms de un nodo. Dicha consulta ser
naturalmente implicar una combinacin de algn tipo con una o ms partes de la operacin
de unin referencia a datos remotos.
El modo de funcionamiento de la tecnologa de Algebraix de datos es esencialmente el
mismo, pero ligeramente ms complejo. El Optimizador siempre comprueba para ver si
alguno de los datos solicitados es parte del "universo remoto" en lugar de "universo local." Si
se descubre que algn elemento en los datos remotos referencias de consulta, que deconstruye
la consulta en varias partes, como de la siguiente manera:
Una consulta principal que une todos los resultados de todas las subconsultas
Se calcula qu nodo es el mejor nodo para ejecutar la consulta maestra mediante la estimacin
del costo de los recursos de transporte de datos de resultados desde un lugar a otro. Si decide
pasar esa responsabilidad a otro nodo entonces se comporta de la siguiente manera:
Cuando se recibe todos los conjuntos de resultados remotos, ejecuta la consulta maestra.
Tenga en cuenta que en la realizacin de una consulta como la base de datos distribuida rene
algunos conjuntos de resultados remotos en el nodo que domina la consulta distribuida. Se
ahorrar estos resultados como "nmero remoto
14
conjuntos "de la misma manera que se ahorra conjuntos de resultados locales, de modo que
cuando ms bsquedas de ese tipo venir en ella pueden ser capaces de resolver esas consultas
localmente en lugar de en una manera distribuida.
La divisin de nodos
La divisin de nodos resulta necesario cuando la carga de la consulta para un nodo se vuelve
demasiado grande. La necesidad se hace evidente cuando el rendimiento del nodo comienza
a declinar. Sin embargo, la divisin de nodos es fcil de lograr:
Un nodo de rplica se crea del nodo y las fuentes de datos que el nuevo nodo ser responsable
de se definen - eliminando aquellos que no ser responsable de desde el Administrador
Universo. La tecnologa puede estimar lo que es probable que sea de un anlisis de las cargas
de trabajo de consulta ltimos la mejor divisin. Tambin puede reconocer que los resultados
intermedios se derivan de que los archivos de origen o bases de datos. As que reclasifique
esos resultados intermedios como a distancia en lugar de local. La configuracin del nodo
original est configurado de la misma manera, la eliminacin de las fuentes de datos que ya
no es responsable. La naturaleza de los cambios estn a continuacin, transmite a todos los
nodos de la CDBMS.
Crecimiento de Datos
La mayora de los datos de origen consistirn en bases de datos que son a su vez que se aade
a sobre una base regular. Ese crecimiento de los datos es mejor tratado por la alimentacin de
las imgenes de archivo de registro de base de datos a la base de datos. Para otras aplicaciones
que simplemente utilizan sistemas de archivos, es mejor para alimentar el equivalente de una
pista de auditora para la actualizacin de la base de datos. Hay una razn especfica para ello.
La tecnologa de Algebraix datos no est pensado para los datos actualizados de la manera
ms bases de datos hacen.
Typically, actualizaciones de la base de destruir datos sobre-escritura de un valor a otro. Esta
tecnologa de base de datos es diferente. Se trata actualizaciones como (es decir nuevo) datos
adicionales. En efecto, se convierten en cambios no destructivos, con un registro de los valores
previos restantes. Para borrado, simplemente marca el conjunto de datos o un elemento de
datos como "ya no es actual." Para lograr esto, la base de datos aade una marca de tiempo a
todos los datos, ya que llega y se utiliza (si un sello tal vez no existe en los datos de origen.)
Todas las consultas a la base de datos especificar el momento en que se aplica, por lo que el
resultado tiene una "correspondiente a la fecha / hora" u omitir el tiempo, en cuyo caso la
corriente
15
se aplica fecha y hora. As que todos los cambios se tienen en cuenta cuando los datos
asociados se procesa de acuerdo con sello de tiempo. Debido a esto, todas las tablas de
resultados intermedios tambin tienen un "correspondiente a la fecha / hora" asociados con
ellos.
La base de datos est configurado en cada nodo para aceptar los nuevos datos sobre la base de
un interruptor temporizado. No es aconsejable colocar el interruptor de tiempo para un
perodo demasiado corto ya que esto aumenta rpidamente el nmero de juegos en poder del
Administrador Universo - y esta actuacin, a su vez, podra afectar.
La Economa de A2DB
En cualquier base de datos y, sobre todo, en cualquier base de datos distribuida, siempre es
posible plantear preguntas que tendrn mucho tiempo para responder. Esta tecnologa no
tiene ese problema de repente desaparece. Por ejemplo si se inscribe en dos mesas con
terabytes juntos que estn en diferentes nodos, un terabyte de datos debe pasar a travs de la
red. Si se trata de una lnea de red lenta, la consulta podra tomar un tiempo muy largo. Si
una consulta de este tipo se pasan con frecuencia, la base de datos va a resolver este problema
de rendimiento determinado de forma natural por la celebracin de una de las mesas terabyte
como un resultado intermedio.
Si usted tiene un petabyte o incluso varios petabytes de datos que desea consultar
regularmente, entonces la base de datos podra ser utilizado para la tarea por su despliegue
de un nmero suficiente de nodos. En tales circunstancias, podra parecer muy similar a
Hadoop (con HBase). Sin embargo ese no es el requisito primordial de un CDBMS. Un
CDBMS tiene que ser capaz de manejar cargas de trabajo heterogneas algunos de los cuales
tienen acceso a las estructuras de datos complejas, y hay que hacerlo con la economa y con la
velocidad. Eso es lo que hace la tecnologa de Algebraix Datos.
En el entorno distribuido es ayudado por el hecho de que los usuarios y los programas que
solicitan datos normalmente no plantean preguntas que tienen respuestas terabytes de largo.
Plantean preguntas que tienen respuestas muy cortas - unos pocos megabytes o menos. Una
excepcin es cuando los usuarios estn descargando un extracto de datos de gran tamao
para un anlisis ms detallado, pero este tipo de descargas son relativamente raros.
Este enfoque distribuido tiene la virtud de que se localiza de forma natural datos para
adaptarse al trfico de consultas. En cada nodo se localiza los datos que se consulta con
frecuencia en la memoria. En un entorno distribuido con mltiples nodos que ser, a travs de
sus mecanismos de funcionamiento natural, localizar gradualmente los datos para adaptarse
al trfico de consultas locales y globales. Si los volmenes de consulta se elevan demasiado a
un determinado nodo, el nodo puede dividir como una ameba para atender la carga de
trabajo en aumento.
Si el trfico de consultas cambia con, por ejemplo, un tipo de consulta no se plantea con tanta
frecuencia y un nuevo conjunto de consultas previamente desconocidos cada vez ms comn
la base de datos slo tiene que ajustar, mediante el ajuste de los resultados intermedios que
contiene. Despus de tres o cuatro preguntas de cada nuevo tipo de consulta ser restablecido
su funcionamiento natural.
La naturaleza de esta tecnologa, junto con el hecho de que puede ser configurado para alta
disponibilidad, lo califica como adecuado para el despliegue como un CDBMS.
16
w w w. L a V i r t u a l C i r c l e. c o m w
w w. B l o o r G r o u p. c o m
17