Vous êtes sur la page 1sur 3

Analtica de inteligencia de negocios de BIG DATA

El mundo de los clientes y de las empresas est cambiando. Ya no se trata slo de datos de ventas del cliente. La meta de
una plataforma integrada de inteligencia de negocios y analtica de BIG DATA es profundizar en el por qu, el dnde, el
qu y el cmo de un cliente, un producto y una compaa. Este artculo aborda la integracin de la inteligencia de negocios
y la analtica de BIG DATA.
El mundo empresarial est cambiando. La dinmica del cliente est cambiando. Los clientes estn cambiando. Y todos se
encuentran en una carrera para descubrir el por qu en lugar de slo el quin o el cmo. Ya no est bien simplemente
entender cmo una compaa lleg del punto A al punto B. Las empresas estn en una lucha competitiva en tiempo real
por saber cundo compran algo los clientes, dnde lo compran y qu estn pensando antes de siquiera entrar a la tienda o
visitar un sitio web. El poder de los BIG DATA, la analtica de BIG DATA y una plataforma integrada de inteligencia de
negocios (BI) y analtica de BIG DATA puede ayudar.
La analtica de BIG DATA es joven, y una BI gil es un concepto nuevo. Cmo integra estos conceptos similares pero
distintos? No se trata solo de datos o tecnologa, sino de todoredes sociales, comportamientos del cliente y
segmentacin de clientes, por nombrar algunos. No es posible conectar una aplicacin de BIG DATA y esperar ver el
futuro. La BI, la gestin de datos maestros (MDM), BIG DATA y la analtica debe integrarse en una plataforma y agruparse
en una solucin visualmente innovadora.
Similitudes y diferencias de la BI y la analtica de BIG DATA
La BI no es un concepto nuevo. Los depsitos de datos, la minera de datos y las tecnologas de base de datos han existido
en diversas formas durante aos. "BIG DATA" como trmino puede ser algo nuevo, pero muchos profesionales de TI han
trabajado con grandes cantidades de datos en diversas industrias durante aos.
Sin embargo, ahora BIG DATA no se tratan solo de grandes cantidades de datos. La exploracin y el anlisis de datos
semiestructurados y sin estructura es algo nuevo. Hace quince aos, no analizbamos los mensajes de email, los archivos
PDF o los videos. Internet era solo una moda; la informtica distribuida no se cre ayer, pero la posibilidad de distribuir y
escalar un sistema en solo un momentoy con presupuestos ms pequeoses nuevo. En forma similar, querer predecir
el futuro no es un concepto nuevo, pero poder acceder a todos los datos creados y almacenarlos s es algo nuevo.
Diversas fuentes aseguran que el 90 por ciento de los datos que existen hoy tienen solo dos aos de antigedad. Y esos
datos estn creciendo rpidamente. Si el 90 por ciento de todos los datos en el mundo fueron creados en los ltimos dos
aos, qu dice eso sobre los datos?
Muchas empresas tienen mltiples bases de datos y mltiples proveedores de bases de datos, con terabytes o incluso
petabytes de datos. Algunos de estos sistemas acumularon datos durante 30 o 40 aos. Muchas empresas desarrollaron
plataformas enteras de depsitos de datos y analtica a partir de estos datos antiguos. Grandes corporaciones de comercio
minorista, como Wal-Mart, se convirtieron en compaas de billones de dlares mucho antes de que existiera BIG DATA.
Por lo tanto, no fueron los datos los que impulsaron su empresa.
Sin embargo, los datos como un servicio pueden impulsar a una empresa. Piense en Amazon. Era una compaa de
productos de e-commerce online. Ahora, las personas ven a Amazon como una plataforma de servicios, como software de
servicios, como BIG DATA de servicios y como una compaa de centro de datos de la nube. Amazon desarroll un motor
de recomendacin increble con el paso de los aos a partir de diversas tecnologas de cdigo abierto. Zynga, la compaa
de videojuegos de Facebook, conocida por xitos comoFarmville, utiliz los servicios de nube de Amazon para escalar sus
propias bases de datos y su analtica.
Para que los datos sean tiles para los usuarios, deben integrar a clientes con datos financieros y de ventas, con datos de
productos, con datos de marketing, con redes sociales, con datos demogrficos, con datos de la competencia, y ms.
Desafos en el desarrollo de un sistema de BI y de analtica de BIG DATA
Disear una plataforma integrada nunca es fcil. La extraccin, la transferencia y la carga (ETL) siempre son la fase ms
larga en proyectos de depsito de datos. Existen diversas buenas prcticas de ETL, que algunas veces funcionan y otras no.
Si la ETL no se realiza correctamente, de repente recibir datos incorrectos y poco confiables. Los datos poco confiables se
convierten en un sistema poco confiable y no utilizado. Nadie quiere eso.
Usted podra pensar que algo como una base de datos de productos es algo sencillo. Pero se convierte en un juego de
versiones, errores, actualizaciones, distintos releases, distintos ciclos de release, distintas licencias y distintas licencias
basadas en la ubicacin. Y eso es en una compaa con solo algunos productos. Se vuelve ms complicado para las
compaas de comercio minorista que tienen miles de productos distintos.
Las plataformas integradas de BI y BIG DATA pueden tener datos no estructurados de mensajes de email. Pueden incluir
datos semi-estructurados de registros. Los sistemas de email pueden estar distribuidos entre diversas bases de datos en
mltiples datacenters en todo el mundo. Aada algunos firewalls, y de repente el traslado de datos de un lugar a otro se
convierte en una pesadilla de logstica, un proyecto en s mismo. Los registros de sistema pueden carecer de formato,
tener semi-formato o ser un desastreotro proyecto en s mismo.
Existe una razn por la que las tecnologas de BIG DATA como Apache Hadoop fomentan el traslado del sistema hacia
donde estn los datos en lugar de llevar los datos hacia el sistema. Se requiere tiempo para mover los datos a travs de
lneas de red, entre firewalls. Se pierden datos, paquetes, archivos. La confianza se convierte en un gran problema.
Un concepto central de noSQL y Hadoop es el traslado de la aplicacin hacia los datos, pero esto no es tan sencillo. Si tiene
100 sistemas distintos, aade 100 instancias de la misma aplicacin a cada sistema? Aunque muchas personas pueden
asumir que han dominado la MDM, ninguna lo ha hecho realmente. Cuando cuenta con una MDM de productos, una
MDM de ventas y una MDM de clientes que no se integran ni unen fcilmente, aadir una aplicacin a cada sistema no
hace que ninguno de ellos se integre o se una repentinamente. Sigue siendo un sistema con muchos silos que nadie puede
conectar.
Aun si una empresa instal una aplicacin de BIG DATA en una plataforma perfecta que integr y conect todas las formas
de datos distintas, habra problemas importantes. La verdad es que no puede ejecutar repentinamente algoritmos
complicados en un sistema en vivo que los usuarios estn utilizando. Podra fallar. Podra disminuir el rendimiento. Podra
daar los datos. Podra haber problemas de seguridad. La instalacin de una aplicacin que requiere una gran cantidad de
espacio, memoria y velocidad podra hacer que un sistema viejo falle. Podra incluso no funcionar apropiadamente en
estos sistemas viejos. Si lo hiciera, tiene alguna diferencia respecto a sistemas existentes y no conectados de MDM o BI?
Una plataforma de BI y analtica de BIG DATA debe ser innovadora. Debe ser de ltima generacin. Debe utilizar
tecnologas en memoria o configurar un sistema para utilizar herramientas como Hadoop y Apache Cassandra como rea
de transferencia, recinto de seguridad, sistema de almacenamiento y ser un sistema nuevo y mejorado de ETL. Debe
integrar datos estructurados, sin estructura y semiestructurados. Hay muchas piezas en el rompecabezas.
Soluciones
Una plataforma integrada de BI y analtica de BIG DATA es un sistema distinto. Tiene opciones de desarrollo y de compra
entre las cuales puede elegir. Debe considerar los sistemas existentes, los casos de uso y los niveles de experiencia y
competencia de su personal. Algunas compaas tal vez quieran desarrollar un sistema completo de cdigo abierto
utilizando solo vanilla Hadoop (el Sistema de Archivos Distribuidos de Hadoop [HDFS] y MapReduce), Zookeeper, Solr,
Sqoop, Hive, HBase, Nagios y Cacti, por cuanto que alguien ms tal vez est buscando ms soporte e intente desarrollar un
sistema utilizando IBM InfoSphere BigInsights e IBM Netezza. Otras compaas tal vez quieran separar datos
estructurados y sin estructura, y desarrollar una capa de interfaz grfica de usuario (GUI) para usuarios, usuarios
avanzados y aplicaciones.
Realmente depende de la compaa. Y no es simplemente un sistema de enchufe y listo. Ya sea que decida desarrollar o
comprar, existen mltiples piezas en todos los niveles.
ETL
ETL, la ingestin de datos y todos los procesos que estn involucrados son siempre una significativa primera etapa,
segunda etapa, tercera etapa y ms. No puede volcar una aplicacin de BIG DATA en un sistema de transacciones y
esperar que las cosas funcionen sin degradar ese sistema original, o esperar que se integre bien con cualquier cosa que no
sea el sistema en uso. Por lo tanto, es necesario contar con alguna ingestin de datos en Hadoop o cualquier otro sistema
de noSQL o depsito de datos de procesamiento paralelo masivo (MPP). Existen diversas herramientas y metodologas
para seguir, y mucho de esto depende de los sistemas, los orgenes, los datos, el tamao y el personal.
Tal vez quiera comenzar con algo como Sqoop. Es una gran herramienta para ingerir datos de sistemas de gestin de base
de datos relacionales. Aadir otras herramientas de cdigo abierto como Flume o Scribe puede ayudar con los registros.
Tambin hay herramientas de ETL como Talend o IBM InfoSphere DataStage, ambas tienen ahora integradores de BIG
DATA. Estas herramientas son ms visuales y no requieren un doctorado en ciencias de la computacin para desarrollar la
infraestructura. Ambas herramientas proporcionan documentacin tcnica, actualizaciones y herramientas visuales de
GUI; siempre estn siendo mejoradas y son utilizadas en muchas industrias y empresas.
Algunas compaas prefieren nicamente el cdigo abierto. Otras compaas pueden tener muchos sistemas desarrollados
en diversos productos de IBM. Obviamente, integrar lo que ya est en uso con nuevas tecnologas es una consideracin
significativa.
Desarrollar su propio sistema de ETL requiere de mucho tiempo, y hacerlo puede ser un desconsuelo si el resultado no
hace lo que usted necesita que haga. Hadoop tiene muchas piezas, y tal vez necesite ms que Sqoop. Integrar y aadir
mltiples piezas puede ser doloroso, especialmente si carece de la experiencia y el conocimiento o si desea desarrollar su
propia herramienta de ETL. El proceso requiere de tiempo y paciencia. Tambin puede encontrarse con interrupciones. Es
posible usar una herramienta de cdigo abierto que despus la comunidad deseche. Tambin puede configurar y
desarrollar su propia herramienta de ETL con diversas aplicaciones internas y herramientas de cdigo abierto. Luego, la
comunidad del cdigo abierto cambia algunas cosas o algunos de sus desarrolladores se van y de repente tiene un sistema
que nadie sabe cmo mantener o arreglar.
Las empresas inteligentes se enfocan en su propio personal, en sus experiencias, en los presupuestos y en el potencial, y
son realistas. Por ejemplo, si una empresa tiene un personal de TI relativamente pequeo, observar la forma en que
Google o Facebook desarrollan sus sistemas no es una buena idea. No compare su pequeo taller de TI con compaas que
tienen varios servidores y graduados en ciencias computacionales trabajando en esas infraestructuras y sistemas
particulares. Algunas veces, utilizar servicios de nube o personal externo puede ser la nica opcin. Otras, las aplicaciones
de BIG DATA como Netezza son la mejor opcin.
Almacenamiento
El almacenamiento de datos es un factor enorme y puede requerir que use diversas tecnologas. En el sistema de Hadoop,
se encuentra HBase. Pero algunas compaas utilizan Cassandra, Neo4j, Netezza, HDFS y otras tecnologas, dependiendo
de lo que se necesite. HDFS es un sistema de almacenamiento de archivos. HBase es un almacn por columnas similar a
Cassandra. Muchas compaas utilizan Cassandra para analticas ms cercanas al tiempo real. Pero HBase est mejorando.
Podra considerar a HBase o Cassandra cuando desee utilizar un sistema de gestin de base de datos de cdigo abierto
para analtica de BIG DATA. En lo que se refiere a plataformas de depsitos de datos, Netezza es una de las principales
tecnologas en la industria de la analtica y la BI. La mejor opcin para la integracin de BIG DATA es utilizar una
plataforma integrada que consista en Hadoop y Cassandra para datos sin estructura o semiestructurados y Netezza para
datos estructurados.
IBM Netezza Customer Intelligence Appliance combina unas cuantas tecnologas distintas en una plataforma. En la capa
superior, que es la capa del usuario, se apoya en el software de BI IBM Cognos , un producto de inteligencia de negocios
y presentacin de informes. Cognos BI es un producto impresionante que muchas empresas utilizan para diversas
necesidades de BI y depsito de datos. En la capa de almacenamiento de depsito de datos, Netezza es una gran opcin
para su sistema de base de datos de MPP. Este sistema est equipado para los datos estructurados, pero cuando usa
Hadoop o Cassandra para datos sin estructura o semiestructurados es posible crear una plataforma integrada de BI y
analtica de BIG DATA.
La GUI
En la capa de la GUI y de front-end de usuario, existen muchas otras piezas para el sistema. Los usuarios avanzados
pueden utilizar herramientas como IBM SPSS Statistics, o R, para minera de datos, modelado predictivo, aprendizaje de
mquina y desarrollo de algoritmos y modelos complejos. Su personal habitual de ventas puede utilizar algo como Cognos
para la presentacin de informes de BI, informes de BIG DATA, paneles de instrumentos y cuadros de mando. Una
herramienta como Cognos es genial para proporcionar a diversos tipos de usuarios la oportunidad de explorar los datos o
ver informes simples.
Existen otras piezas de la capa de la GUI y front-end, como herramientas de aprendizaje de mquina (por ejemplo, Apache
Mahout) o Apache Hive (para Lenguaje de Consulta Estructurado), pero esas herramientas tambin pueden ser parte de la
infraestructura. El factor ms importante es la integracin de datos estructurados y datos sin estructura como parte de la
BI y la infraestructura del depsito de datos y la analtica de BIG DATA. Es esto un servicio? Quines son los usuarios?
A los usuarios no les importa la infraestructura. No les importa si est integrada. Solo les importa si pueden obtener los
datos correctos en el momento correcto.
Conclusin
La integracin de la BI y la analtica de BIG DATA no es una tarea fcil. La meta para cualquier sistema de datos o analtico
es hacer que los datos sean tiles y que estn disponibles para tantos usuarios como sea posible. Las aplicaciones de BIG
DATA son una forma de lograrlo. Un sistema de Hadoop de cdigo abierto es otra. Ambas requieren tiempo, paciencia e
innovacin.
Un sistema de cdigo abierto es mucho ms rpido y menos costoso de implementar, pero necesita personal con
experiencia para ello. Si no tiene experiencia en el trabajo con BIG DATA, una aplicacin de proveedor de BIG DATA puede
ser la mejor opcin, aunque esto es ms costoso. Recuerde que no todos desean ser una compaa de software o
hardware. Algunas veces, desarrollar una plataforma integrada de BI y BIG DATA requiere de un poco de desarrollo y
compras para poder alcanzar sus objetivos.

http://www.ibm.com/developerworks/ssa/library/ba-big-data-bi/

Vous aimerez peut-être aussi