Académique Documents
Professionnel Documents
Culture Documents
Cochabamba – Bolivia
ii
el poco tiempo que pasamos, siento que están conmigo siempre, sé que
este momento es tan especial para ustedes, así como lo es para mí. A
propuesto.
Tabla De Contenido
ÍNDICE DE TABLAS 5
ÍNDICE DE FIGURAS 6
Resumen 7
Introducción 8
1 Generalidades 9
2.1.1 Hadoop 13
2.1.1.2 MapReduce 15
2.1.2 HDInsight. 19
2.1.3 Polybase. 20
3
4
3.1.6.2 Componentes 43
5 Conclusiones 49
6 Bibliografía. 51
5
ÍNDICE DE TABLAS
ÍNDICE DE FIGURAS
Resumen
Big Data es un concepto que hace referencia a grandes cantidades de información heterogéneos
de computadores, teléfonos móviles y dispositivos GPS, entre otros. Asimismo, es utilizada para
tomaría demasiado tiempo y sería muy costoso su análisis. De tal manera que, el concepto de Big
Data aplica para toda aquella información que no puede ser procesada o analizada utilizando
procesos o herramientas tradicionales. Sin embargo, Big Data no se refiere a una cantidad en
datos. Adicionalmente, el concepto de volumen es muy variable y cada día que pasa eleva lo que
El objetivo de Big Data, al igual que los sistemas analíticos convencionales, es convertir el dato
Para este propósito Big Data requiere el uso de un nuevo conjunto de herramientas, aplicaciones
Introducción
Estas necesidades nos llevan a pensar en nuevas tecnologías para el procesamiento y entendimiento
de esta información, en empresas que trabajan con tecnologías Microsoft es de vital importancia
conocer todas las herramientas que Microsoft pone a nuestra disposición para poder abarcar este
ámbito.
Entre las tecnologías que Microsoft pone a nuestra disposición para trabajar con Big Data tenemos
los siguientes:
Hadoop, que es un marco de código abierto, de la base de Apache, capaz de procesar grandes
y MapReduce que es básicamente un modelo de software / marco de software, que nos permite
HDInsight, que es un servicio de Microsoft Azure que nos provee una plataforma de big data
como servicio, HDInsight usa la distribución Hadoop Hortonworks Data Platform (HDP)
9
1 Generalidades
analizar?, sin embargo, el cuestionamiento debería estar enfocado hacia ¿qué problema es el que
Si bien sabemos que existe una amplia variedad de tipos de datos a analizar, una buena
clasificación nos ayudaría a entender mejor su representación, aunque es muy probable que estas
Fuente: https://aci.info/2014/07/12/the-data-explosion-in-2014-minute-by-minute-infographic/
10
Cualquier empresa, independientemente de su tamaño, con los datos e información que se debe
almacenar. Y con el rápido aumento de esta información, se ha convertido en esencial que estos
datos se almacenan en una base de datos computarizada. Esto hizo que el acceso a la información
sea más ágil, práctico y con un menor número de fallos en la recuperación de datos.
Hay diferentes tipos de DBMS, desde aquellos que estan en sistemas de gran magnitud de las
grandes corporaciones hasta pequeños sistemas que se ejecutan en los ordenadores personales. Los
Fuente: http://www.ebizq.net/blogs/tech_blog/2009/09/10-ways-to-complement-the-ente.php
Las principales características de Big Data son popularmente conocidas como las 3 Vs de Big
Data, estas se refieren al Volumen o cantidad de datos que van desde Gigabytes a Terabytes,
11
Petabytes y aún más, la Velocidad a la que los datos se generan, producen, crean o actualizan y
Fuente: https://docplayer.net/10195941-Big-data-strategy-rama-kattunga-chair-at-american-
institute-of-big-data-professionals-building-big-data-strategy-for-your-organization.html
confiabilidad de la fuente de datos, Validez se refiere a qué tan precisos y correctos son los datos
Volatilidad se refiere al tiempo por el cual debe almacenarse la información, Visualización que
escalabilidad funcionalidad y tiempos de respuesta y por último Valor este último puede
considerarse uno de los más importantes, ya que se refiere al valor de la información generada
Las organizaciones han atacado esta problemática desde diferentes ángulos. Todas esas montañas
de información han generado un costo potencial al no descubrir el gran valor asociado. Desde
luego, el ángulo correcto que actualmente tiene el liderazgo en términos de popularidad para
programación MapReduce, el cual consiste en dividir en dos tareas (mapper – reducer) para
procesamiento.
Para nuestro caso de estudio nos enfocaremos en la implementación de Big Data en la plataforma
Fuente: https://es.slideshare.net/redondoj/big-data-almacenes-de-datos-empresariales-edw-y-
windows-azure-sql-database-como-plataforma-bi
2.1.1 Hadoop
A continuación, se muestra una arquitectura de alto nivel del clúster Hadoop de múltiples nodos:
14
Fuente: https://portlandbathrepair.com/hadoop-cluster-architecture/
archivos normal, cuando los datos se envían a HDFS, se dividirán automáticamente en varios
15
bloques (parámetro configurable) y almacenarán y/o replicarán los datos en varios nodos de
Fuente: http://spaceanalytics.blogspot.com/2016/08/hdfs-sistema-almacen.html
2.1.1.2 MapReduce
Ofrece un sistema de análisis que puede realizar cálculos complejos en grandes conjuntos de
datos. Este componente es responsable de realizar todos los cálculos y funciona al dividir un gran
Fuente: https://www.mssqltips.com/sql-server-tip-category/208/big-data/
Split: Hadoop divide los datos entrantes en piezas más pequeñas llamadas "divisiones".
Map: en este paso, MapReduce procesa cada división según la lógica definida en la función
map(). Cada asignador trabaja en cada división a la vez. Cada asignador se trata como una tarea y
Combine: este es un paso opcional y se usa para mejorar el rendimiento al reducir la cantidad de
datos transferidos a través de la red. El combinador es igual que el paso de reducción y se usa para
Shuffle & Sort: en este paso, las salidas de todos los mappers se mezclan, se ordenan y se agrupan
Reduce: este paso se usa para agregar las salidas de los mappers usando la función reduce(). La
salida del reductor se envía al siguiente y último paso. Cada reductor se trata como una tarea y se
Namenode contiene la información sobre todos los demás nodos en el clúster Hadoop, los archivos
presentes en el clúster, los bloques constituyentes de los archivos y sus ubicaciones en el clúster,
Job Tracker realiza un seguimiento de las tareas individuales asignadas a cada uno de los nodos
Cada nodo Esclavo contiene el Rastreador de Tareas (Task Tracker) quien es responsable de
ejecutar las tareas asignadas y un componente de Nodos de Datos (Datanode) quien es responsable
Las computadoras presentes en el clúster pueden estar presentes en cualquier ubicación y no hay
análisis (MapReduce).
escala linealmente. Debido a la escala lineal, un clúster Hadoop puede contener decenas,
Hadoop es muy rentable, ya que puede funcionar con hardware básico y no requiere
Hadoop tiene tolerancia a fallas incorporada. Los datos se replican en múltiples nodos (el
leer desde otro nodo que tenga la copia de esos datos. Y también asegura que se mantenga
18
el factor de replicación, incluso si un nodo falla, al replicar los datos en otros nodos
disponibles.
Hadoop funciona según el principio de escribir una vez y leer varias veces.
Hadoop está optimizado para conjuntos de datos grandes y muy grandes. Por ejemplo, una
Hadoop dependiendo de la plataforma sobre la que se está trabajando y según las necesidades del
proyecto que se está trabajando tiene varias distribuciones, estas distribuciones estan disponibles
en el mercado y están construidas sobre el marco Hadoop de código abierto. El componente central
en estas distribuciones es el mismo marco Hadoop de código abierto construido por la base Apache
Hadoop contiene varios componentes que tienen sus propios ciclos de lanzamiento y es un
ecosistema bastante complejo con tantos proyectos. Estas distribuciones administran y/o integran
las versiones o dependencias requeridas de estos proyectos para que las empresas puedan enfocarse
en el problema real en cuestión. Estas distribuciones aseguran que contengan una versión estable
del proyecto Hadoop con todos los parches necesarios junto con sus propios componentes
propietarios.
Estas diferentes distribuciones incluyen varios componentes construidos sobre el núcleo del motor
más simples, más rápidos y más eficientes. En la mayoría de los casos, hay componentes
adicionales que están siendo construidos por los proveedores y/o distribuidores que son
Cada distribución tiene sus propios pros y contras. Por lo que existen varios aspectos que se deben
Entre los más destacados estan las siguientes distribuciones: HDInsight, Cloudera, Hortonworks,
2.1.2 HDInsight.
HDInsight es un servicio de Microsoft Azure que nos provee una plataforma de big data como
servicio. Esto es, Microsoft se hace cargo de mantener los servidores y de actualizar la plataforma,
y nosotros creamos el software que corre sobre ella, y pagamos por el uso que hacemos del
servicio.
HDInsight usa la distribución Hadoop Hortonworks Data Platform (HDP). Normalmente, cuando
incluye clusters Storm o HBase, así como de otras tecnologías que están debajo del paraguas de
Hadoop.
El servicio de HDInsight nos provee de clusters configurados para cargas de trabajo específicas, o
Hadoop: provee un almacenamiento confiable sobre HDFS (Hadoop Distributed File System, un
Hbase: una base de datos NoSQL construida sobre Hadoop que provee acceso aleatorio y alta
Apache Storm: un sistema de computación distribuida en tiempo real para procesar un gran
2.1.3 Polybase.
PolyBase es una tecnología que permite el acceso a archivos en la nube pública o privada para ser
tratada como si fueran tablas en servidor SQL Server 2016 a través del lenguaje T-SQL.
Ya era parte de Parallel Data Warehouse/ Analytics Platform Services, sin embargo, esta
La integración de Polybase dentro de una estructura de Big Data y su interacción con las demás
Fuente: https://es.slideshare.net/redondoj/big-data-almacenes-de-datos-empresariales-edw-y-
windows-azure-sql-database-como-plataforma-bi
21
SQL Server 2016, permite ejecutar consultas en datos externos en Hadoop o importar y/o exportar
datos desde Azure Blob Storage. Las consultas se optimizan para impulsar el cálculo a Hadoop. En
Azure SQL Data Warehouse, puede importar y/o exportar datos desde Azure Blob Storage y Azure
Fuente: https://docs.microsoft.com/en-us/sql/relational-databases/polybase/polybase-
guide?view=sql-server-2017
Para tomar buenas decisiones, desea analizar los datos relacionales y otros datos que no están
estructurados en tablas, notablemente Hadoop. Esto es difícil de hacer a menos que tenga una
forma de transferir datos entre los diferentes tipos de almacenes de datos. PolyBase cierra esta
Hadoop. Consultar datos externos utiliza la misma sintaxis que consultar una tabla de base de
datos. Todo esto sucede de manera transparente. PolyBase maneja todos los detalles detrás de
escena, y el usuario final no necesita conocimiento sobre Hadoop para consultar tablas externas.
Datos de consulta almacenados en Hadoop desde SQL Server o PDW. Los usuarios
Azure es un lugar conveniente para almacenar datos para que puedan ser consumidos por
los servicios de Azure. PolyBase facilita el acceso a los datos mediante el uso de T-SQL.
Importe datos de Hadoop, Azure Blob Storage o Azure Data Lake Store Esto permite
SQL y la importación de datos de Hadoop, Azure Blob Storage o Azure Data Lake Store
Exporte datos a Hadoop, Azure Blob Storage o Azure Data Lake Store. Esto permite
archivar datos en Hadoop, Azure Blob Storage o Azure Data Lake Store para lograr un
Microsoft y la pila de análisis, o use herramientas de terceros que sean compatibles con
SQL Server.
los costos para impulsar el cálculo a Hadoop al hacerlo mejorará el rendimiento de las
consultas. Utiliza estadísticas en tablas externas para tomar decisiones basadas en los
Escala los recursos computacionales. Para mejorar el rendimiento de las consultas, puede
usar los grupos de escalado de SQL Server PolyBase . Esto permite la transferencia de
datos en paralelo entre las instancias de SQL Server y los nodos de Hadoop, y agrega
Una instancia independiente de SQL Server con PolyBase puede convertirse en un cuello de
botella para el rendimiento cuando se trata de conjuntos de datos masivos en Hadoop o Azure Blob
Storage. La función PolyBase Group le permite crear un clúster de instancias de SQL Server para
procesar grandes conjuntos de datos de orígenes de datos externos, como Hadoop o Azure Blob
Fuente: https://docs.microsoft.com/en-us/sql/relational-databases/polybase/polybase-scale-out-
groups?view=sql-server-2017
24
Head Node, El nodo principal contiene la instancia de SQL Server a la que se envían las consultas
PolyBase. Cada grupo PolyBase puede tener solo un nodo principal. Un nodo principal es un grupo
lógico de SQL Database Engine, PolyBase Engine y PolyBase Data Movement Service en la
Compute Node. Un nodo de cálculo contiene la instancia de SQL Server que ayuda con el
grupo PolyBase puede tener múltiples nodos de cálculo. El nodo principal y los nodos de cálculo
el nodo principal. La parte de la consulta que hace referencia a tablas externas se transfiere al
motor PolyBase.
El motor PolyBase es el componente clave detrás de las consultas PolyBase. Analiza la consulta
sobre datos externos, genera el plan de consulta y distribuye el trabajo al servicio de movimiento
de datos en los nodos de cómputo para su ejecución. Después de completar el trabajo, recibe los
resultados de los nodos de cómputo y los envía a SQL Server para su procesamiento y retorna el
resultado al cliente.
El servicio de movimiento de datos PolyBase recibe instrucciones del motor PolyBase y transfiere
datos entre HDFS y SQL Server, y entre las instancias de SQL Server en el cabezal y los nodos de
cálculo.
SQL Server PolyBase que se esté ejecutando. En una instalación de Enterprise Edition, la instancia
se puede designar como nodo principal o como nodo de cálculo. En una edición estándar, la
El Big Data y la nube o los servicios Cloud necesariamente iran de la mano en el mundo de los
datos. Muchos de los datos de los que disponemos son generados y creados en la web dentro de
La gran cantidad de datos generados por satélites, gobiernos, cámaras de vídeo vigilancia,
smartphones, dispositivos del internet de las cosas (IoT) junto con datos generados en las redes
Los datos estan tan desorbitados que en 2020 el universo digital puede llegar a 40 ZB o que cada
día se generan más de 2.5 trillones de bytes de datos, nos hace pensar que es imposible no mirar a
recurso. Estos recursos de computación en la nube pueden ser gestionados con mayor eficiencia,
Este tipo de uso efectivo de los sistemas Cloud para Big Data permiten a las empresas ofrecer sus
El uso de tecnologías Cloud sobre todo para el trabajo con grandes cantidades de información son
en licencias de software, ya que, como se vio antes, no siempre se utilizan los recursos al
100%, sino que depende de la fase Big Data en la que nos encontremos.
Rapidez. El acceso a la información, ficheros, base de datos etc, es mucho más rápido,
demanda.
almacenamiento.
cliente, sin tener que realizar mayores inversiones para la previsión de posibles soluciones
futuras.
Hay dos tipos de HDInsight: Windows Azure HDInsight Service y Microsoft HDInsight Server
Hadoop de Hortonworks Data Platform (HDP). Azure HDInsight hace que sea fácil, rápido y
rentable procesar grandes cantidades de datos. Puede usar las plataformas de código abierto más
conocidas como Hadoop, Spark, Hive, LLAP, Kafka, Storm, R, etc. Con estas plataformas puede
habilitar una amplia gama de escenarios, como la extracción, transformación y carga (ETL), el
Azure HDInsight habilita Apache Hadoop como un servicio en la nube de Microsoft Azure
Azure HDInsight ofrece una sólida compatibilidad con PowerShell a través de los cmdlets.
Los cmdlets de Windows Azure y HDInsight PowerShell se pueden usar para realizar
procesar los datos, destruir el clúster y pagar solo por los recursos utilizados.
28
HDInsight incluye tipos de clúster específicos y capacidades de personalización del clúster, como
la capacidad de agregar componentes, utilidades e idiomas. HDInsight ofrece los siguientes tipos
de clúster:
modelo de programación MapReduce simple para procesar y analizar datos por lotes en
paralelo.
Big Data.
Apache HBase: una base de datos NoSQL construida en Hadoop que proporciona acceso
HDInsight.
29
rápidas.
Apache Kafka: una plataforma de código abierto que se utiliza para crear canalizaciones
Fuente: https://msdn.microsoft.com/en-us/library/dn479228.aspx
Capacidad Descripción
escalable reducir el costo mediante la creación de clústeres a petición y pagar solo por
conforme mediante Azure Virtual Network, el cifrado y la integración con Azure Active
Supervisión Azure HDInsight se integra con Azure Log Analytics para proporcionar una
soberanas clave.
permite una integración sin problemas con las soluciones de macrodatos más
HDInsight también se integra con herramientas de inteligencia de negocios (BI) como Excel, SQL
un marco de software diseñado para gestionar, analizar e informar sobre Big Data. El
procesar y analizar, de forma paralela, los datos almacenados en este sistema distribuido.
Gráficamente la estructura de Hadoop con Windows azure y sus componentes se vería como sigue:
Fuente: https://davidrengifo.wordpress.com/2015/02/18/conociendo-el-ecosistema-hdinsight/
32
Ambari: que facilita la gestión y el control de los recursos de un clúster de Apache Hadoop
Avro (Microsoft .NET Library for Avro): que proporciona servicios de serialización de
datos e intercambio de datos para Apache ™ Hadoop® . Estos servicios se pueden usar
datos es compacto y eficiente. Avro almacena la definición de datos y los datos en un solo
HDFS: que se usa para escalar un único clúster a cientos (e incluso miles) de nodos. Es un
sistema de archivos distribuidos que maneja grandes conjuntos de datos que se ejecutan en
hardware básico.
Hive: que es una infraestructura que se basa en la data warehousing para Hadoop. Este
Hadoop. El concepto de MapReduce es bastante simple de entender para aquellos que están
Apache Hadoop, está integrado con Hadoop compatible con varios tipos de trabajos de
Hadoop listos para usar (como Java map-reduce, Streaming map-reduce, Pig, Hive, Sqoop
y Distcp) así como trabajos específicos del sistema (como Programas Java y scripts de
shell).
conjunto de datos como agregar, unir y ordenar. Pig, además, traduce el script generado en
Pig hacia MapReduce para que pueda ejecutarse dentro de Hadoop. Pig, puede ser
extendido mediante funciones definidas por el usuario que se puede escribir en Java o en
Sqoop: que es una aplicación con interfaz de línea de comando para transferir datos
entre bases de datos relacionales y Hadoop. Soporta cargas incrementales de una sola tabla
o de una consulta SQL en formato libre, así como trabajos almacenados que pueden ser
ejecutados múltiples veces para importar las actualizaciones realizadas en una base de datos
en Hive o HBase.2 Las exportaciones pueden utilizarse para transferir datos desde Hadoop
34
hacia una base de datos relacional. El nombre Sqoop viene de fusionar las palabras SQL y
hadoop.
para el procesamiento en tiempo real lo que Hadoop hizo para el procesamiento por
Storm tiene muchos casos de uso: análisis en tiempo real, aprendizaje automático en línea,
referencia registró más de un millón de tuplas procesadas por segundo por nodo. Es
escalable, tolerante a fallas, garantiza que sus datos serán procesados, y es fácil de
configurar y operar
grupales esto significa que puede sincronizar las tareas de los nodos y hacer estos tolerante
a fallos. Todos estos tipos de servicios son utilizados de una forma u otra por aplicaciones
inicialmente suelen escatimar en ellos, lo que los hace frágiles en presencia de cambios y
Los nombres de los empresas grandes como Adobe, Jet, ASOS, Schneider Electric y Milliman
se encuentran entre cientos de empresas que están potenciando sus Big Data Analytics utilizando
Azure HDInsight. Azure HDInsight se lanzó hace casi seis años y desde entonces se ha convertido
en la mejor distribución de este tipo de herramientas para ejecutar los análisis de Apache Hadoop
y Spark en Azure.
Estas son las ocho razones principales por las cuales las empresas eligen Azure HDInsight para
puede levantar Hive, Spark, LLAP, Kafka, HBase, Storm y R Server cluster en cuestión de
minutos, desplegar y ejecutar sus aplicaciones y permitir que HDInsight haga el resto. Controla el
clúster y todos los servicios, detecta y repara problemas comunes y responde a problemas las 24
2. Alta disponibilidad garantizada (99,9% SLA) a gran escala: ejecute sus cargas de trabajo
disponibilidad líder en la industria del 99,9% para toda la pila de software. Sus aplicaciones de big
data pueden ejecutarse de manera más confiable ya que su servicio HDInsight supervisa el estado
3. Cumplimiento y seguridad extremo a extremo del sector: proteja sus datos empresariales
más sensibles utilizando las tecnologías de seguridad de espectro completo a su disposición. Aísle
políticas de acceso basadas en roles que utilicen Apache Ranger y restrinja el acceso a sus datos y
36
aplicaciones más importantes. Consiga tranquilidad sabiendo que sus datos empresariales están
siendo manejados y protegidos por un servicio que ha recibido más de 30 certificaciones estándar
popular y Spark aplicaciones . En unos minutos, Azure HDInsight implementa las aplicaciones en
el clúster.
5. Plataforma productiva para análisis: los ingenieros de datos, los científicos de datos y los
analistas BI pueden construir sus aplicaciones Hadoop / Spark utilizando sus herramientas de
desarrollo favoritas ( Visual Studio y Eclipse o IntelliJ ), los lenguajes de Notebook (Jupyter o
pueden entrenar modelos más precisos para mejores predicciones en un tiempo más corto al usar
Microsoft R Server para HDInsight. Las bibliotecas matemáticas con múltiples subprocesos y la
datos más y una velocidad hasta 50 veces más rápida que la fuente abierta R.
usted.
8. Alto valor por un precio bajo: sabemos que el costo es una consideración muy importante
cuando se ejecuta análisis de big data. Por lo tanto, todo el valor anterior de Azure HDInsight ahora
Los cmdlets de PowerShell para HDInsight se pueden clasificar en general en las siguientes
Al realizar muchas operaciones comunes, necesitamos usar una combinación de uno o más cmdlets
independientemente de las categorías. Las categorías en esta sección están destinadas a ayudar a
Echemos un vistazo a varios cmdlets en cada una de las categorías enumeradas a continuación.
Azure.
de Azure.
especificados.
AzureStorageContainer
almacenamiento de Azure.
39
almacenamiento de blobs.
el cmdlet New-AzureHDInsightCluster.
Suscripción Azure.
parámetros especificados.
parámetro de entrada.
41
el resultado.
Definition HDInsight.
especificado.
de HDInsight especificado.
AzureHDInsightHttpServicesAccess especificado.
Esos son los cmdlets comúnmente utilizados. Existen varios otros cmdlets de PowerShell que
Azure HDInsight es un servicio en la nube totalmente administrado que logra que el procesamiento
de grandes cantidades de datos sea sencillo, rápido y rentable. Use los marcos de código abierto
más populares, como Hadoop, Spark, Hive, LLAP, Kafka, Storm, HBase, Microsoft R Server y
muchos más. Azure HDInsight posibilita una amplia variedad de escenarios, como ETL,
Los clústeres preconfigurados están optimizados según distintos escenarios de macro datos.
Alta disponibilidad
3.1.6.2 Componentes
Hadoop
Spark
Demostración interactiva
Microsoft R Server
Kafka
HBase
Storm
Amplíe los clústeres de HDInsight para instalar cualquier motor de código abierto.
Los clústeres, que se facturan por minuto, ejecutan un grupo de nodos en función del componente.
Los nodos varían según el grupo (por ejemplo, nodo de trabajo, nodo principal, etc.), la cantidad
y el tipo de instancia.
A los clientes se les cobra por cada nodo según la duración del ciclo de vida del clúster. El precio
de los nodos de abajo representa todas las cargas de trabajo, excepto Microsoft R Server, donde se
El nivel Premium ahora se denomina "Enterprise Security Package". Hay un suplemento adicional
por el nivel Enterprise Security Package (igual que el de Premium) y se cobra $0,02/núcleo-hora.
Enterprise Security Package se encuentra actualmente en fase de versión preliminar pública y, por
Los precios con descuento de Azure están disponibles para los suscriptores de Visual Studio que
desean ejecutar cargas de trabajo de desarrollo y pruebas de forma individual o en equipo. Los
47
suscriptores de Visual Studio activos pueden beneficiarse de una amplia variedad de descuentos
con una suscripción de Azure basada en una oferta para desarrollo y pruebas.
Big Data es la tendencia que está revolucionando la sociedad y sus organizaciones por las
capacidades que brinda para aprovechar una gran variedad de datos, en grandes volúmenes y con
velocidad. Sin embargo, muchas organizaciones están dando sus primeros pasos para incorporar
Big Data en sus procesos. Por eso, recopilamos unas recomendaciones que el gigante de Armonk,
Tenga claros los objetivos de negocio: Los proyectos de Big Data deben ir alineados con los
objetivos de negocio para que generen valor en la organización. Así que el primer paso es recopilar,
analizar y comprender los requerimientos del negocio para tener claras sus necesidades e iniciar
Implementar Big Data es una decisión de negocio, Las soluciones de análisis de datos son más
exitosas cuando nacen por un punto de vista o necesidad comercial y no desde el área de TI de las
organizaciones. Esto se debe a que las soluciones deben adaptarse a las necesidades de negocios y
Utilice soluciones ágiles, Generalmente los proyectos con Big Data inician con un caso específico.
A medida que se implementan, las necesidades de las organizaciones evolucionan para incorporar
48
más técnicas y aprovechar los datos. Por eso es importante incorporar soluciones ágiles que se
basen en las necesidades de negocio y permitan implementar técnicas para hallar oportunidades y
valor fácilmente.
Evalúe las necesidades de datos, Si su negocio está listo para implementar soluciones de análisis
de datos, es importante llevar a cabo una evaluación completa de los datos con los que cuenta para
identificar cómo utilizarlos para alcanzar los beneficios al máximo. Con su equipo de trabajo,
analice qué datos debe conservar, cómo administrarlos, cómo acceder a ellos y qué datos debe
descartar.
Libere el valor de los datos, Para liberar el valor de Big Data es necesario que las empresas
fortalecer el acceso a los datos, de esta forma los miembros de su empresa podrán correlacionar
diferentes tipos y fuentes de datos, para hacer asociaciones y hacer descubrimientos significativos.
Hoy en día, el análisis de datos no es solo un aliado que entrega una ventaja competitiva, es algo
que todas las grandes organizaciones deben hacer y tener. Es el momento de explotar el valor de
la información y aunque la tendencia de Big Data puede ser aprovechada por cualquier empresa,
independiente del sector en la que se desenvuelva, existe hoy día algunos sectores específicos que
han logrado explotar de mejor manera las infinitas posibilidades de los datos.
Algunas ramas que pueden ser muy beneficiadas por la implementación de Big data son:
Las empresas aseguradoras: para estas el Big data es de gran ayuda ya que, al tener públicos
objetivos muy diversos, pueden crear informes transversales que aportan información sobre los
riesgos, la salud futura del usuario y cuáles serían sus futuras demandas en materia de seguros.
49
El sector de las finanzas: es otro rubro que aprovecha los datos para predecir riesgos en los
financieras.
Las empresas de transporte masivo: como aerolíneas, líneas de buses y otros que mueven
masivamente personas y carga, estas necesitan información de sus vuelos, pasajeros, rutas
cantidades y otros que deben estar a la mano para ayudar a la mejor toma de decisiones en cuanto
información que generan, una solución Big Data les facilitaría inmensamente para el estudio y
Por último, aunque no menos conocido, en el campo del marketing (marketing digital) que se
está diseñando campañas cada vez más ajustadas a los gustos y necesidades de las audiencias,
basados en históricos e información que recolectan de los usuarios en la red: escucha social,
5 Conclusiones
El uso de Big Data ayudo a los investigadores a descubrir aspectos que les podrían haber
tomado años en descubrir por si mismos sin el uso de estas herramientas, debido a la
velocidad del análisis, es posible que el analista de datos pueda cambiar sus ideas
Las soluciones big data como conjunto de recursos que permiten la gestión y análisis de
cantidades masivas de datos, juegan hoy en día un papel importante en las empresas que
50
Implantar tecnología Big Data para procesar toda aquella información que recoja una
aplicación móvil, un sensor de movimiento, una cámara de video, un GPS, una página web,
rastreando todas las acciones que lleva a cabo el cliente; conocer donde cliquea más veces,
cuántas veces ha pasado por el carrito de la compra, cuáles son los productos más vistos,
tecnologías que día a día van innovando, actualizando y mejorando en sus herramientas,
que el usuario tiene una variedad de opciones, entre ellas la suite de herramientas y
tecnologías de Microsoft, que ayudarán a las empresas a obtener muchos más beneficios
En definitiva, el Big Data es una combinación de las V’s donde las empresas pueden
hadoop y la computación en la nube de Azure, trae consigo infinidad de beneficios que sin
6 Bibliografía.
Arquitectura HDFS.
URL http://hadoop.apache.org/docs/stable1/hdfs_design.html
Documentación PolyBase.
https://docs.microsoft.com/en-us/sql/relational-databases/polybase/polybase-guide?view=sql-
server-2017
Nathan Marz with James Warren, (2015). BIG DATA Principles and Best Practices of scalable
real-time data systems.
Manning Publications Co. A.
Viktor Mayer-Schönberger and Kenneth Cukier, (2013). BIG DATA A Revolution That Will
Transform How We Live, Work, and Think.
Houghton Mifflin Harcourt