Paradigm A Big Data

boletin de estudios economicos
Vol. lXXi - n.º 219 - diciembre 2016

(Páginas 507-526)
EL PARADIGMA DEL BIG DATA Y SU APORTACIÓN A LA

GESTIÓN Y ESTRATEGIA EMPRESARIAL
THE BIG DATA PARADIGM AND ITS CONTRIBUTION TO

THE MANAGEMENT AND BUSINESS STRATEGY
Alex Rayón Jerez

Vicedecano de Relaciones externas de la Facultad de ingeniería de la universidad de deusto
y director de Programas de big data
RESUMEN
la implosión de la era digital y los datos inherentes a su naturaleza y arquitectura han

provocado la generación de grandes volúmenes de datos, en muchos lugares y expresados
de manera muy heterogénea. A este paradigma, lo bautizamos en 2012 como el “big data”.
Generó mucho interés desde el primer momento por su aportación a conocer mejor los
negocios, para mejorar así el proceso de toma de decisiones y el rendimiento en muchas
dimensiones. ni la tecnología, ni la disponibilidad de datos ni el factor económico son limi-
tantes. lo que necesitamos son emprendedores de datos, que sepan hacer las preguntas
correctas a los mismos, y podamos así aportar a la gestión y estrategia empresarial a través
de la extracción de inteligencia y valor de los datos. Por todo ello, muchos sectores de acti-
vidad económica ven nuevas oportunidades en esta “economía del dato”.
Palabras clave: datos, inteligencia de negocios, algoritmos, modelos analíticos, big data.
SUMMARY
the irruption of the digital age and the data inherent to its nature and architecture, have
led to the generation of large volumes of data, in many places and expressed in a very hete-
rogeneous way. to this paradigm, we called as “big data” in 2012. it generated a lot of
interest from the very beginning for its contribution to understand better the business pro-
cesses, to improve the decision making process and the performance in many dimensions.
neither the technology, nor the availability of data nor the economic factor are a constraint.
What we need are data entrepreneurs, who know how to ask the right questions, and can
thus contribute to the management and business strategy through the extraction of intelli-
gence and value from raw data. in consequence, many economic activities have seen new
opportunities in this “data economy”.
Keywords: data, business intelligence, algorithms, analytical models, big data.
1. Introducción: de los “qué” a los “por qué”
en 2004, dos ingenieros de Google, Jeffrey dean y sanjay

Ghemawat, publicaron un artículo titulado “MapReduce: Simplified
508 AleX RAyón JeRez
Data Processing on Large Clusters“ [1]. se trataba de un nuevo modelo

de programación que permitiría simplificar el procesamiento de grandes
volúmenes de datos. era la evolución natural y necesaria que tenían den-
tro de Google para procesar los grandes volúmenes de datos que ya por
aquel entonces manejaban (documentos, referencias web, páginas, etc.).
A partir de toda esa información que se encontraba dispersa por
internet, querían obtener una serie de métricas para ordenar la importan-
cia y popularidad de las webs. nació así un modelo de programación
bautizado como mapReduce, que hizo frente a la cada vez mayor canti-
dad de webs que debía Google ordenar bajo el algoritmo creado por
larry Page y sergey brin en 1999, el Pagerank [2]. estas nuevas posibi-
lidades que abrió el procesamiento de grandes volúmenes de datos ayudó
a popularizar industrias como el seo y sem. más de 12 años después,
estas capacidades son el principal valor de Google (Alphabet) y lo que le
ha permitido llegar a ser la empresa de mayor valor bursátil del mundo.
la idea que subyacía a este nuevo modelo de programación era la
siguiente: ante la necesidad de procesar grandes volúmenes de datos, se
puede montar un esquema en paralelo de computación que permita así
distribuir el trabajo (el procesamiento de datos) entre diferentes máqui-
nas (nodos dentro de una red) para que se pueda reducir el tiempo total
de procesamiento. es decir, una versión moderna del “divide y vencerás“
[3], que hace que esos pequeños trabajos en paralelo, reduzcan sustanti-
vamente lo que de otra manera sería un único gran procesamiento, tarea
siempre más complicada.
dado el rendimiento de esta nueva aproximación al procesamiento de
datos, se comenzó a emplear en otros entornos. se comienzan a desarro-
llar versiones de código abierto a través de distribuciones de software.
esto hace muy fácil su rápida adopción, y quizás deja una lección para
la historia sobre cómo desarrollar rápidamente un paradigma. uno de los
frameworks que comienza a ganar en popularidad es Apache Hadoop de
la mano de un ingeniero de yahoo! llamado doug cutting.
Para muchos, con estos dos sucesos nace esta era que hemos bautiza-
do como “Big Data”. Primero mapReduce, y luego el framework
Hadoop, pueden ser considerados como el origen de este término del que
tanto hablamos hoy en día. y, las empresas de internet (Google, yahoo,
twitter, Facebook, linkedin, etc.), las que propician la aparición de tec-
nologías de big data que luego son utilizadas en otros sectores.
el uso de los métodos de análisis de datos para la mejora de la com-
petitividad y el día a día de las organizaciones no es nada nuevo. Hace
el PARAdiGmA del biG dAtA y su APoRtAción A lA Gestión y estRAteGiA ... 509
décadas que se lleva haciendo uso de estas técnicas. el sector financiero

o asegurador, lleva décadas empleando técnicas de minería de datos para
sacar valor de sus grandes volúmenes de datos. lo han empleado siem-
pre para la detección de fraude, perfiles de propensión al impago o para
el scoring en la concesión de créditos. lo que sí que es cierto es que estos
métodos, ahora son más sofisticados. Pero eso realmente no se debe a la
evolución de los algoritmos solo, sino a la existencia de una mayor can-
tidad de datos, de muy diferentes fuentes, almacenados en formatos hete-
rogéneos y sobre todo, generados a gran velocidad. y esto último sí que
hace distinguir un proyecto de big data de otro que no lo es. son las 3
“V” que caracterizan bien a esta era del big data: Volumen, Velocidad y
Variedad [4].
la práctica moderna del análisis de datos, lo que popularmente y
muchas veces erróneamente se conoce como “Big Data”, se asienta
sobre lo que es la “Ciencia del Dato” o “Data Science”. en 2012,
davenport y Patil escribían un influyente artículo en la Harvard business
Review en la que exponían que el científico de datos iba a ser la profe-
sión más atractiva del siglo XXi [5]. un profesional que combinando
conocimientos de matemáticas, estadística y tecnologías, se encargaría
de analizar los grandes volúmenes de datos.
A diferencia de la estadística tradicional que utilizaba muestras, el
científico de datos aplica sus conocimientos estadísticos para resolver
problemas de negocio utilizando tecnologías que no limitan la cantidad
de datos a emplear. y esto, abre la puerta para realizar cálculos que hasta
ahora no se podían realizar. Viktor mayer, de la oxford internet institute,
define el big data como el eterno sueño de la estadística: que no haya
que muestrear, sino que podamos analizar todos los datos generados en
un entorno dado. las capacidades tecnológicas ya no son un limitante.
en su libro “Big Data: A Revolution That Will Transform How We Live,
Work and Think” [6], nos habla sobre la “mentalidad de datos masivos”
como nuevo paradigma tecnológico que dé solución a los problemas de
muchas empresas.
con todos estos precedentes, muchos sectores de actividad económi-
ca ven nuevas oportunidades en esta “economía del dato”. sin embargo,
todavía muchos se preguntan qué diferencia al big data del business
intelligence que ya venían muchas compañías realizando. la respuesta,
básicamente, es la mayor disponibilidad de datos. el 90% de los datos
del mundo han sido creados en los últimos dos años [7]. en 2011, en el
Foro económico de davos, se introduce el dato como un nuevo activo a
gestionar y poner en valor por parte de las empresas [8]. Posteriormente,

en 2012, mcAfee y brynjolfsson escribieron el influyente artículo “Big
Data: The Management Revolution” [9]. era una época en la que todavía
poca gente conocía el concepto, y aún menos lo ponían en valor. el artí-
culo, supuso un punto de inflexión para muchas de las compañías que
leyeron con atención los postulados de estos autores.
el mundo del business intelligence que venimos usando ya desde los
años 90, nos ha aportado siempre una mirada hacia atrás. es decir, una
mirada que nos decía lo que había ocurrido en el pasado, de manera resu-
mida, agrupando y visualizando datos. el big data trae una nueva mira-
da, una perspectiva futura en la que buscamos predecir lo que pudiera
ocurrir para aprovechar oportunidades y escenarios, y adelantarse a tra-
vés de las técnicas que nos aporta el mundo del business Analytics. un
cruce entre los modelos analíticos que la estadística nos aporta, y que
permite modelizar el funcionamiento de las organizaciones. modelos
que han mejorado mucho su precisión gracias a la gran disponibilidad de
datos a procesar.
tres elementos son los que están impulsando que el big data y su
adopción sea exponencial. en primer lugar, la computación se ha abara-
tado. Fabricar ordenadores resulta muy económico. lejos quedan los
días en los que esto era un limitante. el libro “La sociedad de coste mar-
ginal cero” [10] de Jeremy Rifkin, explicó que los costes marginales
serían prácticamente nulos en esta era digital. esto hace que estemos
rodeados de dispositivos digitales en todas las esquinas. en segundo
lugar, la tecnificación de la sociedad y su digitalización. cada vez codi-
ficamos en objetos conectados a internet más conductas o expresiones
sociales. Así, los datos están cada vez más desperdigados y distribuidos
en diferentes entornos. los coches, las lavadoras, nuestra ropa o incluso
nuestras paredes ahora adquieren capacidades de escucha y actuación, lo
que hace que se generen cada vez más datos de todo ello. y, en tercer
lugar, vivimos en la era de las redes sociales. Hace unos cuantos años,
manuel castells, escribió el libro “el poder en la sociedad red” [11].
Habló de las redes sociales y su poder, y concretamente se refirió a las
mismas como medios de autocomunicación de masas. Redes que impli-
can interacción, comunicación y diálogo con nuestros “amigos”. las
redes sociales que empleamos en nuestro día a día (instagram, twitter,
Facebook, linkedin, etc.), son redes comerciales, que funcionan como si
fueran una televisión: el objetivo es generar datos sobre audiencias y
comportamientos para que luego puedan comercializar espacios de
impacto a esas audiencias. la sociedad se convierte así en proveedora de

datos.
Por todo ello, no es que tengamos ahora más capacidades computa-
cionales, sino que tenemos muchos más datos, generados a mucha mayor
velocidad, y con una variedad de formatos que hace que necesitemos un
nuevo paradigma de almacenamiento, procesamiento y puesta en valor
datos. A este nuevo paradigma lo hemos venido a bautizar como Big
Data. un paradigma que, dado que tenemos mucha abundancia de mate-
ria prima (datos), lo que necesita es de emprendedores de datos.
Personas que sepan interrogar y sacar valor de dichos datos. es decir,
estamos ante un paradigma que necesita de pensadores, de filósofos que
se formulen las mejores preguntas para extraer inteligencia y valor de los
datos.
tal es así que, las posibilidades que dispone ahora una organización
para su gestión y estrategia empresarial son realmente grandes. en este
artículo, vamos a exponer cómo hemos evolucionado del enfoque del
business intelligence de responder a los “qué ha pasado” (resumen del
pasado), al enfoque del business Analytics que responde a los “por qué ha
pasado” (prospección del futuro). el paradigma del big data, abre para
nuestras organizaciones nuevas posibilidades que debemos aprovechar.
2. Marco conceptual
en su artículo “Big Data: the Management Revolution”, mcAfee y

brynjolfsson, describieron cómo la implosión de la era digital y los datos
inherentes a su naturaleza y arquitectura, ayudaría mucho a mejorar la
famosa expresión de drucker “Lo que no se mide, no se puede mejorar”
[12]. y esto, obvia decir, resulta de mucho interés para la estrategia y
gestión de las empresas, donde la medición puede suponer una mejora
competitiva importante.
cuando decimos que la medición trae una mejor gestión, lo que veni-
mos a decir es que dado que tenemos más información, las decisiones
están mejor fundamentadas. no solo eso, las intervenciones, las acciones
que de las decisiones se deriven serán más efectivas, dejando de depen-
der tanto de la intuición. los directivos podrían conocer mejor sus nego-
cios para optimizar así su proceso de toma de decisiones y el rendimiento
en muchas dimensiones. de ese artículo, se pueden rescatar tres concep-
tos que, describen muy bien qué es esta era del big data: trazabilidad,
atribución y entendimiento. es decir, una era en la que la cada vez mayor
digitalización de muchos aspectos de nuestra sociedad, ha hecho que

podamos atribuir a un hecho sus causas y así entender mejor el compor-
tamiento de los seres humanos y su proceso de toma de decisiones.
en esta era digital donde dejamos traza de todo lo que hacemos (bús-
quedas, compras, conducciones, lecturas, etc.), alguien guarda y emplea
esos datos. es decir, que la trazabilidad y atribución de nuestras accio-
nes, permite que alguna organización entienda mejor cómo nos compor-
tamos y tomamos las decisiones. la nueva economía digital se enmarca
en una era en la que mucha gente piensa que lo que hacemos en internet,
lo que usamos, en muchas ocasiones, es gratis. los economistas suelen
decir eso de que “nada es gratis“ [13]. obviamente, algo o alguien tiene
que pagar los servicios y productos que consumimos. y esos, son los
datos, que permiten entender bien cómo nos comportamos en ese plano
digital tan omnipresente hoy en día.
Hace unos años, comprábamos un GPs que nos costaba entre 200 y
300 €. Hoy en día tenemos Google maps y Waze. no nos cuesta nada
poder usarlo, salvo la conexión a internet y los datos personales por
dónde nos desplazamos. es lo que les cedemos a cambio. el servicio de
histórico de localización de Google maps1 es el paradigma de esta reali-
dad en la era del big data. datos de localización que cedemos a cambio
de un servicio bastante útil e inteligente, que se anticipa en muchas oca-
siones a nuestras decisiones. Pero, también, en muchas ocasiones, vende
los datos a terceros.
Responder a la pregunta si esto es bueno o malo siempre es compli-
cado. es mejor responder en clave de costes y beneficios. Para obtener
un determinado beneficio, se debe asumir un coste. si el beneficio no
compensa el coste que nos genera ceder los datos históricos de localiza-
ción, entonces es un servicio que no debiéramos tener activado. estas
realidades que rodean a los datos personales en cierto modo resultan
contradictorias cuando la sociedad las conoce. un artículo de 2013 de los
economistas savage y Waldman titulado “The Value of Online Privacy“
[14], sugería que los ciudadanos estarían dispuestos a pagar porque sus
datos no fueran recopilados por las aplicaciones y servicios en internet.
Por otro lado, en otro artículo titulado “the value of privacy in Web
search“ [15], solo el 16% de los que participaron en la encuesta estarían
dispuestos a pagar porque su navegación en la web fuera totalmente pri-
1
maps.google.com/locationhistory
vada. en un reciente artículo de dos investigadores de la universidad de

chicago titulado “Is Privacy Policy Language Irrelevant to
Consumers?“ [16], solo una pequeña fracción de usuarios está dispuesta
a pagar 15 dólares para detener la invasión de privacidad.
en este punto es cuando cabría preguntarse para qué sirve este análi-
sis de grandes volúmenes de datos. como decíamos, los servicios en
internet y las empresas tecnológicas (hoy en día, gran parte de ellas)
están aprovechando estos datos. cuando norton y Kaplan introdujeron
el concepto de cuadro de mando integral [17] ya señalaron lo que con
el big data podemos obtener. los indicadores clave para la toma de
decisiones son más accesibles que nunca ante la gran abundancia de
datos que una empresa dispone (tanto dentro de la propia empresa como
en fuentes ajenas).
se puede responder así a la pregunta de la utilidad del big data
valiéndose del cuadro de mando integral de norton y Kaplan.
considerando sus cuatro perspectivas (Financiera, interna de procesos,
cliente e innovación y Aprendizaje), se pueden clasificar los enfoques
de explotación de datos en dos grandes grupos:
– Enfoque “hacia fuera” de la empresa: considerando la perspectiva
Financiera y de cliente del bsc, se identifican dos grandes explo-
taciones de datos:
• Obtención de nuevos ingresos: se trata de ayudar a las organiza-
ciones a obtener nuevos mercados, nuevos clientes, nuevos már-
genes sobre clientes ya existentes, nuevas oportunidades de pro-
ductos y servicios, etc.
• Fidelización de los clientes: en un mundo caracterizado por la
competitividad, la retención de los clientes actuales resulta de
enorme interés para las empresas, por no tener que volver a inver-
tir en su adquisición. Además, también la evidencia empírica
demuestra cómo a mayor ciclo de vida, mayor facilidad de sacar
más rentabilidad con la venta cruzada de nuevos productos o la
adquisición de nuevos productos o servicios de la misma empresa
por parte del cliente [18].
– Enfoque “hacia dentro” de la empresa: incluyendo la perspectiva
de Procesos y de Aprendizaje e innovación, fundamentalmente se
puede centrar el foco en la mejora de los procesos de una compañía.
de esta manera, la optimización de costes mediante la detección de
puntos de mejora y los factores que generan las desviaciones, se
convierten en otra utilidad a obtener del big data.
el big data, resumiendo, sirve así a las compañías en tres principales

utilidades: ganar más dinero, evitar perderlo y optimizar costes. unas
utilidades que aportan una mejora financiera y operacional que dota de
competitividad a las compañías. las organizaciones que están de verdad
obteniendo una ventaja competitiva sustantiva son aquellas que están
reformulando su organización para poner los datos en el centro, y sincro-
nizar procesos alrededor. organizaciones que se convierten en “data-dri-
ven business”, y en las que el contraste de hipótesis se convierte en una
nueva mirada hacia la toma de decisiones y la gestión estratégica, táctica
y operativa. tal es el caso de mercadona, que anunciaba a comienzos de
2016 su nuevo “cerebro tecnológico”, dentro de un ambicioso Plan de
transformación digital de 126 millones de euros2. en el centro de dicho
plan, un centro de Proceso de datos (cPd) que permite sincronizar pro-
cesos y tomar decisiones de abastecimiento, suministro, compra, venta,
descuentos, etc. gracias a lo que ha venido a denominar su cadena de
suministro conectada en tiempo real.
los datos, como se puede apreciar, alteran las estrategias de la com-
pañía, comenzando su rediseño por su localización en el centro de la
estrategia.
3. El Big Data en la toma de decisiones empresariales: descripción,

predicción y prescripción
con el big data, estas capacidades de observar fenómenos que antes

no eran evidentes (insights), deben ser incorporados en el día a día de la
empresa para que la misma gane valor. es decir, estas utilidades que des-
cribíamos anteriormente, podrán aportar valor a las organizaciones, en
tanto en cuanto incorporen los insights obtenidos en la toma de decisio-
nes.
todo ello es posible si llegamos a comprender los sucesos. esto nos
dará la capacidad no ya sólo de describir lo ocurrido, sino también de
predecir lo que pudiera ocurrir. la capacidad de explicar es una cuestión
de mostrar cómo ocurren las cosas dado un modelo válido. la de prede-
cir es la de mostrar cómo ocurrirán las cosas de acuerdo con ese modelo.
los modelos pueden ser físicos, materiales, o meramente teóricos. todos
2
http://www.expansion.com/economia-digital/companias/2016/02/29/56d49fcf268e3e521f
8b463b.html.
implican algún tipo de analogía entre el modelo y la realidad o el modelo

y otra afirmación científica.
Por todo ello, el objetivo de toda empresa pasa por construir modelos
que describan y ayuden a predecir lo que pudiera ocurrir en su día a día
en sus diferentes áreas funcionales (recursos humanos, compras, ventas,
marketing, comunicación, producción, logística, etc.). en definitiva, una
empresa no solo podría resumir el pasado (enfoque business
intelligence), sino también establecer relaciones y comparaciones entre
variables para tratar de adelantarse al futuro (business Analytics).
durante años, las herramientas de business intelligence han estado
centradas en el reporting (resumir el pasado). Posteriormente, lo estuvie-
ron en el diagnóstico pensando en el pasado. Hoy en día están en la pre-
dicción y prescripción. es decir, en adelantarnos a lo que pudiera ocurrir
y ayudar a las organizaciones a tomar decisiones infiriendo el mejor
rumbo a tomar o las decisiones a introducir. el valor, y el foco que debie-
ran tener las empresas, se centra en ser capaces de modelizar el funcio-
namiento de la empresa. de encontrar una serie de reglas que describan
lo que “suele” ocurrir en las empresas. estas reglas suelen engranarse en
lo que conocemos como algoritmos; una serie de reglas abstractas para
transformar datos. es decir, coger una fuente de información o datos, y
desarrollar una serie de reglas que permiten encontrar, expresar y repre-
sentar aquella respuesta que estábamos buscando a partir de los datos en
bruto.
Pero estas reglas no son una ciencia exacta. Kenneth Arrow, premio
nobel de economía en 1972, y experto en predicciones económicas dijo
aquello de: “El buen pronóstico no es el que te dice que lloverá, sino el
que te da sus probabilidades” [19]. es decir, nada es seguro hasta que
ocurre. la probabilidad cero no existe. Aprender a gestionar situaciones
en este mundo de la incertidumbre, asignando probabilidades a las dife-
rentes alternativas que puede tomar un determinado suceso, se vuelve así
crítico. de esta manera, podremos ayudar a las empresas, organizaciones
e individuos a asignar eficientemente recursos en múltiples situaciones.
y tomar en definitiva mejores decisiones.
estos algoritmos predictivos y prescriptivos modelan, representan,
una realidad ponderada por la probabilidad de que ocurra. este cálculo
de probabilidad se puede hacer bajo dos principales métodos. Por un
lado, como un concepto absoluto, en el sentido que todos damos la
misma probabilidad a un suceso. es la que ha sido predominante a lo
largo del siglo XX, con Ronald A. Fisher a la cabeza [20], con la inter-
pretación frecuentista de probabilidad. Hay un segundo enfoque, aún

más antiguo, pero que ha ganado mucha popularidad en los últimos tiem-
pos. es un enfoque subjetivo, en el que cada persona espera una mayor
o menor probabilidad. este enfoque fue mayoritario en el siglo XiX, con
Pierre-simon laplace al frente [21]. y esta subjetividad en la interpreta-
ción de la probabilidad se atribuye al teorema de bayes. dado que en
muchas ocasiones, para predecir, se tiene un conocimiento limitado, la
probabilidad es la expresión matemática de ese conocimiento. es decir,
“no se puede predecir con un 50% de probabilidades que saldrá cara“,
sino que “basándose en el conocimiento que se tiene, hay un 50% de
certeza que saldrá cara“.
el auge de los métodos bayesianos, especialmente, por la irrupción
del big data (que trae nuevo conocimiento), está provocando que mucha
gente cambie la forma de afrontar estos problemas. bayes no solo es una
fórmula, sino también una manera de afrontar predicciones y situacio-
nes. consiste en que a nueva información (recibida), nueva probabilidad
(estimada). según vaya obteniendo nueva información, se mejoran las
probabilidades iniciales que se tiene. A más información, más probabili-
dad se puede estimar. de ahí el enorme interés generado alrededor de la
toma de decisiones para la gestión y estrategia empresarial, donde la
incertidumbre es omnipresente, y la toma de decisiones en dicho contex-
to muy frecuente.
A través de estos algoritmos predictivos y prescriptivos expresados
bajo incertidumbre, se podrán procesar los datos de la organización para
la extracción de valor de los mismos. este tratamiento se puede hacer
bajo dos culturas, siguiendo la terminología introducida por el estadísti-
co leo breiman a través de un influyente artículo de 2001 [22]: la cul-
tura del modelado estadístico (regresión, reglas de asociación, Análisis
de componentes Principales, etc.) y la del modelado algorítmico e inte-
ligencia artificial (redes neuronales, Knn, etc.). breiman presentó
ambos paradigmas de procesamiento de datos como antagónicos.
incluso, rechazaba por obsoletas las postulaciones del modelado estadís-
tico de datos clásico, dado que en su opinión, había dado lugar a conclu-
siones equivocadas. la nueva cultura algorítmica, presentaba mucho
interés en el contexto predictivo del que estamos hablando.
en realidad, el antagonismo entre ambas culturas no es tal, sino que
más bien es precisa su complementariedad. y es que los métodos esta-
dísticos a los que se refiere breiman son los métodos estadísticos más
clásicos, que se desarrollaron sin la capacidad de tratamiento de datos
que sí tenemos hoy en día. Gracias a lo cual, pueden usarse modelos

generativos (en los que uno define la forma funcional de la respuesta) o
modelos que generan la estructura que esconden los datos (por ejemplo,
en las redes neuronales).
con estas dos culturas (la estadística y la algorítmica), y gracias espe-
cialmente al gran volumen de datos disponible, los algoritmos buscan
patrones, relaciones, etc. más interesante resulta así para muchas indus-
trias desarrollar algoritmos para encontrar inteligencia que transformar
en negocio. entender a los consumidores, los “por qué” de sus decisio-
nes, detectar elementos que hacen de cuello de botella en la cadena de
producción, abastecer de manera óptima la cadena de suministro, optimi-
zar las rutas para evitar perder tiempo, etc., son solo algunos ejemplos de
lo que estos algoritmos permiten hacer.
Por eso, hoy en día, hay tantos algoritmos. Además, cada vez más
sofisticados. Junto con el hardware y las redes, constituyen los ejes clave
sobre los que pivota esta transformación digital de muchas industrias.
estamos ya ante las máquinas más sofisticadas del planeta. cien millo-
nes de líneas de código incorporan los nuevos vehículos (frente a las
sesenta millones de líneas que tiene Facebook y las cinco millones de
líneas que tiene el colisionador de hadrones). estamos ante las primeras
máquinas que están alcanzando los límites biológicos de la complejidad.
el manejo de estas reglas abstractas de transformación de datos se ha
convertido en algo fundamental para obtener ventajas competitivas en la
estrategia de cualquier empresa.
4. Aplicación en las organizaciones
según el estudio the talent dividend, elaborado por la revista mit

sloan management Review y la empresa de software analítico sAs en
2015 [23], el 50% de las compañías asegura que entre sus prioridades está
aprender a transformar los datos en acciones de negocio. básicamente,
pasando de una perspectiva de informar (ver lo que ha ocurrido en el
pasado, y tomar decisiones reactivas -enfoque business intelligence-), a
una perspectiva de Predecir (inferir lo que puede ocurrir en el futuro y
tomar decisiones proactivas -enfoque business Analytics-).
y así, las empresas pueden comenzar a responder a preguntas como
las que se presentan a continuación:
– ¿Cómo puedo descubrir más información relevante sobre mis
clientes? datos como los drivers que le llevan realmente a comprar,
cómo se relacionan mis clientes entre ellos, qué opiniones son las
que han sido clave para la toma de decisión de compra, etc.
– ¿Qué pasaría si cambio el precio de mis productos/servicios?
disponer de un análisis de sensibilidad de una variable (precio) res-
pecto a su impacto en otra (ventas totales de ese producto o sobre
otros), de manera que puedo ver la relación entre las mismas.
– ¿Cómo puedo reducir la tasa de abandono de mis clientes?
construir un modelo de propensión a la fuga, para saber qué puntos
o acciones son las que pueden llevar a un cliente a abandonar la
empresa. de esta manera, a futuro, tendría más probabilidad de
encontrar clientes que pudieran no marcharse de la compañía.
– ¿Cómo puedo identificar a los clientes más rentables? no desde el
punto de vista de las ventas totales, sino del valor que extraigo de
cada uno de ellos (entendiendo valor como margen de beneficio).
– ¿Cómo puedo detectar fraude? Analizando el histórico de valores
que van tomando las variables para los casos de éxito (no hay frau-
de, se paga a tiempo, no hay insolvencias, etc.) y los de fracaso
(fraudes, impagos, etc.), se pueden construir modelos que relacio-
nen las variables que frecuentemente están asociados a los casos de
fracaso, y así poder anticiparse a futuro.
– etc.
Preguntas donde aparecen esos emprendedores de datos que comen-
tábamos al inicio de este artículo. no hay un conjunto cerrado de pregun-
tas a hacer a los datos. y más desde una mirada a los datos de gestión y
estrategia empresarial, donde cada organización tiene su propia realidad
y contexto. Por ello, las organizaciones suelen requerir de una clasifica-
ción de “posibles utilidades a extraer del big data”. los “para qué”
poder interesarse por el big data y las grandes promesas que se han
introducido en torno a ello.
la web especializada “Applied Enterprise Architecture”3, ofrece un
framework de posibles utilidades que clasificadas en torno al nivel de
ventaja competitiva que adquiere una empresa. A continuación, y con
objeto de ilustrar las posibilidades que abre el big data para las diferen-
tes organizaciones, se presentan las mismas:
1. Modelos estadísticos y algorítmicos: crear modelos que permitan
descubrir tendencias, patrones, relaciones, etc. anteriormente des-
3
pragmaticarchitect.wordpress.com
conocidas. Por ejemplo, detectar fraudes en la reclamación de póli-

zas de seguros, análisis de cestas de la compra de un retailer para
invitar a realizar promociones, etc. se suelen clasificar los modelos
de análisis de datos estadísticos en cuatro grandes familias,
siguiendo una serie de preguntas comunes a toda organización:
a. ¿Quieres predecir una categoría? en caso de ser afirmativa la
respuesta, la siguiente pregunta que cabe realizarse es si los
datos tienen una serie de campos para clasificar (saber si un
estudiante va a aprobar o no, o si va a comprar un determinado
producto o no) o no los tiene. si los dispone, es un algoritmo de
clasificación, muy utilizado para clasificar perfiles de clientes
en entidades financieras (scoring y profiling) y así saber si darle
un crédito o no (y ejemplos parecidos en otras industrias), por
ejemplo. Para todo esto son muy usados los árboles de decisión
(para ir navegando por las diferentes alternativas en sus ramas)
o las reglas de asociación (que construye un conjunto de reglas
que describen las relaciones y patrones de comportamiento de
las variables; por ejemplo, para saber qué comprará un cliente
que ha comprado también anteriormente un producto X y otro
y). en caso de no disponer una categoría sobre la que clasificar,
se trata de algoritmos de clustering. se agrupan los registros con
un comportamiento parecido en cuanto al valor que adquiere de
las variables (actividades de un estudiante, artículos que compra
y selecciona un cliente, productos financieros/seguros que va
adquiriendo, etc.), pero sin saber cómo clasificar a esos registros
con anterioridad en una sola categoría.
b. ¿Quieres predecir una cantidad? en estos casos, se pueden cons-
truir modelos de regresión o de machine learning (en función de
la complejidad y grado de aprendizaje que se quiera dar al orde-
nador), para así disponer de una herramienta de trabajo que mode-
la la relación entre las variables y así poder responder a cuestiones
anteriormente planteadas (cómo varían las ventas si cambio el
precio, predecir la demanda energética estacional usando las ten-
dencias históricas, predecir la capacidad de producción necesaria
para adelantarse a las necesidades de la industria, modelo de
deserción de un estudiante, posible fatiga de materiales o de
máquinas con carácter preventivo, predecir el factor de éxito o
fracaso más crítico para ser talentoso, qué canal de marketing
intensificar para sacarle más rentabilidad a la campaña, etc.)
c. ¿Estás simplemente observando datos? en este caso, podemos

hacer tareas relacionadas con la reducción de dimensionalidad,
tales como el Análisis de componentes Principales. imagínense
que una compañía tiene sesenta variables que analizar, lo que
resulta difícilmente gestionable. con estas técnicas, se puede
reducir esa dimensionalidad a dos o tres, bastante más maneja-
ble, siempre y cuando se cumplan una serie de reglas de repre-
sentación y significatividad del conjunto de datos. esta técnica
puede ser muy útil para identificar drivers de compra y compor-
tamiento agrupados, y así saber por qué nos compra un cliente o
qué atributos comparten un grupo de estudiantes que han fraca-
sado o triunfado.
d. si la respuesta a las preguntas anteriores es a todas no, lo que se
está buscando es predecir nuevas estructuras. dado que prácti-
camente ni siquiera se sabe lo que se quiere, es muy frecuente
que en estos casos se descubran nuevas relaciones, nuevas cla-
sificaciones, nuevos grupos, etc.
2. Minería de texto: descubrir y extraer patrones significativos y las
relaciones de las colecciones de texto, así como inferir el significa-
do del mismo (a través de los tratamientos semánticos). Por ejem-
plo, comprender los sentimientos de los clientes en los medios
sociales como twitter, Facebook, blogs, call center, etc. se utili-
zan para mejorar el servicio del producto o cliente o entender cómo
lo está haciendo la competencia. Además, se pueden extraer, de un
conjunto de textos, las entidades más frecuentes, y cómo se rela-
cionan las mismas. se trata, además, de un campo en el que se
prevé mucho desarrollo. según un artículo publicado en el sAs
Global Forum de 2014 [24], el 80% de los datos son desestructu-
rados, es decir, información de las organizaciones almacenada en
forma de documentos y texto. son muchos los retos tecnológicos
todavía ahí existentes.
3. Optimización: el uso de técnicas de simulación para identificar
escenarios que producirán los mejores resultados. Por ejemplo, la
optimización de precios para el escenario más favorable de ventas,
la identificación del inventario óptimo que evite rupturas de stock,
etc. son modelos de optimización y simulación muy usados para la
gestión de inventarios, gestión de redes de producción y distribu-
ción, relaciones entre productos y clientes, gestión eficiente de los
gastos y desviaciones en el marco de un proyecto, etc.
4. Visualización: análisis exploratorio de los datos que permita al usua-

rio entender mejor el problema al que se enfrenta. en definitiva,
mejorar la salida de los resultados del modelo estadístico con gráfi-
cos interactivos que mejoran la experiencia de usuario y el entendi-
miento de los fenómenos que se dan en nuestras sociedades.
Para alcanzar estas ventajas, la estrategia de implantación de una
solución de big data en una organización debe seguir unos pasos
secuenciales, planificados y bien ejecutados. el framework “The
Analytics Maturity Quotient” [25], expone los factores críticos de éxito
que deben incluirse en un proyecto de big data, a saber: calidad de los
datos, liderazgo, Habilidades analíticas, Procesos de toma de decisiones
basados en datos, e infraestructura tecnológica.
– Calidad de los datos: si una organización tiene un buen sistema
para el almacenamiento de datos, el proyecto puede al menos
comenzar. suele citarse el paradigma “GIGO” (Garbage-in-
Garbage-out) como reflejo de esto: si metemos malos datos, por
mucho que se tengan buenos modelos de tratamiento de datos, no
se podrán obtener buenos resultados de nuestro proyecto de big
data. este factor, el de calidad de datos, afecta a su vez al resto.
Pero, como se puede entrever en su representación formal, es el
más importante y representativo del conjunto de ellos. debemos
disponer de buenos datos. Pero esto no es sencillo. especialmente,
porque los datos brutos son poco expresivos. necesitamos dar con-
texto a los datos y descartar los datos no productivos. Por eso, es
importante no confundir datos con información y conocimiento.
según un estudio de emc, en 2013 sólo el 22% de los datos del
universo digital fueron útiles, y sólo el 5% de los ellos fueron ana-
lizados [26].
– Liderazgo “data-driven”: el 40% del éxito restante (una vez que
disponemos de “buenos datos“), depende de un liderazgo institu-
cional y organizativo que se crea de verdad que los datos y su aná-
lisis son una palanca excelente para la mejora de la toma de deci-
siones dentro de la compañía. en el artículo “Big Data: the mana-
gement revolution“ de la Harvard business Review, se ilustraba
esta idea de cambiar el paradigma de toma de decisiones de la “per-
sona mejor remunerada” (el HiPPo, highest paid person’s opinion,
a la fundamentación en datos). necesitamos así líderes, ceo,
gerentes, responsables de líneas, que adopten este discurso y valor
de los datos como palanca de apoyo a la toma de decisiones.
– Personas con habilidades analíticas: un 30% del éxito dependerá

de disponer de un buen equipo. Éste, es ahora mismo el gran han-
dicap en muchos países, como españa. Faltan “profesionales Big
Data“, en todos los roles que esto puede exigir: data science para
interrogar apropiadamente los datos, perfiles que pongan en valor
de negocio los datos y su explotación, tecnólogos de big data con
capacidades de despliegue de infraestructura, estadísticos y mate-
máticos,“visualizadores” de datos, etc. A esto, debemos sumarle la
importancia de tener cierta orientación a procesos de negocio o
mercado en general, dado que los datos son objetivos per se; de
dónde se extrae valor es de su interpretación, interrogación y apli-
cación a diferentes necesidades de empresa. Ahora mismo, este
handicap las empresas lo están resolviendo con la formación de las
personas de su organización.
– Proceso de toma de decisiones “data-driven”: con los “insights”
que se obtienen, se podrá mejorar el proceso de toma de decisiones.
una orientación hacia el análisis de datos como la palanca sobre la
que se tomarán las decisiones dentro de la compañía. y las decisio-
nes se toman, una vez que la orientación al dato se ha metido en los
procesos. ¿cómo tomaremos la decisión de invertir en marketing?
¿en base a la eficiencia de las inversiones y la capacidad de conver-
tir a ventas? ¿o en base a un incremento respecto al presupuesto del
ejercicio pasado? los datos están para tomar decisiones, no para ser
“un proyecto más“. un 20% es éste factor crítico de éxito.
– Infraestructura tecnológica: por último, obviamente, es difícil
emprender un proyecto de este calibre sin infraestructura tecnológi-
ca. la oferta de herramientas big data es cada vez más amplia. la
dificultad estriba en saber utilizar las mismas.
en cierto modo, estos elementos, con diferentes pasos y orden de
importancia, es lo mismo que viene a recomendar el libro “Big Data:
Using Smart Big Data, Analytics and Metrics to Make Better Decisions
and Improve Performance“ [27]. de él, se puede destacar la siguiente
imagen, que ilustra muy bien la idea: la tecnología da soporte a todo el
proceso de datos. desde la estrategia inicial (s), pasando por la medi-
ción de datos (m), su análisis a través de las dos culturas de tratamiento
de datos (A), la comunicación de resultados (R), y la toma de decisiones
en la empresa (t).
Fuente: “big data: using smARt big data, analytics and metrics to make better decisions and
improve performance”, bernard marr, 2015 [27]
5. Conclusiones
si algo ha producido esta era digital es que el valor se genera de

manera permanente. Pero no siempre es aprovechado por el que lo gene-
ra. los datos son un gran exponente de esta paradoja. los “datos a la
sombra” o datos “involuntarios” (acceso, búsquedas, lugares que fre-
cuentamos, etc.) ofrecen una visión de nosotros que las empresas están
aprovechando. con los ejemplos anteriormente expuestos, se puede
entrever que el nuevo paradigma del big data no va de tecnología solo.
la estrategia y el liderazgo corporativo son fundamentales para el éxito
del negocio. su alineamiento con los planos de gestión de una empresa
(ese enfoque “hacia dentro” y “hacia fuera” de una empresa), fundamen-
tal. tener claro que el output de un proyecto de big data será la toma de
decisiones estratégicas, tácticas u operativas, también. los datos, ade-
más, deben tener calidad, y contar con un científico de datos (esa profe-
sión tan atractiva) en el equipo resulta clave para identificar las nociones
clave que nos permitan tomar esas decisiones.
en el foro de davos se introdujo en 2011 la concepción de los datos
personales como nuevo activo de las empresas. desde entonces, la mira-
da a este mundo del big data ha tenido una visión utilitarista. es decir,
miradas sobre “¿Qué se puede hacer con los datos?” o “¿Qué puede
aportar a mi empresa?”. sin embargo, no debemos dejar de lado la pers-
pectiva legal y ética. en ella, destacan tres elementos: la propiedad inte-
lectual de los datos (consentir el empleo de los datos que cedemos sin
explicarnos con más detalle qué harán con ellos debe ser un elemento de
reflexión); la privacidad (que no solo es garantizar anonimato, sino tam-
bién reconocer la naturaleza temporal y cambiante de los datos); y, las
discriminaciones positivas y negativas (que un algoritmo no tome deci-
siones sin el valor social que aporta la perspectiva humana).
con estos retos éticos y legales encima de la mesa, Jack balkin, pro-
fesor de la facultad de derecho de yale, sugiere que las empresas en
internet que traten con datos personales y de preferencias debieran ser
“fiduciarias de información“. Algo similar a lo que ya hacen los doctores
y los abogados, que no pueden utilizar los datos para otros propósitos
que no sean la defensa de sus intereses y necesidades.
la utilización de la tecnología nunca es neutra. siempre hay personas
diseñando y definiendo aspectos de la misma. los datos, tampoco son
objetivos per se. son creaciones del ser humano. damos sentido y signi-
ficado a los mismos a través de nuestras interpretaciones, por lo que creo
deberíamos complementar las capacidades computacionales con las
nuestras cognitivas. Por eso las máquinas nunca debieran trabajar de
manera autónoma en todos los campos de la vida, dado que carecen de
algunas capacidades básicas que sí tenemos los humanos. el libro “The
Black Box Society: The Secret Algorithms That Control Money and
Information” [28] de Frank Pasquale trata estos aspectos para considerar
que los algoritmos se están apoderando de la economía pero no siempre
considerando unos mínimos éticos.
esta nueva economía digital en la que pagamos con datos personales
el uso de productos y servicios, ha hecho que los gobiernos -quizás
tarde- comiencen a regular algunas cuestiones. la confianza de los ciu-
dadanos en el mundo digital es crucial para que las empresas puedan
aprovechar el potencial económico de la información que da el big data.
Referencias
[1] deAn, JeFFRey, and sAnJAy GHemAWAt (2008): “mapReduce: simplified data
processing on large clusters”, Communications of the ACM 51.1. 107-113.
[2] PAGe, lAWRence, et al. (1999): The PageRank citation ranking: bringing order
to the web.
[3] Von neumAnn, J. & GodFRey, m. d. (1993): “First draft of a Report on the
edVAc”, IEEE Annals of the History of Computing, 15(4), 27-75.
[4] ziKoPoulos, P. & eAton, c. (2011): Understanding big data: Analytics for
enterprise class hadoop and streaming data. mcGraw-Hill osborne media.
[5] dAVenPoRt, t. H. & PAtil, d. J. (2012): “data scientist”, Harvard business
review, 90, 70-76.
[6] mAyeR-scHönbeRGeR, ViKtoR, and KennetH cuKieR (2013): Big data: A revo-
lution that will transform how we live, work, and think. Houghton mifflin
Harcourt.
[7] sinteF (2013, may 22): “big data, for better or worse: 90% of world’s data
generated over last two years”, ScienceDaily. Retrieved november 13, 2016
from www.sciencedaily.com/releases/2013/05/130522085217.htm
[8] scHWAb, KlAus, et al. (2011): Personal data: The emergence of a new asset
class. An initiative of the World economic Forum.
[9] mcAFee, AndReW, et al. (2012): “‘big data’. the management revolution”,
Harvard Bus Rev., 90.10 - 61-67.
[10] RiFKin, JeRemy (2014): La sociedad de coste marginal cero. Paidas, españa:
barcelona.
[11] cAstells, mAnuel (2009): “el poder en la sociedad red”, Comunicación y
poder, 33-85.
[12] dRucKeR, PeteR F. (1993): “We need to measure, not count”, Wall street jour-
nal, 13, A18.
[13] dolAn, e. G. (1971): “tAnstAAFl (there Ain’t no such thing As A Free
lunch)” the economic strategy for environmental crisis, new york, chicago,
san Francisco, Atlanta, dauas, montreal, toronto, london, sydney.
[14] sAVAGe, scott, and donAld m. WAldmAn (2013): “the value of online pri-
vacy”, Available at SSRN 2341311.
[15] PReibuscH, söRen (2013): The value of privacy in Web search, the twelfth
Workshop on the economics of information security (Weis).
[16] stRAHileVitz, lioR JAcob, and mAttHeW b. KuGleR (2016): Is Privacy Policy
Language Irrelevant to Consumers?.
[17] KAPlAn, RobeRt s. and dAVid P. noRton (1996): The balanced scorecard:
translating strategy into action. Harvard business Press.
[18] beRGeR, PAul d. and nAdA i. nAsR (1998): “customer lifetime value:
marketing models and applications”, Journal of interactive marketing, 12.1 -
17-30.
[19] ARRoW, KennetH J. (1987): “Planning and uncertainty.” International Journal
of Development Planning Literature, 2.2.
[20] FisHeR, RonAld A. (1957): Statistical method and scientific inference, 64-66.
[21] lAPlAce, PieRRe simon, and PieRRe simon (1951): A philosophical essay on
probabilities, translated from the 6th French edition by Frederick Wilson
truscott and Frederick lincoln emory.
[22] bReimAn, leo (2001): “statistical modeling: the two cultures (with comments
and a rejoinder by the author)”, Statistical Science, 16.3 - 199-231.
[23] RAnsbotHAm, sAm, dAVid KiRon, and PAmelA KiRK PRentice (2015): “the
talent dividend”, MIT Sloan Management Review, 56.4 - 1.
[24] cHAKRAboRty, GoutAm, and muRAli KRisHnA (2014): Analysis of unstructu-
red data: Applications of text analytics and sentiment mining. sAs global forum.
[25] AnAlytics mAtuRity Quotient FRAmeWoRK (2013): [online]. uRl:
http://www.aryng.com/whitepaper/bgft/Aryng_AnalyticsmaturityQuotient_Whi
tepaper.pdf
[26] tHe diGitAl uniVeRse oF oPPoRtunities (2014): Rich Data and the Increasing
Value of the Internet of Things.
[27] mARR, beRnARd (2015): Big Data: Using SMART big data, analytics and
metrics to make better decisions and improve performance. John Wiley & sons.
[28] PAsQuAle, FRAnK (2015): The black box society: The secret algorithms that
control money and information. Harvard university Press.

Paradigm A Big Data

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Paradigm A Big Data

Transféré par

Droits d'auteur :

Formats disponibles

boletin de estudios economicos

Vol. lXXi - n.º 219 - diciembre 2016

EL PARADIGMA DEL BIG DATA Y SU APORTACIÓN A LA

THE BIG DATA PARADIGM AND ITS CONTRIBUTION TO

Alex Rayón Jerez

la implosión de la era digital y los datos inherentes a su naturaleza y arquitectura han

1. Introducción: de los “qué” a los “por qué”

en 2004, dos ingenieros de Google, Jeffrey dean y sanjay

Data Processing on Large Clusters“ [1]. se trataba de un nuevo modelo

décadas que se lleva haciendo uso de estas técnicas. el sector financiero

gestionar y poner en valor por parte de las empresas [8]. Posteriormente,

impacto a esas audiencias. la sociedad se convierte así en proveedora de

en su artículo “Big Data: the Management Revolution”, mcAfee y

digitalización de muchos aspectos de nuestra sociedad, ha hecho que

vada. en un reciente artículo de dos investigadores de la universidad de

el big data, resumiendo, sirve así a las compañías en tres principales

3. El Big Data en la toma de decisiones empresariales: descripción,

con el big data, estas capacidades de observar fenómenos que antes

implican algún tipo de analogía entre el modelo y la realidad o el modelo

pretación frecuentista de probabilidad. Hay un segundo enfoque, aún

que sí tenemos hoy en día. Gracias a lo cual, pueden usarse modelos

4. Aplicación en las organizaciones

según el estudio the talent dividend, elaborado por la revista mit

conocidas. Por ejemplo, detectar fraudes en la reclamación de póli-

c. ¿Estás simplemente observando datos? en este caso, podemos

4. Visualización: análisis exploratorio de los datos que permita al usua-

– Personas con habilidades analíticas: un 30% del éxito dependerá

si algo ha producido esta era digital es que el valor se genera de

Vous aimerez peut-être aussi