Big Data1

UNIVERSIDAD MAYOR DE SAN ANDRES
FACULTAD DE CIENCIAS PURAS Y NATURALES

CARRERA DE INFORMATICA
NOMBRE: LUIS FERNANDO BAUTISTA MOLLO

CI. 9994084
MATERIA: INF 166
2019
1
INDICE
TEMA………………………………………………………………………….……. Pagina
1 DEFINICION………………………………………………………………………………………3
2 OBJETIVO…………………………………………………………………………………………5
3 CARACTERISTICAS…………………………………………………………………………..….5
4 PRINCIPALES FASES DEL BIG DATA…………………………………………………………8
4.1 ETAPA DE PREPARACION………………………………………………………………….8
4.2 ETAPA DE RECOPILACION, ANALISIS DE DATOS Y GENERACION DE VALOR…...9
5 HERRAMIENTAS………………………………………………………………………………..10
6 CONCLUCION…………………………………………………………………………………...10
7 BIBLIIOGRAFIA………………………………………………………………………………..
2
BIG DATA
1 DEFINICION
Big data (en español, grandes datos o grandes volúmenes de datos) es un término
evolutivo que describe cualquier cantidad voluminosa de datos estructurados,
semiestructurados y no estructurados que tienen el potencial de ser extraídos para
obtener información.
Los datos grandes se caracterizan a menudo por tres Vs: el Volumen extremo de
datos, la gran Variedad de tipos de datos y la Velocidad a la que se deben procesar
los datos. Aunque los grandes datos no equivalen a ningún volumen específico de
datos, el término se utiliza a menudo para describir terabytes, petabytes e incluso
exabytes de datos capturados con el tiempo.
Desglosando las 3 Vs de big data
Tales voluminosos datos pueden provenir de innumerables fuentes diferentes, como
registros de ventas comerciales, los resultados recogidos de experimentos
científicos o sensores en tiempo real utilizados en la internet de las cosas. Los datos
pueden estar en bruto o ser reprocesados utilizando herramientas de software
independientes antes de que se apliquen los análisis.
Los datos también pueden existir en una amplia variedad de tipos de archivo,
incluyendo datos estructurados, como almacenes de bases de datos SQL; datos no
estructurados, como archivos de documentos; o transmisión de datos desde
sensores. Además, big data puede incluir múltiples fuentes de datos simultáneas,
que de otro modo no podrían ser integradas. Por ejemplo, un gran proyecto de
análisis de datos puede intentar medir el éxito de un producto y las ventas futuras
correlacionando datos de ventas pasadas, datos de devolución y datos de revisión
de compradores en línea para ese producto.
Por último, la velocidad se refiere al lapso de tiempo en el que se deben analizar
grandes volúmenes de datos. Cada gran proyecto de análisis de datos va a ingerir,
correlacionar y analizar las fuentes de datos, y luego proveer una respuesta o
resultado basado en una consulta general. Esto significa que los analistas humanos
deben tener una comprensión detallada de los datos disponibles y tener cierto
sentido de qué respuesta están buscando.
La velocidad también es significativa, ya que el análisis de datos se expande en
campos como el aprendizaje automático y la inteligencia artificial, donde los
procesos analíticos imitan la percepción mediante la búsqueda y el uso de patrones
en los datos recopilados.
Big data en las demandas de infraestructura
3
La necesidad de grandes velocidades de datos impone demandas únicas en la
infraestructura de computación subyacente. La potencia de cálculo necesaria para
procesar rápidamente grandes volúmenes y variedades de datos puede
sobrecargar un solo servidor o un clúster de servidores. Las organizaciones deben
aplicar el poder de cálculo adecuado a las tareas de big data para lograr la velocidad
deseada. Esto puede potencialmente demandar cientos o miles de servidores que
pueden distribuir el trabajo y operar de manera colaborativa.
Alcanzar esa velocidad de una manera rentable es también un dolor de cabeza.
Muchos líderes empresariales son reticentes a invertir en un servidor extenso y una
infraestructura de almacenamiento que sólo se puede utilizar ocasionalmente para
completar tareas de big data. Como resultado, la computación en la nube pública
ha surgido como un vehículo primario para alojar grandes proyectos de análisis de
datos. Un proveedor de nube pública puede almacenar petabytes de datos y escalar
miles de servidores el tiempo suficiente para realizar el proyecto de big data. El
negocio sólo paga por el tiempo de almacenamiento y cálculo realmente utilizado, y
las instancias de nube se pueden desactivar hasta que se necesiten de nuevo.
Para mejorar aún más los niveles de servicio, algunos proveedores de nube pública
ofrecen grandes capacidades de datos, como instancias de computación altamente
distribuidas de Hadoop, almacenes de datos, bases de datos y otros servicios
relacionados con la nube. Amazon Web Services Elastic MapReduce (Amazon
EMR) es un ejemplo de servicios de big data en una nube pública.
El lado humano de la analítica de big data
En última instancia, el valor y la eficacia de los grandes datos depende de los
operadores humanos encargados de comprender los datos y formular las consultas
adecuadas para dirigir proyectos de big data. Algunas grandes herramientas de
datos se encuentran con nichos especializados y permiten a los usuarios menos
técnicos hacer varias predicciones a partir de datos de negocios cotidianos. Sin
embargo, otras herramientas están apareciendo, como los dispositivos Hadoop,
para ayudar a las empresas a implementar una infraestructura de computación
adecuada para abordar grandes proyectos de datos, minimizando la necesidad de
hardware y conocimientos de software de computación distribuida.
Pero estas herramientas sólo abordan casos de uso limitados. Muchas otras
grandes tareas de datos, como la determinación de la efectividad de un nuevo
fármaco, pueden requerir una gran experiencia científica y computacional del
personal analítico. Actualmente hay una escasez de científicos de datos y otros
analistas que tengan experiencia trabajando con grandes datos en un entorno de
código abierto distribuido.
Los datos grandes se pueden contrastar con los datos pequeños (small data), otro
término que se utiliza a menudo para describir los datos cuyo volumen y formato se
puede utilizar fácilmente para el análisis de autoservicio. Un axioma comúnmente
4
citado es que "los grandes datos son para las máquinas, los pequeños datos son
para las personas".
Usamos el Business Intelligence, los CRM u otras herramientas para obtener,
gestionar y analizar grandes volúmenes de datos que no hay ninguna otra manera
de “ordenar”, porque superan la capacidad del software tradicional.
2 OBJETIVO
Por ese motivo, el Big Data no solo sirve para sacar conclusiones de los datos, sirve
también para modificar direcciones estratégicas, para aprovechar el volumen y
variedad de datos para tomar decisiones precisas, en base a un objetivo
previamente marcado, para una actuación rápida.
3 CARACTERISTICAS
Las características más importantes del Big Data perfectamente se pueden clasificar
en cuatro magnitudes, más conocidas como las cuatro V del Big Data, relativas a
volumen, variedad, velocidad y veracidad. A estas cuatro V, podemos añadir tres
más, como pueden ser la de Viabilidad y Visualización. Pero si hablamos de V en
Big Data no podemos dejar pasar la principal característica del análisis de datos que
es la V de Valor de los datos. Así pues, en los últimos artículos se empieza a hablar,
ya no de las tradicionales cuatro V de Big Data, sino de las 7 “V” del Big Data:
 Volumen
 Velocidad
 Variedad de los datos
 Veracidad de los datos
 Viabilidad
 Visualización de los datos
 Valor de los datos
Volumen de información
El volumen se refiere a la cantidad de datos que son generados cada segundo,
minuto y días en nuestro entorno. Es la característica más asociada al Big Data, ya
que hace referencia a las cantidades masivas de datos que se almacenan con la
finalidad de procesar dicha información, transformando los datos en acciones.
Cada vez estamos más conectados al mundo 2.0 por lo que generamos más y más
datos. Para algunas empresas, el estar en el mundo digital es algo obligatorio, por
lo que la cantidad de datos generados es aún mayor. Por ejemplo, una empresa
que vende sus productos únicamente a través de un canal online, le convendría
implantar tecnología Big Data para procesar toda aquella información que recoge
5
su página web rastreando todas las acciones que lleva a cabo el cliente; conocer
donde cliquea más veces, cuántas veces ha pasado por el carrito de la compra,
cuáles son los productos más vistos, las páginas más visitadas, etc.
Velocidad de los datos
La velocidad se refiere a los datos en movimiento por las constantes interconexiones
que realizamos, es decir, a la rapidez en la que son creados, almacenados y
procesados en tiempo real.
Para los procesos en los que el tiempo resulta fundamental, tales como la detección
de fraude en una transacción bancaria o la monitorización de un evento en redes
sociales, estos tipos de datos deben estudiarse en tiempo real para que resulten
útiles para el negocio y se consigan conclusiones efectivas.
Variedad de los datos
La variedad se refiere a las formas, tipos y fuentes en las que se registran los datos.
Estos datos pueden ser datos estructurados y fáciles de gestionar como son las
bases de datos, o datos no estructurados, entre los que se incluyen documentos
de texto, correos electrónicos, datos de sensores, audios, vídeos o imágenes que
tenemos en nuestro dispositivo móvil, hasta publicaciones en nuestros perfiles de
redes sociales, artículos que leemos en blogs, las secuencias de click que hacemos
en una misma página, formularios de registro e infinidad de acciones más que
realizamos desde nuestro Smartphone, Tablet y ordenador.
Estos últimos datos requieren de una herramienta específica, debido a que el
tratamiento de la información es totalmente diferente con respecto a los datos
estructurados. Para ello, las empresas necesitan integrar, observar y procesar datos
que son recogidos a través de múltiples fuentes de información con herramientas
cualificadas.
Veracidad de los datos
Cuando hablamos de veracidad nos referimos a la incertidumbre de los datos, es
decir, al grado de fiabilidad de la información recibida.
Es necesario invertir tiempo para conseguir datos de calidad, aplicando soluciones
y métodos que puedan eliminar datos imprevisibles que puedan surgir como datos
económicos, comportamientos de los consumidores que puedan influir en las
decisiones de compra.
La necesidad de explorar y planificar la incertidumbre es un reto para el Big Data
que está a la orden del día en las compañías dedicadas al análisis de datos.
Viabilidad
6
La inteligencia empresarial es un componente fundamental para la viabilidad de un
proyecto y el éxito empresarial. Se trata de la capacidad que tienen las compañías
en generar un uso eficaz del gran volumen de datos que manejan.
La inteligencia competitiva también se asocia con la innovación de los equipos de
trabajo y el uso de tecnologías empleadas. Una empresa inteligente analiza,
selecciona y monitoriza la información con el fin de conocer mejor el mercado en el
que opera, a sus clientes y diseñar estrategias eficaces.
Es necesario filtrar a través de esta información y seleccionar cuidadosamente los
atributos y factores que son capaces de predecir los resultados que más interesan
a las empresas. El secreto del éxito es descubrir las relaciones entre las variables
ocultas.
Una vez que conoces la viabilidad de tu organización, es el momento de detallar el
proyecto en una hoja de ruta, y desarrollar el plan de negocio.
Visualización de los datos
Cuando hablamos de visualización nos referimos al modo en el que los datos son
presentados. Una vez que los datos son procesados (los datos están en tablas y
hojas de cálculo), necesitamos representarlos visualmente de manera que sean
legibles y accesibles, para encontrar patrones y claves ocultas en el tema a
investigar. Para que los datos sean comprendidos existen herramientas de
visualización que te ayudarán a comprender los datos gráficamente y en perspectiva
contextual.
Valor de los datos
El dato no es valor. Tampoco tienes valor por el mero hecho de recopilar gran
cantidad de información. El valor se obtiene de datos que se transforman en
información; esta a su vez se convierte en conocimiento, y este en acción o en
decisión. El valor de los datos está en que sean accionables, es decir, que los
responsables de las empresas puedan tomar una decisión (la mejor decisión) en
base a estos datos.
No todos los datos de los que partimos se convierten en acción o decisión. Para
ello, es necesario tener tecnologías aplicadas. Por ejemplo, una publicación en una
red social, que, gracias al uso de tecnologías de procesamiento de lenguaje natural,
puede medir el sentimiento positivo o negativo, con la ayuda de un algoritmo de
análisis de redes sociales o herramientas que permitan obtener de esto información.
En definitiva, el Big Data es una combinación de estas siete características donde
las empresas pueden obtener una ventaja competitiva frente a sus competidores
contribuyendo al éxito asegurado con las tres últimas V de viabilidad, visualización
y la más importante, la de valor.
7
No todas las compañías optaran por la misma metodología con respecto al
desarrollo y la creación de sus capacidades con tecnologías Big Data. Sin embargo,
en todos los sectores existe la posibilidad de recurrir a estas nuevas tecnologías y
analíticas para mejorar la toma de decisiones y el rendimiento, tanto a nivel interno
como en el mercado.
4 PRINCIPALES FASES DEL BIG DATA
4.1 Etapa de preparación
Fase inicial: es imprescindible valorar que la implementación de una solución de

Big Data en nuestro negocio es una alternativa factible y realista. En caso de que
así sea, tendremos que preparar todo lo necesario y conseguir las autorizaciones
pertinentes para poder llevarlo a cabo.
Detectar necesidades: tienen que ver con el volumen de datos a almacenar, su
variedad, velocidad de recogida, procesamiento y escalabilidad horizontal. En este
proceso también se revelan carencias cuando se confronta la nueva tecnología con
la existente en la compañía.
Justificar la inversión: con el Big Data se pretenden mejorar las cuestiones técnicas,
al igual que crear un entorno de alto rendimiento que posibilite el ahorro de costes.
Evaluar las limitaciones: se deberá tener en cuenta la infraestructura de la empresa,
su madurez tecnológica, sus recursos, pero, sobre todo, los aspectos legales en
relación a la privacidad de datos.
Fase de planificación: en esta fase se determinará el presupuesto con el vamos a
contar durante el proceso y los recursos que van a intervenir en el mismo, a saber:
Gestores: sponsors, directores de proyecto, coordinadores y gestores de calidad.
Diseñadores y arquitectos de datos: perfiles técnicos con los objetivos muy claros
en cuanto a la implementación del proyecto.
Implementadores: personal cualificado, analistas y desarrolladores, con
conocimientos del sector y de tecnología.
Operadores de datos: de entrada, intermedios y de resultado.
Fase de diseño: se parte de un diseño acorde a las necesidades de la organización
y se va optimizando teniendo en cuenta el coste, la escalabilidad y las distintas
opciones del mercado. Consta de 2 etapas:
Infraestructura: son las redes, los equipos o los servidores, es decir, el soporte físico
de la solución.
8
Arquitectura: es el apoyo lógico de la solución, formado por los protocolos, las
comunicaciones o los procedimientos, entre otros.
Fase de implementación: en este punto ya se han tenido que dejar cubiertos
aspectos como el de la administración, el mantenimiento o la seguridad para poder
poner en marcha la solución de Big Data. Los pasos, para ello, son los siguientes:
Instalación de servidores y componentes y puesta en marcha de la infraestructura.
Configuración de dicha infraestructura para su correcto funcionamiento.
Ingesta, transformación y explotación de datos.
4.2 Etapa de recopilación, análisis de datos y generación de valor
Fase de recopilación: Los datos son los componentes básicos del Big Data.
Durante el proceso se trasformarán en información y, con las técnicas adecuadas,
aportarán conocimiento.
Aquí ya podremos hablar de datos inteligentes. Dicho proceso comienza con estos
pasos:
Evaluar los datos: se realiza un estudio de la utilidad de los datos, una evaluación
de su volumen y frecuencia de explotación, y una definición de accesos y
restricciones para proteger información confidencial.
Absorber los datos para su explotación: se preparan y estandarizan los datos.
Gestión de datos: en relación a su seguridad, visibilidad, mantenimiento y
disponibilidad.
Fase de análisis: Es el núcleo de la solución de Big Data y se concreta en 2
acciones:
Generar los cálculos y algoritmos que se precisen para implementar la solución.
Intervención de especialistas para detectar patrones, tendencias y oportunidades
y/o amenazas.
Fase de agregación de valor: la investigación de los datos por parte de los
analistas permite la elaboración de conclusiones y la identificación de nuevas vías
de desarrollo del negocio.
Elementos primordiales del Big Data: Para llevar a cabo todo este proceso sin
fisuras, es vital que nuestra solución de Big Data cuente, al menos, con los
siguientes componentes:
Fuentes: las más habituales son los registros históricos de la compañía, los
almacenes de datos, los dispositivos inteligentes, los sistemas de gestión de datos,
Internet y el Internet de las Cosas. Para poder determinarlas es necesaria la puesta
9
en común de los conocimientos técnicos, por parte de los desarrolladores, y la
perspectiva del negocio, por parte de los analistas.
Capa de almacenamiento: su función es la de recoger y transformar los datos
sin perder de vista la normativa legal. Además, tiene que dar acceso a los datos
independientemente de su formato, volumen, frecuencia u origen.
Capa de análisis: se encarga de leer los datos almacenados. Mediante la
utilización de los modelos, los algoritmos y las herramientas adecuadas,
proporciona visibilidad sobre los datos para que puedan ser consultados en la capa
de consumo.
Capa de consumo: son muchos los proyectos y usuarios que se benefician del
conocimiento extraído en todo este proceso. La forma de consumir los datos
dependerá del destinatario, pero será habitual verlos en forma de reporting o
visualización en tiempo real.
5 HERRAMIENTAS
7 Herramientas Big Data para tu empresa
 Hadoop
 MongoDB
 Elasticsearch
 Apache Spark
 Apache Storm
 Lenguaje R
 Python
6 CONCLUCION
1ª: La información y los datos no valen nada si no somos capaces de transformarlas

en conocimiento
El concepto Big Data se ha convertido en un “Buzz Word”. Todo el mundo habla de
ello, pero nadie aclara para que sirve o que es el Big Data.
Lo que te debe quedar bien claro y lo que he aprendido sobre el Big Data en las
empresas es que de nada sirve poder analizar y almacenar millones de datos en
pocos segundo si al final no somos capaces de extraer ninguna conclusión de estos
datos y análisis.
Si no somos capaces de transformar los datos en conocimiento, nuestros esfuerzos
con el Big Data no valdrán de nada.
10
Esta es la primera lección sobre Big Data que debes tener clara. Los datos deben
servirnos para generar mayor conocimiento.
2ª: Las compañías más exitosas del mundo son empresas que aprovechan los datos
Así es, empresas como Facebook, Google, Amazon… Estas empresas han
enfocado su negocio hacia el análisis de datos. Para conocer mejor a sus clientes y
de esta forma mejorar la oferta de sus productos y servicios y también para reducir
costos operativos.
Estas empresas han decidido claramente explotar los datos internos y externos para
mejorar sus resultados.
Y esto es algo que se irá extendiendo en la próxima década al resto de sectores.
No solo se ceñirá a industrias relacionadas con las TIC. El Big Data afectará a toda
la industria de consumo y por extensión al resto de industrias relacionadas.
3ª: Recopilar los datos no es el reto, aunque lo parezca
La siguiente lección que he aprendido del Big Data en 2014 es que crear la
infraestructura para almacenar los datos tampoco es el reto a día de hoy.
Tal vez hace 5 años esta era una cuestión clave pero los costes de infraestructura
y hardware se han reducido tanto que en realidad el verdadero reto del Big Data
está en saber cómo responder a nuestras Big Questions en tiempo record y saber
cuáles son estas preguntas.
Muchas de las empresas que necesitan iniciar un proyecto de Big Data no tienen
por qué contratar los servicios IBM, una de las empresas punteras en este tipo de
implantaciones ahora mismo. No se trata de gastar millones sino adaptarse a lo que
necesitamos.
Lo que, si queda claro para mí, es que, para sobrevivir al final de esta década, tú y
tu empresa tendréis que ser capaces de explotar los datos generados en ella y fuera
de ella.
NO tendrás otra opción que adaptarte.
4ª: El reto del big data esta en diseñar los algoritmos que permitan analizar los datos
que almacenas
A día de hoy creo que este constituye el verdadero reto del Big Data.
Muy pocas son las personas, científicas de datos, que están capacitadas para
diseñar algoritmos que permitan trabajar y tratar los datos para responder a nuestras
preguntas.
El conocimiento para hacer esto de momento no está creado y faltan las personas
con la formación adecuada para realizar estos trabajos. Así que en los próximos
11
años el verdadero reto para extraer valor de los datos estará en poder incorporar a
las personas y su conocimiento para de verdad sacar todo el provecho al Big Data.
No será fácil porque partimos de una situación “cero”.
Aun así, en los mercados anglosajones ya están surgiendo soluciones a esta
escasez de talento en forma de market places especializados en Big Data como
Experfy.
Este tipo de alternativas puede facilitar las cosas si realmente sabemos que
queremos. Como explica con todo detalle Peter Diamandis en un artículo “How to
mine your data” donde precisamente explica cómo consiguió a través de Experfy
contratar un experto en minería de datos para poder desarrollar un algoritmo que
permitía predecir en eventos de networking quienes eran las personas con las que
más te interesaba hablar.
5ª: En los próximos años la profesión de científico de datos va a estar híper
demandada
Según un estudio de la empresa McKinsey para 2018 existirán entre 140.000 y
190.000 vacantes de científico de datos solo en EEUU.
Algo similar puede pasar en Europa y Asia.
De esta forma no parece fácil que las empresas vayan a ser capaces de poder
contar con personas cualificadas que les puedan ayudar a desarrollar las
habilidades y algoritmos necesarios para explotar y utilizar sus datos en grandes
proyectos.
Este cuello de botella, deberá ser tenido en cuenta y aunque los entornos y las
tecnologías avanzan rápido de tal forma que podrían reducir el problema, formar a
las personas es un proceso que siempre lleva varios años y esto debe ser tenido
muy en cuenta.
Cada organización deberá adaptarse de la mejor forma que pueda al Big Data en
los próximos años
Habrá empresas que se verán afectadas con mayor intensidad que otras. Esto
dependerá del sector donde realicen su actividad. Pero creo que poco a poco las
organizaciones irán aprendiendo a sacar valor y conocimiento de sus datos internos
y externos.
Siendo las primeras que lo hagan las que tengan la oportunidad de adelantarse en
la carrera por comprender y atender mejor a sus clientes.
12
7 BIBLIOGRAFIA
Mora Posted Laura (2016) “Qué es Big Data: fases y elementos”:

https://www.ve.com/es/blog/que-es-big-data-fases-elementos
Digital Research S.L (2014) “5 Lecciones sobre Big Data que aprendí en 2014”:
https://papelesdeinteligencia.com/lecciones-sobre-big-data/
Instituto de Ingeniería del conocimiento (2016) “Las 7 V del Big data: Características
más importantes”: http://www.iic.uam.es/innovacion/big-data-caracteristicas-
mas-importantes-7-v/
Porto Julián Pérez y Gardey Ana (2016) “Definición de Big Data”:
https://definicion.de/big-data/
Serra Lluis (@lluis_serra) (2016) “Cuál es el verdadero objetivo del ‘Big Data’”:
https://www.contunegocio.es/tecnologia/cual-es-el-verdadero-objetivo-del-
big-data/
Rouse Margaret (2017) “Big data”:
https://searchdatacenter.techtarget.com/es/definicion/Big-data
13

Big Data1

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Big Data1

Transféré par

Droits d'auteur :

Formats disponibles

UNIVERSIDAD MAYOR DE SAN ANDRES

FACULTAD DE CIENCIAS PURAS Y NATURALES

NOMBRE: LUIS FERNANDO BAUTISTA MOLLO

4 PRINCIPALES FASES DEL BIG DATA

4.1 Etapa de preparación

Fase inicial: es imprescindible valorar que la implementación de una solución de

4.2 Etapa de recopilación, análisis de datos y generación de valor

1ª: La información y los datos no valen nada si no somos capaces de transformarlas

Mora Posted Laura (2016) “Qué es Big Data: fases y elementos”:

Vous aimerez peut-être aussi