Vous êtes sur la page 1sur 22

“Unidad I.

Introducción a Big Data”


Integrantes de Equipo 1:
• Saulo César Torres Soria
• Christian Antonio Jiménez Rodríguez
• Juan José Carlos Campos
• Juan Manuel Ramírez Olmos.
¿QUE ES BIG DATA?

Durante 2012-2013 más del 60% de los artículos de opinión de tecnología


avanzada hablan de Big Data como Ia nueva estrategia indispensable para Ias
empresas de cualquier sector, declarando, poco menos, que aquellos que no se
sumen a este nuevo movimiento se quedaran obsoletas en cuanto a Ia capacidad
de reacción en sus decisiones, perdiendo competitividad y oportunidades de
negocios contra su competencia.

Cuando hablamos de Big Data nos referimos a conjuntos de datos o


combinaciones de conjuntos de datos cuyo tamaño (volumen), complejidad
(variabilidad) y velocidad de crecimiento (velocidad) dificultan su captura, gestión,
procesamiento o análisis mediante tecnologías y herramientas convencionales,
tales como bases de datos relacionales y estadísticas convencionales o paquetes
de visualización, dentro del tiempo necesario para que sean útiles.
1.1. HISTORIA DE BIG DATA.

•Siempre es difícil identificar como surgen los conceptos y paradigmas. “Big Data”
no supone una excepción a esta regla siendo difícil identificar si surge como
consecuencia o acompañante de otros conceptos como el “Open Data”.

• El concepto datos abiertos (open data, en inglés) es una filosofía y práctica que
persigue que determinados tipos de datos estén disponibles de forma libre para
todo el mundo, sin restricciones de derechos de autor, de patentes o de otros
mecanismos de control. Tiene una ética similar a otros movimientos y
comunidades abiertos, como el software libre, el código abierto (open source, en
inglés) y el acceso libre (open access, en inglés)

• La popularización del término Big Data viene, sin duda, ligada al documento del
concepto publicado por McKinsey Global Institute en Junio de 2011, en el cual se
define como “conjuntos de datos cuyo tamaño va más olió de la capacidad de
captura, almacenado, gestión y análisis de las herramientas de base de datos
tradicionales”
1.2. LOS DATOS (LA VIDA) EN LA NUBE: BIG DATA Y
CLOUD COMPUTING.

En base a todo lo que hemos comentado, es fácilmente deducible que el punto de


encuentro entre Cloud computing y Big data versa sobre la ventaja de
almacenamiento y tratamiento distribuido de los datos que se consigue con una
infraestructura cloud.

El uso de cloud computing para entornos de big data, nos va a permitir escalar las
infraestructuras necesarias y capacidades de almacenamiento en función de las
necesidades empresariales. Cualquier empresa podrá tener acceso, en cada
momento específico, a los recursos óptimos para el análisis y almacenamiento de
los datos.

Además con el desarrollo del cloud computing y big data, existen empresas
proveedoras que “acomodan” sus servicios a las necesidades tecnológicas del big
data. Esto implica la posibilidad de usar herramientas específicas de Big data como
Hadoop o MongoDB en la nube.
1.3.El Significado de Big Data.
Esta palabra se ha utilizado para trasladar al público todo tipo de
conceptos entre los que se incluyen grandes cantidades de
datos, analítica de redes sociales, herramientas de última
generación para gestionar los datos, datos en tiempo real y
mucho más.
Entonces entendemos que Big Data es toda esa información
estructurada y no estructurada a la cual se le puede obtener un
valor mediante decisiones.
1.4. Volumen, Variedad y
Velocidad (las3V’s).
Volumen: hace referencia a las cantidades masivas de datos que
las organizaciones intentan aprovechar para mejorar la toma
de decisiones en toda la empresa. Los volúmenes de datos
continúan aumentado a un ritmo sin precedentes.
Variedad: gestionar la complejidad de múltiples tipos de datos,
incluidos los datos estructurados, semiestructurados y no
estructurados.
Velocidad: la que se crean, procesan y analizan los datos
continúa aumentando. Contribuir a una mayor velocidad es la
naturaleza en tiempo real de la creación de datos, así como la
necesidad de incorporar datos en streaming a los procesos de
negocio y la toma de decisiones.
1.5. Big Analytics.
Concepto que agrupa las tecnologías y desarrollos matemáticos
que se dedican a almacenar, analizar y cruzar toda esa
información para intentar encontrar patrones de
comportamiento. O lo que es lo mismo, atar cabos de cuáles son
nuestros hábitos y costumbres.
1.6. Plataforma de código abierto
“Hadoop”

• un software de código abierto, cuyo desarrollo coordina la


Apache Foundation, que facilita el almacenamiento de
información y permite hacer consultas complejas sobre las
bases de datos existentes, resolviéndolas con rapidez
• Hadoop se inspiró en los
documentos Google para MapReduce y Google File
System (GFS).
• Hadoop Distributed File System
• El Hadoop Distributed File System (HDFS) es un sistema de archivos
distribuido, escalable y portátil escrito en Java para el framework
Hadoop.
• dispone de un sistema para almacenar información en el que ésta
se replica en varias máquinas, distribuyéndose de tal manera que
si una máquina se cae no se pierdan los datos
• Esta herramienta permite hacer consultas a una base de datos
inmensa y obtener respuestas rápidas
• MapReduce puede resolver con éxito cargas de trabajo de gran
complejidad, como el procesamiento del lenguaje humano o el
aprendizaje de las máquinas
¿Quienes lo usan?
• IBM
• Cuando las empresas piensan en los grandes proyectos de TI, muchas
piensan en IBM, y con razón. Debido a eso, IBM se ha convertido en un
jugador importante en el mundo de los proyectos de Hadoop. Forrester
señala que IBM ya tiene más de 100 implementaciones de Hadoop, y
muchos clientes con petabytes de datos equivalentes.
• Intel
Al igual que Amazon Web Services, Intel está aprovechando y optimizando
su versión de Hadoop para que se ejecute en su hardware, específicamente
en sus chips Xeon. Para los clientes que buscan empujar los límites de su
sistema de Hadoop y una mayor afinidad entre el software y el hardware, la
distribución Hadoop de Intel podría ser para usted.

• Amazon Web Services


Los clientes que buscan una plataforma de nube pública alojada de Hadoop
no necesitan ir mucho más allá de lo que Forrester llama el "Rey de la
nube": Amazon Web Services. El producto Hadoop de la compañía se llama
Elastic Map Reducer (EMR), que según AWS utiliza Hadoop para ofrecer
servicios de gestión de big data. Sin embargo, no es 100% de código abierto,
ha sido pensado para funcionar específicamente en la nube de AWS
1.7.Introducción al
análisis de datos
simbólicos
Datos
simbólicos.
• Los datos simbólicos, introducidos por E. Diday en los
ochentas, se ocupan del análisis de datos con
variabilidad intrínseca (Propios de si mismos) que
debería ser tenida en cuenta en minería de datos,
análisis multivariado de datos y estadística clásica.
Representación
• Los datos simbólicos se pueden representar usando
los arreglos usuales en forma de matrices, pero en los
cuales los elementos de cada celda no son valores
numéricos reales individuales, como es usual, sino
conjuntos finitos de valores, intervalos o de forma más
general, distribuciones.
Variabilidad.
• Hay una variabilidad inherente en los datos, reducir
esta variabilidad mediante medidas de
tendencia central, media aritmética, mediana o
moda lleva obviamente a una pérdida de
información importante.
• El análisis de datos simbólicos proporciona un
marco que permite representar datos con
variabilidad, usando nuevos tipos de variables
Aplicaciones.
• En los últimos años surgió el término “Big Data”,
refiriéndose a conjuntos de datos tan grandes y
complejos que se vuelven difíciles de procesar en
un tiempo razonable con aplicaciones tradicionales
de análisis de datos.
• SDA, al ofrecer la posibilidad de agregación de datos
al nivel de granularidad (sensibilidad) elegido por el
usuario, mientras se mantiene la información sobre la
variabilidad intrínseca, y luego analizar los arreglos de
datos resultantes.
Estos métodos se pueden aplicar en:
Economía y Gestión, Marketing, Ciencias Sociales,
Geografía, estadísticas
sobre datos oficiales, así como para Biología y análisis de
datos Geológicos
Bibliografías:
• http://sedici.unlp.edu.ar/handle/10915/69945
• https://www-
05.ibm.com/services/es/gbs/consulting/pdf/El_uso_de_Big_Data_en_el_mundo_r
eal.pdf
• http://cluster.cenat.ac.cr/bigdata/files/OldemarRodriguez.pdf