Vous êtes sur la page 1sur 99

Introduccin al paradigma Big Data

Origen y conceptos previos

Diego J. Bodas Sagi Julio de 2014

Planteamiento del curso


Big Data Analytics
Introduccin al paradigma Big Data
Fundamentos MapReduce y Hadoop Distributed File
System (HDFS)
Comandos HDFS
Breve introduccin a la API Java MapReduce
R + Hadoop
Algoritmos con R y Hadoop
Conclusiones del curso

Introduccin al paradigma Big Data

Hola! Soy Diego J. Bodas Sagi


Experto en ingeniera de software, direccin
de proyectos y anlisis de datos
Experiencia destacada en proyectos tanto de
desarrollo como de investigacin
Ms de 12 aos de experiencia docente
(UCM, UC3M, UFV)
Doctor en Informtica, licenciado CC.
Matemticas, Master in Executive Project
Management (UV), M.B.A. (UNED), PMP
certified.

Introduccin al paradigma Big Data

ndice de la introduccin
Origen y explicacin del concepto Big Data
Big Data y Business Intelligence
Casos de uso Big Data
Tecnologas Big Data
Cmo implantar un lnea de proyectos Big Data
Data Science
Riesgos
Resumen

Introduccin al paradigma Big Data

La campaa que dio la victoria a Obama y puso el


Big Data en todas las portadas

Introduccin al paradigma Big Data

Qu significa Big Data?

Fuente: http://www.thebigdatainsightgroup.com/site/article/preparing-big-data-revolution

Introduccin al paradigma Big Data

Para qu sirve?

Fuente: http://dilbert.com/strips/comic/2012-07-29/

Introduccin al paradigma Big Data

Qu es?
Edd Dumbill (OReilly Media)
Big data is data that exceeds the processing capacity of
conventional database systems. The data is too big, moves
too fast, or doesnt fit the structures of your database
architectures. To gain value from this data, you must
choose an alternative way to process it.
Suficiente? No?...

Introduccin al paradigma Big Data

Mejor as?

Introduccin al paradigma Big Data

Fuentes: McKinsey, CISCO, Gartner, IBM.

Fuentes y tipos de datos


Fuentes:
Weblogs
Logs de sistemas
Sensores (relacin con el Internet de las cosas)
Dispositivos mviles
Tipos de datos:
Texto
Imgenes
Audio
Vdeo

Introduccin al paradigma Big Data

Las tendencias
Big Data: define tres tendencias interrelacionadas:
Capturar y gestionar grandes paquetes de informacin
Trabajar con diversos tipos de datos (informacin
desestructurada). Texto, audio, vdeo, tweets, imgenes
Nuevos usos, nuevas aplicaciones. Nuestras
funcionalidades e ideas parten de lo que somos capaces
de hacer. El negocio est cambiando, el trabajo cientfico
tambin (ADN, gentica, meteorologa)

Introduccin al paradigma Big Data

Objetivos
Escalable
Rendimiento
Seguridad

Introduccin al paradigma Big Data

En definitiva

Introduccin al paradigma Big Data

Realmente es necesario?
A la hora de realizar una encuesta electoral, es necesario
preguntar a todo el censo?
Si as fuese, estamos haciendo unas elecciones
El tamao de la muestra depende del tamao de la poblacin
y del nivel de confianza requerido

Introduccin al paradigma Big Data

Qu tamao de la muestra es necesario?


Cuanto mayor sea el tamao de la poblacin mayor tendr
que ser el tamao de la muestra.
De qu forma crece el tamao de muestra en funcin del
tamao de la poblacin teniendo fijado el nivel de confianza y
el margen de error (por ejemplo con nivel de confianza del
95% y margen de error de 5%?

Introduccin al paradigma Big Data

Sorpresa!
No llega a 400!

Para qu quiero tantos


datos entonces?
En este caso, parece que es mucho
ms importante asegurarse de tener
una muestra heterognea

Introduccin al paradigma Big Data

Inferencia estadstica
Disciplina que se ocupa del desarrollo de procedimientos, mtodos y
teoremas que permiten extraer conocimiento e informacin de datos
que han sido generados por procesos aleatorios (Rachel Schutt).
Imprescindible distinguir entre poblacin y muestra
Problemas para pensar:
Cmo seleccionar la muestra si queremos modelar el nmero de emails por da que envan los empleados de una multinacional? Hay
varios procedimientos? Se llega a la misma conclusin?
Anlisis de amenazas en las redes sociales (seguridad nacional):
qu muestra tomamos? cmo la seleccionamos?
Enfermedades, cncer, anlisis de sntomas, tipos de cnceres,
evolucin del paciente: cmo seleccionamos la muestra? cules
son los sntomas que incluimos? cules rechazamos? qu
pacientes incluir en la muestra? por qu unos s y otros no?

Introduccin al paradigma Big Data

Justificacin
Est presente en la muestra todo lo que queremos
saber/medir o slo los datos medios?
Si el 5% de error no es asumible?
Si el nicho de clientes al que nos dirigimos NO es el nicho de
clientes habitual? Cmo accedemos a sus datos si slo
hemos recogido una muestra global?
Si tenemos que procesar el ADN de una muestra de
paciente?
Si queremos analizar los millones de transacciones bancarias
que pasan por los servidores de un banco?
Si queremos analizar las rdenes de compra / venta emitidas
en la bolsa de valores?
Por qu trabajar con una muestra cuando SOMOS CAPACES

DE ANALIZAR TODA LA POBLACIN


Introduccin al paradigma Big Data

The Data Science Process

Ref: Doing Data Science. Rachel Schutt

Introduccin al paradigma Big Data

El Big Data
No pretende eliminar las herramientas de Business
Intelligence tradicionales
No pretende eliminar las BBDD tradicionales

S pretende cubrir aquellos huecos que las tecnologas


anteriores no cubren

Introduccin al paradigma Big Data

Big Data vs Business Intelligence


No es algo obvio, hay diversidad de opiniones
Business Intelligence
Ayuda a la toma de decisiones
Ms reactivo que proactivo
Alertas, OLAP, Queries, Informes
Frente al anlisis reactivo el anlisis proactivo
Optimizacin, modelado predictivo, anlisis estadstico

Introduccin al paradigma Big Data

Big Data vs Business Intelligence

Fuente: http://blogs.sas.com/content/corneroffice/2012/10/08/what-kind-of-big-data-problem-do-you-have/
Introduccin al paradigma Big Data

Y?

Si tan importante es, vamos al grano


Qu se est haciendo con esto?
Para qu sirve?

Introduccin al paradigma Big Data

Primeros ejemplos

Analiza grandes ficheros de registros (log)


para determinar si nuestros sistemas estn
funcionando correctamente

Introduccin al paradigma Big Data

Big Data y Frmula 1?


Un coche de Frmula 1
puede llevar (aprox.) 130
sensores
El ingeniero de datos se
encarga de la telemetra
Busca anomalas e intenta
predecir la respuesta del
coche

Introduccin al paradigma Big Data

El caso de GE

Optimizar el
mantenimiento de
los molinos de
viento.

Introduccin al paradigma Big Data

Netflix paga por resolver problemas Big Data

Introduccin al paradigma Big Data

Sistemas actuales de recomendacin

Introduccin al paradigma Big Data

Introduccin al paradigma Big Data

Nuestros comentarios tambin pueden


ayudar a definir gustos y preferencias

Introduccin al paradigma Big Data

Futuro o presente?

Introduccin al paradigma Big Data

Introduccin al paradigma Big Data

Por qu?
Diagnsticos ms precisos
Disminuir el nmero de errores mdicos permitira reducir el
nmero de ingresos y estancias prolongadas
Medicacin ms efectiva
Ms facilidad para llevar un nuevo medicamento al mercado

Introduccin al paradigma Big Data

Algunos datos ms

1 PB =109 MB = 106 GB = 103 TB


Fuente: http://wikibon.org/blog/big-data-statistics/

Fuente: http://mashable.com/2012/06/22/data-created-every-minute/
Introduccin al paradigma Big Data

Mitos Big Data


Big Data hace referencia slo a grandes volmenes de datos. FALSO

1.

Entornos con datos muy variados y/o generados a velocidades


considerables son ejemplos de problemas Big Data
No existe un convenio fijo y universal que dicte a partir de qu
tamao tenemos un problema Big Data.

Ciertas compaas tratan con un volumen de datos muy alejado


del volumen de informacin que circula por los servidores de
Google, Yahoo o eBay, pero, sin embargo, s que tienen que
trabajar con informacin tremendamente heterognea y
variable, por esta razn, las tecnologas yBig Data han supuesto
un alivio inmediato a sus necesidades

Introduccin al paradigma Big Data

Mitos Big Data


2.

Big Data = Hadoop.

FALSO

Hadoop es uno de los entornos ms populares, pero


disponemos tambin de las bases de datos NoSQL y
de algunos sistemas propietarios de procesamiento
distribuido para grandes volmenes de datos: EMCs
Greenplum, IBMs Netezza, HPs Vertica
3. Big Data es slo para social media. FALSO
El paradigma Big Data es muy til para anlisis de redes
sociales, pero tambin para anlisis de logs, anlisis de
transacciones financieras

Introduccin al paradigma Big Data

Mitos Big Data


4.

Imposible emplear SQL trabajando con las tecnologas Big


Data. FALSO
Disponemos de herramientas de alto nivel que buscan
facilitar el trabajo de los desarrolladores y que emplean
una sintaxis muy similar a SQL
5. NoSQL = No SQL. FALSO
NoSQL = Not Only SQL
Disponemos de plataformas de alto nivel que facilitan la
labor del desarrollador al permitir emplear un lenguaje
muy similar a SQL

Introduccin al paradigma Big Data

Basilea and Risk Management


Increased regulatory uncertainty, regulatory pressures, and
global business demands are also forcing financial services firms to
rethink the value of the technologies, data management, and
business processes they use to operate effectively, compete, and
manage risk. For example, the Basel Accord has established new
requirements for strengthening capital positions and for managing
counterparty risk exposures, placing new requirements on data
management, analytics, and reporting functions of the chief
financial and risk offices of the organization

Fuente: 2012 IDC Financial Insights

Introduccin al paradigma Big Data

Big Data y economa


Penny Pritzker, secretario de comercio de los EEUU en una
conferencia en el MIT (marzo de 2014):
"el anlisis de datos es un nuevo combustible para la
economa americana".
Pritzker cit un estudio de la consultora McKinsley que
prueba que "si hubiera open data en estos siete sectores electricidad, petrleo, gas, educacin, transporte, sanidad
y finanzas- se podra contribuir al desbloqueo de hasta
tres trillones de dlares"

Introduccin al paradigma Big Data

2 Parte
Introduccin a las tecnologas,
procesos y metodologas Big Data

Y, por qu no usar las BBDD tradicionales?


Bases de datos relacionales: lo importante es la transaccin,
pero
ahora tambin es importante la informacin subtransaccional!
Clicks pulsados a travs de una pgina
La manipulacin del carro de la compra en un comercio
on-line
Tweets
Mensajes de texto
XMLs: muy interesantes, informacin semi-estructurada,
muchas posibilidades

Introduccin al paradigma Big Data

Es posible?
S:
Auge gracias al bajo coste de hardware y software, cloud.
Tecnologas y nuevos paradigmas:
MapReduce y Hadoop

Introduccin al paradigma Big Data

Big Data vs Enterprise Relational Data


Big Data petabytes vs gigabytes o terabytes.
Big Data generado fuera de las aplicaciones tradicionales.
Datos desestructurados o semi-estructurados.
Por supuesto son complementarios, persiguen objetivos
distintos y pueden trabajar en sintona.

Introduccin al paradigma Big Data

Introduccin al paradigma Big Data

Introduccin al paradigma Big Data

Retos
Crecimiento de la informacin generada
Poder de procesamiento no crece al mismo ritmo de los
datos. Solucin: paralelizacin, divide y vencers.
Capacidad fsica de almacenamiento.
La problemtica de los datos: seguridad, propiedad,
interoperabilidad
Costes: los procesos ETL (Extract, Transform, Load) pueden
resultar caros.

Introduccin al paradigma Big Data

Thanks Google!
Google publica su artculos sobre Google File System (GFS) en
2003
Jeffrey Dean y Sanjay Ghemawat de Google publican su
artculo sobre MapReduce (2004)
Doug Cutting y Mike Cafarella (Yahoo) desarrollan Hadoop en
2005 aprovechando el trabajo de Google
Hadoop emplea Hadoop Distributed File System (HDFS)
Hadoop es clave en la explosin del concepto Big Data, es
un framework open source centrado en el procesamiento
distribuido de grandes cantidades de datos
Se cede a la Fundacin Apache y se distribuye con licencia de
Apache 2.0

Introduccin al paradigma Big Data

Bases de Datos NoSQL


NoSQL = Not Only SQL
Difieren del modelo clsico (RDBMS) en aspectos importantes,
No usan SQL como el principal lenguaje de consultas
Los datos almacenados no requieren estructuras fijas como
tablas
Normalmente no soportan operaciones JOIN, ni garantizan
completamente ACID (atomicidad, coherencia, aislamiento y
durabilidad), y habitualmente escalan bien horizontalmente.
Crecieron junto a Google, Amazon, Twitter, Facebook Actualmente
son empleadas por miles de compaas en todo el mundo

Introduccin al paradigma Big Data

Elementos bsicos
Disponibilidad: grado de capacidad para que el sistema siga
funcionando en caso de cada de uno de los nodos
Consistencia: garantiza que todas las rplicas son idnticas
entre s. Coherencia entre los datos almacenados en la BBDD
Tolerancia a fallos y particiones: el sistema funciona
correctamente independientemente del nmero de
particiones y nodos
Otras cuestiones:
Escalabilidad: habilidad para adaptarse al crecimiento del
volumen de informacin a tratar sin perder calidad
MongoDB, Neo4j no estn considerados por al comunidad
como ejemplos destacados de escalabilidad
Introduccin al paradigma Big Data

The CAP Theorem

Introduccin al paradigma Big Data

Explicacin
A ms disponibilidad necesitamos sacrificar consistencia, eso
quiere decir que puntualmente podramos encontrar datos
inconsistentes en nuestra BBDD distribuida

Introduccin al paradigma Big Data

Qu usar?

Fuente: http://kkovacs.eu/cassandra-vs-mongodb-vs-couchdb-vs-redis

Qu usar?

Fuente: http://kkovacs.eu/cassandra-vs-mongodb-vs-couchdb-vs-redis

Fuente: http://kkovacs.eu/cassandra-vs-mongodb-vs-couchdb-vs-redis

Cassandra vs HBase in detail

Fuente: http://www.infoworld.com/d/big-data/big-data-showdown-cassandra-vs-hbase-239592?page=0,3

Una pieza importante: MapReduce


Modelo de programacin que da soporte a la computacin
paralela sobre datos distribuidos
Basado en el principio de Divide y Vencers
No es til si se van a manejar unos pocos GBs. Para tratar de
terabytes a petabytes s.
Normalmente empleando un clster de varios servidores.
Puede trabajar con datos en brutos o con datos en BBDD
relacionales.
Usa un almacenamiento basado en mapas <clave, valor>
Reduce, agrupar valores segn su clave, puesto que estn
distribuidos.

Introduccin al paradigma Big Data

MapReduce
Ejemplo bsico de uso:
Comercio online con millones de usuarios e interacciones.
Departamento de marketing analiza bsquedas en la web.
Se guarda TrminoBsqueda/valor
La operacin reduce devolvera al final:
Los vengadores: 18875224
Prtatil MAC: 554211
U2: 22321
Otras aplicaciones:
Deteccin de fraudes: detectar comportamientos anormales
Gestin de activos (bolsa)
Gestin de logs
Investigacin gentica.
Cruzar bases de datos, fuentes de distintas procedencias
Introduccin al paradigma Big Data

Hadoop
Hadoop es un framework que permite el procesamiento
distribuido de grandes cantidades de datos. Est diseado
para ser totalmente escalable, permite trabajar con miles de
nodos.
Se fundamenta en MapReduce y Google File System. Sin
embargo, su mayor patrocinador ha sido Yahoo!
Quin usa Hadoop?
Amazon, Adobe, Facebook, eBay, Fox, Google, Yahoo!, IBM,
Linkedin, last.fm, Spotify, Twitter

Introduccin al paradigma Big Data

Por qu Hadoop es tan importante?


Open Source
Basado en estndares
El modelo clsico no era escalable en costes, infraestructura,
consultores, licencias, hardware a la hora de tratar grandes y
heterogneos volmenes de datos
Datos sobre Hadoop:
El nombre proviene de juguete preferido (un elefante) del
hijo de Doug
Escrito en Java
En su desarrollo participan: Yahoo, Facebook, LinkedIn,
Netflix, IBM, Twitter
Sectores de aplicacin:
Finanzas, ciencias, social media, comercio, gobierno
Introduccin al paradigma Big Data

Decisiones de diseo importantes


Ficheros de almacenan como bloques ms amplios que en
otros sistemas, por defecto 128 MBs.
Los bloques de replican entre dos ms DataNodes (valor por
defecto 3).
Un nico NameNode centraliza la gestin del acceso y los
metadatos asociados a estas operaciones.
No se emplea memoria cach para el almacenamiento de los
datos.
Interface sencilla con una API personalizable.

Introduccin al paradigma Big Data

Qu debemos buscar en una implementacin


de Hadoop?
1.
2.
3.

4.
5.
6.

Elevada escalabilidad.
Bajos tiempos de latencia (para favorecer la rapidez en
trabajos cortos).
Predictibilidad. Posibilidad de programar y planificar tareas
(Jobs) asegurando unos niveles de prestacin de servicio
(SLAs) estables.
Alta disponibilidad: ofrecer calidad de servicio (QoS).
Facilidad de gestin, favoreciendo el desarrollo.
Debe ser capaz de soportar varios proyectos MapReduce

Introduccin al paradigma Big Data

Service Level Agreements (SLAs)


Establecer las SLAs adecuadas y para cada una de ellas
especificar:
Cuntos Jobs se ejecutarn
Qu tipos de aplicaciones interactuarn con esos Jobs
Cul ser la prioridad, tiempo real, nocturno???
Cmo crecern los datos
Requisitos de seguridad
Disponibilidad
Impacto a la hora de cumplir o no las SLA

Introduccin al paradigma Big Data

La materia prima: los datos


Atencin a las cuestiones legales
Considerar los aspectos ticos
Tener en cuenta el mundo Open Data
Especificar y emplear una metodologa
Establecer objetivos
Planificar cada carga de datos
Usuarios
Volumen de datos
Tipos de datos
Tiempo de procesamiento, lmites.
Interaccin con el trfico de red existente en esos
momentos
Interaccin y colisiones con las aplicaciones que estn
interactuando con Hadoop
Introduccin al paradigma Big Data

Fuente: http://lod-cloud.net/versions/2011-09-19/lod-cloud_colored.png
Introduccin al paradigma Big Data

El proceso de gestin de los datos


En relacin al tratamiento de datos, se debe asegurar:
1. Integridad: asegurando que no se realicen
modificaciones por personas no autorizadas
2. Confidencialidad: evitar el acceso no autorizado sea ste
intencionado o no
3. Autenticidad: garantizar que los datos son fiables
4. Disponibilidad: asegurar que los datos estn disponibles
donde y cuando se necesitan

Introduccin al paradigma Big Data

Internet de las cosas

Fuente: http://www.idgconnect.com/IMG/691/3691/internet-of-things-620x354.jpg?1367909167

Introduccin al paradigma Big Data

La visin de Intel

Fuente: http://scoop.intel.com/files/2013/04/ISF_Infographic_1600x944.jpg
Introduccin al paradigma Big Data

Cuestiones clave
Cul es el coste de tomar decisiones equivocadas?
Qu tipo de decisiones tenemos que tomar? Son
operacionales o estratgicas?
Qu herramientas seleccionar?
Debemos considerar datos provenientes de otros entornos?
Son fiables? Son relevantes?

Introduccin al paradigma Big Data

Cuestiones clave
Cmo transferimos los resultados de la analtica a las
personas que deben tomar las decisiones?
Debemos emplear herramientas que nos ayuden con la
visualizacin de los datos? Cules?
Es escalable la estrategia planteada?
Debemos partir de un prototipo inicial?

Introduccin al paradigma Big Data

Cmo empezar?
Localizar el problema o la oportunidad
Encontrar las variables importantes
Establecer un plan estratgico que permita
Establecer fuentes de datos
Integrar
Medir
Analizar la informacin
Presentacin eficiente

Introduccin al paradigma Big Data

Elementos fundamentales del plan


Datos
Origen
Fiabilidad
Composicin
Almacenamiento
Tratamiento
Ciclo de vida
Modelos de anlisis
Herramientas

Introduccin al paradigma Big Data

Claves para implantar el plan


Alinear prioridades y objetivos estratgicos
Se pueden hacer muchas cosas, hagamos lo importante
Vigilar y equilibrar costes, resultados y velocidad de
obtencin
Conseguir que sea lo suficientemente simple para que se
pueda implantar y mantener en el tiempo
Si nadie lo entiende, qu utilidad tiene?

Introduccin al paradigma Big Data

Data Science
Moda o necesidad?

Motivacin fundamental
RESOLVER PROBLEMAS REALEAS EN DISTINTOS MBITOS DE
APLICACIN
No todos los problemas se pueden solucionar en base al
empleo de tecnologa y anlisis de datos. El objetivo del Data
Scientist es saber cules son los problemas que se pueden
resolver mediante el empleo de estos recursos

Introduccin al paradigma Big Data

Data Scientist

Informtico, estadstico, matemtico, programador web, diseador No es posible


aglutinar en un nico perfil todo el abanico de conocimientos que requiere un
departamento de Data Science
Introduccin al paradigma Big Data

Imposible? La clave est en el equipo

Introduccin al paradigma Big Data

Equipos de Data Science


Equipos INTERDISCIPLINARES
Lideran el proceso de toma de decisiones basadas en DATOS
Desarrollan nuevas metodologas para entender la causa y
origen de los fenmenos que los preocupan
Habilidades requeridas en el EQUIPO:
Programacin
Anlisis exploratorio de
Ingeniera de Software
datos
Estadstica
Sentido comn
Matemticas
Intuicin
Aprendizaje automtico
Experiencia en redes
sociales
Visualizacin
Habilidades comunicativas
Introduccin al paradigma Big Data

Podemos definir Data Science?

Ref: Drew Conway


Introduccin al paradigma Big Data

La definicin?
No hay un acuerdo universal
En general y resumiendo mucho las definiciones ms extendidas, se
podra definir como
Conjunto de conocimientos estructurados que permiten la toma

de decisiones basadas en el anlisis de grandes cantidades de


datos

La pregunta que surge ahora es: es algo nuevo?


OPININ PERSONAL: S
Justificacin: Los problemas que se abarcan exigen compaginar
la estadstica y el aprendizaje automtico con la complejidad
computacional derivada del tratamiento de grandes volmenes
de datos. La visualizacin en s misma se transforma en una
vertiente complicada en lo que se refiere a cmo transmitir la
informacin subyacente a un volumen de datos considerable
Introduccin al paradigma Big Data

Elementos indispensables a tener en


cuenta
Visualizacin de datos y
LAS TRAMPAS!!!

El reto de la visualizacin de datos


http://www.youtube.com/watch?v=X9UtUzHDn4c

Introduccin al paradigma Big Data

Bestial

Enlace: http://www.theguardian.com/news/datablog/2010/apr/01/information-is-beautiful-military-spending
Introduccin al paradigma Big Data

O no?

Introduccin al paradigma Big Data

Grfico
MORTAL

Introduccin al paradigma Big Data

Libro recomendado

Introduccin al paradigma Big Data

Suposiciones

2 + 2 = 5 El Papa y yo somos la
misma persona
Supongamos que 2+2=5. Entonces,
restando 3 a ambos lados obtenemos que
1=2
Como el Papa y yo somos dos personas y
1=2, entonces el Papa y yo somos uno
Por tanto, yo soy el Papa

El genial matemtico
Bertrand Russell

Fuente: http://gaussianos.com/si-partimos-de-algo-falso-podemos-demostrar-cualquier-cosa/
Introduccin al paradigma Big Data

Manipulacin / Error

Fuente: Jos Carlos Dez (en la Sexta Noche)

La cultura de los datos:


correlacin vs causalidad

Fuente: http://gaussianos.com/hay-que-decirlo-mas-correlacion-implica-causalidad/

Uno de los grandes retos

Fuente: http://www.networkworld.com/community/blog/digital-privacy-big-data-era-microsofts-data-protection-keynote
Introduccin al paradigma Big Data

El dilema de los datos


Qu podemos hacer con ellos?
Atencin a la legislacin vigente
Se recomienda:
Trabajar con datos agregados
Trabajar con datos anonimizados
Sin embargo, en ocasiones es posible descubrir el
propietario de los datos al cruzar los datos annimos
con otras fuentes de informacin

Introduccin al paradigma Big Data

La que se ha montado

Fuente: www.eleconomista.es ; www.eljueves.es


Introduccin al paradigma Big Data

Para quedarnos tranquilos


(al menos en Espaa)
La LOPD es una de las ms restrictivas del mundo
Los integrantes de las Fuerzas y Cuerpos de Seguridad del
Estado son profesionales de reconocido prestigio y
responsabilidad
Los protocolos implantados para solicitud de datos a
compaas telefnicas (por ejemplo) son robustos y estn
auditados

Introduccin al paradigma Big Data

Normativa internacional
Caso tpico:
Empresa que da servicio en Espaa, con servidores en
???
Qu legislacin prevalece?
En teora, la espaola, puesto que es donde se
proporciona el servicio y por tanto se debe cumplir con
la normativa del lugar
Muy difcil de comprobar, seguir, verificar

Desde el punto de vista jurdico hay retos que resolver


Solucin parcialmente aceptada por el mercado:
Acudir a empresas especficas que certifican que el
tratamiento de los datos se est realizando segn un
procedimiento determinado
El prestigio de estas compaas es esencial para dotar de
confianza al proceso
Introduccin al paradigma Big Data

Por lo que, no seamos paranoicos


(pero s vigilantes y precavidos)

Introduccin al paradigma Big Data

Y la solucin es
A nivel individual

Sentido comn (cuidado con las redes sociales!)


Responsabilidad (contraseas, apps, descargas)
Leer las clusulas de los contratos
En otros niveles
Transparencia
Legislacin
Formacin

Introduccin al paradigma Big Data

Resumen
El Big Data se perfila como una gran tendencia de futuro con
gran impacto en la economa
Son mltiples los sectores de aplicacin, destacando el
mbito sanitario
Data Science es una disciplina que exige equipos
multidisciplinares con el objetivo de apoyar la toma de
decisiones en la empresa
Importancia de establecer planes de actuacin y
metodologas adecuadas
El dato es la materia prima. La normativa legal es importante
MapReduce, Hadoop y las BBDD NoSQL son tecnologas clave
en este paradigma
Introduccin al paradigma Big Data

Vous aimerez peut-être aussi