Vous êtes sur la page 1sur 75

Ecole Supérieure Africaine des Technologies de l’Information et de

Communication (ESATIC)

Cours de
SÉCURITÉ BIG DATA & CLOUD COMPUTING
Master 1

Enseignant :
Dr KOFFI Dagou Dangui Augustin Sylvain Legrand
Assistant
Ecole Supérieure Africaine des TICs (ESATIC)
dagousylvain@gmail.com
Objectifs pédagogiques

 Donner une notion sur les Big Data et Cloud computing ;

 Avoir la connaissance necessaire sur l’évaluation des risues ;

 Maître en place une architecture de sécurité et de protection des données;

 Maîtriser les protocols de sécurités adaptés au Big Data et au Cloud computing;

SÉCURITÉ BIG DATA & CLOUD COMPUTING Dr KOFFI Dagou Dangui Augustin Sylvain Legrand 3
PLAN

Chapitre 1 : Introduction au Big Data

Chapitre 2 : Hadoop

Chapitre 3 : Sécurité du Big Data

Chapitre 4 : Cloud Computing


SÉCURITÉ BIG DATA & CLOUD COMPUTING Dr KOFFI Dagou Dangui Augustin Sylvain Legrand 4
3. Sécurité du Big Data

SECURITE DU
BIG DATA

SÉCURITÉ BIG DATA & CLOUD COMPUTING Dr KOFFI Dagou Dangui Augustin Sylvain Legrand 5
3. Sécurité du Big Data

C’est quoi la sécurité ?

 Ensemble des moyens techniques, organisationnels, juridiques et


administratifs nécessaires à la mise en place de moyens visant à empêcher
l'utilisation non autorisée, le mauvais usage, la modification ou le détournement
du système d'information.

 Assurer la sécurité du système d'information est une activité du management du


système d'information.

SÉCURITÉ BIG DATA & CLOUD COMPUTING Dr KOFFI Dagou Dangui Augustin Sylvain Legrand 6
3. Sécurité du Big Data
Objectif de la sécurité
 La sécurité a pour objectif de réduire les risques pesant sur le système d’information, pour
limiter leurs impacts sur le fonctionnement et les activités métiers des organisations
 Quelques notions à connaître :

 Vulnérabilité : Faiblesse au niveau d’un bien (au niveau de la conception, de la


réalisation, de l’installation, de la configuration ou de l’utilisation du bien).

 Menace : Cause potentielle d’un incident, qui pourrait entrainer des dommages
sur un bien si cette menace se concrétisait.

 Attaque : Tentative d'accès non autorisé à un ordinateur, un système


informatique ou un réseau informatique dans le but de causer des dommages.

 Risque : La probabilité qu’une menace exploite une vulnérabilité et son impact.


SÉCURITÉ BIG DATA & CLOUD COMPUTING Dr KOFFI Dagou Dangui Augustin Sylvain Legrand 7
3. Sécurité du Big Data
Propriété de la sécurité (ISO/CEI 27001)
La sécurité des systèmes d'information vise les propriétés suivants (C.A.I.D.) :
 Confidentialité : seules les personnes autorisées peuvent avoir accès aux informations qui
leur sont destinées (notions de droits ou permissions). Tout accès indésirable doit être
empêché.
 Authenticité: les utilisateurs doivent prouver leur identité par l'usage de code d'accès. Il ne
faut pas mélanger identification et authentification : dans le premier cas, l'utilisateur n'est
reconnu que par son identifiant publique, tandis que dans le deuxième cas, il doit fournir un
mot de passe ou un élément que lui-seul connaît (secret). Mettre en correspondance un
identifiant publique avec un secret est le mécanisme permettant de garantir l'authenticité de
l'identifiant. Cela permet de gérer les droits d'accès aux ressources concernées et maintenir
la confiance dans les relations d'échange.
 Intégrité : les données doivent être celles que l'on attend, et ne doivent pas être altérées de
façon fortuite, illicite ou malveillante. En clair, les éléments considérés doivent être exacts et
complets. Cet objectif utilise généralement des méthodes de calculs de checksum ou de
hachage.
SÉCURITÉ BIG DATA & CLOUD COMPUTING Dr KOFFI Dagou Dangui Augustin Sylvain Legrand 8
3. Sécurité du Big Data
Propriété de la sécurité (ISO/CEI 27001)
 Disponibilité : l'accès aux ressources du système d'information doit être permanent
et sans faille durant les plages d'utilisation prévues. Les services et ressources sont
accessibles rapidement et régulièrement.

 D'autres aspects peuvent aussi être considérés comme des objectifs de la sécurité
des systèmes d'information, tels que :
 La traçabilité (ou « preuve ») : garantie que les accès et tentatives d'accès aux
éléments considérés sont tracés et que ces traces sont conservées et exploitables.

 La non-répudiation et l'imputation : aucun utilisateur ne doit pouvoir contester les


opérations qu'il a réalisées dans le cadre de ses actions autorisées et aucun tiers ne
doit pouvoir s'attribuer les actions d'un autre utilisateur.
SÉCURITÉ BIG DATA & CLOUD COMPUTING Dr KOFFI Dagou Dangui Augustin Sylvain Legrand 9
3. Sécurité du Big Data
DEFIS DE SECURITE DU BIG DATA
 Manipulation de données sensibles : L'analyse du Big Data offre aux entreprises un
formidable levier de croissance en leur permettent d'accéder aux informations clés
dissimulées dans leurs données. Or, ces informations sont généralement issues de
données sensibles qui ont été agrégées dans le référentiel de données.

 Intégrité de données difficiles à garantir : La nature du Big Data (volume, vélocité


et variété importants) permet difficilement de garantir l'intégrité des données.

 Mise en place compliquée d’un contrôle d’accès : Les environnements répartis


sans schéma prédéfini, dans lesquels peuvent être regroupées et agrégées les
données de sources hétérogènes, compliquent la mise en place de contrôles d'accès
SÉCURITÉ BIG DATA & CLOUD COMPUTING Dr KOFFI Dagou Dangui Augustin Sylvain Legrand 10
3. Sécurité du Big Data
DEFIS DE SECURITE DU BIG DATA
 La confidentialité dans le temps : A l’échelle du temps un algorithme de chiffrement
utilisé aujourd’hui n’est-elle pas déchiffrable dans l’avenir par des machines plus
performants.

 Atteintes à la vie privée : Certaines utilisations de l’analyse des mégadonnées


entraînent une violation de la vie privée. Par exemple, les entreprises de vente au
détail utilisent souvent l’analyse du Big Data pour prédire les détails des clients. Ces
détails sont souvent de nature personnelle et leur divulgation peut entraîner des
situations inconfortables. Les organisations, les détaillants ou tout autre type
d’entreprise ne doivent pas prendre de mesures qui portent atteinte à la vie privée des
personnes.
SÉCURITÉ BIG DATA & CLOUD COMPUTING Dr KOFFI Dagou Dangui Augustin Sylvain Legrand 11
3. Sécurité du Big Data
DEFIS DE SECURITE DU BIG DATA
 Anonymat impossible : Avec l’analyse du Big Data, il pourrait devenir impossible d’avoir des
fichiers de données anonymisés. À l’ère des gadgets intelligents, il est difficile de faire quoi
que ce soit en gardant votre identité secrète. Même lorsque les fichiers de données sont
anonymisés, ils peuvent être combinés avec d’autres fichiers pour identifier les individus. Cela
signifie que plus personne n’est complètement anonyme.

 Discrimination :Bien que la discrimination ait toujours existé dans tous les secteurs, l’analyse
prédictive ne fait que la rendre plus courante et d’une manière qui n’est pas vraiment objective.
Par exemple, une organisation financière peut ne pas être en mesure de déterminer la race
d’une personne à partir d’une demande de prêt, mais pourrait le faire à l’aide de plusieurs
autres données collectées via l’analyse des mégadonnées et l’Internet des objets (IoT). La
demande de prêt d’un demandeur pourrait alors être refusée.
SÉCURITÉ BIG DATA & CLOUD COMPUTING Dr KOFFI Dagou Dangui Augustin Sylvain Legrand 12
3. Sécurité du Big Data
DEFIS DE SECURITE DU BIG DATA
 Échec du masquage des données : Le masquage des données est utilisé par de nombreuses
organisations, mais s’il n’est pas utilisé correctement, l’analyse des mégadonnées pourrait
facilement révéler l’identité des individus. Les mégadonnées sont encore très récentes, et la
plupart des organisations ne se soucient pas des risques qui pourraient entraîner une violation
de la vie privée. Il devrait y avoir une politique appropriée en place qui établit des règles pour le
masquage des données, afin d’assurer la confidentialité maximale des individus.
 Aucune précision complète
Même si l’analyse des mégadonnées est puissante, elle n’est pas complètement précise. Il
existe des algorithmes défectueux, des modèles de données incorrects et des données
inexactes sur les individus. Cela pourrait faciliter de mauvaises décisions si l’exactitude des
données n’est pas validée. Des données inexactes peuvent nuire aux individus et entraîner une
perte d’emploi, un faux diagnostic erroné et le refus des services essentiels. Si l’analyse des
mégadonnées fait l’objet d’une confiance aveugle sans aucune vérification des données, cela
pourrait conduire à une multitude de problèmes et mettre de nombreuses personnes en danger.

SÉCURITÉ BIG DATA & CLOUD COMPUTING Dr KOFFI Dagou Dangui Augustin Sylvain Legrand 13
3. Sécurité du Big Data

VULNERABILITES D’UN SYSTÈME BIG DATA


 Trois catégories de vulnérabilités:

 Vulnérabilité de l'infrastructure : matériels et logiciels


 Vulnérabilité de la gestion des données : Accès, autorisation,
permissions,
 Vulnérabilité de la confidentialité des données: cycle de vie de la
données, données en transit, données au repos,

SÉCURITÉ BIG DATA & CLOUD COMPUTING Dr KOFFI Dagou Dangui Augustin Sylvain Legrand 14
3. Sécurité du Big Data

VULNERABILITES D’UN SYSTÈME BIG DATA


 Les plus courantes vulnérabilités :

 Injections : correspond au risque d’injection de commande (Système, SQL,


Shellcode, ...)
 Broken Authentification and Session Management : correspond au risque de
casser ou de contourner la gestion de l’authentification et de la session. Comprend
notamment le vol de session ou la récupération de mots de passe.
 Cross-Site Scripting : correspond au XSS soit l’injection de code dans une page,
ce qui provoquent des actions non désirées sur une page Web.
 Broken Access Control : correspond aux failles de sécurité sur les droits des
utilisateurs authentifiés. Les attaquants peuvent exploiter ces défauts pour accéder
à d'autres utilisateurs.
 Security Misconfiguration : correspond aux failles liées à une mauvaise
configuration
SÉCURITÉ BIG DATA & CLOUD COMPUTING Dr KOFFI Dagou Dangui Augustin Sylvain Legrand 15
3. Sécurité du Big Data

VULNERABILITES D’UN SYSTÈME BIG DATA


 Les plus courantes vulnérabilités :

 Sensitive Data Exposure : correspond aux failles de sécurité exposant des données
sensibles comme les mots de passe, les numéros de carte de paiement ou encore les
données personnelles et la nécessité de chiffrer ces données.
 Insufficient Attack Protection : correspond à un manque de respect des bonnes
pratiques de sécurité.
 Cross-Site Request Forgery (CSRF) : correspond aux failles liées à l’exécution de
requêtes à l’insu de l’utilisateur.
 Using Components with Known Vulnerabilities : correspond aux failles liées à
l’utilisation de composants tiers vulnérables.
 Underprotected APIs : correspond au manque de sécurité d'applications utilisant des
API

SÉCURITÉ BIG DATA & CLOUD COMPUTING Dr KOFFI Dagou Dangui Augustin Sylvain Legrand 16
3. Sécurité du Big Data
ATTAQUE SUR LE BIG DATA
 Attaque par mot de passe
Les mots de passe étant le mécanisme le plus couramment utilisé pour authentifier les utilisateurs
d’un système informatique, l’obtention de mots de passe est une approche d’attaque courante et
efficace. Le mot de passe d’une personne peut être obtenu en fouillant le bureau physique de la
personne, en surveillant la connexion au réseau pour acquérir des mots de passe non chiffrés, en
ayant recours à l’ingénierie sociale, en accédant à une base de données de mots de passe ou
simplement en devinant. Cette dernière approche – deviner – peut s’effectuer de manière aléatoire
ou systématique:
- Les attaques par force brute
- attaque par dictionnaire,

 Attaque par déni de service (DoS attack pour Denial of Service attack en anglais) est une
attaque informatique ayant pour but de rendre indisponible un service, d'empêcher les utilisateurs
légitimes d'un service de l'utiliser. À l’heure actuelle la grande majorité de ces attaques se font à
partir de plusieurs sources, on parle alors d'attaque par déni de service distribuée
(abr. DDoS attack pour Distributed Denial of Service attack).
SÉCURITÉ BIG DATA & CLOUD COMPUTING Dr KOFFI Dagou Dangui Augustin Sylvain Legrand 17
3. Sécurité du Big Data
ATTAQUE SUR LE BIG DATA
 Attaque de l’homme au milieu (MitM) : Une attaque de l’homme du milieu est un
pirate qui s’insère dans les communications entre un client et un serveur. Voici
quelques types courants d’attaques de l’homme du milieu.
- Détournement de session
- Usurpation d’IP
- Relecture
 Attaques phishing et spear phishing
l’hameçonnage consiste à envoyer des e-mails qui semblent provenir de sources fiables
dans le but d’obtenir des informations personnelles ou d’inciter les utilisateurs à faire
quelque chose. Cette technique combine ingénierie sociale et stratagème technique. Elle
peut impliquer une pièce jointe à un e-mail, qui charge un logiciel malveillant sur votre
ordinateur. Elle peut également utiliser un lien pointant vers un site Web illégitime qui vous
incite à télécharger des logiciels malveillants ou à transmettre vos renseignements
personnels.
SÉCURITÉ BIG DATA & CLOUD COMPUTING Dr KOFFI Dagou Dangui Augustin Sylvain Legrand 18
3. Sécurité du Big Data
ATTAQUE SUR LE BIG DATA
 Attaque par Drive by Download
Les attaques par téléchargement furtif sont une méthode courante de propagation des
logiciels malveillants. Les pirates recherchent des sites Web non sécurisés et insèrent un
script malveillant dans le code HTTP ou PHP de l’une des pages. Ce script peut installer des
logiciels malveillants directement sur l’ordinateur d’un visiteur du site, ou rediriger celui-ci
vers un site contrôlé par les pirates. Des téléchargements furtifs peuvent survenir lors de la
visite d’un site Web ou de l’affichage d’un e-mail ou d’une fenêtre pop-up. À la différence de
nombreux autres types d’attaques informatiques, un téléchargement furtif ne nécessite pas
qu’un utilisateur déclenche activement l’attaque – nul besoin de cliquer sur un bouton de
téléchargement ou d’ouvrir une pièce jointe malveillante pour être infecté.
SÉCURITÉ BIG DATA & CLOUD COMPUTING Dr KOFFI Dagou Dangui Augustin Sylvain Legrand 19
3. Sécurité du Big Data
ATTAQUE SUR LE BIG DATA
 Attaque par injection SQL
Elle se produit lorsqu’un malfaiteur exécute une requête SQL sur la base de données via
les données entrantes du client au serveur. Des commandes SQL sont insérées dans la
saisie du plan de données (par exemple, à la place du nom d’utilisateur ou du mot de
passe) afin d’exécuter des commandes SQL prédéfinies. Un exploit d’injection SQL
réussi peut lire les données sensibles de la base de données, modifier (insérer, mettre à
jour ou supprimer) les données de la base de données, exécuter des opérations
d’administration de la base de données (par exemple la fermer), récupérer le contenu
d’un fichier spécifique, et, dans certains cas, envoyer des commandes au système
d’exploitation.
SÉCURITÉ BIG DATA & CLOUD COMPUTING Dr KOFFI Dagou Dangui Augustin Sylvain Legrand 20
3. Sécurité du Big Data
ATTAQUE SUR LE BIG DATA
 Attaque par écoute illicite
Les écoutes clandestines sont le résultat d’une interception du trafic réseau. Elles
permettent à un attaquant d’obtenir des mots de passe, des numéros de carte bancaire
et d’autres informations confidentielles qu’un utilisateur envoie sur le réseau. Elles
peuvent être passives ou actives :
- Écoute clandestine passive – Un pirate détecte des informations en écoutant la
transmission de messages sur le réseau.
-Écoute clandestine active – Un pirate s’empare activement d’informations en se
faisant passer pour une unité amie et en envoyant des requêtes aux transmetteurs.
On appelle cela sonder, scanner ou saboter.
SÉCURITÉ BIG DATA & CLOUD COMPUTING Dr KOFFI Dagou Dangui Augustin Sylvain Legrand 21
3. Sécurité du Big Data
ATTAQUE SUR LE BIG DATA
 Attaque d’anniversaire
Les attaques des anniversaires sont lancées contre les algorithmes de hachage qui vérifient
l’intégrité d’un message, d’un logiciel ou d’une signature numérique. Un message traité par
une fonction de hachage produit une synthèse du message de longueur fixe, indépendante de
la longueur du message entrant ; cette synthèse caractérise de façon unique le message.
L’attaque des anniversaires fait référence à la probabilité de trouver deux messages
aléatoires qui génèrent la même synthèse lorsqu’ils sont traités par une fonction de hachage.
Si un attaquant calcule la même synthèse pour son message que l’utilisateur, il peut tout à fait
remplacer le message de l’utilisateur par le sien, et le destinataire ne sera pas en mesure de
détecter le remplacement, même s’il compare les synthèses.
SÉCURITÉ BIG DATA & CLOUD COMPUTING Dr KOFFI Dagou Dangui Augustin Sylvain Legrand 22
3. Sécurité du Big Data
ATTAQUE SUR LE BIG DATA

 Attaque par des logiciels malveillants


Un logiciel malveillant peut être décrit comme un logiciel indésirable installé dans
votre système sans votre consentement. Il peut s’attacher à un code légitime et se
propager, se cacher dans des applications utiles ou se reproduire sur Internet. Voici
quelques-uns des types de logiciels malveillants les plus courants :

SÉCURITÉ BIG DATA & CLOUD COMPUTING Dr KOFFI Dagou Dangui Augustin Sylvain Legrand 23
3. Sécurité du Big Data

SECURITE DE L’ECOSYSTEME HADOOP

SÉCURITÉ BIG DATA & CLOUD COMPUTING Dr KOFFI Dagou Dangui Augustin Sylvain Legrand 24
3. Sécurité du Big Data

 Initialement hadoop :
 Hadoop a été développé sans la moindre mise en place d’un système de sécurité.
 Ce Framework ne possède aucun mode d’authentification des utilisateurs, aucun
cloisonnement de données privées et toute personne est autorisée à exécuter un
code.

 Tous les utilisateurs et programmeurs ont le même privilège d’accès sur toutes les
données dans n’importe quel cluster où elles se trouvent, n’importe qui dispose du
droit de lecture sur celles-ci.

 Il n’existe aucun chiffrement lors des échanges des informations entre les
différents nœuds ou entre un nœud et un client
SÉCURITÉ BIG DATA & CLOUD COMPUTING Dr KOFFI Dagou Dangui Augustin Sylvain Legrand 25
3. Sécurité du Big Data

 Aujourd’hui il est possible d’adopter certaines mesures de


sécurités :

 le cryptage,

 l'authentification,

 l'autorisation

 les audits

SÉCURITÉ BIG DATA & CLOUD COMPUTING Dr KOFFI Dagou Dangui Augustin Sylvain Legrand 26
3. Sécurité du Big Data

 Aujourd’hui il est possible d’adopter certaines mesures de


sécurités :
 Le cryptage des données :Le cryptage vise à garantir la confidentialité
des données sensibles stockées dans Hadoop

 Il existe deux types de chiffrement de données qui chiffrent les données


en transit et les données au repos. Pour HDFS, le chiffrement des
données en transit peut être effectué par configuration, mais Kerberos
doit être activé avant la configuration.

 L'audit fait référence à la vérification périodique de l' ensemble de


l'écosystème Hadoop et au déploiement du système de surveillance des
journaux. HDFS et MapReduce fournissent un support d'audit de base.
Les failles de sécurité peuvent être causées par une exploitation
intentionnelle ou un déclenchement accidentel. Par conséquent, l'audit
SÉCURITÉ BIG DATA & CLOUD COMPUTING Dr KOFFI Dagou Dangui Augustin Sylvain Legrand 27
3. Sécurité du Big Data

 Aujourd’hui il est possible d’adopter certaines mesures de


sécurités :
L'autorisation est le processus de détermination des droits d'accès de l'utilisateur, en
spécifiant ce qu'il peut faire avec le système.

Comme Hadoop mélange divers systèmes dans son environnement, il a nécessité de


nombreux contrôles d'autorisation avec différentes granularités. Dans Hadoop, le
processus de configuration et de maintenance du contrôle d'autorisation est simplifié
et peut être effectué en divisant les utilisateurs en groupes en spécifiant dans le LDAP
ou Active Directory (AD) existant.

En dehors de cela, l'autorisation peut également être configurée en donnant un


contrôle d'accès basé sur les rôles pour les méthodes de connexion similaires. L'outil
populaire de contrôle d'autorisation est Apache Sentry

SÉCURITÉ BIG DATA & CLOUD COMPUTING Dr KOFFI Dagou Dangui Augustin Sylvain Legrand 28
3. Sécurité du Big Data

 Aujourd’hui il est possible d’adopter certaines mesures de


sécurités :
 L'authentification fait référence à la vérification de l'identité du système ou
de l'utilisateur pour accéder au système, ou en d'autres termes, il s'agit de la
procédure consistant à confirmer si l'utilisateur est la personne qu'il prétend
être. Deux technologies d'authentification courantes sont le protocole LDAP
(Lightweight Directory Access Protocol) pour l'annuaire, l'identité et d'autres
services, et Kerberos

SÉCURITÉ BIG DATA & CLOUD COMPUTING Dr KOFFI Dagou Dangui Augustin Sylvain Legrand 29
3. Sécurité du Big Data

 OUTILS DE SECURITE
HADOOP

SÉCURITÉ BIG DATA & CLOUD COMPUTING Dr KOFFI Dagou Dangui Augustin Sylvain Legrand 30
3. Sécurité du Big Data

 APACHE KNOX

SÉCURITÉ BIG DATA & CLOUD COMPUTING Dr KOFFI Dagou Dangui Augustin Sylvain Legrand 31
3. Sécurité du Big Data

Présentation de Knox
 Apache Knox est une passerelle applicative permettant d’interagir, de manière
sécurisée, avec les APIs REST et les interfaces utilisateurs d’un ou plusieurs
clusters Hadoop,

SÉCURITÉ BIG DATA & CLOUD COMPUTING Dr KOFFI Dagou Dangui Augustin Sylvain Legrand 32
3. Sécurité du Big Data

Présentation de Knox
 Apache Knox propose à l’installation les éléments suivant:

 Un support des services (WebHDFS, Apache Oozie, Apache Hive/JDBC, etc.)


 Des interfaces utilisateurs (Apache Ambari, Apache Ranger, etc.)
 Knox encapsule Kerberos, ce qui élimine la configuration côté client et simplifie le
modèle.
 De plus, Knox peut authentifier les informations d'identification des utilisateurs par
rapport à AD / LDAP avec son système de sécurité de périmètre basé sur l'API
REST
SÉCURITÉ BIG DATA & CLOUD COMPUTING Dr KOFFI Dagou Dangui Augustin Sylvain Legrand 33
3. Sécurité du Big Data
Fonctionnement de Knox
 Sur l’illustration :
Nous avons à gauche : des
utilisateurs qui peuvent être des
applications, des personnes qui font
des requêtes des jobs, etc. Ils
souhaitent interroger un framework
Hadoop via une requête HTTP

SÉCURITÉ BIG DATA & CLOUD COMPUTING Dr KOFFI Dagou Dangui Augustin Sylvain Legrand 34
3. Sécurité du Big Data
Fonctionnement de Knox
 L’initiateur de la requête va dans un
premier temps envoyer la requête à
Knox qui va interroger le service
d’autorisation et/ou d’authentification
(tel que Kerberos,LDAP, etc.) afin de
savoir si cet utilisateur a le droit de
contacter le service concerné.
Ensuite, Knox va aller interroger un
service Hadoop, et retourner la
réponse à l’utilisateur.
SÉCURITÉ BIG DATA & CLOUD COMPUTING Dr KOFFI Dagou Dangui Augustin Sylvain Legrand 35
3. Sécurité du Big Data
Fonctionnement de Knox Quelques définitions :

• Topology : C’est l’endroit où l’on va


retrouver l’ensemble des services. Il peut y
avoir plusieurs topologies dans le cas où l’on
souhaite que les services appelés varient en
fonction des utilisateurs ou autres paramètres.

• Service : Une topologie contient plusieurs


services. Chaque service contient au
minimum un rôle et une URL.

• Rôle : Le rôle est contenu dans le service, il


indique quel framework on appelle. Dans
notre exemple, nous appelons Hive, mais cela
aurait pu être WebHDFS, WebHCat, Oozie,
HBase, Yarn, Kafka…

SÉCURITÉ BIG DATA & CLOUD COMPUTING Dr KOFFI Dagou Dangui Augustin Sylvain Legrand 36
3. Sécurité du Big Data
Fonctionnement de Knox
 Dans un premier temps, l’utilisateur va
envoyer un message HTTP en direction
de Knox (par
défaut https://localhost:8443/…).

 Le message contiendra :
 la topologie avec laquelle il souhaite
interagir (ici la topologie “default”
configurée dans le fichier
default.xml),
 le rôle, qui sera l’application avec
laquelle il souhaite communiquer (ici
Hive),
 un user et un mot de passe si
besoin,
 la requête (par exemple “show
SÉCURITÉ BIG DATA & CLOUD COMPUTING Dr KOFFI Dagou Dangui Augustin Sylvain Legrand tables”). 37
3. Sécurité du Big Data
Fonctionnement de Knox
 Dans le fichier default.xml du dossier
Topologies, il va directement aller voir
quel service a pour rôle “Hive” et ainsi
contrôler le user et le mot de passe.
Si tout est bon en terme d’autorisations,
Knox va envoyer la requête à l’URL
indiquée, qui est l’URL de Hive. La
requête est transmise à Hive, qui y
répondra. Knox renverra alors la réponse
de Hive aux utilisateurs.

 En résumé, Knox va véritablement agir


comme un Proxy qui permet au client
de communiquer avec les serveurs
Hadoop via un seul point d’accès.
SÉCURITÉ BIG DATA & CLOUD COMPUTING Dr KOFFI Dagou Dangui Augustin Sylvain Legrand 38
3. Sécurité du Big Data

Ce que Knox apporte


 Protéger les informations du cluster de l'extérieur car on ne s’y connecte plus
directement mais via Knox,
 Diminuer le nombre de services avec lesquels le client doit interagir car désormais il
communiquera uniquement avec Knox,
 Simplifier le mécanisme d’authentification
Remarque
En terme de sécurité, Knox fonctionne avec les différentes couches d’autorisation et
d’authentification des clusters Hadoop. Il est donc utilisable avec Apache Ranger, Kerberos , le
protocole LDAP, ... et s'intègre bien avec les principaux IMS (Identity Management Solutions)
du marché .
SÉCURITÉ BIG DATA & CLOUD COMPUTING Dr KOFFI Dagou Dangui Augustin Sylvain Legrand 39
3. Sécurité du Big Data
Cas d’utilisation de Knox
 Knox est fait pour être utilisé dans un environnement avec des clusters Hadoop.
Il permettra de répondre à ces besoins :
 Étendre/simplifier les accès aux clusters sans perdre en sécurité,
 Simplifier les configurations de sécurité des clusters.
Il peut aussi répondre à des cas d'utilisations plus particuliers :
 authentification (en LDAP, SSO, SAML, etc.),
 autorisation (il dispose de son propre ACL),
 configuration de Kerberos (en l'encapsulant, évitant ainsi des configurations
côté client).

SÉCURITÉ BIG DATA & CLOUD COMPUTING Dr KOFFI Dagou Dangui Augustin Sylvain Legrand 40
3. Sécurité du Big Data
Cas d’utilisation de Knox
 SSO : Single Sign-On est une méthode permettant à un utilisateur d'accéder à
plusieurs applications informatiques (ou sites web sécurisés) en ne procédant qu'à
une seule authentification.
 SAML : Security Assertion Markup Language (SAML) est un standard ouvert qui
permet aux fournisseurs d’identité (IdP) de transmettre des données d’identification
aux fournisseurs de service. Les transactions SAML utilisent le XML (Extensible
Markup Language) pour les communications normalisées entre le fournisseur
d’identité et les fournisseurs de service. SAML est le lien entre l’authentification de
l’identité d’un utilisateur et l’autorisation à utiliser un service.
 LDAP : Lightweight Directory Access Protocol
SÉCURITÉ BIG DATA & CLOUD COMPUTING Dr KOFFI Dagou Dangui Augustin Sylvain Legrand 41
3. Sécurité du Big Data

 Apache Ranger

SÉCURITÉ BIG DATA & CLOUD COMPUTING Dr KOFFI Dagou Dangui Augustin Sylvain Legrand 42
3. Sécurité du Big Data
 Présentation de Ranger
 Apache Ranger permet une approche globale de la sécurité pour les clusters Hadoop:
Il fournit une plateforme centralisée permettant de définir, administrer et gérer les
politiques de sécurité de manière cohérente à travers l'écosystème Hadoop.

 Apache Ranger propose un framework de sécurité centralisé permettant de gérer


les contrôles d'accès(1) détaillés dans les écosystèmes suivants :
• Apache Hadoop HDFS • Apache Storm • Apache Kafka
• Apache Hive • Apache Knox • Apache NiFi
• Apache HBase • Apache Solr • YARN

SÉCURITÉ BIG DATA & CLOUD COMPUTING Dr KOFFI Dagou Dangui Augustin Sylvain Legrand 43
3. Sécurité du Big Data
 Présentation de Ranger

SÉCURITÉ BIG DATA & CLOUD COMPUTING Dr KOFFI Dagou Dangui Augustin Sylvain Legrand 44
3. Sécurité du Big Data
 Présentation de Ranger

SÉCURITÉ BIG DATA & CLOUD COMPUTING Dr KOFFI Dagou Dangui Augustin Sylvain Legrand 45
3. Sécurité du Big Data
 Présentation de Ranger
 Grâce à la console Apache Ranger, les administrateurs de sécurité peuvent gérer facilement les
politiques d'accès aux fichiers, dossiers, bases de données, tables ou même colonnes.

 Ranger KMS (Ranger Key Management Service) fournit un service de gestion de clés de
chiffrement évolutif permettant de chiffrer les « données au repos » HDFS. Ranger KMS est
basé sur l'Hadoop KMS développé à l'origine par la communauté Apache et vient compléter la
fonction native d'Hadoop KMS en permettant aux administrateurs système de stocker des clés
dans une base de données sécurisée.

 Ranger offre également aux administrateurs de sécurité une vision approfondie de leur
environnement Hadoop via une implantation d'audit centralisée qui contrôle toutes les
demandes d'accès en temps réel et prend en charge de nombreuses sources de destination,
notamment HDFS et Solr.
SÉCURITÉ BIG DATA & CLOUD COMPUTING Dr KOFFI Dagou Dangui Augustin Sylvain Legrand 46
3. Sécurité du Big Data
 Architecture de Ranger
 Ranger est principalement composé des trois composants suivants:
(1) Ranger Admin: Ranger Admin est le module principal de Ranger. Il a une page de
gestion Web intégrée et les utilisateurs peuvent formuler des politiques de sécurité via cette
interface de gestion Web ou REST.

(2) Agent Plugin: Agent Plugin est un plug-in intégré dans les composants Hadoop. Il extrait
et exécute régulièrement les politiques de Ranger Admin et enregistre les enregistrements
d'opération pour l'audit.

(3) User Sync: User Sync synchronise les données d'autorisations des utilisateurs / groupes
du système d'exploitation (utilisateurs / groupes) avec la base de données Ranger.
SÉCURITÉ BIG DATA & CLOUD COMPUTING Dr KOFFI Dagou Dangui Augustin Sylvain Legrand 47
3. Sécurité du Big Data
 Architecture de Ranger
 La relation entre eux est illustrée dans la figure suivante

SÉCURITÉ BIG DATA & CLOUD COMPUTING Dr KOFFI Dagou Dangui Augustin Sylvain Legrand 48
3. Sécurité du Big Data

 APACHE SENTRY

SÉCURITÉ BIG DATA & CLOUD COMPUTING Dr KOFFI Dagou Dangui Augustin Sylvain Legrand 49
3. Sécurité du Big Data
 Présentation de sentry
 Apache Sentry est un module d'autorisation granulaire basé sur les rôles pour
Hadoop.

 Sentry offre la possibilité de contrôler et d'appliquer des niveaux précis de privilèges


sur les données pour les utilisateurs et applications authentifiés sur un cluster
Hadoop.

 Il vous permet de définir des règles d'autorisation pour valider les demandes d'accès
d'un utilisateur ou d'une application aux ressources Hadoop. Sentry est hautement
modulaire et peut prendre en charge l'autorisation pour une grande variété de
modèles de données dans Hadoop

 Sentry fonctionne actuellement avec Apache Hive, Hive Metastore / HCatalog, Apache
Solr, Impala et HDFS (limité aux données de la table Hive).
SÉCURITÉ BIG DATA & CLOUD COMPUTING Dr KOFFI Dagou Dangui Augustin Sylvain Legrand 50
3. Sécurité du Big Data

 Architecture d’ensemble de Sentry

 Composants Sentry

Le processus d'autorisation comprend trois éléments:


 Serveur Sentry : Le serveur Sentry RPC gère les métadonnées d'autorisation. Il
prend en charge les interfaces pour récupérer et manipuler les métadonnées en
toute sécurité.

 Moteur de données : Il s'agit d'une application de traitement de données, telle que


Hive ou Impala, qui doit autoriser l'accès aux ressources de données ou de
métadonnées. Le moteur de données charge le plugin Sentry et toutes les
demandes des clients pour accéder aux ressources sont interceptées et acheminées
vers le plugin Sentry pour validation.
SÉCURITÉ BIG DATA & CLOUD COMPUTING Dr KOFFI Dagou Dangui Augustin Sylvain Legrand 51
3. Sécurité du Big Data

 Architecture d’ensemble de Sentry

 Composants Sentry

 Plugin Sentry : Le plugin Sentry s'exécute dans le moteur de données. Il offre des
interfaces pour manipuler les métadonnées d'autorisation stockées dans Sentry
Server et inclut le moteur de politique d'autorisation qui évalue les demandes
d'accès à l'aide des métadonnées d'autorisation extraites du serveur.

SÉCURITÉ BIG DATA & CLOUD COMPUTING Dr KOFFI Dagou Dangui Augustin Sylvain Legrand 52
3. Sécurité du Big Data

 Architecture d’ensemble de Sentry


 Concepts clés
 Authentification - Vérification des informations d'identification pour identifier de
manière fiable un utilisateur
 Autorisation - Limitation de l'accès de l'utilisateur à une ressource donnée
 Utilisateur - Personne identifiée par le système d'authentification sous-jacent
 Groupe - Un ensemble d'utilisateurs, maintenu par le système d'authentification
 Privilège - Une instruction ou une règle qui autorise l'accès à un objet

SÉCURITÉ BIG DATA & CLOUD COMPUTING Dr KOFFI Dagou Dangui Augustin Sylvain Legrand 53
3. Sécurité du Big Data

 Architecture d’ensemble de Sentry


 Concepts clés
 Rôle - Un ensemble de privilèges; un modèle pour combiner plusieurs règles
d'accès
 Modèles d'autorisation - Définit les objets soumis aux règles d'autorisation et la
granularité des actions autorisées. Par exemple, dans le modèle SQL, les objets
peuvent être des bases de données ou des tables, et les actions sont
SÉLECTIONNER, INSÉRER, et CRÉER. Pour le modèle de recherche, les objets
sont des index, des configurations, des collections, des documents; les modes
d'accès incluent la requête et la mise à jour.

SÉCURITÉ BIG DATA & CLOUD COMPUTING Dr KOFFI Dagou Dangui Augustin Sylvain Legrand 54
3. Sécurité du Big Data

 Architecture d’ensemble de Sentry


 Identité utilisateur et mappage de groupe

Sentry s'appuie sur des systèmes d'authentification sous-jacents, tels que Kerberos ou LDAP,
pour identifier l'utilisateur. Il utilise également le mécanisme de mappage de groupe configuré
dans Hadoop pour garantir que Sentry voit le même mappage de groupe que les autres
composants de l'écosystème Hadoop.

Considérez un exemple d'organisation avec les utilisateurs Alice et Bob qui appartiennent à un
groupe Active Directory (AD) appelé Département financier. Bob appartient également à un
groupe appelé directeurs financiers. Dans Sentry, vous créez d'abord des rôles, puis accordez
des privilèges à ces rôles. Par exemple, vous pouvez créer un rôle appelé Analyste et
accorder SÉLECTIONNER sur les tables Client et Ventes à ce rôle
SÉCURITÉ BIG DATA & CLOUD COMPUTING Dr KOFFI Dagou Dangui Augustin Sylvain Legrand 55
3. Sécurité du Big Data

 Architecture d’ensemble de Sentry


 Identité utilisateur et mappage de groupe

L'étape suivante consiste à joindre ces entités d'authentification (utilisateurs et groupes)


à des entités d'autorisation (rôles). Cela peut être fait en attribuant le rôle Analyst au
Département financier. Maintenant, Bob et Alice qui sont membres de
Département financier obtiennent SÉLECTIONNER privilège sur les tables Client
et Ventes.

SÉCURITÉ BIG DATA & CLOUD COMPUTING Dr KOFFI Dagou Dangui Augustin Sylvain Legrand 56
3. Sécurité du Big Data

 Architecture d’ensemble de Sentry


 Contrôle d'accès basé sur les rôles

Le contrôle d'accès basé sur les rôles (RBAC) est un mécanisme puissant pour gérer
l'autorisation d'un grand nombre d'utilisateurs et d'objets de données dans une entreprise
typique. De nouveaux objets de données sont ajoutés ou supprimés, les utilisateurs
rejoignent, déplacent ou quittent des organisations tout le temps. RBAC rend la gestion
beaucoup plus facile. Par conséquent, en tant qu'extension de l'exemple d'organisation
discuté précédemment, si une nouvelle employée Carol rejoint le département des finances,
tout ce que vous avez à faire est de l'ajouter au Département financiergroupe en
AD. Cela permettra à Carol d'accéder aux données des tables Sales et Customer.
SÉCURITÉ BIG DATA & CLOUD COMPUTING Dr KOFFI Dagou Dangui Augustin Sylvain Legrand 57
3. Sécurité du Big Data

 Architecture d’ensemble de Sentry


 Autorisation unifiée

L'autorisation unifiée est un autre aspect important de Sentry. Les règles de contrôle
d'accès une fois définies, fonctionnent sur plusieurs outils d'accès aux données. Par
exemple, obtenir le rôle d'analyste dans l'exemple précédent permettra à Bob, Alice et
d'autres dans le Département financier group d’ accéder aux données de table à partir
de moteurs SQL tels que Hive et Impala, ainsi qu'en utilisant les applications
MapReduce, Pig ou l'accès aux métadonnées à l'aide de HCatalog

SÉCURITÉ BIG DATA & CLOUD COMPUTING Dr KOFFI Dagou Dangui Augustin Sylvain Legrand 58
3. Sécurité du Big Data

 Architecture d’ensemble de Sentry

Comme illustré ci-dessus,


Apache Sentry fonctionne
avec plusieurs composants
Hadoop. Au cœur, vous
avez le serveur Sentry qui
stocke les métadonnées
d'autorisation et fournit des
API pour les outils
permettant de récupérer et
de modifier ces
métadonnées en toute
sécurité.

SÉCURITÉ BIG DATA & CLOUD COMPUTING Dr KOFFI Dagou Dangui Augustin Sylvain Legrand 59
3. Sécurité du Big Data

 ACL APACHE HDFS

SÉCURITÉ BIG DATA & CLOUD COMPUTING Dr KOFFI Dagou Dangui Augustin Sylvain Legrand 60
3. Sécurité du Big Data
Présentation des Access Control List
 ou liste de contrôle d'accès en français — désigne traditionnellement deux choses
en sécurité informatique :
 un système permettant de faire une gestion plus fine des droits d'accès aux
fichiers que ne le permet la méthode employée par les systèmes UNIX.

 en réseau, une liste des adresses et ports autorisés ou interdits par un pare-feu.

Remarque : La notion d'ACL est cela dit assez généraliste, et on peut parler d'ACL pour
gérer les accès à n'importe quel type de ressource

SÉCURITÉ BIG DATA & CLOUD COMPUTING Dr KOFFI Dagou Dangui Augustin Sylvain Legrand 61
3. Sécurité du Big Data

ACL Apache HDFS


 Vous pouvez utiliser les listes de contrôle d'accès (ACL) sur le système de fichiers
distribués Hadoop (HDFS). Les ACL étendent le modèle d'autorisation HDFS pour
prendre en charge un accès aux fichiers plus granulaire basé sur des combinaisons
arbitraires d'utilisateurs et de groupes

Configuration des ACL sur HDFS


 Vous devez configurer dfs.namenode.acls.enabled dans hdfs-site.xml pour
activer les ACL sur HDFS.

SÉCURITÉ BIG DATA & CLOUD COMPUTING Dr KOFFI Dagou Dangui Augustin Sylvain Legrand 62
3. Sécurité du Big Data
Configuration des ACL sur HDFS
Mettre dfs.namenode.acls.enabled = true en hdfs-site.xml

property>
<name>dfs.namenode.acls.enabled</name>
<value>true</value>
</property>

 Utilisation des commandes CLI pour créer et répertorier les ACL

 Vous pouvez utiliser les sous-commandes setfacl et getfacl pour créer et


répertorier les ACL sur HDFS. Ces commandes sont modélisées d'après les mêmes
commandes shell Linux.

SÉCURITÉ BIG DATA & CLOUD COMPUTING Dr KOFFI Dagou Dangui Augustin Sylvain Legrand 63
3. Sécurité du Big Data
Configuration des ACL sur HDFS

SÉCURITÉ BIG DATA & CLOUD COMPUTING Dr KOFFI Dagou Dangui Augustin Sylvain Legrand 64
3. Sécurité du Big Data
Configuration des ACL sur HDFS
Exemples:

Code de sortie:
Renvoie 0 en cas de succès et non nul en cas d'erreur.
SÉCURITÉ BIG DATA & CLOUD COMPUTING Dr KOFFI Dagou Dangui Augustin Sylvain Legrand 65
3. Sécurité du Big Data
Configuration des ACL sur HDFS
 getfacl
Affiche les ACL des fichiers et des répertoires. Si un répertoire a une ACL par défaut, getfaclaffiche
également l'ACL par défaut.
Usage:
-getfacl [-R] <path>
Tableau 2. Options getfacl
Option La description
-R Répertoriez les ACL de tous les fichiers et répertoires de manière récursive.
<path> Le chemin du fichier ou du répertoire à répertorier.

Exemples:
hdfs dfs -getfacl /file
hdfs dfs -getfacl -R /dir
Code de sortie:
Renvoie 0 en cas de succès et non nul en cas d'erreur.
SÉCURITÉ BIG DATA & CLOUD COMPUTING Dr KOFFI Dagou Dangui Augustin Sylvain Legrand 66
3. Sécurité du Big Data

Type d’hyperviseur ( type 1 & type 2)

 Un hyperviseur de type 1 :

 s'installe directement sur la couche matériel.


 Outil de contrôle du système d'exploitation(noyau allégé et optimisé pour la
virtualisation de machines
 Au démarrage de la machine physique, l'hyperviseur prend directement le
contrôle du matériel, et alloue l'intégralité des ressources aux machines
hébergées.
 Adapter aux gros serveurs demandant de conséquentes ressources pour
fonctionner correctement.
SÉCURITÉ BIG DATA & CLOUD COMPUTING Dr KOFFI Dagou Dangui Augustin Sylvain Legrand 67
3. Sécurité du Big Data

Type d’hyperviseur ( type 1 & type 2)

 Un hyperviseur de type 2 :

 Un hyperviseur de type 2 est considéré comme un logiciel, s'installant et


s'exécutant sur un système d'exploitation déjà présent sur la machine
physique.

 Le système d'exploitation virtualisé par un hyperviseur de type 2 s'exécutera


dans un troisième niveau au dessus du matériel, celui-ci étant émulé par
l'hyperviseur.

SÉCURITÉ BIG DATA & CLOUD COMPUTING Dr KOFFI Dagou Dangui Augustin Sylvain Legrand 68
3. Sécurité du Big Data

Type d’hyperviseur ( type 1 & type 2)

Hyperviseur de type 1 Hyperviseur de type 2


SÉCURITÉ BIG DATA & CLOUD COMPUTING Dr KOFFI Dagou Dangui Augustin Sylvain Legrand 69
3. Sécurité du Big Data

DIFFERENTS TYPES DE VIRTUALISATION

SÉCURITÉ BIG DATA & CLOUD COMPUTING Dr KOFFI Dagou Dangui Augustin Sylvain Legrand 70
3. Sécurité du Big Data

DIFFERENTS TYPES DE VIRTUALISATION


 virtualisation système : de virtualiser un système d’exploitation. On peut
distinguer deux catégories
 Les systèmes non-modifiés : c’est le type de virtualisation le plus utilisé
aujourd’hui.
VMware, VirtualPc, VirtualBox et bien d’autres appartiennent à cette catégorie. On
distingue la virtualisation matérielle assistée de la virtualisation totale car cette
dernière est améliorée grâce aux processeurs Intel-V et AMD-V qui implantent la
virtualisation matérielle dans leurs produits.

 Les systèmes modifiés : la virtualisation nécessite de modifier et d’adapter le


noyau
d’un système (Linux, BSD, Solaris). On parle alors de paravirtualisation.
SÉCURITÉ BIG DATA & CLOUD COMPUTING Dr KOFFI Dagou Dangui Augustin Sylvain Legrand 71
3. Sécurité du Big Data

DIFFERENTS TYPES DE VIRTUALISATION


 la virtualisation processus ne virtualise pas l’intégralité d’un système
d’exploitation mais uniquement un programme particulier au sein de son
environnement
 l’émulation qui est une imitation du comportement physique d’un matériel
par un logiciel

SÉCURITÉ BIG DATA & CLOUD COMPUTING Dr KOFFI Dagou Dangui Augustin Sylvain Legrand 72
3. Sécurité du Big Data

ACTEUR DE LA VIRTUALISATION
 VMware occupe 65% de parts de marché grâce à ses solutions
d’hyperviseurs comme ESX/ESXi et grâce à VSphere qui sert à déployer
des infrastructures cloud de façon plus aisée.

 Microsoft se retrouve en deuxième position, loin derrière VMware avec


environ 27% de part demarché grâce à Hyper-V qui constitue sa solution
de virtualisation intégrée de base à Windows server 2008 R2.

SÉCURITÉ BIG DATA & CLOUD COMPUTING Dr KOFFI Dagou Dangui Augustin Sylvain Legrand 73
3. Sécurité du Big Data

ACTEUR DE LA VIRTUALISATION
 Citrix se place en troisième position avec 6% de parts de marché, derrière
Microsoft, sa solution quant à elle est l’hyperviseur XenServer qui diffère
des deux solutions suscitée car elle repose sur la technologie de la para-
virtualisation au lieu de reposer sur la virtualisation totale

 D’autres acteurs : Oracle VM, Redhat Entreprise Virtualization for server…

SÉCURITÉ BIG DATA & CLOUD COMPUTING Dr KOFFI Dagou Dangui Augustin Sylvain Legrand 74
SUITE DU COURS

Programmation Web et Multimédia Dr KOFFI Dagou Dangui Augustin Sylvain Legrand et Dr DIAKO Doffou Jérôme 75

Vous aimerez peut-être aussi