Vous êtes sur la page 1sur 6

Big Data & Data Analysis

Mme. HDIOUD Ferdaous

Examen Final Durée : 03h

I. QCM : (9 points)
Choisir la bonne réponse (Bonne réponse : 0.25 pt ; Fausse réponse : -0,25 pt ; Aucune réponse :
0 pt)
1) Hadoop fonctionne en:
a- Mode de traitement centralisé
b- Mode Maitre-esclave
c- Mode Travailleur-esclave
d- Toutes les réponses au-dessus

2) Laquelle des affirmations suivantes est vraie à propos de Hadoop?


e- Hadoop MapReduce traite les données avec une latence très faible
f- Hadoop ne peut pas gérer les données structurées
g- Hadoop est sans schéma - nous n'avons pas besoin de définir un schéma avant d'écrire les données
h- Aucune de ces réponses

3) Laquelle des propriétés suivantes sont configurée sur mapred-site.xml?


a- Facteur de réplication
b- Variables d'environnement Java
c- Noms de répertoire pour stocker les fichiers hdfs
d- Quel framework utiliser avec les tâches MapReduce

4) Quelle déclaration est fausse à propos de Hadoop:


a- Il fonctionne avec du matériel de base (hardware commodities)
b- Il fait partie du projet Apache sponsorisé par l'ASF
c- Il est préférable pour la diffusion en temps réel des données
d- Il peut gérer tout type de données

5) Quel type de données Hadoop peut-t-il traiter ?


a- Structuré
b- Semi - structuré
c- Non structuré
d- Tout ce qui précède

6) Apache Hadoop atteint la fiabilité en répliquant les données sur plusieurs hôtes et ne nécessite donc pas de
stockage ________ sur les hôtes.
a- Système de fichiers
b- RAID1
c- FS local
d- Système opérateur

7) Sur laquelle de ces plates-formes suivantes s'exécute Apache Hadoop?


e- Bare Metal2

1
Le RAID est un ensemble de techniques de virtualisation du stockage permettant de répartir des données sur plusieurs
disques durs afin d'améliorer soit les performances

1
Big Data & Data Analysis
Mme. HDIOUD Ferdaous

f- Unix-like
g- Multiplateforme
h- Debian

8) Lequel des éléments suivants est un composant de Hadoop?


a- YARN
b- HDFS
c- MapReduce
d- Tout ce qui précède

9) Le Framework Hadoop est écrit en


a- Python
b- Java
c- C ++
d- Scala

10) Lequel des composants ci-dessous traitent de l'ingestion de données en streaming dans Hadoop?
e- Flume
f- Oozie
g- Hive
h- Kafka

11) Laquelle des affirmations suivantes est fausse à propos de Hadoop?


a- C'est un framework distribué
b- Le principal algorithme utilisé dans Hadoop est Map Reduce
c- Hadoop peut fonctionner avec du matériel standard
d- Tout est vrai

12) Lequel des éléments suivants est le démon de Hadoop?


a- NameNœud
b- Node Manager
c- DataNode
d- Tout ce qui précède

13) Laquelle des affirmations suivantes est la bonne:


a- La localité des données signifie déplacer le calcul vers les données au lieu des données vers le calcul
b- La localité des données signifie déplacer les données vers le calcul au lieu du calcul vers les données
c- Les deux ci-dessus
d- Aucune de ces réponses

14) Sous quelle licence Apache Hadoop est-il distribué?


a- Licence Apache 2.0
b- Shareware
c- Mozilla Public License
d- Commerciale

15) Lequel des éléments suivants est utilisé pour ingérer des données dans des clusters Hadoop?
a- Flume
b- Sqoop

2
Un serveur bare metal, également appelé serveur dédié, est une forme de services cloud permettant à l'utilisateur de
louer à un fournisseur une machine physique qui n'est pas partagée avec d'autres locataires.

2
Big Data & Data Analysis
Mme. HDIOUD Ferdaous

c- Les deux ci-dessus


d- Aucune de ces réponses

16) Lequel des éléments suivants sont utilisé pour l'apprentissage automatique sur Hadoop?
e- Hive
f- Pig
g- HBase
h- Mahout

17) Lequel des éléments suivants est un moteur de traitement de données pour le calcul en cluster?
a- YARN
b- Oozie
c- Spark
d- All of the above

18) Quel fichier de configuration Hadoop contient le paramètre pour les démons HDFS?
a- yarn-site.xml
b- hdfs-site.xml
c- mapred-site.xml
d- Aucune de ces réponses

19) Lequel des éléments suivants est une base de données distribuée en trois dimensions?
a- HDFS
b- HBase
c- Les deux ci-dessus
d- Aucune de ces réponses

20) Dans quelles langues pouvez-vous coder dans Hadoop?


a- Java
b- Python
c- C ++
d- Tout ce qui précède

21) Lequel des fichiers contiennent le paramètre de configuration pour NodeManager et ResourceManager?
a- yarn-site.xml
b- hdfs-site.xml
c- mapred-site.xml
d- Aucune de ces réponses

22) Tous les éléments suivants décrivent Hadoop, SAUF:


a- Open source
b- Système de traitement des données en temps réel
c- Basé sur Java
d- Approche de cacul distribuée

23) Commande Hadoop pour lister tous les blocs correspondant à chaque fichier dans le hdfs?
e- hadoop fsck / -files -blocks
f- hadoop fsck / -blocks -fichiers
g- hadoop ls / -blocks -fichiers
h- hadoop fchk / -files –blocks

3
Big Data & Data Analysis
Mme. HDIOUD Ferdaous

24) Par rapport au SGBDR, Apache Hadoop


a- a une meilleure intégrité des données
b- fait des transactions ACID
c- convenable pour la lecture et à l'écriture plusieurs fois
d- fonctionne mieux sur les données non structurées et semi-structurées

25) Hadoop peut être déployé sur des serveurs de base, ce qui permet un traitement à faible coût ainsi que le
stockage d'énormes volumes de données non structurés.
a- Vrai
b- Faux

26) Zookeeper est


a- Moteur de synchronisation et de coordination
b- Base de données NoSQL
c- Système de collecte et d'agrégation de données
d- Moteur de traitement des données

27) Quel outil est utilisé pour déplacer des données du SGBDR vers HDFS?
a- Sqoop
b- Flume
c- Oozie
d- Drill

28) Le client qui lit les données du système de fichiers HDFS dans Hadoop fait laquelle des actions suivantes?
a- Obtient uniquement les emplacements de bloc du namenode
b- Obtient les données du namenode
c- Obtient à la fois les données et l'emplacement du bloc à partir du namenode
d- Obtient l'emplacement du bloc à partir du datanode

29) HDFS permet à un client de lire un fichier qui est déjà ouvert pour l'écriture?
a- Faux
b- Vrai

30) Laquelle des propositions suivantes convertissent les requêtes SQL en tâches MapReduce?
e- Hive
f- Drill
g- Oozie
h- Flume

31) Laquelle des affirmations suivantes est vraie à propos de Hadoop?


a- Un petit fichier occupe un bloc complet (128 Mo) en HDFS
b- Master divise le fichier en petits morceaux, c'est-à-dire des blocs
c- HDFS Master (namenode) est le point de défaillance unique
d- Nous ne pouvons pas éditer un fichier une fois écrit en HDFS

32) Les utilisateurs peuvent contrôler le stockage des blocs vers des esclaves spécifiques
a- Vrai
b- Faux

33) Quels sont les avantages du schéma de réplication 3x dans Hadoop?


a- Tolérance aux pannes

4
Big Data & Data Analysis
Mme. HDIOUD Ferdaous

b- La haute disponibilité
c- Fiabilité
d- Tout ce qui précède

34) Dans quel mode tous les démons s'exécutent dans des nœuds séparés?
a- Mode local (autonome)
b- Mode pseudo-distribué
c- Mode entièrement distribué
d- Aucune de ces réponses

35) Quel fichier de configuration est utilisé pour contrôler le facteur de réplication HDFS?
a- mapred-site.xml
b- hdfs-site.xml
c- core-site.xml
d- yarn-site.xml

II. Exercice MapReduce : (3 points)


Soit la matrice M suivante :

123
456
789

Tracer un schéma expliquant le principe MapReduce qui consiste à calculer la somme des lignes de
M sur un cluster de 3 nœuds.

III. NoSQL: (4points)


1. Citer brièvement les différences entre une base de données relationnelle et une base de données
NoSQL
2. « A l’arrivée des bases de données NoSQL, les bases de données relationnelles n’auront plus de place
dans les systèmes d’information des entreprises. » Vous êtes d’accord avec cet énoncé ? Justifier votre
réponse
3. Citer les différents cas d’utilisation d’une base de données NoSQL
4. Lier chaque cas d’application avec la base de données convenable
1- Réseau social
A- Cassandra
2- Moteur de recherche B- Neo4j
3- Compteur de vitesse
C- MongoDB
instantanée

5
Big Data & Data Analysis
Mme. HDIOUD Ferdaous

IV. SPARK et NoSQL: (4points)


Une société de Telecom désire exploiter les données des clients afin de prévoir les tentatives de Boycott de ses
clients. Pour cela, la société possède un cluster de 100 serveurs de 64 Go de RAM, 4 cores et 10 To de disque
dur (on ne compte pas les ressources occupées par les SE). La société a 5 million de clients dont chacun envoie
une moyenne de 1 Mo de messages vers ses contacts par jour.

Dans une base de données NoSQL, on stocke ces messages afin de les analyser. On s’intéresse ici de détecter
les messages qui commencent à se dispatcher rapidement dans le graphe des clients à travers les contacts.
L’objectif de la société est également le blocage de certains messages afin de limiter le partage de scandales
par exemple.

1) Sachant que le système doit offrir un rapport automatique chaque jour, et que le traitement se fait en
trois étapes (Chargement des messages  comptage de nombre d’occurrences  calcul de points
gagnés dans le classement de chaque message), est ce que l’infrastructure est suffisante si on utilise
Apache SPARK ? Justifier
2) Si on garde tous les messages, dans combien de jours l’espace de stockage du cluster sera saturé ?
3) Quel est le type de la base de données la plus adéquate pour stocker les messages ?
4) Afin de classer les clients intéressés par les mêmes thématiques de messages, la société a décidé
d’utiliser la machine Learning. Proposer un algorithme qui permet de réaliser cet objectif.
5) La société doit indexer les messages de chaque jour. Pour cela, on attribue un poids à chaque terme,
puis on trie les termes par ordre décroissant du poids. On remarque que les mots vides (Stop Words)
prennent toujours les premières positions dans les index. Expliquer pourquoi, et proposer une solution.
6) Quel est l’élément de l’écosystème SPARK qui permet d’exécuter les algorithmes de la machine
Learning.

Vous aimerez peut-être aussi