Académique Documents
Professionnel Documents
Culture Documents
I. QCM : (9 points)
Choisir la bonne réponse (Bonne réponse : 0.25 pt ; Fausse réponse : -0,25 pt ; Aucune réponse :
0 pt)
1) Hadoop fonctionne en:
a- Mode de traitement centralisé
b- Mode Maitre-esclave
c- Mode Travailleur-esclave
d- Toutes les réponses au-dessus
6) Apache Hadoop atteint la fiabilité en répliquant les données sur plusieurs hôtes et ne nécessite donc pas de
stockage ________ sur les hôtes.
a- Système de fichiers
b- RAID1
c- FS local
d- Système opérateur
1
Le RAID est un ensemble de techniques de virtualisation du stockage permettant de répartir des données sur plusieurs
disques durs afin d'améliorer soit les performances
1
Big Data & Data Analysis
Mme. HDIOUD Ferdaous
f- Unix-like
g- Multiplateforme
h- Debian
10) Lequel des composants ci-dessous traitent de l'ingestion de données en streaming dans Hadoop?
e- Flume
f- Oozie
g- Hive
h- Kafka
15) Lequel des éléments suivants est utilisé pour ingérer des données dans des clusters Hadoop?
a- Flume
b- Sqoop
2
Un serveur bare metal, également appelé serveur dédié, est une forme de services cloud permettant à l'utilisateur de
louer à un fournisseur une machine physique qui n'est pas partagée avec d'autres locataires.
2
Big Data & Data Analysis
Mme. HDIOUD Ferdaous
16) Lequel des éléments suivants sont utilisé pour l'apprentissage automatique sur Hadoop?
e- Hive
f- Pig
g- HBase
h- Mahout
17) Lequel des éléments suivants est un moteur de traitement de données pour le calcul en cluster?
a- YARN
b- Oozie
c- Spark
d- All of the above
18) Quel fichier de configuration Hadoop contient le paramètre pour les démons HDFS?
a- yarn-site.xml
b- hdfs-site.xml
c- mapred-site.xml
d- Aucune de ces réponses
19) Lequel des éléments suivants est une base de données distribuée en trois dimensions?
a- HDFS
b- HBase
c- Les deux ci-dessus
d- Aucune de ces réponses
21) Lequel des fichiers contiennent le paramètre de configuration pour NodeManager et ResourceManager?
a- yarn-site.xml
b- hdfs-site.xml
c- mapred-site.xml
d- Aucune de ces réponses
23) Commande Hadoop pour lister tous les blocs correspondant à chaque fichier dans le hdfs?
e- hadoop fsck / -files -blocks
f- hadoop fsck / -blocks -fichiers
g- hadoop ls / -blocks -fichiers
h- hadoop fchk / -files –blocks
3
Big Data & Data Analysis
Mme. HDIOUD Ferdaous
25) Hadoop peut être déployé sur des serveurs de base, ce qui permet un traitement à faible coût ainsi que le
stockage d'énormes volumes de données non structurés.
a- Vrai
b- Faux
27) Quel outil est utilisé pour déplacer des données du SGBDR vers HDFS?
a- Sqoop
b- Flume
c- Oozie
d- Drill
28) Le client qui lit les données du système de fichiers HDFS dans Hadoop fait laquelle des actions suivantes?
a- Obtient uniquement les emplacements de bloc du namenode
b- Obtient les données du namenode
c- Obtient à la fois les données et l'emplacement du bloc à partir du namenode
d- Obtient l'emplacement du bloc à partir du datanode
29) HDFS permet à un client de lire un fichier qui est déjà ouvert pour l'écriture?
a- Faux
b- Vrai
30) Laquelle des propositions suivantes convertissent les requêtes SQL en tâches MapReduce?
e- Hive
f- Drill
g- Oozie
h- Flume
32) Les utilisateurs peuvent contrôler le stockage des blocs vers des esclaves spécifiques
a- Vrai
b- Faux
4
Big Data & Data Analysis
Mme. HDIOUD Ferdaous
b- La haute disponibilité
c- Fiabilité
d- Tout ce qui précède
34) Dans quel mode tous les démons s'exécutent dans des nœuds séparés?
a- Mode local (autonome)
b- Mode pseudo-distribué
c- Mode entièrement distribué
d- Aucune de ces réponses
35) Quel fichier de configuration est utilisé pour contrôler le facteur de réplication HDFS?
a- mapred-site.xml
b- hdfs-site.xml
c- core-site.xml
d- yarn-site.xml
123
456
789
Tracer un schéma expliquant le principe MapReduce qui consiste à calculer la somme des lignes de
M sur un cluster de 3 nœuds.
5
Big Data & Data Analysis
Mme. HDIOUD Ferdaous
Dans une base de données NoSQL, on stocke ces messages afin de les analyser. On s’intéresse ici de détecter
les messages qui commencent à se dispatcher rapidement dans le graphe des clients à travers les contacts.
L’objectif de la société est également le blocage de certains messages afin de limiter le partage de scandales
par exemple.
1) Sachant que le système doit offrir un rapport automatique chaque jour, et que le traitement se fait en
trois étapes (Chargement des messages comptage de nombre d’occurrences calcul de points
gagnés dans le classement de chaque message), est ce que l’infrastructure est suffisante si on utilise
Apache SPARK ? Justifier
2) Si on garde tous les messages, dans combien de jours l’espace de stockage du cluster sera saturé ?
3) Quel est le type de la base de données la plus adéquate pour stocker les messages ?
4) Afin de classer les clients intéressés par les mêmes thématiques de messages, la société a décidé
d’utiliser la machine Learning. Proposer un algorithme qui permet de réaliser cet objectif.
5) La société doit indexer les messages de chaque jour. Pour cela, on attribue un poids à chaque terme,
puis on trie les termes par ordre décroissant du poids. On remarque que les mots vides (Stop Words)
prennent toujours les premières positions dans les index. Expliquer pourquoi, et proposer une solution.
6) Quel est l’élément de l’écosystème SPARK qui permet d’exécuter les algorithmes de la machine
Learning.