Vous êtes sur la page 1sur 5

Nom

:
Prénom :
Numéro d’étudiant :


Correction de l’évaluation
Introduction Pratique au Big Data

Master 2 Economie Appliquée 29 mars 2017
Master 1 Informatique Enseignants : M. PATEL et V. SEBASTIEN
QCM ( 1 b o n n e r é p o n s e p a r q u e s t i o n ) - Durée : 2H

1. Choisissez la bonne réponse :
a) Hadoop a besoin de matériel spécialisé pour traiter les données
b) Hadoop 2.0 permet le traitement en temps réel des données en temps réel
c) Dans le cadre de programmation Hadoop, les fichiers de sortie sont divisés en lignes ou enregistrements
d) Aucune des réponses précédentes

2. Selon les analystes, en quoi les systèmes informatiques traditionnels peuvent-ils fournir un socle de base lorsqu'ils
sont intégrés aux grandes technologies de données comme Hadoop ?
a) Big data et data mining
b) Data warehousing et Business Intelligence
c) Gestion des clusters Hadoop
d) Collecter et stocker des données non structurées

3. Choisissez la bonne réponse :
a) Hadoop est idéal pour la charge de travail analytique, post-opérationnelle, d'entrepôt de données
b) HDFS s'exécute sur un petit groupe de nœuds
c) NEWSQL est souvent le point de collecte pour le big data
d) Aucune des réponses précédentes

4. Hadoop est un framework qui fonctionne avec une variété d'outils connexes. Les cohortes communes incluent :
a) MapReduce, Hive and HBase
b) MapReduce, MySQL and Google Apps
c) MapReduce, Hummer and Iguana
d) MapReduce, Heron and Trumpet
e) Toutes les réponses précédentes

5. Tous les éléments suivants décrivent avec précision Hadoop, SAUF :
a) Open source
b) Temps réel
c) Basé sur du Java
d) Approche de programmation distribué

6. ________ NameNode est utilisé lorsque le NameNode primaire ne fonctionne plus.
a) Rack
b) Data
c) Secondaire
d) Aucune des réponses précédentes

7. La machine ___________ est un point d'échec unique pour un cluster HDFS.
a) DataNode
b) NameNode
c) ActionNode
d) Toutes les réponses précédentes
1/5
Nom :
Prénom :
Numéro d’étudiant :

8. __________ peut-être décrit comme un modèle de programmation utilisé pour développer des applications basées
sur Hadoop qui peuvent traiter des quantités massives de données.
a) MapReduce
b) Mahout
c) Oozie
d) Toutes les réponses précédentes

9. Le besoin de réplication de données peut se produire dans divers scénarios comme :
a) Le facteur de réplication est modifié
b) DataNode ne fonctionne plus
c) Les blocs de données sont corrompus
d) Tous les réponses précédentes

10. ________ est le nœud esclave / travailleur et conserve les données utilisateur sous forme de blocs de données.
a) DataNode
b) NameNode
c) Data block
d) Replication

11. ___________ est un modèle de calcul à usage général et un système d'exécution pour l'analyse de données
distribuées.
a) Hadoop
b) Sparks
c) Flume
d) Aucune des réponses précédentes

12. ______ est un framework pour effectuer des appels de procédure distants et la sérialisation de données.
a) Drill
b) BigTop
c) Avro
d) Chukwa

13. Un nœud ________ sert d'esclave et est responsable de l'exécution d'une tâche qui lui est assignée par le JobTracker.
a) MapReduce
b) Mapper
c) TaskTracker
d) JobTracker

14. Choisissez la bonne réponse :
a) MapReduce essaie de placer les données et le calcul le plus proche dans le temps
b) La tâche Map du MapReduce est exécutée à l'aide de la fonction Mapper()
c) Réduire la tâche dans MapReduce est effectuée en utilisant la fonction Map()
d) Toutes les réponses précédentes

15. _________ est responsable de la consolidation des résultats produits par chacune des fonctions / tâches Map ().
a) Reduce
b) Map
c) Reducer
d) Toutes les réponses précédentes




2/5
Nom :
Prénom :
Numéro d’étudiant :
16. Le nombre de Maps est généralement déterminé par la taille totale des :
a) Entrées
b) Sorties
c) Tâches
d) Aucune des réponses précédentes

17. L’entrée du _______ est la sortie triée des Mappers.
a) Reducer
b) Mapper
c) Shuffle
d) Toutes les réponses précédentes

18. Lesquelles des phases suivantes se produisent simultanément ?
a) Shuffle & Sort
b) Reduce & Sort
c) Shuffle & Map
d) Toutes les réponses précédentes

19. L'interface __________ réduit un ensemble de valeurs intermédiaires qui partagent une clé avec un ensemble plus
petit de valeurs.
a) Mapper
b) Reducer
c) Writable
d) Readable

20. YARN signifie :
a) Yahoo’s another resource name
b) Yet another resource negotiator
c) Yahoo’s archived Resource names
d) Yet another resource need.

21. Elasticsearch est …
a) un serveur de bases de données
b) un outil de traitement de données
c) un outil de visualisation de données
d) un serveur de pages Web

22. Dans la pile ELK, les données circulent dans l’ordre suivant :
a) Elasticsearch > Logstash > Kibana
b) Kibana > Logstash > Elasticsearch
c) Logstash > Elasticsearch > Kibana
d) Logstash > Kibana > Elasticsearch

23. Elasticsearch est fondé sur le moteur …
a) Apache Directory
b) Apache Lucene
c) Apache Hadoop
d) Apache Sqoop

24. Un index réparti sur plusieurs nœuds d’un cluster Elasticsearch doit avoir …
a) 1 shard et plusieurs replicas
b) 1 shard et 1 replica
c) plusieurs shards
d) plusieurs replicas

3/5
Nom :
Prénom :
Numéro d’étudiant :
25. La requête GET /cas-logs/_search permet ...
a) de faire une recherche sur le document cas-logs
b) de faire une recherche sur l’index cas-logs
c) d’ajouter un nouveau document cas-logs
d) d’ajouter un nouvel index cas-logs

26. La requête Elasticsearch POST /cas-logs/_search
{
"query": {
"range": {
"@timestamp": {
"gte": "2017-02-01",
"lte": "2017-02-28"
}
}
}
}
permet ...
a) d’ajouter 2 documents d’identifiants “2017-02-01” et “2017-02-28” à l’index cas-logs
b) de rechercher tous les documents de l’index cas-logs ayant pour identifiant “2017-02-01” ou “2017-02-28”
c) de rechercher tous les documents de l’index cas-logs datant du 1er février 2017 ou du 28 février 2017
d) de rechercher tous les documents de l’index cas-logs avec une date allant du 1er février 2017 au 28 février 2017 inclus

27. L’index cas-log comporte des documents comme celui ci-dessous :

"@timestamp": "2017-03-01T15:07:46.000Z",
"clientip": "90.10.73.113",
"uid": "361b97a7be149937f58c088dcccf67d3b1d6461e",
"service": {
"request": "http://moodle2015.univ-reunion.fr/login/index.php"
"type": "php"
},
"geoip": {
"location": [ 2.840599999999995, 45.939899999999994 ]
},
"os": "Mac OS X 10.12",
"device": "Other",
"browser": "Safari"

La requête Elasticsearch permettant de rechercher tous les documents concernant une connexion à moodle2015 est ...
a) POST /cas-logs/_search
{
"query": {
"term": {
"request": "moodle2015"
}
}
}
b) POST /cas-logs/_search
{
"query": {
"term": {
"service.request": "moodle2015"
}
}
}
c) PUT /cas-logs/_search
{
"query": {
4/5
Nom :
Prénom :
Numéro d’étudiant :
"term": {
"service.request": "moodle2015"
}
}
}
d) POST /cas-logs/_search
{
"query": {
"term": {
"moodle2015"
}
}
}

28. La ligne de commande suivante :
/opt/logstash/bin/logstash -f cas-short.conf < cas-short.log
a pour effet ...
a) d’exécuter la configuration logstash cas-short.conf sur le fichier cas-short.log
b) d’exécuter la configuration logstash cas-short.log sur le fichier cas-short.conf
c) d’écrire le résultat de la configuration logstash cas-short.conf dans le fichier cas-short.log
d) d’écrire le résultat de la configuration logstash cas-short.log dans le fichier cas-short.conf

29. Soit la configuration logstash ci-dessous :
input {
stdin{}
}
filter {
csv {
separator => ","
columns => ["docuuid","timestamp","status","lab","actor"]
}

date {
match => ["timestamp", "UNIX"]
}

anonymize {
algorithm => "SHA1"
fields => ["actor"]
key => "PASSWORD"
}
}
output {
stdout{codec=>rubydebug}
}
Celle-ci réalise les traitements suivants :
a) lire l’entrée > parser avec un filtre csv > parser la date au format timestamp UNIX > anonymiser le champ “actor” >
écrire le résultat dans Elasticsearch
b) lire l’entrée > parser avec un filtre grok > parser la date au format timestamp UNIX > anonymiser le champ “actor” >
écrire le résultat dans Elasticsearch
c) lire l’entrée > parser avec un filtre csv > parser la date au format timestamp UNIX > renommer le champ “actor” en
“PASSWORD” > écrire le résultat sur la sortie standard
d) lire l’entrée > parser avec un filtre csv > parser la date au format timestamp UNIX > anonymiser le champ “actor” >
écrire le résultat sur la sortie standard

30. Pour regrouper des documents selon les différentes valeurs prises par un champ donné, Kibana exploite
principalement …
a) les “groupings” d’Elasticsearch
b) les “mappings” d’Elasticsearch
c) les “aggregations” d’Elasticsearch
d) les “shards” d’Elasticsearch
5/5