Big Data

Big Data & Data Analysis
Mme. HDIOUD Ferdaous
Examen Final Durée : 03h
I. QCM : (9 points)
Choisir la bonne réponse (Bonne réponse : 0.25 pt ; Fausse réponse : -0,25 pt ; Aucune réponse :
0 pt)
1) Hadoop fonctionne en:
a- Mode de traitement centralisé
b- Mode Maitre-esclave
c- Mode Travailleur-esclave
d- Toutes les réponses au-dessus
2) Laquelle des affirmations suivantes est vraie à propos de Hadoop?

e- Hadoop MapReduce traite les données avec une latence très faible
f- Hadoop ne peut pas gérer les données structurées
g- Hadoop est sans schéma - nous n'avons pas besoin de définir un schéma avant d'écrire les données
h- Aucune de ces réponses
3) Laquelle des propriétés suivantes sont configurée sur mapred-site.xml?

a- Facteur de réplication
b- Variables d'environnement Java
c- Noms de répertoire pour stocker les fichiers hdfs
d- Quel framework utiliser avec les tâches MapReduce
4) Quelle déclaration est fausse à propos de Hadoop:

a- Il fonctionne avec du matériel de base (hardware commodities)
b- Il fait partie du projet Apache sponsorisé par l'ASF
c- Il est préférable pour la diffusion en temps réel des données
d- Il peut gérer tout type de données
5) Quel type de données Hadoop peut-t-il traiter ?

a- Structuré
b- Semi - structuré
c- Non structuré
d- Tout ce qui précède
6) Apache Hadoop atteint la fiabilité en répliquant les données sur plusieurs hôtes et ne nécessite donc pas de
stockage ________ sur les hôtes.
a- Système de fichiers
b- RAID1
c- FS local
d- Système opérateur
7) Sur laquelle de ces plates-formes suivantes s'exécute Apache Hadoop?

e- Bare Metal2
1
Le RAID est un ensemble de techniques de virtualisation du stockage permettant de répartir des données sur plusieurs
disques durs afin d'améliorer soit les performances
1
f- Unix-like
g- Multiplateforme
h- Debian
8) Lequel des éléments suivants est un composant de Hadoop?

a- YARN
b- HDFS
c- MapReduce
9) Le Framework Hadoop est écrit en

a- Python
b- Java
c- C ++
d- Scala
10) Lequel des composants ci-dessous traitent de l'ingestion de données en streaming dans Hadoop?
e- Flume
f- Oozie
g- Hive
h- Kafka
11) Laquelle des affirmations suivantes est fausse à propos de Hadoop?

a- C'est un framework distribué
b- Le principal algorithme utilisé dans Hadoop est Map Reduce
c- Hadoop peut fonctionner avec du matériel standard
d- Tout est vrai
12) Lequel des éléments suivants est le démon de Hadoop?

a- NameNœud
b- Node Manager
c- DataNode
13) Laquelle des affirmations suivantes est la bonne:

a- La localité des données signifie déplacer le calcul vers les données au lieu des données vers le calcul
b- La localité des données signifie déplacer les données vers le calcul au lieu du calcul vers les données
c- Les deux ci-dessus
d- Aucune de ces réponses
14) Sous quelle licence Apache Hadoop est-il distribué?

a- Licence Apache 2.0
b- Shareware
c- Mozilla Public License
d- Commerciale
15) Lequel des éléments suivants est utilisé pour ingérer des données dans des clusters Hadoop?
a- Flume
b- Sqoop
2
Un serveur bare metal, également appelé serveur dédié, est une forme de services cloud permettant à l'utilisateur de
louer à un fournisseur une machine physique qui n'est pas partagée avec d'autres locataires.
2

16) Lequel des éléments suivants sont utilisé pour l'apprentissage automatique sur Hadoop?
e- Hive
f- Pig
g- HBase
h- Mahout
17) Lequel des éléments suivants est un moteur de traitement de données pour le calcul en cluster?
a- YARN
b- Oozie
c- Spark
d- All of the above
18) Quel fichier de configuration Hadoop contient le paramètre pour les démons HDFS?
a- yarn-site.xml
b- hdfs-site.xml
c- mapred-site.xml
19) Lequel des éléments suivants est une base de données distribuée en trois dimensions?
a- HDFS
b- HBase
20) Dans quelles langues pouvez-vous coder dans Hadoop?

a- Java
b- Python
c- C ++
21) Lequel des fichiers contiennent le paramètre de configuration pour NodeManager et ResourceManager?
a- yarn-site.xml
b- hdfs-site.xml
c- mapred-site.xml
22) Tous les éléments suivants décrivent Hadoop, SAUF:

a- Open source
b- Système de traitement des données en temps réel
c- Basé sur Java
d- Approche de cacul distribuée
23) Commande Hadoop pour lister tous les blocs correspondant à chaque fichier dans le hdfs?
e- hadoop fsck / -files -blocks
f- hadoop fsck / -blocks -fichiers
g- hadoop ls / -blocks -fichiers
h- hadoop fchk / -files –blocks
3
24) Par rapport au SGBDR, Apache Hadoop

a- a une meilleure intégrité des données
b- fait des transactions ACID
c- convenable pour la lecture et à l'écriture plusieurs fois
d- fonctionne mieux sur les données non structurées et semi-structurées
25) Hadoop peut être déployé sur des serveurs de base, ce qui permet un traitement à faible coût ainsi que le
stockage d'énormes volumes de données non structurés.
a- Vrai
b- Faux
26) Zookeeper est

a- Moteur de synchronisation et de coordination
b- Base de données NoSQL
c- Système de collecte et d'agrégation de données
d- Moteur de traitement des données
27) Quel outil est utilisé pour déplacer des données du SGBDR vers HDFS?
a- Sqoop
b- Flume
c- Oozie
d- Drill
28) Le client qui lit les données du système de fichiers HDFS dans Hadoop fait laquelle des actions suivantes?
a- Obtient uniquement les emplacements de bloc du namenode
b- Obtient les données du namenode
c- Obtient à la fois les données et l'emplacement du bloc à partir du namenode
d- Obtient l'emplacement du bloc à partir du datanode
29) HDFS permet à un client de lire un fichier qui est déjà ouvert pour l'écriture?
a- Faux
b- Vrai
30) Laquelle des propositions suivantes convertissent les requêtes SQL en tâches MapReduce?
e- Hive
f- Drill
g- Oozie
h- Flume
31) Laquelle des affirmations suivantes est vraie à propos de Hadoop?

a- Un petit fichier occupe un bloc complet (128 Mo) en HDFS
b- Master divise le fichier en petits morceaux, c'est-à-dire des blocs
c- HDFS Master (namenode) est le point de défaillance unique
d- Nous ne pouvons pas éditer un fichier une fois écrit en HDFS
32) Les utilisateurs peuvent contrôler le stockage des blocs vers des esclaves spécifiques
a- Vrai
b- Faux
33) Quels sont les avantages du schéma de réplication 3x dans Hadoop?

a- Tolérance aux pannes
4
b- La haute disponibilité
c- Fiabilité
34) Dans quel mode tous les démons s'exécutent dans des nœuds séparés?
a- Mode local (autonome)
b- Mode pseudo-distribué
c- Mode entièrement distribué
35) Quel fichier de configuration est utilisé pour contrôler le facteur de réplication HDFS?
a- mapred-site.xml
b- hdfs-site.xml
c- core-site.xml
d- yarn-site.xml
II. Exercice MapReduce : (3 points)

Soit la matrice M suivante :
123
456
789
Tracer un schéma expliquant le principe MapReduce qui consiste à calculer la somme des lignes de
M sur un cluster de 3 nœuds.
III. NoSQL: (4points)

1. Citer brièvement les différences entre une base de données relationnelle et une base de données
NoSQL
2. « A l’arrivée des bases de données NoSQL, les bases de données relationnelles n’auront plus de place
dans les systèmes d’information des entreprises. » Vous êtes d’accord avec cet énoncé ? Justifier votre
réponse
3. Citer les différents cas d’utilisation d’une base de données NoSQL
4. Lier chaque cas d’application avec la base de données convenable
1- Réseau social
A- Cassandra
2- Moteur de recherche B- Neo4j
3- Compteur de vitesse
C- MongoDB
instantanée
5
IV. SPARK et NoSQL: (4points)

Une société de Telecom désire exploiter les données des clients afin de prévoir les tentatives de Boycott de ses
clients. Pour cela, la société possède un cluster de 100 serveurs de 64 Go de RAM, 4 cores et 10 To de disque
dur (on ne compte pas les ressources occupées par les SE). La société a 5 million de clients dont chacun envoie
une moyenne de 1 Mo de messages vers ses contacts par jour.
Dans une base de données NoSQL, on stocke ces messages afin de les analyser. On s’intéresse ici de détecter
les messages qui commencent à se dispatcher rapidement dans le graphe des clients à travers les contacts.
L’objectif de la société est également le blocage de certains messages afin de limiter le partage de scandales
par exemple.
1) Sachant que le système doit offrir un rapport automatique chaque jour, et que le traitement se fait en
trois étapes (Chargement des messages  comptage de nombre d’occurrences  calcul de points
gagnés dans le classement de chaque message), est ce que l’infrastructure est suffisante si on utilise
Apache SPARK ? Justifier
2) Si on garde tous les messages, dans combien de jours l’espace de stockage du cluster sera saturé ?
3) Quel est le type de la base de données la plus adéquate pour stocker les messages ?
4) Afin de classer les clients intéressés par les mêmes thématiques de messages, la société a décidé
d’utiliser la machine Learning. Proposer un algorithme qui permet de réaliser cet objectif.
5) La société doit indexer les messages de chaque jour. Pour cela, on attribue un poids à chaque terme,
puis on trie les termes par ordre décroissant du poids. On remarque que les mots vides (Stop Words)
prennent toujours les premières positions dans les index. Expliquer pourquoi, et proposer une solution.
6) Quel est l’élément de l’écosystème SPARK qui permet d’exécuter les algorithmes de la machine
Learning.

Big Data

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Big Data

Transféré par

Droits d'auteur :

Formats disponibles

Big Data & Data Analysis

Mme. HDIOUD Ferdaous

Examen Final Durée : 03h

2) Laquelle des affirmations suivantes est vraie à propos de Hadoop?

3) Laquelle des propriétés suivantes sont configurée sur mapred-site.xml?

4) Quelle déclaration est fausse à propos de Hadoop:

5) Quel type de données Hadoop peut-t-il traiter ?

7) Sur laquelle de ces plates-formes suivantes s'exécute Apache Hadoop?

8) Lequel des éléments suivants est un composant de Hadoop?

9) Le Framework Hadoop est écrit en

11) Laquelle des affirmations suivantes est fausse à propos de Hadoop?

12) Lequel des éléments suivants est le démon de Hadoop?

13) Laquelle des affirmations suivantes est la bonne:

14) Sous quelle licence Apache Hadoop est-il distribué?

c- Les deux ci-dessus

20) Dans quelles langues pouvez-vous coder dans Hadoop?

22) Tous les éléments suivants décrivent Hadoop, SAUF:

24) Par rapport au SGBDR, Apache Hadoop

26) Zookeeper est

31) Laquelle des affirmations suivantes est vraie à propos de Hadoop?

33) Quels sont les avantages du schéma de réplication 3x dans Hadoop?

II. Exercice MapReduce : (3 points)

III. NoSQL: (4points)

IV. SPARK et NoSQL: (4points)

Vous aimerez peut-être aussi