Examen Principale1920 Corrigé

EXAMEN
Semestre : 1 2
Session : Principale Rattrapage
Unité d’enseignement : Intelligence des affaires

Modules : Data Mining, BD NoSQL, Séries temporelles et contrôle qualité
Classes : 4 ERP-BI
Nombre des questions : 50 questions Nombre de pages : 7 pages
Date : 02/07/2020 Heure: 08h30 Durée : 1h30
Partie I: Module ‘Data Mining’ On souhaite partitionner l’ensemble des visites en trois
groupes, chacun caractérisant le profil de navigation au
Sélectionner la bonne réponse: sein du site marchand. Quelle est la méthode la plus
appropriée afin de répondre à cet objectif? (2pts)
1. Les deux premières phases de la méthodologie
CRISP-DM sont: (2pts)
A. (1) Compréhension des données (2) Compréhension du

métier.
B. (1) Compréhension du métier (2) Compréhension des

A. K-NN.
données.
B. Kmeans.
C. (1) Compréhension des données (2) Modélisation.
C. SVM.
D. Aucune réponse.
D. Régression logistique.
2. La méthodologie CRISP-DM permet de rendre les
projets de Data Mining: (2pts)
4. En appliquant l’ACP, nous avons obtenu deux
représentations graphiques, en deux dimensions: l’une
A. Plus rapides mais complexes.
concernant les observations, l’autre les variables, comme
B. Plus coûteux en termes de temps d’exécution. celles-ci, quelle affirmation est correcte ? (2pts)
C. Plus coûteux mais efficaces.
D. Plus fiables.
3. On considère l’échantillon de données suivant issues de

l’entrepôt pour le suivi des cybernautes d’un site marchand.
Ce dernier donne la description des visites utilisateurs par :
le nombre de pages visitées (NbPage), le nombre de clicks
par page (Nb Click), le produit consulté (Produit) de type
‘O’ pour ouvrage, ‘M’ pour musique ou ‘F’ pour film. On
admet qu’il n’y a qu’un seul produit consulté par visite, la
durée moyenne de navigation par page en minutes (durée), A. L’axe 1 est plutôt expliqué par les variables du saut en
et l’action commerciale de type ‘A’ pour achat, ‘C’ pour longueur (long jump), 100m, 110 mètres haies.
commande ou ‘N’ pour annulation. On se positionne dans
l’espace défini par les dimensions « Nb Click» et « Durée B. l’axe 2 est plutôt expliqué par le saut à la perche (Pole
». vault).
1
C. Plus les athlètes sautent loin et courent rapidement les 7. On donne les deux lignes de commandes suivantes et le
épreuves du 100 mètres et du 110 mètres haie plus leur résultat associé. Choisir l’ordre de pertinence
nombre de points est important. (décroissant) des variables. (2pts)
D. Plus les athlètes sautent loin et courent rapidement les

épreuves du 100 mètres et du 110 mètres haie plus leur
nombre de points est faible.
5. On considère le cercle de corrélation suivant. La

variable NET est: (2pts)
A. 1-Intercept 2-prix 3-cylindree 4-puissance 5-poids.
B. 1-Puissance 2-poids 3-cylindree 4-prix.
C. 1-Puissance 2-poids 3-prix 4-cylindree.
D. 1-intercept 2-puissance 3-poids 4-prix 5-cylindree.
8. On souhaite réaliser la classification d’un certain nombre

de vins de bordeaux en se référant à leur qualité. Choisir le
classifieur qui permet d’avoir le résultat suivant: (2pts)
A. Corrélée positivement avec le premier axe factoriel.
B. Corrélée positivement avec le deuxième axe factoriel.
C. Corrélée positivement avec le plan factoriel.
D. Corrélée négativement avec le premier axe factoriel.
6. Soit les courbes ROC suivantes, tracées pour 3 modèles

différents. quelle affirmation est correcte ? (2pts)
A. K-NN
B. SVM
C. CART
D. CAH
9. On donne les transactions suivantes (T1…T5). Nous

souhaitons appliquer l’algorithme Apriori des règles
associatives. Quelle est l’affirmation
correcte concernant le support relatif: (2pts)
A. Le modèle 1 est le meilleur modèle.
B. Le modèle 3 est le meilleur modèle.
C. Le modèle 2 est le meilleur modèle.
D. On ne peut pas conclure, il faut calculer les AUC de

chaque modèle.
2
A. support(A,B→C)=1/5 12. Choisir l’affirmation correcte en ce qui concerne la
précision: (2pts)
B. support(A,B→C)=2/5
A. La précision indique les observations bien classées par
C. support(A,B→C)=4/5 rapport au nombre total des observations réelles
appartenant à la classe considérée.
D. support(A,B→;C)=2/4
B. La précision indique les observations bien classées par
10. En appliquant l’algorithme de l’arbre de décision sur un rapport à la totalité des observations prédites dans la même
ensemble de données, on obtient la figure ci-dessous. classe
Ayant reçu une nouvelle observation comportant les
valeurs suivantes: [sexe: F, age: 30, credit:No], quel label C. La précision indique les observations bien classées par
prendra cette observation? (2pts) rapport au nombre total d’observations.
D. Aucune de ces réponses.
13. Pour le cas d’un problème de classification à plusieurs

labels (nombre de labels>3), quel(s) algorithme(s)
procède(nt) par une classification un contre tous (one
Vs all) : (2pts)
A. La précision indique les observations bien classées par

rapport au nombre total des observations réelles
appartenant à la classe considérée.
B. La précision indique les observations bien classées par

rapport à la totalité des observations prédites dans la même
classe.
A. Le label ‘Yes’.
C. La précision indique les observations bien classées par
B. Le label ‘No’. rapport au nombre total d’observations.
C. L’arbre n’a pas été totalement construit, on ne peut pas
affecter de label à cette observation.
14. Pour le cas d’un problème de classification à plusieurs
D. La nouvelle observation possède un champ dont la
labels (nombre de labels >3), quel(s) algorithme(s)
valeur est manquante ce qui nuit à la décision. procède(nt) par une classification un contre tous (one Vs
all) : (2pts)
11. On applique l’algorithme SVM sur des données
bruitées. Le modèle généré sera-t-il influencé par les
A. Régression logistique et arbre de décision.
données aberrantes? (2pts)
B. SVM et arbre de décision.
C. SVM.
15. Pour un problème de classification, vous avez subdivisé

vos données en 70% pour le l’apprentissage et 30% pour le
test. Votre modèle a obtenu une précision de 0.59 pour les
données d’apprentissage. Qu’est-ce que vous devez faire
pour améliorer vos résultats? (2pts)
A. Ajouter des variables plus significatives sachant qu’il

A. Vrai. n’y a pas eu une étude sur la significativité des variables
B. Faux. B. Prendre 90% des données pour l’apprentissage et

seulement 10% pour le test.
C. Vrai si les valeurs atypiques ne sont pas des vecteurs
supports. C. Evaluer les performances plutôt sur les données de test.
D. Vrai si les valeurs atypiques sont des vecteurs support. D. Rien à faire
3
16. La commande sous R pour réaliser une ACP est: le test. Lequel des algorithmes suivants est à éviter dans
(2pts) ce genre de situation en termes de temps de calcul?
(2pts)
A. ACP()
A. Arbre de décision.
B. Res.pca()
B. SVM.
C. PCA()
C. K-NN.
D. Res.acp()
D. Régression logistique.
17. La classification hiérarchique a pour objet de
regrouper: (2pts)
A. Les observations en k groupes simultanément. Partie 2: Module ‘BD NoSQL’

B. Les observations les plus semblables séquentiellement. 21. Laquelle de ces propositions est correcte ? (2pts)
A. Les bases de données non relationnelles sont largement
C. Les observations les plus proches des centres de gravités
distribuées
des groupes.
B. Les bases de données non relationnelles imposent un
D. Les observations les plus semblables parallèlement. modèle de données avec schéma
18. Pour la classification hiérarchique, la stratégie du C. Les bases de données non relationnelles ne sont pas
saut minimum ou single linkage consiste à: (2pts) performantes sur les données non structurées
A. Regrouper les 2 éléments présentant la plus petite D. Les bases de données non relationnelles sont de deux
types
distance entre éléments des deux classes.
22. La scalabilité horizontale permet de : (2pts)
B. Regrouper les 2 éléments présentant la plus grande
distance entre éléments des deux classes. A. Répartir les données sur plusieurs machines
C. Gain minimum d’inertie intra-classe à chaque B. Répliquer les données sur plusieurs machines
agrégation C. Stocker les données sur une seule machine
D. Aucune de ces réponses. D. Filtrer les données et stocker les plus pertinentes
19. On donne les transactions suivantes (T1…T5). Nous 23. L’instance mongos est chargée de l’acheminent des
souhaitons appliquer l’algorithme Apriori des règles requêtes et l’écriture des opérations sur les shards d'un
associatives. Quelle est l’affirmation sharded cluster : (2pts)
correcte concernant le support relatif: (2pts)
A. Oui
B. Non
C. Uniquement si le cluster contient des réplicas
D. Uniquement pour les requêtes d'agrégation
24. Quel est le nombre minimal de réplica sets à avoir

dans un sharded cluster ? (2pts)
A. 0
B. 1
A. Lift (A, B→ C) = 2/10.
C. 2
B. Lift (A, B→ C) = 4/5.
D. 3
C. Lift (A, B→ C) = 1/3.
25. Laquelle des commandes suivantes permet de lister
D. Lift (A, B→ C) = 1/6 les collections d’une base MongoDB : (2pts)
A. display collections
20. Pour un problème de classification, on dispose de
20000 observations pour le train et 500 observations pour B. collections.show()
4
C. show collections 31. La commande hint permet de : (2pts)
D. Aucune de ces réponses A. Forcer l’utilisation aléatoire d’un index
26. Compléter la phrase suivante concernant les bonnes B. Forcer l’utilisation d’un index spécifique
pratiques de modélisation: (2pts) C. Permet d’indexer uniquement les documents contenant
« ……………permet de fusionner deux collections. » des valeurs non nulles d’un champ
A. Le référencement D. N’est pas une commande relative aux indexes
B. L’externalisation 32. Quel est le résultat de cette requête ? (2pts)

db.movies.find({$text:{$search: "Star Wars"}},
C. L’imbrication {synopsis:1})
D. Aucune de ces réponses A. Retourne le champ synopsis des documents qui
contiennent exactement la chaine « Star Wars »
27. Quelle proposition permet de supprimer la
collection « dettes » : (2pts) B. Retourne les champs _id et synopsis des documents qui
contiennent exactement la chaine « Star Wars »
A. db.dettes.remove()
C. Retourne les champs _id et synopsis des documents qui
B. db.dettes.drop() contiennent toutes les combinaisons de mots de la
chaine « Star Wars »
C. db.runCommand({dropCollection : 1})
D. Retourne tous les champs des documents qui
D. Toutes ces réponses contiennent toutes les combinaisons de mots de la
chaine « Star Wars »
28. Quelle proposition permet d’afficher le nombre de
documents de la collection de bateaux « bats » : (2pts) 33. La commande suivante permet d’ : (2pts)
A. db.bats.aggregate([{$group:{_id:{}, db.employe.find({"salaire" : {"$lte" : 1800},

tot:{$sum:1}}}]); salaire :{"$gt" : 3000}})
B. db.bats.aggregate([{$group:{_id:{}, A. Afficher les employés qui ont un salaire inférieur à
tot:{$sum:1}}},{$project:{tot:1}}]); 1800dt et supérieur à 3000dt.
C. db.bats.aggregate([{$group:{_id:{}, B. Afficher les employés dont le salaire est supérieur à
tot:{$sum:1}}},{$project:{_id :0, tot:1}}]); 3000dt.
D. Toutes ces réponses C. Afficher les salaires entre 1800dt et 3000dt de la
collection « employe ».
29. Quel est le résultat de cette requête ? (2pts)
db.movies.aggregate([{$group: D. Aucune de ces réponses.
{_id:{$year:"$date_sortie"},
34. Les critères de recherche avec l’index suivant sont:
realisateur:{$first:"$director"}}}])
db.employe.createIndex({"employe_id":1,
A. Affiche pour chaque année de sortie d’un film la "poste":1, "salaire":1}) (2pts)
première lettre du realisateur
A. Poste
B. Affiche pour chaque année de sortie d’un film le
premier realisateur B. Salaire
C. Affiche pour chaque realisateur l’année de sortie du C. Employe_id, poste, salaire

film
D. Aucune de ces réponses
D. Aucune de ces réponses
35. Quelle est la commande à utiliser sous Mongodb
30. L’opérateur « $group » est l’équivalent, en SQL, pour créer un index géo-spatial avec un ordre
de : (2pts) ascendant sur le champ location: (2pts)
A. SELECT A. db.city.createIndex({location:'geo-spatial', type: 1})
B. AVG B. db.city.createIndex({location:'geo-spatial', type: -1})
C. SUM C. db.city.createIndex({location:'2d', type: 1})
D. Aucune de ces réponses D. db.city.createIndex({location:'2d', type: -1})
5
Partie 3: Module ‘Séries temporelles et A. La valeur d’AIC la plus minimal.
B. La valeur d’ AIC la plus élevé.
contrôle qualité’ C. Une valeur d’ AIC proche de 1.
D. Une valeur d’ AIC nulle.
36. Soit le modèle suivant : 𝑋𝑡 = 0.5𝑋𝑡−1 +
0.3𝑋𝑡−2 + 𝜀𝑡 + 0.7𝜀𝑡−1. 42. L’analyse d’une série chronologique
Il s’agit d’un modèle : (2pts) quelconque pourra être considérée comme
réussie si : (2pts)
A. ARMA(2,1).
B. AR(1). A. On obtient un R² relativement élevé.
C. Ma(2). B. Les résidus finaux vérifient le comportement d’un bruit
D. ARIMA(1,2) blanc.
C. Tous les coefficients du modèle sont significatifs.
37. Afin d’étudier la relation temporelle entre deux D. Absence d’un comportement saisonnier
variables on utilise : (2pts)
43. Pour le graphe de l’auto corrélation (ACF) :
A. PACF (2pts)
B. Le chnologramma
C. ACF A. La forte indépendance est marquée par des valeurs
D. Le qqplot proches de 1.
B. La forte dépendance est marquée par des valeurs
38. Pour tester la normalité des résidus, on se sert proches de 1.
du : (2pts) C. La forte dépendance est marquée par des valeurs
proches de 0.
A. Test de student D. La forte indépendance est marquée par des valeurs
B. Test de Dickey-Fuller proches de -1.
C. Test de Box-Pierce
D. La courbe de la série brute 44. Pour modéliser la saisonnalité on utilise : (2pts)
39. Considérons les figures suivantes associées à la A. Des fonctions périodiques

série du nombre de cas de varicelle relevés à New- B. Une fonction exponentielle
York de janvier 1931 à juin 1972 : C. Des fonctions polynomiales
D. Des fonctions logarithmiques
45. Un processus stationnaire permet de : (2pts)
A. Modéliser des séries temporelles qui ne peuvent pas

présenter une tendance ou une saisonnalité.
B. Modéliser des séries temporelles présentant une
tendance.
C. Modéliser des séries temporelles présentant une
Les figures 1 et 2, montrent : (2pts) saisonnalité.
D. Modéliser des séries temporelles présentant une
A. L’existence d’un comportement saisonnier et non pas tendance et une saisonnalité
une tendance.
B. L’existence d’une tendance et non pas une saisonnalité. 46. Pour rendre une série stationnaire : (2pts)
C. L’existence d’une tendance et d’une saisonnalité.
D. La stationnarité de la série. A. On différencie la série.
B. On applique la fonction Log ().
40. Pour que les coefficients d’un modèle de C. On applique le test de Dickey-Fuller.
régression linéaire soient significatifs, il faut : D. On standardise les données.
(2pts)
47. Un processus MA est caractérisé par : (2pts)
A. |t-value|>1.96
B. t-value<1.96 A. des auto-corrélations simples et partielles s'annulant
C. -1.96<t-value<1.96 à partir d'un certain rang.
D. R soit proche de 1 B. des auto-corrélations simples décroissant rapidement
vers 0 et des auto-corrélations partielles s'annulant à
41. L’AIC est un critère de choix entre plusieurs partir d'un certain rang.
modèles, le modèle retenu est celui qui a : (2pts)
6
C. des auto-corrélations simples s'annulant à partir d'un
certain rang et des auto-corrélations partielles
décroissant rapidement vers 0.
D. des auto-corrélations simples et partielles qui ne
s’annulent pas.
48. Choisir le meilleur modèle : (2pts)
A. R² =0.9, AIC=-13, Nombre de paramètres

significatifs= 8.
B. R² = 0.8, AIC=0, Nombre de paramètres
significatifs= 6.
C. R²= 0.7, AIC=-10, Nombre de paramètres
significatifs= 7.
D. R² = 0.99, AIC=-1, Nombre de paramètres
significatifs= 16.
49. Un processus ARMA est caractérisé par

: (2pts)
A. des auto-corrélations simples et partielles s'annulant

à partir d'un certain rang
B. des auto-corrélations simples s'annulant à partir d'un
certain rang
C. des auto-corrélations partielles s'annulant à partir
d'un certain rang
D. aucune des propriétés précédentes
50. Soit la série du volume des ventes en relation avec

les TIC aux USA. Choisir l'ordre des opérations
à entreprendre pour rendre la série. (2pts)
A. Modélisation des points de rupture et de la saisonnalité,

différentiation si c'est nécessaire.
B. Modélisation des points de rupture, différentiations
multiples.
C. Test de stationnarité, différentiations, modélisation de
la saisonnalité.
D. Modélisation de la saisonnalité, test de stationnarité,
différentiations.
Bon travail ☺

Examen Principale1920 Corrigé

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Examen Principale1920 Corrigé

Transféré par

Droits d'auteur :

Formats disponibles

EXAMEN

Session : Principale Rattrapage

Unité d’enseignement : Intelligence des affaires

A. (1) Compréhension des données (2) Compréhension du

B. (1) Compréhension du métier (2) Compréhension des

C. Plus coûteux mais efficaces.

3. On considère l’échantillon de données suivant issues de

D. Plus les athlètes sautent loin et courent rapidement les

5. On considère le cercle de corrélation suivant. La

A. 1-Intercept 2-prix 3-cylindree 4-puissance 5-poids.

B. 1-Puissance 2-poids 3-cylindree 4-prix.

C. 1-Puissance 2-poids 3-prix 4-cylindree.

D. 1-intercept 2-puissance 3-poids 4-prix 5-cylindree.

8. On souhaite réaliser la classification d’un certain nombre

A. Corrélée positivement avec le premier axe factoriel.

B. Corrélée positivement avec le deuxième axe factoriel.

C. Corrélée positivement avec le plan factoriel.

D. Corrélée négativement avec le premier axe factoriel.

6. Soit les courbes ROC suivantes, tracées pour 3 modèles

9. On donne les transactions suivantes (T1…T5). Nous

A. Le modèle 1 est le meilleur modèle.

B. Le modèle 3 est le meilleur modèle.

C. Le modèle 2 est le meilleur modèle.

D. On ne peut pas conclure, il faut calculer les AUC de

D. Aucune de ces réponses.

13. Pour le cas d’un problème de classification à plusieurs

A. La précision indique les observations bien classées par

B. La précision indique les observations bien classées par

D. Aucune de ces réponses.

15. Pour un problème de classification, vous avez subdivisé

A. Ajouter des variables plus significatives sachant qu’il

B. Faux. B. Prendre 90% des données pour l’apprentissage et

A. Les observations en k groupes simultanément. Partie 2: Module ‘BD NoSQL’

24. Quel est le nombre minimal de réplica sets à avoir

A. Le référencement D. N’est pas une commande relative aux indexes

B. L’externalisation 32. Quel est le résultat de cette requête ? (2pts)

A. db.bats.aggregate([{$group:{_id:{}, db.employe.find({"salaire" : {"$lte" : 1800},

C. Affiche pour chaque realisateur l’année de sortie du C. Employe_id, poste, salaire

C. SUM C. db.city.createIndex({location:'2d', type: 1})

D. Aucune de ces réponses D. db.city.createIndex({location:'2d', type: -1})

39. Considérons les figures suivantes associées à la A. Des fonctions périodiques

45. Un processus stationnaire permet de : (2pts)

A. Modéliser des séries temporelles qui ne peuvent pas

48. Choisir le meilleur modèle : (2pts)

A. R² =0.9, AIC=-13, Nombre de paramètres

49. Un processus ARMA est caractérisé par

A. des auto-corrélations simples et partielles s'annulant

50. Soit la série du volume des ventes en relation avec

A. Modélisation des points de rupture et de la saisonnalité,

Vous aimerez peut-être aussi